İtiraf edeyim, Geçen hafta sabah kahvemi içerken Wall Street Journal’da o rakama takıldım. Nvidia Blackwell GPU’larının saatlik kiralama bedeli 4,08 dolara çıkmış. İki ay önce 2,75 dolardı. Bakınca küçük bir artış gibi görünüyor —. Işin aslı, bu tarz fiyat hareketleri veri merkezlerinde rüzgârın yönünü fena halde ele veriyor.
Haberi okur okumaz 2024 yazında San Francisco’da katıldığım kapalı bir yapay zekâ etkinliğini hatırladım. Orada bir altyapı mühendisi, “GPU bulmak bazen güzel bir arabaya benzeyen parça değil, markette son ekmek gibi” demişti. O gün biraz abartı gelmişti bana. Şimdi pek öyle durmuyor. Çünkü agentic AI dediğimiz akışlar büyüdükçe, model çalıştırmak artık yetmiyor; arka tarafta sürekli düşünen, çağrı yapan, araç kullanan sistemler de ciddi GPU yiyor. Bu fatura bir yerden çıkıyor.
Fiyat Artışı Ne Anlama Geliyor?
Nvidia Blackwell serisinin saatlik kira bedelindeki sıçrama, ilk bakışta yalnızca teknik ekipleri ilgilendiriyormuş gibi duruyor. Ama değil. Bu rakam, doğrudan ürün geliştiren girişimleri, büyük şirketlerin AI bütçelerini ve hatta kullanıcıların eriştiği özelliklerin ne kadar hızlı geleceğini etkiliyor. Yani mesele sadece “kaç dolar?” meselesi değil. Ürünün ne zaman çıkacağı meselesi.
Bakın, Bir arkadaşım geçen ay Berlin’de kurduğu küçük ajan tabanlı müşteri destek sistemini anlattı. İlk demo gayet tatlıydı, herkes memnundu. Sonra gerçek kullanıcı trafiği geldi (ciddiyim). Hesap şişmeye başladı; özellikle tool calling zinciri uzadıkça GPU süresi resmen su gibi aktı gitti, adamlar izlerken şaşırdı. Bir noktada “bunu ölçekleyelim” derken aslında faturayı ölçeklemiş olduklarını anladılar. İşte bu haber tam da o hisse basıyor.
İlginç olan şu ki, Blackwell’e gelen baskının nedeni tek başına “yeni nesil çip çok iyi” olması değil. Piyasada yeni kuşağa geçiş olurken herkes aynı anda üst modele abanıyor; hem geliştirici ekipler hem de servis sağlayıcılar en yeni kartları istiyor. Gecikme düşüyor, throughput artıyor, daha karmaşık modeller çalışıyor. Mantıklı. Ama sonuç fiyat baskısı.
Agentic AI neden daha fazla kaynak tüketiyor?
Klasik chatbot’ta kullanıcı soru sorar, model cevap verir, biter. Agentic yapıda ise durum farklı: plan yapılıyor, ara adımlar oluşuyor, araç çağrıları geliyor, web’den veri çekiliyor, iç sistemlere istek atılıyor — her döngüde compute yanıyor. Hani evde tek lambayı açmakla tüm evi aydınlatmak arasındaki fark var ya, burada da buna benzer bir enerji farkı söz konusu. Ciddi fark.
Açık konuşayım: Birçok kişi agentic AI’yi sadece yazılım zekâsının yükselmesi sanıyor ama işin görünmeyen kısmı donanım ekonomisi. Daha çok karar noktası eşittir daha çok inference turu eşittir daha çok maliyet. Basit denklem. Etkisi sert.
Neden Şimdi? Talep Patlamasının Arkasında Ne Var?
Bence burada iki ayrı dalga üst üste binmiş durumda. İlki büyük dil modellerinin artık demo olmaktan çıkıp gerçek ürünün parçasına dönüşmesi. İkincisi de ajan sistemlerinin moda olmaktan çıkıp iş süreçlerine gömülmesi — mesela satış ekipleri için teklif hazırlayan botlar, hukuk dokümanlarını tarayan asistanlar, yazılımcılar için repo içinde gezen kod ajanları. Bunların hepsi sürekli hesaplama istiyor, gece gündüz durmadan.
2023 sonunda kendi test ortamımda yerel LLM’lerle oynarken şunu net gördüm: Tek seferlik cevap üretmek nispeten ucuz kalabiliyor,. Arka arkaya 15-20 araç çağrısı yaptırınca tablo değişiyor — hem gecikme uzuyor hem de altyapı gıcırdamaya başlıyor, iyi anlamda değil (evet, doğru duydunuz). O gün bugündür agentic mimarilere bakarken ilk sorduğum soru artık şu değil: “Bu fikir kaç saniye sürer?” Şu oluyor: “Kaç tür inference yedirir?” (inanın bana) Bu konuyla ilgili ABD’nin Yapay Zekâ Çip Planı: Neden Tıkanıyor? yazımıza da göz atmanızı tavsiye ederim.
| Kullanım tipi | Compute baskısı | Maliyet hissi | Sorun nerede çıkar? |
|---|---|---|---|
| Klasik sohbet botu | Düşük-Orta | Daha yönetilebilir | Eşzamanlılık arttığında |
| Ajan tabanlı iş akışı | Yüksek | Çabuk şişer | Ara adımlar uzayınca |
| Büyük kurumsal RAG + araç kullanımı | Çok Yüksek | Kontrol zor | Her yerde |
Vallahi, Kaba mantık şu: Daha çok adım demek daha çok GPU süresi demek. Daha fazla eşzamanlı kullanıcı demek daha uzun kuyruk demek. Daha uzun context demek daha pahalı oturum demek. Ve daha agresif kalite beklentisi demek sıfır tolerans demek. Hepsi üst üste gelince fatura ne tarafa giderse gitsin, yukarı gidiyor.
Bir dakika — bununla bitmedi. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.
Peki Bu Kime Dokunacak?
Küçük startup tarafında etki genelde iki yerden vurur: nakit akışı ve deney hızının düşmesi. Çünkü başlangıçta herkes birkaç güçlü kartla işi çözebileceğini sanıyor,. Üretim trafiği başlayınca mesele değişiyor; her müşteriye ayrı sıcak başlangıç yapmak istemiyorsanız optimize etmek zorunlu hale geliyor, başka çare yok.
Kurumsal tarafta ise dert başka yerde büyüyor. Satın alma döngüsü yavaş olduğu için kapasite ihtiyacını erkenden görsen bile aksiyon almak zaman alıyor. Bir fintech ekibinde bunu bizzat gördüm — pilot fazda rahat çalışan sistem, üç ay sonra satış departmanı tarafından sahiplenildiğinde resmen dar boğaza girdi. Kimse öngörememişti. Ya da öngörmek istememişti, kim bilir. Bu konuyla ilgili Karpathy’nin Defteri SEO’yu Nasıl Düzeltiyor? yazımıza da göz atmanızı tavsiye ederim.
Ve işler burada ilginçleşiyor. Daha fazla bilgi için Wilmer’e Tool Calling Geldi: Yerel AI Akışı Değişiyor yazımıza bakabilirsiniz.
Blackwell kiralarındaki artış bana göre tek başına iyi haber de değil kötü haber de değil; piyasanın “AI artık hobi değil” diye bağırdığı anlardan biri.
Küçük takım mıysanız ne yapmalı?
- Düşük trafik için paylaşımlı compute tercih edin.
- Aynı anda çalışan agent sayısını sınırlayın.
- Cevap kalitesini körlemesine artırmaya çalışmayın; bazen kısa yol yeterli.
Şahsen, Şimdi gelelim pratik tarafa. Eğer beş kişilik bir ürün ekibiniz varsa muhtemelen en pahalı karta koşmadan önce prompt zincirinizi kısaltmanız gerekiyor. Çünkü çoğu zaman sorun modelin gücü değil — gereksiz tekrar eden çağrılar. Bunu fark etmek başlı başına bir tasarruf. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.
Büyük organizasyonlarda tablo nasıl değişir?
Büyük şirketlerde ana konu güvenilir kapasite oluyor. Fiyat önemli ama tek metrik değil; SLA garantisi olmayan ucuz GPU yarın sabah sizi ortada bırakabilir. Uygun görünen seçenek pratikte pahalıya patlar. Bunu öğrenmek için genellikle bir kez yanmak gerekiyor, maalesef.
Bir diğer risk de iç ekiplerin farklı modelleri rastgele kullanması. Güvenlik, maliyet kontrolü, uyumluluk — bunlar aynı masaya konmazsa faturanın ucu kaçar. Ben bunu ilk kez 2022’de İstanbul’da bir kurumsal PoC toplantısında gördüm; üç ayrı takım aynı haftada üç farklı API ile deneme yapıyordu (şaşırtıcı ama gerçek). Kimse toplam harcamayı bilmiyordu. Finans tarafı sinirlendi. Bu ne anlama geliyor? Haklılardı.
Neler Yapılabilir? Fatura Kontrol Altına Alınır mı?
Bakın, i̇lginç olan şu ki, Evet, alınır. Ama sihir yok. Önce mimariyi dürüstçe görmek lazım. Ajan akışlarında cache kullanmak, sonuçları yeniden değerlendirmek yerine saklamak, uzun context’i parçalamak, gerektiğinde küçük modelle ön-eleme yapmak — bunlar basit görünen ama etkili hamleler. Kağıt üstünde sade durur, pratikte ciddi para kurtarır.
Editör masasında bu haberi görünce hemen kendi not defterimi açtım. Şöyle düşündüm: Eğer bugün ben sıfırdan bir AI servisi kursaydım, önce kaliteli modeli seçmezdim. Önce en pahalı yere kaç kez tekrar düştüğümü ölçerdim. Çünkü bazen model seçimi tartışması çok erken geliyor; asıl mesele orkestrasyon. Araba motorundan önce yakıt hattını kontrol etmek gibi düşünün.
Birkaç net öneri:
- Aynı isteği tekrar tekrar çalıştırmayın; sonuçları tutun. (bu kritik)
- Kritik olmayan adımlarda küçük model kullanın.
- Ara tool çağrılarını azaltın; mümkünse batch edin. (bu kritik)
- Trafik piklerini gece-gündüz profiline göre dağıtın.
- Metrikleri saat bazında izleyin; günlük rapor yetmez.
- Lisans ve compute maliyetini birlikte takip edin.
- Kullanıcıya limit koymaktan çekinmeyin; evet hoş olmaz, ama işe yarar.
| Taktik | Kazanımı | Zayıf yani |
|---|---|---|
| Cache / memoization | Tekrar maliyeti düşürür | Güncelliği kaçırabilir |
| Küçük model ön-eleme | Büyük modeli korur | İkinci aşama ek karmaşa getirir |
| Limit ve kota | Faturayı dengeler | Kullanıcı memnuniyetini azaltabilir |
Bence Asıl Sinyal Nerede?
Blackwell fiyatlarındaki bu hareket bana tek bir şeyi söylüyor: Piyasa artık “yapay zekâ deneyelim mi acaba” aşamasından çıkmış. Herkes aynı anda ciddi üretim yükü koşturmaya çalışıyor ve donanım buna yetişemiyor. Bu geçici bir (belki yanılıyorum ama) sıkışma mı yoksa yapısal bir kısıt mı — bunu bilmiyorum, açıkçası kimse bilmiyor. Ama şunu biliyorum: Fiyat sinyali yanlış okunursa, ürün kararları da yanlış çıkıyor.
Neyse, çok uzattım. Kısaca: GPU pahalılaşıyorsa, mimarini buna göre kur. Model kalitesi tartışması daha sonra. Önce kaç tür inference yediğini bil.
Bu içerik işinize yaradı mı?
Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.



