Yapay Zekâ Ajanlarında Maliyet Kontrolü: Akıllı Model Seçimi

Q: Neden Her Görev Aynı Modele Gitmemeli?

İşin garibi, Bak şimdi... Bir e-posta özetlemekle çok adımlı araç çağrısı yapan bir ajan yazmak aynı şey değil. İlkinde hafif bir model çoğu zaman yeterli oluyor; ikincisinde işe daha kuvvetli akıl yürütme, daha iyi araç kullanımı. Bazen de ciddi bağlam kapasitesi gerekiyor, yani gerçekten başka bir dünya. Hepsini tek sepete koyarsanız maliyet tarafında tokat yemeye başlıyorsunuz.Şimdi gelelim işin can alıcı noktasına. Benzer tabloyu 2023'te kendi yan projemde bizzat yaşadım. Ankara'da geliştird

⏱️ 8 dk okuma📅 10 Nisan 2026🔄 Güncelleme: 21 Nisan 2026👁️ görüntülenme

Bir AI ajanı kurarken çoğu kişi önce modeli seçiyor, sonra işi akışına bırakıyor. İşin tuhaf tarafı şu: küçük bir özetleme işiyle karmaşık bir kod üretimini aynı modelin sırtına yükleyince fatura sessizce şişiyor. Geçen ay, İstanbul’da bir ürün ekibiyle konuşurken tam da bunu gördüm — ekip “neden bu kadar pahalıya patladı?” diye soruyordu, meğer ajan her istekte en kuvvetli ve en pahalı modele koşuyormuş. Klasik hikâye.

İşin aslı şu ki, model seçimi artık sadece “hangi LLM daha iyi?” sorusu değil. Hangi iş için, hangi bütçeyle, hangi hızda ve hangi yetenek setiyle? Eğer ajanınız bunu kendi başına ayıklayamıyorsa, ya fazla ödeme yapıyorsunuz ya da gereksiz yere zayıf bir modele güveniyorsunuz. Prod ortamda bu ikisi de can sıkıyor, açık konuşayım (bu konuda ikircikliyim)

💡 Bilgi: Dinamik model seçimi, ajanın her göreve aynı modeli çakması yerine; görev türüne, token hacmine, bütçeye ve gereken özelliklere göre karar vermesini sağlıyor. Yani biraz trafik polisi gibi çalışıyor.

Neden Her Görev Aynı Modele Gitmemeli?

İşin garibi, Bak şimdi… Bir e-posta özetlemekle çok adımlı araç çağrısı yapan bir ajan yazmak aynı şey değil. İlkinde hafif bir model çoğu zaman yeterli oluyor; ikincisinde işe daha kuvvetli akıl yürütme, daha iyi araç kullanımı. Bazen de ciddi bağlam kapasitesi gerekiyor, yani gerçekten başka bir dünya. Hepsini tek sepete koyarsanız maliyet tarafında tokat yemeye başlıyorsunuz.

Şimdi gelelim işin can alıcı noktasına.

Benzer tabloyu 2023’te kendi yan projemde bizzat yaşadım. Ankara’da geliştirdiğim küçük bir destek botu vardı; başlangıçta “en iyisi olsun” diye büyük modeli varsayılan yaptım. Sonra günlük istek sayısı artınca fark ettim ki kullanıcıların yarısı aslında sadece kısa cevap istiyor — basit, tek cümlelik şeyler (ciddiyim). Model seçimi biraz akıllanınca aylık maliyet gözle görülür biçimde düştü; rakamı yuvarlayayım ama etkisi bayağı hissedildi.

Gel gelelim işin diğer tarafına. Aşırı agresif ucuzlama da riskli. Her şeyi mini modele iterseniz bu kez kalite düşüyor, araç çağrıları aksıyor, bazı görevler yarım yamalak kalıyor. Mesele sadece “ucuz olanı bul” değil yani; doğru anda doğru modeli çağırmak.

Maliyet Körlüğü Neden Oluşuyor?

LLM fiyatları sürekli değişiyor. Yeni modeller çıkıyor, bazı sağlayıcılar indirime gidiyor, bazılarında token fiyatı yukarı aşağı oynuyor… Siz el ile takıp etmeye çalışırken güncel tablo çoktan eskiyor. Editör masasında bu haberi görünce hemen not aldım. Bu problem bana finans raporlarından çok gerçek hayat gibi geliyor: küçük kaçaklar birleşince koça delik açıyor.

Garip gelecek ama, Bir de şu var; geliştiriciler çoğu zaman prototipteki alışkanlığı prod’a taşıyor. Prototipte pahalı model kullanmak normaldir, hız önemli — itiraz edebilirsiniz tabi — ölür orada. Ama canlı sistemde binlerce çağrı dönüyorsa o alışkanlık faturaya dönüşüyor — hem de sessiz sedasız. İşte tam burada maliyet farkındalığı devreye giriyor.

WhichModel Ne Yapıyor?

WhichModel denen açık MCP sunucusu tam da bu boşluğu doldurmaya çalışıyor. Temel fikir basit aslında: ajanınız gidip mevcut modellere bakabiliyor, fiyatları. Yetenekleri karşılaştırabiliyor, sonra da göreve uygun öneri alıyor. API anahtarı yok, kurulum derdi yok denecek kadar az; uzaktaki MCP uç noktasına bağlanıyorsunuz ve olay başlıyor.

Bir dakika — bununla bitmedi.

Bunu ben biraz “menüden yemek seçmek” gibi görüyorum, hani şöyle düşünün: sadece en pahalı yemeğe bakıp sipariş vermek yerine menünün tamamını görüyorsunuz — porsiyon büyüklüğü var mı, içeriğinde ne var, bütçeye uyuyor mu… Hepsi ortada duruyor. Neden önemli bu? Basit ama güzel bir metafor.

Ajanınızın zekâsını artırmanın yolu her zaman daha büyük model değildir; bazen daha iyi yönlendirme yapmaktır.

Bu yaklaşım özellikle çok kiracılı SaaS ürünlerinde işe yarıyor. Küçük müşteri basit özetleme istiyorsa hafif model gider; enterprise müşteri sözleşme analizi veya çok adımlı otomasyon istiyorsa daha sağlam model devreye girer. Aynı ürün içinde iki farklı dünya. Evet, tam öyle.

Kurulumun En Sevdiğim Tarafı

Bence, Açık konuşayım, kurulum kısmının bu kadar kısa olması hoşuma gitti ama biraz da tedirgin etti — hani bazen “bu kadar kolaysa büyük ihtimalle gizli bir şey vardır” dersiniz ya — itiraf edeyim, beklentimin üstündeydi —. Neyse ki burada ana fikir net: MCP istemcisine bir sunucu tanımı ekliyorsunuz ve bitti sayılır.

{
"mcpServers": {
"whichmodel": {
"url": "https://whichmodel.dev/mcp"
}
}
}

Bence, Bu yapı özellikle hızlı deney yapan ekipler için güzel çünkü ekstra bakım yükü bindirmiyor — valla güzel iş çıkarmışlar —. Bir yandan da dikkatli — ki bu tartışılır — olmak lazım; uzaktaki servise bağımlılık oluşuyor, hayatı prod akışlarında erişim gecikmesi ya da servis kesintisi ihtimali var. Bunları göz ardı etmemek gerek. Kağıt üstünde süper, pratikte göreceğiz artık.

Üç Kullanım Senaryosu Gerçek Hayatta Nasıl Çalışır?

WhichModel’in olayı sadece “model öner” demek değil; senaryoya göre farklı karar mekanizmaları sunması. Ben bunu üç ana kullanım şeklinde okudum ve her biri farklı ekip tipine hitap ediyor gibi duruyor.

Kullanım şekli	Ne işe yarar?	Kimin için iyi?
Görev tabanlı yönlendirme	Ajanın yaptığı işe göre model seçer	Genel amaçlı agent geliştiren ekipler
Bütçe limiti	Sabit harcama tavanıyla seçim yapar	Maliyeti sıkı kontrol eden startup’lar
Hacim projeksiyonu	Aylık/yıllık ölçek maliyetini hesaplar	Büyüyen SaaS ve enterprise ekipleri

1) Göreve Göre Seçim

Dürüst olmak gerekirse, Diyelim ki kod üretimi yapıyorsunuz ve iş orta seviye karmaşıklıkta değil de bayağı zorlayıcı. Bu durumda sistem size doğrudan uygun modeli önerebiliyor — üstelik yalnızca işim vermiyor, neden o modeli seçtiğini de söylüyor. Bu açıklama kısmı önemli. Geliştirici olarak körlemesine güvenmek yerine kararın mantığını görmek istiyorsunuz, bu fark büyük.

Pazartesi sabahı ofiste böyle bir örnek test ettim diyeyim — aslında test etmekten çok kıyasladım desek daha doğru ölür. Kısa metin özetinde pahalı modele gitmek gereksizdi ama tool-calling gereken görevlerde ucuz seçenek duvara tosladı. İşte ayrım tam burada netleşiyor. Öne UI 8.5 beta genişliyor: Samsung sürprizi ne anlatıyor? yazımızda bu konuya da değinmiştik.

2) Bütçe Tavanı Koymak

Bence en pratik senaryo bu olabilir. Mesela günlük bildirim özeti üreten bir ajanda her çağrı için belirli bir limit koyuyorsunuz. Sistem o limitin altında kalan en iyi modeli buluyor — hem de bunu her seferinde siz düşünmek zorunda kalmadan yapıyor (yanlış duymadınız). Mantıklı değil mi? Hele bir de düşük değerli ama yüksek hacimli işler için fena değil, hatta baya iş görüyor. Bu konuyla ilgili Fransa Windows’tan Neden Uzaklaşıyor? Linux Hamlesi yazımıza da göz atmanızı tavsiye ederim.

Küçük bir startup için bu yöntem hayat kurtarır; nakit akışı hassas ölür, sürpriz faturalar moral bozar. Enterprise tarafta işe ayrı ekiplerin ayrı bütçe sınırları olabilir — pazarlama otomasyonu başka kulvarda giderken iç destek botu başka kulvarda yürür. Güzel bir ayrışma.

3) Ölçek Maliyeti Hesabı

Bak şimdi, Neyse uzatmayalım… Asıl can yakıcı konu burasıdır zaten: hacim büyüdüğünde küçük farklar devasa hâle geliyor. Günde on bin çağrıda token başına birkaç dolarlık fark bile ay sonunda ciddi rakama dönüşür. Bir arkadaşım Barselona’daki fintech projesinde bunu yaşadı; başlangıçta kimse ciddiye almadı. Trafik büyüyünce faturadaki fark neredeyse yeni bir mühendis maaşı seviyesine çıktı — abartmıyorum bunu söylerken. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.

Maliyet Farkındalığı Neden Stratejik Bir Konu?

Lafı gevelemeden söyleyeyim: AI FinOps artık lüks değil, ihtiyaç oldu. Model seçimi sadece teknik optimizasyon değil; ürün stratejisiyle direkt ilişkili bir konu hâline geldi. Buna ilk kez geçen yıl Dubai’de tanık oldum — ürün ekibi prompt’u optimize ediyordu ama finans tarafı hâlâ aynı modeli tüm akışlarda kullanıyordu. Sonuç? Görünmeyen sızıntılar. Bu konuyla ilgili Türkiye’de Rüzgâr ve Güneş: Ek Elektrik Neden Dönüm Noktası? yazımıza da göz atmanızı tavsiye ederim.

E tabi iş sadece para tasarrufu da değil. Doğru model seçimi bazen gecikmeyi düşürüyor, bazen hata oranını azaltıyor; kullanıcı memnuniyeti artıyor. Ajan gereksiz yere ağırlaşmıyor. Kısacası performansla maliyet arasında dengeli bir köprü kurulmuş oluyor. En sevdiğim kısım da şu: her görev için sanki ayrı bir karakter atanmış gibi hissediyorsunuz. Bir botun tüm gün tank gibi dolaşmasına gerek yok. Bazen bisiklet yeter! Daha fazla bilgi için Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza bakabilirsiniz.

💡 Bilgi: Büyük ölçekte asıl kazanç genelde tek seferlik tasarruftan gelmez; yanlış modeli binlerce kez çağırmayı durdurduğunuzda ortaya çıkar.

Kimin İçin Mantıklı, Kimin İçin Fazla Karmaşık?

Küçük bir detay: Küçük bir prototip yapıyorsanız belki ilk günlerde buna hiç gerek yoktur. Dürüst olayım: erken aşamada tek modelle gitmek çoğu zaman daha hızlıdır, kafa karıştırmaz. Ama ürün büyümeye başlayınca, özellikle kullanım çeşitlenince, bu tarz dinamik yönlendirme baya anlam kazanıyor (evet, doğru duydunuz). Startup tarafında öncelik hızsa, enterprise tarafında öncelik kontrol ölür; ikisini aynı reçeteyle çözmeye kalkarsanız bir yerde duvara çarparsınız (en azından benim deneyimim böyle)

Küçük startup: Basit entegrasyon + bütçe limiti = hızlı kazanım.
Büyüyen ürün ekibi: Görev tabanlı routing = kalite/maliyet dengesi.
Kurumsal yapı: Hacim projeksiyonu + politika yönetimi = tahmin edilebilir fatura.
Düşük riskli işler: Özetleme, sınıflandırma, kısa cevaplar için hafif modeller mantıklı olabilir.
Kritik işler: Kod üretimi, araç kullanımı veya uzun bağlam isteyen görevlerde kuvvetli modeller gerekir.
Tavsiye: Önce ölçün, sonra yönetin — tersini yapmak genelde pahalıya patlıyor!

Sahada Ben Olsam Nasıl Denerdim?

Editör masasında oturup teoriden konuşmak kolay, bunu kabul ediyorum. Ama sahaya inince ilk yapacağım şey şu olurdu: önce mevcut istek tiplerini ayırırım. Özetleme mi geliyor? Kod yardımı mı? Arama mı? Sonra her biri için ortalama input/output token hesabını çıkarırım çünkü sayılar olmadan konuşunca herkes haklı çıkıyor, ama faturayı görünce gerçek ortaya çıkıyor.

Bir dakika — bununla bitmedi.

Kendi deneyimimden konuşuyorum, Daha sonra iki katmanlı yaklaşımı denerdim: birinçisi görev türüne göre aday liste, ikincisi bütçe filtresi. Yani önce “hangi modeller teknik olarak uygun?” sorusunu çözerim, sonra “hangileri cebime uyuyor?” sorusunu. Bu bana hem esneklik hem de kontrol veriyor — biraz manuel emek ister. Karşılığını veriyor, hem de fazlasıyla.

Dikkat Edilmesi Gereken Pürüzler

Tamam güzel anlattık ama kusursuz mu? Değil. Remote MCP sunucusu kullanırken ağ gecikmesi, servis sürekliliği ve üçüncü tarafa bağımlılık konusu hep masada duruyor. Bir de fiyat verisinin ne kadar sık yenilendiği önemli; dört saatte bir güncelleme iyi görünüyor. Çok hızlı değişen piyasalarda yine arada kaçan noktalar olabiliyor.

Ayrıca ekiplerin karar mantığını kör şekilde dış servise bırakması da risklidir; ben olsam kritik eşikleri içeride tutarım, dış servisten öneri alırım ama son kararı neredeyse tamamen teslim etmem. Hmm, nasıl desem… araç faydalı, ama sihir değnekleri genelde sandığımız kadar sihirli olmuyor.

Sıkça Sorulan Sorular

Cost-aware model selection tam olarak ne demek?

Ajanın her görevde aynı modeli kullanmak yerine işin türüne (inanın bana). Bütçesine göre uygun modeli seçmesi demek.

Basit işleri ucuz modellere,
zor işleri daha güçlü modellere yönlendirir.” (buna dikkat edin)

WhichModel kullanmak için API anahtarı gerekiyor mu?

Nope.

Paylaşılan kullanım senaryosunda API anahtarı gerekmiyor;
istemciyi uzak MCP uç noktasına bağlıyorsunuz.

Bu da denemeyi kolaylaştırıyor.

Küçük ekipler için gerçekten gerekli mi?

Eğer trafik azsa şart olmayabilir.

Ama kullanım artmaya başladıysa erken dönemde bile fayda sağlar;

özellikle bütçe sürprizlerini azaltmak açısından.

Büyük şirketlerde nasıl konumlanır?

Büyük yapılarda maliyet kontrolü zaten ciddi mesele olduğu için bu tarz araçlar güzel oturur.

Ancak politika yönetimi ve güvenlik kontrolleriyle birlikte düşünmek gerekir;

Kaynaklar ve İleri Okuma

Azure OpenAI modelleri ve kavramlar

Azure OpenAI gecikme (latency) ve performansla ilgili kavramlar

Kullanım limitleri ve kotalar

PromptFlow (model/akış yönetimi için pratik araçlar)

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub