LLM maliyeti neden görünmez olur? OpenTelemetry ile çözüm

⏱️ 5 dk okuma📅 9 Nisan 2026🔄 Güncelleme: 21 Nisan 2026👁️ görüntülenme

Geçen ay İstanbul’da bir ekip toplantısındaydım. Aynı cümleyi iki kez duydum: “Model iyi çalışıyor ama fatura biraz can sıkıyor.” İşin aslı şu — LLM uygulamalarında sorun çoğu zaman gecikme değil, sessizce büyüyen maliyet. Klasik izleme araçları bunu pek umursamıyor. CPU, RAM, hata oranı… hepsi yerli yerinde görünüyor. Sonra ay sonu geliyor ve tablo değişiyor, bir anda herkes birbirine bakıyor.

Bi saniye — Bu yazıda, LLM maliyetini neden geleneksel APM araçlarının kaçırdığını ve OpenTelemetry’nın GenAI semantik kurallarıyla bu kör noktayı nasıl kapattığını kendi gözümden anlatacağım. Açık konuşayım — bu konu sadece “kaç token gitti?” meselesi değil; mimarı karar, bütçe disiplini. Biraz da operasyon zekâsı işi.

Asıl problem: faturayı aylık görmek

Küçük bir startup’ta bunu çok net hissedersiniz. Trafik azdır. Ama kullanıcı başına çıkan maliyet dalgalanır — bazen 1 sentlik istek gelir, bazen zincirleme çağrılar yüzünden aynı oturum 5 dolara kadar sıçrar, kimse fark etmez, ay kapanır, şok başlar. 2024 sonbaharında Kadıköy’de görüştüğüm bir ürün ekibi tam da bunu yaşıyordu: staging ortamında her şey pırıl pırıl, üretimde işe birkaç uzun konuşma zinciri bütçeyi kemiriyordu.

Geleneksel APM burada şaşırmıyor bile. Çünkü onun derdi başka. Latency, error rate, throughput bakar — bunlar önemli tabii, kimse inkâr etmiyor, ama finansal resmî vermez. İki istek de üç saniye sürüyorsa APM için ikisi aynı sınıfta görünür. Oysa biri 0,002 dolar olabilirken diğeri 0,40 dolara çıkabiliyor. Aradaki fark küçük değil. Bayağı can yakıcı.

Evet, doğru duydunuz.

Benim editör masasında ilk dikkatimi çeken şey de buydu zaten — LLM dünyasında “performans” tek başına yeterli değil. Ürünün hızlı olması güzel, evet. Ama hızın yaninda ne kadar yediği de önemli. Evdeki elektrik sayacı gibi düşünün; ışık yaniyor diye sorun yok sanırsınız ama klima da sürekli çalışıyorsa ay sonunda şok olursunuz. Tam da öyle.

Neden klasik izleme yetmiyor?

Üç büyük kör nokta var. Her biri tek başına bile baş ağrıtır. İlki token tüketiminin SDK çağrılarının içine gömülü olması — yani response içindeki usage bilgisini alıp ayrıca kaydetmezseniz veri yok sayılıyor gibi davranıyor, sistem sızı uyarmıyor, siz de habersiz kalıyorsunuz. İkincisi zincirlenmiş çağrılar: tek bir kullanıcı isteği bazen sekiz farklı model çağrısı doğuruyor. Üçüncüsü işe model fiyatlarının uçurum gibi değişmesi. Daha fazla bilgi için Ajanlar Artık İş Yapıyor: API Kullanan Görev Motoru yazımıza bakabilirsiniz. Daha fazla bilgi için Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza bakabilirsiniz.

Mesela GPT-5 ailesinin alt modelleri arasında ciddi fark var. Nano ile tam sürüm arasındaki mesafe öyle böyle değil — resmen ayrı liglerdesiniz. Üstelik reasoning modellerinde işler daha da garipleşiyor,. Görünmeyen “thinking token” denen iç tüketim kalemleri de faturalandırılıyor olabilir. Dışarıdan bakınca kısa cevap verilmiş gibi duruyor — Ama içeride epey emek harcanmış oluyor.

LLM maliyeti çoğu zaman sonuçta değil, süreçte saklanıyor. Tek tek istekleri izlemek yetmiyor; toplam konuşma akışını görmek gerekiyor.
Ayrıca okuFoundry Hosted Agents: MAF Ajanını Production’a Almak

Bir şey dikkatimi çekti: Bir de şu var: bazı ekipler maliyeti yalnızca altyapı faturası sanıyor. Halbuki burada altyapıdan çok kullanım ekonomisi konuşuyoruz. Kurumsal projelerde bunu daha sert hissediyorsunuz — on binlerce kullanıcı küçük sapmaları büyütüyor, sonra bir bakıyorsunuz bütçe planı kâğıt üstünde kalmış. Bu konuyla ilgili PQPM: Farklı Diller İçin Tek Bir Süreç Yöneticisi yazımıza da göz atmanızı tavsiye ederim.

Zincirli çağrılar neden pahalıya patlıyor?

Düşünün ki bir ajan sistemi kurdunuz. Tek soru için önce niyet tespiti yapılıyor, sonra arama yapılıyor, ardından özet çıkarılıyor, en sonda da cevap düzeltiliyor — her adım ayrı API çağrısı demek, bu yapı güzel görünüyor, esnek, modüler falan, ama izlemeyi bilmiyorsanız resmen kara kutu. Daha fazla bilgi için Gemini’nın Yeni Defter Hamlesi: Notlar Karışmasın yazımıza bakabilirsiniz. Daha fazla bilgi için PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza bakabilirsiniz.

Bunu geçen yıl Ankara’daki bir demo ortamında test ettim. Akış kâğıt üzerinde harika çalışıyordu. Ama gerçek kullanıcıda sohbet uzadıkça model seçimi değişti ve maliyet beklentinin iki katına çıktı (ciddiyim). Kimse ilk hafta fark etmedi. Çünkü latency grafikleri normaldi!

Durum	APM’de Görünürlük	Maliyet Riski	Ne Eksik?
Kısa tek seferlik sorgu	İyi	Düşük	Token detayı
Zincirli agent akışı	Kısmen iyi	Orta-Yüksek	Ana işlem altında toplama
Uzun sohbet geçmişi olan oturum	Aynı görünür	Çok yüksek olabilir	Kullanıcı bazlı kırılım
Reasoning modeli kullanımı	Aynı görünür	Çok yüksek olabilir	Thinking token görünürlüğü

OpenTelemetry burada ne yapıyor?

Lafı gevelemeden söyleyeyim: OpenTelemetry’nın GenAI semantik konvansiyonları bu işin omurgasını veriyor. Genelde gözden kaçan nokta şu — sistem zaten telemetry topluyorsa neden ekstra iş çıkaralım? Çünkü burada ekstra iş yok aslında; doğru alanları doğru yere koyuyorsunuz, o kadar (kendi tecrübem)

gen_ai.request.model
gen_ai.response.model
gen_ai.prompt_tokens
gen_ai.completion_tokens
gen_ai.total_tokens
# Bazı uygulamalarda bunlar otomatik span attribute olarak düşer.
# Sonra metrik tarafında maliyete çevrilir.

💡 Bilgi: Token sayılarını span attribute olarak toplarsanız hem trace içinde bağlam korursunuz hem de metriğe dönüştürüp kişi/oturum/model bazında raporlayabilirsiniz.

Bunun güzelliği şu: aynı observability yığınını kullanmaya devam ediyorsunuz. OpenTelemetry Collector, Prometheus ya da Grafana — ne kullanıyorsanız oraya akıtabilirsiniz. Yani yeni bir ada kurmak zorunda değilsiniz — Sadece mevcut şehre düzgün yollar açıyorsunuz.

Bir dakika — bununla bitmedi.

Peki maliyet hesabını nasıl yaparsınız?

Teslim edilen token sayısını model fiyatıyla çarpmanız yeterli gibi duruyor. Ama pratikte biraz daha nüans var. Input ve output token ayrı fiyatlanabiliyor. Bazı modellerde cache hit etkisi olabiliyor. Bazılarında işe internal reasoning tüketimi ayrıca hesaplanıyor. Yani formül basit görünür ama veri tarafı temiz olmazsa sonuç çarpılır. Garantili.

# Basit yaklaşım
total_cost = (input_tokens / 1_000_000) * input_price + \
(output_tokens / 1_000_000) * output_price
# Uygulamada buna şunlar eklenebilir:
# — model versiyonu
# — bölgesel fiyat farkları
# — retry sayısı
# — tool call zinciri
# — cache etkisi

Küçük ekip ile kurumsal yapı aynı mı düşünmeli?

Cevap kısa: hayır. Küçük startup’larda mesele çoğunlukla “beklenmedik sıçramayı erken görmek” oluyor. Enterprise tarafta işe konu doğrudan finans yönetişimine dönüşüyor — aynı teknik araç seti kullanılabilir ama alarm eşiği bambaşka olmalı, bunu atlamamak lazım. Hani ne farkı var diyorsunuz, değil mi? Mesela küçük ekip günlük uyarıyla idare ederken kurumsal tarafta departman bazlı sınırlar gerekiyor.

Küçük ekip: request başına maliyet takibi yeterli olabilir. — bunu es geçmeyin
Büyüyen ürün: kullanıcı segmenti bazlı analiz şart hâle gelir. — ciddi fark yaratıyor
Kurumsal yapı: proje/ekip/model/senaryo kırılımı ister istemez devreye girer.
Ajan yoğun sistemler: chain-level attribution, yani ana operasyon altında toplama yapılmalı.

🗒️ Not: Maliyet kontrolü sadece mühendislik problemi değildir — ürün kararının ta kendisidir. Bazen daha ucuz modelle yüzde doksanbeş doğruluk almak, pahalı modele göre çok daha mantıklı ölür.

Neyse uzatmayayım — benzer senaryoyu kendi side project’imde de yaşadım. Berlin’den çalışan bir arkadaşımın önerisiyle GPT yerine mini sınıfa geçtik, performans yüzde yüz kusursuz olmadı tabii,. Aylık fatura neredeyse yarıya indi. İşte bu yüzden gözlemleme işi lüks değil; bildiğin güvenlik kemeri gibi.

Bir başka ders de şu oldu. Model seçimlerini feature flag arkasına almak hayat kurtarıyor — kullanıcıların yüzde beşinde yeni modeli denersiniz, geri kalanında eski yol devam eder, böylece hem kıyas yaparsınız hem bütçeyi yakmazsınız. Çok basit görünüyor. Ama sahada işe yarayan numara genelde budur; süslü paneller değil.

Sıkça Sorulan Sorular

LLM maliyeti neden geleneksel APM’de görünmez olur?

Çünkü klasik APM daha çok gecikme, hata oranı ve throughput’a odaklanır; token/istek maliyeti çoğu zaman “işin içinde” kalır. LLM sağlayıcısından gelen usage verisi doğru şekilde loglanıp metriklere çevrilmezse sisteminiz fatura sinyalini alamaz. Benzer şekilde zincirlenmiş çağrılarda tek bir kullanıcı isteği birden fazla model çağrısına bölünür ve maliyet patlaması fark edilmez.

OpenTelemetry LLM maliyetini izlemek için nasıl yardımcı olur?

OpenTelemetry ile istek başına token tüketimi, model adı, maliyetle ilişkili ölçümler ve zincir adımları gibi bilgileri semantik kurallarla tek bir iz içinde toplayabilirsiniz. Böylece “hangi oturum ne kadar yedi?” sorusuna yanit verecek düzeyde gözlemlenebilirlik oluşur. Benim gördüğüm en büyük kazanım, ay sonu sürprizinin erken uyarıya dönüşmesi.

Token usage verisini otomatik yakalamak için neye dikkat etmeliyim?

En kritik nokta, provider response’undaki usage alanını (prompt/completion token gibi) uygulama katmanında yakalayıp OpenTelemetry metrik/loglarına doğru biçimde aktarmaktır. Sadece CPU/RAM’a bakarsanız maliyetin asıl kaynağını yakalayamazsınız. Ayrıca zincirleme akışlarda her adımı ayrı span olarak işaretlemek, toplam maliyeti doğru hesaplatır.

Zincirlenmiş LLM çağrıları maliyeti nasıl artırır ve nasıl raporlanmalı?

Tek bir kullanıcı isteği; planlama, araç çağrısı, yeniden yazma ve nihai yanit gibi aşamalarda birden fazla model çağrısına bölünebilir. Bu durumda “tek istek başına maliyet” yerine “span’lar üzerinden adım adım maliyet” raporlamak gerekir. Ben bir ekipte, aynı oturumun farklı model çağrıları yüzünden nasıl katlandığını span görünümünden netçe çıkarmıştım; raporlamak en az izlemek kadar önemliydi.

Model seçimi maliyeti gerçekten bu kadar etkiler mi?

Evet, çünkü farklı model aileleri arasında hem token başına fiyat hem de davranış (ör. reasoning token’lar) ciddi fark yaratabilir. Aynı iş yükü için “daha büyük model” bazen daha kısa cevapla daha az token kullanabilirken, bazen de daha uzun düşünme/ara adımlar nedeniyle maliyeti artırır. Bu yüzden maliyeti model düzeyinde ve istek/oturum düzeyinde birlikte takip etmek gerekiyor.

Kaynaklar ve İleri Okuma

OpenTelemetry Semantic Conventions (Resmi Dokümantasyon)

Azure Monitor ile OpenTelemetry (Microsoft Learn)

Azure OpenAI İzleme (Microsoft Learn)

OpenTelemetry Specification (GitHub)

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub