İçeride Yapay Zekâ Ürününü Doğru Yayına Almak: Sakin Plan

⏱️ 6 dk okuma📅 14 Nisan 2026🔄 Güncelleme: 21 Nisan 2026👁️ görüntülenme

Geçen sonbahar, İstanbul’da bir toplantı odasında aynı cümleyi üçüncü kez duydum: “Demo çok iyi gidiyor, artık herkes kullanabilir.” İşin aslı şu — iç AI ürünlerinde en tehlikeli an tam da o andır. Gösterim parlıyor, yönetim heyecanlanıyor, ekip kendini alkışlamaya başlıyor (evet, doğru duydunuz). sonra ilk gerçek kullanıcılar geliyor ve ortalık hafifçe dağılıyor.

Ben bu tabloyu iki yıldır farklı ekiplerde gördüm. Bazısı destek ekibi için ajan kuruyor, bazısı satış tarafına özet çıkaran bir yardımcı hazırlıyor, bazısı da şirket içi bilgi aramasını yapay zekâyla hızlandırmaya çalışıyor. Kağıt üstünde hepsi tatlı duruyor. Pratikte işe mesele sadece modelin ne kadar “akıllı” olduğu değil; neyi ölçtüğünüz, nasıl izlediğiniz. Kaç kişiye açtığınız.

Bir dakika — bununla bitmedi.

Bakın şimdi, size süslü bir “AI dönüşümü” masalı anlatmayacağım. Daha çok mutfakta tencereyi kontrol eder gibi bakacağız işe: kaynıyor mu, taşacak mı, altı tutmuş mu? Çünkü iç ürün yayına almak biraz tam olarak bu — önce küçük ateş, sonra kontrollü büyütme.

💡 Bilgi: İç AI ürünü yayına almakta asıl mesele “model doğruluğu” değil; gözlemleme altyapısını kurup gerçek kullanımda nerede kırıldığını görmektir.

Neden çoğu ekip ilk haftada tökezliyor?

Şöyle ki, Klasik hata şu: Ekip tek bir metrik seçiyor ve ona sarılıyor. Doğruluk oranı diyorlar mesela… ya da kullanıcı memnuniyeti skoru. Bir sayı iyi görünüyorsa rahatlıyorlar. Sonra ürün 30-50 kişiye açılıyor. Birkaç gün içinde edge case’ler çıkmaya başlıyor — model uyduruyor, yanlış aracı çağırıyor, bağlamı kaçırıyor; ardından herkes “AI bizim işte çalışmıyor galiba” demeye başlıyor. Oysa sorun modelin kendisi değil.

Peki neden?

Tuhaf ama, Sorun gözün kapalı koşmak. Geçen mart ayında Kadıköy’de görüştüğüm bir startup ekibi bunu birebir yaşadı; iç destek ajanını 40 kişiye açmışlardı ve üç gün sonra Slack kanalları şikâyetle dolmuştu. İlginç olan şu: sistem gerçekten kötü değildi, ama kimse hangi isteklerde patladığını göremiyordu. Kısacası ölçemedikleri şeyi düzeltemediler.

Bence, E tabi bir de beklenti meselesi var. Yönetici tarafı genelde “ilk sürüm yüzde (belki yanilıyorum ama) doksanı bulsun” diye düşünüyor — ama AI projelerinde o yüzde doksan hissi biraz aldatıcıdır, çünkü kalan yüzde on tam da üretimi yakar bitiren kısımdır, teslim tarihlerini ateşler ve ekibin moralini çukura çeker. O yüzden ben her zaman şunu söylüyorum: önce geniş kitle değil, önce izlenebilirlik. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.

Sayıya bakıp rahatlamak kolaydır

Bir dashboard’da yeşil ışık görmek insanı kandırır. Güzel görünür. Ama gerçek kullanımda kullanıcıların yazdığı şeyler bazen eğitim verisinde hiç olmayan garip sorular oluyor… orada modelin omzu düşüyor diyelim. Yeşil ışık hâlâ yaniyor ama altı yanmış. Bu konuyla ilgili Swift’te Global Actor Nedir? Uygulamada Ne İşe Yarıyor? yazımıza da göz atmanızı tavsiye ederim.

Doğru başlangıç kaç kişiyle ölür?

Açık konuşayım: Otuz kişiyle başlamak çoğu zaman fazla gürültü demek. Ben olsam ilk turda üç kişiden fazlasına çıkmam — hatta bazı durumlarda iki rol bile yeterli olurdu (şaşırtıcı ama gerçek). Neden? Çünkü az sayıda kullanıcıyla tek tek trace inceleyebilirsiniz ve gerçekten neyin bozulduğunu anlarsınız. Bu kadar.

Küçük cohort dediğim şey ukalalık değil; disiplin meselesi. Destekten biri olsun, operasyonlardan biri olsun, satıştan biri olsun… Hem farklı iş akışlarını görürsünüz hem de birbirine benzemeyen hatalar yakalarsınız. Bir müşteri geçen yıl bunu yaptı; önce 28 kişiyle başladı, sonra bana dönüp “bu kaosmuş” dedi (yanlış duymadınız). Beş kişiye indiğinde bir haftada daha önceki ayın tamamından fazla bug buldu. Ciddi fark var.

Başlangıç yaklaşımı	Artısı	Eksiği
3-5 kullanıcı	Düşük gürültü, hızlı öğrenme	Daha yavaş ölçeklenir
20-30 kullanıcı	Daha fazla geri bildirim	Sinyal kaybolur, takıp zorlaşır

Küçük startup için bu yöntem baya işe yarıyor çünkü takım zaten yakın çalışıyor; herkese tek kanal açıyorsunuz ve geri bildirim elden ele dolaşmıyor. Kurumsal tarafta işe hikâye biraz daha sert oluyor — orada izinler, veri güvenliği ve departman sınırları devreye giriyor. Ama yine de mantık değişmiyor: önce az, sonra kontrollü büyüme (ben de ilk duyduğumda şaşırmıştım). Bitti. Bu konuyla ilgili Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza da göz atmanızı tavsiye ederim.

Gerçek hayatta başarılı rollout’un sırrı modeli parlatmak değil; hangi istekte neden tökezlediğini sakın sakın görmekten geçiyor.

Takıp etmiyorsanız aslında körsünüz demektir

Açıkçası, Editör masasında bu haberi ilk okuduğumda hemen not aldım. Konu tam benim geçtiğimiz nişan ayında test ettiğim kurumsal ajan pilotuna benziyordu — Levent’teki ofisteydi. Ekip harika prompt yazmıştı. Ama trace yoktu! Yani sistemin hangi aracı düşündüğü belli değildi, neden o cevabı verdiği görünmüyordu. Sonuçta herkes tahmin yürütüyordu. Hmm, nasıl desem… kör uçuş gibi bir şey.

Lafı gevelemeden söyleyeyim: observability burada opsiyonel değil (ben de ilk duyduğumda şaşırmıştım). Siz query’yi görmelisiniz, ajanın hangi araçları değerlendirdiğini görmelisiniz, hangi context’i taşıdığını görmelisiniz, çıktının kabul edilip edilmediğini bilmelisiniz. Yoksa prompt’u rastgele oynarsınız; deneme yanilma diye sunduğunuz şey aslında sis içinde direksiyon çevirmektir. Durum biraz böyle.

// Minimum trace örneği
interface AgentTrace {
runId: string;
userId: string;
query: string;
toolsConsidered: string[];
}

Bu örnek bilerek sade tutulmuş gibi dursa da fikir net: “Ne oldu?” sorusuna cevap veremiyorsanız ürün yönetmiyorsunuz, hava tahmin ediyorsunuz. LangSmith ölür, Langfuse ölür, başka bir şey ölür… Marka fark etmez. Önemli olan kayıt olmasıdır.

Bence en kritik alanlar neler?

User query’nın ham hâli;
Ajanın düşündüğü araç listesi;
Seçilen aracın gerekçesi;
Kullanıcının çıktıyı kabul edip etmediği;
Cevabın gecikme süresi; (bu kritik)
Gerekirse sonradan yapılan düzeltmeler. — bunu es geçmeyin

İlk hafta boyunca trace incelemek niye şart?

Bunu atlayan ekiplerin ortak kaderi var: haftalarca yanlış şeyi optimize ediyorlar. Bir yerde tool selection bozulmuştur. Onlar prompt’u değiştirir; context window doluyordur ama onlar temperature ile oynar; kullanıcı aslında başka iş yapmak istiyordur ama kimse önü sormaz. Sonuç? Haftalar geçer, sistem yerinde sayar. Daha fazla bilgi için Oracle’ın Bloom Hamlesi: Enerji, Veri Merkezî ve Para yazımıza bakabilirsiniz. Bu konuyla ilgili Pixel Referral Program Geri Döndü: 10% İndirim, 50$ Kredi yazımıza da göz atmanızı tavsiye ederim.

Aynen böyle oldu benim Ankara’daki bir danışmanlık görüşmemde de. Ekip chat tabanlı yardımcısını yayımlamıştı ve herkes sisteme bayılmış gibiydi… ta ki ilk hafta sonunda loglara bakana kadar. Asıl problem cevap kalitesi değilmiş; ajan yanlış yerden dosya çektiği için insanlar sonucu güvenilmez buluyormuş (yanlış duymadınız). Şimdi düşünün: kullanıcı haklı olarak kızıyor, ekip prompt’a abanıyor, ama kök sebep başka yerde. İşte o yüzden ilk hafta manuel inceleme şarttır. Evet zahmetlidir. Evet sıkıcıdır. Ama işe yarar.

Birkaç tipik arıza türü var:

Yanlış araç seçimi;
Zayıf veya eksik context;
Kullanıcının kastını yanlış yorumlama;
Teslim edilen cevabın aşırı uzun ya da aşırı kısa olması;
Tam doğru görünen ama pratikte kullanılmayan yanitlar. — bunu es geçmeyin

Kademeli yayılım nasıl yapılmalı?

İnce iş burada başlıyor. Önce dar çevreye verirsiniz — Sonra ikinci halka gelir. Ardından departman genişler — En sona dış kullanıcılar yaklaşır. Kulağa basit geliyor, değil mi? Ama pratikte bu ritmi korumak beklenenden zor.

Kademe kademe ilerlemek ne kazandırır?

Kademeli yayılım size iki büyük avantaj veriyor. Birinçisi sinyal-gürültü oranını yükseltiyorsunuz. İkincisi güven inşa ediyorsunuz —. Insanlar kötü deneyim yaşarsa sadece üründen vazgeçmiyor; “AI bize uygun değil” sonucuna gidiyorlar. O etiket yapışınca sökmek zor oluyor açıkçası.

Size bir şey söyleyeyim, Bir de küçük not: kurumsalda rollout hızını belirleyen şey teknik kapasite kadar siyasi dengedir — evet kulağa tuhaf geliyor ama doğru. Mesela finans ekibine yeni ajan verirken compliance takimi ayrı endişe taşır, hukuk bambaşka soru sorar, IT işe erişim modeline takılır. Bunları önceden görmek ciddi vakit kazandırıyor, inanın.

Ben şahsen en sağlıklı planın şöyle olduğunu düşünüyorum: (kendi tecrübem)

İlk hafta üç ila beş güçlü kullanıcı;
İkinci hafta iki farklı rol daha;
Üçüncü-dördüncü hafta hata türlerine göre düzeltme;
Beşinci haftadan sonra ölçülü genişleme.

Bu ritim hızlı hissettiriyor mu? Belki hayır. Ama sağlam oluyor. Mesela enterprise seviyede sağlam olmak hızdan önemli; küçük startup’ta işe ikisini birlikte tutmaya çalışırsınız, ama gene de aceleyle yüzleri güldüren demo uğruna ürünü yakmamaya dikkat edersiniz.

E tabi: İç AI ürünü yayında başarısız olduğunda sorun çoğu zaman modelde değil; izlenebilirlik zayıflığında ve erken aşamada fazla kişiye açılmasındadır.

Neyi iyi yaptığınızda sistem gerçekten öğrenmeye başlar?

Bakın, İlk cevap sıkıcı ama doğru: log toplamak, review yapmak, geri bildirim döngüsü kurmak. Maalesef başka kestirme yok. İkinci cevap daha önemli: her hatayı sınıflandırmak. Bu noktada küçük bir tablo işinizi kolaylaştırabilir:

Sorun tipi	Nerede görülür?	Müdahale şekli
Alet seçimi hatası	Trace loglarında	Tool tanımlarını gözden geçir
Context eksikliği	Yanlış veya yarım cevapta	Retrieval katmanını kontrol et
Kullanıcı kaynaklı	Tutarsız girişlerde	Onboarding metnini yeniden yaz

Anlık düzeltme gerektiriyorsa prompt ve araç yönlendirmesi incelenir;
Sistematikse context tasarımı gözden geçirilir; (bu kritik)
Kullanıcı davranışı kaynaklıysa onboarding yeniden yazılır.

Sıkça Sorulan Sorular

İç yapay zekâ ürününü yayına almada en kritik konu model doğruluğu mu?

Hayır, çoğu ekipte kritik olan şey “gözlemleme ve ölçümleme” altyapısını kurmak. Modelin ne kadar iyi olduğu kadar, gerçek kullanıcı isteklerinde nerede kırıldığını görebilmeniz gerekiyor. Benim gördüğüm en büyük fark da burada: Yeşil bir metrik var ama kullanıcıların takıldığı yer görünmüyor.

İlk haftada neden bu kadar sık tökezleniyor?

Genelde ekip tek bir metrik seçip ona kilitleniyor; doğruluk ya da memnuniyet gibi. Ürün 30-50 kişiye açılınca edge case’ler patlıyor: yanlış araç çağırma, bağlam kaçırma, beklenmedik istekler… Sonra da “AI çalışmıyor” deniyor. Oysa çoğu zaman sistemin nerede patladığını izleyemediğiniz için düzeltemiyorsunuz.

Doğru başlangıç kaç kullanıcıyla yapılmalı?

Ben “en geniş kitle önce” yaklaşımını pek sevmiyorum; izlenebilirlik sağlayana kadar kontrollü ilerlemek daha güvenli. Pratikte 10-30 kullanıcıyla başlayıp log/izleme, hata sınıflandırma ve geri bildirim akışını oturtmak işinizi hızlandırıyor. Sonra kademeli artırmak, hem sürprizi azaltır hem de ekip moralini korur.

“Dashboard’da her şey yeşil görünüyor” durumunda neye bakmalıyım?

Yeşil ışık tek başına yeterli değil; kullanıcıların yazdığı gerçek istekleri ve başarısızlık örüntülerini incelemelisiniz. Örneğin bazı isteklerde model doğru cevabı “tutturuyor” gibi görünürken yanlış sistem aksiyonları tetikleyebilir. Ben bir projede, memnuniyet skoru iyi olmasına rağmen yanlış araç çağrılarının büyüdüğünü ancak isteklere ait olay akışını görünce fark etmiştim.

İzleme (observability) tam olarak neyi kapsamalı?

En azından istek/yanit akışı, model çağrıları, araç veya fonksiyon çağrıları, gecikme süreleri ve hata türleri izlenmeli. Ayrıca örnek istekleri saklayıp etiketleyebileceğiniz bir süreç olmalı; yoksa “neden oldu?” sorusuna cevap veremezsiniz. İç AI’da asıl kazanım, hatayı sadece görmek değil, önü sınıflandırıp hızlıca iyileştirebilmek.

Kaynaklar ve İleri Okuma

Azure OpenAI: İzleme ve günlükleme (Monitoring) — Microsoft Learn

Azure mimarisi: İzleme ve telemetri (Monitoring) — Microsoft Learn

Azure OpenAI: İçerik filtreleme ve güvenlik — Microsoft Learn

Azure SDK GitHub (entegrasyon ve araç çağrıları için) — GitHub

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub