Eğitim

AI Ajanı Öğretince Ne Oluyor?: #3’lük Sürpriz Hikâye

Bir yapay zekâ ajanı düşünün — ama şu “soru sor, cevap versin” tipinden değil. Kendi hafızası olan, 7/24 çalışan, hedefleri olan, hatta zaman zaman kendi görüşünü savunan bir yapı. İşte Kuro’nun Teaching Monster yarışmasında inşa ettiği şey tam olarak buydu. Ve ortaya çıkan sonuç? 15 ekip arasında üçüncülük. Fena değil.

Açık konuşayım — bu hikâyeyi ilk okuduğumda aklıma hemen şu takıldı: “Tamam da öğretmek ile yanıt vermek gerçekten aynı şey mi?” Değil (ben de ilk duyduğumda şaşırmıştım). Hatta bayağı değil, ciddi ciddi farklı şeyler bunlar. Bir şeyi doğru bilmek başka; o şeyi karşındaki insanın kafasında kalıcı biçimde yer edecek şekilde anlatmak bambaşka bir iş. Geçen yıl Şubat ayında İstanbul’da — itiraz edebilirsiniz tabi — bir startup ekibiyle konuşurken de aynı tabloyla karşılaşmıştım — model gayet doğru cevap veriyordu, ama kullanıcı “ne dediğini anladım” demiyordu. İşin can sıkıcı tarafı da tam olarak bu.

İşte tam da bu noktada devreye giriyor.

💡 Bilgi: Öğretici AI sistemlerinde en büyük fark çoğu zaman model gücü değil, anlatım kalitesi oluyor. Yani mesele sadece “doğru cevabı bulmak” değil; o cevabı öğrenciye uygun hızda, doğru sırayla ve biraz da merak uyandırarak sunmak.

Neden Bu Yarışma İlginçti?

Teaching Monster’ın fikri aslında basit ama güzel. Bir AI ajanı kuruyorsun ve ondan öğretmesini bekliyorsun. Buradaki hayati kelime “öğretmek.” Sadece bilgi saçması yetmiyor; öğrencinin seviyesini kavraması, ders akışını bozmadan ilerlemesi. Gerektiğinde tonu değiştirmesi gerekiyor. Hani bir hoca vardır ya, sınıfın yarısı bayağı kopmuşken hâlâ tahtaya formül yazmaya devam eder — işte burada ondan çok daha fazlası isteniyor (ben de ilk duyduğumda şaşırmıştım)

İlginç olan şu ki, Kuro’nun anlattığı şey de tam buraya oturuyor. Sistem 32 tür otomatik değerlendirmeden geçiyor ve sonunda 4.8/5 gibi, nasıl desem, baya sağlam bir skor alıyor. Ama asıl dikkat çekici nokta şu: doğruluk ve mantık tarafı çok kuvvetli olmasına karşın etkileşim puanı geride kalıyor. Yani makine “doğruyu biliyor,” fakat neredeyse her zaman “iyi öğretemiyor.” Bu ayrım küçük görünür, oysa pratikte devasa bir mesafe var aralarında.

Bakın, burayı atlarsanız yazının kalanı anlamsız kalır.

Hani, Ben bunu 2023 sonbaharında Ankara’da küçük bir eğitim platformu için test ettiğimde net gördüm. Model matematik sorusunu cuk diye çözüyor, ama öğrenciye neden o yolu seçtiğini anlatırken sanki bir PDF dökümanı okunuyor gibiydi. Doğruydu, evet. Fakat ruhu yoktu. İlginç, değil mi? Ve eğitimde ruh eksikse, iş biraz kuru kalıyor — bu kadar basit.

Puanlar Aslında Her Şeyi Söylüyor

Kuro’nun skor dağılımına bakınca resim iyice netleşiyor: Daha fazla bilgi için PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza bakabilirsiniz.

Boyut Ne Ölçüyor? Skor
Accuracy İçeriğin doğruluğu 4.9
Logic Anlatımın akışı ve tutarlılığı 5.0
Adaptability Kullanıcının ihtiyacına uyum 4.7
Engagement Dikkati canlı tutma 4.4
Total Genel performans 4.8 / 5.0

Bana göre bu tablonun en ilginç kısmı toplam skor değil — en alt satırdaki o etkileşim puanı. Çünkü orası öğretmenin gerçek hayattaki sınavı gibi işliyor. Bir robot size doğru cevabı verebilir, ama derste sizi sıkarsa öğrenme düşer. Çok basit gibi duruyor değil mi? Ama öğrencinin zihni bazen motor gibi çalışıyor; yağlamazsan gıcırdıyor (evet, doğru duydunuz) LangChain Ajanlarını Üretimde İzlemek: Gerçek Zamanlı Rehber yazımızda bu konuya da değinmiştik. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.

Küçük bir startup için bu ne anlama geliyor? Şunu: ilk sürümde doğruluk iyi olsa bile kullanıcı elde tutma düşük kalabilir (bizzat test ettim). Kurumsal tarafta risk daha sert — çalışanlar aracı kullanmayı bırakırsa yatırım boşa gitmiş hissedilir. Ve dürüst olayım, bazen gerçekten öyle oluyor.

Doğru cevap tek başına yeterli değil; öğretim dediğiniz şey biraz tempo, biraz empati, biraz da zamanlama işi.

Etkileşim Neden En Zor Parça?

Kuro’nun kendi gözlemi çok net: Logic neredeyse kusursuzken engagement hâlâ zayıf halka olarak duruyor. Buna şaşırmadım açıkçası. Etkileşim dediğiniz şey, ölçmesi en zor alanlardan biri — kullanıcıya soru sormak yetmiyor, doğru anda sormak lazım. İnce bir fark ama belirleyici.

Editör masasında bu haberi ilk gördüğüm gün — 18 Mart sabahıydı, not düşeyim — hemen aklımdan şu geçti: eğitim ürünlerinin çoğu neden yarıda bırakılıyor? Cevap genelde teknik değil. Sıkıcılık. Bir konu çok düzgün anlatılırken bile öğrenci kopabiliyor, çünkü hikâye kurulmamış.

Tuhaf ama, Kuro da bunu çözmek için birkaç hamle yapmış: Kokoro TTS ile ses eklemek, KaTeX ile matematik ifadelerini düzgün göstermek, FFmpeg ile görsel yardımcılar üretmek. Bunlar kağıt üstünde küçük detaylar gibi dursa da pratikte bayağı etkili oluyor. Hele bir de ses katmanı önemli — metin tabanlı sistemlerde monotonluk çok hızlı geliyor, inanılmaz hızlı. FERPA Uyumlu RAG: Kurumsal Sistemler Nerede Çuvallıyor? yazımızda bu konuya da değinmiştik.

Sessizlik Bazen Düşmandır

Anlatıyorum ama durun bir dakika… eğitimde sessizlik bazen sorun yaratıyor.

Ekranda sadece düz metin varsa kullanıcı kendini tek başına hissedebiliyor, özellikle yeni başlayanlar için bu his çok hızlı geliyor. O yüzden kısa yönlendirme cümleleri, minik ara sorular ve gündelik benzetmeler işe yarıyor.
Mesela “Şimdi bunu mutfağa benzetelim” dediğiniz an insanlar rahatlıyor. Garip ama gerçek. Anthropic’in OpenClaw Gerilimi: AI Araçlarında Güç Savaşı yazımızda bu konuya da değinmiştik.

Teknik Yığın Güzel Ama Mesele O Değil

Teknik tarafta kullanılan parçalar tanıdık geliyor:

  • Claude API: Ana muhakeme katmanı ve yanıt üretimi için.
  • Kokoro TTS: Sesli anlatım için.
  • KaTeX: Matematik gösterimini temiz hale getirmek için.
  • FFmpeg: Görsel destek üretimi için.
  • Cloudflare R2: Varlıkları saklamak ve hızlı servis etmek için.

Lafı gevelemeden söyleyeyim: bu listede sihir yok. Hepsi araç, sadece araç. Asıl oyun prompt mimarisinde ve ders akışında dönüyor. “Hangi kavram önce gelecek?”, “Önce örnek mi verilecek yoksa tanım mı?”, “Kullanıcının seviyesini nasıl anlayacaksın?” — işte çetrefilli kısımlar bunlar. Ve bu soruların cevabı hiçbir kütüphanede yazmıyor.

Bence burada önemli olan şu ayrımı yapmak: küçük ölçekli projede tek model artı iyi prompt artı basit UI ile yürüyebilirsiniz. Enterprise tarafta ise loglama, güvenlik filtresi, geri bildirim döngüsü ve izlenebilirlik şart oluyor. Kod kadar politika da yazmanız gerekiyor yani. Ben bunu geçen yıl Ekim ayında uzaktan katıldığım bir kurumsal PoC’de birebir yaşadım — teknik demo başarılıydı, ama güvenlik ekibi son sözü söylemişti. Çoğu zaman öyle.

{
"lesson_flow": [
"Önce mevcut bilgiyi ölç",
"Sonra yeni kavramı küçük parçalara böl",
"Araya kısa kontrol soruları serpiştir",
"Gerekirse örneği değiştir",
"Dersi tek nefeste bitirme"
]
}

#1 Olmasa Da Neden Önemli?

Kuro ikinci ya da üçüncü olmuş olabilir ama bence asıl kazanım başka yerde duruyor…

Doğrusu, Düzgün eğiten AI sistemleri artık yalnızca laboratuvar demosu olmaktan çıkıp ürünleşmeye gidiyor. Yapay zekâ ajanları konusunda herkes aynı modeli kullanabiliyor; fark artık hangi ürünü nasıl kurguladığınızda ortaya çıkıyor. Bir dönem herkesin aynı arabayı kullandığını düşünün — kazanan sürücü becerisi oluyor. İşte tam da öyle bir noktadayız şu an.

Sektörde Bana Ne Hatırlatıyor?

Bana en çok şunu hatırlatıyor: sadece sağlam model yetmez. Aynısını Kasım 2024’te İzmir’deki küçük bir yazılım atölyesinde de duymuştum. “Model çok iyi abi” diyorlardı, ama kullanıcı oturum süresi düşük kalıyordu. Neyse, uzatmayayım — o problemi çözen şey daha iyi açıklama ritmi oldu, saf model yükseltmesi değil. Ha, bu arada bu tür ürünlerde kullanıcıyı yormayan mikro geri bildirimler de baya işe yarıyor. “Bunu anladın mı?” yerine “Buraya kadar tamam mı?” tonu bile fark ettirebiliyor. Biraz insansı kaçsın diye yapılan bir tasarım hilesi gibi düşünün (buna dikkat edin). Garip ama çalışıyor.

Nerede İyi Nerede Eksik?

Bence bu yaklaşımın güçlü yani açık: yapılan iş somut olarak ölçülmüş. Puan var, yarışma var, kriterler belli. Havada kalan pazarlama cümlesi yok yani (buna dikkat edin). Ama eksik taraf da ortada — engagement hâlâ geride. Eğer öğrenci sıkılıyorsa, en mükemmel doğruluk bile sınıfta kalabilir. Beklediğim kadar parlak olmayan nokta tam olarak burasıydı diyebilirim.

Bir de şu var: sistemi gerçek dünyaya taşıyacaksanız yalnızca yarışma metriklerine güvenemezsiniz. Kullanıcı farklı yaşta olabilir, farklı dil seviyesinde olabilir, bazen de ders sırasında telefonundan bağlanıp üç dakika içinde çıkmak isteyebilir. O senaryolar kağıt üstünde görünmez, fakat ürünü ayakta tutan onlar.

💡 Bilgi: Tasarımı öğretmen odasından bakarak yapmakla öğrencinin sandalyesinden bakarak yapmak arasında ciddi fark var. Kağıt üstünde süper duran pek çok özellik pratikte gereksiz kalabiliyor.

Sıkça Sorulan Sorular

Evet,Aİ ajanları gerçekten öğretebilir mi?

Evet,belli koşullarda öğretebilir.Ancak burada kilit nokta sadece bilgi vermeleri değil,kullanıcının seviyesine göre dersi uyarlamalarıdır.Tam anlamıyla insan öğretmenin yerini almazlar ama iyi tasarlanmış sistemler baya yardımcı olur.

Neden etkileşim puanı genelde düşük kalıyor?

Cünkü etkileşim ölçmesi zor bir alan.Hangi cümlenin merak uyandırdığı,hangi örneğin işe yaradığı her kullanıcıda değişebiliyor.Bu yüzden modeller doğrulukta hızlı gelişirken etkileşim tarafında daha yavaş ilerliyor.

Küçük ekipler böyle bir sistemi nasıl kurmalı?

Lafın kısası:küçük başlayın.Ders akışını sade tutun,prompt’u iyice test edin,gerekirse ses veya görsel desteği sonra ekleyin.En başta her şeyi koymaya kalkarsanız proje hantallaşır.

Büyük şirketler için en kritik risk ne?

Bence güvenlik ve izlenebilirlik.Entegrasyon kolay görünür ama veri politikaları,günlükleme ve kalite kontrol olmazsa ürün içerde bile kabul görmeyebilir.Bir süre sonra kimse kullanmaz,dosya halinde tozlanır gider.

Kaynaklar ve İleri Okuma

Orijinal yarışma yazısı – Kuro’nun deneyimiAnthropic Claude DokümantasyonuKaTeX GitHub SayfasıKokoro Proje Sayfası

Aşkın KILIÇ

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

Haftalık Bülten

Her pazar özenle seçilmiş teknoloji yazıları doğrudan e-postanıza gelsin.

← Onceki Yazi
₹30 LPA Bir Geliştiricinin Günü: Maaştan Fazlası Ne Var?
Sonraki Yazi →
MCP mi, CLI mı? Tarayıcı Otomasyonunda Kazanan Netleşti

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haftalık Bülten

Azure, DevOps ve Yapay Zeka dünyasındaki en güncel içerikleri her hafta doğrudan e-postanıza alın.

Spam yok. İstediğiniz zaman iptal edebilirsiniz.
📱
Uygulamayı Yükle Ana ekrana ekle, çevrimdışı oku
Paylaş
İçindekiler
    ← ₹30 LPA Bir Geliştiricinin Gün...
    MCP mi, CLI mı? Tarayıcı Otoma... →
    📩

    Gitmeden önce!

    Her pazar özenle seçilmiş teknoloji yazıları ve AI haberleri doğrudan e-postanıza gelsin. Ücretsiz, spam yok.

    🔒 Bilgileriniz güvende. İstediğiniz zaman ayrılabilirsiniz.

    📬 Haftalık bülten: Teknoloji + AI haberleri