Yapay Zeka

AI Reasoning Sistemleri: Zihin Teorisi Gerçekten Geldi mi?

Bunu yaşayan biri olarak söyleyeyim, Yapay zekâ dünyasında bazı haberler var, ilk duyduğunda “tamam, güzel” diyorsun… ama sonra duraksıyorsun. Geri dönüyorsun. Çünkü mesele sadece daha doğru tahmin yapmak değil; işin içinde çok adımlı çıkarım var, bağlam okuma var, hatta başkasının ne bilip ne bilmediğini sezme var — ki bu son parça bence asıl zor olan. Bu yüzden reasoning sistemleri ve zihin teorisi tartışması beni son dönemde bayağı yakaladı, dürüst olmak gerekirse beklediğimden fazla.

Açık konuşayım. Ben bu konuya ilk kez 2024 Mart’ında İstanbul’da bir ürün toplantısında denk geldim. Bir ekip arkadaşı, büyük dil modelinin kullanıcı niyetini yanlış ama “çok özgüvenli” biçimde yorumladığını canlı gösterdi. O an hepimizin yüzü düştü. Model cevabı biliyor gibiydi — ama tam aynı anda neyi kaçırdığını da ele veriyordu, istemeden. Ve tam orada o soru patlıyor: Bu sistemler gerçekten düşünüyor mu, yoksa çok iyi kamufle edilmiş örüntü avcıları mı?

İşin aslı şu. Cevap siyah-beyaz değil. Evet, modeller hâlâ tuhaf yerlerde bir düşüneyim… saçmalıyor — kimse bunu inkâr etmiyor. Ama bazı testlerde gösterdikleri performans artık “sadece ezber” diye geçiştirilecek seviyeyi aşıyor, bunu da görmezden gelemiyoruz. Yani ortada hem iyi bir sıçrama var hem de hâlâ tam çözemediğimiz kocaman bir kara kutu duruyor. İkisi aynı anda.

Ve işler burada ilginçleşiyor.

💡 Bilgi: Bu yazıda “reasoning” derken sadece matematik çözmeyi değil; çok adımlı çıkarım yapmayı, bağlamı takip etmeyi ve başka bir öznenin ne bildiğini tahmin etmeyi de kastediyorum.

Rakamlar Boş Konuşmuyor: Sıçrama Neden Dikkat Çekiyor?

İşin garibi, Dışarıdan bakan biri için tablo net görünüyor. Birkaç yıl önce zorlanan sistemler bugün MMLU, HellaSwag ya da ARC-Challenge gibi benchmark’larda çok daha sağlam duruyor. Bunlar tek hamlede çözülen basit testler değil; bilgi istiyor, sağduyu istiyor, adım adım akıl yürütme istiyor — üçü aynı anda.

Ben bunu 2025 Kasım’ında Ankara’daki bir demo gününde canlı gördüm (ciddiyim). Bir girişim ekibi müşteri destek akışında eski modeli ve yeni nesil modeli yan yana koymuştu. Eski model bazen doğru cevaba ulaşıyordu ama yolu saçmaydı; yeni model ise hem daha tutarlıydı hem de ara adımları çok daha düzgün taşıyordu. Hani bazen biri lafı dolandırır ama sonunda haklı çıkar ya… burada tam tersi oldu: yeni model kısa yoldan gidip daha az dağıttı. Şaşırdım açıkçası.

Şimdi gelelim işin can alıcı noktasına.

Alan Eski yaklaşım Yeni yaklaşımın farkı
Çok adımlı problem çözme Sık sık kopuyor Daha tutarlı ilerliyor
Sağduyu soruları Köşede tökezliyor Daha iyi bağlam kuruyor
Sosyal çıkarım Zayıf kalıyor Kısmen ikna edici davranıyor
Açıklanabilirlik Düşük Birkaç adım görünür hale geliyor

Neyse uzatmayayım. Sayıların yükselmesi önemli tabii — ama asıl hikâye tek başına puan değil (kendi tecrübem). Önemli olan şu: model farklı türde sorularda aynı derecede iyi mi? Şimdilik hayır. Bir benchmark’ta uçup diğerinde tökezleyebiliyor, bu dalgalanma hâlâ orada duruyor. Ve bu dalgalanma bana hep şunu hatırlatıyor: “akıllı görünüyor” ile “gerçekten anlıyor” arasında ciddi mesafe var. Ciddi.

Zihin Teorisi Nedir, Neden Bu Kadar Büyük Konu?

Zihin teorisi kulağa akademik geliyor (en azından benim deneyimim böyle). Ama günlük hayatta çok tanıdık bir şey aslında — karşındaki kişinin ne bildiğini, neyi bilmediğini, hatta seni nasıl yanlış anlayabileceğini sezmek demek bu. İnsanlar bunu çocukken öğreniyor; klasik Sally-Anne testi bunun en meşhur örneklerinden biri, zaten ondan birazdan bahsedeceğim.

Bir dakika, şunu da ekleyeyim. AI tarafında zihin teorisi denince iş yalnızca “bir insan gibi konuşmak” değil. Karşı tarafın inancını hesaba katmak gerekiyor — yani sen gerçeği biliyorsun diye herkesin bildiğini sanmamak lazım. Modelin en çok dağıldığı yerlerden biri de tam burası, hani fark edilmesi zor olan yer.

Sally-Anne testi neden hâlâ önemli?

Test basit görünüyor. Arka planda ciddi bir zihinsel mekanizma var ama. Topu basketten kutuya taşıyan Anne’i bilen biziz; Sally ise odadan çıktığı için bunu kaçırıyor. İnsan çocukları belli bir yaştan sonra Sally’nin yanlış yerde arayacağını kavrıyor — çünkü başkasının bilgisinin sınırlı olduğunu anlayabiliyorlar artık. Küçük ama devasa bir adım.

Benzer bir şeyi geçen yıl Temmuz ayında Londra’daki bir güvenlik laboratuvarında gözlemledim. Modelden kullanıcı rolüne girip hassas bilgiyi sızdırmamasını istediler. Kullanıcıya ait olmayan varsayımları üst üste bindirince çuvalladı. Kötü niyetli bir sorguda bu fark küçük değil… bayağı kritik, gerçekten.

Neden sosyal akıl yürütme teknik akıl yürütmeden farklı?

Kendi deneyimimden konuşuyorum, Çünkü teknik soruda kurallar daha net. Sosyal soruda ise gri alan bolca var — bir kişinin alay mı ettiğini anlamak için kelimeler yetmiyor, ton da gerekiyor, bağlam da gerekiyor, geçmiş deneyim de gerekiyor. Yani resmen ince işçilik.

Model bazen ironiyi yakalıyor gibi yapıyor… ama iki mesaj sonra yine düz metne dönüyor. İşte tam o anda hayal kırıklığı geliyor açıkçası. Kağıt üstünde fena değil. Ama pratikte “göreceğiz artık” hissi hep baskın kalıyor.

Zihin teorisi alanındaki asıl mesele şu: Modelin doğru cevap vermesi yetmiyor; karşı tarafın bakış açısını gerçekten hesaba katıp katmadığını anlamamız gerekiyor.

Neden Chain-of-Thought Her Şeyi Değiştirdi?

Lafı gevelemeden söyleyeyim: zincirleme düşünce yaklaşımı olmasa bugünkü reasoning tartışması bambaşka bir yerde olurdu. Modelden sonucu direkt istemek yerine adımları yazmasını istiyorsun — ve garip biçimde performans sıçrıyor. Neden? Hâlâ tam açıklayamıyoruz. Ama çalışıyor. Bu konuyla ilgili Vibe Coding Paradoksu: Hafta Sonu Hızına Kurumlar Neden Yetişemiyor? yazımıza da göz atmanızı tavsiye ederim. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.

Bunu ilk kez kendi test ortamımda 2023 sonunda denedim. Küçük bir SaaS projesinde basit muhasebe hesapları yapan bir asistan vardı; direkt soru-cevap modunda sık sık sapıtıyordu. Adımlara böldüğümde sonuçların belirgin şekilde toparlandığını gördüm, özellikle toplama-çıkarma içeren senaryolarda. Tam sihir değil tabii… ama baya iş görüyor. Apple’ın MacBook Neo çıkmazı: İnce çizgi kalınlaştı yazımızda bu konuya da değinmiştik.

İşte tam da bu noktada devreye giriyor. Bu konuyla ilgili Evde Kendi Yapay Zekâ Asistanını Kur: Aylık 12 Dolarla yazımıza da göz atmanızı tavsiye ederim. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.

# Basit düşünce zinciri örneği
Soru: 3 elman var, 2'sini verdin, sonra 5 tane daha aldın.
Adım 1: Başlangıç = 3
Adım 2: Verilen = -2
Adım 3: Yeni alınan = +5
Sonuç = 6

Peki bu neden işe yarıyor?

Aslında, Bence üç sebep öne çıkıyor. İlki bölme etkisi: büyük problemi küçük parçalara ayırınca yük azalıyor, model kaybolmuyor. İkincisi görünürlük — model kendi ara adımlarını gördüğü için hata yapınca yakalama şansı artıyor, sanki kendi kendini düzeltiyor.

Üçüncüsü ise bence en ilginci. Süreç kendisini disipline ediyor olabilir. Evet, biraz insansı geliyor bu söylem ama model sanki “dur bakalım” deyip acele etmeden ilerliyor. Belki yanılıyorum. Ama gözlemlediğim bu.

Ama her zaman işe yarar mı?

Şöyle söyleyeyim, Hayır. O kadar da parlak değil bu hikâye! Bazen uzun düşünce zinciri modeli gereksiz yere geveletiyor ve hata sayısı artabiliyor. Maalesef.

Küçük startup için bu kabul edilebilir olabilir çünkü hızla prototip çıkarırsın, esneklik var. Enterprise tarafta ise aynı yöntem denetlenebilirlik sağlıyor diye sevilir; ama maliyet. Gecikme hesabını iyi yapmak şart, yoksa sonradan başın ağrıyor.

  • Kısa görevlerde doğrudan cevap daha hızlı olabilir.
  • Zor görevlerde adımlara bölmek genelde fayda veriyor.
  • Aşırı uzun açıklamalar bazen ana fikri bulandırıyor. (bence en önemlisi)
  • Ticari kullanımda doğruluk kadar izlenebilirlik de önemli oluyor.

Nerede Güçlüler, Nerede Patlıyorlar?

Bana göre bugünün modelleri üç alanda özellikle iyi hissediliyor: metin içinden ipucu çekme, belli kalıp problemleri çözme. Insan benzeri açıklama üretme. Ama sırf buna bakıp “tamam, oldu artık” demek fazla iyimser olur. Çok fazla.

Karmaşık sosyal durumlarda hâlâ kaygan zemindeler. Mesela biri dolaylı laf sokuyorsa bunu bazen yakalıyorlar, bazen tamamen kaçırıyorlar — tutarsız, yani. Bir arkadaşım Mart 2026’da Berlin’de kurumsal destek botu kurarken tam bunu yaşadı; bot müşterinin şikâyet tonunu normal talep sanıp klasik cevap verdi ve olay büyüdü. Gereksiz yere. İşte orada herkes anladı: duygu okuma ile gerçek anlama arasında ince ama can sıkıcı bir çizgi var, ve o çizgi hâlâ orada duruyor (yanlış duymadınız)

Peki Biz Ne Yapacağız?

E tabi mesele sadece akademik merak değil. Ürün geliştirirken karar vermek zorundayız, teoride boğulup kalmak lüksümüz yok. Reasoning sistemi kullanacaksak nerede kullanacağımızı net seçmeliyiz — her yere sürmeye kalkmak hata.

Ben olsam yüksek riskli kararları tek modele bırakmam. Önce dar kapsamlı pilot kurarım. Sonra çıktıları loglarım, düzgünce. En sonunda insan onayı olan akışı devreye alırım — sırasıyla, acele etmeden. Basit ama işe yarıyor.

Pratik ipuçları:
• Tek soruda tek hedef kullanın.
• Belirsiz isteklere guardrail ekleyin.
• Sosyal yorum isteyen işlerde mutlaka insan kontrolü bırakın.
• Zincirleme düşünceyi her yerde açmayın; bazen kısa cevap daha güvenlidir.

Sıkça Sorulan Sorular

Büyük dil modelleri gerçekten düşünebiliyor mu?

Kısaca hayır demek kolay olurdu ama eksik kalırdı.

Şimdilik gördüğümüz şey tam insan tipi düşünme değil; yine de belirli görevlerde gerçek akıl yürütmeye benzeyen davranışlar sergileyebiliyorlar.

Zihin teorisi AI için neden önemli?

Çünkü gerçek dünyadaki işler çoğu zaman başkasının ne bildiğine bağlıdır.

Müşteri desteği, müzakere veya güvenlik analizinde bu yetenek doğrudan kaliteyi etkiler.

Chain-of-thought her modelde kullanılmalı mı?

Hayır.

Basit görevlerde gereksiz maliyet yaratabilir; karmaşık görevlerdeyse bayağı faydalıdır.

Kurumlar bu sistemleri hemen üretime almalı mı?

Dikkatli olmak lazım.

Önce sınırlı kullanım alanlarında test etmek, ardından hata oranını görmek en sağlıklısıdır.” (yanlış duymadınız)

Kaynaklar ve İleri Okuma

OpenAI Research Sayfası

Bir şey dikkatimi çekti: arXiv Araştırma Arşivi

OpenAI Cookbook GitHub Sayfası

Aşkın KILIÇ

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

Haftalık Bülten

Her pazar özenle seçilmiş teknoloji yazıları doğrudan e-postanıza gelsin.

← Onceki Yazi
Apple’ın MacBook Neo çıkmazı: İnce çizgi kalınlaştı
Sonraki Yazi →
Erişilebilirlik Skoru Size Yalan Söylüyor: Neye Güvenmeli?

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haftalık Bülten

Azure, DevOps ve Yapay Zeka dünyasındaki en güncel içerikleri her hafta doğrudan e-postanıza alın.

Spam yok. İstediğiniz zaman iptal edebilirsiniz.
📱
Uygulamayı Yükle Ana ekrana ekle, çevrimdışı oku
Kategoriler
Ara
Paylaş
İçindekiler
← Apple’ın MacBook Neo çıkmazı: ...
Erişilebilirlik Skoru Size Yal... →
📩

Gitmeden önce!

Her pazar özenle seçilmiş teknoloji yazıları ve AI haberleri doğrudan e-postanıza gelsin. Ücretsiz, spam yok.

🔒 Bilgileriniz güvende. İstediğiniz zaman ayrılabilirsiniz.

📬 Haftalık bülten: Teknoloji + AI haberleri