Bakın, Geçen ay, İstanbul’da bir kafede otururken bir geliştirici arkadaşım bana şunu dedi: “Klavyeyi bırakıp konuşarak iş yaptıran sistemler artık oyuncak değil.” Açık konuşayım, ilk anda biraz abartı gibi geldi. Ama bu tarz projeleri kurcaladıkça fikir değişiyor. En çok da Whisper gibi kuvvetli bir konuşma-yazı çeviri katmanı ile Streamlit’in hızlı arayüz yapısı birleşince, ortaya bayağı iş gören bir şey çıkıyor.
Bu yazıda, sesli komut alan, konuşmayı metne çeviren, niyeti anlayan ve ardından dosya oluşturma, kod üretme, özet çıkarma ya da sohbet etme gibi işler yapan bir AI ajanını kendi gözümden anlatacağım (şaşırtıcı ama gerçek). Orijinal projedeki iskeleti alıp aynen çevirmeyeceğim; onun yerine bunu nasıl daha mantıklı kurgularız, nerede tökezleriz, küçük ekipte nasıl yürür, kurumsalda neden ayrı dert açar — bunlara bakacağım.
İşin güzel tarafı şu: bu tip sistemler kulağa karmaşık geliyor ama aslında parçalar tek tek oldukça tanıdık. Mikrofon var. Konuşmayı yazıya çeviren model var. Metni sınıflandıran küçük bir beyin var. Sonra da işi yapan aksiyon katmanı geliyor. Yani biraz mutfak düzeni gibi; malzeme çok ama tezgah temizse yemek çıkıyor.
Sesle çalışan ajan fikri neden yeniden popüler oldu?
Kendi deneyimimden konuşuyorum, Bir zamanlar sesli asistan deyince akla daha çok “hava durumu kaç derece” seviyesinde komutlar gelirdi. Şimdi ise tablo farklı. Kullanıcılar yalnızca soru sormak istemiyor; dosya hazırlatmak, kod parçası üretmek, notları özetletmek istiyor. Yani beklenti yükseldi… e haliyle altyapının da toparlanması gerekiyor.
Ben bu farkı ilk kez 2023 sonlarında kendi test ortamımda net gördüm. İzmir’deki küçük home office’te denediğim bir prototipte sadece sohbet eden bot vardı ve açık söyleyeyim pek heyecan vermiyordu. Sonra aynı akışa “dosya oluştur”, “şunu özetle”, “bu metni markdown’a dök” gibi aksiyonlar ekledim; iş değişti. Neden önemli bu? İnsanların ilgisi bir anda arttı çünkü araç laf değil sonuç veriyordu.
Burada asıl mesele ses değil aslında; doğal dilin doğrudan işleve bağlanması (şaşırtıcı ama gerçek). Klavyeyle yazınca kullanıcı daha sabırlı olur ama konuşunca beklenti başka oluyor: hızlı yanıt, doğru niyet çözümü. Mümkünse hatasız çıktı. Bu yüzden sesli ajan projelerinde arayüz kadar karar mantığı da kritik.
İşte tam da bu noktada devreye giriyor.
Sistem nasıl kuruluyor? Basit ama kırılgan bir zincir
Bu tarz projelerde en sevdiğim şey mimarinin anlaşılır olması. Zincir kabaca şöyle çalışıyor: ses alınır, metne çevrilir, metnin niyeti anlaşılır, sonra uygun işlem yapılır ve sonuç ekrana basılır. Kağıt üstünde temiz görünüyor; pratikte ise her halka ayrı sürpriz çıkarabiliyor (şaşırtıcı ama gerçek)
Sesli ajanlarda başarıyı belirleyen şey çoğu zaman modelin zekası değil… zincirin en zayıf halkasının ne kadar iyi yönetildiği oluyor.
Araya gireyim: Mesela Whisper sesi yanlış duyarsa pek çok akış kayıyor. Niyet sınıflandırıcı fazla özgüvenliyse kullanıcı “bir dosya aç” derken onu “kod üret” diye yorumlayabiliyor. Dosya sistemi güvenliği gevşekse de işler iyice karışıyor — yanlış klasöre yazılan tek dosya bile baş ağrısı çıkarır.
İşte tam da bu noktada devreye giriyor.
Bilmem anlatabiliyor muyum, Aşağıdaki mini akış aslında projenin omurgasını güzel özetliyor:
Audio Input → Speech-to-Text → Intent Detection → Action Execution → UI Output
Basit görünüyor diye küçümsemeyin. Benzer yapıyı Ankara’daki bir demo sunumunda izledim; ekip sadece üç adım ekleyerek sistemi daha kullanışlı hale getirmişti: hata mesajlarını sadeleştirmek, güvenli çıktı dizini kullanmak. Her aşamayı ekranda görünür yapmak. İşte o zaman ürün hissi oluşuyor.
Whisper burada ne iş görüyor?
Whisper’ın en büyük artısı Türkçe dahil çok dilli senaryolarda fena olmaması. Gürültülü ortamda bile çoğu zaman idare ediyor; özellikle farklı aksanlarda klasik speech-to-text çözümlerine göre daha sağlam durabiliyor (yanlış duymadınız). Tabii kusursuz değil — kahve makinesinin uğultusu ile aynı anda konuşursanız bazen saçmalıyor. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.
Kısa bir not düşeyim buraya.
Kendi testimde bunu net yaşadım: Kadıköy’de dışarıdan gelen trafik sesi varken kısa komutları fena çözmedi. Uzun cümlelerde bazı kelimeleri yuttu (inanın bana). Mesela “özet çıkar ve yeni dosya oluştur” demek yerine yalnızca “özet çıkar” kısmına takıldığı oldu (evet, sinir bozucu). Bu yüzden komutları kısa tutmak hala iyi fikir. Daha fazla bilgi için Windows 11’de Can Sıkıcı Yavaşlık Bitiyor mu? yazımıza bakabilirsiniz.
Bence Whisper’ı güçlü yapan şey sadece doğruluk oranı değil… yerelde çalıştırılabilmesi de önemli bir avantaj veriyor; aşırtmadan söyleyeyim ki gizlilik tarafında eli rahatlatıyor.. Mesela müşteri verisi olan ortamlarda sesi buluta göndermeden işlemek bayağı değerli.
Neden yerel çalıştırma önemli?
İşin garibi, Küçük startup için bu konu doğrudan maliyet meselesi oluyor. API çağrısı arttıkça fatura büyüyor; hele ki demo sonrası gerçek kullanıcı girerse rakamlar şişebiliyor. Yerel modelde ise kontrol sizde kalıyor ama donanım yükü sizin boynunuzda oluyor (ben de ilk duyduğumda şaşırmıştım)
Kurumsal tarafta durum biraz farklı. Burada mesele yalnızca para değil; veri yönetişimi, uyumluluk ve loglama politikaları da devreye giriyor. Bir bankada ya da sağlık uygulamasında sesi üçüncü tarafa taşımak kolay karar değil. O yüzden yerel Whisper yaklaşımı bazen teknik tercihten çok organizasyonel zorunluluk oluyor.
Niyet algılama kısmında asıl oyun başlıyor
Dürüst olayım… çoğu kişi burayı hafife alıyor. Oysa projenin karakteri tam burada şekilleniyor.“Create file”, “write code”, “summarize text”, “general chat” gibi kategoriler kulağa basit geliyor. Kullanıcı dili hiç o kadar temiz olmuyor.
Bak şimdi, Editör masasında bu haberi incelerken aklıma geçen sene Şişli’de gördüğüm bir iç araç geldi. Kullanıcılar komutları tam kalıp halinde söylemiyordu; biri “bunu dosyala”, diğeri “buradan snippet çıkar”, öbürü de “bana kısa toparla” diyordu.Yani intent detection dediğimiz şey aslında günlük dildeki bulanıklığı yakalamaya çalışıyor. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.
| Niyet | Kullanıcı örneği | Sistemin yapacağı iş |
|---|---|---|
| Create File | “Yeni bir not dosyası aç” | .txt veya.md dosyası oluşturur |
| Write Code | “Bana Python fonksiyonu yaz” | Kod üretir ve kaydeder |
| Summarize Text | “Bu metni kısalt” | Daha kısa özet döner |
| General Chat | “Şunu açıklasana” | Sohbet cevabı verir |
Bence burada en sağlıklı yaklaşım iki katmanlı düşünmek. İlk katman kaba sınıflandırma yapar, ikinci katman ise gerekirse ince ayar verir. Böylece model her şeyi tek atışta çözmeye zorlanmaz.Az önce X dedim ama aslında Y daha doğru olabilir… çünkü kullanıcı niyetleri çoğu zaman gri alanda dolaşıyor.
Aksiyonlar güvenliksiz olursa proje biter mi? Evet!Açık konuşayım, agent kısmının en riskli tarafı burası. Dosya oluşturmak kolaydır; yanlış yerde oluşturmak ise felaket.O yüzden çıkış dizini sınırlandırılmış olmalı,isim sanitizasyonu yapılmalı,path traversal ihtimali kapatılmalı.Yoksa sesli komutla gelen zararsız görünen istek sizi ters köşe yapar.
Açıkçası, Kendi denememde bunu özellikle test ettim: Haziran 2024’te Ankara’da hazırladığım sandbox ortamında kullanıcıdan gelen adı doğrudan dosya adına çevirdim ve beklediğimden daha fazla sorun çıktı:boşluklu isimler,özel karakterler,aynı isim çakışmaları… Küçük detaylar ama hepsi can sıkıyor. Claude Code, Codex CLI ve Gemini CLI: 2026’nın En İyi AI Terminal Agent’ı Hangisi? yazımızda bu konuya da değinmiştik.
- Sadece belirlenmiş klasöre yazın.Kullanıcı girdisini temizleyin.Aynı isimdeki dosyalarda üzerine yazmayı varsayılan yapmayın.Kod üretirken çıktı formatını sabitleyin.Tüm aksiyonları loglayın ki sonra ne olduğunu anlayabilesiniz.
E tabi kurumsalda buna versiyonlama da eklenir. Hangi kullanıcının hangi komutu verdiği,hangi dosyanın ne zaman oluştuğu,hangi model çıktısının hangi kararla eşleştiği… Bunlar sonradan altın değerinde oluyor.Küçük ekipte gereksiz gibi görünen log sistemi,ölçek büyüyünce hayat kurtarıyor. OpenAI CEO’su Sam Altman’a Saldırı: Teknoloji Dünyası Ne Öğrendi? yazımızda bu konuya da değinmiştik.
Streamlit arayüzü neden iyi seçim?’
İşin garibi, Streamlit’in cazibesi şu:çok hızlı prototip çıkarıyorsunuz.Bir günde çalışan demo göstermek istiyorsanız biçilmiş kaftan.Form alanları,butonlar,metin kutuları,ses yükleme bileşeni… Neden önemli bu? Hepsi az kodla ayağa kalkıyor.Ama hani her güzel şeyin ufak bir bedeli olur ya;burada da o bedel özelleştirme esnekliği tarafında çıkıyor.
Ben bunu ilk kez Eylül 2024’te Berlin’deki uzaktan çalışma haftasında fark ettim.Bir arkadaşım Streamlit ile iç araç yaptı;demo güzel görünüyordu. Tasarım ince ayarlarına gelince duvara tosladı.Yani MVP için şahane,ürünleşme aşamasında ise biraz ham kalabiliyor.Beklediğim kadar değildi dediğim yer tam orasıydı (kendi tecrübem)
Yine de şu avantajını inkar edemem:çıktıları canlı görmek çok rahat.? Pardon—durun saniye,Türkçe devam edelim; transkripsiyon sonucu,algılanan niyet,üretilen cevap aynı ekranda olunca debug süresi ciddi düşüyor.Gözünüzle zinciri izliyorsunuz;nerede kopmuş hemen anlaşılıyor.
MVP için yeterli mi?
>
Vallahi, Küçük startup için evet, bayağı yeterli olabilir. Çünkü öncelik hızdır:fikri doğrulamak,ilk kullanıcıdan geri bildirim almak,komut setini düzeltmek.Kurumsal tarafta ise muhtemelen son hedef olmaz;orada mevcut kimlik yönetimiyle entegrasyon,rol bazlı yetkilendirme. Audit trail isterler.
Kısacası Streamlit burada vitrin görevini iyi görüyor;arka plandaki zekayla kavga etmiyor, onu sergiliyor
Bence en zor kısım teknik değil, davranış tasarımıydı
>
İnsanların sesle sistem kullanırken sabrı az oluyor (buna dikkat edin). Bir butona basıp beklemek tamam da konuşup sonuç alamayınca hemen hayal kırıklığı başlıyor: O yüzden geri bildirim şart:dinleniyor musunuz? anlaşıldınız mı? işlem sürüyor mu? Bunları göstermeyen ürün biraz eksik kalıyor.
Şunu fark ettim: Ayrıca hata mesajlarının dili de önemli. “Recognition failed” yazarsanız kullanıcı boş boş bakar. “Sizi net anlayamadım, tekrar söyler misiniz?” derseniz durum değişir. Küçücük fark ama deneyimi bayağı etkiliyor.
Ben bu konuda kendi blog testlerinde sık sık şunu gördüm:iyi algoritma kötü iletişim yüzünden sıradanlaşıyor: Hatta bazen orta seviye model düzgün UX ile daha başarılı hissediliyor: İşin sırrı biraz da orada.
Peki kimler böyle bir proje yapmalı?
>
Startup’lar için
Eğer hızlı prototip istiyorsanız kesinlikle denenebilir។ Müşteri destek otomasyonu, içerik üretimi, not alma veya iç araç geliştirme gibi alanlarda çok işe yarayabilir. Bu ne anlama geliyor? Şimdi, en çok da de API maliyetinden kaçmak istiyorsanız local Whisper çizgisi cazip duruyor.
Enterprise ekipler için
Burada olay sadece çalışması değil; sürdürülebilir olması gerekir. Güvenlik politikaları, veri saklama kuralları, gözlemleme altyapısı hatta compliance raporlaması gündeme gelir. Aksi halde demo dikkat çekici olsa bile gerçek hayata geçmez.
Bakın şimdi, ben bu tip projelerde hep aynı şeyi söylüyorum : “ilk çalışan sürüm” ile “gerçek ürün” arasında uçurum var. Ses kontrollü ajan tam olarak bu uçurumun kenarında duruyor. Çok havalı görünüyor, evet ; ama sağlamlaştırılmazsa kolay dağılıyor.
Sıkça Sorulan Sorular
Whisper ile Türkçe ses tanıma iyi mi?Evet, genel olarak iyi. Mesela temiz kaydedilmiş seste başarılı sonuç veriyor. Gürültü artınca hata payı yükseliyor ; o yüzden kısa komutlarla kullanmak daha sağlıklı.
MVP aşaması için gayet yeterli. Hızlı arayüz kurarsınız, çıktıları canlı gösterirsiniz, testi kolaylaştırırsınız. Ama büyük ölçekli ürünlerde özelleştirme ihtiyacı doğarsa başka front-end seçeneklerine bakmanız gerekebilir.
Cünkü aynı cümle farklı amaçlarla söylenebilir. Sistem bunun create file mı, code generation mı yoksa chat mi olduğunu anlamazsa yanlış aksiyon alır. Asıl kaliteyi burada hissedersiniz.
DOSYA güvenliği nasıl sağlanır ?
Sadece izin verilen klasöre yazın, girdileri temizleyin, path traversal kontrolü yapın. En önemlisi de varsayılan davranışı güvenli seçin ; yani hata varsa işlem yapmasın.
OpenAI Whisper Resmi Tanitim Sayfasi>/a>
Kod Yazmak Yetmiyor: UI’da Asıl Farki Ne Belirliyor?
Chunking Neden RAG’in En Büyük HatasI Olabiliyor?
Bu içerik işinize yaradı mı?
Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.



