Whisper ve Streamlit ile Sesli AI Ajanı Kurmak: Pratik Rehber

⏱️ 8 dk okuma📅 11 Nisan 2026👁️ görüntülenme

Bakın, Geçen ay, İstanbul’da bir kafede otururken bir geliştirici arkadaşım bana şunu dedi: “Klavyeyi bırakıp konuşarak iş yaptıran sistemler artık oyuncak değil.” Açık konuşayım, ilk anda biraz abartı gibi geldi. Ama bu tarz projeleri kurcaladıkça fikir değişiyor. En çok da Whisper gibi kuvvetli bir konuşma-yazı çeviri katmanı ile Streamlit’in hızlı arayüz yapısı birleşince, ortaya bayağı iş gören bir şey çıkıyor.

Bu yazıda, sesli komut alan, konuşmayı metne çeviren, niyeti anlayan ve ardından dosya oluşturma, kod üretme, özet çıkarma ya da sohbet etme gibi işler yapan bir AI ajanını kendi gözümden anlatacağım (şaşırtıcı ama gerçek). Orijinal projedeki iskeleti alıp aynen çevirmeyeceğim; onun yerine bunu nasıl daha mantıklı kurgularız, nerede tökezleriz, küçük ekipte nasıl yürür, kurumsalda neden ayrı dert açar — bunlara bakacağım.

İşin güzel tarafı şu: bu tıp sistemler kulağa karmaşık geliyor ama aslında parçalar tek tek oldukça tanıdık. Mikrofon var. Konuşmayı yazıya çeviren model var. Metni sınıflandıran küçük bir beyin var. Sonra da işi yapan aksiyon katmanı geliyor. Yani biraz mutfak düzeni gibi; malzeme çok ama tezgâh temizse yemek çıkıyor.

Sesle çalışan ajan fikri neden yeniden popüler oldu?

Kendi deneyimimden konuşuyorum, Bir zamanlar sesli asistan deyince akla daha çok “hava durumu kaç derece” seviyesinde komutlar gelirdi. Şimdi işe tablo farklı. Kullanıcılar yalnızca soru sormak istemiyor; dosya hazırlatmak, kod parçası üretmek, notları özetletmek istiyor. Yani beklenti yükseldi… e hâliyle altyapının da toparlanması gerekiyor.

Ben bu farkı ilk kez 2023 sonlarında kendi test ortamımda net gördüm. İzmir’deki küçük home office’te denediğim bir prototipte sadece sohbet eden bot vardı ve açık söyleyeyim pek heyecan vermiyordu. Sonra aynı akışa “dosya oluştur”, “şunu özetle”, “bu metni markdown’a dök” gibi aksiyonlar ekledim; iş değişti. Neden önemli bu? İnsanların ilgisi bir anda arttı çünkü araç laf değil sonuç veriyordu.

Burada asıl mesele ses değil aslında; doğal dilin doğrudan işleve bağlanması (şaşırtıcı ama gerçek). Klavyeyle yazınca kullanıcı daha sabırlı ölür ama konuşunca beklenti başka oluyor: hızlı yanit, doğru niyet çözümü. Mümkünse hatasız çıktı. Bu yüzden sesli ajan projelerinde arayüz kadar karar mantığı da kritik.

İşte tam da bu noktada devreye giriyor.

Sistem nasıl kuruluyor? Basit ama kırılgan bir zincir

Bu tarz projelerde en sevdiğim şey mimarının anlaşılır olması. Zincir kabaca şöyle çalışıyor: ses alınır, metne çevrilir, metnin niyeti anlaşılır, sonra uygun işlem yapılır ve sonuç ekrana basılır. Kağıt üstünde temiz görünüyor; pratikte işe her halka ayrı sürpriz çıkarabiliyor (şaşırtıcı ama gerçek)

Sesli ajanlarda başarıyı belirleyen şey çoğu zaman modelin zekası değil… zincirin en zayıf halkasının ne kadar iyi yönetildiği oluyor.
Ayrıca okuYerelde Çalışan Sesli Yapay Zekâ: Nerede Tökezliyor?

Araya gireyim: Mesela Whisper sesi yanlış duyarsa pek çok akış kayıyor. Niyet sınıflandırıcı fazla özgüvenliyse kullanıcı “bir dosya aç” derken önü “kod üret” diye yorumlayabiliyor. Dosya sistemi güvenliği gevşekse de işler iyice karışıyor — yanlış klasöre yazılan tek dosya bile baş ağrısı çıkarır.

İşte tam da bu noktada devreye giriyor.

Bilmem anlatabiliyor muyum, Aşağıdaki mini akış aslında projenin omurgasını güzel özetliyor:

Audio Input → Speech-to-Text → Intent Detection → Action Execution → UI Output

Basit görünüyor diye küçümsemeyin. Benzer yapıyı Ankara’daki bir demo sunumunda izledim; ekip sadece üç adım ekleyerek sistemi daha kullanışlı hâle getirmişti: hata mesajlarını sadeleştirmek, güvenli çıktı dizini kullanmak. Her aşamayı ekranda görünür yapmak. İşte o zaman ürün hissi oluşuyor.

Whisper burada ne iş görüyor?

Whisper’ın en büyük artısı Türkçe dahil çok dilli senaryolarda fena olmaması. Gürültülü ortamda bile çoğu zaman idare ediyor; özellikle farklı aksanlarda klasik speech-to-text çözümlerine göre daha sağlam durabiliyor (yanlış duymadınız). Tabii kusursuz değil — kahve makinesinin uğultusu ile aynı anda konuşursanız bazen saçmalıyor. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.

Kısa bir not düşeyim buraya.

Kendi testimde bunu net yaşadım: Kadıköy’de dışarıdan gelen trafik sesi varken kısa komutları fena çözmedi. Uzun cümlelerde bazı kelimeleri yuttu (inanın bana). Mesela “özet çıkar ve yeni dosya oluştur” demek yerine yalnızca “özet çıkar” kısmına takıldığı oldu (evet, sınır bozucu). Bu yüzden komutları kısa tutmak hâlâ iyi fikir. Daha fazla bilgi için Windows 11’de Can Sıkıcı Yavaşlık Bitiyor mu? yazımıza bakabilirsiniz.

Bence Whisper’ı güçlü yapan şey sadece doğruluk oranı değil… yerelde çalıştırılabilmesi de önemli bir avantaj veriyor; aşırtmadan söyleyeyim ki gizlilik tarafında eli rahatlatıyor.. Mesela müşteri verisi olan ortamlarda sesi buluta göndermeden işlemek bayağı değerli.

Neden yerel çalıştırma önemli?

İşin garibi, Küçük startup için bu konu doğrudan maliyet meselesi oluyor. API çağrısı arttıkça fatura büyüyor; hele ki demo sonrası gerçek kullanıcı girerse rakamlar şişebiliyor. Yerel modelde işe kontrol sizde kalıyor ama donanım yükü sizin boynunuzda oluyor (ben de ilk duyduğumda şaşırmıştım)

Kurumsal tarafta durum biraz farklı. Burada mesele yalnızca para değil; veri yönetişimi, uyumluluk ve loglama politikaları da devreye giriyor. Bir bankada ya da sağlık uygulamasında sesi üçüncü tarafa taşımak kolay karar değil. O yüzden yerel Whisper yaklaşımı bazen teknik tercihten çok organizasyonel zorunluluk oluyor.

💡 Bilgi: Yerel speech-to-text kullanırken RAM ve CPU tüketimini hafife almayın. Model küçük olsa bile eşzamanlı isteklerde sistem hızla yorulabilir. Mesela de de masaüstü uygulamalarda sessiz çalışan arka plan süreci şart.

Niyet algılama kısmında asıl oyun başlıyor

Dürüst olayım… çoğu kişi burayı hafife alıyor. Oysa projenin karakteri tam burada şekilleniyor.“Create file”, “write code”, “summarize text”, “general chat” gibi kategoriler kulağa basit geliyor. Kullanıcı dili hiç o kadar temiz olmuyor.

Bak şimdi, Editör masasında bu haberi incelerken aklıma geçen sene Şişli’de gördüğüm bir iç araç geldi. Kullanıcılar komutları tam kalıp hâlinde söylemiyordu; biri “bunu dosyala”, diğeri “buradan snippet çıkar”, öbürü de “bana kısa toparla” diyordu.Yani intent detection dediğimiz şey aslında günlük dildeki bulanıklığı yakalamaya çalışıyor. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.

Niyet	Kullanıcı örneği	Sistemin yapacağı iş
Create File	“Yeni bir not dosyası aç”	.txt veya.md dosyası oluşturur
Write Code	“Bana Python fonksiyonu yaz”	Kod üretir ve kaydeder
Summarize Text	“Bu metni kısalt”	Daha kısa özet döner
General Chat	“Şunu açıklasana”	Sohbet cevabı verir

Bence burada en sağlıklı yaklaşım iki katmanlı düşünmek. İlk katman kaba sınıflandırma yapar, ikinci katman işe gerekirse ince ayar verir. Böylece model her şeyi tek atışta çözmeye zorlanmaz.Az önce X dedim ama aslında Y daha doğru olabilir… çünkü kullanıcı niyetleri çoğu zaman gri alanda dolaşıyor.

Aksiyonlar güvenliksiz olursa proje biter mi?

Evet!Açık konuşayım, agent kısmının en riskli tarafı burası. Dosya oluşturmak kolaydır; yanlış yerde oluşturmak işe felaket.O yüzden çıkış dizini sınırlandırılmış olmalı,işim sanitizasyonu yapılmalı,path traversal ihtimali kapatılmalı.Yoksa sesli komutla gelen zararsız görünen istek sızı ters köşe yapar.

Açıkçası, Kendi denememde bunu özellikle test ettim: Haziran 2024’te Ankara’da hazırladığım sandbox ortamında kullanıcıdan gelen adı doğrudan dosya adına çevirdim ve beklediğimden daha fazla sorun çıktı:boşluklu isimler,özel karakterler,aynı işim çakışmaları… Küçük detaylar ama hepsi can sıkıyor. Claude Code, Codex CLI ve Gemini CLI: 2026’nın En İyi AI Terminal Agent’ı Hangisi? yazımızda bu konuya da değinmiştik.

Sadece belirlenmiş klasöre yazın.Kullanıcı girdisini temizleyin.Aynı isimdeki dosyalarda üzerine yazmayı varsayılan yapmayın.Kod üretirken çıktı formatını sabitleyin.Tüm aksiyonları loglayın ki sonra ne olduğunu anlayabilesiniz.

E tabi kurumsalda buna versiyonlama da eklenir. Hangi kullanıcının hangi komutu verdiği,hangi dosyanin ne zaman oluştuğu,hangi model çıktısının hangi kararla eşleştiği… Bunlar sonradan altın değerinde oluyor.Küçük ekipte gereksiz gibi görünen log sistemi,ölçek büyüyünce hayat kurtarıyor. OpenAI CEO’su Sam Altman’a Saldırı: Teknoloji Dünyası Ne Öğrendi? yazımızda bu konuya da değinmiştik.

Streamlit arayüzü neden iyi seçim?’

İşin garibi, Streamlit’in cazibesi şu:çok hızlı prototip çıkarıyorsunuz.Bir günde çalışan demo göstermek istiyorsanız biçilmiş kaftan.Form alanları,butonlar,metin kutuları,ses yükleme bileşeni… Neden önemli bu? Hepsi az kodla ayağa kalkıyor.Ama hani her güzel şeyin ufak bir bedeli ölür ya;burada da o bedel özelleştirme esnekliği tarafında çıkıyor.

Ben bunu ilk kez Eylül 2024’te Berlin’deki uzaktan çalışma haftasında fark ettim.Bir arkadaşım Streamlit ile iç araç yaptı;demo güzel görünüyordu. Tasarım ince ayarlarına gelince duvara tosladı.Yani MVP için şahane,ürünleşme aşamasında işe biraz ham kalabiliyor.Beklediğim kadar değildi dediğim yer tam orasıydı (kendi tecrübem)

Yine de şu avantajını inkâr edemem:çıktıları canlı görmek çok rahat.? Pardon—durun saniye,Türkçe devam edelim; transkripsiyon sonucu,algılanan niyet,üretilen cevap aynı ekranda olunca debug süresi ciddi düşüyor.Gözünüzle zinciri izliyorsunuz;nerede kopmuş hemen anlaşılıyor.

MVP için yeterli mi?

Vallahi, Küçük startup için evet, bayağı yeterli olabilir. Çünkü öncelik hızdır:fikri doğrulamak,ilk kullanıcıdan geri bildirim almak,komut setini düzeltmek.Kurumsal tarafta işe muhtemelen son hedef olmaz;orada mevcut kimlik yönetimiyle entegrasyon,rol bazlı yetkilendirme. Audit trail isterler.

Kısacası Streamlit burada vitrin görevini iyi görüyor;arka plandaki zekâyla kavga etmiyor, önü sergiliyor

Bence en zor kısım teknik değil, davranış tasarımıydı

İnsanların sesle sistem kullanırken sabrı az oluyor (buna dikkat edin). Bir butona basıp beklemek tamam da konuşup sonuç alamayınca hemen hayal kırıklığı başlıyor: O yüzden geri bildirim şart:dinleniyor müsünüz? anlaşıldınız mı? işlem sürüyor mu? Bunları göstermeyen ürün biraz eksik kalıyor.

Şunu fark ettim: Ayrıca hata mesajlarının dili de önemli. “Recognition failed” yazarsanız kullanıcı boş boş bakar. “Sızı net anlayamadım, tekrar söyler mısınız?” derseniz durum değişir. Küçücük fark ama deneyimi bayağı etkiliyor.

Ben bu konuda kendi blog testlerinde sık sık şunu gördüm:iyi algoritma kötü iletişim yüzünden sıradanlaşıyor: Hatta bazen orta seviye model düzgün UX ile daha başarılı hissediliyor: İşin sırrı biraz da orada.

Peki kimler böyle bir proje yapmalı?

Startup’lar için

Eğer hızlı prototip istiyorsanız kesinlikle denenebilir។ Müşteri destek otomasyonu, içerik üretimi, not alma veya iç araç geliştirme gibi alanlarda çok işe yarayabilir. Bu ne anlama geliyor? Şimdi, en çok da de API maliyetinden kaçmak istiyorsanız local Whisper çizgisi cazip duruyor.

Enterprise ekipler için

Burada olay sadece çalışması değil; sürdürülebilir olması gerekir. Güvenlik politikaları, veri saklama kuralları, gözlemleme altyapısı hatta compliance raporlaması gündeme gelir. Aksi hâlde demo dikkat çekici olsa bile gerçek hayata geçmez.

Bakın şimdi, ben bu tıp projelerde hep aynı şeyi söylüyorum: “ilk çalışan sürüm” ile “gerçek ürün” arasında uçurum var. Ses kontrollü ajan tam olarak bu uçurumun kenarında duruyor. Çok havalı görünüyor, evet; ama sağlamlaştırılmazsa kolay dağılıyor.

Sıkça Sorulan Sorular

Whisper ile Türkçe ses tanıma iyi mi?Evet, genel olarak iyi. Mesela temiz kaydedilmiş seste başarılı sonuç veriyor. Gürültü artınca hata payı yükseliyor; o yüzden kısa komutlarla kullanmak daha sağlıklı.

MVP aşaması için gayet yeterli. Hızlı arayüz kurarsınız, çıktıları canlı gösterirsiniz, testi kolaylaştırırsınız. Ama büyük ölçekli ürünlerde özelleştirme ihtiyacı doğarsa başka front-end seçeneklerine bakmanız gerekebilir.

Cünkü aynı cümle farklı amaçlarla söylenebilir. Sistem bunun create file mı, code generation mı yoksa chat mi olduğunu anlamazsa yanlış aksiyon alır. Asıl kaliteyi burada hissedersiniz.

DOSYA güvenliği nasıl sağlanır?

Sadece izin verilen klasöre yazın, girdileri temizleyin, path traversal kontrolü yapın. En önemlisi de varsayılan davranışı güvenli seçin; yani hata varsa işlem yapmasın.

Kaynaklar ve İleri Okuma>

Proje GitHub Sayfasiğ>/a>

OpenAI Whisper Resmî Tanıtım Sayfası>/a>

Streamlit Dokümantasyonu>/a>

Kod Yazmak Yetmiyor: UI’da Asıl Farkı Ne Belirliyor?

Chunking Neden RAG’in En Büyük Hatası Olabiliyor?

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub