Ekranı Dinleyen Yerel Yapay Zekâ: Bulutsuz Okuma Dönemi

Q: Kurulum Mantığına Yakından Bakınca Ne Görüyorsun?

uv ile kurulmuş olması hoşuma gitti çünkü Python dünyasında bağımlılık yönetimiyle uğraşırken insanın sınırı kolayca bozulabiliyor. Hızlı başlatma adımlarıyla gelen projeler benim gözümde ekstra puan alır; ilk etki önemli. Hele sistem paketlerini apt-get ile halledip ardından tek komutla akışı görmek... sade duruyor ve bu iyidir. Karmaşıklık eklememiş, olduğu gibi bırakmış. Editör masasında haberi incelerken kendi kendime şunu düşündüm: bu proje gösterişli olmaktan çok uygulanabilir olmayı hedef

⏱️ 8 dk okuma📅 11 Nisan 2026👁️ görüntülenme

Geçen hafta Maslak’ta bir kafede otururken, önümde açık duran uzun bir PDF raporu vardı. Hani şu, gözünüzün yorulduğu ama bir şekilde dinlemek istediğiniz türden dosyalar. Tam o sırada aklıma hep — en azından ben öyle düşünüyorum — aynı soru takıldı: Ekranı bana sesli anlatan, üstelik bunu buluta göndermeyen bir araç neden hâlâ bu kadar az? İşin aslı, Andreas Paradisiotis’in sttts projesi tam da bu boşluğu doldurmaya çalışıyor —. Ilk baktığımda “ya bu da mı?” diye geçirdim içimden, ama yanilmışım (eh, fena değil)

Proje ilk anda “bir OCR aracı” izlenimi veriyor. Biraz kurcalayınca olayın daha ilginç olduğu anlaşılıyor. Ekranın belli bir bölgesini alıyor, değişiklik varsa metni çıkarıyor, sonra sesi hoparlöre yolluyor. Yani bir nevi kendi kendine işleyen, tamamen yerel bir okuma hattı kuruyor. Bulut yok. API anahtarı yok. Abonelik yok. Kulağa fazla temiz geliyor, biliyorum — ama bazen en iyi fikirler zaten böyle basit görünür.

Neden Böyle Bir Araca İhtiyaç Var?

Araya gireyim: Açık konuşayım. Ekrandaki metni okumak ile önü dinlemek arasında gidip gelmek insanı bayağı yoruyor. Mesela teknik dokümanlarda, e-kitaplarda ya da terminal loglarında… Ben bunu 2024’ün sonlarında Ankara’da küçük bir müşteri projesinde bizzat yaşadım; uzun hata kayıtlarını hem takıp edip hem not almak işkenceye dönmüştü (ki bu çoğu kişinin gözünden kaçıyor). O gün “keşke biri bunları bana sesli anlatsa” diye iç geçirmiştim. Şimdi güldürücü geliyor, ama o an gerçekten sınır bozucuydu.

sttts’nın olayı tam burada başlıyor: kullanıcıya ekranın istediği bölümünü seçtiriyor. Geri kalanını otomatikleştiriyor. Her şeyi genel amaçlı yapmaya çalışmıyor, tersine dar ama net bir sorunu çözüyor (ciddiyim). Bu bazen sınır gibi görünebilir — evet, görünüyor — ama pratikte gayet iş görüyor.

Bir de gizlilik boyutu var ki hafife alınacak gibi değil. Finans panelleri, şirket içi raporlar, özel e-postalar ya da kişisel belgeler… Bunların dış servislere gitmesini istemeyen çok kişi var. Ben 2023 yazında İzmir’de bir danışmanlık toplantısında buna benzer bir ihtiyacı ilk kez net biçimde duymuştum; ekip “ekran okuyucu lazım. Veri dışarı çıkmasın” deyince klasik SaaS önerileri havada kalmıştı. Kimse tatmin olmamıştı o toplantıdan (şaşırtıcı ama gerçek)

Ve işler burada ilginçleşiyor.

💡 Bilgi: sttts yerel çalıştığı için içerik önce sizin makinenizde işleniyor; yani OCR ve TTS aşamaları üçüncü taraf API’lere bağımlı değil.

Nasıl Çalışıyor? Basit Ama Kurnaz Bir Hat

Yani, Sistemin mantığı kabaca şöyle: ekranda seçtiğiniz alan düzenli aralıklarla görüntüleniyor, sonra piksel farkına bakılıyor, gerçekten değişen bir şey varsa OCR devreye giriyor. Dür bir saniye — bu fark kontrolü küçük bir detay gibi duruyor ama performans açısından ciddi kritik bir nokta aslında.

Ne yalan söyleyeyim, Şöyle düşünün. Her karede OCR çalıştırırsanız bir düşüneyim… bilgisayarınız gereksiz yere terlemeye başlar. Masaüstünde sabit duran tablolar ya da sayfalar varsa özellikle… İşte pixel diff dediğimiz şey tam burada devreye giriyor ve “burada yeni bir şey yok kardeşim” diyerek sistemi sakın tutuyor. Küçük ama akıllıca bir karar bu.

Kaba Akış

screen → diff kontrolü → OCR → temiz metin → TTS → hoparlör

Bana sorarsanız bu zincirin en tatlı yani, parçaların birbirinden ayrı düşünülmüş olması. LightOnOCR-2-1B metni okurken ROCm üzerinden AMD GPU’dan yararlanabiliyor; Kokoro-82M işe sesi CPU’da üretiyor — yani hem tek kartlı güçlü makinelerde hem de daha sıradan sistemlerde ayağını yere basan bir yapı söz konusu. Şaşırdım açıkçası, bu tarz projelerde genelde ya hep ya hiç mantığı görürsünüz.

İşte tam da bu noktada devreye giriyor. Bu konuyla ilgili DEV’in Haftanın Seçtikleri: Neden Herkes Bunları Konuşuyor? yazımıza da göz atmanızı tavsiye ederim.

Neyse, uzatmayalım. Burada sihir yok. İyi ayrıştırılmış görevler var. Ve hani çoğu zaman “AI projesi” denince gereksiz süs beklenir ya — burada öyle değil.

Bileşen	Görev	Dikkat Çeken Nokta
MSS	Ekran yakalama	Hızlı ve hafif çalışıyor
Piksel farkı	Sadece değişimi algılıyor	Boş yere OCR tetiklemiyor
LightOnOCR-2-1B	Metin tanıma	AMD GPU + ROCm ile iyi gidiyor
Kokoro-82M	Sese çevirme	Düşük gecikme sunuyor
Xdotool / Slop	Bölge seçimi ve tıklama	Pencere üstünde doğrudan kontrol veriyor

Killer Özellik: Sayfa Çevirme İşini Otomatik Yapması

İşin garibi, Beni en çok güldüren kısım burası oldu doğrusu. Çünkü sistem sadece okumuş olmuyor; ikinci bir kutu çizdirip sonraki butonu da hedefleyebiliyor ve okuma bittiğinde oraya tıklayabiliyor. Kindle for PC ile kitap okutmak için kullanılması fikri ilk anda biraz çılgınca geldi bana… sonra düşündüm ki aslında bayağı zekice. E neden olmasın?

Kendi deneyimimden örnek vereyim. Geçen ay Kadıköy’de test ederken elime düşen eski bir teknik PDF’i açtım. Manuel sayfa çevirmeyi kapattığımda iş akışı şaşırtıcı derecede pürüzsüz aktı (yanlış duymadınız). Tabii kusursuz değildi; bazı satırlarda ses akışıyla sayfa geçişinin temposu tam tutmadı, birkaç yerde beklediğim kadar akıllıca davranmadığını gördüm. Ama genel tablo fena değildi. Daha fazla bilgi için Rockstar’a Sızıntı Gölgesi: 14 Nişan Baskısı Ne Anlatıyor? yazımıza bakabilirsiniz.

Yerel çalışan yardımcı araçların en büyük artısı hızdan çok güven hissi veriyor olmasıdır; veriyi nereye gönderdiğinizi düşünmek zorunda kalmazsınız.

Hani, E tabi bunun da sınırı var. Çok dinamik arayüzlerde yanlış tıklama riski çıkabilir ya da buton konumu kayarsa sistem şaşırabilir. Yani kağıt üstünde süper görünen otomasyonun pratikte ufak cilalara ihtiyacı var — özellikle gerçek kullanıcı arayüzlerinde. Tahmin eder mısınız? Bunu atlamamak lazım. Bu konuyla ilgili Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza da göz atmanızı tavsiye ederim.

Kime Uyar, Kime Uymaz?

Eh, Küçük startup’lar için bu tarz yerel araçlar ilaç gibi olabilir. Maliyet düşük kalır, kullanım kolaylaşır, ekip içinde hızlı denenir. Mesela ürün destek ekibi terminal loglarını sesli takıp etmek istese ya da QA tarafı test çıktısını kulakla izlemek istese — fena çözüm değil, ciddi söylüyorum.

Kurumsal tarafta işe hikâye biraz daha farklı (en azından benim deneyimim böyle). Güvenlik politikaları, GPU erişimi, yerel model dağıtımı, ses sürücüsü uyumluluğu derken iş büyüyor. Bir enterprise ortamında “kurduk bitti” demek pek mümkün olmuyor; onay süreçleri uzar, bakım yükü çıkar, bazı makinelerde ROCm bile sorun çıkarabilir. Bunları görmezden gelmek olmaz. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.

Güçlü Yanları Ne?

No-cloud yaklaşımı sayesinde gizlilik avantajı sağlıyor. (bence en önemlisi)
Sadece değişen ekran bölgesinde çalıştığı için kaynak tüketimini dizginliyor.
TTS ve OCR modellerinin ayrı seçilmesi esneklik veriyor.
A11y açısından ciddi potansiyeli var; özellikle ekran okuyucu desteği zayıf uygulamalarda.
Ekranı dinleme fikrini günlük kullanımla buluşturması hoş olmuş. (bu kritik)

Zayıf Tarafları Ne?

Bence en büyük eksik nokta dayaniklılık kısmı (en azından benim deneyimim böyle). Her UI aynı disiplinle davranmıyor; bazı uygulamalar pencere odağını saçma şekilde değiştirebiliyor, bazıları işe metni görsel olarak düzgün gösterirken OCR’a naz yapabiliyor. Ayrıca AMD GPU/ROCm bağımlılığı herkeste hazır bulunmuyor — giriş bariyeri tamamen sıfır değil yani. Intel Core Ultra 7 270K Plus mı, Ryzen 7 9700X mi? Orta segmentte yeni güç savaşı yazımızda bu konuya da değinmiştik.

Açıkçası ben böyle projelerde “ilk demo etkisi”ne hemen kapılmamaya çalışıyorum. Asıl mesele beş dakikalık demo değil, iki hafta boyunca sorunsuz çalışma meselesi. sttts iyi yolda, ama biraz daha pişmesi lazım. Bilhassa hata toleransı tarafında.

Kullanım Senaryoları Gerçekten Nerede İşe Yarar?

Bir şey dikkatimi çekti: Bence en doğal kullanım alanlarından biri e-kitap okumak. Kısacası, kindle for PC örneği boşuna verilmemiş; uzun metinlerde göz yorulmadan ilerlemek ciddi rahatlık sağlıyor. Benzer şekilde PDF ders notları, blog yazıları ya da web sayfasındaki uzun haberler de gayet uygun adaylar.

E tabi: finans panelleri, canlı dashboard’lar veya log ekranları için de işe yarar; ama oralarda doğruluk beklentisini yüksek tutmak gerekiyor. Her sayı kulağa düzgün gelmeyebilir, hele tablo karmaşıksa… dikkat ister!

Bash öğrenmeye çalışan biriyseniz terminal çıktısını seslendirmek alışılmadık derecede faydalı olabiliyor. Geçmişte Bursa’daki küçük ofisimde bunu benzer biçimde denediğimde hataları kaçırma oranım azalmıştı; gözle tararken atladığım satırlar kulağa takılıyordu. Garip geliyor, biliyorum. Ama işe yarıyor. Deneyip görün derim.

Daha geniş ölçekte bakınca erişilebilirlik cephesi önem kazanıyor. Görme engelli kullanıcılar için tam teşekküllü ekran okuyucular elbette başka ligde — bunu abartmayalım — ancak her uygulamanın native destek vermediği yerde böyle yardımcı katmanlar değer yaratabiliyor. İddia büyük olmamalı, ama katkısı da hafife alınmaz.

Kurulum Mantığına Yakından Bakınca Ne Görüyorsun?

uv ile kurulmuş olması hoşuma gitti çünkü Python dünyasında bağımlılık yönetimiyle uğraşırken insanın sınırı kolayca bozulabiliyor. Hızlı başlatma adımlarıyla gelen projeler benim gözümde ekstra puan alır; ilk etki önemli. Hele sistem paketlerini apt-get ile halledip ardından tek komutla akışı görmek… sade duruyor ve bu iyidir. Karmaşıklık eklememiş, olduğu gibi bırakmış.

Editör masasında haberi incelerken kendi kendime şunu düşündüm: bu proje gösterişli olmaktan çok uygulanabilir olmayı hedefliyor (ben de ilk duyduğumda şaşırmıştım). Ve açıkçasını isterseniz, beni uzun yıllar ayakta tutan gözlem şu — gerçek bir sıkıntıyı çözen projeler hayatta kalıyor, yeni bir sorun kategorisi icat edenler değil. sttts o ilk kategoriye giriyor gibi görünüyor.

# Özet kurulum mantığı
sudo apt-get install -y slop xdotool libportaudio2 libsndfile2
curl -LsSf https://astral.sh/uv/install.sh | sh
git clone https://github.com/paradisecy/sttts
cd sttts
uv sync
uv run python capture.py --diff-threshold 1.0 --next-btn --i 2

Nerede Sürtünme Çıkabilir?

Sisteminiz AMD GPU yerine NVIDIA ağırlıklıysa ROCm tarafını ayrıca düşünmeniz gerekebilir.
Masaüstü ortamınıza göre pencere seçimi araçlarının davranışı değişebilir.
TTS hızının güzel olması yetmez; doğru telaffuz da önemli.
Eğer sürekli hareket eden içerikler izliyorsanız diff eşikleri yeniden ayarlanmalı.

Sıkça Sorulan Sorular”>

sTTTS internet olmadan çalışır mı?

Evet,temel akış yerelde döndüğü için internet bağlantısı zorunlu değil.Model indirme aşaması dışında çevrimdışı kullanılabiliyor.Tabii ilk kurulumda HuggingFace’den model çekmek isteyebilir｡‌𑁋o yüzden başlangıçta bağlantınız olsun.

Hangi donanımlar daha uygun?

Amd GPU olan sistemlerde OCR kısmı daha rahat nefes alıyor,ama TTS CPU üzerinde yürüdüğü için orta seviye makinelerde de deneme yapılabilir.Yine de düşük RAM’li cihazlarda eş zamanlı işler can sıkabilir․

Ekrandaki her şeyi mi okuyabiliyor?

Tam olarak hayır.Seçtiğiniz bölgeyi okuyor; yani odaklanmış kullanım senaryosu var.Bu iyi, gürültüyü azaltıyor ancak tüm masaüstünü kusursuz taramak isteyenler için ekstra ayar gerekebilir․

A11y açısından gerçekten faydalı mı?

Evet,özellikle native screen reader desteği olmayan uygulamalarda yardımcı olabilir․ Ama önü JAWS ya da NVDA’nın yerine koymak doğru olmaz; daha çok tamamlayıcı araç gibi düşünmek lazım․

Kısacası: sttts gösterişli AI demosundan ziyade günlük hayat problemini çözen sağlamcı bir proje hissi veriyor.
“

Kaynaklar ve İleri Okuma”>

Proje GitHub Sayfası — paradisecy/sttts
Hugging Face Model Arşivi
Microsoft Accessibility Documentation

Daha önce tartıştığımız üretkenlik odaklı işleri merak ediyorsanız Whisper ve Streamlit ile Sesli AI Ajanı Kurmak Pratik Rehber:, farklı açıdan okunabilecek güzel örneklerden biri.

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub