Browser’da Doktor Değil, Danışman: WebLLM ile Gizli Yapay Zekâ

⏱️ 5 dk okuma📅 14 Nisan 2026🔄 Güncelleme: 21 Nisan 2026👁️ görüntülenme

Sağlık verisi deyince işin rengi değişiyor. Bir şikâyet listesi, ilaç adı, yaş bilgisi ya da basit bir semptom notu bile baya hassas olabilir. İşte tam burada klasik bulut mimarisi biraz tökezliyor; çünkü veriyi bir sunucuya gönderdiğiniz an, güven. Gecikme meselesi masaya geliyor. Bu yüzden son dönemde tarayıcı içinde çalışan yapay zekâ fikri bayağı ilgi çekiyor.

Ben açık konuşayım, bu konuyu ilk gördüğümde “tarayıcıda LLM mi ölür?” diye hafif burun kıvırdım. Ama 2024 sonbaharında İstanbul’daki bir demo etkinliğinde WebGPU tabanlı küçük bir model çalıştırınca fikrim değişti. Cevaplar kusursuz değildi, evet. Ama veri cihazdan çıkmadan, üstelik neredeyse beklemeden sonuç alabilmek… hani bazı şeyler kağıt üstünde değil de ekranda görünce oturuyor ya, tam öyle oldu işte.

Bu yazıda mevzuyu teknik tarafıyla ama günlük dile yakın şekilde ele alacağım: WebLLM ne işe yarıyor, WebGPU neden kritik, tarayıcı içi sağlık taraması hangi senaryoda mantıklı ölür ve nerede frene basmak gerekir. Bakın şimdi, işin aslı şu ki bu yaklaşım bir doktorun yerini almıyor. Hani ne farkı var diyorsunuz, değil mi? Daha çok hızlı ön değerlendirme yapan, gizli bir danışman gibi çalışıyor.

Neden Tarayıcı İçinde Yapay Zekâ?

Önce temel sorudan başlayalım. Neden modeli buluta yollamak yerine kullanıcı cihazında çalıştırıyoruz? Çünkü sağlık gibi alanlarda gecikme sadece “yavaşlık” değil; bazen doğrudan kullanıcı deneyimini mahvediyor. Kullanıcı belirtilerini yazıp 8-10 saniye beklediğinde sistem sönük kalıyor. Oysa yerel çıkarımda yanit akmaya başlıyor… bu küçük fark bazen ürünü kurtarıyor. Gerçekten.

Bir de mahremiyet var tabii. Mesela küçük bir klinik düşünün; hasta şikâyetlerini ön elemeden geçirmek istiyor ama her şeyi üçüncü taraf sunucuya aktarmak istemiyor. Burada browser tabanlı yaklaşımın cazibesi netleşiyor. Veriler cihazdan çıkmıyor, altyapı maliyeti azalıyor ve offline çalışma ihtimali de cabası — bu üçü bir arada pek az mimaride buluşuyor.

Evet, doğru duydunuz.

Ha bu arada avantajlar kadar sınırlar da var. Büyük modelleri herkesin dizüstünde koşturamazsınız. Hele bir de eski CPU’larda performans hayal kırıklığına dönebilir ve “her yerde çalışır” demek kolay ama pratikte GPU desteği yoksa deneyim hızla sıradanlaşıyor.

Tarayıcı içinde çalışan AI’ın en güçlü tarafı hız değil sadece; asıl mesele kontrol hissi verip veriyi elde tutmasıdır.

💡 Bilgi: WebGPU destekliyorsa model ağırlıklarını GPU üzerinde işlerken ciddi hız kazanırsınız. Destek yoksa sistem WASM/CPU’ya düşebilir; yani çalışır ama aynı çeviklikte olmaz.

Mimarı Nasıl Kuruluyor?

Kafanızda şöyle canlandırın: Kullanıcı semptomları giriyor, uygulama önce WebGPU desteğine bakıyor… sonra uygunsa WebLLM motorunu başlatıp modeli indiriyor ve yerel çıkarımı açıyor. Tüm süreç tarayıcının içinde dönüyor. Dışarıdan bakana bu sıradan bir web uygulaması gibi görünüyor ama arkada GPU epey ter döküyor.

Bunu yaşayan biri olarak söyleyeyim, Ben bunu geçen ay Kadıköy’deki kendi test ortamımda denerken en çok yükleme aşamasına takıldım doğrusu. İlk model indirimi yavaş gelince insan sabrı sınırlı oluyor. Fakat ikinci açılışta durum bambaşka hâle geldi çünkü cache devreye girdi ve akış belirgin biçimde hızlandı. İşte o an dedim ki… tamam, bu işin geleceği var.

TVM.js burada orkestrasyon katmanı gibi davranıyor denebilir. Elindeki parçaları düzgün sıraya koyan sahne yöneticisi gibi düşünün. Model ağırlıkları kuantize ediliyor ki dosya boyutu küçülsün, bellek baskısı azalsın ve orta seviye cihazlarda nefes alsın.

Bileşen	Rolü	Sahadaki etkisi
WebGPU	GPU erişimi	Daha hızlı yerel çıkarım
WebLLM	Model yönetimi	Tarayıcı içinde LLM çalıştırma
TVM.js	Kod yürütme orkestrasyonu	Ağırlıkların doğru zamanda yüklenmesi
Kuantize model	Daha hafif ağ yapısı	Daha düşük indirme boyutu ve RAM kullanımı

Peki ne kazanıyoruz?

Kazanç net. Düşük gecikme, veri mahremiyeti ve internet kesilse bile temel işlevlerin sürebilmesi — özellikle saha ekipleri için bu bayağı önemli olabilir. Mesela açıl servis olmayan ama ilk yönlendirmeyi yapan portallar için ideal görünüyor (şaşırtıcı ama gerçek). Gerçekten iş görüyor.

Peki ne kaybediyoruz?

Kayıt defterine dürüstçe yazalım: Model kapasitesi buluttaki dev sistemler kadar geniş değil. Bazı cihazlarda performans dalgalanabiliyor (şaşırtıcı ama gerçek). Ayrıca ilk kurulumda büyük dosyalar indireceğiniz için kullanıcı sabrını iyi yönetmeniz gerekiyor… bunu atlamak mümkün değil, atlamaya kalkmayın da.

Küçük Ürünlerde ve Kurumsalda Fark Nerede?

Küçük startup’lar için tablo oldukça çekici çünkü API maliyetleri düşer, veri aktarımı azalır. MVP daha güven veren bir hikâyeye dönüşür (kendi tecrübem). Benzer bir tartışmayı Şubat 2025’te İzmir’deki bir bir düşüneyim… SaaS ekibiyle yaptığım görüşmede bizzat duydum; ekip “ilk versiyonumuzda müşteri datasını dış servise taşımak istemiyoruz” diyordu ve haklılardı. Bence haklılardı. Bu konuyla ilgili Nylas Audit Konfigürasyonu: Log Ayarlarını Anında Görün yazımıza da göz atmanızı tavsiye ederim. Bu konuyla ilgili Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza da göz atmanızı tavsiye ederim.

Açık konuşayım, Eğer kurumsal taraftaysanız konu biraz sertleşiyor — normal bu arada. Güvenlik politikaları, uyumluluk gereksinimleri ve model güncelleme prosedürleri devreye giriyor (şaşırtıcı ama gerçek). Burada tarayıcı içi AI tek başına yetmez; loglama stratejisi, kullanıcı onayı metni ve fallback mekanizması da ister istemez pakete dahil oluyor. Daha fazla bilgi için Telegram Kanalı Kazıma Rehberi: API’siz, Şifresiz Yöntemler yazımıza bakabilirsiniz. Amazon deposunda bir ölüm: Güvenlik soruları yeniden masada yazımızda bu konuya da değinmiştik. Bu konuyla ilgili PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza da göz atmanızı tavsiye ederim.

Küçük startup için mantıklı mı?

Evet, eğer bütçe sıkışıksa ve mahremiyet önemliyse.
Evet, eğer kullanım yoğunluğu orta seviyedeyse.
Ama hayır… her şeyi buna emanet etmek doğru olmaz. (bence en önemlisi)
Nedeni basit: donanım çeşitliliği fazlaysa destek yükü artar.

Büyük kurum için mantıklı mı?

Bence evet ama kontrollü şekilde. Kurumsalda en iyi senaryo şu ölür: Tarayıcı içi AI ön triage yapar, kritik vakalarda kullanıcıyı gerçek uzmana yönlendirir veya güvenilir backend servisine geçirir (yanlış duymadınız)

// Basitleştirilmiş kontrol akışı
async function initAssistant() {
const supported = await isWebGPUSupported();
if (!supported) {
return "CPU/WASM fallback";
}
const engine = await CreateMLCEngine("Phi-3-mini");
return engine;
}

Dikkat Edilmesi Gereken İnce Noktalar

Size bir şey söyleyeyim, Lafı gevelemeden söyleyeyim. Böyle projelerde teknik romantizm tehlikelidir. Model güzel görünür (belki yanilıyorum ama) ama yanlış uyarılar verebilir ya da bağlamı eksik okuyabilir (ki bu çoğu kişinin gözünden kaçıyor). Ciddi sağlık kararlarında bu tür araçlar yalnızca ön bilgilendirme yapmalı. Aksi hâlde hem etik hem hukukî tarafta başınız ağrıyabilir — biraz sert oldu biliyorum ama gerekliydi.

Bir başka detay da açıklama dili. Kullanıcıya “AI doktorunuzdur” havası vermek kötü fikir. Hem beklentiyi şişirir hem de yanlış anlaşılmaya yol açar. Ben olsam ekranda net bir uyarı kullanırım: “Bu araç tıbbi teşhis koymaz, sadece ilk yönlendirmeyi destekler.” Bu cümle kısa (buna dikkat edin). Etkili. Fazlası süs ölür zaten.

Şimdi, bunu yaşayan biri olarak söyleyeyim, Bunun yaninda girdi temizliği de önemli. Semptom metni serbest bırakılırsa saçma sapan prompt enjeksiyonları, gereksiz uzunluklar ya da anlamsız tekrarlarla karşılaşırsınız. Burada karakter sınırı, kategori seçimi ve yapılandırılmış form alanları hayat kurtarır. Yani ürün tasarımı kod kadar önemli. Hatta bazen daha önemli.

Bir de hız yanilsaması var. Demo sırasında lokal inference uçuyor gibi görünür ama gerçek dünyada model yükleme, paket boyutu, cache warming ve mobil cihaz kısıtları can sıkabilir. Geçen yıl Ekim ayında Berlin’de test ettiğim benzer prototipte en büyük sorun CPU sıcaklığı olmuştu. Model cevap veriyordu evet. Ama cihaz adeta çay demliyordu.

Zaman Kazandıran Pratik İpuçları

Neyse, uzatmayalım — birkaç somut ipucuyla bitirelim:

Kuantize modeli erken seçin; indirme boyutu küçülür.
WebGPU varsa göster” mantığını ilk ekrana taşıyın.
Cihaz yeterliyse streaming response kullanın. (bu kritik)
Büyük uyarıları sade tutun; kimse duvar gibi metin okumak istemez.

Sıkça Sorulan Sorular

WebLLM tam olarak nedir, ne yapar?

WebLLM, büyük dil modellerinin tarayıcı içinde çalıştırılmasına olanak veren bir yaklaşım/çatı mantığıdır. Kullanıcının girdiği metni (ör. semptom notu gibi) yerelde modele verip yanitı yine tarayıcıda üretirsiniz. Böylece veriyi sunucuya göndermeden ön değerlendirme benzeri akışlar kurulabilir.

WebGPU neden bu kadar kritik? WebGPU yoksa ne ölür?

WebGPU, model çıkarımında grafik işlem biriminden (GPU) faydalanmayı sağlar; bu da hız ve akıcılık açısından fark yaratır. WebGPU desteklenmezse sistem çoğu zaman CPU/WASM tarafına düşer ve deneyim daha yavaş olabilir. Benzer şekilde, her cihazda “aynı performans” beklemek doğru olmaz.

Tarayıcı içinde sağlık taraması yapmak güvenli mi, veri dışarı çıkar mı?

Doğru kurulumla veri cihazdan çıkmayabilir; çünkü çıkarım tarayıcı içinde gerçekleşir. Yine de uygulamanın kendisi (loglama, analitik, hata raporlama) gibi çevre bileşenleri veriyi dışarı aktarıp aktarmadığını kontrol etmek gerekir. Benim gördüğüm en büyük konu, “model yerelde çalışıyor” demenin tek başına yeterli olmaması; uçtan uca veri akışını incelemek şart.

WebLLM doktorun yerini alır mı?

Hayır. Bu tarz sistemler daha çok hızlı bir ön değerlendirme ve danışmanlık gibi çalışır; tanı koyma veya kesin tedavi yönlendirmesi için tasarlanmaz. Yazıdaki gibi düşünün: “doktor” değil, kullanıcıya yardımcı olan bir ilk filtre.

Hangi senaryolarda tarayıcı içi LLM mantıklı, hangi durumlarda fren yapmak gerekir?

Gecikmenin kritik olduğu anlık ön değerlendirme, gizlilik beklentisi yüksek klinik/kurumsal süreçler ve mümkünse offline’a yakın deneyimler iyi aday ölür. Ama çok büyük modelleri her cihazda sorunsuz çalıştırmak zor; ayrıca klinik doğruluk, güvenlik ve regülasyon tarafı ayrıca ele alınmalı. Özellikle hassas sağlık verilerinde kapsam ve denetim olmadan “her şeyi çözer” algısına kapılmamak gerekir.

Kaynaklar ve İleri Okuma

Azure OpenAI Service dokümantasyonu

Microsoft Edge DevTools (performans ve ağ inceleme için)

MDN: WebGPU nedir ve nasıl kullanılır?

GitHub: web-llm (WebLLM örnekleri ve proje

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub