GUI Ajanları Nereden Nereye: Ekranı Gören Yapay Zekâ

⏱️ 7 dk okuma📅 9 Nisan 2026👁️ görüntülenme

2020’de masaüstü otomasyonu denince aklıma gelen şey hiç de parlak değildi: fareyi kaydet, koordinatı sabitle, dua et. 2026’ya gelince iş değişti. Artık ekranı “gören”, ne yaptığını bağlamdan çıkaran. Butonun nerede olduğunu HTML’den değil görüntüden anlayan sistemlerden konuşuyoruz. Açık konuşayım — bu geçiş bayağı büyük bir kırılma.

Ben bu konuyu ilk kez 2023 sonbaharında, İstanbul’da bir fintech ekibiyle otururken ciddiye aldım. Ekipteki arkadaşlar bir muhasebe uygulamasını otomatikleştirmek için klasik RPA kullanıyordu. Tek bir pencere başlığı değişince büyük çoğunluk akış çöküyordu. O masada şunu düşündüm: sorun sadece araçta değil, yaklaşımın kendisindeydi. Makineye “ne yapacağını” değil, “nasıl görüneceğini” ezberletiyorduk. Fark büyük.

Şimdi tablo daha ilginç. Bir yanda eski usul kayıt-yürüt mantığı var. Diğer yanda tarayıcı içi DOM okuyan ajanlar geliyor; sonra en yeni tarafta doğrudan ekran görüntüsünü yorumlayıp tıklayan modeller çıkıyor. İşin aslı şu ki GUI otomasyonunda üç ayrı nesil oluştu. Her biri bir öncekinin açıklarını kapatmaya çalıştı — ama her seferinde başka bir bedel ödendi.

Bunu biraz açayım.

💡 Bilgi: GUI ajanları denince tek bir ürün sınıfından bahsetmiyoruz; bazıları tarayıcıya sıkışmış durumda, bazıları masaüstüne çıkıyor, bazıları da doğrudan ekranı algılayıp eylem üretiyor. Yani konu biraz karışık görünüyor — ama tam da o yüzden önemli.

İlk Dönem: RPA’nın Kırılgan Ama Faydalı Dünyası

Klasik RPA’yı anlamak için çok teknik olmaya gerek yok. İnsan ne yapıyorsa önü kaydedip tekrar oynatıyor. Fareyi sağa çekiyorsun, düğmeye basıyorsun, form dolduruyorsun — bitti sanıyorsun. Ertesi gün arayüzde minik bir kayma oluyor ve bütün kurgu dağılıyor. Hani kağıt üstünde sağlam görünen ama pratikte sürekli nazlanan işler vardır ya, işte tam öyle.

Geçen yıl Ankara’da küçük bir üretim firmasında buna benzer bir senaryo gördüm. Bordro ekibi aynı Windows uygulamasında her ay aynı işlemi yapıyordu; koordinata bağlı script’ler yüzünden çözüm pamuk ipliğine bağlıydı sanki. Bir sekme adı değişti mi? Peki, patlıyor. Çözünürlük farklı mı? Patlıyor. Kullanıcı arayüzüne yeni ikon mu geldi? Gene patlıyor. Yorucu.

Kısa bir not düşeyim buraya.

Şahsen, RPA’nın kötü tarafı yalnızca kırılganlık da değil aslında — anlamsızlık da var. Sistem ne yaptığını bilmiyor, sadece taklit ediyor. Bu bazen yeterli oluyor tabii; özellikle bankalar, sigorta şirketleri ve kamu kurumlarında hâlâ ciddi kullanım alanı var. Ama geliştirici gözüyle bakınca, nasıl desem, biraz yorucu kalıyor.

Neden hâlâ kullanılıyor?

Çünkü bazı yerlerde API yoktur, entegrasyon yapmak pahalıdır veya eski sistemlere dokunmak risklidir. Böyle durumlarda RPA adeta bant yardımı gibi çalışıyor. Yarayı iyileştirmiyor. Ama kanamayı durduruyor.

Eski masaüstü uygulamalarında hızlı çözüm verir (bu kritik)
Kod bilmeyen ekipler tarafından yönetilebilir
Düşük hacimli tekrarlı işleri iyi taşır (bence en önemlisi)

Gel gelelim dezavantajlar hemen ortaya çıkıyor: bakım maliyeti yüksek, hata toleransı düşük. Süreç büyüdükçe yönetim zorlaşıyor. Küçük startup için bile can sıkıcı olabiliyor; kurumsal ölçekteyse bazen tam bir operasyon yüküne dönüşüyor. Bizzat gördüm, bir kez değil.

Yaklaşım	Güçlü Yani	Zayıf Yani
Klasik RPA	Hızlı kurulum, eski sistemlerle uyum	Piksel hassasiyetine bağımlılık
BROWSER CUA	DOM üzerinden daha akıllı işlem	Sadece tarayıcıyla sınırlı kalması
PURE-VISION AGENT	Ekranı doğrudan anlamaya yakın çalışma	Daha yeni, henüz olgunlaşma aşamasında olması

Tarayıcı İçinde Akıllanan Dönem: DOM Tabanlı Ajanlar

2024-2025 civarında sahneye çıkan ikinci nesil yaklaşımın farkı şuydu: artık makine sadece tıklamıyordu, sayfanın yapısını da okuyordu. Chrome DevTools Protocol gibi araçlarla DOM alınıyor, LLM’e veriliyor ve model “şu elemana baş”, “şu alanı doldur” diye yönlendirme üretiyor. Kağıt üzerinde oldukça temiz görünüyor, haklısınız.

Şimdi gelelim işin can alıcı noktasına.

Aslında, Bunu ilk kez kendi test ortamımda deneyince fark ettim ki tarayıcı otomasyonu ile gerçek kullanıcı davranışı arasında hâlâ epey mesafe varmış. İstanbul’da hazırladığım demo formunda görünürde kolay görünen işlerin altına saklanmış dinamik katmanlar vardı; model doğru metni bulsa bile bazen yanlış öğeye tıkladı,. HTML ağacı gereksiz kalabalıkla dolup taşıyordu. Şaşırdım doğrusu.

Bir de güvenlik kısmı var ki burada durup nefes almak lazım. DOM içeriği çoğu zaman hassas veri taşıyor — oturum bilgisi, form alanları, müşteri detayları derken bunların bulut tabanlı modele gitmesi birçok şirkette hemen alarm çaldırıyor. Bu endişeyi hafife almamak gerekiyor. Daha fazla bilgi için OnePlus’ın El Konsolu Sızıntısı: Kalın Gövde, Büyük İddia yazımıza bakabilirsiniz.

Nerede iyi çalışıyor?

Açık konuşayım: tarayıcı içinde kalan görevlerde fena değil, hatta baya işe yarıyor. Bilhassa veri girişleri, rapor çekme işleri ya da CRM benzeri web araçlarında hızlı sonuç verebiliyor. Orada gerçekten eli uzun.

DOM tabanlı ajanların en büyük avantajı mekanik tekrar yerine bağlam okuması sunmasıdır; en büyük açığı işe dünyanin geri kalanına pek çıkamaması.

İşin garibi, Neyse uzatmayalım. Browser agent’lar browser içinde güzel, ama masaüstü — kendi adıma konuşayım — uygulamalarına gelince elleri kısa kalıyor. Adobe tarzı programlar mı? Yerel finans yazılımları mı? Uzak masaüstü mü? Orada oyun bitiyor biraz — Kapsam sorunu bu, çözülmesi de kolay değil.

Ekranı Gören Yeni Kuşak: Pure-Vision GUI Ajanları

Size bir şey söyleyeyim, Lafın dönüp dolaşıp geldiği yer burası zaten. Yeni kuşakta model ekrana bakıyor — gerçekten bakıyor — sonra piksel düzeninden arayüz öğelerini tahmin edip aksiyon üretiyor. Butonun HTML sınıfını umursamıyor. Hangi framework ile yazıldığını bilmese de ilerleyebiliyor. Bu kadar. Daha fazla bilgi için 99 Saniyede Batarya Değişimi: Elektrikli Sedanlar Nereye Gidiyor? yazımıza bakabilirsiniz. Daha fazla bilgi için Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza bakabilirsiniz.

Şöyle ki, Bunu duyunca insanın aklına ilk gelen şu oluyor: “Peki bu sihir mi?” Değil tabii. Sadece önceki nesillere göre daha geniş genelleme becerisi var diyebiliriz — uygulamanın içini okumadan dış yüzeyiyle iş görüyor, tıpkı bilinmeyen bir cihazın ön paneline bakıp hangi düğmenin ne yaptığını sezgiyle tahmin etmek gibi. Kulağa basit geliyor ama altında ciddi bir fark yatıyor. Bu konuyla ilgili LLM maliyeti neden görünmez ölür? OpenTelemetry ile çözüm yazımıza da göz atmanızı tavsiye ederim. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.

Şöyle ki, Birkaç ay önce Berlin’de çalışan bir ürün yöneticisi arkadaşım bana bununla ilgili mini bir test videosu gönderdi. Excel benzeri bir yerel uygulamada satır seçtiğini sandığı işi model ekran üstünden gayet düzgün tamamlamıştı. Ben izlerken şaşırdım açıkçası — beklediğim kadar cilalı değildi ama işe yarıyordu. Yeterince etkileyici.

Neden heyecan yaratıyor?

Çünkü teoride kapsama alanı inanılmaz genişliyor. Tarayıcıyla sınırlısınız diye dert etmiyorsunuz; yerel uygulama ölür mu diye soruyorsunuz — ölür diyen modeller çıkmaya başladı bile. Evet, biraz iddialı bir cümle kurdum, ama yanlış da değil.

API gerekmiyorsa yine de ilerleyebilir
HTML parsing şart olmaktan çıkabiliyor
Masaüstü + tarayıcı + uzak oturum kombinasyonlarında esneklik sağlıyor — bunu es geçmeyin
Kullanıcıya en yakın otomasyon biçimini sunuyor

E tabi eksileri de var, hemen romantize etmeyelim. Görüntü modeli olduğu için bulanıklıkta zorlanabiliyor, küçük ikonlarda kararsız kalabiliyor, farklı tema veya ölçek ayarlarında afallayabiliyor. Yani güzel özellik ama ham tarafları bariz. Enterprise tarafında bugün için “tamamen güvenilir” demek erken — hâlâ pişmesi gerekiyor.

Kimin İçin Ne Anlama Geliyor?

Açık konuşayım, Küçük startup’lar için mesaj net bence: mümkünse hafif başlayın. Direkt büyük platformlara atlamak yerine önce hangi görevlerin gerçekten değer ürettiğini bulun. Bazen insan gücüyle yapılan üç dakikalık iş için devasa ajan sistemi kurmak resmen lüks tüketim oluyor. Hani gerek yoksa gerek yoktur — bunun lafını uzatmaya da değmez.

Küçük ekiplerde pratik yaklaşım nasıl olmalı?

Ben olsam önce şu soruları sorardım: Nerede hata pahalıya patlıyor? Hangi işlem haftada onlarca kez tekrarlanıyor? Hangi ekranda manuel kopyala-yapıştır can sıkıyor? Bu sorulara cevap bulmadan ajan mimarisi kurmak biraz ters köşe ölür — sanki arabaya spoiler takıp motoru unutmak gibi.

# Basit karar mantığı
if workflow == "browser_only":
use = "DOM-based agent"
elif workflow == "desktop_or_mixed":
use = "pure-vision GUI agent"
else:
use = "RPA or hybrid approach"

Şöyle ki, Büyük kurumlarda işe hikâye başka. Güvenlik, onay zinciri, gözlemlenebilirlik ve denetim izi olmadan kimse böyle sisteme kolay kolay el sallamaz. Burada hibrit yaklaşım daha mantıklı — itiraz edebilirsiniz tabi — görünüyor: rutin işler için klasik otomasyon, daha esnek işler için ekran gören ajanlar. Kısacası tek sopa her kapıya uymuyor.

💡 Bilgi: Eğer ajanın yaptığı adımları log’layamıyorsanız, kullanıcı hatasını mı yoksa model sapmasını mı gördüğünüz anlaşılmaz. Bu yüzden gözlem katmanı neredeyse model kadar önemli.

Gelecekte Bizi Ne Bekliyor?

Araya gireyim: Bugün en büyük soru şu: böylesi modeller gerçekten genel amaçlı hâle gelebilecek mi? Bu konuda yüzde yüz emin değilim, ama sanırım iki yol var (inanın bana). Birinçisi tamamen görsel çalışan sistemlerin olgunlaşması. İkincisi işe görsel algının API çağrılarıyla birleştiği karma yapı. Yani kamera tek başına yetmeyecek belki — dekor gibi duracak, yaninda biraz yapı bilgisi de olacak.

Ha, bu arada geçen ay İzmir’de test ettiğim küçük demoda native app pencereleri arasında geçişte fena hâlde dalgalandı sistem. Ama kullanıcı seviyesinde baktığınızda yine de etkileyiciydi. Metin kutusuna yazdı, butona bastı, pencere değiştirdi. Bazıları bunu küçümser. Ben küçümsemiyorum — insan-makine etkileşiminde asıl mesele tam da bu zaten: görev bitsin yeter.

Bir de şu var: screenshots-only yaklaşımı hızla yayılırsa QA, test otomasyonu, destek operasyonu ve erişilebilirlik tarafında ilginç yan etkiler görebiliriz. Mesela eğitim almamış personelin karmaşık araçları kullanması kolaylaşabilir. Ama yanlış pozitifler artarsa, gün sonunda kazandığınızı sandığınız zamanı geri verebilirsiniz. Klasik teknoloji hikâyesi yani.

Sıkça Sorulan Sorular

GUI ajanı nedir?

GUI ajanı,fare klavyese ihtiyaç duyan işlemleri otomatik yapan yazılım türüdür.Yeni nesilde bu sistemler ekran görüntüsünü okuyup eylem üretebiliyor.Kısaca,sadece komut çalıştırmıyor; arayüzle etkileşime giriyor.

DOM tabanlı ajan ile pure-vision ajan arasındaki fark ne?

DOM tabanlı ajan sayfanın HTML yapısını okur,pure-vision ajan işe ekrana bakar.Biri kodu yorumlar diğeri görüntüyü.Dolayısıyla kullanım alanları da farklılaşır;biri web’de güçlüdür,diğeri daha geniştir.

Ekranı gören ajanlar RPA’nın yerini alacak mı?

Tam olarak değil.RPA hâlâ belirli kurumsal senaryolarda çok işe yarar.Ancak daha esnek görevlerde ekran odaklı ajanların payının artması beklenir.Bence ikisi uzun süre birlikte yaşayacak.

Büyük şirketler neden temkinli davranıyor?

Cevap basit:gizlilik,gözlemleme ihtiyacı ve hata riski.Hassas veriyi dış servise göndermek istemezsiniz.Ustelik modelin neden o tuşa bastığını açıklayamaması denetimi zorlaştırır.

Kaynaklar ve İleri Okuma
end of output

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub