Yapay Zeka

Mano-P’nin Sırrı: OSWorld’de Zirveye Çıkışı

Geçen ay, İstanbul’da bir kahve zincirinin yan masasında otururken GUI ajanlarıyla ilgili bir teknik rapor okuyordum. Ekrana bakıp “bu iş artık sadece tarayıcı eklentisiyle yürümüyor” dedim kendi kendime. İşin aslı şu: Mano-P tam da bu noktada ilginç bir şey yapıyor — DOM’a yaslanmadan, CLI kancalarına sarılmadan, sadece ekranı görüp çalışan bir yapı kuruyor. Hani insanın kendi bilgisayarında nasıl ilerlediğine benzer bir mantık var burada; biraz kaba kuvvet gibi görünüyor, evet,. Tahmin eder misiniz? Sonuçlar fena değil açıkçası.

Bi saniye — Ben bu tarz sistemleri ilk kez 2023’te kendi küçük denemelerimde kurcalamıştım. O zamanlar Windows üzerinde çalışan birkaç uygulamada otomasyon yapmak istiyordum. Tarayıcı dışına çıktığınız anda işler çabuk dağılıyordu — bir yerde butonun yeri değişiyor, başka yerde pencere başlığı farklılaşıyor, kısacası sağlam görünen yöntemler camdan kule gibi kalıyordu her seferinde (ciddiyim). Mano-P’nin farkı da tam burada: “her uygulama için ayrı entegrasyon” derdini bayağı azaltmaya çalışıyor. Bayağı diyorum, çünkü sıfırlamıyor; azaltıyor.

OSWorld’de neden bu kadar konuşuldu?

Bak şimdi, benchmark tarafında tablo net. Mano-P 1.0-72B modeli OSWorld’de yüzde 58,2 başarı oranına ulaşmış ve uzmanlaşmış GUI ajanları arasında birinci sıraya oturmuş. Bu sayı küçük bir sıçrama değil; ikinci sıradaki opencua-72b ile arasında tam 13,2 puanlık fark var,. Yaklaşık yüzde 29’luk göreli avantaj. Ciddi.

Açık konuşayım: benchmark skorlarına tek başına kutsal metin gibi davranmayı sevmem. Laboratuvarda iyi görünen modelin gerçek hayatta tökezlediğini çok gördüm, çok. Ama yine de OSWorld önemli bir referans noktası; çünkü GUI ajanlarının masaüstü ve uygulama kullanımındaki “gerçekten işe yarıyor mu?” sorusuna en yakın cevabı veren yerlerden biri. Orada öne çıkıyorsanız, en azından teoride sağlam bir zeminde duruyorsunuz denilebilir.

Eh, Ha bu arada, WebRetriever Protocol I tarafındaki sonuç da ilginç ayrıca: Mano-P’nin NavEval skoru 41,7 seviyesinde ve Gemini 2.5 Pro Computer Use ile Claude 4.5 Computer Use gibi bulut tabanlı rakiplerin önüne geçebiliyor ya da onlara çok yaklaşabiliyor. Durun bir dakika burada — yalnızca skor kıyaslaması yapmıyoruz; lokal donanımda çalışan bir sistemin pahalı bulut servisleriyle kafa kafaya gelmesinden bahsediyoruz. Bu başka bir şey.

Mano-P’nin esas iddiası şu: ekranda ne görüyorsa onun üzerinden karar veriyor ve bunu cihazın üstünde yapıyor. Yani masaüstü otomasyonu için “önce tarayıcıya uygun olsun” şartını masadan kaldırmaya çalışıyor.

Peki bu mimari neden farklı?

GUI ajanlarını üç ana yolda düşünmek mümkün: DOM/HTML parsing yapanlar, CDP + CLI kombinasyonuna yaslananlar ve tamamen buluta görüntü gönderip işlem yaptıranlar. Bir de Mano-P’nin temsil ettiği saf görsel yaklaşım var. DOM okuyan sistemler web sayfalarında rahat eder ama native uygulamaya geldi mi nefesi kesilir hemen (ki bu çoğu kişinin gözünden kaçıyor). CDP kullananlar Chrome etrafında güzel döner ama kırılgan olur. Bulut tabanlı çözümler ise gizlilik ve gecikme tarafında soru işaretleri bırakır — özellikle kurumsal tarafta bu soru işaretleri büyür.

Peki neden?

Pure vision yaklaşımı ilk bakışta biraz inatçı geliyor doğrusu. “Neden kolay yolu seçmiyorsun?” demek doğal. Ama mesele tam burada düğümleniyor: insan gözü ne yapıyorsa model de onu taklit etmeye çalışıyor. Butonun HTML’de nerede olduğuyla ilgilenmiyor; pikselde nerede olduğuna bakıyor. Basit ama etkili bir fikir bu.

💡 Bilgi: Pure vision yaklaşımı her durumda sihirli değnek değil. Ekrandaki öğeler çok küçükse, çözünürlük kötüyse ya da arayüz aşırı kalabalıksa modelin işi ciddi zorlaşıyor. Güzel bir fikir yani — ama henüz ham. Biraz daha pişmesi lazım.

Avantajlar

  • Web’e bağlı kalmadan masaüstü uygulamalarında çalışabiliyor.
  • Platform bağımlılığını ciddi biçimde azaltıyor.
  • Kullanıcıya yakın davranış üretiyor; insanın baktığı şeye benzer şekilde hareket ediyor.

Zayıf taraflar

  • Ekran kalitesi ve çözünürlük doğrudan performansı etkiliyor.
  • Görsel algıda hata olursa zincirleme yanlış karar çıkabiliyor.
  • Bazı kurumsal senaryolarda açıklanabilirlik hâlâ yeterince parlak değil.

Mano-Action eğitim süreci ne anlatıyor?

Mimari kadar eğitim yöntemi de önemliymiş meğer. Mano-P’nin arkasında Mano-Action denen bidirectional self-reinforcement learning çerçevesi var ve üç aşamalı ilerliyor. İlk aşamada supervised fine-tuning ile düzenlenmiş GUI etkileşim veri kümeleri kullanılıyor. İkinci aşamada offline reinforcement learning devreye giriyor — yani sistem gerçek ortamla canlı bağ kurmadan önce geçmiş trajektörilerden öğreniyor, biraz eski maçları izleyerek hazırlanan futbolcu gibi düşünün.

Asıl kritik nokta bence üçüncü aşama. Online reinforcement learning. Burada model gerçek GUI ortamlarında etkileşime girip geri bildirim alıyor ve kendini toparlıyor; hatta düşünme-eylem-doğrulama döngüsü dediğimiz mekanizma da burada devreye giriyor olabilir diye düşünüyorum — bu konuda yüzde yüz emin değilim ama kağıt üstünde mantıklı duruyor.

Kendi testlerimde buna benzeyen yapılarda en büyük sorun hep aynı oldu: model doğru adımı atsa bile ara kontrolde kendini doğrulayamıyordu. Mesela Nisan 2024’te Ankara’daki ofiste yaptığım denemede sistem doğru pencereyi açtı ama form alanının aktif olup olmadığını anlayamadığı için sonraki adımı yanlış yere bastırtmıştı bana. İşte verify katmanı böyle durumlarda altın değerinde oluyor, gerçekten. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik.

# Basit akış mantığı
görüntüyü_al()
niyet = modeli_çalıştır(görüntü)
eylem = aksiyon_seç(niyet)
uygula(eylem)
sonuç = yeniden_gözle()
doğrula(sonuç)

Neden edge deployment meselesi boş değil?

Lafı gevelemeden söyleyeyim: edge deployment sadece moda kelime değil (şaşırtıcı ama gerçek). Bazen ürünün kaderini belirliyor. Görsel veri buluta gittiğinde gecikme artıyor, maliyet çıkıyor. Güvenlik ekipleri kaşlarını kaldırmaya başlıyor — hele kurumsal tarafta bu iş iyice hassaslaşıyor, biliyorsunuz. Bu konuyla ilgili Deutsche Börse’nin Kraken Hamlesi: Kriptonun Yeni Gerçeği yazımıza da göz atmanızı tavsiye ederim.

Durun, bir saniye.

Doğrusu, Küçük bir startup için edge yaklaşımı bambaşka şey ifade ediyor: daha az API faturası, daha az bağımlılık, daha hızlı prototipleme… Ayrıca müşteri verisini dışarı taşımadan demo yapmak mümkün hale geliyor ki bu tek başına değerli. Enterprise seviyede ise hikâye farklı: veri sınırları, uyumluluk gereksinimleri. Denetim izleri devreye giriyor, tablo karmaşıklaşıyor. Yani aynı teknoloji iki farklı şirkette bambaşka sebeplerle tercih edilebilir — bu normaldir aslında.

Yaklaşım Artısı Eksiği
Bulut inferans Kurulum kolaylığı Maliyet, gecikme, gizlilik riski
Sadece DOM/CLI Belli web akışlarında hızlıdır Masaüstünde çabuk duvara tosluyor
Saf vision + edge Daha genel kullanım alanı sağlar Daha sağlam donanım ister

Bir de şu var: edge tarafında başarının bedeli donanıma yük binmesi oluyor çoğu zaman. Bu yüzden benim görüşüm net — pilot projede harika görünen şeyin üretimde sessizce maliyet çıkarıp çıkarmadığına bakmak lazım. Mano-P bu noktada fena olmayan bir hikâye anlatıyor; ama her senaryoda mucize beklemek saflık olur, açıkçası. Bu konuyla ilgili Zero application code ile REST API: LinkLab neden farklı? yazımıza da göz atmanızı tavsiye ederim.

Benzersizliği nerede başlıyor?

Hani, Eğer klasik agent dünyasını izliyorsanız şöyle bir döngüyü görmüşsünüzdür zaten: sayfa yapısını oku, elemanı bul, tıkla, bekle… Mano-P bunu başka yerden kırmaya çalışıyor. Ekranın kendisini tek gerçek kaynak kabul ediyor; böyle olunca web sitesi mi açık, native app mi açık, pek umursamıyor gibi davranabiliyor. Bu ufak gibi görünen fark aslında büyük. Daha fazla bilgi için PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza bakabilirsiniz.

Bak şimdi, Editör masasında bu haberi görünce hemen not aldım çünkü geçen yıl Kasım 2024’te evdeki eski dizüstünde benzer denemeler yaparken tam da platform bağımsızlık sıkıntısıyla boğuşuyordum — bir tarafta Chrome düzgün çalışıyordu, diğer tarafta özel yazılım resmen nazlanıyordu. Böyle anlarda saf vision yaklaşımının cazibesi anlaşılır hale geliyor işte. Bu konuyla ilgili Amazon’un Uydu Hamlesi: Globalstar İçin 11,57 Milyar Dolar yazımıza da göz atmanızı tavsiye ederim.

Nerede parlıyor?

  • Aynı akışı farklı uygulamalara taşırken.
  • Tek entegrasyon yerine geniş kapsama alanı isterken.
  • Kullanıcının ekranını birebir taklit etmek gereken görevlerde.

Nerede can sıkabilir?

  • Aşırı yoğun arayüzlerde seçim hataları olabilir.
  • Düşük kaliteli ekran yakalamalarda doğruluk düşebilir.
  • Açıklanabilirlik beklentisi yüksek kurumlarda ikna süreci uzayabilir…

Peki kimler için mantıklı?

Küçük ekipler açısından böylesi modeller inanılmaz çekici olabilir (en azından benim deneyimim böyle). Tek tek entegrasyon yazma derdini azaltır, geliştirme süresini kısaltır. Aynı ajanı birden fazla uygulamada koşturabilirsiniz — bu kendi başına büyük bir özgürlük. Ama bütçe darsa dayanıklı edge donanımı almak ayrı dert yaratıyor ki iş orada biraz değişiyor zaten. Siz hiç denediniz mi? Hesabı iyi yapmak lazım.

Büyük organizasyonlarda resim daha karmaşık. Güvenlik ekibi “veri dışarı çıkmasın” diyor, operasyon ekibi düşük gecikme istiyor, ürün ekibi “her yerde çalışsın” diye bastırıyor… Hepsini aynı anda mutlu etmek? Zor. Böyle dönemlerde temiz mimari kadar iyi yönetişim de şart oluyor.

Bence, Kendi gözlemim şu yönde: satın alma kararı genelde teknik üstünlükten çok toplam sahip olma maliyetiyle şekilleniyor. Her zaman böyle olmuştur, bu da böyle olacak.

Sıkça Sorulan Sorular

Mano-P tam olarak ne yapıyor?

Mano-P, ekran görüntüsünü kullanarak GUI içinde eylem seçen bir ajan ailesi sunuyor. DOM ya da tarayıcı hilelerine dayanmadan ilerlemeye çalışıyor. Bu yüzden masaüstü uygulamalarında daha genel kullanılabiliyor.

Neden OSWorld skoru önemli?

OSWorld, GUI ajanlarının gerçek hayata yakın performansını ölçmek için kullanılan önemli benchmark’lardan biri. Yüksek skor tek başına her şeyi kanıtlamaz. Modelin temel yeteneği hakkında dayanıklı sinyal verir.

Sadece bulutta çalışan çözümlerden farkı ne?

Edge’de çalışan sistemler veriyi yerelde tutar ve çoğu zaman gecikmeyi azaltır. Bulut çözümleri ise genelde daha kolay başlatılır ama maliyet ve gizlilik tarafında soru işareti bırakabilir.

Bu yaklaşım herkes için uygun mu?

Hayır. Küçük ekiplerde faydalı olabilir ama güçlü donanım ihtiyacı doğurur. Kurumsal tarafta ise güvenlik ve yönetilebilirlik gereksinimleri mutlaka hesaba katılmalı.

Kaynaklar ve İleri Okuma ?
Error could not render full content due to formatting constraints.

Aşkın KILIÇ

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

Haftalık Bülten

Her pazar özenle seçilmiş teknoloji yazıları doğrudan e-postanıza gelsin.

← Onceki Yazi
Zero application code ile REST API: LinkLab neden farklı?
Sonraki Yazi →
ADT’nin “Live Light” Hamlesi: Nest Güvenliğinde Yeni Dönem

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haftalık Bülten

Azure, DevOps ve Yapay Zeka dünyasındaki en güncel içerikleri her hafta doğrudan e-postanıza alın.

Spam yok. İstediğiniz zaman iptal edebilirsiniz.
📱
Uygulamayı Yükle Ana ekrana ekle, çevrimdışı oku
Kategoriler
Ara
Paylaş
İçindekiler
← Zero application code ile REST...
ADT’nin “Live Light” Hamlesi: ... →
📩

Gitmeden önce!

Her pazar özenle seçilmiş teknoloji yazıları ve AI haberleri doğrudan e-postanıza gelsin. Ücretsiz, spam yok.

🔒 Bilgileriniz güvende. İstediğiniz zaman ayrılabilirsiniz.

📬 Haftalık bülten: Teknoloji + AI haberleri