Veri Bilimi

Veri Etiketleme Altın Madeni: Handshake ve Mercor Patlaması

Yapay zekâ konuşulunca genelde sahneye model isimleri çıkıyor — GPT, Claude, Gemini… Herkes bunları konuşuyor. Ama perde arkasında başka bir iş var ki, açık konuşayım, o olmadan bu modellerin çoğu bugünkü seviyeye gelemezdi: veri etiketleme (ben de ilk duyduğumda şaşırmıştım). İşin en sıkıcı, en görünmez tarafı (ciddiyim). Etiketi bas, kontrol et, düzelt, tekrar bas. Fakat tam da bu “sıkıcı” iş bugün bazı startup’ları yüz milyonlarca dolar gelir hızına taşımış durumda — ve bunu çoğu kişi fark etmiyor bile.

The Information’ın aktardığı son bilgilere bakınca tablo epey ilginç: data labeling alanında çalışan Handshake’in yıllıklandırılmış brüt geliri yaklaşık 1 milyar dolara dayanmış. Ocak ayında bu rakam 550 milyon dolar civarındaydı — yani aylık bazda inanılmaz bir ivme var ortada. Mercor tarafında da benzer bir tablo var; şirketin bu yıl 1 milyar doların üzerinde bir gross annualized revenue pace yakaladığı belirtiliyor. Kısacası, yapay zekânın iştahı büyüdükçe mutfaktaki görünmeyen ekipmanlar da altın değerine dönüşüyor.

Durun, bir saniye.

💡 Bilgi: Gross annualized revenue pace, kabaca “mevcut hız korunursa yıllık gelir ne olur?” sorusunun cevabı gibi düşünülür. Yani bugün gördüğünüz tempo bir yıl sürse şirket kaç para ciro ederdi, ona bakılır.

Gözden Kaçan Kahraman: Veri Etiketleme

Ben geçen yıl Nisan 2024’te bir kurumsal yapay zekâ projesinin bütçe toplantısına girmiştim. Ekip saatlerce model mimarisini anlattı, slayt slayt geçti, herkes kafayı salladı — ama asıl darboğaz en sonda patladı: veri hazırlama. İstanbul’daki ofiste otururken biri “etiket kalitesi yüzde üç düştü mü bütün demo çamura saplanıyor” demişti. Abartı değildi. Çünkü model ne kadar iyi olursa olsun, beslediğiniz veri yamuksa sonuç da yamuk oluyor. Nokta.

Kendi deneyimimden konuşuyorum, İşin aslı şu: veri etiketleme dışarıdan bakınca basit duruyor. Ama pratikte bayağı zahmetli. Görüntü sınıflandırma mı yapıyorsunuz? Saatlerce kare çiziyorsunuz (ben de ilk duyduğumda şaşırmıştım). Konuşma tanıma mı? Dakikalarca ses dinleyip transkript düzeltiyorsunuz. Güvenlik filtresi mi kuruyorsunuz? Uygunsuz içeriği tek tek ayrıştırıyorsunuz, üstelik bunun insana ne yaptığını pek konuşmuyoruz başka bir konu o. Bir bakıyorsunuz, insan emeği makinenin önüne geçmiş bile.

Hmm, bunu nasıl anlatsamdı…

Bu yüzden Handshake ve Mercor gibi firmaların yükselişi tesadüf değil. AI şirketleri daha çok veri istiyor; daha temiz, daha hızlı, daha çeşitli veri istiyor. Ve bunu kendi içinde halletmek yerine çoğu zaman dış kaynak kullanıyorlar. Bence burada ilginç olan şey gelir büyüklüğü — en azından ben öyle düşünüyorum — kadar pazarın sessizliği — herkes GPU fiyatını konuşuyor. Kimse etiket operatörünü konuşmuyor… Siz ne dersiniz? ta ki faturalar şişene kadar.

Neden Şimdi Bu Kadar Para Dönüyor?

Bir dakika, şunu da ekleyeyim: bu hikâyenin arkasında sadece “AI büyüdü” cümlesi yok, çok daha karmaşık bir tablo var aslında (ben de ilk duyduğumda şaşırmıştım). Şirketler artık sadece metin toplamak istemiyor; görüntü, video, ses, sensör verisi, hatta uzman yorumuna dayalı karmaşık setler de gerekiyor ve bu setlerin her biri bambaşka bir etiketleme sürecine ihtiyaç duyuyor. Basit bir spam filtresi için yapılan etiketleme ile tıbbi görüntü analizi için yapılan etiketleme arasında uçurum var. Hem teknik hem de insan profili açısından.

Bir dakika — bununla bitmedi.

Geçen ay Maslak’taki bir girişim ofisinde sohbet ederken bir ürün yöneticisi bana şunu söylemişti: “Modelimiz fena değil ama hukuk ekibi veriyi görmek isteyince işler uzuyor.” Tam burada kalite meselesi devreye giriyor. Hızlı üretim ayrı şey, güvenilir üretim ayrı şey. Kurumsal tarafta kimse “idare eder” cevabıyla yetinmiyor; regülasyon var, denetim var, müşteri baskısı var. Peki bunların hepsi kime iş çıkarıyor? Etiket operasyonuna.

Handshake. Mercor’un yükselişinde muhtemelen iki ana dinamik var: biri AI laboratuvarlarının bitmeyen veri açlığı, diğeri de uzman iş gücünü organize eden platformların giderek daha verimli hale gelmesi. Yani mesele sadece insan çalıştırmak değil; doğru işi doğru kişiye bağlamak… biraz market yeri gibi ama çok daha pahalı ve çok daha kritik. Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımızda bu konuya da değinmiştik. Daha fazla bilgi için PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımıza bakabilirsiniz.

Küçük startup ile enterprise aynı şeyi istemiyor

Küçük bir startup için mesele genelde hızdır. MVP çıkacaksa birkaç bin örnek bile yeterli olabilir, ekip “olsa da olur” yaklaşımıyla ilerler. Bu çoğu zaman mantıklıdır da zaten. Ama enterprise tarafında tablo tamamen değişir; orada etiketlenmiş verinin versiyonlaması yapılır, kalite kontrol döngüsü kurulur, audit izi tutulur ve bazen üç kat onay gerekir — bu süreç yavaş ama zorunlu. Daha fazla bilgi için Ola Web’in Sıkışık Haritası: Küçük UX Açıkları yazımıza bakabilirsiniz.

Senaryo Öncelik Zorluk
Küçük startup Hızlı prototip Sınırlı bütçe, düşük veri hacmi
Büyüyen scale-up Dengeli kalite-hız Etiket tutarlılığı bozulabiliyor
Enterprise Uyum ve denetlenebilirlik Süreç ağırlaşıyor ama risk azalıyor

Peki Handshake ve Mercor Ne Yapıyor?

Açıkçası isimleri son dönemde daha çok duyulsa da bu şirketlerin mantığı yeni değil: yüksek hacimli insan odaklı işleri yazılım ile orkestre etmek. “Dijital taşeronluk” demek kaba olur ama tamamen yanlış da sayılmaz. Neden önemli bu? Asıl farkları ölçeklenebilir olmaları ve AI çağının ihtiyacına uygun bir esneklik sunmaları — bu esnekliği kurmak düşündüğünüzden zor (en azından benim deneyimim böyle)

Handshake tarafındaki sıçrama bana biraz lojistikteki ani ölçeklenmeleri hatırlatıyor (bizzat test ettim). Önce küçük başlıyorlar, sonra bir anda ağ etkisi devreye giriyor ve işler kontrolden çıkmadan sistemleşmek zorunda kalıyorlar — tabi iyi yönde. Mercor ise özellikle yetenek eşleştirme. Uzman katkısı tarafında öne çıkıyor gibi görünüyor; yani sadece etiketçi bulmak değil, doğru profili doğru işe bağlamak önem kazanıyor. Bu fark küçük görünüyor ama üretim kalitesini doğrudan etkiliyor (ciddiyim)

Veri etiketleme sektörü aslında AI’ın görünmeyen kas sistemi gibi çalışıyor; dışarıdan fark edilmiyor ama yavaşlarsa bütün vücut sendelemeye başlıyor.

Şöyle ki, Neyse uzatmayalım; burada en kritik nokta şu: bu şirketlerin büyümesi yalnızca kendi becerileriyle açıklanamaz. AI firmalarının harcama davranışı değiştiği için bu pazara para yağıyor. Bir başka deyişle talep tarafı çılgınca büyümüş durumda ve arz tarafı hâlâ yetişmeye çalışıyor. Bu konuyla ilgili Akıllı Telefon Serileri Neden Dağılıyor?: Android’de Büyük Düzeltme yazımıza da göz atmanızı tavsiye ederim.

Bana Göre En Büyük Risk Ne?

Bi saniye — Az önce her şey toz pembe gibi görünmüş olabilir. Değil tabii. Veri etiketleme işinde en büyük tehlike kalite erozyonu — iş yükü arttıkça insanlar yoruluyor, standartlar kayıyor (şaşırtıcı ama gerçek). Aynı örnek farklı günlerde farklı şekilde işaretlenebiliyor. Ben bunu 2023 sonbaharında Berlin’de çalışan uzak ekiplerle yürüttüğümüz bir projede bizzat gördüm; sabah tutarlı olan sınıflandırma öğleden sonra saçmalamaya başlamıştı çünkü görev tanımı net değildi ve kimse de bunu fark etmemişti başta. Bu konuda yüzde yüz emin değilim ama sanırım sorun çoğu zaman teknoloji eksikliği değil, süreç eksikliği oluyor.

Bir de etik boyut var. Düşük maliyetli emek kullanımı tartışması uzun — kendi adıma konuşayım — süredir masada duruyor — AI firmaları devasa değerlemelere koşarken arkadaki insanlara ne kadar adil davranılıyor? Bu soru rahatsız edici ama yerinde. Çünkü endüstri büyüdükçe görünmeyen emeğin bedeli de kaçınılmaz biçimde tartışılır hale geliyor. Kaçınılmaz.

Kimi yerde otomasyon işe yarıyor, kimi yerde yetmiyor

E tabi bazı işler otomasyonla rahatlıyor — ön eleme yapılır, benzer örnekler gruplanır, hata oranı düşürülür, hayat biraz kolaylaşır. Ama nihai karar çoğu alanda yine insana kalıyor. Çünkü bağlam dediğimiz şey kaygan zemin gibi; makine onu her zaman düzgün okuyamıyor, hele nüanslı durumlarda hiç okuyamıyor.

# Veri akışı kabaca böyle düşünülebilir:
raw_data -> ön filtre -> insan etiketi -> kalite kontrol -> yeniden eğitim -> değerlendirme
# Zincirin herhangi bir halkası zayıfsa sonuç bozulur.

Büyük Resim: AI Ekonomisinde Yeni Servet Katmanı

Vallahi, Bazen teknoloji dünyasında asıl paranın göz önündeki üründe değil altyapıda olduğunu unuturuz. GPU sağlayıcısı kazanır. Bulut satıcısı kazanır. Şimdi bir de veri operasyonu katmanı (belki yanılıyorum ama) ciddi para kazanmaya başladı. Bu durum bana Apache Arrow haberlerini okurken hissettiğim şeyi hatırlatıyor — herkes uygulamayı konuşuyor. Taşıma maliyeti gizlice can yakıyor. Aynı his.

Apache Arrow Neden Önemli: Veri Taşımanın Gizli Vergisi:

Agentic AI: Prompt’tan Özerk Döngülere Geçiş: Bu konuyla ilgili Masa Üstünde Kaymayan MagSafe: Vakumlu Çözüm İşe Yarıyor mu? yazımıza da göz atmanızı tavsiye ederim.

Claude’daki “Skills” Neden Prompt Değil, Bağlam Tasarımıdır?:

Tuhaf gelebilir ama Handshake benzeri şirketlerin büyümesi aslında AI’ın kurumsallaşmasının işareti sayılabilir. Deneme-yanılma döneminden çıkıp üretim hattına giriyoruz — yavaş yavaş ama net biçimde (ciddiyim). Ve üretim hattının en sıkıcı parçaları bile para etmeye başlıyor. Hatta bazen en çok onlar ediyor!

Sıkça Sorulan Sorular

Handshake nedir?

Handshake’in adı son dönemde data labeling alanındaki hızlı gelir artışıyla anılıyor. Şirketin temel işi yapay zekâ modelleri için veri hazırlama ve etiketleme operasyonlarını ölçeklemek gibi görünüyor.

Neden veri etiketleme bu kadar önemli?

Çünkü modelin öğrendiği şey doğrudan verilen veriye bağlıdır. Yanlış veya tutarsız etiketlenen veri varsa model iyi görünse bile gerçek hayatta tökezleyebilir.

Neden yatırımcılar bu alana ilgi gösteriyor?

AI şirketlerinin sürekli daha fazla kaliteli veriye ihtiyaç duyması bu alanı stratejik hale getiriyor. Talep yüksek olunca altyapı sağlayan şirketler de hızlı büyüyebiliyor.

Küçük girişimler de veri etiketleme hizmeti kullanmalı mı?

Evet, özellikle hızlı ürün geliştirmek isteyen küçük ekipler için dış kaynak kullanımı mantıklı olabilir. Ama kalite kontrol mekanizmasını atlamamak şart; yoksa kısa vadede kazandığınız hızı sonra geri ödersiniz (bizzat test ettim)

Kaynaklar ve İleri Okuma

The Information Ana Sayfası

OpenAI Araştırma Sayfası

Google Cloud — Data Labeling Nedir?

Aşkın KILIÇ

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

Haftalık Bülten

Her pazar özenle seçilmiş teknoloji yazıları doğrudan e-postanıza gelsin.

← Onceki Yazi
Ola Web’in Sıkışık Haritası: Küçük UX Açıkları
Sonraki Yazi →
Pixel Referral Program Geri Döndü: 10% İndirim, 50$ Kredi

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haftalık Bülten

Azure, DevOps ve Yapay Zeka dünyasındaki en güncel içerikleri her hafta doğrudan e-postanıza alın.

Spam yok. İstediğiniz zaman iptal edebilirsiniz.
📱
Uygulamayı Yükle Ana ekrana ekle, çevrimdışı oku
Kategoriler
Ara
Paylaş
İçindekiler
← Ola Web’in Sıkışık Haritası: K...
Pixel Referral Program Geri Dö... →
📩

Gitmeden önce!

Her pazar özenle seçilmiş teknoloji yazıları ve AI haberleri doğrudan e-postanıza gelsin. Ücretsiz, spam yok.

🔒 Bilgileriniz güvende. İstediğiniz zaman ayrılabilirsiniz.

📬 Haftalık bülten: Teknoloji + AI haberleri