Yapay Zeka

dissectml: EDA ile AutoML Arasındaki Eksik Parça

Bir veri seti açıyorsunuz. İlk refleks belli: df.describe(), sonra bir profil raporu, ardından birkaç model denemesi… Derken işin rengi değişiyor. Bir bakmışsınız beş farklı kütüphane, üç ayrı notebook, üst üste yazılmış onlarca hücre ve hâlâ “Tam olarak ne oldu?” sorusu havada duruyor. İşin aslı şu ki, veri bilimi projelerinin en yorucu kısmı çoğu zaman model kurmak değil; veriyi anlamakla modeli birbirine bağlamak.

Ben bu tip akışları ilk kez 2023 baharında, İstanbul’da küçük bir fintech ekibi için hazırladığım tahmin projesinde yaşamıştım. O günlerde YData Profiling ile güzel bir rapor alıyor, sonra PyCaret’e geçip modelleri koşturuyor, en sonda da SHAP ile açıklama toplamaya çalışıyordum. Açık konuşayım: ortada fena olmayan araçlar vardı ama aralarında ciddi bir boşluk vardı. Hani mutfakta çatal var, bıçak var, tabak var ama servis kaşığı yok ya… Aynen öyle.

Neden bu kadar çok araç yetmiyor?

Veri biliminde yıllardır aynı döngü dönüyor: önce keşif analizi yapılıyor, sonra modelleme başlıyor. Ama bu iki dünya çoğu zaman kopuk kalıyor. Bir araç size eksik değerleri gösteriyor, diğeri — ki bu tartışılır — sınıflandırma skorlarını veriyor; fakat aradaki mantığı kuran kimse yok. Mesela hangi özellik gerçekten önemli? Hangi sütunda sinsi bir veri sızıntısı var? Hangi dağılım yüzünden model sapıtıyor? Bunlara tek yerde yanıt almak hâlâ zor — bence çok yerinde bir karar —

Geçen ay Ankara’da bir ürün ekibiyle yaptığım kısa bir değerlendirmede bunu yine gördüm. Ekip hızlıca “en iyi modeli” bulmuştu ama sonuçların neden öyle çıktığını anlatamıyordu. Yönetim tarafı doğal olarak “güzel de neden?” diye sorunca herkes duvara tosladı. İşte tam burada analiz katmanı ile model katmanı arasındaki o ince köprü eksik kalıyor.

Eh, Bu yüzden mesele yalnızca AutoML değil. Daha derinde başka bir ihtiyaç var: veriyi tanıyan, model sonuçlarını okuyan ve bunları tek hikâyeye dönüştüren bir ara katman. Ben buna açıkçası “Auto-Analysis” demeyi daha doğru buluyorum.

Piyasadaki araçlar neyi iyi yapıyor, neyi yapamıyor?

Bazı kütüphaneler profil çıkarmada baya iyi (yanlış duymadınız). Bazıları ise model yarışında hızlı koşuyor. Ama çok azı ikisini aynı akışta topluyor. Burada kritik nokta şu: tek tek bakınca her biri işe yarıyor; birlikte kullanmaya kalkınca glue code dediğimiz o yapışkan kod çöplüğü ortaya çıkıyor.

Mesela YData Profiling gibi araçlar ilk bakışta oldukça sağlam görünüyor. Dağılımlar, korelasyonlar, eksikler… hepsi güzel. Ama oradan modele geçince frene basıyorsunuz çünkü karar destek tarafı zayıf kalıyor. PyCaret ya da LazyPredict ise tam tersi; model deneme işini hızlandırıyor. Verinin niye o hale geldiğini size pek anlatmıyor.

Bir de işin kurumsal tarafı var tabii. Küçük startup’larda bu parçalı yapı idare eder gibi görünür; ekip zaten küçüktür, iki kişi notebook içinde döner durur. Kurumsalda ise durum değişir — denetim isterler, izlenebilirlik isterler, karşılaştırma isterler… hatta bazen sabah toplantısında neden seçtiğinizi ısrarla sorarlar (haklılar da).

Kategori İyi yaptığı şey Zayıf kaldığı yer
Auto-EDA araçları Veriyi hızlı tanır Model kararına bağlanmaz
AutoML araçları Çok sayıda modeli dener Neden-sonuç ilişkisi zayıftır
Açıklama araçları Tahminleri yorumlar Kapsam genelde tek modele sıkışır
Ara katman ihtiyacı EDA + Model + Raporu bağlar Piyasada boş bırakılmıştır

Asıl sorun “hangi model en iyi?” sorusu değil; “bu model neden iyi çıktı ve veri buna nasıl katkı verdi?” sorusunu tek yerde cevaplayamamak.

dissectml fikri tam olarak nereden doğuyor?

Bana göre bu tarz projelerin en güzel yani şu: çözüm çoğu zaman laboratuvarda değil, can sıkıcı tekrarların içinde doğuyor. Rupesh Bharambe’nin anlattığı yaklaşımda da benzer bir damar var; onlarca kütüphaneyi araştırıp şunu fark ediyor: kimse uçtan uca analiz yolculuğunu sahiplenmiyor.

💡 Bilgi: Bu tip “eksik orta katman” projeleri genelde en parlak fikirlerden çıkar çünkü mevcut araçların kötü olmasından değil, birbirleriyle konuşmamasından doğar.

dissectml, tam da bu boşluğu hedefliyor gibi duruyor: önce derin EDA yapıp veri hakkında sağlam sinyaller topluyor, sonra modelleri karşılaştırıp sadece skoru değil mantığı da göstermeye çalışıyor. Kağıt üstünde hoş görünüyor; pratikteyse biraz pişmesi lazım tabi.

Dört beş ayrı araç yerine tek akış fikri neden cazip?

İşin garibi, Lafı gevelemeden söyleyeyim: hız kazandırdığı için değil sadece, zihinsel yükü azalttığı için de cazip. Bir proje içinde sürekli sekme değiştirmek insanın kafasını yoruyor (ben de ilk duyduğumda şaşırmıştım). Hele son teslim haftasında… Editör masasında ben bunu birebir yaşadım; Kasım 2024’te bir demo raporu hazırlarken altı farklı not defteri arasında gidip geldim ve sonunda asıl bulguyu neredeyse kaçırıyordum. Bjarne Stroustrup ve C++: Eski Dilin Yeni Hali yazımızda bu konuya da değinmiştik.

Evet, doğru duydunuz. C++ Neden Hâlâ Ayakta? Stroustrup’tan Gelen Dersler yazımızda bu konuya da değinmiştik.

Eğer aynı pipeline içinde veri profili, istatistik testleri ve model kıyaslaması varsa iş daha temiz ilerliyor. Çünkü ekip artık “hangi dosyada ne vardı?” diye uğraşmıyor; ortak dil oluşuyor. Bu konuyla ilgili Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza da göz atmanızı tavsiye ederim. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.

Peki bu yaklaşımın kuvvetli tarafı ne?

Bence en güçlü tarafı parçaları toplaması değil sadece; karar sürecini görünür hale getirmesi. Deep EDA aşamasında dağılımlarını görmek yetmez mesela — hangi değişken hedefe gerçekten etki ediyor onu da anlamak gerekir. Korelasyon yetmez; bazen kategorik ilişkiyi Cramér’s V ile görmek gerekir (evet, isim sert ama işi güzel).

Böyle bir sistemde veri hazır mı değil mi sorusuna puan vermek de faydalı olurdu doğrusu (ilk duyduğumda inanamadım). Çünkü her proje temiz veriyle başlamıyor; bazen satış ekibinden gelen CSV’de yarım sütun eksiktir, bazen tarih formatları karmakarışıktır… ve siz bunu son anda fark edersiniz! Bu yüzden readiness score fikri baya işe yarar (inanın bana) Samsung’un Kârı Neden Bir Anda Uçtu? AI Çipleri Sahneye Çıktı yazımızda da bu konuya değinmiştik.

  • Zaman tasarrufu: Tek akışla hızlı başlangıç sağlar.
  • Daha az manuel iş: Notebook kopyala-yapıştır derdi azalır.
  • Daha anlaşılır rapor: Veri + model sonucu birlikte okunur.
  • Daha iyi ekip iletişimi: Teknik olmayan kişiler de tabloyu daha kolay takip eder.

Küçük ekipler için avantaj ne?

Küçük startup’larda böyle bir kütüphane altın değerinde olabilir çünkü orada zaman para demek zaten kıymetli olan şey budur nefes almak gibi… İki analistten biri EDA’ya bakarken diğeri modeli kurabilir. İkisi aynı çıktıya göz atabilir.

Peki neden?

Büyük kurumlarda neden daha kritik?

Büyük yapılarda mesele hızdan biraz kayıp yönetişime gelir bağımsız kontrol istenir log istenir tekrar üretilebilirlik istenir yani özetle disiplin gerekir Böyle yerlerde parçalı yapı kısa vadede çalışır ama uzun vadede karmaşa büyür Eğer analiz zinciri baştan sona kayıt altında tutuluyorsa ekipler rahat eder denetçiler de daha az soru sorar ki bu hiç fena değildir.

Nerede eksik kalabilir?

Evet şimdi dürüst olalım her parlak fikrin gölgeli tarafı olur Burada da durum farklı değil Öncelikle kapsam genişledikçe bakım yükü artar Çok fazla istatistik testini otomatikleştirmek kulağa hoş gelir. Yanlış yorum riski de taşır Hele bir de yeni başlayan kullanıcılar p-değeri gördü mü bayrak sallamaya başlayabiliyor aman dikkat!

`Model selection` ile `data understanding`i aynı pakete koymak güzel fikir. Sınırı iyi çizilmezse arayüz şişer Kullanıcıya fazla seçenek vermek bazen özgürlük değil kafa karışıklığı yaratır Bu yüzden ürünün sade kalması lazım Yoksa başlangıçta vaat ettiği sadelik kendi elinde boğulur

Beni biraz hayal kırıklığına uğratan nokta ne olurdu?

Bence, Açık konuşayım açıklama katmanı yeterince kuvvetli olmazsa proje yarıda kalmış hissi verir Sadece skor grafikleri göstermek yetmez Çapraz hata analizi olmadan insanlar yine klasik metriklere geri döner Ve evet ben bunun birkaç üründe olduğunu gördüm Güzel başlıyor sonra raportaj kısmında nefesi kesiliyor

# Basit düşünce akışı
1) Veriyi tara
2) Kalite sinyallerini çıkar
3) Model adaylarını koştur
4) Sonuçları karşılaştır
5) Neden iyi olduklarını açıkla
6) Tek raporda topla

Neden böyle hibrit araçlara daha çok ihtiyaç var?

Mesele aslında trendden ibaret değil Veri dünyası büyüdükçe insanlar daha az sürtünme istiyor Bulut tarafında nasıl yönetilen servisler yaygınlaşıyorsa analiz tarafında da benzer kolaylık beklentisi oluşuyor Bugün herkes hızlı prototip yapmak istiyor ama kimse üç saatlik glue code yazmak istemiyor haklı olarak

Bir de güven boyutu var Şirketler artık kara kutu istemiyor En azından düzgün gerekçe görmek istiyor Geçen yıl Berlin’de katıldığım küçük bir etkinlikte bunu çok net hissettim Bir MLOps mühendisi bana şöyle demişti “En pahalı hata yanlış model seçmek değil yanlış seçimi savunamamaktır” Bayağı vurucu cümleydi doğrusu

İşte böyle ara katman projeleri burada devreye giriyor Veriyi anlamadan modele atlayan ekiplerin önüne fren koyuyor Model odaklı takımlara ise biraz muhasebe yaptırıyor Ne öğrendik neyi kaçırdık hangi varsayımı test ettik bunların hepsini masaya seriyor Neyse uzatmayayım mantık basit Ama etkisi büyük olabilir

Sıkça Sorulan Sorular

Aşkın KILIÇ

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

Haftalık Bülten

Her pazar özenle seçilmiş teknoloji yazıları doğrudan e-postanıza gelsin.

← Onceki Yazi
C++ Neden Hâlâ Ayakta? Stroustrup’tan Gelen Dersler
Sonraki Yazi →
MCP Ekosistemi Nereye Gidiyor: Hız, Açıklar, Güvenlik

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haftalık Bülten

Azure, DevOps ve Yapay Zeka dünyasındaki en güncel içerikleri her hafta doğrudan e-postanıza alın.

Spam yok. İstediğiniz zaman iptal edebilirsiniz.
📱
Uygulamayı Yükle Ana ekrana ekle, çevrimdışı oku
Kategoriler
Ara
Paylaş
İçindekiler
← C++ Neden Hâlâ Ayakta? Stroust...
MCP Ekosistemi Nereye Gidiyor:... →
📩

Gitmeden önce!

Her pazar özenle seçilmiş teknoloji yazıları ve AI haberleri doğrudan e-postanıza gelsin. Ücretsiz, spam yok.

🔒 Bilgileriniz güvende. İstediğiniz zaman ayrılabilirsiniz.

📬 Haftalık bülten: Teknoloji + AI haberleri