dissectml: EDA ile AutoML Arasındaki Eksik Parça

⏱️ 6 dk okuma📅 7 Nisan 2026🔄 Güncelleme: 21 Nisan 2026👁️ görüntülenme

Bir veri seti açıyorsunuz. İlk refleks belli: df.describe(), sonra bir profil raporu, ardından birkaç model denemesi… Derken işin rengi değişiyor. Bir bakmışsınız beş farklı kütüphane, üç ayrı notebook, üst üste yazılmış onlarca hücre ve hâlâ “Tam olarak ne oldu?” sorusu havada duruyor. İşin aslı şu ki, veri bilimi projelerinin en yorucu kısmı çoğu zaman model kurmak değil; veriyi anlamakla modeli birbirine bağlamak.

Ben bu tıp akışları ilk kez 2023 baharında, İstanbul’da küçük bir fintech ekibi için hazırladığım tahmin projesinde yaşamıştım. O günlerde YData Profiling ile güzel bir rapor alıyor, sonra PyCaret’e geçip modelleri koşturuyor, en sonda da SHAP ile açıklama toplamaya çalışıyordum. Açık konuşayım: ortada fena olmayan araçlar vardı ama aralarında ciddi bir boşluk vardı. Hani mutfakta çatal var, bıçak var, tabak var ama servis kaşığı yok ya… Aynen öyle.

Neden bu kadar çok araç yetmiyor?

Veri biliminde yıllardır aynı döngü dönüyor: önce keşif analizi yapılıyor, sonra modelleme başlıyor. Ama bu iki dünya çoğu zaman köpük kalıyor. Bir araç size eksik değerleri gösteriyor, diğeri — ki bu tartışılır — sınıflandırma skorlarını veriyor; fakat aradaki mantığı kuran kimse yok. Mesela hangi özellik gerçekten önemli? Hangi sütunda sinsi bir veri sızıntısı var? Hangi dağılım yüzünden model sapıtıyor? Bunlara tek yerde yanit almak hâlâ zor — bence çok yerinde bir karar —

Geçen ay Ankara’da bir ürün ekibiyle yaptığım kısa bir değerlendirmede bunu yine gördüm. Ekip hızlıca “en iyi modeli” bulmuştu ama sonuçların neden öyle çıktığını anlatamıyordu. Yönetim tarafı doğal olarak “güzel de neden?” diye sorunca herkes duvara tosladı. İşte tam burada analiz katmanı ile model katmanı arasındaki o ince köprü eksik kalıyor.

Eh, Bu yüzden mesele yalnızca AutoML değil. Daha derinde başka bir ihtiyaç var: veriyi tanıyan, model sonuçlarını okuyan ve bunları tek hikâyeye dönüştüren bir ara katman. Ben buna açıkçası “Auto-Analysis” demeyi daha doğru buluyorum.

Piyasadaki araçlar neyi iyi yapıyor, neyi yapamıyor?

Bazı kütüphaneler profil çıkarmada baya iyi (yanlış duymadınız). Bazıları işe model yarışında hızlı koşuyor. Ama çok azı ikisini aynı akışta topluyor. Burada kritik nokta şu: tek tek bakınca her biri işe yarıyor; birlikte kullanmaya kalkınca glue code dediğimiz o yapışkan kod çöplüğü ortaya çıkıyor.

Mesela YData Profiling gibi araçlar ilk bakışta oldukça sağlam görünüyor. Dağılımlar, korelasyonlar, eksikler… hepsi güzel. Ama oradan modele geçince frene basıyorsunuz çünkü karar destek tarafı zayıf kalıyor. PyCaret ya da LazyPredict işe tam tersi; model deneme işini hızlandırıyor. Verinin niye o hâle geldiğini size pek anlatmıyor.

Bir de işin kurumsal tarafı var tabii. Küçük startup’larda bu parçalı yapı idare eder gibi görünür; ekip zaten küçüktür, iki kişi notebook içinde döner durur. Kurumsalda işe durum değişir — denetim isterler, izlenebilirlik isterler, karşılaştırma isterler… hatta bazen sabah toplantısında neden seçtiğinizi ısrarla sorarlar (haklılar da).

Kategori	İyi yaptığı şey	Zayıf kaldığı yer
Auto-EDA araçları	Veriyi hızlı tanır	Model kararına bağlanmaz
AutoML araçları	Çok sayıda modeli dener	Neden-sonuç ilişkisi zayıftır
Açıklama araçları	Tahminleri yorumlar	Kapsam genelde tek modele sıkışır
Ara katman ihtiyacı	EDA + Model + Raporu bağlar	Piyasada boş bırakılmıştır

Asıl sorun “hangi model en iyi?” sorusu değil; “bu model neden iyi çıktı ve veri buna nasıl katkı verdi?” sorusunu tek yerde cevaplayamamak.
Ayrıca okuGitHub Copilot CLI: Interactive vs Non-Interactive Mod Farkı

dissectml fikri tam olarak nereden doğuyor?

Bana göre bu tarz projelerin en güzel yani şu: çözüm çoğu zaman laboratuvarda değil, can sıkıcı tekrarların içinde doğuyor. Rupesh Bharambe’nın anlattığı yaklaşımda da benzer bir damar var; onlarca kütüphaneyi araştırıp şunu fark ediyor: kimse uçtan uca analiz yolculuğunu sahiplenmiyor.

💡 Bilgi: Bu tıp “eksik orta katman” projeleri genelde en parlak fikirlerden çıkar çünkü mevcut araçların kötü olmasından değil, birbirleriyle konuşmamasından doğar.

dissectml, tam da bu boşluğu hedefliyor gibi duruyor: önce derin EDA yapıp veri hakkında sağlam sinyaller topluyor, sonra modelleri karşılaştırıp sadece skoru değil mantığı da göstermeye çalışıyor. Kağıt üstünde hoş görünüyor; pratikteyse biraz pişmesi lazım tabi.

Dört beş ayrı araç yerine tek akış fikri neden cazip?

İşin garibi, Lafı gevelemeden söyleyeyim: hız kazandırdığı için değil sadece, zihinsel yükü azalttığı için de cazip. Bir proje içinde sürekli sekme değiştirmek insanın kafasını yoruyor (ben de ilk duyduğumda şaşırmıştım). Hele son teslim haftasında… Editör masasında ben bunu birebir yaşadım; Kasım 2024’te bir demo raporu hazırlarken altı farklı not defteri arasında gidip geldim ve sonunda asıl bulguyu neredeyse kaçırıyordum. Bjarne Stroustrup ve C++: Eski Dilin Yeni Hâli yazımızda bu konuya da değinmiştik.

Evet, doğru duydunuz. C++ Neden Hâlâ Ayakta? Stroustrup’tan Gelen Dersler yazımızda bu konuya da değinmiştik.

Eğer aynı pipeline içinde veri profili, istatistik testleri ve model kıyaslaması varsa iş daha temiz ilerliyor. Çünkü ekip artık “hangi dosyada ne vardı?” diye uğraşmıyor; ortak dil oluşuyor. Bu konuyla ilgili Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza da göz atmanızı tavsiye ederim. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.

Peki bu yaklaşımın kuvvetli tarafı ne?

Bence en güçlü tarafı parçaları toplaması değil sadece; karar sürecini görünür hâle getirmesi. Deep EDA aşamasında dağılımlarını görmek yetmez mesela — hangi değişken hedefe gerçekten etki ediyor önü da anlamak gerekir. Korelasyon yetmez; bazen kategorik ilişkiyi Cramér’s V ile görmek gerekir (evet, işim sert ama işi güzel).

Böyle bir sistemde veri hazır mı değil mi sorusuna puan vermek de faydalı olurdu doğrusu (ilk duyduğumda inanamadım). Çünkü her proje temiz veriyle başlamıyor; bazen satış ekibinden gelen CSV’de yarım sütun eksiktir, bazen tarih formatları karmakarışıktır… ve siz bunu son anda fark edersiniz! Bu yüzden readiness score fikri baya işe yarar (inanın bana) Samsung’un Kârı Neden Bir Anda Uçtu? AI Çipleri Sahneye Çıktı yazımızda da bu konuya değinmiştik.

Zaman tasarrufu: Tek akışla hızlı başlangıç sağlar.
Daha az manuel iş: Notebook kopyala-yapıştır derdi azalır.
Daha anlaşılır rapor: Veri + model sonucu birlikte okunur.
Daha iyi ekip iletişimi: Teknik olmayan kişiler de tabloyu daha kolay takıp eder.

Küçük ekipler için avantaj ne?

Küçük startup’larda böyle bir kütüphane altın değerinde olabilir çünkü orada zaman para demek zaten kıymetli olan şey budur nefes almak gibi… İki analistten biri EDA’ya bakarken diğeri modeli kurabilir. İkisi aynı çıktıya göz atabilir.

Peki neden?

Büyük kurumlarda neden daha kritik?

Büyük yapılarda mesele hızdan biraz kayıp yönetişime gelir bağımsız kontrol istenir log istenir tekrar üretilebilirlik istenir yani özetle disiplin gerekir Böyle yerlerde parçalı yapı kısa vadede çalışır ama uzun vadede karmaşa büyür Eğer analiz zinciri baştan sona kayıt altında tutuluyorsa ekipler rahat eder denetçiler de daha az soru sorar ki bu hiç fena değildir.

Nerede eksik kalabilir?

Evet şimdi dürüst olalım her parlak fikrin gölgeli tarafı ölür Burada da durum farklı değil Öncelikle kapsam genişledikçe bakım yükü artar Çok fazla istatistik testini otomatikleştirmek kulağa hoş gelir. Yanlış yorum riski de taşır Hele bir de yeni başlayan kullanıcılar p-değeri gördü mü bayrak sallamaya başlayabiliyor aman dikkat!

`Model selection` ile `data understanding`i aynı pakete koymak güzel fikir. Sınırı iyi çizilmezse arayüz şişer Kullanıcıya fazla seçenek vermek bazen özgürlük değil kafa karışıklığı yaratır Bu yüzden ürünün sade kalması lazım Yoksa başlangıçta vaat ettiği sadelik kendi elinde boğulur


Beni biraz hayal kırıklığına uğratan nokta ne olurdu?

Bence, Açık konuşayım açıklama katmanı yeterince kuvvetli olmazsa proje yarıda kalmış hissi verir Sadece skor grafikleri göstermek yetmez Çapraz hata analizi olmadan insanlar yine klasik metriklere geri döner Ve evet ben bunun birkaç üründe olduğunu gördüm Güzel başlıyor sonra raportaj kısmında nefesi kesiliyor

# Basit düşünce akışı
1) Veriyi tara
2) Kalite sinyallerini çıkar
3) Model adaylarını koştur
4) Sonuçları karşılaştır
5) Neden iyi olduklarını açıkla
6) Tek raporda topla

Neden böyle hibrit araçlara daha çok ihtiyaç var?

Mesele aslında trendden ibaret değil Veri dünyası büyüdükçe insanlar daha az sürtünme istiyor Bulut tarafında nasıl yönetilen servisler yaygınlaşıyorsa analiz tarafında da benzer kolaylık beklentisi oluşuyor Bugün herkes hızlı prototip yapmak istiyor ama kimse üç saatlik glue code yazmak istemiyor haklı olarak

Bir de güven boyutu var Şirketler artık kara kutu istemiyor En azından düzgün gerekçe görmek istiyor Geçen yıl Berlin’de katıldığım küçük bir etkinlikte bunu çok net hissettim Bir MLOps mühendisi bana şöyle demişti “En pahalı hata yanlış model seçmek değil yanlış seçimi savunamamaktır” Bayağı vurucu cümleydi doğrusu

İşte böyle ara katman projeleri burada devreye giriyor Veriyi anlamadan modele atlayan ekiplerin önüne fren koyuyor Model odaklı takımlara işe biraz muhasebe yaptırıyor Ne öğrendik neyi kaçırdık hangi varsayımı test ettik bunların hepsini masaya seriyor Neyse uzatmayayım mantık basit Ama etkisi büyük olabilir

Sıkça Sorulan Sorular

Kaynaklar ve İleri Okuma

Azure Machine Learning’de Automated ML (AutoML) kavramları

Azure Machine Learning ile Automated ML nasıl kullanılır

ydata-profiling (YData Profiling) GitHub deposu

SHAP GitHub deposu

Aşkın KILIÇYazar

20+ yıl deneyimli Azure Solutions Architect. Microsoft sertifikalı bulut mimari ve DevOps danışmanı. Azure, yapay zekâ ve bulut teknolojileri üzerine Türkçe teknik içerikler üretiyor.

AZ-305AZ-104AZ-500AZ-400DP-203AI-102

Bu içerik işinize yaradı mı?

Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.

X / Twitter LinkedIn YouTube GitHub

Neden bu kadar çok araç yetmiyor?

Piyasadaki araçlar neyi iyi yapıyor, neyi yapamıyor?

dissectml fikri tam olarak nereden doğuyor?

Dört beş ayrı araç yerine tek akış fikri neden cazip?

Peki bu yaklaşımın kuvvetli tarafı ne?

Küçük ekipler için avantaj ne?

Büyük kurumlarda neden daha kritik?

Nerede eksik kalabilir?

Beni biraz hayal kırıklığına uğratan nokta ne olurdu?

Neden böyle hibrit araçlara daha çok ihtiyaç var?

Sıkça Sorulan Sorular

Kaynaklar ve İleri Okuma

İlgili Yazılar

Bu içerik işinize yaradı mı?

Benzer Yazilar

Copilot Usage Metrics API: Artık Kohortlu AI Adopsiyon Devri

Visual Studio Nisan Güncellemesi: Cloud Agent Devri Başladı

Agent Sandbox: Kubernetes’te AI Agent’ları Çalıştırmak

Yorum Yaz Iptal