Geçen ay bir perakende müşterimizin İstanbul’daki dağıtım merkezinde, raf önünde duran bir tablette çalışan görsel sayım modeline bakıyorduk. Cihaz internete bağlanmıyor; depo binası kalın betondan, hücresel sinyal yok, Wi-Fi sadece ofis katında. Müşteri “bunu cloud’a göndermeden, lokalde çalıştırabilir mıyız?” diye sordu. Teorik cevap evet, pratikte işe… işin aslı şu: edge AI hâlâ biraz çetin bir alan.
İşte tam o sırada Microsoft Build 2026’da duyurulan Foundry Local 1.2.0 ve Azure Local tarafındaki yeniliklere bakınca, “tamam, bazı dertler hafifliyor” dedim. Bugün size bu sürümü kendi sahadaki deneyimlerim — ki bu tartışılır — ve müşteri projelerim üzerinden anlatacağım. Pazarlama dili yok; direkt sahadan konuşalım.
Edge AI Geliştirmek Neden Hâlâ Bu Kadar Zor?
Açık konuşayım: Cloud’da bir GPT-4o çağırmak ile kendi laptop’ınızda ya da bir endüstriyel mini-PC’de bir SLM (small language model) koşturmak arasında ciddi fark var. Cloud tarafında Microsoft, NVIDIA ve Azure ekipleri sizin için her şeyi soyutluyor; edge tarafında işe iş biraz dağılıyor, hatta bazen bildiğiniz dağınık masaya dönüyor.
- Model paketleme — ONNX mı, GGUF mu, safetensors mı? Hangisi hangı runtime’da koşuyor?
- Runtime parçalanması — DirectML, CUDA, OpenVINO, QNN, Vulkan, WebGPU… Her biri ayrı dünya.
- Donanım çeşitliliği — Müşterinin elinde Intel NPU’lu bir Lunar Lake mi var, AMD Ryzen AI mı, yoksa eski bir Xeon mu?
- Dağıtım karmaşası — Offline ortamda model güncellemesi nasıl yapılacak, lisanslama ne olacak, telemetriyi ne yapacaksınız?
Bunların hepsini toparlamadan tek bir özelliği üretime alamıyorsunuz. Ben Logosoft’ta bir kamu projesi için 2024 sonunda benzer bir POC yaptığımızda, sadece “doğru runtime’ı seçme” işine 3 hafta harcamıştık. Üç hafta! Bir satır ürün kodu yazmadan geçmişti zaman (şaşırtıcı ama gerçek)
İşte tam da bu noktada devreye giriyor.
Edge AI’da en büyük düşman model değil, dağıtım. Modeli bulursunuz, optimize edersiniz, ama önü 500 farklı cihaza tutarlı şekilde göndermek — işte asıl iş orada.
Foundry Local Nedir, Kısaca Hatırlayalım
Vallahi, Foundry Local, Microsoft’un cross-platform yerel AI çalışma katmanı. Yanı Azure’a, OpenAI’ye ya da başka bir buluta bağlanmadan kendi cihazınızda; laptopta, AI PC’de, edge server’da ya da bazı durumlarda mini-PC’lerde model koşturmanızı sağlıyor. Neden önemli bu? Token başına ücret yok, network gecikmesi yok, veri de cihazdan dışarı çıkmıyor.
İtiraf edeyim, Geçen ayki 1.1.0 sürümünde zaten fena olmayan şeyler gelmişti: Live Transcription desteği vardı, embedding desteği geldi, Responses API de eklenmişti. Şimdi 1.2.0 ile masaya konan şeyler daha çok “üretime yaklaşma” tarafında duruyor.
1.2.0 ile Ne Geldi?
İşin garibi, Liste uzun ama ben önemli olanları ayıklayayım:
- Çok dilli ASR (Multilingual Speech Recognition) — Önceki sürümde NVIDIA Nemotron Speech Streaming sadece İngilizce destekliyordu. Şimdi başka dilleri de kapsıyor. Türkçe tarafında hâlâ %100 emin değilim; denedim, sonuçlar “fena değil” ama prodüksiyon kalitesi tartışılır.
- Linux’ta geniş cihaz desteği — Önceden Windows tarafı daha rahattı; Linux biraz kenarda kalıyordu. Artık denge oturuyor gıbı.
- Cancellation ve EP (Execution Provider) workflow iyileştirmeleri — Küçük görünür ama gerçek hayatta baya işe yarıyor. Bir inferans isteğini iptal edebilmek UX açısından kritik.
- Windows ML 2.0 entegrasyonu — Bence sürümün yıldızı bu. Aşağıda biraz açacağım. (bence en önemlisi)
- Yeni on-device API’ler — Daha temiz ve daha OpenAI uyumlu arayüzler geliyor.
Peki Windows ML 2.0 Ne Yapıyor?
Bak şimdi, en sevdiğim kısma geldik. WinML 2.0, Microsoft’un Windows üzerindeki AI hızlandırma katmanı için yaptığı ciddi revizyonlardan biri ve Foundry Local 1.2.0 bunu artık ilk sınıf destekle kullanıyor.
Neden önemli? Çünkü Windows tarafında yıllardır küçük. Sınır bozucu bir kâbus vardı: Müşteride Intel Core Ultra varsa OpenVINO; AMD Ryzen AI varsa başka bir EP; NVIDIA RTX varsa CUDA; Snapdragon X varsa QNN… Her biri için ayrı paketleme yapmak gerekiyordu (ayrı test de cabası). Bir kurumsal müşteride 4 farklı laptop modeli vardı. Biz her biri için ayrı build çıkarmıştık; açık söyleyeyim saçmaydı.
Aslında, WinML 2.0 bunu epey soyutluyor gıbı duruyor. Siz sadece “bu modeli koştur ve en (belki yanılıyorum ama) iyi hızlandırıcıyı sen seç” diyorsunuz; o da NPU varsa NPU’ya düşüyor, yoksa iGPU’ya gidiyor, o da olmazsa CPU’ya iniyor. Kağıt üstünde gayet iyi duruyor; pratikte göreceğiz tabii — özellikle Türkiye pazarında AI PC penetrasyonu hâlâ düşük olduğu için fallback senaryoları baya kıymetli.
Küçük Bir Örnek: Modeli Yüklemek
Bir Node.js uygulamasında Foundry Local 1.2 kullanmak ne kadar basit diye kısa bir örnek göstereyim:
import { FoundryLocalClient } from "foundry-local";
const client = new FoundryLocalClient({
acceleration: "auto", // WinML 2.0 en uygun EP'yi seçer
fallbackToCpu: true
});
await client.loadModel("phi-4-mini-instruct");
const response = await client.responses.create({
model: "phi-4-mini-instruct",
input: "Depo stok sayımı için kısa bir özet hazırla.",
max_output_tokens: 256
});
console.log(response.output_text);
Bu kadar gerçekten. Üç sene önce aynı işi yapmak için ONNX Runtime’ı elle konfigüre etmek gerekiyordu; EP’leri tek tek seçiyordunuz, model dosyalarını manuel indiriyordunuz falan… Şimdi tek satırla model yükleniyor gıbı hissettiriyor ki benim açımdan ciddi kolaylık.
Azure Local Üzerinde Foundry Local: Egemen Bulut Hikâyesi
Şimdi enterprise tarafına geçelim. Foundry Local on Azure Local —. Eskiden Azure Stack HCI dediğimiz yapı — özellikle düzenlemeye tabi sektörler için önemli bir kapı açıyor.
Türkiye bağlamında düşünelim: KVKK var, BDDK’nın bankacılık için veri yerleşim kuralları var, sağlık verisi için ayrı mevzuat var. Bir bankaya “müşteri çağrı kayıtlarını OpenAI API’ye gönderelim” diyemezsiniz; denerseniz de denetçiler kapıya dayanır gıbı ölür.
Bu noktada Foundry Local on Azure Local devreye giriyor olabilir çünkü banka kendi data center’ında, kendi donanımında (evet, doğru duydunuz). Hatta internet bağlantısı olmadan bile modelleri koşturabiliyor; üstelik Azure Portal’dan yönetim deneyimi de tamamen kopmuyor (bu hibrit yapı bence Microsoft’un en sağlam kartlarından biri) (kendi tecrübem) Daha fazla bilgi için PostgreSQL’in Geleceği: Microsoft’tan Commit’ten Bulut’a yazımıza bakabilirsiniz.
Geçen yıl bir telekom müşterimizde benzer mimarı tasarlamıştık; o zaman Foundry Local on Azure Local henüz yoktu. Biz manuel Kubernetes + KServe — itiraz edebilirsiniz tabi — + vLLM ile ilerlemiştik. Üç ayda zar zor ayağa kalkmıştı sistem. Aynı işi şimdi muhtemelen 2-3 haftada toparlarız diye düşünüyorum; bu beni hem sevindiriyor hem de “keşke biraz bekleseydik” dedirtiyor. Neyse uzatmayayım. Bu konuyla ilgili Visual Studio’da PR İnceleme: Tarayıcıya Veda Vakti yazımıza da göz atmanızı tavsiye ederim. Daha fazla bilgi için Azure Repos’a Copilot Code Review Geldi: Saha Notları yazımıza bakabilirsiniz.
Türkiye’deki Şirketler İçin Ne Anlama Geliyor?
Şunu fark ettim: Burasını biraz açayım çünkü Microsoft’un global bloğunda Türkiye perspektifi doğal olarak eksik kalıyor. Kurumsal müşterilerimde gördüğüm kadarıyla edge AI benimsenmesi Türkiye’de üç ana motorla ilerliyor:
- Derya… pardon veri egemenliği baskısı — Kamu, bankacılık ve savunma sanayi için cloud AI ciddi bariyerlerle karşılaşıyor gıbı duruyor; Foundry Local burada doğrudan çözüm oluyor.
- Döviz maliyeti — Azure OpenAI fiyatları dolar bazlı. Bir kurumsal projede ayda 2000 dolar token harcaması TL’ye çevrilince can sıkıyor; aynı işi yerel SLM ile yapmak işe bir kerelik donanım yatırımı sonrası uzun vadede %60-80 ucuz çıkabiliyor.
- Düşük latency ihtiyacı — Üretim hatları, perakende kasaları ve sahada çalışan tablet uygulamaları gıbı senaryolarda 200ms’lık cloud round-trip bile fazla gelebiliyor.
Eh, Bana kalırsa önümüzdeki 12-18 ayda Türkiye’de edge AI projelerinin sayısı en az 3 katına çıkar gıbı görünüyor (tabii piyasa biraz ters köşe yapmazsa). Foundry Local gıbı araçlar olduğu sürece artık POC’tan üretime geçiş altı ay değil altı hafta sürebiliyor. Daha fazla bilgi için Azure DevOps Server Haziran Patch’leri: Saha Notlarım yazımıza bakabilirsiniz. Daha fazla bilgi için Cosmos DB Güvenliği: Yeni Projede İlk Gün Kararları yazımıza bakabilirsiniz.
Eee Startup Tarafı Ne Yapacak?
Bunu çok soruyorlar bana; kısa bir tablo çıkarayım dedim:
| Senaryo | Tavsiyem | Sebep |
|---|---|---|
| 5-10 kişilik startup, hızlı POC | Sadece Foundry Local | Laptop’ta koşturun, müşteriye gösterin; gerekirse sonra cloud’a açılırsınız |
| 50+ kişilik orta ölçekli B2B SaaS | Hibrit: Azure AI Foundry + Local SDK | Lokal geliştirme artı cloud prod dengesi baya iş görüyor |
| Bankaşılık… pardon bankacılık, sağlık ve savunma | Foundry Local on Azure Local | Datanın sınır dışına çıkmaması denetimi kolaylaştırıyor |
| Saha cihazları (kiosk, kasa, tablet) | Foundry Local + WinML 2.0 | Offline çalışıyor; NPU varsa hızlanıyor, fallback güvenli kalıyor |
Ama Azure Local üzerine kurarsanız donanım + Azure Arc + yönetim lisansları devreye giriyor (burayı atlamayın). Bütçeyi ona göre planlamak lazım.
Bunu İlk Denediğimde Ne Yaşadım?
Bunu yaşayan biri olarak söyleyeyim, Açık olayım: her şey pembe değildi Evet ilk kurulumda problem çıktı (kendi tecrübem)
Sıkça Sorulan Sorular
Foundry Local ücretli mi?
Şahsen, Hayır, Foundry Local’in kendisi tamamen ücretsiz. İndirip kullanabilirsiniz. Model dosyaları da çoğunlukla açık lisanslı — hani Phi, Llama gıbı modeller mesela. Ücret meselesi aslında sadece Azure Local üzerinden kurumsal yönetim katmanını kullanmak istediğinizde gündeme geliyor; orada donanım ve Azure Arc lisansı devreye giriyor.
Foundry Local hangı modelleri destekliyor?
Phi ailesi (Phi-3, Phi-4 mini), Mistral, Llama 3.x, Qwen destekleniyor. Bunların yanı sıra embedding modelleri (E5, BGE) ve ASR için de NVIDIA Nemotron Speech Streaming var. Açıkçası en güzel yanı şu: ONNX formatına çevrilebilen hemen hemen her model — biraz uğraşınca — çalışıyor (bizzat test ettim)
Türkçe modeller çalışıyor mu?
Phi-4, Qwen, Llama 3.x gıbı çok dilli modeller Türkçe’yi makul seviyede destekliyor. Ama bence burada gerçekçi olmak lazım — Türkçe’ye özel fine-tune edilmiş modeller henüz Foundry Local kataloğunda yok. Kendi modelinizi ONNX’e çevirip yükleyebilirsiniz, yanı tamamen çıkmaz sokak değil.
Bunu biraz açayım.
NPU olmayan bir laptop’ta çalışır mı?
Evet, kesinlikle çalışır. WinML 2.0, NPU yoksa iGPU’ya, o da yoksa CPU’ya düşüyor. Performans tabii ki azalıyor, bunu söyleyelim. Ama tecrübeme göre küçük modellerle — mesela Phi-4 mini — modern bir CPU’da bile saniyede 15-25 token üretebiliyorsunuz, yanı gayet kullanılabilir.
Cloud Azure OpenAI ile Foundry Local arasında nasıl seçim yapayım?
Veri gizliliği, offline çalışma, düşük gecikme veya maliyet sizin için kritikse Foundry Local’e yönelin. En güncel model kalitesi, ölçeklenebilirlik ya da GPT-4 sınıfı büyük modeller gerekiyorsa Azure OpenAI daha mantıklı. Aslında olgun mimarilerin çoğunda ikisi birlikte kullanılıyor — hassas işlemler local, ağır işlemler cloud. Bence bu hibrit yaklaşım en pragmatik çözüm.
Evet, doğru duydunuz.
Kaynaklar ve İleri Okuma
Accelerate Edge AI Development with Foundry Local — Microsoft Foundry Blog
Foundry Local Resmî Dokümantasyonu
Windows ML 2.0 Geliştirici Kılavuzu
Foundry Local GitHub Repository (örnekler ve SDK)
Bu içerik işinize yaradı mı?
Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.



