Geçenlerde bir akşam, İstanbul’da ofiste geç vakte kadar kalmışken eski bir proje notuna denk geldim (şaşırtıcı ama gerçek). Yine aynı cümle: “Önce API anahtarını al.” Sanki başka yol yokmuş gibi. Yok mu yani? Var. Üstelik gayet de iş görüyor.
Bu yazıda buluttaki dev modellere bağımlı kalmadan yerel LLM çalıştırma işine kendi gözümden bakacağım. Konu sadece “nasıl kurulur” değil — aynı zamanda “ne zaman mantıklı olur, ne zaman saçmalar” sorusunu da kapsıyor, bence asıl soru bu zaten. Ben de tam burada devreye giriyorum: 2023’te küçük bir yan projede benzer bir kurulum yapmıştım, sonra 2025’in başında Ankara’daki bir müşteri demosunda yeniden denedim — ikisinde de sonuçlar fena değildi, hatta bazı açılardan beklediğimden iyiydi.
Neden Yerel LLM? Çünkü Fatura Meselesi Ciddi
Bulut API’leri ilk bakışta çok cazip geliyor. Bir anahtar alıyorsun, birkaç satır kod yazıyorsun, hop — sohbet eden bir uygulaman var. Güzel. Ama ölçek büyüyünce tablo değişiyor; günde bin istek alan minik bir araç bile ay sonunda insanı şaşırtacak faturalar çıkarabiliyor, özellikle startup tarafında bütçe sıkışıkken bu durum ciddi can sıkıyor.
Ben bunu ilk kez Kadıköy’deki eski bir coworking alanında fark etmiştim. Minik bir içerik asistanı deniyorduk; kullanıcı sayısı artınca maliyetler sessiz sedasız yükseldi. İşte o an şunu düşündüm: “Bu işin yerelde çalışan versiyonu neden olmasın?” Gel gelelim mesele sadece para değil.
Yerel çalıştırmanın en kuvvetli tarafı gizlilik. Sağlık, hukuk, finans gibi alanlarda veriyi dışarı göndermemek bazen tercih değil zorunluluk oluyor — bir avukatın dosya özetini üçüncü taraf bir API’ye yollamasıyla kendi sunucusunda işlem yapması arasında dağlar kadar fark var, bunu kimse tartışmıyor artık. Bir de offline çalışma kısmı var ki, açık konuşayım, demo günü Wi-Fi bozulunca hayat kurtarıyor.
Yerel LLM kullanımı her problemi çözmez; ama maliyet, gizlilik ve kontrol üçlüsünde ciddi avantaj verir. Kağıt üstünde süper duran şeylerin pratikte tökezlediği çok olur… burada ise çoğu zaman tersi yaşanıyor.
Ollama Neden Bu Kadar Rahat Hissettiriyor?
Yani, Bak şimdi, Ollama’nın güzel tarafı karmaşayı saklaması. Model indirme işiyle uğraşıyorsun. Komutlar abartılı değil; sanki mutfağa gidip su kaynatmak kadar doğal hale getiriyor her şeyi. En çok da yeni başlayan biri için bu büyük rahatlık — ciddi söylüyorum.
Geçen ay İzmir’de kısa süreli bir test ortamı kurarken Ollama’yı seçtim çünkü ekipteki herkes Python uzmanı değildi. Kurulum sade olunca herkes elini taşın altına koyabildi. Bu da önemli; iyi araç sadece dayanıklı olan değil, aynı zamanda ekipçe kullanılabilen araçtır.
Kusursuz mu? Değil. Model yönetimi konusunda bazen daha fazla kontrol istiyorsunuz — özellikle enterprise tarafta loglama, versiyonlama. Erişim politikaları biraz daha ciddi ele alınmalı. Yani küçük startup için “tak-çalıştır” hissi verirken büyük kurumda çevresine biraz çerçeve çizmek gerekiyor (buna dikkat edin) Daha fazla bilgi için Butterfly CSS: 2026’da Dikkat Çeken Hafif Bir Seçenek yazımıza bakabilirsiniz.
Kurulum Mantığı Nasıl İşliyor?
İlk adım basit: Ollama’yı kuruyorsun, modeli çekiyorsun ve çalıştırıyorsun. Bu kadar kısa görünmesi insanı şaşırtıyor ama gerçekten öyle. MacOS ya da Linux tarafında tek satırlık kurulum yeterli olabiliyor; Windows’ta ise resmi indirme sayfasından ilerlemek daha temiz duruyor. Daha fazla bilgi için 2026’da Kod Asistanı Seçimi: Tek Araç Değil, Set yazımıza bakabilirsiniz.
Durun, bir saniye. PDF Dünyasında Bir Nefes: Ücretsiz ve Limitsiz Araçlar yazımızda bu konuya da değinmiştik.
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Modeli indir
ollama pull gemma4
# Calistir
ollama run gemma4
Bunu ilk denediğimde hafif şüpheciydim doğrusu. “Tamam da bu kadar mı?” dedim kendi kendime (ben de ilk duyduğumda şaşırmıştım). Evet. Neredeyse bu kadar — sonrasında modele kısa bir soru sorup çıktıya baktığınızda olay oturuyor.
| Kriter | Bulut API | Yerel LLM |
|---|---|---|
| Maliyet | Kullanım arttıkça yükselir | Cihaz elektriği + donanım maliyeti |
| Gizlilik | Veri dışarı çıkar | Varsayılan olarak yerelde kalır |
| Internet bagimliligi | Zorunlu | Zorunlu değil |
| Tutarlilik | Model güncellemeleri etkiler | Aynı model aynı davranışa yakın kalır |
Peki Gemma Tarafında Ne Beklemeli?
Gemma ailesi hafiflik ile iş görme arasındaki çizgide duruyor diyebilirim. Büyük modeller kadar gösterişli görünmeyebilir, tamam — ama günlük işlerde yeterince akıllı davranabiliyor. Özetleme, sınıflandırma, basit yardımcı görevler… bunlarda gayet kullanışlı.
Küçük bir detay: Burada dürüst olayım: her model her işi yapmıyor. Uzun bağlam isteyen senaryolarda ya da çok katmanlı muhakeme gerektiren işlerde bazen beklediğiniz parlaklığı vermiyor olabilir. Bir de donanım tarafı var; düşük RAM’li makinelerde işler çabuk ağırlaşıyor, bunu baştan bilmek lazım. Semantic Search Ölçekte Neden Zorlaşıyor? RAG’in Dersi yazımızda bu konuya da değinmiştik.
Buna rağmen ben Gemma tarzı modelleri özellikle prototipleme aşamasında seviyorum. Hızlı deney yapmanı sağlıyorlar — önce fikri doğruluyorsun, sonra gerekiyorsa daha büyük modele geçiyorsun. Aslında doğru yaklaşım da bu zaten.
Küçük Proje mi? Kurumsal Sistem mi?
Küçük bir side project için yerel LLM bence biçilmiş kaftan. Kişisel not uygulaması, lokal kod yardımcısı ya da şirket içi doküman aracı geliştiriyorsanız API anahtarı peşinde koşmadan ilerleyebilirsiniz — bu kadar net (ciddiyim) Bu konuyla ilgili AI’yi Projene 2 Saatte Eklemenin Gerçek Hali yazımıza da göz atmanızı tavsiye ederim.
Eh, Kurumsal tarafta ise resim değişiyor biraz. Erişim yetkileri, model güncelleme politikası, GPU paylaşımı ve güvenlik kayıtları gündeme geliyor; yani teknoloji aynı teknoloji ama operasyon yükü büyüyor ve işler “çalıştı mı?” sorusundan çıkıp “kim kullandı, hangi model sürümüydü?” seviyesine geliyor. Neyse, uzatmayalım.
Python ile Temiz Bir Yapı Kurmak Mümkün mü?
Bak şimdi, Evet mümkün. Hem de gereksiz mimari şişirmeden mümkün! Ben bunun en sağlıklı yolunun ince bir sarmal katman kurmak olduğunu düşünüyorum: LLM çağrısı ayrı dursun, iş mantığı ayrı dursun.
Bu haberi ilk okuduğumda hemen terminal açıp test ettim; çünkü teoriden çok pratiğe inanıyorum açıkçası, özellikle yapay zeka araçlarında. Küçük script ile başlayan yapı sonradan servis katmanına dönüşebiliyor ve siz temeli düzgün atmış oluyorsunuz.
import ollama
class LocalLLMApp:
def __init__(self, model="gemma4"):
self.client = ollama.Client()
self.model = model
def generate(self, prompt: str, temperature: float = 0.3,
system: str | None = None) -> str:
messages = []
if system:
messages.append({"role": "system", "content": system})
messages.append({"role": "user", "content": prompt})
response = self.client.chat(
model=self.model,
messages=messages,
options={"temperature": temperature}
)
return response["message"]["content"]
Böyle bir yapı bana hep şu hissi veriyor: bugün küçük proje, yarın ürün olabilir — ama temel bozulmazsa sorun çıkmaz. Hatta bazen en iyi mimari budur. Abartısız olan.
- Düşük sıcaklık (temperature): Daha tutarlı cevaplar verir.
- Ayrık sistem mesajı: Modelin rolünü netleştirir. — bunu es geçmeyin
- Sarmal sınıf yapısı: Sonradan farklı modellerle değiştirmeyi kolaylaştırır.
- Sade arayüz: Takımdaki herkes anlayabilir. — bunu es geçmeyin
Nerede Parlıyor, Nerede Can Sıkıyor?
Açık konuşayım; yerel LLM’ler her derde deva değil. En büyük hayal kırıklığı genelde donanımdan geliyor — özellikle GPU’suz makinelerde sabır sınavına dönüşebiliyorlar. Bazen cevap süresi uzuyor, bazen de bağlam penceresi sizi yüz üstü bırakıyor — dürüst olayım, biraz hayal kırıklığı —. İşte o noktada “yereldeyim diye her şey ucuz olacak” beklentisi dağılıyor biraz.
Araya gireyim: Ama güçlü olduğu alanlarda gerçekten tatlı çalışıyorlar. Özel veriyle çalışan iç araçlar, şirket içi bilgi tabanı botları, otomatik etiketleme sistemleri… bunların hepsinde yerel kurulum gayet mantıklı olabiliyor. Hatta veri hassasiyeti yüksekse buluta gitmek yerine yerelde kalmak doğrudan doğru karar oluyor — tartışmaya bile gerek yok.
Bakın, burayı atlarsanız yazının kalanı anlamsız kalır.
Sahada Görülen Artılar ve Eksiler
| Artılar | Eksiler |
|---|---|
| Maliyet baskısı azalır | Donanım ihtiyacı artar |
| Veri dışarı çıkmaz | Kullanıcı deneyimi bazen yavaş olur |
| Offline kullanım mümkün olur | Bazı modeller ince ayar ister |
| Sürüm davranışı daha tutarlı olabilir | Sorumluluk da size aittir |
| Kendi kontrolünüzdedir | Operasyon yükü büyüyebilir |
Bu içerik işinize yaradı mı?
Benzer içerikleri kaçırmamak için beni sosyal medyada takip edin.



