On-Premise Açık Kaynak LLM Karşılaştırma Raporu

Bilgi geçerlilik tarihi: Haziran 2026. Bu rapor, kurum sınırı içinde (on-premise, kapalı ağ) çalıştırılabilen, ticari kullanıma uygun açık ağırlıklı dil modellerini ve bunların donanım eşleşmelerini karşılaştırır. Veriler üretici teknik raporlarından, LMSYS Chatbot Arena (lmarena.ai) ve LiveCodeBench gibi bağımsız test kaynaklarından derlenmiştir. Modeller ve sürümler hızla değişir; kuruluma özel öneri her zaman Mimari Ön-Analiz’de, kurumun senaryosu ve veri hacmiyle belirlenir.

Bu sayfa bilgilendirme amaçlıdır; bağlayıcı bir teklif değildir. Modül eşleşmeleri için Platform modüllerine bakın.

Bu ay ne değişti (Mayıs → Haziran)

NVIDIA DGX Spark (GB10 Grace Blackwell): 128 GB birleşik bellek + 273 GB/s bant genişliği + CUDA/TensorRT-LLM ekosistemiyle, birleşik bellekte Apple Silicon’un tekelini kıran kurumsal mini-PC sınıfı bir platform.
Gemma 4 ve Qwen 3.6 optimizasyonları: Gemma 4 ailesi (31B Dense, 26B A4B MoE, E4B, E2B) ve Qwen 3.6-35B-A3B MoE; vLLM, SGLang ve llama.cpp üzerinde kararlı optimize çekirdek desteğine kavuştu.
AMD Strix Halo: Birleşik bellekli sistemlerde llama.cpp’in Vulkan arka ucu, ROCm’e kıyasla daha kararlı ve hızlı sonuç veriyor.
Lisans: Llama 4 Scout/Maverick, Llama 4 Topluluk Lisansı kapsamında — aylık 700M aktif kullanıcı altındaki kurumlarda ücretsiz ticari dağıtım onaylı.

Ana karşılaştırma tablosu

Toplam parametre boyutuna göre gruplanmış, kapalı ağda çalıştırılabilen güncel açık ağırlıklı varyantlar.

Model	Geliştirici	Mimari	Parametre (top./aktif)	Bağlam	Lisans	Min VRAM (Q4)	Türkçe
Küçük (< 10B)
Gemma 4 E2B	Google	Dense (PLE)	5.1B / 2.3B	128K	Apache 2.0	4 GB	Var
Gemma 4 E4B	Google	Dense (PLE)	8.0B / 4.5B	128K	Apache 2.0	6 GB	Var
Qwen 3.5 2B	Alibaba	Dense	2.0B	262K	Apache 2.0	2 GB	Var
Kumru-2B	Turker et al.	Dense	2.0B	8K	Apache 2.0	2 GB	Türkçe özel
Orta (10–40B)
Gemma 4 26B A4B	Google	MoE	25.2B / 3.8B	256K	Apache 2.0	16 GB	Var
Gemma 4 31B Dense	Google	Dense	30.7B	256K	Apache 2.0	20 GB	Var
Qwen 3.6 35B-A3B	Alibaba	MoE	35.0B / 3.0B	262K	Apache 2.0	24 GB	Var
Qwen 3.5 27B	Alibaba	Dense	27.0B	262K	Apache 2.0	18 GB	Var
QwQ-32B	Alibaba	Dense	32.0B	128K	Apache 2.0	22 GB	Var
Büyük (40–150B)
Llama 4 Scout	Meta	MoE	109B / 17B	10M	Llama 4 Community	72 GB	Var
Qwen 3 30B-A3B	Alibaba	MoE	30B / 3B	262K	Apache 2.0	20 GB	Var
Çok büyük (> 150B)
Llama 4 Maverick	Meta	MoE	400B / 17B	1M	Llama 4 Community	256 GB	Var
Qwen 3 235B-A22B	Alibaba	MoE	235B / 22B	262K	Apache 2.0	144 GB	Var

Yetenek sıralaması (benchmark)

Akademik ve endüstriyel standartlar; resmi hizalanmış (instruction-tuned) sürümler.

Model	Akıl Yürütme (MMLU-Pro)	Bilim & Mat. (GPQA / AIME)	Kod (LiveCodeBench)	Çok Dilli (MMMLU)	Arena Elo
Llama 4 Maverick	89.4%	88.9% / 95.0%	82.5%	91.2%	1362
Gemma 4 31B Dense	85.2%	84.3% / 89.2%	80.0%	88.4%	1312
Qwen 3.6 35B-A3B	85.2%	86.0% / 92.7%	80.4%	89.2%	1308
QwQ-32B	88.2%	89.1% / 93.1%	84.2%	84.6%	1302
Llama 4 Scout	84.1%	79.5% / 88.0%	74.3%	85.6%	1298
Qwen 3.5 27B	86.1%	85.5% / 92.6%	80.7%	88.2%	1294
Gemma 4 26B A4B	82.6%	82.3% / 88.3%	77.1%	86.3%	1284
Gemma 4 E4B	69.4%	58.6% / 42.5%	52.0%	76.6%	1195
Gemma 4 E2B	60.0%	43.4% / 37.5%	44.0%	67.4%	1150

Türkçe performansı

Türkçenin bitişken (agglutinatif) ve morfolojik açıdan zengin yapısı, modellerin kelimeleri anlamlı birimlere ayırma yeteneğini doğrudan sınar. İngilizce ağırlıklı tokenizer’lar Türkçe kelimeleri aşırı küçük parçalara böler (“yüksek fragmantasyon”); bu, bağlam penceresini gereksiz doldurur, hızı düşürür ve uzun cümlelerde anlam kaymasına yol açar.

TR-MMLU: Makine çevirisi hatalarından arındırılmış, yerel sınavlardan derlenen ~6.200 soruluk doğrulama kümesi. Başarının en güçlü göstergesi parametre boyutu değil, morfem düzeyinde Türkçe koruma oranıdır (korelasyon katsayısı ≈ +0.90).
Geniş tokenizer avantajı: Gemma 4 (262K) ve Qwen 3.5/3.6 (248K) sözlükleri Türkçe morfem sınırlarını yüksek doğrulukla tanır. Gemma 4 31B ve Qwen 3.6 35B, TR-MMLU/MMMLU’da %84–88 bandında başarı yakalar.
Yerel alternatifler: Yerel ince ayarlı modeller (Trendyol-LLM, Kumru-2B) sınırlı donanımda basit Türkçe komutları çok iyi işler; ancak çok adımlı RAG ve karmaşık çıkarımda küresel açık modellerin gerisinde kalır.

Saha test edilen yapısal sorunlar: uzun cümlelerde ek bozulmaları (-da/-de, -a/-e); aşırı sıkıştırmada (Q4 altı) Türkçe diakritiklerin (ş, ç, ğ, ü, ö, ı) bozulması — bu yüzden Q4_K_M altına inilmez; yalnız dar Türkçe veriyle fine-tune’da genel yetenek kaybı (katastrofik unutma) riski.

Donanım eşleşmesi

Apple Silicon (birleşik bellek)

Birleşik belleğin en fazla %50–60’ı LLM çıkarım bütçesi olarak ayrılmalıdır.

Donanım	LLM bütçesi	Önerilen model & sıkıştırma	Tahmini hız (Q4)
Mac mini M4 / M4 Pro (16–24 GB)	9–14 GB	Gemma 4 E4B (Q4_K_M) / Qwen 3.5 2B (FP16)	42–48 / 75–85 t/s
Mac mini M4 Pro (32–64 GB)	18–38 GB	Gemma 4 26B A4B MoE / Qwen 3.6 35B-A3B (Q4_K_M)	32–38 / 22–28 t/s
Mac Studio M4 Max (64–128 GB)	38–76 GB	Gemma 4 31B Dense (Q8) / Llama 4 Scout (Q4)	45–55 / 18–24 t/s
Mac Studio M3 Ultra (192–512 GB)	115–300 GB	Llama 4 Maverick / DeepSeek-R1 (Q4)	24–30 / 12–15 t/s

NVIDIA GPU (dedicated VRAM)

Yüksek eşzamanlı kullanıcı (concurrency) gerektiren üretim ortamlarının tercihi; vLLM / SGLang / TensorRT-LLM ile.

24 GB (RTX 3090/4090, L4): Gemma 4 31B Dense (Q4) veya Qwen 3.6 35B-A3B (Q4); vLLM’de chunked prefill + FlashAttention-2.
32 GB (RTX 5090): Blackwell FP4/FP8 çekirdekleriyle Qwen 3.6 35B-A3B (FP8) yerel hızda, maksimum hassasiyette.
48 GB (L40S, RTX 6000 Ada): Qwen 3.6 35B-A3B (FP16) veya Llama 4 Scout (Q4) — kesintisiz kurumsal RAG.
80 GB (H100/A100/H200): Llama 4 Scout (FP8) veya Qwen 3 235B (Q4) tek GPU’da.
2× 80 GB+: Llama 4 Maverick (FP8), Tensor Parallelism (TP=2) ile kurum geneli yüksek hızlı çıkarım.

Bütçe-dostu giriş: Demo ve ilk aşama kurulumlarda ikinci el/yenilenmiş 24 GB sınıfı kartlar (ör. RTX 3090) düşük maliyetli bir başlangıç sunar. Yoğun prompt işleme ve yüksek eşzamanlı trafik barındıran gerçek üretim için yerel FP4/FP8 hızlandırmalı 32 GB sınıfı (RTX 5090), throughput ve donanım ömrü açısından daha sağlam yatırımdır.

Birleşik bellekli mini PC karşılaştırması (128 GB)

Kriter	Mac Studio M4 Max	NVIDIA DGX Spark	AMD Strix Halo
Mimari / API	ARM (macOS) / Metal	ARM (Linux) / CUDA, TensorRT	x86 (Linux/Win) / Vulkan, ROCm
Prompt işleme (prefill)	Orta-yüksek (~120 t/s)	Çok yüksek (~350 t/s, FP8)	Düşük-orta (~85 t/s)
Yazılım olgunluğu	Ollama/MLX/llama.cpp — tak-çalıştır	vLLM/SGLang/NIM — veri merkezi uyumlu	ROCm gelişiyor; en kararlı: Vulkan
Kapalı ağ kurulum zorluğu	Çok düşük	Düşük (DGX OS hazır gelir)	Yüksek (ROCm derleme eforu)

MoE avantajı: Mini PC bant genişliği (~256–273 GB/s) veri merkezi GPU’larına (~3 TB/s) kıyasla kısıtlıdır. MoE modeller (Qwen 3.6 35B-A3B, Gemma 4 26B) sorgu başına parametrelerinin yalnızca küçük bir kısmını (3–3.8B aktif) çalıştırdığından, mini PC’de dense modellere göre ~3 kat daha yüksek hıza ulaşır.

Çıkarım hızı ve eşzamanlılık (Qwen 3.6 35B-A3B, Q4)

Platform	Tekil hız (t/s)	Eşzamanlı kullanıcı	En uygun iş yükü
Mac Studio M4 Max (128 GB)	~35	3–5	Küçük ekip, yerel RAG
NVIDIA DGX Spark (128 GB)	~30	6–8	Sürekli batch (vLLM/SGLang)
RTX 5090 (32 GB)	~48	8–10	Kod asistanı, sohbet botu
NVIDIA H100 (80 GB)	~85	25–30	Kurum geneli merkezi sunucu

Diğer platformlar

AMD Instinct (MI300X/MI325X): vLLM/SGLang ROCm imajları üretim seviyesinde; yüksek VRAM (192–256 GB) çok kullanıcılı senaryolarda NVIDIA’ya en güçlü alternatif.
Intel Gaudi 3: Ham güç yüksek ama açık kaynak ekosistem entegrasyonu henüz tak-çalıştır değil; kapalı ağda yüksek mühendislik eforu — şimdilik önerilmez.
Kümeleme: İki DGX Spark, ConnectX-7 ile birleşince 256 GB VRAM → 405B’ye kadar model. Buna karşın Mac cihazlarını yerel ağda kümelemek (exo vb.) yüksek gecikme/bakım yükü nedeniyle kapalı ağ kurumsal yapıda önerilmez.

Özelleşmiş model aileleri

Kod: Qwen3-Coder (480B-A35B / Flash-30B-A3B) — repo seviyesi bağlam lideri; DeepSeek-Coder-V2; Codestral 22B (kararlı kurumsal seçenek).
Akıl yürütme: DeepSeek-R1 (671B MoE — endüstri lideri, ama ~1350 GB VRAM); QwQ-32B (orta donanımda çalışan Apache 2.0 reasoning); Gemma 4 (Thinking Mode).
Görsel-dil: Qwen 3.6 35B-A3B (Vision) — teknik çizim/şema/PDF tablosu okumada en gelişmiş; Llama 4 Scout (early fusion); Pixtral / InternVL 2.5.
Gömme (embedding): nomic-embed-text-v1.5 (8K bağlam, matryoshka); multilingual-e5-large (Türkçe semantik aramada en kararlı).
Yeniden sıralama (reranker): bge-reranker-v2-m3 — Türkçe uyumu yüksek.

Tavsiye

Platform bağımsız en güçlü Türkçe + RAG adayı: Qwen 3.6 35B-A3B (MoE). 248K geniş bağlam, Türkçe morfeme uygun yüksek tokenizasyon ve “Thinking Preservation” (akıl yürütme geçmişini koruma) sayesinde ardışık döküman sorgularında tutarlılığı korur — bu, KV cache tüketimini ve token başına maliyeti ~%30 düşürür (Mayıs’taki Qwen 3.5 27B tavsiyesinin yerini aldı).

Senaryo	Önerilen
Simülasyon (Mac mini M4 Pro 24 GB)	Gemma 4 E4B (Q4) · Qwen 3.5 2B · Kumru-2B
Üretim — Apple (64 → 512 GB)	Qwen 3.6 35B / Gemma 4 26B → Gemma 4 31B / Llama 4 Scout → Llama 4 Maverick / Qwen 3 235B
Üretim — NVIDIA (24 → 2×141 GB)	Qwen 3.6 35B (FP8) → Llama 4 Scout (FP8) → Llama 4 Maverick / DeepSeek-R1
Mini PC (DGX Spark / Strix Halo)	Qwen 3.6 35B / Gemma 4 26B (FP8)

Platform seçim özeti: Yüksek eşzamanlılık + veri merkezi yazılım yığını gerekiyorsa → NVIDIA GPU (vLLM). Sessiz, kompakt, tek cihaz isteniyorsa → Apple Silicon veya DGX Spark. CUDA/TensorRT şart ama veri merkezi istenmiyor → DGX Spark.

Kurumsal ihtiyaç → çözüm özeti

İhtiyaç	Önerilen model	Min. donanım (NVIDIA / Apple)	Kurulum eforu	Türkçe uygunluk
Bilgi Yönetimi (RAG)	Qwen 3.6 35B-A3B (FP8)	RTX 3090 (24 GB) / Mac mini M4 Pro (32 GB)	Orta	9.5/10
Yazılım (Kod) Desteği	Qwen3-Coder-Flash-30B	RTX 4090 (24 GB) / Mac mini M4 Pro (32 GB)	Düşük	8.5/10
Algoritma / Ar-Ge	QwQ-32B (Instruct)	RTX 4090 (24 GB) / Mac Studio M4 Max (64 GB)	Yüksek	8.0/10
Doküman Otomasyonu (Vision)	Qwen 3.6 35B-A3B (Vision)	RTX 3090 (24 GB) / Mac mini M4 Pro (48 GB)	Yüksek	9.0/10
Müşteri / Saha Desteği	Gemma 4 26B A4B	RTX 3090 (24 GB) / Mac mini M4 Pro (16 GB)	Orta	9.8/10
Veri Analizi / Raporlama	Qwen 3.6 35B-A3B	RTX 4090 (24 GB) / Mac mini M4 Pro (32 GB)	Yüksek	8.8/10

Her ihtiyacın yazılım yığını, veri hazırlığı ve dürüst sınırları için ilgili Platform modülüne bakın. Kuruluma özel donanım ve model kararı Mimari Ön-Analiz’de netleşir.

On-Premise Açık Kaynak LLM Karşılaştırma Raporu — Haziran 2026