Bilgi geçerlilik tarihi: Haziran 2026. Bu rapor, kurum sınırı içinde (on-premise, kapalı ağ) çalıştırılabilen, ticari kullanıma uygun açık ağırlıklı dil modellerini ve bunların donanım eşleşmelerini karşılaştırır. Veriler üretici teknik raporlarından, LMSYS Chatbot Arena (lmarena.ai) ve LiveCodeBench gibi bağımsız test kaynaklarından derlenmiştir. Modeller ve sürümler hızla değişir; kuruluma özel öneri her zaman Mimari Ön-Analiz’de, kurumun senaryosu ve veri hacmiyle belirlenir.
Bu sayfa bilgilendirme amaçlıdır; bağlayıcı bir teklif değildir. Modül eşleşmeleri için Platform modüllerine bakın.
Bu ay ne değişti (Mayıs → Haziran)
- NVIDIA DGX Spark (GB10 Grace Blackwell): 128 GB birleşik bellek + 273 GB/s bant genişliği + CUDA/TensorRT-LLM ekosistemiyle, birleşik bellekte Apple Silicon’un tekelini kıran kurumsal mini-PC sınıfı bir platform.
- Gemma 4 ve Qwen 3.6 optimizasyonları: Gemma 4 ailesi (31B Dense, 26B A4B MoE, E4B, E2B) ve Qwen 3.6-35B-A3B MoE; vLLM, SGLang ve llama.cpp üzerinde kararlı optimize çekirdek desteğine kavuştu.
- AMD Strix Halo: Birleşik bellekli sistemlerde llama.cpp’in Vulkan arka ucu, ROCm’e kıyasla daha kararlı ve hızlı sonuç veriyor.
- Lisans: Llama 4 Scout/Maverick, Llama 4 Topluluk Lisansı kapsamında — aylık 700M aktif kullanıcı altındaki kurumlarda ücretsiz ticari dağıtım onaylı.
Ana karşılaştırma tablosu
Toplam parametre boyutuna göre gruplanmış, kapalı ağda çalıştırılabilen güncel açık ağırlıklı varyantlar.
| Model | Geliştirici | Mimari | Parametre (top./aktif) | Bağlam | Lisans | Min VRAM (Q4) | Türkçe |
|---|---|---|---|---|---|---|---|
| Küçük (< 10B) | |||||||
| Gemma 4 E2B | Dense (PLE) | 5.1B / 2.3B | 128K | Apache 2.0 | 4 GB | Var | |
| Gemma 4 E4B | Dense (PLE) | 8.0B / 4.5B | 128K | Apache 2.0 | 6 GB | Var | |
| Qwen 3.5 2B | Alibaba | Dense | 2.0B | 262K | Apache 2.0 | 2 GB | Var |
| Kumru-2B | Turker et al. | Dense | 2.0B | 8K | Apache 2.0 | 2 GB | Türkçe özel |
| Orta (10–40B) | |||||||
| Gemma 4 26B A4B | MoE | 25.2B / 3.8B | 256K | Apache 2.0 | 16 GB | Var | |
| Gemma 4 31B Dense | Dense | 30.7B | 256K | Apache 2.0 | 20 GB | Var | |
| Qwen 3.6 35B-A3B | Alibaba | MoE | 35.0B / 3.0B | 262K | Apache 2.0 | 24 GB | Var |
| Qwen 3.5 27B | Alibaba | Dense | 27.0B | 262K | Apache 2.0 | 18 GB | Var |
| QwQ-32B | Alibaba | Dense | 32.0B | 128K | Apache 2.0 | 22 GB | Var |
| Büyük (40–150B) | |||||||
| Llama 4 Scout | Meta | MoE | 109B / 17B | 10M | Llama 4 Community | 72 GB | Var |
| Qwen 3 30B-A3B | Alibaba | MoE | 30B / 3B | 262K | Apache 2.0 | 20 GB | Var |
| Çok büyük (> 150B) | |||||||
| Llama 4 Maverick | Meta | MoE | 400B / 17B | 1M | Llama 4 Community | 256 GB | Var |
| Qwen 3 235B-A22B | Alibaba | MoE | 235B / 22B | 262K | Apache 2.0 | 144 GB | Var |
Yetenek sıralaması (benchmark)
Akademik ve endüstriyel standartlar; resmi hizalanmış (instruction-tuned) sürümler.
| Model | Akıl Yürütme (MMLU-Pro) | Bilim & Mat. (GPQA / AIME) | Kod (LiveCodeBench) | Çok Dilli (MMMLU) | Arena Elo |
|---|---|---|---|---|---|
| Llama 4 Maverick | 89.4% | 88.9% / 95.0% | 82.5% | 91.2% | 1362 |
| Gemma 4 31B Dense | 85.2% | 84.3% / 89.2% | 80.0% | 88.4% | 1312 |
| Qwen 3.6 35B-A3B | 85.2% | 86.0% / 92.7% | 80.4% | 89.2% | 1308 |
| QwQ-32B | 88.2% | 89.1% / 93.1% | 84.2% | 84.6% | 1302 |
| Llama 4 Scout | 84.1% | 79.5% / 88.0% | 74.3% | 85.6% | 1298 |
| Qwen 3.5 27B | 86.1% | 85.5% / 92.6% | 80.7% | 88.2% | 1294 |
| Gemma 4 26B A4B | 82.6% | 82.3% / 88.3% | 77.1% | 86.3% | 1284 |
| Gemma 4 E4B | 69.4% | 58.6% / 42.5% | 52.0% | 76.6% | 1195 |
| Gemma 4 E2B | 60.0% | 43.4% / 37.5% | 44.0% | 67.4% | 1150 |
Türkçe performansı
Türkçenin bitişken (agglutinatif) ve morfolojik açıdan zengin yapısı, modellerin kelimeleri anlamlı birimlere ayırma yeteneğini doğrudan sınar. İngilizce ağırlıklı tokenizer’lar Türkçe kelimeleri aşırı küçük parçalara böler (“yüksek fragmantasyon”); bu, bağlam penceresini gereksiz doldurur, hızı düşürür ve uzun cümlelerde anlam kaymasına yol açar.
- TR-MMLU: Makine çevirisi hatalarından arındırılmış, yerel sınavlardan derlenen ~6.200 soruluk doğrulama kümesi. Başarının en güçlü göstergesi parametre boyutu değil, morfem düzeyinde Türkçe koruma oranıdır (korelasyon katsayısı ≈ +0.90).
- Geniş tokenizer avantajı: Gemma 4 (262K) ve Qwen 3.5/3.6 (248K) sözlükleri Türkçe morfem sınırlarını yüksek doğrulukla tanır. Gemma 4 31B ve Qwen 3.6 35B, TR-MMLU/MMMLU’da %84–88 bandında başarı yakalar.
- Yerel alternatifler: Yerel ince ayarlı modeller (Trendyol-LLM, Kumru-2B) sınırlı donanımda basit Türkçe komutları çok iyi işler; ancak çok adımlı RAG ve karmaşık çıkarımda küresel açık modellerin gerisinde kalır.
Saha test edilen yapısal sorunlar: uzun cümlelerde ek bozulmaları (-da/-de, -a/-e); aşırı sıkıştırmada (Q4 altı) Türkçe diakritiklerin (ş, ç, ğ, ü, ö, ı) bozulması — bu yüzden Q4_K_M altına inilmez; yalnız dar Türkçe veriyle fine-tune’da genel yetenek kaybı (katastrofik unutma) riski.
Donanım eşleşmesi
Apple Silicon (birleşik bellek)
Birleşik belleğin en fazla %50–60’ı LLM çıkarım bütçesi olarak ayrılmalıdır.
| Donanım | LLM bütçesi | Önerilen model & sıkıştırma | Tahmini hız (Q4) |
|---|---|---|---|
| Mac mini M4 / M4 Pro (16–24 GB) | 9–14 GB | Gemma 4 E4B (Q4_K_M) / Qwen 3.5 2B (FP16) | 42–48 / 75–85 t/s |
| Mac mini M4 Pro (32–64 GB) | 18–38 GB | Gemma 4 26B A4B MoE / Qwen 3.6 35B-A3B (Q4_K_M) | 32–38 / 22–28 t/s |
| Mac Studio M4 Max (64–128 GB) | 38–76 GB | Gemma 4 31B Dense (Q8) / Llama 4 Scout (Q4) | 45–55 / 18–24 t/s |
| Mac Studio M3 Ultra (192–512 GB) | 115–300 GB | Llama 4 Maverick / DeepSeek-R1 (Q4) | 24–30 / 12–15 t/s |
NVIDIA GPU (dedicated VRAM)
Yüksek eşzamanlı kullanıcı (concurrency) gerektiren üretim ortamlarının tercihi; vLLM / SGLang / TensorRT-LLM ile.
- 24 GB (RTX 3090/4090, L4): Gemma 4 31B Dense (Q4) veya Qwen 3.6 35B-A3B (Q4); vLLM’de chunked prefill + FlashAttention-2.
- 32 GB (RTX 5090): Blackwell FP4/FP8 çekirdekleriyle Qwen 3.6 35B-A3B (FP8) yerel hızda, maksimum hassasiyette.
- 48 GB (L40S, RTX 6000 Ada): Qwen 3.6 35B-A3B (FP16) veya Llama 4 Scout (Q4) — kesintisiz kurumsal RAG.
- 80 GB (H100/A100/H200): Llama 4 Scout (FP8) veya Qwen 3 235B (Q4) tek GPU’da.
- 2× 80 GB+: Llama 4 Maverick (FP8), Tensor Parallelism (TP=2) ile kurum geneli yüksek hızlı çıkarım.
Bütçe-dostu giriş: Demo ve ilk aşama kurulumlarda ikinci el/yenilenmiş 24 GB sınıfı kartlar (ör. RTX 3090) düşük maliyetli bir başlangıç sunar. Yoğun prompt işleme ve yüksek eşzamanlı trafik barındıran gerçek üretim için yerel FP4/FP8 hızlandırmalı 32 GB sınıfı (RTX 5090), throughput ve donanım ömrü açısından daha sağlam yatırımdır.
Birleşik bellekli mini PC karşılaştırması (128 GB)
| Kriter | Mac Studio M4 Max | NVIDIA DGX Spark | AMD Strix Halo |
|---|---|---|---|
| Mimari / API | ARM (macOS) / Metal | ARM (Linux) / CUDA, TensorRT | x86 (Linux/Win) / Vulkan, ROCm |
| Prompt işleme (prefill) | Orta-yüksek (~120 t/s) | Çok yüksek (~350 t/s, FP8) | Düşük-orta (~85 t/s) |
| Yazılım olgunluğu | Ollama/MLX/llama.cpp — tak-çalıştır | vLLM/SGLang/NIM — veri merkezi uyumlu | ROCm gelişiyor; en kararlı: Vulkan |
| Kapalı ağ kurulum zorluğu | Çok düşük | Düşük (DGX OS hazır gelir) | Yüksek (ROCm derleme eforu) |
MoE avantajı: Mini PC bant genişliği (~256–273 GB/s) veri merkezi GPU’larına (~3 TB/s) kıyasla kısıtlıdır. MoE modeller (Qwen 3.6 35B-A3B, Gemma 4 26B) sorgu başına parametrelerinin yalnızca küçük bir kısmını (3–3.8B aktif) çalıştırdığından, mini PC’de dense modellere göre ~3 kat daha yüksek hıza ulaşır.
Çıkarım hızı ve eşzamanlılık (Qwen 3.6 35B-A3B, Q4)
| Platform | Tekil hız (t/s) | Eşzamanlı kullanıcı | En uygun iş yükü |
|---|---|---|---|
| Mac Studio M4 Max (128 GB) | ~35 | 3–5 | Küçük ekip, yerel RAG |
| NVIDIA DGX Spark (128 GB) | ~30 | 6–8 | Sürekli batch (vLLM/SGLang) |
| RTX 5090 (32 GB) | ~48 | 8–10 | Kod asistanı, sohbet botu |
| NVIDIA H100 (80 GB) | ~85 | 25–30 | Kurum geneli merkezi sunucu |
Diğer platformlar
- AMD Instinct (MI300X/MI325X): vLLM/SGLang ROCm imajları üretim seviyesinde; yüksek VRAM (192–256 GB) çok kullanıcılı senaryolarda NVIDIA’ya en güçlü alternatif.
- Intel Gaudi 3: Ham güç yüksek ama açık kaynak ekosistem entegrasyonu henüz tak-çalıştır değil; kapalı ağda yüksek mühendislik eforu — şimdilik önerilmez.
- Kümeleme: İki DGX Spark, ConnectX-7 ile birleşince 256 GB VRAM → 405B’ye kadar model. Buna karşın Mac cihazlarını yerel ağda kümelemek (exo vb.) yüksek gecikme/bakım yükü nedeniyle kapalı ağ kurumsal yapıda önerilmez.
Özelleşmiş model aileleri
- Kod: Qwen3-Coder (480B-A35B / Flash-30B-A3B) — repo seviyesi bağlam lideri; DeepSeek-Coder-V2; Codestral 22B (kararlı kurumsal seçenek).
- Akıl yürütme: DeepSeek-R1 (671B MoE — endüstri lideri, ama ~1350 GB VRAM); QwQ-32B (orta donanımda çalışan Apache 2.0 reasoning); Gemma 4 (Thinking Mode).
- Görsel-dil: Qwen 3.6 35B-A3B (Vision) — teknik çizim/şema/PDF tablosu okumada en gelişmiş; Llama 4 Scout (early fusion); Pixtral / InternVL 2.5.
- Gömme (embedding): nomic-embed-text-v1.5 (8K bağlam, matryoshka); multilingual-e5-large (Türkçe semantik aramada en kararlı).
- Yeniden sıralama (reranker): bge-reranker-v2-m3 — Türkçe uyumu yüksek.
Tavsiye
Platform bağımsız en güçlü Türkçe + RAG adayı: Qwen 3.6 35B-A3B (MoE). 248K geniş bağlam, Türkçe morfeme uygun yüksek tokenizasyon ve “Thinking Preservation” (akıl yürütme geçmişini koruma) sayesinde ardışık döküman sorgularında tutarlılığı korur — bu, KV cache tüketimini ve token başına maliyeti ~%30 düşürür (Mayıs’taki Qwen 3.5 27B tavsiyesinin yerini aldı).
| Senaryo | Önerilen |
|---|---|
| Simülasyon (Mac mini M4 Pro 24 GB) | Gemma 4 E4B (Q4) · Qwen 3.5 2B · Kumru-2B |
| Üretim — Apple (64 → 512 GB) | Qwen 3.6 35B / Gemma 4 26B → Gemma 4 31B / Llama 4 Scout → Llama 4 Maverick / Qwen 3 235B |
| Üretim — NVIDIA (24 → 2×141 GB) | Qwen 3.6 35B (FP8) → Llama 4 Scout (FP8) → Llama 4 Maverick / DeepSeek-R1 |
| Mini PC (DGX Spark / Strix Halo) | Qwen 3.6 35B / Gemma 4 26B (FP8) |
Platform seçim özeti: Yüksek eşzamanlılık + veri merkezi yazılım yığını gerekiyorsa → NVIDIA GPU (vLLM). Sessiz, kompakt, tek cihaz isteniyorsa → Apple Silicon veya DGX Spark. CUDA/TensorRT şart ama veri merkezi istenmiyor → DGX Spark.
Kurumsal ihtiyaç → çözüm özeti
| İhtiyaç | Önerilen model | Min. donanım (NVIDIA / Apple) | Kurulum eforu | Türkçe uygunluk |
|---|---|---|---|---|
| Bilgi Yönetimi (RAG) | Qwen 3.6 35B-A3B (FP8) | RTX 3090 (24 GB) / Mac mini M4 Pro (32 GB) | Orta | 9.5/10 |
| Yazılım (Kod) Desteği | Qwen3-Coder-Flash-30B | RTX 4090 (24 GB) / Mac mini M4 Pro (32 GB) | Düşük | 8.5/10 |
| Algoritma / Ar-Ge | QwQ-32B (Instruct) | RTX 4090 (24 GB) / Mac Studio M4 Max (64 GB) | Yüksek | 8.0/10 |
| Doküman Otomasyonu (Vision) | Qwen 3.6 35B-A3B (Vision) | RTX 3090 (24 GB) / Mac mini M4 Pro (48 GB) | Yüksek | 9.0/10 |
| Müşteri / Saha Desteği | Gemma 4 26B A4B | RTX 3090 (24 GB) / Mac mini M4 Pro (16 GB) | Orta | 9.8/10 |
| Veri Analizi / Raporlama | Qwen 3.6 35B-A3B | RTX 4090 (24 GB) / Mac mini M4 Pro (32 GB) | Yüksek | 8.8/10 |
Her ihtiyacın yazılım yığını, veri hazırlığı ve dürüst sınırları için ilgili Platform modülüne bakın. Kuruluma özel donanım ve model kararı Mimari Ön-Analiz’de netleşir.