CHIMERA AI Dokümanlar
TR EN
Benchmark Raporu

On-Premise Açık Kaynak LLM Karşılaştırma Raporu — Haziran 2026

Geçerlilik: Haziran 2026

Bilgi geçerlilik tarihi: Haziran 2026. Bu rapor, kurum sınırı içinde (on-premise, kapalı ağ) çalıştırılabilen, ticari kullanıma uygun açık ağırlıklı dil modellerini ve bunların donanım eşleşmelerini karşılaştırır. Veriler üretici teknik raporlarından, LMSYS Chatbot Arena (lmarena.ai) ve LiveCodeBench gibi bağımsız test kaynaklarından derlenmiştir. Modeller ve sürümler hızla değişir; kuruluma özel öneri her zaman Mimari Ön-Analiz’de, kurumun senaryosu ve veri hacmiyle belirlenir.

Bu sayfa bilgilendirme amaçlıdır; bağlayıcı bir teklif değildir. Modül eşleşmeleri için Platform modüllerine bakın.

Bu ay ne değişti (Mayıs → Haziran)

  • NVIDIA DGX Spark (GB10 Grace Blackwell): 128 GB birleşik bellek + 273 GB/s bant genişliği + CUDA/TensorRT-LLM ekosistemiyle, birleşik bellekte Apple Silicon’un tekelini kıran kurumsal mini-PC sınıfı bir platform.
  • Gemma 4 ve Qwen 3.6 optimizasyonları: Gemma 4 ailesi (31B Dense, 26B A4B MoE, E4B, E2B) ve Qwen 3.6-35B-A3B MoE; vLLM, SGLang ve llama.cpp üzerinde kararlı optimize çekirdek desteğine kavuştu.
  • AMD Strix Halo: Birleşik bellekli sistemlerde llama.cpp’in Vulkan arka ucu, ROCm’e kıyasla daha kararlı ve hızlı sonuç veriyor.
  • Lisans: Llama 4 Scout/Maverick, Llama 4 Topluluk Lisansı kapsamında — aylık 700M aktif kullanıcı altındaki kurumlarda ücretsiz ticari dağıtım onaylı.

Ana karşılaştırma tablosu

Toplam parametre boyutuna göre gruplanmış, kapalı ağda çalıştırılabilen güncel açık ağırlıklı varyantlar.

ModelGeliştiriciMimariParametre (top./aktif)BağlamLisansMin VRAM (Q4)Türkçe
Küçük (< 10B)
Gemma 4 E2BGoogleDense (PLE)5.1B / 2.3B128KApache 2.04 GBVar
Gemma 4 E4BGoogleDense (PLE)8.0B / 4.5B128KApache 2.06 GBVar
Qwen 3.5 2BAlibabaDense2.0B262KApache 2.02 GBVar
Kumru-2BTurker et al.Dense2.0B8KApache 2.02 GBTürkçe özel
Orta (10–40B)
Gemma 4 26B A4BGoogleMoE25.2B / 3.8B256KApache 2.016 GBVar
Gemma 4 31B DenseGoogleDense30.7B256KApache 2.020 GBVar
Qwen 3.6 35B-A3BAlibabaMoE35.0B / 3.0B262KApache 2.024 GBVar
Qwen 3.5 27BAlibabaDense27.0B262KApache 2.018 GBVar
QwQ-32BAlibabaDense32.0B128KApache 2.022 GBVar
Büyük (40–150B)
Llama 4 ScoutMetaMoE109B / 17B10MLlama 4 Community72 GBVar
Qwen 3 30B-A3BAlibabaMoE30B / 3B262KApache 2.020 GBVar
Çok büyük (> 150B)
Llama 4 MaverickMetaMoE400B / 17B1MLlama 4 Community256 GBVar
Qwen 3 235B-A22BAlibabaMoE235B / 22B262KApache 2.0144 GBVar

Yetenek sıralaması (benchmark)

Akademik ve endüstriyel standartlar; resmi hizalanmış (instruction-tuned) sürümler.

ModelAkıl Yürütme (MMLU-Pro)Bilim & Mat. (GPQA / AIME)Kod (LiveCodeBench)Çok Dilli (MMMLU)Arena Elo
Llama 4 Maverick89.4%88.9% / 95.0%82.5%91.2%1362
Gemma 4 31B Dense85.2%84.3% / 89.2%80.0%88.4%1312
Qwen 3.6 35B-A3B85.2%86.0% / 92.7%80.4%89.2%1308
QwQ-32B88.2%89.1% / 93.1%84.2%84.6%1302
Llama 4 Scout84.1%79.5% / 88.0%74.3%85.6%1298
Qwen 3.5 27B86.1%85.5% / 92.6%80.7%88.2%1294
Gemma 4 26B A4B82.6%82.3% / 88.3%77.1%86.3%1284
Gemma 4 E4B69.4%58.6% / 42.5%52.0%76.6%1195
Gemma 4 E2B60.0%43.4% / 37.5%44.0%67.4%1150

Türkçe performansı

Türkçenin bitişken (agglutinatif) ve morfolojik açıdan zengin yapısı, modellerin kelimeleri anlamlı birimlere ayırma yeteneğini doğrudan sınar. İngilizce ağırlıklı tokenizer’lar Türkçe kelimeleri aşırı küçük parçalara böler (“yüksek fragmantasyon”); bu, bağlam penceresini gereksiz doldurur, hızı düşürür ve uzun cümlelerde anlam kaymasına yol açar.

  • TR-MMLU: Makine çevirisi hatalarından arındırılmış, yerel sınavlardan derlenen ~6.200 soruluk doğrulama kümesi. Başarının en güçlü göstergesi parametre boyutu değil, morfem düzeyinde Türkçe koruma oranıdır (korelasyon katsayısı ≈ +0.90).
  • Geniş tokenizer avantajı: Gemma 4 (262K) ve Qwen 3.5/3.6 (248K) sözlükleri Türkçe morfem sınırlarını yüksek doğrulukla tanır. Gemma 4 31B ve Qwen 3.6 35B, TR-MMLU/MMMLU’da %84–88 bandında başarı yakalar.
  • Yerel alternatifler: Yerel ince ayarlı modeller (Trendyol-LLM, Kumru-2B) sınırlı donanımda basit Türkçe komutları çok iyi işler; ancak çok adımlı RAG ve karmaşık çıkarımda küresel açık modellerin gerisinde kalır.

Saha test edilen yapısal sorunlar: uzun cümlelerde ek bozulmaları (-da/-de, -a/-e); aşırı sıkıştırmada (Q4 altı) Türkçe diakritiklerin (ş, ç, ğ, ü, ö, ı) bozulması — bu yüzden Q4_K_M altına inilmez; yalnız dar Türkçe veriyle fine-tune’da genel yetenek kaybı (katastrofik unutma) riski.

Donanım eşleşmesi

Apple Silicon (birleşik bellek)

Birleşik belleğin en fazla %50–60’ı LLM çıkarım bütçesi olarak ayrılmalıdır.

DonanımLLM bütçesiÖnerilen model & sıkıştırmaTahmini hız (Q4)
Mac mini M4 / M4 Pro (16–24 GB)9–14 GBGemma 4 E4B (Q4_K_M) / Qwen 3.5 2B (FP16)42–48 / 75–85 t/s
Mac mini M4 Pro (32–64 GB)18–38 GBGemma 4 26B A4B MoE / Qwen 3.6 35B-A3B (Q4_K_M)32–38 / 22–28 t/s
Mac Studio M4 Max (64–128 GB)38–76 GBGemma 4 31B Dense (Q8) / Llama 4 Scout (Q4)45–55 / 18–24 t/s
Mac Studio M3 Ultra (192–512 GB)115–300 GBLlama 4 Maverick / DeepSeek-R1 (Q4)24–30 / 12–15 t/s

NVIDIA GPU (dedicated VRAM)

Yüksek eşzamanlı kullanıcı (concurrency) gerektiren üretim ortamlarının tercihi; vLLM / SGLang / TensorRT-LLM ile.

  • 24 GB (RTX 3090/4090, L4): Gemma 4 31B Dense (Q4) veya Qwen 3.6 35B-A3B (Q4); vLLM’de chunked prefill + FlashAttention-2.
  • 32 GB (RTX 5090): Blackwell FP4/FP8 çekirdekleriyle Qwen 3.6 35B-A3B (FP8) yerel hızda, maksimum hassasiyette.
  • 48 GB (L40S, RTX 6000 Ada): Qwen 3.6 35B-A3B (FP16) veya Llama 4 Scout (Q4) — kesintisiz kurumsal RAG.
  • 80 GB (H100/A100/H200): Llama 4 Scout (FP8) veya Qwen 3 235B (Q4) tek GPU’da.
  • 2× 80 GB+: Llama 4 Maverick (FP8), Tensor Parallelism (TP=2) ile kurum geneli yüksek hızlı çıkarım.

Bütçe-dostu giriş: Demo ve ilk aşama kurulumlarda ikinci el/yenilenmiş 24 GB sınıfı kartlar (ör. RTX 3090) düşük maliyetli bir başlangıç sunar. Yoğun prompt işleme ve yüksek eşzamanlı trafik barındıran gerçek üretim için yerel FP4/FP8 hızlandırmalı 32 GB sınıfı (RTX 5090), throughput ve donanım ömrü açısından daha sağlam yatırımdır.

Birleşik bellekli mini PC karşılaştırması (128 GB)

KriterMac Studio M4 MaxNVIDIA DGX SparkAMD Strix Halo
Mimari / APIARM (macOS) / MetalARM (Linux) / CUDA, TensorRTx86 (Linux/Win) / Vulkan, ROCm
Prompt işleme (prefill)Orta-yüksek (~120 t/s)Çok yüksek (~350 t/s, FP8)Düşük-orta (~85 t/s)
Yazılım olgunluğuOllama/MLX/llama.cpp — tak-çalıştırvLLM/SGLang/NIM — veri merkezi uyumluROCm gelişiyor; en kararlı: Vulkan
Kapalı ağ kurulum zorluğuÇok düşükDüşük (DGX OS hazır gelir)Yüksek (ROCm derleme eforu)

MoE avantajı: Mini PC bant genişliği (~256–273 GB/s) veri merkezi GPU’larına (~3 TB/s) kıyasla kısıtlıdır. MoE modeller (Qwen 3.6 35B-A3B, Gemma 4 26B) sorgu başına parametrelerinin yalnızca küçük bir kısmını (3–3.8B aktif) çalıştırdığından, mini PC’de dense modellere göre ~3 kat daha yüksek hıza ulaşır.

Çıkarım hızı ve eşzamanlılık (Qwen 3.6 35B-A3B, Q4)

PlatformTekil hız (t/s)Eşzamanlı kullanıcıEn uygun iş yükü
Mac Studio M4 Max (128 GB)~353–5Küçük ekip, yerel RAG
NVIDIA DGX Spark (128 GB)~306–8Sürekli batch (vLLM/SGLang)
RTX 5090 (32 GB)~488–10Kod asistanı, sohbet botu
NVIDIA H100 (80 GB)~8525–30Kurum geneli merkezi sunucu

Diğer platformlar

  • AMD Instinct (MI300X/MI325X): vLLM/SGLang ROCm imajları üretim seviyesinde; yüksek VRAM (192–256 GB) çok kullanıcılı senaryolarda NVIDIA’ya en güçlü alternatif.
  • Intel Gaudi 3: Ham güç yüksek ama açık kaynak ekosistem entegrasyonu henüz tak-çalıştır değil; kapalı ağda yüksek mühendislik eforu — şimdilik önerilmez.
  • Kümeleme: İki DGX Spark, ConnectX-7 ile birleşince 256 GB VRAM → 405B’ye kadar model. Buna karşın Mac cihazlarını yerel ağda kümelemek (exo vb.) yüksek gecikme/bakım yükü nedeniyle kapalı ağ kurumsal yapıda önerilmez.

Özelleşmiş model aileleri

  • Kod: Qwen3-Coder (480B-A35B / Flash-30B-A3B) — repo seviyesi bağlam lideri; DeepSeek-Coder-V2; Codestral 22B (kararlı kurumsal seçenek).
  • Akıl yürütme: DeepSeek-R1 (671B MoE — endüstri lideri, ama ~1350 GB VRAM); QwQ-32B (orta donanımda çalışan Apache 2.0 reasoning); Gemma 4 (Thinking Mode).
  • Görsel-dil: Qwen 3.6 35B-A3B (Vision) — teknik çizim/şema/PDF tablosu okumada en gelişmiş; Llama 4 Scout (early fusion); Pixtral / InternVL 2.5.
  • Gömme (embedding): nomic-embed-text-v1.5 (8K bağlam, matryoshka); multilingual-e5-large (Türkçe semantik aramada en kararlı).
  • Yeniden sıralama (reranker): bge-reranker-v2-m3 — Türkçe uyumu yüksek.

Tavsiye

Platform bağımsız en güçlü Türkçe + RAG adayı: Qwen 3.6 35B-A3B (MoE). 248K geniş bağlam, Türkçe morfeme uygun yüksek tokenizasyon ve “Thinking Preservation” (akıl yürütme geçmişini koruma) sayesinde ardışık döküman sorgularında tutarlılığı korur — bu, KV cache tüketimini ve token başına maliyeti ~%30 düşürür (Mayıs’taki Qwen 3.5 27B tavsiyesinin yerini aldı).

SenaryoÖnerilen
Simülasyon (Mac mini M4 Pro 24 GB)Gemma 4 E4B (Q4) · Qwen 3.5 2B · Kumru-2B
Üretim — Apple (64 → 512 GB)Qwen 3.6 35B / Gemma 4 26B → Gemma 4 31B / Llama 4 Scout → Llama 4 Maverick / Qwen 3 235B
Üretim — NVIDIA (24 → 2×141 GB)Qwen 3.6 35B (FP8) → Llama 4 Scout (FP8) → Llama 4 Maverick / DeepSeek-R1
Mini PC (DGX Spark / Strix Halo)Qwen 3.6 35B / Gemma 4 26B (FP8)

Platform seçim özeti: Yüksek eşzamanlılık + veri merkezi yazılım yığını gerekiyorsa → NVIDIA GPU (vLLM). Sessiz, kompakt, tek cihaz isteniyorsa → Apple Silicon veya DGX Spark. CUDA/TensorRT şart ama veri merkezi istenmiyor → DGX Spark.

Kurumsal ihtiyaç → çözüm özeti

İhtiyaçÖnerilen modelMin. donanım (NVIDIA / Apple)Kurulum eforuTürkçe uygunluk
Bilgi Yönetimi (RAG)Qwen 3.6 35B-A3B (FP8)RTX 3090 (24 GB) / Mac mini M4 Pro (32 GB)Orta9.5/10
Yazılım (Kod) DesteğiQwen3-Coder-Flash-30BRTX 4090 (24 GB) / Mac mini M4 Pro (32 GB)Düşük8.5/10
Algoritma / Ar-GeQwQ-32B (Instruct)RTX 4090 (24 GB) / Mac Studio M4 Max (64 GB)Yüksek8.0/10
Doküman Otomasyonu (Vision)Qwen 3.6 35B-A3B (Vision)RTX 3090 (24 GB) / Mac mini M4 Pro (48 GB)Yüksek9.0/10
Müşteri / Saha DesteğiGemma 4 26B A4BRTX 3090 (24 GB) / Mac mini M4 Pro (16 GB)Orta9.8/10
Veri Analizi / RaporlamaQwen 3.6 35B-A3BRTX 4090 (24 GB) / Mac mini M4 Pro (32 GB)Yüksek8.8/10

Her ihtiyacın yazılım yığını, veri hazırlığı ve dürüst sınırları için ilgili Platform modülüne bakın. Kuruluma özel donanım ve model kararı Mimari Ön-Analiz’de netleşir.