🧬 LLM 架构横向对比

Vitriol 3D Viewer 已精确支持的主流大模型架构特性对比

← 返回首页 🎨 进入 3D Viewer ⚖️ 双模 3D 对比
旗舰模型

🐋 DeepSeek-V4-Pro

862B total params / 37B active
MLA MoE Hash Attn
🎨 查看 3D 可视化
多模态 + 混合注意力

🌸 Qwen3.6-27B

27B params / 256K context
Linear+Full Attn Vision M-RoPE
🎨 查看 3D 可视化
SWA + MoE

🌬️ Mixtral 8x7B

47B total / 13B active (top-2 of 8)
SWA MoE GQA
🎨 查看 3D 可视化

📊 架构特性对比矩阵

模型 架构类型 GQA SWA MoE 多模态 特殊特性 3D Viewer
LLaMA 3.1
Meta
LLaMA GQA ✓ 32Q/8KV SwiGLU, RoPE 查看
Mistral 7B
Mistral AI
GQA + SWA ✓ 32Q/8KV ✓ 4096 tokens Sliding Window 查看
Mixtral 8x7B
Mistral AI
SWA + MoE ✓ 32Q/8KV ✓ 8 experts / top-2 Sparse MoE 查看
Qwen 2.5 7B
Alibaba
LLaMA GQA ✓ 28Q/4KV RoPE extended 查看
Qwen 3.6-27B
Alibaba
Hybrid Attn ✓ 24Q/4KV ~ Linear Attn ✓ Vision 27L Linear+Full, M-RoPE 查看
Gemma-2 9B
Google
Gemma ✓ 16Q/8KV ✓ 交替 SWA/Global GeGLU, Pre+Post Norm, Softcap 查看
Phi-3 Mini
Microsoft
Phi-3 ✓ MQA-like ~ 2K/4K Fused QKV 查看
DeepSeek-V4-Pro
DeepSeek
MLA + MoE ~ MLA变体 ✓ 256 experts MLA, Q-LoRA, Hash Attn 查看
MiMo V2.5-Pro
Xiaomi
GQA + MoE ✓ 384 / top-8 Fine-grained MoE 查看

🏆 Benchmark 评测分数

数据来源: 官方技术报告 / Open LLM Leaderboard
模型 MMLU GSM8K HumanEval MATH HellaSwag 相对综合实力
💡 分数单位为 %(准确率);数据截至官方最新发布。"—" 表示暂无公开数据。 横向柱条为相对可视化(每列按列内最大值归一化)。

📚 架构术语速查

GQA Grouped Query Attention — 多个 Q 头共享 K/V 头,大幅减少 KV cache
SWA Sliding Window Attention — 每 token 只关注最近 W 个 tokens,O(n·W)
MoE Mixture of Experts — 每 token 仅激活 top-K 个专家,稀疏计算
MLA Multi-head Latent Attention — DeepSeek 的低秩 KV 压缩
SwiGLU/GeGLU Gated Linear Units — FFN 中的门控激活
RoPE / M-RoPE Rotary Position Encoding — 旋转位置编码(M 支持多模态)

🎯 3D Viewer 核心功能

✅ 从 HuggingFace API 实时拉取精确参数数量
✅ 按模型类型精准渲染不同架构(MLA / MoE / SWA / Linear Attn)
✅ 推理演示动画(阶段图标 + 颜色编码 + KV Cache)
✅ 9 种架构徽章自动识别(LLaMA/Mistral/Mixtral/Qwen3.5/Gemma/Phi/DeepSeek/MiMo)
✅ 模型预设快速切换(14+ 常用模型)
✅ 侧边栏导航 + 层级折叠
✅ 一键导出 PNG / HTML
Vitriol · LLM Quantization & NAS Framework · GitHub