🧬 LLM 架构横向对比

Vitriol 3D Viewer 已精确支持的主流大模型架构特性对比

← 返回首页 🎨 进入 3D Viewer ⚖️ 双模 3D 对比

旗舰模型

862B total params / 37B active

MLA MoE Hash Attn

多模态 + 混合注意力

27B params / 256K context

Linear+Full Attn Vision M-RoPE

SWA + MoE

47B total / 13B active (top-2 of 8)

SWA MoE GQA

📊 架构特性对比矩阵

模型	架构类型	GQA	SWA	MoE	多模态	特殊特性	3D Viewer
LLaMA 3.1 Meta	LLaMA GQA	✓ 32Q/8KV	—	—	—	SwiGLU, RoPE	查看
Mistral 7B Mistral AI	GQA + SWA	✓ 32Q/8KV	✓ 4096 tokens	—	—	Sliding Window	查看
Mixtral 8x7B Mistral AI	SWA + MoE	✓ 32Q/8KV	✓	✓ 8 experts / top-2	—	Sparse MoE	查看
Qwen 2.5 7B Alibaba	LLaMA GQA	✓ 28Q/4KV	—	—	—	RoPE extended	查看
Qwen 3.6-27B Alibaba	Hybrid Attn	✓ 24Q/4KV	~ Linear Attn	—	✓ Vision 27L	Linear+Full, M-RoPE	查看
Gemma-2 9B Google	Gemma	✓ 16Q/8KV	✓ 交替 SWA/Global	—	—	GeGLU, Pre+Post Norm, Softcap	查看
Phi-3 Mini Microsoft	Phi-3	✓ MQA-like	~ 2K/4K	—	—	Fused QKV	查看
DeepSeek-V4-Pro DeepSeek	MLA + MoE	~ MLA变体	—	✓ 256 experts	—	MLA, Q-LoRA, Hash Attn	查看
MiMo V2.5-Pro Xiaomi	GQA + MoE	✓	—	✓ 384 / top-8	—	Fine-grained MoE	查看

数据来源: 官方技术报告 / Open LLM Leaderboard

模型	MMLU	GSM8K	HumanEval	MATH	HellaSwag	相对综合实力

💡 分数单位为 %（准确率）；数据截至官方最新发布。"—" 表示暂无公开数据。横向柱条为相对可视化（每列按列内最大值归一化）。

GQA Grouped Query Attention — 多个 Q 头共享 K/V 头，大幅减少 KV cache

SWA Sliding Window Attention — 每 token 只关注最近 W 个 tokens，O(n·W)

MoE Mixture of Experts — 每 token 仅激活 top-K 个专家，稀疏计算

MLA Multi-head Latent Attention — DeepSeek 的低秩 KV 压缩

SwiGLU/GeGLU Gated Linear Units — FFN 中的门控激活

RoPE / M-RoPE Rotary Position Encoding — 旋转位置编码（M 支持多模态）

✅ 从 HuggingFace API 实时拉取精确参数数量

✅ 按模型类型精准渲染不同架构（MLA / MoE / SWA / Linear Attn）

✅ 推理演示动画（阶段图标 + 颜色编码 + KV Cache）

✅ 9 种架构徽章自动识别（LLaMA/Mistral/Mixtral/Qwen3.5/Gemma/Phi/DeepSeek/MiMo）

✅ 模型预设快速切换（14+ 常用模型）

✅ 侧边栏导航 + 层级折叠

✅ 一键导出 PNG / HTML

Vitriol · LLM Quantization & NAS Framework · GitHub