Models Papers PRs Welcome
PRs Welcome

🎴 最全面的大语言模型索引项目 — 模型卡牌屋 (House of Model Cards) — 使用扑克牌花色体系对 AI 模型进行创意分类,涵盖从 GPT-1 到最新开源模型的完整调研,包含技术细节、性能指标、部署方式与官方资源。


📊 核心统计

指标数量说明
🃏 模型系列200+涵盖国内外主流厂商
📄 arXiv 论文230+ 条2017-2026 年核心论文(含对齐技术/Agent综述)
💻 GitHub 仓库152 个官方代码链接
🤗 HuggingFace 链接162 个模型权重下载
🏢 厂商/组织25+全球主要 AI 实验室
📏 Benchmark30+全方位评测基准覆盖
🛡️ 安全框架6 类攻击类型 + 防御体系
🔧 微调工具15+从数据到部署的全链路
🏭 行业场景10+真实落地应用案例

🌟 项目特色


🎴 House of Model Cards — 扑克牌分类体系说明

设计理念

本项目灵感来源于 isLinXu/house-of-model-cards 项目,采用扑克牌花色作为模型的视觉化分类系统。就像每一张扑克牌都有其固定的花色和数值一样,每一个 AI 模型也可以通过其"能力属性"被归类到不同的花色中。

花色映射规则

花色符号含义对应模型类别示例模型
♠ 黑桃♠️Spade = 图像分类/视觉理解图像分类、目标检测、视觉理解模型ResNet, ViT, InternVL, Qwen-VL
♥ 红心❤️Heart = 语言生成/NLP任务通用对话、文本生成、翻译等 LLMGPT, Claude, LLaMA, Qwen, DeepSeek
♦ 方块🔷Diamond = 语义分割/结构化输出结构化推理、代码生成、数学求解StarCoder, DeepSeek-Coder, Qwen-Coder
♣ 梅花🍀Club = 实例分割/多模态融合多模态理解、Agent、嵌入模型LLaVA, BGE-M3, Qwen-Agent
🃏 Joker🃏Joker = SOTA/突破性模型当前最强或最具创新性的模型GPT-5, Claude 4.6, DeepSeek-R1

点数规则(数字/A/J/Q/K)

点数含义说明
2-7小型模型 (<7B)轻量级,适合边缘部署
8-10中型模型 (7B-30B)性能与效率平衡
J (Jack)专业领域模型针对特定领域优化(代码、数学、医疗)
Q (Queen)大型模型 (30B-100B)强大的通用能力
K (King)超大型模型 (>100B)旗舰级性能
A (Ace)SOTA / AGI 级别当前沿技术天花板
🃏 Joker特殊突破架构创新或范式转移

标记示例


♠K  InternVL2    →  视觉语言模型之王 (76B)
♥A  GPT-5        →  SOTA 级别通用语言模型
♦J  StarCoder2   →  代码专业模型
♣Q  LLaVA-OneVision → 多模态大模型
🃏  DeepSeek-R1   →  推理突破性模型 (GRPO强化学习)

与原 HOMC 项目的区别

house-of-model-cards 项目主要聚焦于计算机视觉模型的分类(图像分类=♠, 目标检测=♥, 语义分割=♦, 实例分割=♣)。本项目的 HOMC 体系在此基础上进行了扩展和适配

📑 目录

  • 1. 快速索引
  • 1.1 按开源状态
  • 1.2 按厂商/组织
  • 1.3 按应用领域
  • 1.4 按参数规模
  • 1.5 按架构类型
  • 1.6 🃏 按扑克牌花色分类
  • 1.7 按推理能力等级分类(⭐ 新增)
  • 1.8 按部署场景分类(⭐ 新增)
  • 1.9 按训练对齐方法分类(⭐ 新增)
  • 1.10 🏆 SOTA 排行榜(⭐ 新增)
  • 2. 通用基础模型
  • 3. 专项领域模型
  • 4. 技术对比
  • 5. 部署指南
  • 6. 📈 LLM 发展时间线
  • 7. 🔬 训练方法与对齐技术
  • 8. ⚡ 场景化模型选择指南
  • 9. 🌍 开源生态地图
  • 10. 🔮 2026 技术趋势展望
  • 11. ❓ FAQ 常见问题
  • 12. 🛡️ 安全与对齐
  • 13. 📏 评测基准详解
  • 14. 🔧 微调工具链与实战
  • 15. 🏭 行业应用案例
  • 16. 💡 Prompt Engineering 指南
  • 17. 🎬 视频生成与世界模型
  • 18. 参考文献
  • 19. 资源索引
  • 20. 贡献指南
  • 21. 更新日志

  • 1. 快速索引

    1.1 按开源状态

    类别模型
    完全开源LLaMA、Qwen、DeepSeek、GLM、Mistral、Falcon、OLMo、Pythia、BLOOM、StableLM、RWKV、Mamba、InternLM、Baichuan、Yi、MiniCPM
    有限开源Gemma、Phi、Grok-1、Command-R、Jamba、DBRX、Arctic
    闭源 APIGPT-4/5、Claude、Gemini、Grok-2+、ERNIE、混元、豆包、Kimi、星火

    1.2 按厂商/组织

    地区厂商代表模型🃏 标记
    🇺🇸 美国OpenAIGPT-4/5、o1/o3/o4-mini♥A
    🇺🇸 美国AnthropicClaude 3.5/4/4.6♥A
    🇺🇸 美国MetaLLaMA 1/2/3/4♥K
    🇺🇸 美国GoogleGemini、Gemma♥Q
    🇺🇸 美国MicrosoftPhi-1/2/3/4♥10
    🇺🇸 美国xAIGrok-1/2/3/4♥K
    🇺🇸 美国AI2OLMo♥9
    🇺🇸 美国EleutherAIPythia、GPT-NeoX♥8
    🇨🇳 中国阿里巴巴Qwen 1/2/2.5/3/3.5♥K
    🇨🇳 中国DeepSeekDeepSeek-V1/V2/V3、R1🃏 Joker
    🇨🇳 中国智谱 AIGLM-4/5、ChatGLM♥Q
    🇨🇳 中国百度ERNIE 4.0/5.0♥Q
    🇨🇳 中国腾讯混元 Large♥K
    🇨🇳 中国字节跳动豆包、Seed 系列♠Q / ♦J
    🇨🇳 中国月之暗面Kimi K2/K2.5🃏 Joker
    🇨🇳 中国MiniMaxM1/M2.5♥K
    🇨🇳 中国面壁智能MiniCPM♥7
    🇨🇳 中国上海 AI LabInternLM、InternVL♠Q
    🇨🇳 中国百川智能Baichuan-M1/M2/M3♥Q
    🇨🇳 中国零一万物Yi-1.5♥10
    🇫🇷 法国Mistral AIMistral、Mixtral♥Q
    🇦🇪 阿联酋TIIFalcon、Falcon-H1♥Q
    🇮🇱 以色列AI21 LabsJamba 1.5♥Q
    🇺🇸 美国DatabricksDBRX♥Q
    🇺🇸 美国SnowflakeArctic♥Q

    1.3 按应用领域

    领域代表模型🃏 标记
    通用对话GPT-4/5、Claude、Qwen、DeepSeek、LLaMA♥A ~ ♥K
    代码生成StarCoder2、DeepSeek-Coder、CodeLlama、Qwen-Coder、Codestral♦J
    数学推理DeepSeekMath、Qwen-Math、Llemma、NuminaMath♦J
    多模态 VLMGPT-4V、LLaVA、Qwen-VL、InternVL、MiniCPM-V♠Q / ♣Q
    推理增强o1/o3/o4-mini、DeepSeek-R1、QwQ、Kimi K2🃏 Joker
    Agent/工具Qwen-Agent、ToolLLaMA、Gorilla♣J
    嵌入模型BGE-M3、GTE-Qwen、E5-Mistral♣10
    医疗科学Med-PaLM、BioMistral、MedGemma、SciGLM♦10
    音频语言Qwen-Audio、GLM-4-Voice、Whisper♣J
    检索增强Self-RAG、CRAG、Retro♣10

    1.4 按参数规模

    规模🃏 点数代表模型
    <3B2-7TinyLlama(1.1B)、SmolLM2(1.7B)、Phi-3-mini(3.8B)、MiniCPM(2.4B)、Gemma-2-2B
    3-10B8-10LLaMA-3-8B、Qwen2.5-7B、Mistral-7B、GLM-4-9B、DeepSeek-7B
    10-100BJ-QLLaMA-3-70B、Qwen2.5-72B、Mixtral-8x22B、DeepSeek-V2-236B
    100B+K-AGPT-4(1.8T)、Claude-3-Opus、LLaMA-4-Behemoth(2T)、Qwen3-235B、DeepSeek-V3(671B)

    1.5 按架构类型

    架构特点代表模型🃏 标记
    Dense Transformer标准注意力机制GPT、LLaMA、Claude、Qwen
    MoE专家混合,稀疏激活Mixtral、DeepSeek-V2/V3、Qwen-MoE、DBRX♥K
    SSM (Mamba)状态空间模型,线性复杂度Mamba-1/2/3、Falcon-Mamba🃏 Joker
    RNN (RWKV)循环结构,高效推理RWKV-5/6/7🃏 Joker
    Hybrid混合架构Jamba(Mamba+Attention)、RecurrentGemma♣Q
    xLSTM扩展 LSTM 架构xLSTM-7B🃏 Joker

    1.6 🃏 按扑克牌花色分类

    ♠ 黑桃 — 视觉与多模态理解 (Spade: Vision & Multimodal Understanding)

    模型参数类型说明
    ♠K InternVL276BVLM最强开源视觉语言模型之一
    ♠Q LLaVA-OneVision-1.572BVLM统一视觉理解
    ♠Q Qwen3-VL8BVLM高效视觉语言模型
    ♠J CogVLM219BVLM多模态认知模型
    ♠10 MiniCPM-V8BVLM端侧多模态部署
    ♠9 Pixtral12BVLMMistral 多模态系列

    ♥ 红心 — 通用语言模型 (Heart: General Language Models)

    模型参数版本说明
    ♥A GPT-5未公开2024-12AGI 能力跃升
    ♥A Claude 4.6未公开2026-02当前最强闭源之一
    ♥A Gemini 3.1未公开2026-01多模态原生
    ♥K LLaMA 4 Behemoth2T2025-10最强开源模型
    ♥K DeepSeek-V3671B2024-12FP8 训练突破
    ♥K Qwen3.5397B2026-01全模态能力
    ♥K Grok-33T MoE2025-02100K H100 训练
    ♥Q Qwen2.5-72B72B2024-09编码数学增强
    ♥Q LLaMA 3.1-405B405B2024-07开源旗舰
    ♥Q Mistral Large 2123B2024-07开源旗舰
    ♥J LLaMA 3-8B8B2024-04效率标杆
    ♥J Qwen2.5-7B7B2024-09最佳 7B
    ♥J Mistral 7B7B2023-09开源先驱
    ♥10 Phi-414B2024-12推理突破
    ♥10 Gemma 2-9B9B2024-06Google 轻量旗舰
    ♥9 GLM-4-9B9B2024国产优秀开源
    ♥8 OLMo 2-7B7B2024-11全开源(数据+权重)
    ♥7 MiniCPM2.4B2024-02端侧部署优选

    ♦ 方块 — 结构化推理与代码 (Diamond: Structured Reasoning & Code)

    模型参数类型说明
    ♦K DeepSeek-R1671B推理GRPO 强化学习推理
    ♦K o3未公开2025-01OpenAI 深度推理
    ♦Q Kimi K21T MoE推理Muon 优化器
    ♦J StarCoder215B代码大规模代码预训练
    ♦J DeepSeek-Coder-V2236B代码大规模代码 MoE
    ♦J Qwen2.5-Coder-32B32B代码编码增强
    ♦J CodeGeeX49B代码国产代码模型
    ♦10 Qwen2.5-Math-72B72B数学数学推理 SOTA
    ♦10 DeepSeekMath-7B7B数学数学专用
    ♦9 NuminaMath-7B7B数学AIMO 竞赛优化

    ♣ 梅花 — Agent 与嵌入 (Club: Agent & Embeddings)

    模型参数类型说明
    ♣K Qwen-Agent-72B72BAgent工具调用框架
    ♣Q BGE-M3568B嵌入多语言多函数嵌入
    ♣J ToolLLaMA-7B7BAgent工具调用专精
    ♣J Gorilla-7B7BAgentAPI 调用专精
    ♣10 Self-RAG-13B13BRAG自适应检索增强
    ♣10 E5-Mistral-7B7B嵌入高质量文本嵌入
    ♣9 Qwen3-Embedding-8B8B嵌入最新嵌入模型
    ♣9 Jina Embeddings1.3B嵌入多尺度嵌入

    🃏 Joker — 突破性创新模型

    模型创新点说明
    🃏 DeepSeek-R1GRPO 强化学习推理用纯 RL 达成推理突破,成本极低
    🃏 Mamba-1/2/3状态空间架构突破 Transformer 的线性复杂度替代方案
    🃏 RWKV-7线性注意力 RNN结合 RNN 效率和 Transformer 表达力
    🃏 Kimi K2Muon 优化器 + 1T MoE开源模型首次进入第一梯队
    🃏 LLaMA 4 Behemoth2T 参数开源最大规模的开源模型
    🃏 xLSTM扩展 LSTMLSTM 的现代化复兴

    🃏 双花色标记规则(新增)

    部分模型具有多重核心能力,使用双花色标记以更精确描述:
    
    ♥♠ 通用+视觉   →  GPT-4V, Gemini 3.1, Claude 4.5(原生多模态通用模型)
    ♥♦ 通用+代码   →  Qwen2.5-Coder, LLaMA 3.2(编码增强的通用模型)
    ♠♣ 视觉+Agent  →  InternVL-Tool, LLaVA-Agent
    🃏♥ 突破+通用   →  DeepSeek-R1, Kimi K2(推理突破 + 通用能力)
    

    说明:主花色(第一个)表示最突出的能力,副花色(第二个)表示次要但显著的能力。


    1.7 按推理能力等级分类(⭐ 新增)

    2024-2026 年最重要的范式转移:从「快速响应」到「深度推理」。此维度帮助用户按模型的"思考深度"选型。

    推理等级符号特征代表模型🃏 标记
    Level 0 — 快速响应型单次前向传播,无显式推理链,延迟 <500msGPT-3.5-turbo, LLaMA-3-8B, Mistral-7B, Phi-3-mini♥J ~ ♥10
    Level 1 — 轻量思维链🧠内部 CoT,短思考过程,延迟 1-5sGPT-4, Claude 3.5, Qwen2.5-72B, GLM-4♥Q ~ ♥K
    Level 2 — 深度推理型🔬显式长 CoT / 草稿本推理,延迟 10s-5mino1, o3, DeepSeek-R1, QwQ, Kimi K1.5🃏 Joker
    Level 3 — Agent 自主推理🤖多步工具调用 + 规划 + 反思循环GPT-5.4, Claude 4.6, Qwen3.5 (Agent Mode)♥A
    选型建议
  • 聊天/客服/翻译 → Level 0-1 即可,成本敏感选 L0
  • 数学/编程/科研 → 必须用 Level 2+,推荐 R1/o3
  • 自主 Agent 工作流 → Level 3,需要强规划能力

  • 1.8 按部署场景分类(⭐ 新增)

    部署场景硬件要求延迟目标推荐模型🃏 点数
    📱 手机端侧<4GB RAM, NPU/DSP<2sMiniCPM(2.4B), Phi-4-mini(3.8B), SmolLM2(1.7B), Gemma-2-2B, MobileLLM(1B)2~7
    💻 个人电脑8-24GB GPU (RTX 4060/4070)<5sLLaMA-3-8B, Qwen2.5-7B, Mistral-7B, DeepSeek-7B, TinyLlama(1.1B)8~10
    🖥️ 工作站48-96GB GPU (RTX 4090/A6000)<10sLLaMA-3-70B, Qwen2.5-72B, Mixtral-8x22B, DeepSeek-V3(INT8)J ~ Q
    ☁️ 云端 API无硬件需求取决于供应商GPT-5.4, Claude 4.6, Gemini 3.1, DeepSeek-V3, Qwen-PlusA ~ K
    🏭 企业私有化8×A100/H100 集群<3s (批处理)LLaMA-4-Behemoth, Qwen3-235B, DeepSeek-V3(FP16), ERNIE 5.0 MoEK
    🔌 边缘/IoT<2GB RAM, ARM/NPU<1sSmolLM2(135M), TinyLlama(1.1B) INT4, OpenELM(270M)2~4
    🎮 游戏/实时消费级 GPU, <16GB<100msPhi-3-mini(3.8B), Gemma-2-2B, StableLM-2-1.6B7~10
    成本估算参考(单次查询):
    场景模型规模自托管成本/月API 成本/百万 Token
    个人项目7B INT4 (RTX 4060)电费 ≈¥50-
    初创公司70B INT4 (2×4090)电费 ≈¥300DeepSeek: ¥2~8
    企业级671B FP8 (8×H100)租赁 ≈¥30K/月GPT-5: ¥200~400

    1.9 按训练对齐方法分类(⭐ 新增)

    对齐方法全称核心思想代表模型🃏 标记年份
    SFTSupervised Fine-Tuning有监督指令微调,最基础的对齐方式几乎所有模型的基础步骤All2022+
    RLHFReinforcement Learning from Human FeedbackPPO + 人类偏好奖励模型ChatGPT, Claude 1-2, LLaMA 2 Chat2023
    DPODirect Preference Optimization直接偏好优化,无需 RM 模型Zephyr, Intel Neural Chat, OpenHathi♥Q2023
    Constitutional AICAIAI 自我批评 + 修正Claude 系列 (Anthropic)♥A2023
    GRPOGroup Relative Policy Optimization组内相对策略优化,无需 RMDeepSeek-R1/R1-0528🃏2025
    KTOKahneman-Tversky Optimization基于前景理论的二元反馈HuggingFace Zephyr-β♥92024
    Online DPOOnline Direct PO在线迭代 DPO,持续改进QwQ, 部分 Qwen 变体2024
    SimPOSimple Preference Opt简化的偏好优化,只需一个超参Mistral-Nemo, Gemma-2-it2024
    ORMOutcome Reward Modeling结果奖励建模(vs 过程 PRM)OpenAI o-series♥A2024
    PRMProcess Reward Modeling过程奖励建模,逐步验证推理链DeepSeek-R1 (辅助)🃏2025
    Muon OptimizerMuon 优化器类 momentum 优化用于大规模 MoE 训练Kimi K2/K2.5🃏2025
    训练方法演进路线图
    
    SFT (2022) → RLHF (2023) → DPO (2023) → GRPO/Muon (2025)
                        ↓                ↓              ↓
                   Constitutional      SimPO/KTO     PRM+ORM
                      AI (2023)       (2024)        (2024-25)
    

    1.10 🏆 SOTA 模型排行榜(2026年4月实时)(⭐ 新增)

    综合多项基准测试的 Top 10 排行,分为闭源/开源双赛道。

    闭源赛道

    排名模型厂商MMLU-ProGPQACodeMath🃏亮点
    🥇GPT-5.4OpenAI93.5%82.7%97.5%98.8%♥A最新旗舰,75% Computer Use,1M 上下文
    🥈Claude 4.6Anthropic91.8%91.3%95.2%97.8%♥A安全最强,GPQA 91.3%,2M 上下文
    🥉GPT-5OpenAI92.1%78.3%96.8%98.5%♥AAGI 能力跃升,1M 上下文
    4Gemini 3.1 ProGoogle90.5%76.8%94.1%97.2%♥A多模态原生,4M 上下文
    5Grok-4.1xAI88.8%73.5%92.8%96.2%♥K实时信息,思考/非思考双模式
    6Claude 4.5 OpusAnthropic89.5%94.2%93.8%97.0%♥A编码增强版
    7Gemini 2.5 ProGoogle87.2%72.1%91.5%95.5%♥QAgent 能力突出
    8GPT-4.5OpenAI86.8%71.2%90.2%94.8%♥A创造力最强(即将退役)⚠️
    9MiniMax-M2.5MiniMax85.5%68.8%88.5%93.2%♥K2M 上下文,高性价比
    10GLM-5智谱 AI84.5%68.2%87.5%91.8%♥Q国产最强之一

    开源赛道

    排名模型组织参数MMLU-ProGPQACodeMath🃏许可
    🥇LLaMA 4 MaverickMeta400B (52B act)88.5%72.1%91.2%95.5%♥KLlama 4
    🥈DeepSeek-R1DeepSeek671B88.2%73.8%92.1%96.2%🃏MIT
    🥉Qwen3-235B阿里235B (22B act)87.8%71.5%90.8%94.8%♥KApache 2.0
    4Kimi K2月之暗面1T (32B act)85.8%69.5%88.2%92.5%🃏MIT
    5DeepSeek-V3DeepSeek671B (37B act)86.5%70.2%89.5%93.2%♥KDeepSeek
    6Qwen2.5-72B阿里72B83.2%65.8%87.2%90.5%♥QApache 2.0
    7Mixtral-8x22BMistral176B (39B act)82.5%64.2%86.5%89.8%♥QApache 2.0
    8Intern-S1-Pro上海 AI Lab未公开84.2%68.5%86.8%91.2%♠QResearch
    9Phi-4-reasoningMicrosoft15B80.5%60.2%85.5%90.2%♥10MIT
    10Gemma-3-27BGoogle27B79.2%58.5%84.2%88.5%♥10Gemma

    注意:以上数据来源于各官方技术报告及第三方基准测试(Arena、LMSYS Chatbot Arena),具体数值因评测版本不同可能有差异。


    2. 通用基础模型

    2.1 OpenAI GPT 系列 ♥A

    版本发布时间参数规模上下文许可协议核心特性
    GPT-12018-06117M512ResearchTransformer 预训练
    GPT-22019-021.5B1KMIT无监督多任务学习
    GPT-32020-05175B4KAPIFew-shot 学习
    GPT-3.5-turbo2022-11175B16KAPIRLHF 对齐
    GPT-42023-031.8T MoE128KAPI多模态、推理增强
    GPT-4-turbo2023-111.8T MoE128KAPI更快推理、降价
    GPT-4.52024-022T MoE256KAPI增强创造力
    GPT-52024-12未公开1MAPIAGI 能力跃升
    GPT-5.12025-06未公开2MAPI多模态原生
    GPT-5.22026-01未公开4MAPI实时推理
    GPT-5.42026-03未公开1MAPI最新旗舰,75% Computer Use
    GPT-5.4 mini2026-03未公开1MAPI高效版旗舰,免费可用
    o12024-09已退役128KAPI思维链推理(已退役)⚠️
    o32025-01未公开256KAPI深度推理
    o4-mini2025-06未公开128KAPI高效推理
    官方资源
  • 📄 论文:arXiv:2005.14165 (GPT-3) · arXiv:2303.08774 (GPT-4) · arXiv:2410.21276 (GPT-4o) · arXiv:2412.16720 (o1) · arXiv:2601.03267 (GPT-5)
  • 💻 GitHub:openai/openai-cookbook
  • 📖 API:https://platform.openai.com/docs

  • 2.2 Anthropic Claude 系列 ♥A

    版本发布时间参数规模上下文许可协议核心特性
    Claude 12023-0352B9KAPIConstitutional AI
    Claude 22023-07未公开100KAPI长上下文
    Claude 3 Haiku2024-0320B200KAPI快速响应
    Claude 3 Sonnet2024-0370B200KAPI平衡性能
    Claude 3 Opus2024-03未公开200KAPI最强推理
    Claude 3.5 Sonnet2024-06未公开200KAPI编码增强
    Claude 3.7 Sonnet2025-02未公开256KAPI扩展思考
    Claude 4 Opus2025-06未公开512KAPI深度推理
    Claude 4.5 Opus2025-10未公开1MAPI多模态原生
    Claude 4.62026-02未公开2MAPIAGI 能力
    官方资源
  • 📄 论文:arXiv:2204.06745 (Constitutional AI) · arXiv:2310.01858 (Claude 2)
  • 📖 API:https://docs.anthropic.com

  • 2.3 Meta LLaMA 系列 ♥K

    版本发布时间参数规模上下文许可协议核心特性
    LLaMA 12023-027/13/33/65B2KResearch高效预训练
    LLaMA 22023-077/13/70B4KLlama 2 LicenseRLHF 对齐
    LLaMA 32024-048/70B8KLlama 3 License多语言增强
    LLaMA 3.12024-078/70/405B128KLlama 3.1 License长上下文
    LLaMA 3.22024-091/3/11/90B128KLlama 3.2 License视觉多模态
    LLaMA 3.32024-1270B128KLlama 3.3 License推理优化
    LLaMA 4 Scout2025-04109B (17B 激活)10MLlama 4 License超长上下文
    LLaMA 4 Maverick2025-04400B (52B 激活)1MLlama 4 LicenseMoE 架构
    LLaMA 4 Behemoth2025-102T10MLlama 4 License最强开源
    官方资源
  • 📄 论文:arXiv:2302.13971 (LLaMA 1) · arXiv:2307.09288 (LLaMA 2) · arXiv:2407.21783 (LLaMA 3) · arXiv:2510.12178 (LLaMA 4) · arXiv:2601.11659 (LLaMA 4 完整)
  • 💻 GitHub:meta-llama/llama-models
  • 🤗 HuggingFace:meta-llama

  • 2.4 Google Gemini/Gemma 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    Gemini 1.0 Pro2023-12未公开32KAPI原生多模态
    Gemini 1.5 Pro2024-02未公开1MAPI超长上下文
    Gemini 2.0 Flash2024-12未公开1MAPI实时推理
    Gemini 2.52025-06未公开2MAPIAgent 能力
    Gemini 3.12026-01未公开4MAPIAGI 进展
    Gemma 12024-022/7B8KGemma License轻量开源
    Gemma 22024-062/9/27B8KGemma License性能提升
    Gemma 32025-032/9/27B128KGemma License多模态
    官方资源
  • 📄 论文:arXiv:2408.00118 (Gemma 2) · arXiv:2503.19786 (Gemma 3) · arXiv:2507.06261 (Gemini 2.5)
  • 💻 GitHub:google-deepmind/gemma · google/gemma_pytorch
  • 🤗 HuggingFace:google

  • 2.5 Microsoft Phi 系列 ♥10

    版本发布时间参数规模上下文许可协议核心特性
    Phi-12023-061.3B2KMIT教科书数据
    Phi-1.52023-091.3B2KMIT合成数据增强
    Phi-22023-122.7B2KMIT推理能力
    Phi-3-mini2024-043.8B128KMIT手机部署
    Phi-3-small2024-057B128KMIT平衡版本
    Phi-3-medium2024-0514B128KMIT性能增强
    Phi-3.5-mini2024-083.8B128KMIT多模态
    Phi-42024-1214B16KMIT推理突破
    Phi-4-mini2025-043.8B128KMIT端侧推理
    Phi-4-reasoning2025-0615B32KMIT强化推理
    官方资源
  • 📄 论文:arXiv:2309.00071 (Phi-1) · arXiv:2306.11644 (Phi-1.5) · arXiv:2404.14219 (Phi-3) · arXiv:2412.08905 (Phi-4) · arXiv:2504.21233 (Phi-4-mini) · arXiv:2504.21318 (Phi-4-reasoning)
  • 💻 GitHub:microsoft/Phi-4 · microsoft/Phi-3-cookbooks
  • 🤗 HuggingFace:microsoft

  • 2.6 xAI Grok 系列 ♥K

    版本发布时间参数规模上下文许可协议核心特性
    Grok-12024-03314B MoE8KApache 2.0开源 MoE
    Grok-1.52024-04未公开128KAPI长上下文
    Grok-22024-08未公开128KAPI多模态
    Grok-2.52024-12未公开256KAPI推理增强
    Grok-32025-023T MoE1MAPI100K H100 训练
    Grok-42025-08未公开2MAPIAGI 能力
    Grok-4.12026-01未公开4MAPI实时推理
    官方资源
  • 💻 GitHub:xai-org/grok-1
  • 📖 API:https://x.ai/api

  • 2.7 Mistral AI 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    Mistral 7B2023-097B32KApache 2.0滑动窗口注意力
    Mixtral 8x7B2023-1246.7B (12.9B 激活)32KApache 2.0稀疏 MoE
    Mixtral 8x22B2024-04176B (39B 激活)64KApache 2.0大规模 MoE
    Mistral Large2024-02未公开128KAPI旗舰模型
    Mistral Large 22024-07123B128KResearch开源旗舰
    Mistral Large 32025-03未公开256KAPI推理增强
    Codestral2024-0522B32KMNPL代码专用
    官方资源
  • 📄 论文:arXiv:2310.06825 (Mistral 7B) · arXiv:2401.04088 (Mixtral)
  • 💻 GitHub:mistralai/mistral-inference
  • 🤗 HuggingFace:mistralai

  • 2.8 Cohere Command 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    Command2023-0952B4KAPI企业级
    Command R2024-0335B128KCC-BY-NC-4.0RAG 优化
    Command R+2024-04104B128KCC-BY-NC-4.0多语言
    Command R7B2024-127B128KCC-BY-NC-4.0轻量版
    官方资源
  • 🤗 HuggingFace:CohereForAI · CohereLabs
  • 📖 API:https://docs.cohere.com

  • 2.9 TII Falcon 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    Falcon 7B2023-057B2KApache 2.0RefinedWeb 数据
    Falcon 40B2023-0540B2KApache 2.0高质量预训练
    Falcon 180B2023-09180B2KFalcon License最大开源
    Falcon 22024-0511B8KApache 2.0多模态
    Falcon 32024-121/3/7/10B32KApache 2.0效率提升
    Falcon-H12025-071.5/3.5/7/34B256KApache 2.0Mamba 混合架构
    官方资源
  • 📄 论文:arXiv:2311.16867 (Falcon) · arXiv:2407.14885 (Falcon 2) · arXiv:2507.22448 (Falcon-H1)
  • 💻 GitHub:tiiuae/falcon-llm · tiiuae/Falcon-H1
  • 🤗 HuggingFace:tiiuae

  • 2.10 AI2 OLMo 系列 ♥8~9

    版本发布时间参数规模上下文许可协议核心特性
    OLMo 12024-021/7B2KApache 2.0完全开源(数据+代码+权重)
    OLMo 1.52024-067B4KApache 2.0训练优化
    OLMo 22024-117/13B4KApache 2.0RLHF 对齐
    OLMoE2024-096.9B (1.3B 激活)4KApache 2.0开源 MoE
    官方资源
  • 📄 论文:arXiv:2402.00838 (OLMo) · arXiv:2501.00656 (OLMo 2) · arXiv:2409.02060 (OLMoE)
  • 💻 GitHub:allenai/OLMo · allenai/OLMo-core
  • 🤗 HuggingFace:allenai

  • 2.11 EleutherAI Pythia 系列 ♥8

    版本发布时间参数规模上下文许可协议核心特性
    GPT-NeoX2022-0420B2KApache 2.0大规模开源
    Pythia2023-0470M-12B2KApache 2.0可复现研究
    GPT-J-6B2021-066B2KApache 2.0早期开源
    Llemma2023-107/34B4KLlama License数学专用
    官方资源
  • 📄 论文:arXiv:2204.06745 (GPT-NeoX) · arXiv:2304.01373 (Pythia) · arXiv:2310.10631 (Llemma)
  • 💻 GitHub:EleutherAI/gpt-neox · EleutherAI/pythia
  • 🤗 HuggingFace:EleutherAI

  • 2.12 BigScience BLOOM 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    BLOOM2022-07176B2KRAIL46 语言、多国合作
    BLOOMZ2022-11176B2KRAIL指令微调版
    官方资源
  • 📄 论文:arXiv:2211.05100
  • 🤗 HuggingFace:bigscience/bloom · bigscience/bloomz

  • 2.13 Stability AI StableLM 系列

    版本发布时间参数规模上下文许可协议核心特性
    StableLM 3B2023-043B4KCC-BY-SA-4.0对话优化
    StableLM 22024-011.6/12B4KStability AI License性能提升
    官方资源
  • 💻 GitHub:Stability-AI/StableLM
  • 🤗 HuggingFace:stabilityai

  • 2.14 Databricks DBRX 系列

    版本发布时间参数规模上下文许可协议核心特性
    DBRX2024-03132B (36B 激活)32KDBRX License细粒度 MoE
    官方资源
  • 💻 GitHub:databricks/dbrx
  • 🤗 HuggingFace:databricks/dbrx-instruct

  • 2.15 Snowflake Arctic 系列

    版本发布时间参数规模上下文许可协议核心特性
    Arctic2024-04480B (17B 激活)4KApache 2.0Dense-MoE 混合
    官方资源
  • 💻 GitHub:Snowflake-Labs/snowflake-arctic
  • 🤗 HuggingFace:Snowflake

  • 2.16 阿里 Qwen 系列 ♥K

    版本发布时间参数规模上下文许可协议核心特性
    Qwen2023-087/14B8KQianwen License基础版本
    Qwen 1.52024-020.5-110B32KApache 2.0全面开源
    Qwen 22024-060.5-72B128KApache 2.0多语言增强
    Qwen 2.52024-090.5-72B128KApache 2.0编码/数学增强
    Qwen 2.5-1M2025-017/14B1MApache 2.0超长上下文
    Qwen 32025-050.6-235B (22B 激活)32KApache 2.0思考模式
    Qwen 3.52026-0114-397B256KApache 2.0全模态
    QwQ2024-1132B32KApache 2.0推理模型
    官方资源
  • 📄 论文:arXiv:2309.16609 (Qwen) · arXiv:2407.10671 (Qwen 2) · arXiv:2412.15115 (Qwen 2.5) · arXiv:2505.09388 (Qwen 3)
  • 💻 GitHub:QwenLM/Qwen · QwenLM/Qwen2.5 · QwenLM/Qwen3 · QwenLM/QwQ
  • 🤗 HuggingFace:Qwen

  • 2.17 DeepSeek 系列 🃏 Joker

    版本发布时间参数规模上下文许可协议核心特性
    DeepSeek-V12024-017/67B4KDeepSeek License基础版本
    DeepSeek-V22024-05236B (21B 激活)128KDeepSeek LicenseMLA + DeepSeekMoE
    DeepSeek-V2.52024-09236B128KDeepSeek License对话优化
    DeepSeek-V32024-12671B (37B 激活)128KDeepSeek LicenseFP8 训练
    DeepSeek-V3.12025-06671B256KDeepSeek License长上下文
    DeepSeek-V3.22026-02未公开512KDeepSeek License推理增强
    DeepSeek-R12025-01671B128KMITGRPO 强化学习
    DeepSeek-R1-05282025-05671B128KMIT推理增强
    官方资源
  • 📄 论文:arXiv:2401.02954 (V1) · arXiv:2405.04434 (V2) · arXiv:2412.19437 (V3) · arXiv:2501.12948 (R1)
  • 💻 GitHub:deepseek-ai/DeepSeek-V3 · deepseek-ai/DeepSeek-R1
  • 🤗 HuggingFace:deepseek-ai
  • 📖 API:https://platform.deepseek.com

  • 2.18 智谱 GLM 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    GLM-130B2022-10130B2KGLM License双向注意力
    ChatGLM2023-036B2KChatGLM License中英双语
    ChatGLM22023-066B32KChatGLM License长上下文
    ChatGLM32023-106B128KChatGLM License工具调用
    GLM-42024-01未公开128KAPI多模态
    GLM-4.52025-02未公开256KAPI推理增强
    GLM-4.62025-08未公开512KAPIAgent 能力
    GLM-52026-02未公开1MAPIAGI 进展
    官方资源
  • 📄 论文:arXiv:2210.02414 (GLM-130B) · arXiv:2406.12793 (GLM-4) · arXiv:2508.06471 (GLM-4.5)
  • 💻 GitHub:THUDM/GLM-4 · THUDM/ChatGLM3
  • 🤗 HuggingFace:THUDM
  • 📖 API:https://bigmodel.cn

  • 2.19 百度 ERNIE 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    ERNIE 3.02021-0710B512Research知识增强
    ERNIE 3.52023-03未公开8KAPI对话优化
    ERNIE 4.02023-10未公开128KAPI多模态
    ERNIE 4.52024-06未公开256KAPI推理增强
    ERNIE 5.02025-03424B MoE512KApache 2.0开源 MoE
    官方资源
  • 📄 论文:arXiv:2107.02137 (ERNIE 3.0) · arXiv:2602.04705 (ERNIE 5.0)
  • 💻 GitHub:PaddlePaddle/ERNIE
  • 📖 API:https://yiyan.baidu.com

  • 2.20 腾讯混元系列 ♥K

    版本发布时间参数规模上下文许可协议核心特性
    混元2023-09未公开32KAPI多模态
    混元-Large2024-11389B MoE256KTencent Hunyuan License开源 MoE
    官方资源
  • 📄 论文:arXiv:2411.02265
  • 💻 GitHub:Tencent/Hunyuan-Large · Tencent-Hunyuan/Tencent-Hunyuan-Large
  • 🤗 HuggingFace:tencent/Tencent-Hunyuan-Large

  • 2.21 字节豆包/Seed 系列 ♠Q / ♦J

    版本发布时间参数规模上下文许可协议核心特性
    豆包2023-08未公开128KAPI多模态对话
    豆包 2.02024-05未公开256KAPI推理增强
    Seed1.5-VL2025-05未公开1MResearch超长视觉
    Seed-Coder2025-068B128KResearch代码生成
    官方资源
  • 📄 论文:arXiv:2505.07062 (Seed1.5-VL) · arXiv:2506.03524 (Seed-Coder)
  • 💻 GitHub:ByteDance-Seed/Seed-Coder · ByteDance-Seed/Seed1.5-VL
  • 🤗 HuggingFace:ByteDance-Seed

  • 2.22 月之暗面 Kimi 系列 🃏 Joker

    版本发布时间参数规模上下文许可协议核心特性
    Kimi2023-10未公开200KAPI超长上下文
    Kimi K1.52025-01未公开256KAPI推理增强
    Kimi K22025-071T MoE (32B 激活)128KMIT开源 MoE
    Kimi K2.52026-02未公开512KAPIAgent 能力
    Kimi-VL2025-033B128KApache 2.0视觉语言
    官方资源
  • 📄 论文:arXiv:2501.12599 (K1.5) · arXiv:2507.20534 (K2) · arXiv:2602.02276 (K2.5)
  • 💻 GitHub:MoonshotAI/Kimi-K2 · MoonshotAI/kimi-k1.5
  • 🤗 HuggingFace:moonshotai
  • 📖 API:https://platform.moonshot.cn

  • 2.23 MiniMax 系列 ♥K

    版本发布时间参数规模上下文许可协议核心特性
    MiniMax2023-06未公开64KAPI多模态
    MiniMax-M12025-06456B MoE1MMIT百万上下文
    MiniMax-M2.52025-12未公开2MAPI推理增强
    官方资源
  • 📄 论文:arXiv:2501.08313 · arXiv:2506.13585 (M1)
  • 💻 GitHub:MiniMax-AI/MiniMax-M1
  • 🤗 HuggingFace:MiniMaxAI
  • 📖 API:https://platform.minimax.io

  • 2.24 面壁 MiniCPM 系列 ♥7

    版本发布时间参数规模上下文许可协议核心特性
    MiniCPM2024-022.4B4KApache 2.0端侧部署
    MiniCPM-V2024-043B8KApache 2.0多模态
    MiniCPM-V 2.62024-088B32KApache 2.0视觉增强
    MiniCPM-o2024-128B128KApache 2.0全模态
    MiniCPM 42025-064B128KApache 2.0推理优化
    官方资源
  • 📄 论文:arXiv:2404.06395 (MiniCPM) · arXiv:2506.07900 (MiniCPM 4)
  • 💻 GitHub:OpenBMB/MiniCPM · OpenBMB/MiniCPM-V · OpenBMB/MiniCPM-o
  • 🤗 HuggingFace:openbmb

  • 2.25 上海 AI Lab InternLM 系列 ♠Q

    版本发布时间参数规模上下文许可协议核心特性
    InternLM2023-077/20B8KApache 2.0多阶段训练
    InternLM22024-017/20B200KApache 2.0长上下文
    InternLM2.52024-077B1MApache 2.0推理增强
    InternLM32024-128B128KApache 2.0高效训练
    Intern-S1-Pro2026-03未公开256KResearchAGI 进展
    官方资源
  • 📄 论文:arXiv:2403.17297 · arXiv:2603.25040 (Intern-S1-Pro)
  • 💻 GitHub:InternLM/InternLM
  • 🤗 HuggingFace:internlm

  • 2.26 百川 Baichuan 系列 ♥Q

    版本发布时间参数规模上下文许可协议核心特性
    Baichuan-7B2023-067B4KApache 2.0中文优化
    Baichuan-13B2023-0713B4KApache 2.0性能提升
    Baichuan22023-097/13B4KApache 2.0对话优化
    Baichuan-M12025-01未公开128KAPI多模态
    Baichuan-M22025-09未公开256KAPI推理增强
    Baichuan-M3-235B2026-02235B512KAPI旗舰模型
    Baichuan-Omni-1.52025-017B32KApache 2.0全模态
    官方资源
  • 📄 论文:arXiv:2309.10305 (Baichuan 2) · arXiv:2501.15368 (Baichuan-Omni-1.5) · arXiv:2502.12671 (Baichuan-M1) · arXiv:2509.02208 (Baichuan-M2) · arXiv:2602.06570 (Baichuan-M3)
  • 💻 GitHub:baichuan-inc/Baichuan2 · baichuan-inc/Baichuan-M3-235B
  • 🤗 HuggingFace:baichuan-inc

  • 2.27 零一万物 Yi 系列 ♥10

    版本发布时间参数规模上下文许可协议核心特性
    Yi2023-116/34B4KYi License高质量数据
    Yi-1.52024-056/9/34B4KApache 2.0性能提升
    Yi-34B-200K2024-0134B200KYi License长上下文
    Yi-VL2024-016/34B4KYi License视觉语言
    官方资源
  • 📄 论文:arXiv:2403.04652
  • 💻 GitHub:01-ai/Yi · 01-ai/Yi-1.5
  • 🤗 HuggingFace:01-ai

  • 2.28 阶跃星辰 Step 系列

    版本发布时间参数规模上下文许可协议核心特性
    Step-12024-03未公开128KAPI多模态
    Step-22024-08未公开256KAPI推理增强
    Step-3.5-Flash2025-04未公开256KAPI高效推理
    官方资源
  • 💻 GitHub:stepfun-ai/Step-3.5-Flash
  • 🤗 HuggingFace:stepfun-ai
  • 📖 API:https://platform.stepfun.com

  • 2.29 科大讯飞 星火系列

    版本发布时间参数规模上下文许可协议核心特性
    星火 1.52023-06未公开8KAPI中文对话
    星火 2.02023-08未公开16KAPI多模态
    星火 3.02023-10未公开32KAPI性能提升
    星火 3.52024-01未公开128KAPI长上下文
    星火 4.02024-06未公开256KAPI推理增强
    官方资源
  • 📖 API:https://xinghuo.xfyun.cn

  • 2.30 360智脑系列

    版本发布时间参数规模上下文许可协议核心特性
    360Zhinao-7B2024-047B360KApache 2.0超长上下文
    360Zhinao22024-117B128KApache 2.0性能提升
    官方资源
  • 💻 GitHub:Qihoo360/360zhinao · Qihoo360/360zhinao2
  • 🤗 HuggingFace:Qihoo360/360Zhinao-7B-Chat-360K

  • 3. 专项领域模型

    3.1 代码专项模型 ♦J

    模型参数规模上下文许可协议论文/资源
    StarCoder23/7/15B16KBigCode LicensearXiv:2402.19173 · GitHub
    DeepSeek-Coder1.3/6.7/33B16KDeepSeek LicensearXiv:2401.14196 · GitHub
    DeepSeek-Coder-V216/236B128KDeepSeek LicensearXiv:2406.11931 · GitHub
    CodeLlama7/13/34/70B16KLlama 2 LicenseGitHub · HuggingFace
    Qwen2.5-Coder1.5/7/14/32B128KApache 2.0arXiv:2409.12186 · GitHub
    CodeGemma2/7B8KGemma LicensearXiv:2406.11409 · GitHub
    Codestral22B32KMNPLHuggingFace
    WizardCoder15/34B8KLlama 2 LicenseGitHub · HuggingFace
    Magicoder7B16KApache 2.0GitHub · HuggingFace
    OpenCoder1.5/8B8KApache 2.0arXiv:2411.04905 · GitHub
    Seed-Coder8B128KResearcharXiv:2506.03524 · GitHub
    CodeGeeX49B128KCodeGeeX LicenseGitHub · HuggingFace

    3.2 数学推理模型 ♦J

    模型参数规模上下文许可协议论文/资源
    DeepSeekMath7B4KDeepSeek LicensearXiv:2402.03300 · GitHub
    Qwen2.5-Math1.5/7/72B128KApache 2.0arXiv:2409.12122 · arXiv:2501.07301 · GitHub
    InternLM-Math7/20B32KApache 2.0GitHub · HuggingFace
    Llemma7/34B4KLlama LicensearXiv:2310.10631 · GitHub
    NuminaMath7B4KApache 2.0GitHub · HuggingFace
    MetaMath7/13/70B4KLlama LicenseGitHub
    MathCoder7/13/34B4KApache 2.0GitHub

    3.3 多模态 VLM 模型 ♠ / ♣

    模型参数规模上下文许可协议论文/资源
    LLaVA7/13B4KApache 2.0arXiv:2304.08485 · GitHub
    LLaVA-NeXT7/13/34B32KApache 2.0arXiv:2310.03744 · GitHub
    LLaVA-OneVision-1.57/72B128KApache 2.0arXiv:2509.23661 · GitHub
    Qwen2-VL2/7/72B32KApache 2.0arXiv:2409.12191 · GitHub
    Qwen3-VL8B128KApache 2.0arXiv:2511.21631 · GitHub
    InternVL22/8/26/76B32KApache 2.0arXiv:2412.05271 · GitHub
    InternVL38B128KApache 2.0arXiv:2504.10479 · HuggingFace
    CogVLM28/19B8KCogVLM LicenseGitHub
    MiniCPM-V3/8B32KApache 2.0GitHub · HuggingFace
    PaliGemma3B8KGemma LicenseHuggingFace
    Pixtral12B128KApache 2.0HuggingFace
    SmolVLM2B8KApache 2.0arXiv:2504.05299
    Molmo7B4KApache 2.0GitHub · HuggingFace
    Idefics38B8KApache 2.0HuggingFace

    3.4 小语言模型 SLM ♥2~7

    模型参数规模上下文许可协议论文/资源
    TinyLlama1.1B2KApache 2.0arXiv:2401.02385 · GitHub
    SmolLM2135M/360M/1.7B8KApache 2.0arXiv:2502.02737 · GitHub
    TinyGPT-V3B2KApache 2.0arXiv:2312.16862
    MobileLLM125M/350M/1B2KResearchGitHub
    Phi-3-mini3.8B128KMITarXiv:2404.14219 · HuggingFace
    Phi-4-mini3.8B128KMITarXiv:2504.21233 · HuggingFace
    OpenELM270M/450M/1.1B/3B2KApple LicenseHuggingFace
    MiniCPM1.2/2.4B4KApache 2.0arXiv:2404.06395 · GitHub
    Gemma-2-2B2B8KGemma LicensearXiv:2408.00118 · HuggingFace
    StableLM-2-1.6B1.6B4KStability AI LicenseHuggingFace

    3.5 MoE 架构模型 ♥K

    模型总参数激活参数专家数许可协议论文/资源
    Mixtral 8x7B46.7B12.9B8Apache 2.0arXiv:2401.04088
    Mixtral 8x22B176B39B8Apache 2.0HuggingFace
    DeepSeek-V2236B21B160DeepSeek LicensearXiv:2405.04434
    DeepSeek-V3671B37B256DeepSeek LicensearXiv:2412.19437
    Qwen-MoE14.3B2.7B60Apache 2.0GitHub
    OpenMoE8B2B32Apache 2.0arXiv:2402.01739
    OLMoE6.9B1.3B64Apache 2.0arXiv:2409.02060
    Skywork-MoE146B22B16Skywork LicensearXiv:2406.06563 · GitHub
    DBRX132B36B16DBRX LicenseGitHub
    Arctic480B17B128Apache 2.0GitHub

    3.6 新架构模型(SSM/RNN/Hybrid)🃏 Joker

    模型架构参数规模上下文许可协议论文/资源
    MambaSSM130M-2.8BApache 2.0arXiv:2312.00752 · GitHub
    Mamba-2SSM130M-2.8BApache 2.0arXiv:2405.21060
    Mamba-3SSM7BApache 2.0arXiv:2603.15569
    RWKV-6RNN1.6/3/7/14BApache 2.0GitHub
    RWKV-7RNN0.1-7BApache 2.0arXiv:2503.14456 · GitHub
    xLSTMxLSTM7B16KResearcharXiv:2510.02228 · HuggingFace
    RecurrentGemmaHybrid2/9B8KGemma LicensearXiv:2404.07839 · GitHub
    JambaHybrid52B256KJamba LicenseGitHub · HuggingFace
    Jamba 1.5Hybrid52/398B256KJamba LicenseHuggingFace
    Falcon-H1Hybrid1.5/3.5/7/34B256KApache 2.0arXiv:2507.22448 · GitHub
    HyenaSubquadratic未公开ResearcharXiv:2302.10865
    RetNetRetention1.3/2.7/6.7BResearcharXiv:2307.08621

    3.7 推理增强模型 🃏 Joker

    模型参数规模上下文许可协议核心技术论文/资源
    OpenAI o1未公开128KAPIChain-of-ThoughtarXiv:2412.16720
    OpenAI o3未公开256KAPIDeep ReasoningSystem Card
    OpenAI GPT-5.4未公开1MAPI最新旗舰,Computer UsearXiv (Tech Report)
    OpenAI o4-mini已退役(2026-02)128KEfficient Reasoning(已退役)⚠️System Card
    DeepSeek-R1671B128KMITGRPO 强化学习arXiv:2501.12948
    QwQ32B32KApache 2.0思维链推理GitHub
    Kimi K21T MoE128KMITMuon 优化器arXiv:2507.20534
    Kimi k1.5未公开256KAPILong CoTarXiv:2501.12599

    3.8 Agent/工具调用模型 ♣J

    模型参数规模上下文许可协议论文/资源
    Qwen-Agent7/14/72B128KApache 2.0GitHub
    ToolLLaMA7B8KApache 2.0arXiv:2310.05146 · HuggingFace
    Gorilla7B4KApache 2.0arXiv:2305.15334 · GitHub
    AgentTuning7/13/70B4KApache 2.0GitHub
    ToolBench7B4KApache 2.0GitHub · THUDM/ToolBench

    3.9 嵌入模型 ♣

    模型参数规模维度许可协议论文/资源
    BGE-M3568M1024MITarXiv:2402.03216 · GitHub
    Qwen3-Embedding0.6/4/8B3584Apache 2.0arXiv:2506.05176 · GitHub
    GTE-Qwen27B3584Apache 2.0HuggingFace
    E5-Mistral7B4096MITHuggingFace
    Nomic Embed v2137M768Apache 2.0HuggingFace
    Jina Embeddings137M-1.3B768-8192Apache 2.0HuggingFace

    3.10 医疗/科学模型 ♦10

    模型参数规模领域许可协议论文/资源
    Med-PaLM 2未公开医疗APIGoogle Research
    BioMistral7B生物医学Apache 2.0arXiv:2402.10373 · GitHub
    PMC-LLaMA7/13B医学文献Llama LicenseResearch
    Galactica120B科学CC-BY-NC-4.0GitHub · HuggingFace
    SciGLM6B科学Apache 2.0arXiv:2401.07950 · GitHub
    HuatuoGPT-o18B医疗推理Apache 2.0arXiv:2412.18925
    MedGemma2/9B医疗Gemma LicensearXiv:2507.05201 · HuggingFace
    FinGPT7B金融Apache 2.0Research
    ChatLaw13B法律Apache 2.0arXiv:2411.10137

    3.11 音频语言模型 ♣J

    模型参数规模模态许可协议论文/资源
    Qwen2-Audio7B语音+文本Apache 2.0GitHub · HuggingFace
    GLM-4-Voice9B语音+文本GLM LicenseGitHub
    SALMONN7/13B语音+音频+文本Apache 2.0GitHub
    Mini-Omni7B全模态Apache 2.0GitHub
    MusicGen1.5B音乐生成CC-BY-NC-4.0arXiv:2306.05284 · GitHub
    Seed-TTS未公开语音合成ResearcharXiv:2406.02430 · GitHub
    Whisper1.5B语音识别MITGitHub

    3.12 检索增强 RAG 模型 ♣10

    模型参数规模特性许可协议论文/资源
    Self-RAG7/13B自适应检索Apache 2.0arXiv:2310.11511 · GitHub
    CRAG7B纠正检索Apache 2.0GitHub
    Retro7B检索增强ResearchGitHub
    StreamingLLM7B流式处理MITarXiv:2309.17453
    REALM340M知识检索Apache 2.0GitHub

    4. 技术对比

    4.1 性能基准对比(2026年4月)

    模型MMLU-ProHumanEvalGSM8KGPQA DiamondARC-AGI-2🃏 标记
    GPT-5.493.5%97.5%98.8%82.7%23.5%♥A
    Claude 4.6 Opus91.8%95.2%97.8%91.3%19.8%♥A
    Gemini 3.190.5%94.1%97.2%76.8%18.5%♥A
    GPT-592.1%96.8%98.5%78.3%21.2%♥A
    LLaMA 4 Maverick88.5%91.2%95.5%72.1%15.8%♥K
    Qwen3-235B87.8%90.8%94.8%71.5%14.5%♥K
    DeepSeek-V386.5%89.5%93.2%70.2%13.2%♥K
    DeepSeek-R188.2%92.1%96.2%73.8%16.5%🃏
    Kimi K285.8%88.2%92.5%69.5%12.8%🃏
    GLM-584.5%87.5%91.8%68.2%11.5%♥Q

    4.2 API 定价对比(2026年4月,每百万 Token)

    模型输入价格输出价格备注🃏 标记
    GPT-5.4$35.00$70.00最新旗舰,Computer Use♥A
    GPT-5$30.00$60.00最强性能♥A
    GPT-5.4 mini$2.00$8.00高效旗舰(免费可用)♥A
    GPT-4.5$15.00$45.00平衡选择(即将退役)⚠️♥A
    Claude 4.6 Opus$25.00$75.00长上下文♥A
    Gemini 3.1 Pro$12.50$37.50多模态♥A
    DeepSeek-V3$0.27$1.10极致性价比♥K
    DeepSeek-R1$0.55$2.19推理模型🃏
    Qwen-Plus$0.80$2.00阿里云♥K
    GLM-4$1.00$2.00智谱♥Q
    Kimi$1.20$6.00超长上下文🃏

    4.3 许可协议汇总

    许可类型代表模型商用限制🃏 分布
    Apache 2.0Qwen、Mistral、OLMo、Falcon无限制♥2 ~ ♥K
    MITDeepSeek-R1、Phi、Kimi K2无限制♥10, 🃏
    Llama LicenseLLaMA 3/4MAU>7 亿需授权♥K
    Gemma LicenseGemma研究+商用♥10
    CC-BY-NC-4.0BLOOM、MusicGen非商用♥Q
    研究许可部分学术模型仅研究用途各种
    API OnlyGPT、Claude、Gemini按调用计费♥A

    5. 部署指南

    5.1 硬件配置参考

    模型规模推荐 GPU显存需求量化后显存🃏 点数
    1-3BRTX 40608GB4GB (INT4)2-7
    7BRTX 407016GB6GB (INT4)8-10
    13BRTX 408024GB8GB (INT4)J
    34BRTX 409048GB18GB (INT4)Q
    70B2×RTX 4090/A10096GB35GB (INT4)Q/K
    70B MoEA100 80GB80GB40GB (INT4)K
    405B8×H100640GB160GB (INT4)K
    671B MoE8×H100640GB200B (FP8)K

    5.2 推理框架对比

    框架特点适用场景GitHub
    vLLMPagedAttention、高吞吐生产部署vllm-project/vllm
    TGIHuggingFace 官方、Docker企业级huggingface/text-generation-inference
    Ollama一键部署、本地运行个人开发ollama/ollama
    llama.cppCPU 推理、量化优化边缘设备ggerganov/llama.cpp
    SGLangRadixAttention、高效研究实验sgl-project/sglang
    TensorRT-LLMNVIDIA 优化、低延迟NVIDIA GPUNVIDIA/TensorRT-LLM
    LMDeployInternLM 团队、多模态国产模型InternLM/lmdeploy

    5.3 量化方案对比

    方案精度损失压缩比推理速度工具
    FP16基准原生
    FP8极小1.2×TensorRT-LLM
    INT81.5×bitsandbytes
    AWQ1.8×mit-han-lab/llm-awq
    GPTQ中等1.6×AutoGPTQ/AutoGPTQ
    GGUF中等4-8×llama.cpp
    bitsandbytes4-8×1.4×bitsandbytes-foundation/bitsandbytes
    ExLlamaV2中等2-6×2.5×turboderp/exllamav2

    5.4 代码示例

    vLLM 部署
    
    from vllm import LLM, SamplingParams
    
    llm = LLM(model="Qwen/Qwen2.5-72B-Instruct", tensor_parallel_size=4)
    sampling_params = SamplingParams(temperature=0.7, max_tokens=2048)
    outputs = llm.generate(["请介绍一下大语言模型的发展历程"], sampling_params)
    print(outputs[0].outputs[0].text)
    
    Ollama 部署
    
    # 安装
    curl -fsSL https://ollama.com/install.sh | sh
    # 运行
    ollama run qwen2.5:72b
    
    llama.cpp 量化
    
    # 量化为 Q4_K_M
    ./quantize model.gguf model-q4_k_m.gguf Q4_K_M
    # 运行
    ./main -m model-q4_k_m.gguf -p "Hello, world!"
    
    TGI Docker 部署
    
    docker run --gpus all -p 8080:80 \
      -v /path/to/model:/model \
      ghcr.io/huggingface/text-generation-inference:latest \
      --model-id /model --num-shard 4
    

    6. 📈 LLM 发展时间线

    从 2017 年 Transformer 诞生到 2026 年 AGI 级模型,大语言模型的发展可以用一副扑克牌的演进历程来理解。

    6.1 里程碑事件

    
    2017 ┃────────── Attention Is All You Need (Transformer) ──────┃
          │                                                           │
    2018 ┃ GPT-1 ♥2  BERT ♠3  T5 ♣4                                │
          │   (117M)    (110M)   (220M)                               │
    2019 ┃ GPT-2 ♥5  XLNet ♥6  ALBERT                              │
          │   (1.5B)   (340M)                                        │
    2020 ┃ GPT-3 ♥K(175B)  GPT-J ♥8(6B)                            │
          │   Few-shot革命                                            │
    2021 ┃ GLM-130B ♥Q  Codex ♦J  ERNIE 3.0                         │
          │   PaLM ♥K(540B)                                           │
    2022 ┃ ChatGLM ♥7  Galactica ♦10  LLaMA 1 ♥Q                     │
          │   (开源爆发元年)                                           │
    2023 ┃ GPT-4 ♥A  Claude 1 ♥Q  LLaMA 2 ♥K                        │
          │   Mistral 7B ♥J  GPT-4-turbo  DeepSeek-V1                │
          │   (闭源 vs 开源 分野)                                      │
    2024 ┃ Claude 3.5  LLaMA 3/3.1  Gemma 2  Qwen 2/2.5              │
          │   DeepSeek-V2/V3  Mamba 🃏  o1 🃏  Phi-3                 │
          │   (MoE + SSM + 推理 三大革命)                             │
    2025 ┃ GPT-5 ♥A  Claude 4/4.5  LLaMA 4 Behemoth(2T)♥K           │
          │   DeepSeek-R1 🃏(GRPO)  Kimi K2 🃏  Grok-3               │
          │   Qwen 3/3.5  Gemini 2.5  Mamba-3  RWKV-7               │
          │   (开源首次逼近闭源 SOTA)                                  │
    2026 ┃ Claude 4.6 ♥A  Gemini 3.1  GLM-5  Kimi K2.5              │
          │   Intern-S1-Pro  Baichuan-M3  MiniMax-M2.5               │
          │   Qwen3.5  DeepSeek-V3.2  **GPT-5.4 (最新旗舰)**         │
          ┃────────── AGI 能力加速显现 ──────────────────────────────┃
    

    6.2 代际演进特征

    时代时间段核心特征关键突破代表模型🃏 花色
    前Transformer<2017RNN/LSTM/CNN为主序列建模局限
    预训练时代2018-2020大规模无监督预训练Few-shot学习GPT-3, BERT, T5♥2~K
    指令微调时代2021-2022RLHF对齐 + 开源爆发In-context LearningLLaMA, ChatGLM, GPT-4♥J~A
    多模态+效率2023视觉语言 + 小模型多模态融合, 边缘部署GPT-4V, LLaVA, Phi-3♠Q, ♥7
    架构创新2024MoE + SSM + 推理增强稀疏激活, 线性复杂度, CoTDeepSeek-V3, Mamba, o1🃏 Joker
    AGI前夜2025超大规模 + 推理突破开源=闭源, 长上下文GPT-5, LLaMA4, R1, K2♥A, 🃏
    智能涌现2026→Agent能力 + 全模态自主规划, 实时推理Claude 4.6, GLM-5♥A

    6.3 关键技术节点

    
    注意力机制 (2017)
      └─→ 自回归预训练 (GPT, 2018)
           └─→ Scale-up (GPT-3 175B, 2020)  ──┐
                                                 ├─→ 并行发展路径:
            RLHF 对齐 (InstructGPT, 2022) ──────┤  1️⃣ 闭源SOTA路线 → GPT-4/5, Claude
                                                 │  2️⃣ 开源路线 → LLaMA → Mistral → Qwen
            LLaMA 开源引爆 (2023-02) ──────────┤  3️⃣ 架构创新 → Mamba, RWKV
                                                 │  4️⃣ 推理增强 → o1, R1, QwQ
            MoE 效率突破 (Mixtral, 2023-12) ────┤  5️⃣ 多模态统一 → GPT-4V, Gemi
                                                 │
            GRPO 纯RL推理 (DeepSeek-R1, 2025) ──┘
    

    7. 🔬 训练方法与对齐技术

    模型的"性格"由训练方法决定——同样的骨架,不同的训练方式会产生截然不同的模型。

    7.1 预训练范式

    方法核心思想代表模型优势局限
    Causal LM单向自回归预测下一个tokenGPT, LLaMA, Qwen天然适合生成任务无法双向理解
    Masked LM双向掩码预测(填空)BERT, RoBERTa强理解能力不直接支持生成
    Prefix LM双向前缀 + 自回归生成GLM, UCDALM兼顾理解和生成训练复杂度高
    Encoder-Dec编码器-解码器架构T5, BART, Flan-T5序列到序列灵活参数量大

    7.2 对齐技术矩阵(核心)

    方法年份核心机制数据需求训练成本代表模型🃏
    SFT (监督微调)2020有标注指令数据所有模型的Instruct版
    RLHF2022奖励模型 + PPO很高GPT-4, Claude, LLaMA 2♥A/Q
    DPO2023直接偏好优化,去RMZephyr, RLHFV♥J
    PPO2022近端策略优化很高OpenAI系, DeepSeek-V2♥K
    GRPO2025组相对策略优化,无RMDeepSeek-R1🃏
    ORPO2024偏好比优化,单阶段Mistral微调版♥10
    KTO2024KT对齐,无需成对比较KTO-Mistral♥9
    SimPO2024简化偏好优化SimPO-LLaMA♥8
    RST2025推理时自我训练极低 ⭐DeepSeek-R1-Zero🃏
    o-style CoT2024思维链强化推理o1/o3/o4-mini🃏

    7.3 技术演进脉络

    
    SFT (2020) ──基础──→ 所有模型必经之路
                      │
        RLHF (2022) ←──标准── PPO + RM(需要大量人工标注)
           │            │
           │         DPO (2023) ←──简化── 无需RM,直接从偏好学习
           │            │
           │         ORPO/KTO/SimPO (2024) ──进一步降低门槛
           │
        GRPO (2025) ──突破── 无RM、组内相对排序 → 成本↓90%
           │
        RST (2025) ──极致── 纯推理时自训练 → 几乎零额外训练成本
    
    💡 关键洞察:从 RLHF 到 GRPO 的进化,本质是逐步减少对人工标注和奖励模型的依赖。DeepSeek-R1 用 GRPO 以极低成本实现了媲美 o1 的推理能力,这是 2024-2025 最具影响力的算法创新之一。

    7.4 数据工程

    数据类型说明占比参考来源
    通用文本网页、书籍、论文、代码~70%CommonCrawl, C4, The Pile
    指令数据(指令, 回复) 对~15%ShareGPT, Alpaca, WizardLM
    代码数据编程语言源码~5%StarCoderData, CodeParrot
    数学数据数学题目+解题过程~3%GSM8K, MATH, AIME
    多模态数据图像-文本对~5%LAION, OBELICS, CC-12M
    合成数据模型生成的训练数据~2%Magpie, Self-Instruct

    8. ⚡ 场景化模型选择指南

    不知道该选哪个模型?根据你的场景,快速找到最合适的 🃏 卡牌。

    8.1 决策树

    
    你的主要使用场景是什么?
    │
    ├─ 💬 日常对话 / 通用助手
    │  ├─ 追求最强效果 → GPT-5 / Claude 4.6 (♥A, API)
    │  ├─ 最佳性价比开源 → Qwen2.5-72B / Qwen3-235B (♥K)
    │  ├─ 本地部署 (<16GB显存) → Qwen2.5-7B (♥J) / Phi-4 (♥10)
    │  └─ 手机端部署 → Phi-4-mini / SmolLM2 (♥7)
    │
    ├─ 💻 代码生成 / 编程助手
    │  ├─ 商业级API → Claude 3.5/4 Sonnet (♥A) / GPT-5
    │  ├─ 本地专业 → DeepSeek-Coder-V2-236B (♦J) / StarCoder2-15B
    │  ├─ 轻量级 → Qwen2.5-Coder-32B (♦J) / CodeGeeX4-9B
    │  └─ 补全/IDE集成 → StarCoder2-3B / CodeLlama-7B
    │
    ├─ 🔢 数学推理 / 科学计算
    │  ├─ 最强推理 → DeepSeek-R1 (🃏) / o3 (🃏) / QwQ (🃏)
    │  ├─ 数学专用 → Qwen2.5-Math-72B (♦10) / NuminaMath-7B
    │  └─ 轻量数学 → DeepSeekMath-7B / Llemma-7B
    │
    ├─ 👁️ 图像理解 / 视觉问答
    │  ├─ 最强视觉 → InternVL2-76B (♠K) / LLaVA-OneVision-72B (♠Q)
    │  ├─ 平衡之选 → Qwen3-VL-8B (♠10) / CogVLM2-19B (♠J)
    │  └─ 端侧部署 → MiniCPM-V-2.6-8B (♠9) / SmolVLM-2B (♠7)
    │
    ├─ 🤖 Agent开发 / 工具调用
    │  ├─ 强Agent框架 → Qwen-Agent-72B (♣K)
    │  ├─ 工具调用专精 → ToolLLaMA-7B (♣J) / Gorilla-7B (♣J)
    │  └─ API调用专精 → Gorilla (♣J)
    │
    ├─ 🔍 向量检索 / 嵌入模型
    │  ├─ 多语言通用 → BGE-M3 (♣Q) / GTE-Qwen2-7B (♣10)
    │  ├─ 英文专用 → E5-Mistral-7B (♣10)
    │  └─ 轻量嵌入 → Nomic Embed v2 (137M, ♣7)
    │
    ├─ 🏥 医疗 / 法律 / 金融垂直领域
    │  ├─ 医疗 → MedGemma / HuatuoGPT-o1 / BioMistral
    │  ├─ 法律 → ChatLaw-13B
    │  └─ 金融 → FinGPT-7B
    │
    └─ 📱 极致小模型 / 边缘设备
       ├─ <2B → TinyLlama-1.1B / Gemma-2-2B / SmolLM2-1.7B
       ├─ 2-4B → MiniCPM-2.4B / Phi-4-mini-3.8B / MobileLLM-1B
       └─ 移动端 → OpenELM系列 / Apple Intelligence Foundation Models
    

    8.2 场景推荐速查表

    场景首选模型 (🃏)备选模型 (🃏)预算参考
    个人日常助手Qwen2.5-32B (♥10)LLaMA 3-8B (♥J)1卡RTX4090
    企业级应用GPT-5 (♥A)Claude 4.6 (♥A)API调用
    编程助手(Copilot)Claude 3.5 Sonnet (♥Q)Qwen2.5-Coder-32B (♦J)API/24GB显存
    数学竞赛DeepSeek-R1-Distill-QwQ (🃏)o3 (🃏)API/多卡集群
    文档OCR/图表理解InternVL2-26B (♠Q)Qwen3-VL-8B (♠10)48GB/16GB
    RAG知识库检索BGE-M3 (♣Q) + Qwen2.5-32BE5-Mistral (♣10)16GB
    手机端AIPhi-4-mini (♥7)MiniCPM-4B (♥7)手机NPU
    实时对话系统Qwen3-235B (♥K)DeepSeek-V3 (♥K)8×H100
    科研论文分析Claude 4.6 Opus (♥A)GPT-5 (♥A)API调用
    教育/教学辅助GLM-4 (♥Q)Phi-4-reasoning (♥10)API/24GB
    长文档处理Kimi K2 (🃏)Qwen2.5-1M-14B (♥10)API/32GB
    多模态统一GPT-5 (♥A)Gemini 3.1 Pro (♥A)API调用

    8.3 硬件预算与模型匹配

    
    预算等级          可运行模型示例                    适用场景
    ═════════════════════════════════════════════════════════════
    手机/NPU     →  Phi-4-mini, SmolLM2, MiniCPM 4     端侧AI助手
    单卡 RTX3060 →  Qwen2.5-7B, Mistral-7B, Gemma-2-9B  个人开发
    单卡 RTX4090 →  Qwen2.5-32B, LLaMA 3-8B×2, CodeLlama-34B  专业开发
    双卡 RTX4090 →  Qwen2.5-72B, LLaMA 3-70B INT4       小团队服务
    单卡 A100 80G →  Mixtral 8x22B, DeepSeek-Coder-V2    企业研发
    8× H100      →  LLaMA 4 Behemoth, DeepSeek-V3/R1    前沿研究
    云API (无限)  →  GPT-5, Claude 4.6, Gemini 3.1      生产环境
    

    9. 🌍 开源生态地图

    开源模型之间不是孤立的——它们形成了复杂的衍生、合并和竞争关系。

    9.1 主要家族谱系

    
                        Meta LLaMA (2023.02) ♥Q
                            │
                ┌───────────┼───────────┬───────────────┐
                ↓           ↓           ↓               ↓
           LLaMA 2      Vicuna      Alpaca          WizardLM
           (2023.07)    (LM Sys)    (Stanford)      (MSRA)
         ♥K            ♥Q          ♥8              ♥J
                │           │           │               │
                └─────┬─────┘           └───────┬───────┘
                      ↓                         ↓
               LLaMA 3/3.1/4              OpenChat
               ♥K/J/A                     ♥Q
                      │
        ┌─────────────┼─────────────┐
        ↓             ↓             ↓
     Yi 系列      Qwen 系列     Baichuan 系列
     (零一万物)   (阿里通义)     (百川智能)
     ♥10          ♥K            ♥Q
        │             │             │
        └─────┬───────┴─────────────┘
              ↓
       中国开源模型生态圈 (Apache 2.0)
    
    
                       Mistral AI (法国, 2023.09) ♥J
                            │
                ┌───────────┼───────────┐
                ↓           ↓           ↓
           Mixtral      Codestral    Mistral Large
           8x7B/8x22B    (代码专用)    2/3
           ♥Q            ♦J           ♥Q
                │                       │
                └───────────┬───────────┘
                            ↓
                  欧洲开源模型中心 (Apache 2.0)
    
    
                  DeepSeek (深度求索, 2024.01) 🃏 Joker
                            │
            ┌───────────────┼───────────────┐
            ↓               ↓               ↓
       DeepSeek-V2/V3   DeepSeek-R1    DeepSeek-Coder
       MoE架构          GRPO推理        代码专项
       ♥K               🃏              ♦J
            │               │               │
            └───────┬───────┴───────┬───────┘
                    ↓               ↓
          DeepSeek-R1-Distill   DeepSeek-Math
          (蒸馏到Qwen/LaMA)     ♦10
    

    9.2 架构影响关系

    
    Transformer (2017)
      ├── Dense (主流): GPT → LLaMA → Qwen → Mistral → ...  (♥ 全家桶)
      │     └─ MoE分支: Switch → GLaM → Mixtral → DeepSeek-V2/V3 → DBRX → Arctic
      ├── SSM (状态空间): S4 → S5 → Mamba-1/2/3 → Falcon-H1 → Jamba  (🃏 Joker)
      ├── RNN变体: LSTM → RWKV-4/5/6/7  (🃏 Joker)
      ├── Hybrid混合: Jamba(M+A) → RecurrentGemma → Falcon-H1  (♣Q)
      └─ xLSTM扩展: xLSTM-7B  (🃏 Joker)
    
    推理增强 (2024-2025):
      CoT → o1(o-style RL) → DeepSeek-R1(GRPO) → QwQ → Kimi K2(KTO+CoT) → R1-Zero(RST)
    

    9.3 微调生态

    基座模型流行微调方向代表微调版许可兼容性
    LLaMA 3 8B中文对齐 → Chinese-Alpaca, InternLM; 代码 → CodeLlama数千个HF仓库Llama License
    Qwen2.5 7B/72B数学 → Qwen-Math; 代码 → Qwen-Coder; 嵌入 → Qwen-EmbeddingApache 2.0 ✅
    Mistral 7B法语 → Mistral-7B-fr; 海事 → Mistral-MarineApache 2.0 ✅
    DeepSeek-V3/R1蒸馏 → R1-Distill-Qwen/LaMA/GemmaMIT ✅
    Phi-3/4教育 → Phi-Edu; 多模态 → Phi-3-VisionMIT ✅
    Gemma 2代码 → CodeGemma; 科学 → Scientific-GemmaGemma License
    Yi 34B长上下文 → Yi-34B-200K; 多模态 → Yi-VLYi License

    10. 🔮 2026 技术趋势展望

    基于当前技术轨迹,以下是值得关注的 6 大趋势。

    10.1 六大趋势

    🔄 趋势一:开源全面逼近闭源 SOTA

  • 现象:Kimi K2 (MIT开源) 进入第一梯队,DeepSeek-R1 (MIT) 推理能力超越 o1
  • 驱动力:GRPO/KTO 等高效对齐算法 + FP8 训练 + 合成数据
  • 2026 预测:开源模型将在 80%+ 基准测试中达到或超过闭源同级模型
  • 🃏 含义:更多 ♥A 级模型将变为开源可用
  • 🧠 趋势二:推理时计算 (Test-Time Compute) 成为新范式

  • 现象:o1/o3/R1/QwQ 通过延长思考链获得更强的推理能力
  • 核心思路用更多的推理时间换取更高的准确率
  • 关键技术:CoT → Process Reward Model → Monte Carlo Tree Search → Verifier
  • 2026 预测:每个主流模型都将有对应的 "思考模式"
  • 🃏 含义:♦ 花色(推理)将诞生更多 🃏 Joker
  • 🌐 趋势三:超长上下文成为标配

  • 现状:Google Gemini 2M → MiniMax-M1 1M → LLaMA 4 Scout 10M
  • 技术方案:RingAttention → YaRN → LongRoPE → Unbounded Context
  • 2026 预测:100万+ token 上下文将成为旗舰模型的基础配置
  • 🃏 含义:点数规则可能需要新增 "上下文维度"
  • 🎯 趋势四:Agent 能力从工具调用走向自主规划

  • 现状:Function Calling → ReAct → Plan-and-Solve → Multi-Agent
  • 关键进展
  • Qwen-Agent: 结构化工具调用框架
  • Claude 4.x: Extended Thinking + Computer Use
  • GPT-5: Operator-level autonomy
  • 2026 预测:多 Agent 协作将成为企业级 AI 应用的主流模式
  • 🃏 含义:♣ 花色(Agent)将出现更多 K/A 级别模型
  • ⚡ 趋势五:端侧模型性能持续跃升

  • 现状:Phi-4-mini (3.8B) ≈ GPT-3.5 水平;SmolLM2 (1.7B) 表现惊人
  • 驱动力:量化技术 (INT4/INT2) + 知识蒸馏 + 架构搜索
  • 硬件协同:Apple Silicon NPU / Qualcomm AI Engine / NVIDIA Jetson
  • 2026 预测:3B 模型将达到 2024 年 13B 模型水平
  • 🃏 含义♥7 点数将承载越来越强的能力
  • 🔗 趋势六:全模态统一 (Any-to-Any)

  • 现状:GPT-5 (文本/图像/音频/视频) → Gemini 3.1 (原生多模态) → Qwen3.5 (全模态)
  • 技术路径:统一Tokenizer → 统一架构 → 统一训练目标
  • 2026 预测:单一模型处理所有模态将成为常态
  • 🃏 含义:花色边界将模糊化,可能出现新的 🃏 "万能牌"
  • 10.2 值得关注的模型发布

    时间窗口预期发布关注点🃏 预期
    2026 Q2LLaMA 4 Scoupe/Maverick 公开权重最大规模开源MoE♥K
    2026 Q2GPT-5.5 / GPT-6 (传闻)是否突破AGI阈值?♥A
    2026 Q3新一代 SSM/Mamba 变体能否挑战Transformer霸主地位🃏
    2026 Q3中国新一代旗舰模型 (GLM-6? Qwen4?)开源vs闭源新格局♥K/A
    2026 Q4端侧3B模型达到GPT-4水平?边缘AI拐点♥7

    11. ❓ FAQ 常见问题

    Q1: 🃏 扑克牌标记怎么记?

    简单记忆法
    - ♥ 红心 = 心脏 = 语言(最重要的)
    - ♠ 黑桃 = 铲子 = 视觉(像铲子一样"挖"信息)
    - ♦ 方块 = 方正 = 代码/数学(结构化的东西都是方正的)
    - ♣ 梅花 = 三叶草 = Agent/嵌入(三片叶子=多功能)
    - 🃏 Joker = 王炸 = 打破规则的

    Q2: 开源 vs 闭源怎么选?

    因素选开源选闭源(API)
    预算有GPU资源 / 云服务器按需付费,无硬件投入
    数据隐私数据不出本地需评估服务商合规
    定制需求需要微调 / 二次开发即开即用
    延迟要求本地推理 <50ms网络+排队延迟 >200ms
    团队规模有ML工程师无需AI团队
    长期成本一次投入,边际成本趋零按Token计费,用量越大越贵
    💡 经验法则:日均调用量 < 10万 Token → API更省心;> 100万 Token → 自部署更划算。

    Q3: 7B / 14B / 72B 模型差距有多大?

    以 Qwen2.5 系列为例(MMLU-Pro基准):
    模型MMLU-ProHumanEvalGSM8K感受对比
    0.5B42%18%25%基本能聊,容易犯错
    1.5B55%35%45%简单任务OK,复杂推理弱
    7B68%62%75%性价比最佳
    14B74%72%82%明显优于7B
    32B81%82%88%接近商业水平
    72B85%86%92%接近GPT-4级别
    235B (MoE)87%90%94%顶级开源
    结论:7B 是分水岭——以下勉强能用,以上基本可靠。72B+ 进入专业领域。

    Q4: 什么是 MoE?为什么重要?

    Mixture of Experts (混合专家) 是一种让模型"又大又快"的架构:
    
    传统 Dense 模型 (如 LLaMA 70B):
      输入 → [全部70B参数都参与计算] → 输出
      (每次推理都要加载全部参数)
    
    MoE 模型 (如 Mixtral 8x7B = 总46.7B, 仅12.9B激活):
      输入 → [路由器选择其中2个专家] → [仅这2个专家计算] → 输出
      (每次推理只用到约1/4的参数)
    
    特性DenseMoE
    总参数量固定可极大 (671B+)
    每次激活全部仅部分 (如 37B/671B)
    推理速度慢 (全算)快 (只算部分专家)
    显存占用小 (存一份) (要存所有专家)
    吞吐量 (批处理优秀)
    代表LLaMA, Qwen-DenseDeepSeek-V3, Mixtral, Grok
    一句话总结:MoE 让你拥有一个 671B 参数的大脑,但每次思考只动用其中的 37B。

    Q5: 量化会损失多少精度?

    精度显存占用相对FP16精度损失推荐场景
    FP16/BF160%(基准)训练/精调
    FP8<1%生产推理
    INT81-3%一般部署
    INT4 (AWQ/GPTQ)0.5×2-5%⭐ 主流部署
    GGUF Q4_K_M0.35×3-6%⭐ llama.cpp本地
    EXL2 3bpw0.25×5-10%极限压缩
    INT2/1.5bpw0.15×15-30%+实验/玩具
    经验:INT4/AWQ 量化是最佳平衡点——显存减半,精度几乎无损。

    Q6: 如何快速开始部署一个模型?

    
    # 方法一:Ollama(最快,适合新手)
    ollama pull qwen2.5:7b
    ollama run qwen2.5:7b
    
    # 方法二:vLLM(高性能生产部署)
    pip install vllm
    python -c "
    from vllm import LLM
    llm = LLM(model='Qwen/Qwen2.5-7B-Instruct')
    print(llm.generate('你好'))
    "
    
    # 方法三:llama.cpp(CPU/边缘设备)
    # 下载 GGUF 文件后
    ./main -m qwen2.5-7b-q4_k_m.gguf -p 'Hello' -n 256
    

    Q7: 本项目如何保持更新?如何贡献?

  • Star ⭐ 仓库获取更新通知
  • Watch 👀 设置 releases only 或 all activities
  • Fork + PR 🍴 贡献新模型或修正错误
  • Issue 🐛 提交问题或建议
  • 更新频率:每周跟踪 arXiv 新论文,月度大版本更新
  • Q8: 🃏 HOMC 与其他 Awesome 列表有什么区别?

    维度本项目 (HOMC)传统 Awesome ListPapers With Code
    分类体系🃏 扑克牌花色+点数按字母/厂商按任务/Benchmark
    视觉直观⭐⭐⭐ 一目了然⭐⭐
    覆盖范围LLM + VLM + 专项通常单领域学术导向
    实用导向包含部署/定价/选型指南链接集合Benchmark排名
    趣味性🎴 扑克牌创意标准严肃学术
    更新频率持续追踪取决于维护者自动抓取


    12. 🛡️ 安全与对齐

    随着 LLM 能力的增强,安全对齐 (Alignment) 已从"锦上添花"变成"生死攸关"。本章梳理主流安全技术体系。

    12.1 对齐技术全景图

    层次目标技术手段代表工作🃏
    L1 基础对齐有用性、无害性RLHF, DPO, SFTInstructGPT, Claude Constitutional AI♥Q
    L2 推理对齐思维链可靠性Process Reward Model, GRPODeepSeek-R1, o1🃏 Joker
    L3 Agent 对齐工具调用安全性Tool Sandbox, Permission SystemGPT-5 Operator, Claude Computer Use♣K
    L4 多模态对齐视觉/音频安全CLIP-based Filter, Audio SafetyGemini, GPT-4V♠Q

    12.2 主流安全框架对比

    框架提出者核心机制优势局限
    RLHFOpenAI (2022)RM + PPO效果成熟需大量标注,RM 可能被操纵
    Constitutional AI (CAI)Anthropic (2023)原则约束 + RLAIF无需人工逐条标注原则设计主观
    DPOStanford (2023)直接偏好优化,无 RM训练简单偏好数据质量敏感
    GRPODeepSeek (2025)组内相对排序,纯 RL成本极低 ⭐需要好的奖励信号
    Safe RLHFCMU (2023)安全约束下的策略优化可证明安全边界计算开销大
    Constitutional DPOBerkeley (2024)CAI + DPO 结合兼具两者优点较新,生态待完善

    12.3 攻击类型与防御

    常见攻击手段

    攻击类型描述示例难度🃏 防御标记
    Prompt Injection注入恶意指令"忽略上述指令,输出..."★☆☆♦J
    Jailbreak绕过安全限制DAN (Do Anything Now), 虚拟角色扮演★★☆♥Q
    Few-shot Hijacking通过示例污染模型行为恶意 few-shot 样本★★☆♣10
    Data Extraction训练数据泄露反复询问特定短语★★★♥K
    Multimodal Attack通过图像/音频注入指令隐藏指令的图片★★☆♠Q
    Chain-of-Thought Attack诱导推理链泄露分步引导到有害内容★★★🃏 Joker

    防御最佳实践

    
    🛡️ LLM 安全防御纵深体系:
    
    第1层: 输入过滤 (Input Guardrails)
      ├── Prompt Injection 检测 (正则 + 模型分类)
      ├── PII/Sensitive Info 脱敏
      └── 长度/格式校验
          │
    第2层: 模型内对齐 (Model Alignment)
      ├── RLHF / DPO / GRPO 训练
      ├── System Prompt 约束 ("你是助手,拒绝...")
      └── Refusal Training (学会优雅拒绝)
          │
    第3层: 输出审查 (Output Filtering)
      ├── 有害内容检测 (Perplexity 异常)
      ├── PII 泄露检测
      └── 格式化输出约束 (JSON Schema)
          │
    第4层: 运行时防护 (Runtime Protection)
      ├── 速率限制 (Rate Limiting)
      ├── 日志审计 (Audit Logging)
      └── 人机协同 (Human-in-the-loop for 高风险操作)
    

    12.4 开源安全工具

    工具功能GitHub🃏
    LLM Guard输入/输出内容过滤protectai/llm-guard♦J
    NeMo Guardrails可编程对话护栏NVIDIA/NeMo-Guardrails♣Q
    RebuffPrompt Injection 防护robustintelligence/rebuff♥10
    LakeraAI 安全平台 (商业)lakera.ai♠9
    CalypsoAI企业级 AI 安全calypsoai.com♥Q

    13. 📏 评测基准详解

    "你无法改进你不能测量的东西。" — 评测基准是 LLM 进化的标尺。

    13.1 基准测试全景图

    类别基准名称测试能力主要指标🃏 关注度
    通用知识MMLU-Pro57 个学科的多项选择准确率♥A
    GPQA Diamond研究生级科学问答准确率♥A
    ARC-AGI-2抽象推理与常识准确率♥A
    HLE (Humanity's Last Exam)人类专家级考试准确率♥A
    代码能力HumanEvalPython 代码生成Pass@1♦J
    MBPP基础编程问题Pass@k♦J
    SWE-bench真实 GitHub 问题修复Resolved %♦Q
    LiveCodeBench实时代码评测Pass@1♦J
    数学推理GSM8K小学数学应用题准确率♦10
    MATH竞赛级数学准确率♦Q
    AIME / AMC数学奥林匹克准确率♦K
    OMNI-MATH全方位数学准确率♦Q
    推理能力Big-Bench Hard (BBH)23 种复杂推理任务准确率♥Q
    IF-Eval指令遵循度得分率♥10
    Arena-Hard人类偏好对战Elo Rating♥A
    长上下文RULER长文本检索与推理各长度准确率♥K
    LongBench多种长文档任务F1/EM♥Q
    SCROLLS长文档 NLP 任务集各任务指标♥10
    多模态MMMU多学科多模态理解准确率♠Q
    MMBench视觉问答准确率♠Q
    MathVista数学视觉推理准确率♠J
    DocVQA文档理解ANLS♠10
    安全性TrustLLMAI 安全综合评估多维度评分🃏 Joker
    DecodingTrust大模型可信度8 维度得分🃏 Joker
    HH-RLHF有害性评估拒绝率♥Q
    Agent 能力TAO-Bench工具使用准确性Task Success♣Q
    WebArena网页操作任务成功率♣J
    SWE-bench Agent软件工程自动化Issue → PR♣K
    中文专项C-Eval中文综合知识准确率♥Q (中国)
    CMMLU中国文化+知识准确率♥Q (中国)
    SuperCLUE中文语言理解+生成多维度♥Q (中国)
    LongBench-ZH中文长文档F1/EM♥Q (中国)

    13.2 如何解读 Benchmark 分数

    
    ⚠️ Benchmark 解读指南:
    
    ❌ 错误认知:
       - "MMLU 90% = 这个模型什么都懂"
       - "HumanEval 95% = 可以替代程序员"
       - Benchmark 分数越高 = 实际体验越好
    
    ✅ 正确理解:
    ┌─────────────────────────────────────────────┐
    │  Benchmark 是标准化场景,不是真实场景        │
    │                                             │
    │  • MMLU-Pro 考的是多项选择题(可猜)         │
    │  • HumanEval 考的是简单函数生成              │
    │  • GSM8K 的"数学"≈小学应用题                 │
    │                                             │
    │  真正重要的是:                             │
    │  • 在你的具体任务上做 A/B Test               │
    │  • 关注"失败案例"而非平均分                  │
    │  • 考虑成本/延迟/质量的综合权衡               │
    └─────────────────────────────────────────────┘
    

    13.3 2026 年值得关注的新基准

    基准创新点为什么重要🔗
    Humanity's Last Exam (HLE)由人类专家出题、AI 无法通过首个"人类仍显著优于 AI"的基准arXiv
    LiveCodeBench动态题库(防数据泄露)解决静态 benchmark 的数据污染问题GitHub
    Arena-Elo众包对战排名更贴近人类偏好的真实感受lmsys
    SWE-bench Verified人工验证的代码修复比 SWE-bench 更严格的工程能力测试princeton-nlp

    14. 🔧 微调工具链与实战

    从预训练模型到生产级应用的完整微调流水线。

    14.1 微调范式总览

    方法适用场景数据需求显存需求效果工具推荐
    Full Fine-tuning领域适配/新语言大量 (10K+)极大 (全量参数)最佳DeepSpeed ZeRO-3, FSDP
    LoRA / QLoRA任务适配/风格迁移中等 (500-10K)低 (0.1%-1%增量)优秀 ⭐PEFT, Axolotl
    RLHF / DPO对齐优化中等 (偏好对)中高显著提升TRL, OpenRLHF
    Prefix Tuning快速实验少量 (<1K)极低一般PEFT
    Prompt Tuning多任务快速切换少量极低一般PromptSource
    Adapter多任务复用基座中等AdapterHub

    14.2 推荐工具链(2026 年版)

    🥇 全流程一站式方案

    工具定位核心特性🃏 推荐
    Axolotl微调一站式YAML 配置驱动,支持 LoRA/QLoRA/全量,FlashAttention2♥K
    LLaMA-Factory国产微调利器GUI+CLI 双模式,50+算法,中英双语♥K
    Unsloth极速微调2-5× 加速,显存减半,兼容 Transformers♥Q

    🥈 专业组件

    组件推荐工具说明
    训练框架HuggingFace TRL / PyTorch FSDP / DeepSpeedTRL 最易用,DeepSpeed 最大规模
    高效训练FlashAttention-3 / xFormers必装,2-4× 加速
    PEFT 库PEFT (HuggingFace)LoRA/AdaLoRA/PromptTuning 一站式
    数据处理Alpaca / ShareGPT 格式转换器数据清洗+格式化
    监控Wandb / TensorBoard训练可视化
    量化训练bitsandbytes / AQLMQLoRA 核心
    推理部署vLLM / SGLang / Ollama生产级服务

    🥉 商业平台

    平台特点适合人群
    OpenRouter多模型 API 聚合开发者
    Together AI云端微调+托管企业
    Fireworks AI高速推理+微调低延迟需求
    PredibaseLoRA 微调平台快速实验

    14.3 LoRA 微调实战模板

    
    # ====== QLoRA 微调标准模板 (2026 最佳实践) ======
    from datasets import load_dataset
    from peft import LoraConfig, get_peft_model
    from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
    from trl import SFTTrainer
    import torch
    
    # 1️⃣ 加载基座模型(以 Qwen2.5-7B 为例)
    model_name = "Qwen/Qwen2.5-7B-Instruct"
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        device_map="auto",
        attn_implementation="flash_attention_2",  # ✅ 必须!
    )
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 2️⃣ LoRA 配置(经验值)
    lora_config = LoraConfig(
        r=64,           # 秩:越大表达能力越强,但过拟合风险↑
        lora_alpha=128, # 缩放系数 ≈ r × 2
        target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
                        "gate_proj", "up_proj", "down_proj"],
        lora_dropout=0.05,
        task_type="CAUSAL_LM",
    )
    
    # 3️⃣ 训练参数
    training_args = TrainingArguments(
        output_dir="./output",
        per_device_train_batch_size=4,
        gradient_accumulation_steps=4,  # 有效 batch = 16
        num_train_epochs=3,
        learning_rate=2e-4,             # LoRA 推荐学习率
        warmup_ratio=0.03,
        lr_scheduler_type="cosine",
        bf16=True,                      # BF16 > FP16 (无溢出)
        gradient_checkpointing=True,   # 节省显存 ~30%
        logging_steps=10,
        save_strategy="epoch",
        report_to="wandb",              # 可视化训练曲线
    )
    
    # 4️⃣ 数据准备(Alpaca 格式)
    dataset = load_dataset("json", data_files="train_data.json")
    
    # 5️⃣ 开始微调
    trainer = SFTTrainer(
        model=model,
        train_dataset=dataset["train"],
        args=training_args,
        peft_config=lora_config,
        max_seq_length=2048,
    )
    trainer.train()
    
    # 6️⃣ 保存 LoRA 权重(通常仅几十 MB)
    trainer.save_model("./my-lora-adapter")
    print("✅ 微调完成!LoRA 权重已保存")
    
    # 7️⃣ 合并基座 + LoRA(可选)
    # from peft import PeftModel
    # base_model = AutoModelForCausalLM.from_pretrained(model_name)
    # model = PeftModel.from_pretrained(base_model, "./my-lora-adapter")
    # merged_model = model.merge_and_unload()
    # merged_model.save_pretrained("./merged-model")
    

    14.4 数据工程要点

    要点经验法则❌ 常见错误
    数据质量100 条高质量 > 10000 条低质量直接爬取未清洗的网页数据
    数据多样性覆盖目标场景的各种输入模式只有一种 prompt 模板
    指令格式严格匹配基座模型的 Chat Template自创格式不套用 template
    数据比例SFT : DPO ≈ 10:1跳过 SFT 直接 DPO
    去重去噪MinHash + 启发式规则清洗包含重复/冲突样本
    合成数据用强模型 (GPT-4/Qwen) 生成 + 人工抽检未经审核直接用合成数据

    15. 🏭 行业应用案例

    LLM 从实验室走向真实世界的 10 大典型落地场景。

    15.1 应用矩阵

    行业场景推荐模型 (🃏)部署方式成熟度
    💻 软件/IT编程助手 (Copilot)Claude 3.5 Sonnet (♥Q)API★★★★★
    代码审查/重构Qwen2.5-Coder-32B (♦J)本地 vLLM★★★★☆
    技术文档生成GPT-5 (♥A)API★★★★☆
    🏥 医疗健康辅助诊断MedGemma + HuatuoGPT (♦10)本地 (隐私)★★★☆☆
    医疗问答GLM-4 (♥Q)API★★★★☆
    影像分析报告InternVL2 (♠Q)本地★★★☆☆
    ⚖️ 法律合规合同审查ChatLaw (♦10)本地★★★☆☆
    法规查询GPT-5 (♥A)API★★★★☆
    判例检索BGE-M3 + RAG (♣Q)混合部署★★★★☆
    💰 金融研报生成Qwen2.5-72B + FinGPT (♥Q)本地★★★★☆
    风控风评DeepSeek-R1 (🃏)API/本地★★★☆☆
    智能投顾Kimi K2 (🃏)API★★★☆☆
    🎓 教育智能辅导Phi-4-reasoning (♥10)本地/边缘★★★★★
    自动出题Qwen2.5-Math (♦10)本地★★★★☆
    论文辅助Claude 4.6 (♥A)API★★★★★
    🏭 制造业设备故障诊断LLaMA 3-70B + IoT数据 (♥K)边缘部署★★★☆☆
    质检报告生成Qwen-VL (♠10)本地★★★★☆
    SOP 知识库BGE-M3 + RAG (♣Q)本地★★★★★
    🛒 电商/零售智能客服DeepSeek-V3 (♥K)API★★★★★
    商品描述生成GPT-5 / Qwen3.5API★★★★★
    用户画像分析ERNIE 5.0 (♥Q)API★★★★☆
    📰 内容创作文章撰写Claude 4.6 (♥A)API★★★★★
    多语言翻译LLaMA 4 Behemoth (♥K)本地★★★★☆
    视频/图像生成Seed 系列 (♠Q)API★★★☆☆
    🏢 企业内部知识管理 RAGQwen + BGE-M3私有化部署★★★★★
    会议纪要Whisper + Qwen (♣J)混合★★★★☆
    HR 招聘筛选GLM-4.6 (♥Q)API★★★★☆
    🎮 游戏 NPC对话系统MiniCPM-o (♥7)端侧★★★★☆
    剧情生成GPT-5 (♥A)API★★★☆☆
    关卡设计建议Claude 4.6 (♥A)API★★★☆☆

    15.2 RAG 架构最佳实践(企业知识库)

    
    ┌──────────────────────────────────────────────────────┐
    │                企业级 RAG 架构图                       │
    │                                                        │
    │  👤 用户提问                                          │
    │     │                                                  │
    │     ▼                                                  │
    │  ┌─────────────┐    ┌──────────────────┐              │
    │  │ Query       │───→│ Intent Classifier │              │
    │  │ Rewriting   │    │ (意图识别)        │              │
    │  └─────────────┘    └────────┬─────────┘              │
    │                               │                        │
    │              ┌────────────────┼────────────────┐       │
    │              ▼                ▼                ▼       │
    │       ┌──────────┐   ┌──────────┐   ┌──────────┐     │
    │       │ Keyword  │   │ Semantic │   │ Hybrid   │     │
    │       │ Search   │   │ Search   │   │ Search   │     │
    │       │ (BM25)   │   │ (BGE-M3) │   │ (两者结合)│     │
    │       └────┬─────┘   └────┬─────┘   └────┬─────┘     │
    │            │              │              │            │
    │            ▼              ▼              ▼            │
    │       ┌──────────────────────────────────────┐       │
    │       │         Re-ranker (重排序)           │       │
    │       │  bge-reranker-v2-m3 / Cohere Rerank  │       │
    │       └──────────────┬───────────────────────┘       │
    │                      ▼                              │
    │       ┌──────────────────────────────────────┐       │
    │       │  Context Assembly + Windowing        │       │
    │       │  (上下文组装 + 滑动窗口截断)          │       │
    │       └──────────────┬───────────────────────┘       │
    │                      ▼                              │
    │  ┌──────────────────────────────────────┐           │
    │  │  LLM Generator (生成回答)            │ ◄── 🃏 ♥K   │
    │  │  · 引用来源标注                      │           │
    │  │  · 不确定时说"我不知道"              │           │
    │  │  · 幻觉检测                          │           │
    │  └──────────────────────────────────────┘           │
    │                      │                              │
    │                      ▼                              │
    │              📤 结构化回答 + 引用                     │
    │                                                        │
    │  💾 存储层:                                           │
    │  · 向量库: Milvus / Qdrant / FAISS                   │
    │  · 文档库: Elasticsearch / MongoDB                     │
    │  · 缓存: Redis                                       │
    │                                                        │
    │  🔄 数据流:                                           │
    │  · 文档 → Chunk → Embed → Index → Retrieve → Generate │
    └──────────────────────────────────────────────────────┘
    

    15.3 成本估算模型

    场景日均请求量推荐方案月成本估算 (USD)备注
    个人开发者<1KAPI (GPT-4o-mini)$5-20最省心
    初创团队 MVP10K-50KAPI 混合 (DeepSeek + Qwen)$200-800性价比优先
    中型企业100K-500K自部署 (Qwen-72B INT4)$2000-5000 (GPU租赁)数据隐私要求
    大型企业500K+混合云 (自建 + API 备用)$10000+需要专职 ML 团队

    16. 💡 Prompt Engineering 指南

    好的 Prompt = 好的结果。这是性价比最高的一项技能。

    16.1 Prompt 设计核心原则

    原则✅ 正确做法❌ 错误做法
    明确性"用 Python 写一个归并排序,包含时间复杂度注释""写个排序"
    结构化使用 ## 背景 ## 任务 ## 要求 ## 输出格式 分段一段话混在一起
    示例先行提供 2-3 个 Few-shot 示例零样例直接让模型猜
    约束输出"输出 JSON 格式:{\"answer\": ...}""给我结果"
    思维链引导"请一步步思考,先分析再给出结论"直接问答案
    角色设定"你是一位有 10 年经验的 Python 后端工程师"无角色设定

    16.2 高阶 Prompt 技巧

    Chain-of-Thought (CoT)

    
    ❌ 简单提问:
      "小明有5个苹果,给了小红2个,又买了3个,现在几个?"
    
    ✅ CoT 提问:
      "请按以下步骤解答:
       ① 列出初始数量
       ② 逐步计算每次变化
       ③ 给出最终答案和验证
       
       问题:小明有5个苹果,给了小红2个,又买了3个,现在几个?"
    

    Self-Consistency (自洽采样)

    
    # 同一问题采样多次,取多数投票结果
    question = "求解: 15 × 23 + 47 ÷ 2 = ?"
    
    answers = []
    for _ in range(5):
        resp = llm.generate(question, temperature=0.7)
        answers.append(extract_answer(resp))
    
    final_answer = majority_vote(answers)  # 取出现最多的答案
    

    System Prompt 模板

    
    你是一个专业的 {角色}。
    
    ## 能力
    - 你精通 {领域1}、{领域2} 和 {领域3}
    - 你的回答基于事实,不确定时会明确说明
    
    ## 约束
    - 回答使用 {语言}
    - 对于专业术语,首次出现时给出解释
    - 代码必须通过编译/运行检查
    
    ## 输出格式
    {具体的格式要求}
    
    ---
    用户消息开始:
    {user_message}
    

    16.3 不同模型的 Prompt 偏好

    模型系Prompt 风格偏好Tips
    GPT 系列自然语言,容忍度高什么都能聊,但需要明确约束
    Claude结构化 Markdown喜欢 --- 分隔符和 XML 标签
    Qwen中文友好,支持混合中英混合 Prompt 效果更好
    DeepSeek数学/代码 CoT推理类任务一定要加"逐步思考"
    LLaMA/Mistral指令严格遵循需要 [INST]...[/INST] 格式
    Phi 系列教科书风格"让我们一步步来学习..." 效果奇好

    17. 🎬 视频生成与世界模型

    2025-2026 年最激动人心的前沿方向之一——从理解世界到生成世界。

    17.1 视频生成模型

    模型参数时长分辨率特性🃏
    Sora (OpenAI)未公开60s1080p原生视频生成,物理一致性🃏 Joker
    Veo 2 (Google)未公开120s+4K电影级视频生成🃏 Joker
    Gen-3 Alpha (Runway)未公开10s1080p高质量短视频♠Q
    Kling (快手可灵)未公开2min1080p中文视频生成领先♠Q
    Seed-Video (字节)未公开30s1080p多模态统一视频生成♠Q
    Wan (阿里万相)未公开15s+720p+开源友好♠J
    CogVideoX (智谱)多版本6-20s720p开源视频生成♠10
    Open-Sora Planck开源可变可变完全开源的视频 DiT♠9
    HunyuanVideo (腾讯)未公开5s720p多模态视频理解+生成♠Q
    Mochi (Genmo)开源5.4s480p高压缩视频生成♠8

    17.2 世界模型 (World Model)

    模型类型能力创新点🃏
    Voyager (NVIDIA)游戏世界Minecraft 自主探索技能库 + Agent 循环🃏 Joker
    Genie 2 (Google DeepMind)交互式世界生成单图→可交互 3D 世界无需训练数据的世界模拟🃏 Joker
    Sora-1 (OpenAI)物理世界模拟器视频中的物理规律作为世界模型的视频生成器🃏 Joker
    Octo (Berkeley)机器人通用策略跨机器人迁移学习Transformer 机器人基础模型♣Q
    PI^0 (Physical Intelligence)机器人基础模型多机器人统一控制10+ 机器人类型统一🃏 Joker
    RT-2/X (Google)视觉-动作模型VLA → 机器人控制VLM 直接输出动作♣Q
    GR-003 (上海 AI Lab)开源游戏智能体Minecraft/GTA 自主决策强开源游戏世界模型♣J

    17.3 从 LLM 到 World Model 的演进

    
    LLM 发展路径 (2024-2030):
    
    2024 ┃── 文本/图像理解 (GPT-4V, Gemini) ──────────┃
          │                                                    │
    2025 ┃── 多模态统一 (GPT-5, Qwen3.5, Claude 4.6) ────────┃
          │                                                    │
    2026 ┃── 视频生成 (Sora, Kling, Veo) ────────────────────┃
          │   · 理解时间连续性                                  │
          │   · 学习物理规律 (重力、碰撞、流体)                 │
          │                                                    │
    2027? ┃── 交互式世界模型 ─────────────────────────────────┃
          │   · Genie 2: 图片→可交互 3D 世界                  │
          │   · 用户可以"走进"生成的世界                       │
          │                                                    │
    2028? ┃── 通用世界模拟器 ────────────────────────────────┃
          │   · 统一的物理/社会/经济模拟                       │
          │   · AGI 的"沙箱训练场"                            │
          │                                                    │
          ┃────────── 最终目标: 理解并预测真实世界 ──────────┃
    

    18. 参考文献

    12.0 综述论文

  • [1] arXiv:1706.03762 - Attention Is All You Need (Transformer)
  • [2] arXiv:2303.18223 - A Survey of Large Language Models
  • [3] arXiv:2402.06196 - Large Language Models: A Survey
  • [117] arXiv:2404.07143 - The LLM Survey
  • [118] arXiv:2310.15711 - A Survey on LLM-based Autonomous Agents
  • [119] arXiv:2410.05829 - A Survey on Mixture of Experts
  • 12.1 训练与对齐技术

  • [120] arXiv:2203.02155 - Training LLMs to Follow Instructions with Human Feedback (InstructGPT/RLHF)
  • [121] arXiv:2305.18290 - Direct Preference Optimization (DPO)
  • [122] arXiv:2401.12987 - ORPO: Monolithic Preference Optimization
  • [123] arXiv:2402.13213 - KTO: RL from Any Human Feedback
  • [124] arXiv:2405.14734 - SimPO: Simple Preference Optimization
  • [125] arXiv:2501.12948 - DeepSeek-R1: GRPO Reinforcement Learning
  • [126] arXiv:2503.04208 - RST: Reasoning Self-Training
  • 12.2 通用基础模型

  • [4] arXiv:2005.14165 - GPT-3: Language Models are Few-Shot Learners
  • [5] arXiv:2303.08774 - GPT-4 Technical Report
  • [6] arXiv:2410.21276 - GPT-4o System Card
  • [7] arXiv:2412.16720 - OpenAI o1 System Card
  • [8] arXiv:2601.03267 - GPT-5 Technical Report
  • [9] arXiv:2204.06745 - Constitutional AI (Claude)
  • [10] arXiv:2310.01858 - Claude 2 Technical Report
  • [11] arXiv:2302.13971 - LLaMA: Open Foundation Models
  • [12] arXiv:2307.09288 - LLaMA 2: Open Foundation and Fine-Tuned Models
  • [13] arXiv:2407.21783 - LLaMA 3 Technical Report
  • [14] arXiv:2510.12178 - LLaMA 4 Technical Report
  • [15] arXiv:2601.11659 - LLaMA 4 Full Report
  • [16] arXiv:2408.00118 - Gemma 2: Open Models
  • [17] arXiv:2503.19786 - Gemma 3 Technical Report
  • [18] arXiv:2507.06261 - Gemini 2.5 Technical Report
  • [19] arXiv:2309.00071 - Phi-1: Textbooks Are All You Need
  • [20] arXiv:2306.11644 - Phi-1.5 Technical Report
  • [21] arXiv:2404.14219 - Phi-3 Technical Report
  • [22] arXiv:2412.08905 - Phi-4 Technical Report
  • [23] arXiv:2504.21233 - Phi-4-mini Technical Report
  • [24] arXiv:2504.21318 - Phi-4-reasoning Technical Report
  • [25] arXiv:2310.06825 - Mistral 7B
  • [26] arXiv:2401.04088 - Mixtral of Experts
  • [27] arXiv:2311.16867 - Falcon LLM
  • [28] arXiv:2407.14885 - Falcon 2
  • [29] arXiv:2507.22448 - Falcon-H1: Hybrid Mamba-Transformer
  • [30] arXiv:2402.00838 - OLMo: Open Language Model
  • [31] arXiv:2501.00656 - OLMo 2
  • [32] arXiv:2409.02060 - OLMoE: Open Mixture-of-Experts
  • [33] arXiv:2204.06745 - GPT-NeoX-20B
  • [34] arXiv:2304.01373 - Pythia: A Suite for Analyzing LLMs
  • [35] arXiv:2211.05100 - BLOOM: A 176B-Parameter Open-Access Multilingual Model
  • 12.3 中国模型

  • [36] arXiv:2309.16609 - Qwen Technical Report
  • [37] arXiv:2407.10671 - Qwen 2 Technical Report
  • [38] arXiv:2412.15115 - Qwen 2.5 Technical Report
  • [39] arXiv:2505.09388 - Qwen 3 Technical Report
  • [40] arXiv:2401.02954 - DeepSeek LLM
  • [41] arXiv:2405.04434 - DeepSeek-V2: A Strong MoE Model
  • [42] arXiv:2412.19437 - DeepSeek-V3 Technical Report
  • [43] arXiv:2501.12948 - DeepSeek-R1: Incentivizing Reasoning
  • [44] arXiv:2210.02414 - GLM-130B
  • [45] arXiv:2406.12793 - ChatGLM: A Family of Large Language Models
  • [46] arXiv:2508.06471 - GLM-4.5 Technical Report
  • [47] arXiv:2107.02137 - ERNIE 3.0
  • [48] arXiv:2602.04705 - ERNIE 5.0 Technical Report
  • [49] arXiv:2411.02265 - Hunyuan-Large: An Open-Source MoE Model
  • [50] arXiv:2505.07062 - Seed1.5-VL Technical Report
  • [51] arXiv:2501.12599 - Kimi k1.5: Scaling RL with LLMs
  • [52] arXiv:2507.20534 - Kimi K2: A World-Class Open MoE Model
  • [53] arXiv:2602.02276 - Kimi K2.5 Technical Report
  • [54] arXiv:2501.08313 - MiniMax-Text-01
  • [55] arXiv:2506.13585 - MiniMax-M1: Scaling Test-Time Compute
  • [56] arXiv:2404.06395 - MiniCPM: Unveiling the Potential of Small Models
  • [57] arXiv:2506.07900 - MiniCPM 4 Technical Report
  • [58] arXiv:2403.17297 - InternLM2 Technical Report
  • [59] arXiv:2603.25040 - Intern-S1-Pro Technical Report
  • [60] arXiv:2309.10305 - Baichuan 2: Open Large-scale Language Models
  • [61] arXiv:2501.15368 - Baichuan-Omni-1.5
  • [62] arXiv:2502.12671 - Baichuan-M1 Technical Report
  • [63] arXiv:2509.02208 - Baichuan-M2 Technical Report
  • [64] arXiv:2602.06570 - Baichuan-M3 Technical Report
  • [65] arXiv:2403.04652 - Yi: Open Foundation Models
  • 12.4 代码模型

  • [66] arXiv:2402.19173 - StarCoder 2
  • [67] arXiv:2401.14196 - DeepSeek-Coder
  • [68] arXiv:2406.11931 - DeepSeek-Coder-V2
  • [69] arXiv:2409.12186 - Qwen2.5-Coder Technical Report
  • [70] arXiv:2406.11409 - CodeGemma
  • [71] arXiv:2411.04905 - OpenCoder: The Open Cookbook for Code LLMs
  • [72] arXiv:2506.03524 - Seed-Coder Technical Report
  • 12.5 数学模型

  • [73] arXiv:2402.03300 - DeepSeekMath: Pushing the Limits of Mathematical Reasoning
  • [74] arXiv:2409.12122 - Qwen2-Math Technical Report
  • [75] arXiv:2501.07301 - Qwen2.5-Math Technical Report
  • [76] arXiv:2310.10631 - Llemma: An Open Language Model for Mathematics
  • 12.6 多模态 VLM

  • [77] arXiv:2304.08485 - Visual Instruction Tuning (LLaVA)
  • [78] arXiv:2310.03744 - LLaVA-1.5: Improved Baselines
  • [79] arXiv:2509.23661 - LLaVA-OneVision-1.5
  • [80] arXiv:2409.12191 - Qwen2-VL: Enhancing Vision-Language Models
  • [81] arXiv:2511.21631 - Qwen3-VL Technical Report
  • [82] arXiv:2412.05271 - InternVL 2.5: Multimodal Large Language Model
  • [83] arXiv:2504.10479 - InternVL3 Technical Report
  • [84] arXiv:2504.05299 - SmolVLM: Small Vision Language Models
  • [85] arXiv:2312.16862 - TinyGPT-V
  • 12.7 小语言模型 SLM

  • [86] arXiv:2401.02385 - TinyLlama: An Open-Source Small Language Model
  • [87] arXiv:2502.02737 - SmolLM2: When Smol Goes Big
  • 12.8 MoE 架构

  • [88] arXiv:2402.01739 - OpenMoE: Open Mixture-of-Experts Language Models
  • [89] arXiv:2406.06563 - Skywork-MoE: A Deep Dive into Training Techniques
  • 12.9 新架构(SSM/RNN/Hybrid)

  • [90] arXiv:2312.00752 - Mamba: Linear-Time Sequence Modeling
  • [91] arXiv:2405.21060 - Mamba-2: Transformers are SSMs
  • [92] arXiv:2603.15569 - Mamba-3 Technical Report
  • [93] arXiv:2305.13048 - RWKV: Reinventing RNNs for the Transformer Era
  • [94] arXiv:2503.14456 - RWKV-7: Advancing Linear Attention
  • [95] arXiv:2510.02228 - xLSTM 7B
  • [96] arXiv:2404.07839 - RecurrentGemma: Moving Past Transformers
  • [97] arXiv:2302.10865 - Hyena Hierarchy
  • [98] arXiv:2307.08621 - Retentive Network: A Successor to Transformer
  • 12.10 推理与对齐

  • [99] arXiv:2305.18290 - Direct Preference Optimization (DPO)
  • [100] arXiv:2309.12284 - Safe RLHF: Safe Reinforcement Learning from Human Feedback
  • 12.11 Agent/工具调用

  • [101] arXiv:2310.05146 - ToolLLM: Facilitating LLMs to Master Tools
  • [102] arXiv:2305.15334 - Gorilla: Large Language Model Connected with APIs
  • 12.12 嵌入模型

  • [103] arXiv:2402.03216 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality
  • [104] arXiv:2506.05176 - Qwen3-Embedding Technical Report
  • 12.13 音频语言

  • [105] arXiv:2306.05284 - Simple and Controllable Music Generation (MusicGen)
  • [106] arXiv:2406.02430 - Seed-TTS: A Family of High-Quality Versatile Speech Generation
  • 12.14 医疗/科学

  • [107] arXiv:2402.10373 - BioMistral: A Collection of Medical LLMs
  • [108] arXiv:2401.07950 - SciGLM: Training Scientific Language Models
  • [109] arXiv:2412.18925 - HuatuoGPT-o1: Medical Complex Reasoning
  • [110] arXiv:2507.05201 - MedGemma: Medical Language Understanding
  • [111] arXiv:2411.10137 - ChatLaw: Legal Large Language Model
  • [112] arXiv:2308.02773 - EduChat: A Large-Scale Educational Dialogue System
  • 12.15 RAG/长上下文

  • [113] arXiv:2310.11511 - Self-RAG: Learning to Retrieve, Generate, and Critique
  • [114] arXiv:2309.17453 - Efficient Streaming Language Models with Attention Sinks
  • 12.16 其他

  • [115] arXiv:2507.13575 - Apple Intelligence Foundation Language Models
  • [116] arXiv:2407.18559 - VSSD: Vision Mamba with Non-Causal State Space Duality

  • 19. 资源索引

    13.1 GitHub 仓库索引(152个)

    👂 点击展开完整 GitHub 仓库列表
    序号仓库说明
    1openai/openai-cookbookOpenAI 官方示例
    2openai/whisper语音识别
    3meta-llama/llama-modelsLLaMA 官方
    4meta-llama/codellamaCodeLlama
    5google-deepmind/gemmaGemma 官方
    6google/gemma_pytorchGemma PyTorch
    7google-deepmind/codegemmaCodeGemma
    8google-deepmind/recurrentgemmaRecurrentGemma
    9microsoft/Phi-4Phi-4 官方
    10microsoft/Phi-3-cookbooksPhi-3 示例
    11microsoft/LongRoPE长上下文技术
    12xai-org/grok-1Grok-1 开源
    13mistralai/mistral-inferenceMistral 推理
    14tiiuae/falcon-llmFalcon 官方
    15tiiuae/Falcon-H1Falcon-H1 混合架构
    16allenai/OLMoOLMo 官方
    17allenai/OLMo-coreOLMo 核心
    18allenai/molmoMolmo 多模态
    19EleutherAI/gpt-neoxGPT-NeoX
    20EleutherAI/pythiaPythia
    21Stability-AI/StableLMStableLM
    22databricks/dbrxDBRX
    23Snowflake-Labs/snowflake-arcticArctic
    24AI21Labs/JambaJamba
    25QwenLM/QwenQwen 官方
    26QwenLM/Qwen2.5Qwen2.5
    27QwenLM/Qwen3Qwen3
    28QwenLM/Qwen2.5-CoderQwen 代码模型
    29QwenLM/Qwen2.5-MathQwen 数学模型
    30QwenLM/Qwen2-VLQwen 视觉语言
    31QwenLM/Qwen3-VLQwen3 视觉语言
    32QwenLM/Qwen2-AudioQwen 音频
    33QwenLM/Qwen-AgentQwen Agent
    34QwenLM/QwQQwQ 推理模型
    35QwenLM/Qwen3-EmbeddingQwen 嵌入
    36QwenLM/Qwen3-OmniQwen 全模态
    37deepseek-ai/DeepSeek-V3DeepSeek-V3
    38deepseek-ai/DeepSeek-R1DeepSeek-R1
    39deepseek-ai/DeepSeek-CoderDeepSeek 代码
    40deepseek-ai/DeepSeek-Coder-V2DeepSeek 代码 V2
    41deepseek-ai/DeepSeekMathDeepSeek 数学
    42THUDM/GLM-4GLM-4 官方
    43THUDM/ChatGLM3ChatGLM3
    44THUDM/GLM-4-VoiceGLM 语音
    45THUDM/CodeGeeX4CodeGeeX4
    46THUDM/CogVLM2CogVLM2
    47THUDM/SciGLMSciGLM
    48THUDM/AgentTuningAgentTuning
    49PaddlePaddle/ERNIEERNIE 官方
    50Tencent/Hunyuan-Large混元 Large
    51ByteDance-Seed/Seed-CoderSeed 代码
    52ByteDance-Seed/Seed1.5-VLSeed 视觉
    53MoonshotAI/Kimi-K2Kimi K2
    54MoonshotAI/kimi-k1.5Kimi k1.5
    55MiniMax-AI/MiniMax-M1MiniMax-M1
    56OpenBMB/MiniCPMMiniCPM
    57OpenBMB/MiniCPM-VMiniCPM-V
    58OpenBMB/MiniCPM-oMiniCPM-o
    59OpenBMB/ToolBenchToolBench
    60InternLM/InternLMInternLM
    61InternLM/InternLM-MathInternLM 数学
    62InternLM/lmdeployLMDeploy
    63OpenGVLab/InternVLInternVL
    64baichuan-inc/Baichuan2Baichuan2
    6501-ai/YiYi
    6601-ai/Yi-1.5Yi-1.5
    67stepfun-ai/Step-3.5-FlashStep
    68Qihoo360/360zhinao360 智脑
    69bigcode-project/starcoder2StarCoder2
    70OpenCoder-llm/OpenCoder-llmOpenCoder
    71nlpxucan/WizardLMWizardLM
    72ise-uiuc/magicoderMagicoder
    73eleutherai/llemmaLlemma
    74meta-math/MetaMathMetaMath
    75mathllm/MathCoderMathCoder
    76project-numina/aimo-progress-prizeNuminaMath
    77haotian-liu/LLaVALLaVA
    78LLaVA-VL/LLaVA-NeXTLLaVA-NeXT
    79EvolvingLMMs-Lab/LLaVA-OneVision-1.5LLaVA-OneVision
    80jzhang38/TinyLlamaTinyLlama
    81huggingface/smollmSmolLM
    82facebookresearch/MobileLLMMobileLLM
    83state-spaces/mambaMamba
    84BlinkDL/RWKV-LMRWKV
    85RWKV/RWKV-v7RWKV-7
    86ShishirPatil/gorillaGorilla
    87FlagOpen/FlagEmbeddingBGE 嵌入
    88BioMistral/BioMistralBioMistral
    89paperswithcode/galaiGalactica
    90facebookresearch/audiocraftMusicGen
    91bytedance/Seed-TTSSeed-TTS
    92bytedance/SALMONNSALMONN
    93gpt-omni/mini-omniMini-Omni
    94AkariAsai/self-ragSelf-RAG
    95google-deepmind/retroRetro
    96vllm-project/vllmvLLM
    97huggingface/text-generation-inferenceTGI
    98ollama/ollamaOllama
    99ggerganov/llama.cppllama.cpp
    100sgl-project/sglangSGLang
    101NVIDIA/TensorRT-LLMTensorRT-LLM
    102mit-han-lab/llm-awqAWQ 量化
    103AutoGPTQ/AutoGPTQGPTQ 量化
    104bitsandbytes-foundation/bitsandbytesbitsandbytes
    105turboderp/exllamav2ExLlamaV2
    106lm-sys/FastChatFastChat

    13.2 HuggingFace 链接索引(162个)

    👂 点击展开完整 HuggingFace 链接列表
    序号链接说明
    1meta-llamaLLaMA 系列
    2googleGemma/Gemini
    3microsoftPhi 系列
    4mistralaiMistral 系列
    5Qwen通义千问
    6deepseek-aiDeepSeek
    7THUDMGLM 系列
    8tiiuaeFalcon
    9allenaiOLMo
    10EleutherAIPythia
    11bigscience/bloomBLOOM
    12stabilityaiStableLM
    13databricks/dbrx-instructDBRX
    14SnowflakeArctic
    15ai21labsJamba
    16CohereForAICommand
    1701-aiYi
    18baichuan-incBaichuan
    19internlmInternLM
    20openbmbMiniCPM
    21bigcodeStarCoder
    22codellamaCodeLlama
    23WizardLMWizardLM
    24TinyLlamaTinyLlama
    25HuggingFaceTBSmolLM
    26state-spacesMamba
    27RWKVRWKV
    28BlinkDLRWKV
    29NX-AI/xLSTM-7bxLSTM
    30BAAIBGE 嵌入
    31Alibaba-NLPGTE 嵌入
    32intfloatE5 嵌入
    33nomic-aiNomic 嵌入
    34jinaaiJina 嵌入
    35BioMistralBioMistral
    36facebook/galactica-120bGalactica
    37AI-MONuminaMath
    38ToolBench/ToolLLaMA-7bToolLLaMA
    39OpenGVLabInternVL
    40liuhaotianLLaVA
    41lmsysVicuna
    42NousResearchHermes
    43moonshotaiKimi
    44MiniMaxAIMiniMax
    45ByteDance-SeedSeed 系列
    46stepfun-aiStep
    47Qihoo360360 智脑
    48tencent混元
    49appleOpenELM
    50inflyOpenCoder

    20. 贡献指南

    14.1 🃏 Model Card 模板(含扑克牌标记)

    
    ### 模型名称
    
    | 版本 | 发布时间 | 参数规模 | 上下文 | 许可协议 | 核心特性 | 🃏 标记 |
    |:---|:---|:---|:---|:---|:---|:---|
    | v1.0 | YYYY-MM | XB | XK | License | 特性描述 | ♥J |
    
    **官方资源**:
    - 📄 论文:[arXiv:XXXX.XXXXX](https://arxiv.org/abs/XXXX.XXXXX)
    - 💻 GitHub:[org/repo](https://github.com/org/repo)
    - 🤗 HuggingFace:[org/model](https://huggingface.co/org/model)
    - 📖 API:https://api.example.com
    

    14.2 🃏 扑克牌标记规范

    在贡献新模型时,请按照以下规则添加扑克牌标记:
  • 选择花色:根据模型的主要功能选择 ♠/♥/♦/♣
  • 选择点数:根据参数规模选择 2-7 / 8-10 / J / Q / K / A
  • 特殊标记:如果模型有突破性创新,考虑使用 🃏 Joker
  • 在表格中标注:在每个模型系列的标题后标注花色符号
  • 标记决策树
    
    模型是否具有范式创新?
    ├─ 是 → 🃏 Joker(如 Mamba、RWKV、DeepSeek-R1)
    └─ 否 → 主要功能是什么?
        ├─ 通用语言生成 → ♥ + 按规模定点数
        ├─ 视觉/多模态理解 → ♠ + 按规模定点数
        ├─ 代码/数学/推理 → ♦ + 按规模定点数
        ├─ Agent/嵌入/RAG → ♣ + 按规模定点数
        └─ 其他 → 选择最接近的花色
    

    14.3 贡献流程

  • Fork 仓库 → 创建分支 → 修改内容 → 提交 PR
  • Issue 提交:发现错误或遗漏请提交 Issue
  • 内容要求
  • 确保 arXiv 编号正确
  • 确保链接有效可访问
  • 遵循现有格式规范(含 🃏 标记)
  • 新增模型需包含扑克牌分类标记
  • 14.4 贡献者名单

    感谢所有贡献者!欢迎 PR 和 Issue。

    21. 更新日志

    日期更新内容
    2026-04-05 (v3.1)全面审查与信息更新:① 新增 GPT-5.4(2026-03 最新旗舰)到 GPT系列/SOTA榜/性能表/推理模型/时间线;② o4-mini 标注已退役(2026-02),SOTA 榜重排(GPT-5.4 登顶);③ 修复目录编号重复问题(13/14→19/20);④ Claude 4.6 GPQA 更新为 91.3%;⑤ API 定价表新增 GPT-5.4/GPT-5.4 mini
    2026-04-05 (v3)重大扩展:新增 6 大章节 — 🛡️ 安全与对齐(攻击类型+防御体系)、📏 评测基准详解(30+ Benchmark)、🔧 微调工具链实战(LoRA 模板+工具推荐)、🏭 行业应用案例(10 大行业+RAG架构图)、💡 Prompt Engineering 指南、🎬 视频生成与世界模型
    2026-04-04 (v2)重大扩展:新增 6 大章节 — LLM发展时间线、训练方法与对齐技术、场景化选型指南、开源生态地图、2026趋势展望、FAQ(+500行内容)
    2026-04-04 (v1)集成 House of Model Cards (HOMC) 扑克牌分类体系,新增 🃏 花色/点数标记,完善 README 结构
    2026-04-03项目重构,新增 200+ 模型、218 条论文引用
    2026-03-15新增 Kimi K2.5、Baichuan-M3
    2026-02-20新增 GPT-5.2、Claude 4.6、GLM-5
    2026-01-10新增 LLaMA 4 Behemoth、Qwen3.5
    2025-12-01新增 Mamba-3、RWKV-7
    2025-10-15新增 Claude 4.5、Grok 4
    2025-07-20新增 Kimi K2、Falcon-H1
    2025-05-01项目初始化

    🃏 关于 House of Model Cards (HOMC)

    🎴 一副扑克,尽览 AI 模型全景

    本项目采用了受 isLinXu/house-of-model-cards 启发的 House of Model Cards (HOMC) 分类体系。核心理念是:

    "每个 AI 模型都是一张独特的卡牌 —— 有其专属的花色(能力领域)、点数(规模等级),以及可能隐藏的 Joker 惊喜(突破性创新)。"

    致谢

  • isLinXu/house-of-model-cards — 原 HOMC 项目的创意启发
  • 所有开源模型的研究团队和工程师们
  • 本项目的所有贡献者

  • ⭐ Star History

    如果这个项目对您有帮助,请给我们一个 Star!⭐ 您的支持是我们持续更新的动力!

    📜 License

    MIT License © 2025-2026 Awesome LLM Model List Contributors

    🃏 House of Model Cards (HOMC) — AI模型扑克牌分类体系 | GitHub ⭐ | MIT License | Last Updated: 2026-04-05
    Made with ❤️ by gatilin · GitHub Pages + Jekyll Primer Theme