cs886#
- Lecture1
- Lecture2
- Lecture3
- Lecture4
- Lecture5
- Lecture6
- Lecture7
- Lecture8
- 大型语言模型(LLM)概述
- LLM与传统机器学习、深度学习的比较
- 自然语言处理任务
- T5框架
- T5性能和架构变体
- T5输入数据
- T5训练
- T5无监督目标
- T5预训练数据集
- T5性能结果
- T5扩展
- T5反思
- 上下文学习
- 语言模型元学习
- GPT-3架构和训练方法
- GPT-3训练数据集
- GPT-3计算消耗
- GPT-3限制
- CodeX介绍
- CodeX评估
- CodeX训练
- CodeX结果
- CodeX比较
- CodeX-S
- CodeX-D
- CodeX限制
- Llama-2介绍
- Llama-2预训练
- Llama-2预训练评估
- Llama 2-Chat
- Llama 2-Chat人类偏好数据收集
- Llama 2-Chat奖励建模
- Llama 2-Chat迭代微调
- Llama 2-Chat Ghost Attention (GAtt)
- Llama 2-Chat RLHF模型评估
- Llama-2安全性
- Mixtral of Experts (MoE)介绍
- Mistral架构
- 稀疏Mixtral of Experts
- Mixtral结果
- Mixtral-Instruct
- Mixtral路由分析
- PaLM: Pathways Language Model
- PaLM模型架构
- PaLM模型规模超参数
- PaLM训练数据集
- PaLM训练基础设施
- PaLM结果
- PaLM: BIG-bench
- PaLM: 评估推理
- PaLM: 链式思维提示
- PaLM: 链式思维结果
- PaLM: 代码任务
- PaLM: 翻译
- PaLM: 限制
- LLMs比较
- 问题/讨论
- 参考文献
- Lecture9
- 扩展法则(Scaling Laws)
- Kaplan et al., 2020
- Kaplan et al., 2020 - 主要结果
- Kaplan et al., 2020 - 结论
- Kaplan et al., 2021 - 迁移学习的扩展法则
- Kaplan et al., 2021 - 主要结果
- Hutter, 2021 - 学习曲线理论
- Hoffman et al., 2022 - 训练计算最优的大型语言模型
- Hoffman et al., 2022 - 主要结果
- Emergent Abilities(突现能力)
- Schaeffer et al., 2023 - 突现能力的幻觉
- Schaeffer et al., 2023 - 主要结果
- Complicating Scaling Laws(复杂的扩展法则)
- Tay et al., 2022 - 通过额外0.1%的计算超越扩展法则
- Tay et al., 2022 - 结果
- Tay et al., 2022 - 结论
- Lecture10
- 动机
- 常见解决方案
- 提高性能的零样本学习
- 指令调整
- 指令调整示例
- FLAN(Finetuned Language Models Are Zero-shot Learners)
- 分类与生成任务
- 训练细节:基础模型
- FLAN训练细节
- 零样本结果
- FLAN vs GPT-3
- T0概述
- 数据集准备
- T0 vs GPT-3
- T0 vs FLAN差异
- LIMA(Less Is More for Alignment)
- LIMA数据选择
- LIMA训练
- 评估方法
- 人类评估
- RLHF(Reinforcement Learning from Human Feedback)
- RLHF动机
- InstructGPT
- 强化学习背景
- PPO(Proximal Policy Optimization)
- InstructGPT训练
- 评估细节
- 人类评估各种模型
- InstructGPT局限性
- RLHF问题
- DPO(Direct Preference Optimization)
- DPO推导
- DPO性能
- Zephyr
- Zephyr训练步骤
- Zephyr评估
- 要点总结
- Lecture11
- 高效LLM推理概述
- 预备论文
- 标准LM推理
- “过度思考”
- 高效LM推理
- Shallow-Deep Networks | BranchyNet
- 明显的缺陷
- 耐心基早期退出(PABEE)
- PABEE的准确性和速度
- 准确性提升?
- 防御对抗性攻击
- 局限性
- 自信的自适应语言模型
- 早期退出的影响
- 状态传播预言机
- 对局部错误的敏感性
- 处理早期局部错误
- 衰减阈值
- 局部置信度度量
- 原则性方法
- 全局约束
- 校准早期退出
- 性能-效率权衡
- 执行示例
- 局限性
- 推测性解码
- 推测性执行
- 错误的推测
- 纠正路径
- 推测性采样
- 关键观察
- 权衡
- 墙时改进
- 选择最优γ
- 加速
- 局限性
- 高效LLMs是全栈问题
- LLM基于应用的兴起
- 常规推理的分解
- 管理KV缓存
- 按需内存
- 多请求
- 解码技术 - 共享KV块
- 束搜索 - 派生、追加和释放
- 分页注意力
- 结果
- Flash-Attention(重新访问)
- Flash-Decoding(PyTorch)
- 基准测试 - CodeLLama 34B
- 预期解码
- 雅可比迭代
- 我们可以做得更好吗?
- 预期!
- 减少延迟!(单GPU结果)
- 总结
- 讨论!
- Lecture12
- 稀疏化简介
- 传统变换器架构
- 瓶颈问题
- 混合专家(MoE)
- 为什么使用MoE?
- 路由机制
- MoE的效率
- 实验
- 预训练
- 评估语言模型:困惑度和性能
- 结果
- 扩展规模
- GShard
- GShard架构
- 实施GShard
- XLA编译器
- 数据集和基线
- 模型变体
- 结果
- 训练效率
- 性能
- 内存消耗
- GShard关键要点
- CoLT5:条件长T5
- CoLT5直觉
- 架构
- CoLT5条件计算
- 实验:训练
- 实验:数据集
- 结果
- 缩放至极长输入
- 消融研究
- 限制
- 比较
- 量化大型语言模型
- 研究论文
- LLM.int8()
- 矩阵乘法:前馈层和注意力层
- 8位量化:混合精度量化和向量量化
- LLM.int8()结果
- 8位优化器通过块量化
- QLoRA:量化LLM的高效微调
- BitNet:为大型语言模型扩展1位变换器
- BitNet关键创新
- BitNet:BitLinear
- BitNet:模型训练
- BitNet:能耗
- BitNet:下游任务结果
- BitNet:与FP16变换器的比较
- BitNet:关键要点
- 量化比较表