AwesomeCourseNotes#
项目介绍#
课程笔记。
项目简介#
目录
- Deep-Learning-Cousera
- course-list-en
- 1.Deep Learning (Deep Neural Networks)
- 2.Machine Learning Fundamentals
- 3.Optimization for Machine Learning
- 4.General Machine Learning
- 5.Reinforcement Learning
- 6.Probabilistic Graphical Models
- 7.Bayesian Deep Learning
- 8.Medical Imaging
- 9.Graph Neural Networks (Geometric DL)
- 10.Natural Language Processing
- 11.Automatic Speech Recognition
- 12.Modern Computer Vision
- 13.Bird’s Eye view of A(G)
- course-list-zh
- course-list-en
- C/C++:从基础语法到优化策略
- 1.Introduction
- 2.Getting-Started
- 3.Data-Types-and-Arithmetic-Operators
- 4.Loops-and-Branching-Statements
- 5.Data-Structures
- 6.Memory-and-Pointer
- 7.Basics-of-Functions
- 8.Advances-in-Functions
- 9.Speedup-Your-Program
- 10.Code-Optimization
- 11.Basics-of-Classes
- 12.Advances-in-Classes
- 13.Dynamic-Memory-Management-in-Classes
- 14.Class-Inheritance
- 15.Class-Templates-and-std-Library
- 16.Error-Handling
- 17.Nested-Classes-and-RTTI
- 18.Interview-with-Vadim-Pisarevsky-on-class-cv-MatinOpenCV
- cs25
- Lecture1
- 1. AI的快速发展
- 2. 研究变化本身的意义
- 3. 预测未来轨迹的困难
- 4. AI研究的当前状态
- 5. 大脑规模的计算能力
- 6. AI研究者的工作
- 7. AI进展的苦涩教训
- 8. 结构与可扩展性
- 9. 选择适当的结构
- 10. 长期与短期的权衡
- 11. 总结
- 12. Transformer架构变体
- 13. 处理过程
- 14. 编码器-解码器架构
- 15. 仅编码器架构
- 16. 仅解码器架构
- 17. 编码器-解码器与仅解码器架构的差异
- 18. 将编码器-解码器转换为仅解码器
- 19. 额外的结构
- 20. 示例应用
- 21. 指令微调
- 22. 编码器-解码器的额外结构
- 23. 深度神经网络的层级编码
- 24. 双向性的重要性
- 25. 多轮对话的输入注意力模式
- 26. 结论
- 课程笔记总结
- Lecture2
- Lecture3
- 1. 语言模型的简史
- 2. 重要的语言模型发布
- 3. 强化学习与人类反馈(RLHF)
- 4. RLHF的重要性
- 5. 讲座概览
- 6. 模型对齐的定义
- 7. 开放指令调整模型的首次出现
- 8. 模型对齐的资源
- 9. 稳定Vicuna:第一个RLHF模型
- 10. QLoRA和Guanaco
- 11. 评估与期望
- 12. 评估工具的建立
- 13. RLHF的工作方式
- 14. 偏好(奖励)建模
- 15. 直接偏好优化(DPO)
- 16. DPO与RL(PPO、REINFORCE等)
- 17. RLHF阶段:Zephyr β和Tulu 2
- 18. RLHF阶段:SteerLM和Starling
- 19. 当代生态系统
- 20. 当前方向
- 21. 开放对齐发生的地方
- 课程笔记总结
- Lecture4
- 1. 课程教师介绍
- 2. 课程安排
- 3. 本次课程新内容
- 4. 重要声明
- 5. 学习目标
- 6. Transformer和LLMs简介
- 7. Transformer与RNNs的比较
- 8. 大型语言模型(LLMs)
- 9. LLMs的出现能力
- 10. 超越规模
- 11. RLHF、ChatGPT、GPT-4、Gemini
- 12. 2024年的现状
- 13. 未来(下一步是什么?)
- 14. 未来(缺少什么?)
- 15. Transformer的主要应用
- 16. LLMs的近期趋势和剩余弱点
- 17. 从语言模型到AI代理
- 18. AI代理的构建
- 19. AI代理的自主性
- 20. 代理间通信
- 21. 未来方向
- 课程笔记总结
- Lecture1
- cs197
- cs329
- cs886
- Lecture1
- Lecture2
- Lecture3
- Lecture4
- Lecture5
- Lecture6
- Lecture7
- Lecture8
- 大型语言模型(LLM)概述
- LLM与传统机器学习、深度学习的比较
- 自然语言处理任务
- T5框架
- T5性能和架构变体
- T5输入数据
- T5训练
- T5无监督目标
- T5预训练数据集
- T5性能结果
- T5扩展
- T5反思
- 上下文学习
- 语言模型元学习
- GPT-3架构和训练方法
- GPT-3训练数据集
- GPT-3计算消耗
- GPT-3限制
- CodeX介绍
- CodeX评估
- CodeX训练
- CodeX结果
- CodeX比较
- CodeX-S
- CodeX-D
- CodeX限制
- Llama-2介绍
- Llama-2预训练
- Llama-2预训练评估
- Llama 2-Chat
- Llama 2-Chat人类偏好数据收集
- Llama 2-Chat奖励建模
- Llama 2-Chat迭代微调
- Llama 2-Chat Ghost Attention (GAtt)
- Llama 2-Chat RLHF模型评估
- Llama-2安全性
- Mixtral of Experts (MoE)介绍
- Mistral架构
- 稀疏Mixtral of Experts
- Mixtral结果
- Mixtral-Instruct
- Mixtral路由分析
- PaLM: Pathways Language Model
- PaLM模型架构
- PaLM模型规模超参数
- PaLM训练数据集
- PaLM训练基础设施
- PaLM结果
- PaLM: BIG-bench
- PaLM: 评估推理
- PaLM: 链式思维提示
- PaLM: 链式思维结果
- PaLM: 代码任务
- PaLM: 翻译
- PaLM: 限制
- LLMs比较
- 问题/讨论
- 参考文献
- Lecture9
- 扩展法则(Scaling Laws)
- Kaplan et al., 2020
- Kaplan et al., 2020 - 主要结果
- Kaplan et al., 2020 - 结论
- Kaplan et al., 2021 - 迁移学习的扩展法则
- Kaplan et al., 2021 - 主要结果
- Hutter, 2021 - 学习曲线理论
- Hoffman et al., 2022 - 训练计算最优的大型语言模型
- Hoffman et al., 2022 - 主要结果
- Emergent Abilities(突现能力)
- Schaeffer et al., 2023 - 突现能力的幻觉
- Schaeffer et al., 2023 - 主要结果
- Complicating Scaling Laws(复杂的扩展法则)
- Tay et al., 2022 - 通过额外0.1%的计算超越扩展法则
- Tay et al., 2022 - 结果
- Tay et al., 2022 - 结论
- Lecture10
- 动机
- 常见解决方案
- 提高性能的零样本学习
- 指令调整
- 指令调整示例
- FLAN(Finetuned Language Models Are Zero-shot Learners)
- 分类与生成任务
- 训练细节:基础模型
- FLAN训练细节
- 零样本结果
- FLAN vs GPT-3
- T0概述
- 数据集准备
- T0 vs GPT-3
- T0 vs FLAN差异
- LIMA(Less Is More for Alignment)
- LIMA数据选择
- LIMA训练
- 评估方法
- 人类评估
- RLHF(Reinforcement Learning from Human Feedback)
- RLHF动机
- InstructGPT
- 强化学习背景
- PPO(Proximal Policy Optimization)
- InstructGPT训练
- 评估细节
- 人类评估各种模型
- InstructGPT局限性
- RLHF问题
- DPO(Direct Preference Optimization)
- DPO推导
- DPO性能
- Zephyr
- Zephyr训练步骤
- Zephyr评估
- 要点总结
- Lecture11
- 高效LLM推理概述
- 预备论文
- 标准LM推理
- “过度思考”
- 高效LM推理
- Shallow-Deep Networks | BranchyNet
- 明显的缺陷
- 耐心基早期退出(PABEE)
- PABEE的准确性和速度
- 准确性提升?
- 防御对抗性攻击
- 局限性
- 自信的自适应语言模型
- 早期退出的影响
- 状态传播预言机
- 对局部错误的敏感性
- 处理早期局部错误
- 衰减阈值
- 局部置信度度量
- 原则性方法
- 全局约束
- 校准早期退出
- 性能-效率权衡
- 执行示例
- 局限性
- 推测性解码
- 推测性执行
- 错误的推测
- 纠正路径
- 推测性采样
- 关键观察
- 权衡
- 墙时改进
- 选择最优γ
- 加速
- 局限性
- 高效LLMs是全栈问题
- LLM基于应用的兴起
- 常规推理的分解
- 管理KV缓存
- 按需内存
- 多请求
- 解码技术 - 共享KV块
- 束搜索 - 派生、追加和释放
- 分页注意力
- 结果
- Flash-Attention(重新访问)
- Flash-Decoding(PyTorch)
- 基准测试 - CodeLLama 34B
- 预期解码
- 雅可比迭代
- 我们可以做得更好吗?
- 预期!
- 减少延迟!(单GPU结果)
- 总结
- 讨论!
- Lecture12
- 稀疏化简介
- 传统变换器架构
- 瓶颈问题
- 混合专家(MoE)
- 为什么使用MoE?
- 路由机制
- MoE的效率
- 实验
- 预训练
- 评估语言模型:困惑度和性能
- 结果
- 扩展规模
- GShard
- GShard架构
- 实施GShard
- XLA编译器
- 数据集和基线
- 模型变体
- 结果
- 训练效率
- 性能
- 内存消耗
- GShard关键要点
- CoLT5:条件长T5
- CoLT5直觉
- 架构
- CoLT5条件计算
- 实验:训练
- 实验:数据集
- 结果
- 缩放至极长输入
- 消融研究
- 限制
- 比较
- 量化大型语言模型
- 研究论文
- LLM.int8()
- 矩阵乘法:前馈层和注意力层
- 8位量化:混合精度量化和向量量化
- LLM.int8()结果
- 8位优化器通过块量化
- QLoRA:量化LLM的高效微调
- BitNet:为大型语言模型扩展1位变换器
- BitNet关键创新
- BitNet:BitLinear
- BitNet:模型训练
- BitNet:能耗
- BitNet:下游任务结果
- BitNet:与FP16变换器的比较
- BitNet:关键要点
- 量化比较表