Lecture3#

这份PPT是关于如何对大型开放语言模型(LLM)进行对齐(Aligning)的讨论,由Nathan Lambert在斯坦福大学的CS25课程中进行。以下是对PPT内容的详细解释和分析,以及相应的课程笔记。

1. 语言模型的简史#

  • 起点:1948年,Claude Shannon对英语进行了建模。

  • 发展:从1948年到2017年,语言模型逐渐发展。

  • 变革:2017年,Transformer模型的诞生标志着语言模型的一个重要转折点。

2. 重要的语言模型发布#

  • 2018年:发布了GPT-1、ELMo和BERT等模型。

  • 2019年:GPT-2模型和规模法则(scaling laws)的提出。

  • 2020年:GPT-3模型展示了令人惊讶的能力,同时也伴随着一些风险。

  • 2021年:提出了“Stochastic parrots”(随机鹦鹉)的概念,指的是语言模型可能随机生成不准确的信息。

  • 2022年:发布了ChatGPT模型。

3. 强化学习与人类反馈(RLHF)#

  • 必要性:RLHF对于ChatGPT等模型似乎是必要的,但不是充分的。

  • 应用:RLHF在多个流行模型中是一个关键因素,包括ChatGPT、Bard/Gemini、Claude、Llama 2等。

4. RLHF的重要性#

  • 文献:提到了2023年的一篇关于“Constitutional AI”的论文,强调了从AI反馈中获得无害性的重要性。

5. 讲座概览#

  • 资源:提供了一个集合和二维码,供听众跟随讲座内容。

  • 内容:讲座内容分为几个章节,包括启动、指令调整的兴起、评估与期望、RLHF的工作方式、扩展等。

6. 模型对齐的定义#

  • 指令微调:训练模型以遵循使用指令。

  • 监督微调:训练模型学习特定任务的能力。

  • 对齐:训练模型以反映用户需求的一般概念。

  • 偏好微调:使用标记的偏好数据对语言模型进行微调。

7. 开放指令调整模型的首次出现#

  • Alpaca:2023年3月13日发布,使用了52k自指令风格的数据。

  • Vicuna:2023年3月30日发布,微调了来自ShareGPT的ChatGPT数据。

  • Koala:2023年4月3日发布,使用了多样化的数据集并进行了人类评估。

8. 模型对齐的资源#

  • ShareGPT数据:来自ChatGPT对话分享工具的数据。

  • OpenAssistant:第一个开放的、人类指令数据集,广泛用于未来模型的训练。

9. 稳定Vicuna:第一个RLHF模型#

  • 训练:使用接近策略优化(PPO)在流行数据集上进行训练。

10. QLoRA和Guanaco#

  • LoRA:低秩适应,一种微调模型的工具,减少内存消耗。

  • QLoRA:LoRA加上量化的基础模型,进一步减少微调时的内存消耗。

11. 评估与期望#

  • LoRA方法:探讨了LoRA方法与RL的结合是否有效。

  • Llama 2聊天:讨论了聊天模型是否应该是“安全的”。

12. 评估工具的建立#

  • ChatBotArena:比较两个不同模型的偏好收集工具。

  • AlpacaEval:LLM作为评委,对候选模型响应与基线模型完成情况进行比较。

  • MT Bench:LLM作为评委,对模型响应进行评分。

13. RLHF的工作方式#

  • π:LLM策略。

  • πθ:基础LLM。

  • x:提示。

  • y:完成。

14. 偏好(奖励)建模#

  • 关键思想:通过成对偏好而不是单一评分来收集偏好。

15. 直接偏好优化(DPO)#

  • 发布:2023年5月29日发布,是一种简单的优化方法。

16. DPO与RL(PPO、REINFORCE等)#

  • 差异:DPO与PPO是非常不同的优化器。

17. RLHF阶段:Zephyr β和Tulu 2#

  • Zephyr β:第一个使用DPO引起关注模型。

  • Tulu 2:第一个将DPO扩展到700亿参数的模型。

18. RLHF阶段:SteerLM和Starling#

  • SteerLM:属性条件微调。

  • Starling:引入了新的偏好数据集和k-wise奖励模型损失函数。

19. 当代生态系统#

  • 多样性:模型和参与者的多样性。

20. 当前方向#

  • 数据:对偏好数据集的需求。

  • DPO改进:对DPO方法的持续改进。

  • 模型大小:扩展不同参数规模的模型。

  • 特定评估:获取比ChatBotArena更具体的评估方法。

  • 个性化:本地模型背后的一个主要动机。

21. 开放对齐发生的地方#

  • AI2:Tulu模型、OLMo-Adapt、数据集发布。

  • HuggingFaceH4:新基础模型的快速发布。

  • Berkeley-Nest/Nexusflow:Nectar数据集/Starling模型。

  • NousResearch:Hermes微调模型、数据集等。

课程笔记总结#

  • 语言模型历史:了解语言模型的发展历程,特别是Transformer模型的诞生。

  • RLHF:认识到RLHF在当前流行模型中的重要性。

  • 模型对齐:学习如何通过指令微调、监督微调和偏好微调来对齐模型。

  • 开放指令调整模型:了解Alpaca、Vicuna和Koala等模型的特点和发布时间。

  • 评估工具:掌握ChatBotArena、AlpacaEval和MT Bench等评估工具的使用。

  • RLHF的工作方式:理解RLHF的目标和优化“奖励”的方法。

  • 偏好建模:学习如何通过成对偏好来收集和建模偏好。

  • DPO:了解直接偏好优化的实现和它与RL方法的区别。

  • RLHF阶段:跟踪Zephyr β和Tulu 2等模型的发展。

  • 生态系统:注意模型和参与者的多样性。

  • 当前方向:关注数据集的需求、DPO的改进、模型大小的扩展和特定评估方法的发展。

这份PPT提供了对大型开放语言模型对齐的全面了解,包括它们的历史、关键技术、评估工具和当前研究方向。通过这些课程笔记,学习者可以更好地理解如何对语言模型进行对齐,以及这个领域的最新进展。