Lecture3#
这份PPT是关于如何对大型开放语言模型(LLM)进行对齐(Aligning)的讨论,由Nathan Lambert在斯坦福大学的CS25课程中进行。以下是对PPT内容的详细解释和分析,以及相应的课程笔记。
1. 语言模型的简史#
起点:1948年,Claude Shannon对英语进行了建模。
发展:从1948年到2017年,语言模型逐渐发展。
变革:2017年,Transformer模型的诞生标志着语言模型的一个重要转折点。
2. 重要的语言模型发布#
2018年:发布了GPT-1、ELMo和BERT等模型。
2019年:GPT-2模型和规模法则(scaling laws)的提出。
2020年:GPT-3模型展示了令人惊讶的能力,同时也伴随着一些风险。
2021年:提出了“Stochastic parrots”(随机鹦鹉)的概念,指的是语言模型可能随机生成不准确的信息。
2022年:发布了ChatGPT模型。
3. 强化学习与人类反馈(RLHF)#
必要性:RLHF对于ChatGPT等模型似乎是必要的,但不是充分的。
应用:RLHF在多个流行模型中是一个关键因素,包括ChatGPT、Bard/Gemini、Claude、Llama 2等。
4. RLHF的重要性#
文献:提到了2023年的一篇关于“Constitutional AI”的论文,强调了从AI反馈中获得无害性的重要性。
5. 讲座概览#
资源:提供了一个集合和二维码,供听众跟随讲座内容。
内容:讲座内容分为几个章节,包括启动、指令调整的兴起、评估与期望、RLHF的工作方式、扩展等。
6. 模型对齐的定义#
指令微调:训练模型以遵循使用指令。
监督微调:训练模型学习特定任务的能力。
对齐:训练模型以反映用户需求的一般概念。
偏好微调:使用标记的偏好数据对语言模型进行微调。
7. 开放指令调整模型的首次出现#
Alpaca:2023年3月13日发布,使用了52k自指令风格的数据。
Vicuna:2023年3月30日发布,微调了来自ShareGPT的ChatGPT数据。
Koala:2023年4月3日发布,使用了多样化的数据集并进行了人类评估。
8. 模型对齐的资源#
ShareGPT数据:来自ChatGPT对话分享工具的数据。
OpenAssistant:第一个开放的、人类指令数据集,广泛用于未来模型的训练。
9. 稳定Vicuna:第一个RLHF模型#
训练:使用接近策略优化(PPO)在流行数据集上进行训练。
10. QLoRA和Guanaco#
LoRA:低秩适应,一种微调模型的工具,减少内存消耗。
QLoRA:LoRA加上量化的基础模型,进一步减少微调时的内存消耗。
11. 评估与期望#
LoRA方法:探讨了LoRA方法与RL的结合是否有效。
Llama 2聊天:讨论了聊天模型是否应该是“安全的”。
12. 评估工具的建立#
ChatBotArena:比较两个不同模型的偏好收集工具。
AlpacaEval:LLM作为评委,对候选模型响应与基线模型完成情况进行比较。
MT Bench:LLM作为评委,对模型响应进行评分。
13. RLHF的工作方式#
π:LLM策略。
πθ:基础LLM。
x:提示。
y:完成。
14. 偏好(奖励)建模#
关键思想:通过成对偏好而不是单一评分来收集偏好。
15. 直接偏好优化(DPO)#
发布:2023年5月29日发布,是一种简单的优化方法。
16. DPO与RL(PPO、REINFORCE等)#
差异:DPO与PPO是非常不同的优化器。
17. RLHF阶段:Zephyr β和Tulu 2#
Zephyr β:第一个使用DPO引起关注模型。
Tulu 2:第一个将DPO扩展到700亿参数的模型。
18. RLHF阶段:SteerLM和Starling#
SteerLM:属性条件微调。
Starling:引入了新的偏好数据集和k-wise奖励模型损失函数。
19. 当代生态系统#
多样性:模型和参与者的多样性。
20. 当前方向#
数据:对偏好数据集的需求。
DPO改进:对DPO方法的持续改进。
模型大小:扩展不同参数规模的模型。
特定评估:获取比ChatBotArena更具体的评估方法。
个性化:本地模型背后的一个主要动机。
21. 开放对齐发生的地方#
AI2:Tulu模型、OLMo-Adapt、数据集发布。
HuggingFaceH4:新基础模型的快速发布。
Berkeley-Nest/Nexusflow:Nectar数据集/Starling模型。
NousResearch:Hermes微调模型、数据集等。
课程笔记总结#
语言模型历史:了解语言模型的发展历程,特别是Transformer模型的诞生。
RLHF:认识到RLHF在当前流行模型中的重要性。
模型对齐:学习如何通过指令微调、监督微调和偏好微调来对齐模型。
开放指令调整模型:了解Alpaca、Vicuna和Koala等模型的特点和发布时间。
评估工具:掌握ChatBotArena、AlpacaEval和MT Bench等评估工具的使用。
RLHF的工作方式:理解RLHF的目标和优化“奖励”的方法。
偏好建模:学习如何通过成对偏好来收集和建模偏好。
DPO:了解直接偏好优化的实现和它与RL方法的区别。
RLHF阶段:跟踪Zephyr β和Tulu 2等模型的发展。
生态系统:注意模型和参与者的多样性。
当前方向:关注数据集的需求、DPO的改进、模型大小的扩展和特定评估方法的发展。
这份PPT提供了对大型开放语言模型对齐的全面了解,包括它们的历史、关键技术、评估工具和当前研究方向。通过这些课程笔记,学习者可以更好地理解如何对语言模型进行对齐,以及这个领域的最新进展。