Lecture8

Contents

Lecture8#

这份PPT是关于大型语言模型（Large Language Models，简称LLMs）的课程介绍，由Ayinde Yakubu和Jerry Gu在2024年1月17日为加拿大滑铁卢大学（UWaterloo）的CS886课程准备。以下是对PPT内容的详细解释和分析，以及相应的课程笔记：

大型语言模型（LLM）概述#

定义：能够理解和生成人类语言的计算模型。
应用：在大量数据集上训练，用于识别、翻译、预测或生成文本或其他内容。
特点：是无监督的多任务学习者。

LLM与传统机器学习、深度学习的比较#

训练数据规模：LLM需要非常大的数据集。
特征工程：LLM自动完成，不需要手动特征工程。
模型复杂性：LLM最为复杂。
可解释性：LLM的可解释性较差。
性能：LLM性能最高。
硬件需求：LLM对硬件的需求非常高。

自然语言处理任务#

自然语言理解：情感分析、文本分类、自然语言推理（NLI）、语义理解、推理等。
自然语言生成：摘要、问答等。

T5框架#

统一方法：将各种任务统一为文本到文本的转换。
架构：使用word2vec生成输入序列中每个标记的数值表示向量。

T5性能和架构变体#

性能：在多个基准测试中的表现。
架构变体：不同的注意力掩蔽模式。

T5输入数据#

数据集：Colossal Clean Crawled Corpus，每月从网页提取20TB文本数据。

T5训练#

任务：所有任务都表述为文本到文本的任务。
预训练步骤：使用最大序列长度512和批量大小128序列。

T5无监督目标#

机制：模型通过大量未标记文本数据集学习通用知识。

T5预训练数据集#

腐败策略：包括掩蔽、替换跨度、删除和打乱等。

T5性能结果#

数据集大小：不同大小的数据集对模型性能的影响。

T5扩展#

计算能力：增加计算能力可以提高模型性能。

T5反思#

文本到文本：提供了一种简单的方式，使用相同的损失函数和解码程序训练单一模型完成多种任务。

上下文学习#

限制：需要大型数据集，但实践中并不总是可行。

语言模型元学习#

能力：在训练期间发展广泛的技能和模式识别能力。

GPT-3架构和训练方法#

数据集：基于原始Common Crawl数据集，最多1T单词。

GPT-3训练数据集#

清理：通过多种方式清理原始数据集。

GPT-3计算消耗#

细节：模型大小、层数、dmodel、nheads、dhead、批量大小和学习率。

GPT-3限制#

文本合成：存在结构和算法限制。
样本效率：预训练期间样本效率低下。
可解释性：缺乏可解释性。
偏见和不公平：可能会延续和放大社会中现有的偏见和不公平。

CodeX介绍#

进展：在从未明确训练过代码的语言模型中生成程序。

CodeX评估#

方法：使用功能正确性而不是基于匹配的指标。

CodeX训练#

细节：在GitHub上的159GB独特Python文件数据集上微调GPT模型。

CodeX结果#

测试损失：在保留的验证集上的交叉熵测试损失遵循幂律。

CodeX比较#

性能：与其他模型（如GPT-NEO和GPT-J）的比较。

CodeX-S#

改进：通过监督微调提高了性能。

CodeX-D#

生成文档字符串：从代码生成文档字符串的CodeX版本。

CodeX限制#

训练效率：训练数据总量达数亿行代码。

Llama-2介绍#

家族：具有数十亿参数的预训练和微调LLM。

Llama-2预训练#

架构：采用标准变换器架构。

Llama-2预训练评估#

基准：与其他开源模型的比较。

Llama 2-Chat#

版本：通过对齐技术进行监督微调的Llama-2版本。

Llama 2-Chat人类偏好数据收集#

反馈：从人类反馈中获取人类偏好数据。

Llama 2-Chat奖励建模#

模型：使用人类偏好数据训练奖励模型。

Llama 2-Chat迭代微调#

算法：使用拒绝采样微调和近端策略优化（PPO）。

Llama 2-Chat Ghost Attention (GAtt)#

技术：帮助控制多轮对话流程。

Llama 2-Chat RLHF模型评估#

质量：在有帮助和安全提示的测试集上评估。

Llama-2安全性#

数据过滤：在预训练和微调期间过滤有害数据。

Mixtral of Experts (MoE)介绍#

模型：可以胜过Llama-2 70B和GPT3.5的稀疏混合专家模型。

Mistral架构#

版本：Mixtral的早期版本。

稀疏Mixtral of Experts#

架构：与Mistral相同，但具有更长的上下文长度和MoE层。

Mixtral结果#

基准：在多个基准测试中与Llama-2的比较。

Mixtral-Instruct#

版本：在指令数据集上进行监督微调的Mixtral版本。

Mixtral路由分析#

分布：使用The Pile数据集测量所选专家的分布。

PaLM: Pathways Language Model#

参数：训练为具有5400亿参数的密集激活变换器语言模型。

PaLM模型架构#

设置：仅解码器设置，每个时间步只能关注自身和过去的步骤。

PaLM模型规模超参数#

比较：比较了不同模型规模的性能。

PaLM训练数据集#

组成：代表广泛自然语言使用案例的高质量语料库。

PaLM训练基础设施#

TPU：所有模型都在TPU v4 Pods上训练。

PaLM结果#

基准：在29个NLP基准测试中的表现。

PaLM: BIG-bench#

基准：旨在为LLM产生具有挑战性任务的协作基准。

PaLM: 评估推理#

算术推理：需要多步逻辑推理的自然语言数学问题。

PaLM: 链式思维提示#

方法：通过提供解决问题的逐步思维过程来提高模型的推理能力。

PaLM: 链式思维结果#

表现：在不同任务上的表现。

PaLM: 代码任务#

文本到代码：根据自然语言描述编写代码。

PaLM: 翻译#

任务：将一种人类语言重写为另一种语言，同时保留输入的内容、语义和风格。

PaLM: 限制#

偏见：在底层数据中包含和放大偏见。

LLMs比较#

模型名称：包括T5、GPT-3、CodeX、Llama-2、Mixtral和PaLM的比较。

问题/讨论#

无监督学习与强化学习：哪种更可取？
LLM的大小：是什么让语言模型变得“大型”？
语言模型的恶意使用：语言模型是否可以被恶意使用？
减少社会伤害：如何减少语言模型的滥用对社会造成的伤害？
消除社会隐含偏见：如何从基础模型中移除社会隐含偏见？
LLMs的突现能力：是什么导致了在LLMs中观察到的突现能力？

参考文献#

引用：列出了用于准备PPT的学术资源。

这份PPT为学生提供了大型语言模型的全面介绍，包括它们的定义、与传统机器学习和深度学习的比较、在自然语言处理任务中的应用、不同LLMs的架构和性能比较，以及这些模型的潜在限制和社会影响。通过这些笔记，学生可以更好地理解