Lecture6#

这份PPT是关于参数高效变换器(Parameter-efficient Transformer)的课程介绍,由Ansh Sharma和Manveer Singh Tamber在2024年2月3日为加拿大滑铁卢大学(UWaterloo)的CS886课程准备。以下是对PPT内容的详细解释和分析,以及相应的课程笔记:

参数高效变换器概述#

  • 主题:探讨了如何在变换器模型中实现参数高效,即用更少的参数达到相似或更好的性能。

转移学习(Transfer Learning)#

  • 定义:将一个任务上训练好的模型用作另一个相关任务的起点。

  • 特征基础 vs 微调:介绍了两种不同的转移学习方法,特征基础方法和微调方法。

适配器调整(Adapter Tuning)#

  • 架构:在变换器层中引入适配器模块,以实现参数高效调整。

  • 多头注意力:变换器处理输入数据的主要子层。

  • 前馈层:使用注意力机制处理数据。

  • 跳跃连接:将适配器/前馈层的输出加回到该层(或子层)的原始输入,有助于网络保留早期阶段的信息。

  • 层归一化:对组合输出进行归一化,以稳定学习过程。

实验和结果#

  • 目标:构建一个紧凑且可扩展的系统,该系统在多个类似下游任务上表现良好,而不是为每个新任务训练一个全新的模型。

  • GLUE基准:使用BERT进行26个不同的文本分类任务。

  • SQuAD数据集:斯坦福问答数据集,包含来自Wikipedia文章的问题-答案对。

LoRA(低秩适应大型语言模型)#

  • 微调大型语言模型(LLMs):讨论了微调LLMs的参数高效方法,如适配器模块和前缀调整。

  • 固有维度和固有秩:介绍了两个关键概念,固有维度和固有秩,它们与神经网络的参数复杂度相关。

实验和结果#

  • 模型比较:使用RoBERTa、DeBERTa、GPT-2和GPT-3进行比较。

  • 基准测试:包括GLUE基准测试、WikiSQL、SAMSum、E2E NLG挑战和DART。

小型语言模型也是少样本学习者#

  • 零样本学习 vs 少样本学习:介绍了两种学习方式,并讨论了它们在不同任务上的应用。

  • PET(Pattern-Exploiting Training):利用模式训练来提高小型模型的少样本学习能力。

实验和结果#

  • PET:基于ALBERT的PET在SuperGLUE和FewGLUE基准测试上的表现。

使预训练语言模型更好地进行少样本学习#

  • LM-BFF(更好的语言模型少样本微调):介绍了基于提示的微调、自动提示生成和带有示例的微调。

实验和评估#

  • 结果:展示了这些方法在不同任务上的表现。

代码资源#

  • 提供了相关的GitHub链接,包括Adapter BERT、LoRA、PET和LM-BFF。

前缀调整(Prefix-Tuning)#

  • 背景:讨论了前缀调整的概念及其在注意力机制中的应用。

提示调整(Prompt-Tuning)#

  • 评估:使用不同大小的T5-lm-adapt模型在SuperGLUE基准测试上进行评估。

  • 初始化提示:讨论了如何初始化提示,包括随机选择、类标签初始化等。

提示长度#

  • 观察:在所有模型中,提示长度超过20个token只会产生边际增益。

参数高效微调与上下文学习(In-Context Learning, ICL)#

  • 比较:讨论了参数高效微调与上下文学习在不同任务上的表现和效率。

参数高效微调的统一视角#

  • 适配器、LoRA和前缀调整:探讨了这些方法之间的关系,并提出了统一的理解。

实验评估#

  • 数据集:使用了XSum、英语到罗马尼亚语翻译、MNLI和SST2等数据集。

  • 模型:使用了BART-large和RoBERTa-base。

结合最佳设计元素#

  • 观察:并行适配器是修改FFN的最佳变体;FFN在更大的参数计数下更好地利用修改;使用前缀调整修改头部注意力可以在只有0.1%参数的情况下实现强大的性能。

PEFT的使用时机#

  • 实证分析:分析了PEFT技术在大型语言模型(LLMs)中的优势和劣势。

🤗 PEFT#

  • HuggingFace PEFT:支持许多微调方法,并可以与大多数模型一起使用。

结语#

  • 提问:课程最后提供了提问环节。

这份PPT为学生提供了参数高效变换器的全面介绍,包括它们的历史、工作原理、架构、以及在不同任务上的应用。通过这些笔记,学生可以更好地理解如何在保持模型性能的同时减少模型的参数数量,这对于资源有限或需要快速部署的场景非常有用。