Lecture1#

这份PPT是关于“Foundation Models”(基础模型)的课程介绍,由Wenhu Chen在2024年1月23日为加拿大滑铁卢大学(UWaterloo)的CS886课程准备。以下是对PPT内容的详细解释和分析,以及相应的课程笔记:

课程概览#

  • 背景介绍(20分钟):介绍深度学习的历史和基础模型的背景。

  • 课程安排(10分钟):讨论课程的行政细节。

  • 教学大纲(40分钟):详细介绍课程内容和结构。

  • 休息(5分钟):课间休息。

  • 圆桌介绍(20分钟):学生自我介绍。

  • 主题分配(30分钟):学生选择并分配课程项目主题。

讲师简介#

  • Wenhu Chen于2017年开始在加州大学圣塔芭芭拉分校攻读博士学位,专注于自然语言处理。

  • 研究领域包括知识图谱推理、对话系统、数据到文本生成、图像字幕、问答等。

  • 2021年毕业后加入谷歌研究,并于2022年起在滑铁卢大学担任助理教授。

  • 目前研究领域更广泛,包括大型语言模型推理、大型多模态模型、生成性AI(图像/视频/音频生成)。

深度学习历史#

  • 专业深度学习(BERT/ELMO之前,2018年):设计特定任务的模型架构,利用特定任务的特征,用有限的数据训练专业模型。

  • 迁移学习(2018-2021年间):用大量数据训练模型,使用训练好的模型特征初始化部分架构,设计特定模块,用有限数据训练部分专业化模型。

  • 基础模型(2021年后):在海量数据上训练单一巨大模型,用单一模型应对各种任务。

专业深度学习参数#

  • 模型大小:小于100M参数。

  • 数据量:10K到1M个token。

  • 架构:专业。

  • 泛化能力:无。

专业深度学习的优缺点#

  • 优点:考虑了架构设计的归纳偏差,可以有效利用有限数据训练,模型体积小,易于部署。

  • 缺点:每项任务都需要大量的专业知识进行架构设计,需要标注专门的数据集,模型不能从其他标注数据中受益,需要从头开始学习,维护多个专业模型成本高昂。

迁移学习#

  • 在大量数据上训练模型以学习神经表示或初始化权重的某些部分,然后通过在已学习的神经表示上添加层来转移到新任务。

迁移学习在词向量和视觉模型中的应用#

  • 介绍了Word2Vec和BERT等模型如何利用迁移学习。

迁移深度学习参数#

  • 模型大小:100M到1B参数。

  • 数据量:100M到10B个token。

  • 架构:通用。

  • 泛化能力:合理。

迁移深度学习的优缺点#

  • 优点:模型能力比专业深度学习更强,可以泛化到未见过的情况,需要的微调很少。

  • 缺点:模型性能仍不完美,下游任务仍需微调。

Transformer模型#

  • 介绍了Transformer模型和注意力机制。

GPT-2和GPT-3#

  • 讨论了这两个大型语言模型。

In-context Learning和Few-shot Learning#

  • 介绍了这两种学习方法。

Emergent Ability#

  • 模型大小从0.1B增长到175B时,模型在零样本和少样本任务中表现出色,这被称为“突现能力”。

Diffusion Models#

  • 讨论了扩散模型在图像和视频生成中的应用。

Gemini#

  • 介绍了Google在2023年提出的Gemini模型。

基础深度学习参数#

  • 模型大小:7B到1T参数。

  • 数据量:100B到30T个token。

  • 架构:通用。

  • 泛化能力:强。

课程行政细节#

  • 介绍了课程的评估方式,包括小组演讲、阅读笔记和项目。

课程项目#

  • 学生需选择与课程内容相关的项目主题,项目不需要达到会议论文水平,但需要展示所学或发现的内容。

课程大纲#

  • 详细介绍了课程的各个讲座主题,包括循环神经网络和卷积神经网络、计算机视觉和自然语言处理、自注意力和Transformer、高效的Transformer架构、参数高效的调整、语言模型预训练、大型语言模型、缩放法则、指令调整和强化学习、高效的大型语言模型训练、高效的大型语言模型推理、压缩和稀疏化大型语言模型、提示大型语言模型、视觉Transformer、扩散模型、图像生成、多模态预训练、大型多模态模型、大型语言模型与工具增强、大型语言模型与检索增强。

圆桌介绍和主题分配#

  • 学生进行自我介绍,讨论他们正在从事的工作、合作者、对课程的期望以及基础模型如何有益于他们的研究。

讨论阶段#

  • 学生与同学讨论,与讲师讨论讲座内容和主题,进行项目相关问题的问答。

这份PPT提供了一个全面的课程概览,涵盖了深度学习的基础模型、历史、应用以及相关的最新研究。通过这些笔记,学生可以更好地理解课程内容,准备演讲和项目,并与同学和讲师进行深入讨论。