Lecture1

Lecture1#

这份PPT是关于“Foundation Models”（基础模型）的课程介绍，由Wenhu Chen在2024年1月23日为加拿大滑铁卢大学（UWaterloo）的CS886课程准备。以下是对PPT内容的详细解释和分析，以及相应的课程笔记：

课程概览#

背景介绍（20分钟）：介绍深度学习的历史和基础模型的背景。
课程安排（10分钟）：讨论课程的行政细节。
教学大纲（40分钟）：详细介绍课程内容和结构。
休息（5分钟）：课间休息。
圆桌介绍（20分钟）：学生自我介绍。
主题分配（30分钟）：学生选择并分配课程项目主题。

讲师简介#

Wenhu Chen于2017年开始在加州大学圣塔芭芭拉分校攻读博士学位，专注于自然语言处理。
研究领域包括知识图谱推理、对话系统、数据到文本生成、图像字幕、问答等。
2021年毕业后加入谷歌研究，并于2022年起在滑铁卢大学担任助理教授。
目前研究领域更广泛，包括大型语言模型推理、大型多模态模型、生成性AI（图像/视频/音频生成）。

深度学习历史#

专业深度学习（BERT/ELMO之前，2018年）：设计特定任务的模型架构，利用特定任务的特征，用有限的数据训练专业模型。
迁移学习（2018-2021年间）：用大量数据训练模型，使用训练好的模型特征初始化部分架构，设计特定模块，用有限数据训练部分专业化模型。
基础模型（2021年后）：在海量数据上训练单一巨大模型，用单一模型应对各种任务。

专业深度学习参数#

模型大小：小于100M参数。
数据量：10K到1M个token。
架构：专业。
泛化能力：无。

专业深度学习的优缺点#

优点：考虑了架构设计的归纳偏差，可以有效利用有限数据训练，模型体积小，易于部署。
缺点：每项任务都需要大量的专业知识进行架构设计，需要标注专门的数据集，模型不能从其他标注数据中受益，需要从头开始学习，维护多个专业模型成本高昂。

迁移学习#

在大量数据上训练模型以学习神经表示或初始化权重的某些部分，然后通过在已学习的神经表示上添加层来转移到新任务。

迁移学习在词向量和视觉模型中的应用#

介绍了Word2Vec和BERT等模型如何利用迁移学习。

迁移深度学习参数#

模型大小：100M到1B参数。
数据量：100M到10B个token。
架构：通用。
泛化能力：合理。

迁移深度学习的优缺点#

优点：模型能力比专业深度学习更强，可以泛化到未见过的情况，需要的微调很少。
缺点：模型性能仍不完美，下游任务仍需微调。

Transformer模型#

介绍了Transformer模型和注意力机制。

GPT-2和GPT-3#

讨论了这两个大型语言模型。

In-context Learning和Few-shot Learning#

介绍了这两种学习方法。

Emergent Ability#

模型大小从0.1B增长到175B时，模型在零样本和少样本任务中表现出色，这被称为“突现能力”。

Diffusion Models#

讨论了扩散模型在图像和视频生成中的应用。

Gemini#

介绍了Google在2023年提出的Gemini模型。

基础深度学习参数#

模型大小：7B到1T参数。
数据量：100B到30T个token。
架构：通用。
泛化能力：强。

课程行政细节#

介绍了课程的评估方式，包括小组演讲、阅读笔记和项目。

课程项目#

学生需选择与课程内容相关的项目主题，项目不需要达到会议论文水平，但需要展示所学或发现的内容。

课程大纲#

详细介绍了课程的各个讲座主题，包括循环神经网络和卷积神经网络、计算机视觉和自然语言处理、自注意力和Transformer、高效的Transformer架构、参数高效的调整、语言模型预训练、大型语言模型、缩放法则、指令调整和强化学习、高效的大型语言模型训练、高效的大型语言模型推理、压缩和稀疏化大型语言模型、提示大型语言模型、视觉Transformer、扩散模型、图像生成、多模态预训练、大型多模态模型、大型语言模型与工具增强、大型语言模型与检索增强。

圆桌介绍和主题分配#

学生进行自我介绍，讨论他们正在从事的工作、合作者、对课程的期望以及基础模型如何有益于他们的研究。

讨论阶段#

学生与同学讨论，与讲师讨论讲座内容和主题，进行项目相关问题的问答。

这份PPT提供了一个全面的课程概览，涵盖了深度学习的基础模型、历史、应用以及相关的最新研究。通过这些笔记，学生可以更好地理解课程内容，准备演讲和项目，并与同学和讲师进行深入讨论。