Lecture1#
这份PPT是关于“Foundation Models”(基础模型)的课程介绍,由Wenhu Chen在2024年1月23日为加拿大滑铁卢大学(UWaterloo)的CS886课程准备。以下是对PPT内容的详细解释和分析,以及相应的课程笔记:
课程概览#
背景介绍(20分钟):介绍深度学习的历史和基础模型的背景。
课程安排(10分钟):讨论课程的行政细节。
教学大纲(40分钟):详细介绍课程内容和结构。
休息(5分钟):课间休息。
圆桌介绍(20分钟):学生自我介绍。
主题分配(30分钟):学生选择并分配课程项目主题。
讲师简介#
Wenhu Chen于2017年开始在加州大学圣塔芭芭拉分校攻读博士学位,专注于自然语言处理。
研究领域包括知识图谱推理、对话系统、数据到文本生成、图像字幕、问答等。
2021年毕业后加入谷歌研究,并于2022年起在滑铁卢大学担任助理教授。
目前研究领域更广泛,包括大型语言模型推理、大型多模态模型、生成性AI(图像/视频/音频生成)。
深度学习历史#
专业深度学习(BERT/ELMO之前,2018年):设计特定任务的模型架构,利用特定任务的特征,用有限的数据训练专业模型。
迁移学习(2018-2021年间):用大量数据训练模型,使用训练好的模型特征初始化部分架构,设计特定模块,用有限数据训练部分专业化模型。
基础模型(2021年后):在海量数据上训练单一巨大模型,用单一模型应对各种任务。
专业深度学习参数#
模型大小:小于100M参数。
数据量:10K到1M个token。
架构:专业。
泛化能力:无。
专业深度学习的优缺点#
优点:考虑了架构设计的归纳偏差,可以有效利用有限数据训练,模型体积小,易于部署。
缺点:每项任务都需要大量的专业知识进行架构设计,需要标注专门的数据集,模型不能从其他标注数据中受益,需要从头开始学习,维护多个专业模型成本高昂。
迁移学习#
在大量数据上训练模型以学习神经表示或初始化权重的某些部分,然后通过在已学习的神经表示上添加层来转移到新任务。
迁移学习在词向量和视觉模型中的应用#
介绍了Word2Vec和BERT等模型如何利用迁移学习。
迁移深度学习参数#
模型大小:100M到1B参数。
数据量:100M到10B个token。
架构:通用。
泛化能力:合理。
迁移深度学习的优缺点#
优点:模型能力比专业深度学习更强,可以泛化到未见过的情况,需要的微调很少。
缺点:模型性能仍不完美,下游任务仍需微调。
Transformer模型#
介绍了Transformer模型和注意力机制。
GPT-2和GPT-3#
讨论了这两个大型语言模型。
In-context Learning和Few-shot Learning#
介绍了这两种学习方法。
Emergent Ability#
模型大小从0.1B增长到175B时,模型在零样本和少样本任务中表现出色,这被称为“突现能力”。
Diffusion Models#
讨论了扩散模型在图像和视频生成中的应用。
Gemini#
介绍了Google在2023年提出的Gemini模型。
基础深度学习参数#
模型大小:7B到1T参数。
数据量:100B到30T个token。
架构:通用。
泛化能力:强。
课程行政细节#
介绍了课程的评估方式,包括小组演讲、阅读笔记和项目。
课程项目#
学生需选择与课程内容相关的项目主题,项目不需要达到会议论文水平,但需要展示所学或发现的内容。
课程大纲#
详细介绍了课程的各个讲座主题,包括循环神经网络和卷积神经网络、计算机视觉和自然语言处理、自注意力和Transformer、高效的Transformer架构、参数高效的调整、语言模型预训练、大型语言模型、缩放法则、指令调整和强化学习、高效的大型语言模型训练、高效的大型语言模型推理、压缩和稀疏化大型语言模型、提示大型语言模型、视觉Transformer、扩散模型、图像生成、多模态预训练、大型多模态模型、大型语言模型与工具增强、大型语言模型与检索增强。
圆桌介绍和主题分配#
学生进行自我介绍,讨论他们正在从事的工作、合作者、对课程的期望以及基础模型如何有益于他们的研究。
讨论阶段#
学生与同学讨论,与讲师讨论讲座内容和主题,进行项目相关问题的问答。
这份PPT提供了一个全面的课程概览,涵盖了深度学习的基础模型、历史、应用以及相关的最新研究。通过这些笔记,学生可以更好地理解课程内容,准备演讲和项目,并与同学和讲师进行深入讨论。