Skip to main content

Ctrl+K

目录

第01章：Bigram语言模型（语言建模）
第02章：Micrograd（机器学习，反向传播）
第03章：N-gram模型（多层感知器，矩阵乘法，GELU激活函数）
第04章：注意力机制（Attention，Softmax，位置编码器）
第05章：Transformer（transformer架构，残差连接，层归一化，GPT-2）
第6章：分词技术(Tokenization)
第7章：优化技术(Optimization)
第8章：速度提升I：设备(Device)
第9章：速度提升II：精度(Precision)
第10章：速度提升III：分布式(Distributed)
第11章：数据集（Datasets）
第12章：推理 I：KV缓存（KV-Cache）
第13章：推理 II：量化 (Quantization)
第14章：监督式微调 I-SFT-14.1 监督式微调基础
第14章：监督式微调 I: SFT-14.1 监督式微调基础
第14章：监督式微调 I: SFT-14.3 LoRA技术详解
第14章：监督式微调 I: SFT-14.4 聊天模型的监督式微调
第14章：监督式微调 I: SFT-实践案例：故事讲述模型的SFT实现
第15章：强化学习微调 II: RL-15.1 强化学习基础
第15章：强化学习微调 II: RL-15.2 人类反馈的强化学习(RLHF)
第15章：强化学习微调 II: RL-15.3 近端策略优化(PPO)算法
第15章：强化学习微调 II: RL-## 15.4 直接偏好优化(DPO)算法
第16章：部署-16.1 API开发基础
第16章：部署-16.2 Web应用开发
第17章：多模态-17.1 多模态基础理论
第17章：多模态-17.2 VQVAE技术详解
第17章：多模态-17.3 扩散变换器
第17章：多模态-基于LoRA的多模态模型训练
第17章：多模态-17.5 多模态模型整合
附录
附录A：编程语言基础
附录B：数据类型基础
附录C：张量操作基础
附录D：深度学习框架
附录E：神经网络架构
附录F：多模态基础

Repository
Suggest edit
Open issue

.md

LLM-101-Bootcamp

Contents

项目介绍
- 项目简介

LLM-101-Bootcamp#

项目介绍#

项目简介#

目录

第01章：Bigram语言模型（语言建模）
- 1. 语言模型基础概念
- 2. 概率论基础
- 3. Bigram模型详解
- 4. 实现一个简单的Bigram模型
- 5. Bigram模型的局限性
- 总结
第02章：Micrograd（机器学习，反向传播）
- 1. 机器学习基础
- 2. 计算图与自动微分
- 3. Micrograd框架介绍
  - Micrograd的设计理念
  - 核心组件与架构
- 4. 从零实现Micrograd
- 5. 使用Micrograd构建简单神经网络
- 总结
第03章：N-gram模型（多层感知器，矩阵乘法，GELU激活函数）
- 1. 从Bigram到N-gram
  - N-gram模型的数学定义
  - 高阶N-gram的优势与挑战
- 2. 多层感知器(MLP)基础
- 3. 矩阵乘法在深度学习中的应用
- 4. 激活函数详解
- 5. 实现基于MLP的N-gram模型
- 总结
第04章：注意力机制（Attention，Softmax，位置编码器）
- 1. 序列模型的挑战
  - 长距离依赖问题
  - RNN及其变体的局限性
- 2. 注意力机制基础
- 3. Softmax函数详解
- 4. 位置编码器
- 5. 实现自注意力机制
- 总结
第05章：Transformer（transformer架构，残差连接，层归一化，GPT-2）
- 1. Transformer架构概览
- 2. 残差连接
- 3. 层归一化
- 4. GPT-2模型详解
- 5. 实现简化版Transformer
- 总结
第6章：分词技术(Tokenization)
- 6.1 分词的基本概念与重要性
- 6.2 字节对编码(Byte Pair Encoding, BPE)原理
- 6.3 minBPE算法详解
- 6.4 实现一个简单的分词器
- 6.5 分词器训练与优化
- 6.6 在故事生成中的应用
- 6.7 总结与展望
第7章：优化技术(Optimization)
- 7.1 神经网络优化基础
- 7.2 参数初始化方法与重要性
- 7.3 梯度下降及其变种
- 7.4 AdamW优化器详解
- 7.5 学习率调度策略
- 7.6 优化过程中的常见问题与解决方案
- 7.7 故事生成模型的优化实践
- 7.8 总结与展望
第8章：速度提升I：设备(Device)
- 8.1 计算设备概述
  - 8.1.1 主要计算设备类型
  - 8.1.2 计算设备的关键指标
- 8.2 设备间的性能差异与选择
- 8.3 CUDA基础与GPU编程
- 8.4 内存管理与数据传输优化
- 8.5 设备特定优化技巧
- 8.6 多设备协同工作
- 8.7 在故事生成中的应用
- 8.8 总结与展望
第9章：速度提升II：精度(Precision)
- 9.1 数值精度基础
- 9.2 混合精度训练原理
- 9.3 实现混合精度训练
- 9.4 精度与性能的权衡
- 9.5 精度问题排查与解决
- 9.6 不同精度在故事生成中的影响
- 9.7 总结与展望
第10章：速度提升III：分布式(Distributed)
- 10.1 分布式训练基础
- 10.2 数据并行训练
- 10.3 模型并行训练
- 10.4 分布式优化算法
- 10.5 分布式训练的实用技巧
- 10.6 分布式训练在故事生成中的应用
- 10.7 总结与展望
第11章：数据集（Datasets）
- 11.1 数据集概述
- 11.2 数据收集
  - 11.2.1 公开数据集
  - 11.2.2 自定义数据收集
- 11.3 数据清洗与预处理
- 11.4 数据加载与处理
- 11.5 合成数据生成
- 11.6 数据集管理与版本控制
- 引用
上传README.md
- 11.7 数据集评估与分析
第12章：推理 I：KV缓存（KV-Cache）
- 12.1 推理过程概述
- 12.2 Transformer架构回顾
- 12.3 KV缓存原理
- 12.4 KV缓存实现
- 12.5 KV缓存优化技术
  - 12.5.1 内存优化
第13章：推理 II：量化 (Quantization)
- 13.1 量化基础概念
- 13.2 量化技术详解
- 13.3 量化对模型性能的影响
- 13.4 实践：LLM模型量化
第14章：监督式微调 I-SFT-14.1 监督式微调基础
- 14.1 监督式微调基础
第14章：监督式微调 I: SFT-14.1 监督式微调基础
- 14.2 参数高效微调技术(PEFT)
第14章：监督式微调 I: SFT-14.3 LoRA技术详解
- 14.3 LoRA技术详解
第14章：监督式微调 I: SFT-14.4 聊天模型的监督式微调
- 14.4 聊天模型的监督式微调
第14章：监督式微调 I: SFT-实践案例：故事讲述模型的SFT实现
- 14.5 实践案例：故事讲述模型的SFT实现
第15章：强化学习微调 II: RL-15.1 强化学习基础
- 15.1 强化学习基础
第15章：强化学习微调 II: RL-15.2 人类反馈的强化学习(RLHF)
- 15.2 人类反馈的强化学习(RLHF)
第15章：强化学习微调 II: RL-15.3 近端策略优化(PPO)算法
- 15.3 近端策略优化(PPO)算法
第15章：强化学习微调 II: RL-## 15.4 直接偏好优化(DPO)算法
- 15.4 直接偏好优化(DPO)算法
第16章：部署-16.1 API开发基础
- 16.1 API开发基础
第16章：部署-16.2 Web应用开发
- 16.2 Web应用开发
第17章：多模态-17.1 多模态基础理论
- 17.1 多模态基础理论
第17章：多模态-17.2 VQVAE技术详解
- 17.2 VQVAE技术详解
第17章：多模态-17.3 扩散变换器
- 17.3 扩散变换器(Diffusion Transformer)
第17章：多模态-基于LoRA的多模态模型训练
- 17.4 基于LoRA的多模态模型训练
第17章：多模态-17.5 多模态模型整合
- 17.5 多模态模型整合
附录
附录A：编程语言基础
- A.1 编程语言：从汇编到Python
附录B：数据类型基础
- B.1 数据类型：从整数到字符串
附录C：张量操作基础
- C.1 张量：形状、视图、步长与连续性
附录D：深度学习框架
- D.1 深度学习框架：PyTorch与JAX
附录E：神经网络架构
- E.1 神经网络架构：GPT、Llama、MoE及其演进
附录F：多模态基础
- F.1 多模态：VQVAE、VQGAN、扩散模型

next

第01章：Bigram语言模型（语言建模）

Contents

项目介绍
- 项目简介

By isLinXu

© Copyright 2025, isLinXu.