Skip to content

附录D:术语表

"术语是知识的基本单位。" 本术语表收录了Agent编程领域的核心专业术语,按字母顺序排列,提供中英文对照和简要释义。


使用说明

  • 每个术语包含:英文名称中文释义简要解释相关术语
  • 英文术语按字母顺序排列
  • 中文拼音索引用于快速定位
  • 🔖 标记表示该术语在本书中首次出现的章节

A

A/B Testing(A/B测试)

对照实验方法,将流量随机分配到两个或多个版本以比较效果。在Agent开发中常用于比较不同prompt或模型版本的效果。

  • 相关术语:Evaluation, Red Teaming
  • 参见:卷四 第12章

Absorbing State(吸收状态)

在马尔可夫决策过程(MDP)中,一旦到达就不会离开的状态。在Agent规划中,吸收状态通常代表任务的完成或失败。

  • 相关术语:MDP, Planning

Action Space(动作空间)

Agent可以执行的所有动作的集合。在LLM Agent中,动作空间通常包括文本生成、工具调用、环境交互等。

  • 相关术语:State Space, Policy, MDP

Active Learning(主动学习)

机器学习范式,模型主动选择最有价值的样本进行标注。在Agent中可用于优先选择需要人类反馈的案例。

  • 相关术语:RLHF, Human-in-the-Loop

Agent(智能体)

能够感知环境、做出决策并执行动作以实现目标的自主系统。本书的核心概念。

  • 相关术语:Autonomous Agent, Multi-Agent System
  • 参见:卷一 第1章

Agent Architecture(Agent架构)

Agent系统的整体设计方案,定义了感知、推理、规划、执行等组件的组织方式和交互模式。常见架构包括ReAct、Plan-and-Execute、Reflexion等。

  • 相关术语:ReAct, Plan-and-Execute, Cognitive Architecture
  • 参见:卷二 第3章

Agentic Workflow(Agent工作流)

由Agent自主执行的多步骤流程,可能包含工具调用、条件分支、循环等复杂逻辑。

  • 相关术语:Workflow, DAG, Pipeline
  • 参见:卷三 第6章

Alignment(对齐)

使AI系统的行为与人类价值观和意图一致的技术和过程。包括RLHF、Constitutional AI等方法。

  • 相关术语:RLHF, Constitutional AI, Safety, Guardrails
  • 参见:卷五 第14章

Anthropic

AI安全公司,创建了Claude系列模型和Constitutional AI方法。

  • 相关术语:Claude, Constitutional AI, RLHF

Auto-regressive Model(自回归模型)

一种生成模型,每次生成一个token,并将之前生成的所有token作为上下文。GPT系列和Claude都是自回归模型。

  • 相关术语:GPT, Claude, Token, Next-token Prediction

Autonomous Agent(自主Agent)

能够在最小人工干预下持续运作的Agent系统。与简单的"一次请求-一次响应"模式不同,自主Agent可以持续感知、决策和行动。

  • 相关术语:Agent, Multi-Agent System

B

Batch Processing(批处理)

将多个请求合并为一个批次统一处理,以提高吞吐量和效率。在LLM推理中,批处理可以显著提升GPU利用率。

  • 相关术语:Throughput, Inference Optimization

Beam Search(束搜索)

一种解码策略,在每个步骤保留最有可能的k个候选序列,而不是只保留最好的一个。在Agent中较少使用,因为Agent通常使用采样(temperature > 0)以获得多样性。

  • 相关术语:Decoding Strategy, Sampling, Temperature

Blackboard Architecture(黑板架构)

一种多Agent协作模式,所有Agent通过共享的"黑板"(共享工作空间)进行通信和协作。

  • 相关术语:Multi-Agent System, Shared Memory

Boltzmann Distribution(玻尔兹曼分布)

在温度参数控制下的概率分布。LLM的采样温度本质上就是玻尔兹曼分布中的温度参数。

  • 相关术语:Temperature, Sampling, Top-p

Budget Token(预算Token)

在扩展思考(如Claude的Extended Thinking)中,分配给模型进行内部推理的最大token数量。

  • 相关术语:Extended Thinking, Chain-of-Thought, Token
  • 参见:卷二 第4章

Byte-Pair Encoding (BPE)(字节对编码)

一种子词分词方法,通过迭代合并最频繁出现的字符对来构建词表。OpenAI的GPT系列使用BPE。

  • 相关术语:Tokenization, Token, Vocabulary

C

Chain-of-Thought (CoT)(思维链)

一种prompt技术,要求模型在给出最终答案之前展示其推理过程。研究表明CoT可以显著提升模型在复杂推理任务上的表现。

  • 相关术语:Zero-shot CoT, Few-shot CoT, Tree-of-Thought
  • 参见:卷二 第4章

Chunking(分块)

将长文档分割成较小的片段(chunks),以便进行向量化存储和检索。分块策略直接影响RAG系统的检索质量。

  • 相关术语:RAG, Embedding, Retrieval, Splitting
  • 参见:卷三 第7章

Claude

Anthropic公司开发的大语言模型系列,包括Claude Opus、Sonnet和Haiku等版本。

  • 相关术语:Anthropic, Constitutional AI

Cognitive Architecture(认知架构)

对Agent内部信息处理流程的抽象建模,类比人类认知系统的感知、记忆、推理、决策过程。

  • 相关术语:Agent Architecture, Memory, Planning

Completion(补全)

LLM的基本功能之一,给定一段文本前缀,模型生成后续文本。

  • 相关术语:Prompt, Generation, Next-token Prediction

Constitutional AI (CAI)(宪法AI)

Anthropic提出的AI对齐方法,让AI根据一组预定义的原则("宪法")来评判和修正自己的行为。

  • 相关术语:Alignment, RLHF, Safety, Anthropic

Context Window(上下文窗口)

LLM在一次推理中能处理的最大token数量。上下文窗口决定了模型能"看到"多少输入信息。

  • 相关术语:Token, Context Length, Long Context
  • 参见:卷一 第2章

Conversation History(对话历史)

在多轮对话中保存的所有之前轮次的对话记录。对话历史的管理(截断、摘要、压缩)是Agent系统的重要挑战。

  • 相关术语:Memory, Session, Context Window

Cost Token(成本Token)

衡量LLM API使用费用的单位,通常按输入token和输出token分别计价。

  • 相关术语:Token, API Pricing

CrewAI

一个角色驱动的多Agent协作框架,Agent通过角色定义和任务分配来协作完成复杂任务。

  • 相关术语:Multi-Agent System, AutoGen, Agent Framework
  • 参见:附录A

D

DAG (Directed Acyclic Graph)(有向无环图)

一种数据结构,节点通过有向边连接且不存在环路。在Agent工作流中,DAG常用于表示步骤之间的依赖关系。

  • 相关术语:Workflow, Graph, LangGraph
  • 参见:卷三 第6章

Decoding Strategy(解码策略)

LLM从概率分布中选择最终输出token的方法。常见策略包括贪心搜索、采样、束搜索、Top-k、Top-p等。

  • 相关术语:Sampling, Temperature, Top-k, Top-p, Beam Search

Deduplication(去重)

从检索结果或知识库中移除重复内容的过程。对提升RAG系统的信息密度很重要。

  • 相关术语:RAG, Retrieval, Chunking

Deep Learning(深度学习)

基于多层神经网络的机器学习方法。现代LLM和Agent系统都建立在深度学习技术之上。

  • 相关术语:Neural Network, Transformer, LLM

Dependency Injection(依赖注入)

一种软件设计模式,将组件的依赖关系通过外部注入而非内部创建。在Agent框架中常用于管理LLM Provider、工具、存储等组件。

  • 相关术语:Inversion of Control, Plugin Architecture

Distillation(蒸馏)

将大型模型的知识转移到小型模型的技术。常用于部署场景,以较小的模型实现接近大模型的效果。

  • 相关术语:Quantization, Pruning, Model Compression
  • 参见:卷五 第16章

Docker

容器化平台,将应用及其依赖打包为可移植的容器镜像。Agent应用的标准化部署方式。

  • 相关术语:Container, Kubernetes, Deployment
  • 参见:附录C

E

Embedding(嵌入/向量表示)

将文本、图像等数据转换为稠密数值向量的过程。嵌入向量捕获了数据的语义信息,是RAG系统的核心组件。

  • 相关术语:Vector, Dense Representation, Semantic Search, RAG
  • 参见:卷三 第7章

Emergent Ability(涌现能力)

当模型规模达到一定阈值后,突然出现的新能力。例如,大型LLM展现出的推理、代码生成、数学计算等能力在小模型中不存在。

  • 相关术语:Scaling Law, Foundation Model

Evaluation(评估)

衡量Agent系统性能和质量的系统性方法。包括定量指标(准确率、延迟、成本)和定性评估(用户体验、安全性)。

  • 相关术语:Benchmark, Metrics, Red Teaming
  • 参见:卷四 第12章

Extended Thinking(扩展思考)

Anthropic Claude模型的一种推理模式,模型在给出最终答案前进行更深入的内部推理,适合复杂推理任务。

  • 相关术语:Chain-of-Thought, Budget Token, Claude

F

Few-shot Learning(少样本学习)

在prompt中提供少量示例来引导模型理解任务格式和期望输出。Few-shot可以显著提升模型在特定任务上的表现。

  • 相关术语:Zero-shot, In-context Learning, Prompt Engineering
  • 参见:卷二 第4章

Fine-tuning(微调)

在预训练模型的基础上,使用特定任务的数据进行额外训练以适应目标任务的技术。

  • 相关术语:Pre-training, Transfer Learning, LoRA, RLHF

Foundation Model(基础模型)

在大规模数据上预训练的大型模型,可以作为多种下游任务的基础。GPT、Claude、Llama等都是基础模型。

  • 相关术语:Pre-training, LLM, Transfer Learning, Emergent Ability

Function Calling(函数调用)

LLM根据用户请求和可用工具的描述,输出结构化的函数调用请求。也称为Tool Use。

  • 相关术语:Tool Use, Tool, Agent

G

Generation(生成)

LLM根据输入(prompt)产生输出的过程。是Agent系统的核心能力之一。

  • 相关术语:Completion, Sampling, Decoding Strategy

GPT (Generative Pre-trained Transformer)

OpenAI开发的基于Transformer架构的生成式预训练模型系列,包括GPT-3.5、GPT-4、GPT-4o等。

  • 相关术语:OpenAI, Transformer, Foundation Model

GPU (Graphics Processing Unit)

图形处理单元,因其并行计算能力而广泛用于LLM的训练和推理。

  • 相关术语:TPU, NPU, CUDA, Inference

Gradient Descent(梯度下降)

一种优化算法,通过沿着损失函数梯度的反方向更新模型参数来最小化损失。

  • 相关术语:Backpropagation, Learning Rate, Loss Function

Graph Database(图数据库)

使用图结构(节点、边、属性)来存储和查询数据的数据库系统。Neo4j是最知名的图数据库。

  • 相关术语:Knowledge Graph, Vector Database

Guardrails(护栏)

限制Agent行为边界的安全机制,确保Agent的输出和行为在预定义的安全范围内。

  • 相关术语:Safety, Alignment, Content Filter, Red Teaming
  • 参见:卷五 第14章

Grounding(接地/基于事实)

确保Agent的输出基于可验证的事实,而非"幻觉"。RAG是提升接地性的一种关键技术。

  • 相关术语:Hallucination, RAG, Factuality

H

Hallucination(幻觉)

LLM生成看似合理但实际上不符合事实或无法验证的内容。这是LLM面临的核心挑战之一。

  • 相关术语:Grounding, RAG, Factuality, Confidence Score

HPA (Horizontal Pod Autoscaler)

Kubernetes的水平Pod自动伸缩器,根据指标(CPU、内存、自定义指标)自动调整Pod副本数。

  • 相关术语:Kubernetes, Auto-scaling, Deployment
  • 参见:附录C

Human-in-the-Loop (HITL)(人在回路)

在自动化流程中引入人工审批或干预的机制。在Agent系统中常用于关键决策的安全把关。

  • 相关术语:Active Learning, Approval Workflow, Safety

I

In-context Learning (ICL)(上下文学习)

通过在prompt中提供示例或指令来引导模型行为,无需更新模型参数。Few-shot和Zero-shot都是上下文学习的形式。

  • 相关术语:Few-shot, Zero-shot, Prompt Engineering

Inference(推理)

使用训练好的模型对新数据进行预测或生成的过程。在LLM领域,推理通常指API调用时的模型计算。

  • 相关术语 : Training, Serving, Latency, Throughput

Instruction Following(指令遵循)

LLM理解和执行用户指令的能力。这是评估模型质量的重要维度之一。

  • 相关术语:Prompt, System Prompt, Alignment

Instruction Tuning(指令微调)

使用"指令-回答"对数据进行微调,使模型能够更好地理解和遵循用户指令。

  • 相关术语:Fine-tuning, RLHF, SFT (Supervised Fine-Tuning)

J

JSON Mode(JSON模式)

LLM的一种输出模式,确保输出为合法的JSON格式。在Agent的工具调用和结构化输出中广泛使用。

  • 相关术语 : Structured Output, Function Calling, Schema

JWT (JSON Web Token)

一种用于身份认证和信息传递的标准。在Agent API中常用于认证。

  • 相关术语 : Authentication, API Key, OAuth

K

Knowledge Base (KB)(知识库)

存储结构化或非结构化知识的系统。在RAG中,知识库是Agent检索外部信息的主要来源。

  • 相关术语 : RAG, Vector Store, Document Store

Knowledge Cutoff(知识截止日期)

LLM训练数据的截止时间,模型不具备此日期之后的知识。

  • 相关术语 : Training Data, Hallucination, Grounding

Knowledge Distillation(知识蒸馏)

见 Distillation。

Knowledge Graph(知识图谱)

以图结构表示实体及其关系的知识表示方法。可以增强Agent的知识推理能力。

  • 相关术语 : Graph Database, Knowledge Base, Triple

Kubernetes (K8s)

开源容器编排平台,用于自动化部署、扩展和管理容器化应用。

  • 相关术语 : Docker, Container, HPA, Deployment
  • 参见 : 附录C

L

LangChain

最广泛使用的LLM应用开发框架,提供模块化的组件来构建Agent和LLM应用。

  • 相关术语 : LangGraph, LCEL, Agent Framework
  • 参见 : 附录A

LangGraph

基于图结构的Agent工作流编排框架,支持状态管理和人机协作。

  • 相关术语 : LangChain, DAG, StateGraph
  • 参见 : 附录A

LCEL (LangChain Expression Language)

LangChain的声明式链式调用语法,用于构建和组合LLM处理管道。

  • 相关术语 : LangChain, Chain, Pipeline

LLM (Large Language Model)(大语言模型)

在海量文本数据上预训练的大型神经网络模型,具备自然语言理解和生成能力。

  • 相关术语 : GPT, Claude, Foundation Model, Transformer

LoRA (Low-Rank Adaptation)

一种参数高效的微调方法,通过低秩矩阵来近似全量微调的效果,大幅减少训练成本。

  • 相关术语 : Fine-tuning, QLoRA, Parameter-efficient Fine-tuning

Loss Function(损失函数)

衡量模型预测与真实值之间差异的函数。训练过程即是最小化损失函数。

  • 相关术语 : Gradient Descent, Training, Optimization

M

MCP (Model Context Protocol)

模型上下文协议,一种标准化的协议,用于将外部工具和数据源连接到LLM Agent。

  • 相关术语 : Tool Use, Plugin, API

MDP (Markov Decision Process)(马尔可夫决策过程)

描述Agent决策过程的数学框架,定义了状态、动作、转移概率和奖励函数。

  • 相关术语 : Policy, Value Function, Reinforcement Learning

Memory(记忆)

Agent存储和检索过去信息的能力。包括短期记忆(上下文窗口)、长期记忆(向量存储)和工作记忆。

  • 相关术语 : Context Window, Vector Store, RAG, Episodic Memory
  • 参见 : 卷三 第8章

Metrics(指标)

用于衡量系统性能的量化数据。Agent系统的常见指标包括延迟、吞吐量、准确率、成本等。

  • 相关术语 : Evaluation, Monitoring, KPI

Model Context Protocol

见 MCP。

Multi-Agent System (MAS)(多Agent系统)

由多个Agent协作完成任务的系统。Agent之间通过消息传递、共享状态等方式进行协调。

  • 相关术语 : Agent, Collaboration, Orchestration, AutoGen, CrewAI
  • 参见 : 卷四 第10章

N

NeRF (Neural Radiance Fields)

神经辐射场,一种用神经网络表示3D场景的方法。在多模态Agent中有应用潜力。

  • 相关术语 : 3D Understanding, Multimodal

Next-token Prediction(下一个token预测)

自回归语言模型的核心训练目标:给定前面的所有token,预测下一个最可能的token。

  • 相关术语 : Auto-regressive Model, Training, Language Modeling

NPU (Neural Processing Unit)

神经处理单元,专门为神经网络推理设计的硬件加速器。

  • 相关术语 : GPU, TPU, Edge Deployment

O

Observation(观察)

Agent从环境中获取的信息。在ReAct框架中,观察是工具执行后的返回结果。

  • 相关术语 : ReAct, Tool Use, State, Perception
  • 参见 : 卷二 第3章

OpenAI

AI研究和部署公司,创建了GPT系列模型、DALL-E、Whisper等产品。

  • 相关术语 : GPT, API, Embedding

Orchestration(编排)

协调和管理多个Agent、工具或工作流步骤的过程。

  • 相关术语 : Workflow, Multi-Agent System, DAG

Overfitting(过拟合)

模型在训练数据上表现很好,但在未见数据上表现差。在Agent的few-shot示例选择中需要避免。

  • 相关术语 : Generalization, Regularization, Training

P

Parameter-Efficient Fine-Tuning (PEFT)(参数高效微调)

只更新模型的一小部分参数即可实现微调效果的方法。LoRA、Prefix Tuning等属于PEFT方法。

  • 相关术语 : LoRA, Fine-tuning, QLoRA

Perception(感知)

Agent从外部环境获取信息的模块。在LLM Agent中,"感知"通常指接收用户输入或读取外部数据。

  • 相关术语 : Observation, Input, Multimodal

Plan-and-Execute(规划与执行)

一种Agent架构模式,先制定完整的执行计划,然后逐步执行计划中的每个步骤。

  • 相关术语 : ReAct, Planning, Task Decomposition
  • 参见 : 卷二 第3章

Planning(规划)

Agent制定行动方案的过程。在复杂任务中,规划是Agent智能行为的关键组成部分。

  • 相关术语 : Plan-and-Execute, Task Decomposition, MDP

Plug-in(插件)

可热插拔的功能扩展模块。Agent的工具系统本质上就是一种插件架构。

  • 相关术语 : Tool, Extension, MCP

Prompt(提示)

发送给LLM的输入文本,用于引导模型生成期望的输出。

  • 相关术语 : System Prompt, User Prompt, Prompt Engineering
  • 参见 : 卷二 第4章

Prompt Engineering(提示工程)

设计和优化prompt以引导LLM产生更好输出的技术和方法论。

  • 相关术语 : Prompt, Chain-of-Thought, Few-shot, In-context Learning
  • 参见 : 卷二 第4章

Prompt Injection(提示注入)

一种攻击方式,攻击者通过精心设计的输入来绕过Agent的安全限制或使其执行非预期操作。

  • 相关术语 : Security, Guardrails, Red Teaming, Jailbreak

Q

QLoRA (Quantized LoRA)

结合量化和LoRA的微调方法,在量化模型上进行低秩适配,进一步降低微调的硬件需求。

  • 相关术语 : LoRA, Quantization, Fine-tuning, PEFT

Quantization(量化)

降低模型数值精度的技术(如FP16→INT8→INT4),以减少模型大小和推理资源消耗。

  • 相关术语 : Distillation, Pruning, Model Compression, GGUF
  • 参见 : 卷五 第16章

Query(查询)

在RAG系统中,用户的问题经过处理后用于检索相关文档的向量查询。

  • 相关术语 : RAG, Retrieval, Embedding, Search

R

RAG (Retrieval-Augmented Generation)(检索增强生成)

将外部知识检索与LLM生成相结合的技术范式。Agent先从知识库中检索相关信息,再基于检索结果生成回答。

  • 相关术语 : Retrieval, Knowledge Base, Embedding, Vector Store
  • 参见 : 卷三 第7章

Rate Limiting(速率限制)

限制API调用频率的机制,用于防止滥用和控制成本。

  • 相关术语 : Throttling, API Quota, Cost Control

ReAct (Reasoning + Acting)(推理+行动)

一种Agent架构模式,Agent交替进行推理(Reasoning)和行动(Acting),在推理中决定下一步行动,在行动中获取观察结果。

  • 相关术语 : Observation, Action, Thought, Agent Architecture
  • 参见 : 卷二 第3章

Reasoning(推理)

Agent进行逻辑推导和决策的过程。推理能力是Agent智能水平的核心体现。

  • 相关术语 : ReAct, Chain-of-Thought, Planning, Extended Thinking

Redis

高性能内存键值数据库,常用于Agent系统的缓存、会话存储和消息队列。

  • 相关术语 : Cache, Session, Message Queue

Red Teaming(红队测试)

模拟攻击者对AI系统进行对抗性测试,以发现安全漏洞和弱点。

  • 相关术语 : Security, Prompt Injection, Evaluation, Safety
  • 参见 : 卷五 第14章

Refine(精炼/迭代改进)

RAG中的一种检索策略,对初始检索结果进行多轮优化和补充检索。

  • 相关术语 : RAG, Iterative Retrieval, Self-RAG

Reflexion(反思)

一种Agent架构模式,Agent通过反思自身的行为和结果来改进未来的决策。

  • 相关术语 : Self-reflection, Self-correction, ReAct

Reinforcement Learning (RL)(强化学习)

Agent通过与环境交互并获得奖励信号来学习最优策略的机器学习范式。

  • 相关术语 : RLHF, PPO, Reward Model, MDP

RLHF (Reinforcement Learning from Human Feedback)(基于人类反馈的强化学习)

使用人类偏好数据训练奖励模型,再用强化学习来优化LLM的对齐效果。GPT-4和Claude都使用了RLHF。

  • 相关术语 : Alignment, Reward Model, PPO, Constitutional AI

Role-playing(角色扮演)

在prompt中为LLM设定特定角色(如专家、助手、评审员),以引导其以特定风格和知识范围进行回应。

  • 相关术语 : Prompt Engineering, System Prompt, Persona

S

Sampling(采样)

从概率分布中随机选择输出的过程。与贪心搜索不同,采样可以产生多样性输出。

  • 相关术语 : Temperature, Top-k, Top-p, Decoding Strategy

Scaling Law(缩放定律)

描述模型性能如何随着参数量、数据量和计算量增长而提升的统计规律。

  • 相关术语 : Emergent Ability, Foundation Model, Parameters

Semantic Search(语义搜索)

基于文本语义相似度而非关键词匹配进行搜索的方法。向量搜索是语义搜索的核心技术。

  • 相关术语 : Embedding, Vector Search, RAG, Cosine Similarity

Semantic Kernel

微软推出的企业级AI编排框架,与Azure生态深度集成。

  • 相关术语 : Microsoft, Plugin, Enterprise AI
  • 参见 : 附录A

Serverless(无服务器)

一种云计算模式,开发者无需管理服务器,按实际使用量计费。

  • 相关术语 : AWS Lambda, Function-as-a-Service, Deployment
  • 参见 : 附录C

Session(会话)

一次完整的用户与Agent交互过程。会话管理包括对话历史、用户状态、上下文等。

  • 相关术语 : Conversation History, State, Context Window

Short-term Memory(短期记忆)

Agent在当前会话中可以访问的信息,通常受限于上下文窗口大小。

  • 相关术语 : Long-term Memory, Context Window, Memory

Splitting(分割)

见 Chunking。

State Graph(状态图)

在LangGraph中,用图结构表示的状态转换过程,支持循环、条件分支和检查点。

  • 相关术语 : LangGraph, DAG, Checkpoint, State

Streaming(流式输出)

LLM逐个token生成并实时返回结果的方式,大幅减少用户等待首字输出的时间。

  • 相关术语 : Server-Sent Events, Real-time, Latency

Structured Output(结构化输出)

LLM以预定义的结构化格式(如JSON、XML)输出内容,便于程序解析和处理。

  • 相关术语 : JSON Mode, Function Calling, Schema

System Prompt(系统提示)

设置LLM基本行为和角色的指令,通常放在对话的最开始,对所有后续交互生效。

  • 相关术语 : Prompt, Role-playing, Instructions

T

Task Decomposition(任务分解)

将复杂任务拆解为更小、可管理的子任务的过程。是Agent处理复杂问题的关键能力。

  • 相关术语 : Planning, Multi-Agent System, Divide and Conquer

Temperature(温度)

控制LLM输出随机性的参数。温度越高,输出越随机和多样;温度越低,输出越确定和保守。

  • 相关术语 : Sampling, Top-k, Top-p, Decoding Strategy

Token

LLM处理文本的基本单位。一个中文汉字约1.5-2个token,一个英文单词约0.25-1个token。

  • 相关术语 : Tokenization, Context Window, BPE
  • 参见 : 卷一 第2章

Tokenization(分词)

将文本分割为token序列的过程。常见的分词方法包括BPE、WordPiece、SentencePiece等。

  • 相关术语 : Token, BPE, Vocabulary

Tool Use(工具使用)

LLM通过调用外部工具(API、函数、脚本等)来扩展自身能力的方式。也称为Function Calling。

  • 相关术语 : Function Calling, Tool, Agent, Plugin
  • 参见 : 卷三 第5章

Top-k Sampling(Top-k采样)

从概率最高的k个候选token中进行采样。k=1等价于贪心搜索。

  • 相关术语 : Sampling, Top-p, Temperature

Top-p Sampling / Nucleus Sampling(核采样)

从累积概率达到p的最小候选集中进行采样。相比Top-k,核采样会自动调整候选集大小。

  • 相关术语 : Sampling, Top-k, Temperature

Transformer

一种基于自注意力机制的神经网络架构,是现代LLM(GPT、Claude、Llama等)的基础架构。

  • 相关术语 : Attention, Self-Attention, GPT, Encoder-Decoder

TPU (Tensor Processing Unit)

Google开发的专用AI加速芯片。

  • 相关术语 : GPU, NPU, Inference, Training

U

User Proxy(用户代理)

在AutoGen等多Agent框架中,代表用户与Agent交互的角色。可以配置为自动执行或需要人工确认。

  • 相关术语 : Human-in-the-Loop, AutoGen, Approval Workflow

V

Value Function(价值函数)

在强化学习中,评估某个状态或状态-动作对长期期望回报的函数。

  • 相关术语 : Policy, MDP, Reward Model, Reinforcement Learning

Vector Database(向量数据库)

专门用于存储和检索高维向量数据的数据库系统。RAG系统的核心基础设施。

  • 相关术语 : RAG, Embedding, Chroma, Milvus, Pinecone
  • 参见 : 卷三 第7章,附录B

Vector Store(向量存储)

向量数据库中存储嵌入向量的逻辑集合。一个向量数据库可以包含多个向量存储。

  • 相关术语 : Vector Database, Embedding, Collection

Vision-Language Model (VLM)(视觉语言模型)

能够同时理解图像和文本的多模态模型。GPT-4o、Claude 3等支持视觉输入。

  • 相关术语 : Multimodal, Image Understanding, Vision

W

Weights(权重)

神经网络中连接不同层之间的可学习参数。模型训练的本质就是调整权重。

  • 相关术语 : Parameters, Training, Fine-tuning

Workflow(工作流)

一系列有序执行的步骤,可能包含条件分支、循环和并行处理。Agent工作流是Agent执行复杂任务的核心机制。

  • 相关术语 : Pipeline, DAG, Orchestration, Agentic Workflow
  • 参见 : 卷三 第6章

Z

Zero-shot(零样本)

不给模型提供任何示例,直接让其完成任务。零样本能力是评估模型通用性的重要指标。

  • 相关术语 : Few-shot, In-context Learning, Prompt Engineering

中文拼音索引

拼音术语
AAgent(智能体), Alignment(对齐), Auto-regressive Model(自回归模型)
BBatch Processing(批处理), Beam Search(束搜索), BPE(字节对编码)
CChain-of-Thought(思维链), Chunking(分块), Claude, Context Window(上下文窗口), Constitutional AI(宪法AI)
DDAG(有向无环图), Decoding Strategy(解码策略), Distillation(蒸馏), Docker
EEmbedding(嵌入), Emergent Ability(涌现能力), Evaluation(评估), Extended Thinking(扩展思考)
FFew-shot Learning(少样本学习), Fine-tuning(微调), Foundation Model(基础模型), Function Calling(函数调用)
GGPT, GPU, Gradient Descent(梯度下降), Guardrails(护栏), Grounding(接地)
HHallucination(幻觉), HPA(水平Pod自动伸缩器), Human-in-the-Loop(人在回路)
IIn-context Learning(上下文学习), Inference(推理)
JJSON Mode(JSON模式), JWT
KKnowledge Base(知识库), Knowledge Graph(知识图谱), Kubernetes
LLangChain, LangGraph, LLM(大语言模型), LoRA
MMCP(模型上下文协议), MDP(马尔可夫决策过程), Memory(记忆), Multi-Agent System(多Agent系统)
NNext-token Prediction(下一个token预测), NPU
OObservation(观察), OpenAI, Orchestration(编排)
PParameter-Efficient Fine-Tuning(参数高效微调), Perception(感知), Plan-and-Execute(规划与执行), Planning(规划), Prompt(提示), Prompt Engineering(提示工程), Prompt Injection(提示注入)
QQLoRA, Quantization(量化), Query(查询)
RRAG(检索增强生成), Rate Limiting(速率限制), ReAct(推理+行动), Reasoning(推理), Redis, Red Teaming(红队测试), Reflexion(反思), RLHF(基于人类反馈的强化学习)
SSampling(采样), Scaling Law(缩放定律), Semantic Search(语义搜索), Serverless(无服务器), Session(会话), Splitting(分割), Streaming(流式输出), Structured Output(结构化输出), System Prompt(系统提示)
TTask Decomposition(任务分解), Temperature(温度), Token, Tokenization(分词), Tool Use(工具使用), Top-k Sampling, Top-p Sampling, Transformer, TPU
VValue Function(价值函数), Vector Database(向量数据库), Vision-Language Model(视觉语言模型)
WWeights(权重), Workflow(工作流)
ZZero-shot(零样本)

附录D完

基于 MIT 许可发布