本文是「AI入门指南」系列的第二篇文章。在开始之前,请确保你已经阅读了序章《术语讲解》。
引言:AI 真的会”思考”吗?
当你和 ChatGPT 对话时,它回答问题的方式看起来真的很像在”思考”——它会分析你的问题,组织语言,给出有条理的回答。
但技术资料又告诉你:LLM 本质上只是一个”下一个 token 预测器”。
这两句话怎么同时成立?答案藏在今天我们要讲的内容里。
前置知识:本文是序章《术语讲解》的进阶篇。在开始之前,请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念(详见序章)。本文将在此基础上,深入解释它们的工作原理。
- 为什么”预测下一个词”这个简单目标,能支撑起强大的语言能力
- Transformer 为什么会取代 RNN,成为 LLM 的骨架
- Attention 机制是怎么让模型”看懂”上下文的
- 模型是怎么从”书呆子”变成”好助手”的
一、LLM 的本质:文字接龙
厨师类比:读过全人类书籍的超级厨师
理解 LLM,最核心的是这个类比:
把 LLM 想象成一个经验丰富的老厨师。
输入(食材)→ 厨师脑子(亿万个参数)→ 输出(菜肴)- 食材:你给模型的 prompt
- 厨师脑子:模型内部亿万个参数
- 菜肴:模型生成的文本
这个厨师为什么厉害?因为他读过”全人类文明”这本书——所有的书籍、文章、代码。
训练,就是让这个厨师从学徒做起。做咸了就调火候,做淡了就加盐,试错亿万次,最终稳定做出美味的菜肴。
下一个 Token 预测
LLM 的核心任务只有一个:预测下一个最可能的 token。
输入: "人工智能是" → 目标: 预测下一个 token模型会输出一个概率分布:
"一" 的概率: 0.3"指" 的概率: 0.2"未" 的概率: 0.4"来" 的概率: 0.1训练的目标是:让真实下一个词的概率尽可能高。
自回归生成
推理时,模型做的还是同一件事,只是从”老师给标准答案”变成”自己往下写”:
- 输入”请写一首春天的诗”
- 预测第一个 token,比如”春”
- 把”春”加入上下文
- 再预测下一个 token,比如”风”
- 重复这个过程,直到生成完整文本
为什么这个目标足够强
做好”预测下一个词”这件看似简单的事,模型不得不学会很多东西:
| 能力 | 说明 |
|---|---|
| 语法 | 否则句子根本接不顺 |
| 事实和常识 | 否则很多文本延续概率会错 |
| 任务模式 | 问问题、代码报错、摘要有不同的后续分布 |
| 隐式推理 | ”2+2=“后面更可能是 4,“巴黎是法国的”后面更可能是”首都” |
关键洞见:“下一个 token 预测”这个目标虽然简单,但做到极致,就逼着模型压缩了大量世界知识和语言规律。
二、从文字到数字
计算机看不懂汉字,它只认识数字。LLM 的第一个任务,就是把文字翻译成数字。
分词:把文本切成最小单位
Token(词元) 是 LLM 处理文本的最小单位。
英文: "hello world" → 2 tokens (每个单词约1个token)中文: "今天天气" → 约3-4 tokens (取决于具体分词器)现代 LLM 使用 BPE(Byte Pair Encoding) 算法——常用词保持完整,生僻词拆分。
例子(GPT-4 Tokenizer,示意图):
输入: "今天天气真不错!"分词结果: [今天] [天气] [真] [不错] [!]Tokens数: 5注:不同模型的分词器结果可能不同,实际 token 化取决于具体模型。
为什么重要:LLM 按 tokens 计费,理解它有助于估算成本。
动手试试: 打开 OpenAI Tokenizer,输入一段中文和一段英文,观察 token 数量差异。
Embedding:把文字变成坐标
如果只用简单 ID,计算机分不清”苹果”和”香蕉”都是水果。
Embedding(向量化) 用一个稠密向量(如 512 个数字)来描述一个词:
"苹果" → [0.8 (是水果), 0.1 (红色), 0.9 (甜), ...]"香蕉" → [0.7 (是水果), 0.2 (黄色), 0.8 (甜), ...]"苹果公司" → [0.8 (是公司), 0.2 (科技), 0.1 (甜), ...]核心特性:语义相近的词,在向量空间中距离更近。
向量空间示意(二维简化):
y 轴 ↑ 苹果水果 ● 香蕉水果 ● ● 苹果公司 └────────→ x 轴 (水果类靠近) (公司类远离)矩阵运算:GPU 并行加速
为什么需要矩阵?因为 GPU 天生为矩阵运算设计。
一个词 = 一行数字(向量)一句话 = 很多行数字 = 矩阵只有把语言变成矩阵,才能利用 GPU 的并行能力,实现高效推理和训练。
三、Transformer 架构:LLM 的骨架
RNN 的局限:传话游戏
在 Transformer 出现之前,处理文本用的是 RNN(循环神经网络)。它的工作方式像”传话游戏”:
第1步:读"我",记在脑子里,传给下一步第2步:读"爱",结合记忆更新,传给下一步第3步:读"中",结合记忆更新,传给下一步...两个致命问题:
| 问题 | 说明 |
|---|---|
| 慢 | 无法并行,前一步没算完,后一步不能开始 |
| 忘 | 传到第100个人时,可能早就忘了第1个人说的是什么 |
Transformer 的创新:圆桌会议
2017 年,Google 提出 Transformer,彻底改变了规则。
核心思想:让所有 token 同时进场,直接交互。
RNN = 排队传话(必须一个个来)Transformer = 圆桌会议(所有人同时参与)两个优势:
| 优势 | 说明 |
|---|---|
| 快 | GPU 可以火力全开并行计算 |
| 不忘 | 不管句子多长,第1个词和第10000个词的距离都是”一步之遥” |
位置编码:解决词序问题
Transformer 如果不做特殊处理,分不清”我爱你”和”你爱我”。
解决方案:给每个词贴上位置号码牌(位置编码)。
Encoder 与 Decoder
原始 Transformer 分成两部分:
| 组件 | 作用 | 典型用途 |
|---|---|---|
| Encoder(编码器) | 双向理解,每个 token 能看前后文 | BERT、分类、检索 |
| Decoder(解码器) | 单向生成,只能看过去的 token | GPT、文本生成 |
为什么 GPT 选择 Decoder-only:
- 训练目标和推理目标完全一致(都是 next-token prediction)
- 架构更简单,扩展更直接
- 对开放式文本生成足够强大
Masked Attention:为什么不能偷看未来
Decoder 使用 Masked Attention(掩码注意力),确保生成第 N 个 token 时,只能看到第 1 到第 N-1 个 token,不能偷看后面的内容。
原理:通过数学技巧(掩码),让模型在生成第 N 个词时,“看不到”后面的内容,只能参考前面已经生成的词。相当于戴上了一副”只看过去”的眼镜。
Softmax 是什么:它是一种数学函数,将一堆分数转换为概率分布(所有分数相加等于 1),让模型知道每个位置该”关注”多少。
Transformer Block 的组成
每个 Transformer Block 包含四个关键组件:
| 组件 | 作用 |
|---|---|
| Attention | 负责 token 之间的信息路由,让每个 token 找到相关的其他 token |
| MLP(多层感知机) | 负责精化每个 token 自己的表示,对每个 token 独立处理 |
| 残差连接 | 让梯度更容易传播,防止深层网络训练困难 |
| 层归一化 | 稳定训练过程,让模型更易收敛 |
类比:Attention 像是”开会讨论”,MLP 像是”个人消化”——讨论完,每个人再自己思考一遍。
四、Attention 机制:看重点
为什么没有 Attention 不行
设想一句话:
“小明把球递给了小红,因为她站得更近。”
处理”她”时,模型需要判断”她”指向谁。没有 Attention,模型很难建立这个联系。
Q / K / V:三个向量的直觉理解
每个 token 进入注意力层后,会被投影成三个向量:
| 向量 | 英文 | 直觉含义 |
|---|---|---|
| Q(Query) | 查询 | ”我现在需要找什么信息?“ |
| K(Key) | 键 | ”我这里提供了什么线索?“ |
| V(Value) | 值 | ”如果你关注我,我真正传递给你的内容是什么?” |
类比:图书馆检索
- Q = 你要查找的关键词
- K = 图书的索引标签
- V = 图书的实际内容
Attention 做的是:拿着 Q 去和所有 K 匹配,按相关性加权聚合 V。
Attention = 每个 Q 独立地匹配所有 K,按相关性加权聚合对应的 V注意:Attention 不是把所有上下文一股脑塞进来,而是有选择性地”看重点”。
多头注意力:同时用多种视角看句子
现实语言中的相关性不止一种:
| 关系类型 | 示例 |
|---|---|
| 指代关系 | 他、她、它 |
| 语法关系 | 主谓宾 |
| 时间关系 | 首先…然后… |
| 因果关系 | 因为…所以… |
Transformer 不只做一次 Attention,而是做 Multi-Head Attention(多头注意力)。
直觉理解:模型同时用很多种”视角”看句子,有的头专门抓局部语法,有的关注远距离指代,有的跟踪括号和列表。
五、训练与对齐:从”书呆子”到”好助手”
预训练:博览群书
在数万亿 token 的文本上做 next-token prediction(训练成本可达数千万美元甚至更高),让模型学到:
- 语法结构
- 世界知识
- 推理模式
但还不够:你问他”你会写诗吗?“,他可能滔滔不绝背诵诗歌论文,而不是真的写一首诗。
SFT:名校进修
SFT(监督微调) 给模型看几万对”题目-标准答案”,手把手教它如何回答。
类比:预训练让模型学富五车,但还不会用智能手机聊天。SFT 就像让牛顿学会发微信——知道屏幕左边是对方消息,右边是自己的消息。
输入: "请把'你好'翻译成英文"输出: "Hello."作用:将”知识”转化为”对话能力”。
RLHF:奖惩培训
RLHF(人类反馈强化学习) 的过程:
- 训练一个”纪律委员”(Reward Model)
- 模型生成回答,人类老师打分
- 模型通过奖惩学会”对齐”人类偏好
DPO(直接偏好优化):RLHF 的简化版本,通过直接比较两个答案的优劣来训练,省去了单独训练奖励模型的步骤。
RLHF 的作用:RLHF 主要影响的是模型的”对齐程度”(是否符合人类偏好),而非直接提升底层知识或推理能力。SFT 给正向反馈增强表达能力,RLHF 给约束反馈规范输出格式。
对齐的结果
经过预训练 + SFT + RLHF:
- 模型变得彬彬有礼、有问必答
- 能精准理解用户意图
- 不再胡乱续写(但知识本身不会因此增加)
六、2026 新发展:推理能力的提升
本节内容基于 2026 年初的公开资料,部分技术细节可能随研究进展而变化。
传统模型的局限
早期 LLM 在处理复杂问题时,容易”秒回”——不假思索脱口而出,结果可能就是错的。
比如问”9.11 和 9.9 哪个大?“,模型可能脱口而出”9.11 更大”,但这是错的。
推理模型的出现
2026 年,DeepSeek-R1、OpenAI o1 等模型被描述为”在回答前进行更长的思考”:
| 特性 | 基础模型 | 推理优化模型 |
|---|---|---|
| 推理方式 | 依赖 CoT 等提示技巧 | 内置更长的思考链 |
| 响应速度 | 较快 | 较慢(思考时间更长) |
| 适用场景 | 创意写作、闲聊 | 数学、代码、逻辑推理 |
注:具体效果评估仍需更多独立验证。
训练方法的变化
传统模型的训练方法是”模仿学习”——给模型看人类的思考过程让它模仿。
部分推理模型引入了强化学习——不给过程数据,只给最终验证器(答案对不对)。模型自己尝试,通过奖惩机制学会更优的输出格式。
这个过程类似于 AlphaGo 的左右互搏——模型通过大量尝试,发现”先思考再回答”往往能获得更好的结果。
MoE 架构:更高效的模型
MoE(混合专家模型) 是 2026 年的主流架构:
- Dense 模型:一个全能天才,问什么都调动整个大脑,稳定但慢
- MoE 模型:一个流水线上的专家团,每个 token 只激活部分专家网络(而非全部参数都参与计算),又博学又快
代表模型(已确认采用 MoE 架构):DeepSeek-V3、Mistral MoE;(业界推测可能使用 MoE):GPT-4。
七、为什么 prompt 技巧有效
学完前面的原理,现在可以解释为什么常见的 prompt 技巧有效。
System Prompt 的作用
System Prompt 设定了模型的”角色”和”行为模式”。
原理:模型在预训练中学会了不同角色/场景的语言分布,System Prompt 激活了特定的分布区域。
Few-shot 为什么有效
给示例让模型知道”什么格式/风格是我要的”。
原理:示例本质上是微调模型的上下文,让它在当前对话中临时调整输出分布。
动手练习: 向 AI 发送以下请求,观察有无示例的区别:
- Zero-shot:“帮我写一条朋友圈文案,主题是周末露营”
- Few-shot:“帮我写一条朋友圈文案,主题是周末露营。参考风格:‘阳光正好,微风不燥,偷得浮生半日闲。‘“
Chain-of-Thought 为什么有效
让模型先展示推理步骤。
原理:推理步骤是”下一个 token”的一部分,引导模型生成更长的、包含逻辑链的文本。模型在预训练中见过大量”因为…所以…”的推理模式。
八、回顾与衔接
理解了 Transformer 的工作原理,你就能更好地理解前文提到的那些概念:
| 前文概念 | 本文解释 |
|---|---|
| 为什么 RAG 要用 Embedding 做语义检索? | 因为 Embedding 能将语义相近的文本映射到距离接近的向量空间位置 |
| 为什么 Agent 需要 Function Calling? | 因为模型在预训练中学会了调用外部工具的模式 |
| 为什么 RAG 比微调更适合最新知识? | 预训练成本太高,更新知识不如外挂检索 |
回顾系列结构:
- ✅ 序章:术语讲解(LLM、RAG、Agent、MCP、Skill 是什么)
- ✅ 第一章:原理讲解(Tokenizer → Embedding → Transformer → Attention → 训练对齐)
- 📖 第二章节:提示词工程(如何高效调用 AI)
先懂原理,再学使用——这就是本系列的设计思路。
九、下一步
本系列目录:
- ✅ 序章:术语讲解
- ✅ 第一章节:AI的思考模式(本文)
- 📖 第二章节:提示词工程(待发布)
参考文献:
[1] Vaswani et al. “Attention Is All You Need” (2017) https://arxiv.org/abs/1706.03762
[2] Jay Alammar. The Illustrated Transformer (2018) https://jalammar.github.io/illustrated-transformer/
[3] Andrej Karpathy. Let’s Build GPT: From Scratch, In Code, Spelled Out (2023) https://www.youtube.com/watch?v=kCc8FmEb1nY
[4] 3Blue1Brown. Neural Networks (2017) https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000dx_ZJJB-3S
[5] DeepSeek Team. “DeepSeek-R1” Technical Report (2025) https://arxiv.org/abs/2501.12948
下一篇预告:
AI入门指南·第二章节:提示词工程
学会了原理,下一步就是动手。敬请期待。
关于本系列:本文是「AI入门指南」系列的第二篇。这个系列面向零基础读者,先讲原理后讲使用。
部分信息可能已经过时









