AI入门指南·第一章：AI的思考模式

本文是「AI入门指南」系列的第二篇文章。在开始之前，请确保你已经阅读了序章《术语讲解》。

引言：AI 真的会”思考”吗？#

当你和 ChatGPT 对话时，它回答问题的方式看起来真的很像在”思考”——它会分析你的问题，组织语言，给出有条理的回答。

但技术资料又告诉你：LLM 本质上只是一个”下一个 token 预测器”。

这两句话怎么同时成立？答案藏在今天我们要讲的内容里。

前置知识：本文是序章《术语讲解》的进阶篇。在开始之前，请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念（详见序章）。本文将在此基础上，深入解释它们的工作原理。

为什么”预测下一个词”这个简单目标，能支撑起强大的语言能力
Transformer 为什么会取代 RNN，成为 LLM 的骨架
Attention 机制是怎么让模型”看懂”上下文的
模型是怎么从”书呆子”变成”好助手”的

一、LLM 的本质：文字接龙#

厨师类比：读过全人类书籍的超级厨师#

理解 LLM，最核心的是这个类比：

把 LLM 想象成一个经验丰富的老厨师。

1
输入（食材）→ 厨师脑子（亿万个参数）→ 输出（菜肴）

食材：你给模型的 prompt
厨师脑子：模型内部亿万个参数
菜肴：模型生成的文本

这个厨师为什么厉害？因为他读过”全人类文明”这本书——所有的书籍、文章、代码。

训练，就是让这个厨师从学徒做起。做咸了就调火候，做淡了就加盐，试错亿万次，最终稳定做出美味的菜肴。

下一个 Token 预测#

LLM 的核心任务只有一个：预测下一个最可能的 token。

1
输入: "人工智能是" → 目标: 预测下一个 token

模型会输出一个概率分布：

1
"一" 的概率: 0.3
2
"指" 的概率: 0.2
3
"未" 的概率: 0.4
4
"来" 的概率: 0.1

训练的目标是：让真实下一个词的概率尽可能高。

自回归生成#

推理时，模型做的还是同一件事，只是从”老师给标准答案”变成”自己往下写”：

graph LR A["输入: 请写一首春天的诗"] --> B["预测: 春"] B --> C["输入拼接: 请写一首春天的诗春"] C --> D["预测: 风"] D --> E["..."] E --> F["最终输出: 春风化雨..."]

输入”请写一首春天的诗”
预测第一个 token，比如”春”
把”春”加入上下文
再预测下一个 token，比如”风”
重复这个过程，直到生成完整文本

为什么这个目标足够强#

做好”预测下一个词”这件看似简单的事，模型不得不学会很多东西：

能力	说明
语法	否则句子根本接不顺
事实和常识	否则很多文本延续概率会错
任务模式	问问题、代码报错、摘要有不同的后续分布
隐式推理	”2+2=“后面更可能是 4，“巴黎是法国的”后面更可能是”首都”

关键洞见：“下一个 token 预测”这个目标虽然简单，但做到极致，就逼着模型压缩了大量世界知识和语言规律。

二、从文字到数字#

计算机看不懂汉字，它只认识数字。LLM 的第一个任务，就是把文字翻译成数字。

分词：把文本切成最小单位#

Token（词元） 是 LLM 处理文本的最小单位。

1
英文: "hello world" → 2 tokens (每个单词约1个token)
2
中文: "今天天气" → 约3-4 tokens (取决于具体分词器)

现代 LLM 使用 BPE（Byte Pair Encoding） 算法——常用词保持完整，生僻词拆分。

例子（GPT-4 Tokenizer，示意图）：

1
输入: "今天天气真不错!"
2
分词结果: [今天] [天气] [真] [不错] [!]
3
Tokens数: 5

注：不同模型的分词器结果可能不同，实际 token 化取决于具体模型。

为什么重要：LLM 按 tokens 计费，理解它有助于估算成本。

动手试试： 打开 OpenAI Tokenizer，输入一段中文和一段英文，观察 token 数量差异。

Embedding：把文字变成坐标#

如果只用简单 ID，计算机分不清”苹果”和”香蕉”都是水果。

Embedding（向量化） 用一个稠密向量（如 512 个数字）来描述一个词：

1
"苹果" → [0.8 (是水果), 0.1 (红色), 0.9 (甜), ...]
2
"香蕉" → [0.7 (是水果), 0.2 (黄色), 0.8 (甜), ...]
3
"苹果公司" → [0.8 (是公司), 0.2 (科技), 0.1 (甜), ...]

核心特性：语义相近的词，在向量空间中距离更近。

向量空间示意（二维简化）：

1
            y 轴
2
            ↑
3
    苹果水果 ●
4
    香蕉水果 ●     ● 苹果公司
5
            └────────→ x 轴
6
     （水果类靠近）    （公司类远离）

矩阵运算：GPU 并行加速#

为什么需要矩阵？因为 GPU 天生为矩阵运算设计。

1
一个词 = 一行数字（向量）
2
一句话 = 很多行数字 = 矩阵

只有把语言变成矩阵，才能利用 GPU 的并行能力，实现高效推理和训练。

三、Transformer 架构：LLM 的骨架#

RNN 的局限：传话游戏#

在 Transformer 出现之前，处理文本用的是 RNN（循环神经网络）。它的工作方式像”传话游戏”：

1
第1步：读"我"，记在脑子里，传给下一步
2
第2步：读"爱"，结合记忆更新，传给下一步
3
第3步：读"中"，结合记忆更新，传给下一步
4
...

两个致命问题：

问题	说明
慢	无法并行，前一步没算完，后一步不能开始
忘	传到第100个人时，可能早就忘了第1个人说的是什么

Transformer 的创新：圆桌会议#

2017 年，Google 提出 Transformer，彻底改变了规则。

核心思想：让所有 token 同时进场，直接交互。

1
RNN = 排队传话（必须一个个来）
2
Transformer = 圆桌会议（所有人同时参与）

两个优势：

优势	说明
快	GPU 可以火力全开并行计算
不忘	不管句子多长，第1个词和第10000个词的距离都是”一步之遥”

位置编码：解决词序问题#

Transformer 如果不做特殊处理，分不清”我爱你”和”你爱我”。

解决方案：给每个词贴上位置号码牌（位置编码）。

Encoder 与 Decoder#

原始 Transformer 分成两部分：

组件	作用	典型用途
Encoder（编码器）	双向理解，每个 token 能看前后文	BERT、分类、检索
Decoder（解码器）	单向生成，只能看过去的 token	GPT、文本生成

为什么 GPT 选择 Decoder-only：

训练目标和推理目标完全一致（都是 next-token prediction）
架构更简单，扩展更直接
对开放式文本生成足够强大

Masked Attention：为什么不能偷看未来#

Decoder 使用 Masked Attention（掩码注意力），确保生成第 N 个 token 时，只能看到第 1 到第 N-1 个 token，不能偷看后面的内容。

原理：通过数学技巧（掩码），让模型在生成第 N 个词时，“看不到”后面的内容，只能参考前面已经生成的词。相当于戴上了一副”只看过去”的眼镜。

Softmax 是什么：它是一种数学函数，将一堆分数转换为概率分布（所有分数相加等于 1），让模型知道每个位置该”关注”多少。

Transformer Block 的组成#

每个 Transformer Block 包含四个关键组件：

组件	作用
Attention	负责 token 之间的信息路由，让每个 token 找到相关的其他 token
MLP（多层感知机）	负责精化每个 token 自己的表示，对每个 token 独立处理
残差连接	让梯度更容易传播，防止深层网络训练困难
层归一化	稳定训练过程，让模型更易收敛

类比：Attention 像是”开会讨论”，MLP 像是”个人消化”——讨论完，每个人再自己思考一遍。

四、Attention 机制：看重点#

为什么没有 Attention 不行#

设想一句话：

“小明把球递给了小红，因为她站得更近。”

处理”她”时，模型需要判断”她”指向谁。没有 Attention，模型很难建立这个联系。

Q / K / V：三个向量的直觉理解#

每个 token 进入注意力层后，会被投影成三个向量：

向量	英文	直觉含义
Q（Query）	查询	”我现在需要找什么信息？“
K（Key）	键	”我这里提供了什么线索？“
V（Value）	值	”如果你关注我，我真正传递给你的内容是什么？”

类比：图书馆检索

Q = 你要查找的关键词
K = 图书的索引标签
V = 图书的实际内容

Attention 做的是：拿着 Q 去和所有 K 匹配，按相关性加权聚合 V。

graph LR subgraph "每个 Token 独立计算" A["Token A 的 Q"] --> A1["匹配所有 K"] A1 --> A2["加权聚合 V"] B["Token B 的 Q"] --> B1["匹配所有 K"] B1 --> B2["加权聚合 V"] end K["所有 K"] --> A1 K --> B1 V["所有 V"] --> A2 V --> B2

1
Attention = 每个 Q 独立地匹配所有 K，按相关性加权聚合对应的 V

注意：Attention 不是把所有上下文一股脑塞进来，而是有选择性地”看重点”。

多头注意力：同时用多种视角看句子#

现实语言中的相关性不止一种：

关系类型	示例
指代关系	他、她、它
语法关系	主谓宾
时间关系	首先…然后…
因果关系	因为…所以…

Transformer 不只做一次 Attention，而是做 Multi-Head Attention（多头注意力）。

直觉理解：模型同时用很多种”视角”看句子，有的头专门抓局部语法，有的关注远距离指代，有的跟踪括号和列表。

五、训练与对齐：从”书呆子”到”好助手”#

预训练：博览群书#

在数万亿 token 的文本上做 next-token prediction（训练成本可达数千万美元甚至更高），让模型学到：

语法结构
世界知识
推理模式

但还不够：你问他”你会写诗吗？“，他可能滔滔不绝背诵诗歌论文，而不是真的写一首诗。

SFT：名校进修#

SFT（监督微调） 给模型看几万对”题目-标准答案”，手把手教它如何回答。

类比：预训练让模型学富五车，但还不会用智能手机聊天。SFT 就像让牛顿学会发微信——知道屏幕左边是对方消息，右边是自己的消息。

1
输入: "请把'你好'翻译成英文"
2
输出: "Hello."

作用：将”知识”转化为”对话能力”。

RLHF：奖惩培训#

RLHF（人类反馈强化学习） 的过程：

训练一个”纪律委员”（Reward Model）
模型生成回答，人类老师打分
模型通过奖惩学会”对齐”人类偏好

DPO（直接偏好优化）：RLHF 的简化版本，通过直接比较两个答案的优劣来训练，省去了单独训练奖励模型的步骤。

RLHF 的作用：RLHF 主要影响的是模型的”对齐程度”（是否符合人类偏好），而非直接提升底层知识或推理能力。SFT 给正向反馈增强表达能力，RLHF 给约束反馈规范输出格式。

对齐的结果#

经过预训练 + SFT + RLHF：

模型变得彬彬有礼、有问必答
能精准理解用户意图
不再胡乱续写（但知识本身不会因此增加）

六、2026 新发展：推理能力的提升#

本节内容基于 2026 年初的公开资料，部分技术细节可能随研究进展而变化。

传统模型的局限#

早期 LLM 在处理复杂问题时，容易”秒回”——不假思索脱口而出，结果可能就是错的。

比如问”9.11 和 9.9 哪个大？“，模型可能脱口而出”9.11 更大”，但这是错的。

推理模型的出现#

2026 年，DeepSeek-R1、OpenAI o1 等模型被描述为”在回答前进行更长的思考”：

特性	基础模型	推理优化模型
推理方式	依赖 CoT 等提示技巧	内置更长的思考链
响应速度	较快	较慢（思考时间更长）
适用场景	创意写作、闲聊	数学、代码、逻辑推理

注：具体效果评估仍需更多独立验证。

训练方法的变化#

传统模型的训练方法是”模仿学习”——给模型看人类的思考过程让它模仿。

部分推理模型引入了强化学习——不给过程数据，只给最终验证器（答案对不对）。模型自己尝试，通过奖惩机制学会更优的输出格式。

这个过程类似于 AlphaGo 的左右互搏——模型通过大量尝试，发现”先思考再回答”往往能获得更好的结果。

MoE 架构：更高效的模型#

MoE（混合专家模型） 是 2026 年的主流架构：

Dense 模型：一个全能天才，问什么都调动整个大脑，稳定但慢
MoE 模型：一个流水线上的专家团，每个 token 只激活部分专家网络（而非全部参数都参与计算），又博学又快

代表模型（已确认采用 MoE 架构）：DeepSeek-V3、Mistral MoE；（业界推测可能使用 MoE）：GPT-4。

七、为什么 prompt 技巧有效#

学完前面的原理，现在可以解释为什么常见的 prompt 技巧有效。

System Prompt 的作用#

System Prompt 设定了模型的”角色”和”行为模式”。

原理：模型在预训练中学会了不同角色/场景的语言分布，System Prompt 激活了特定的分布区域。

Few-shot 为什么有效#

给示例让模型知道”什么格式/风格是我要的”。

原理：示例本质上是微调模型的上下文，让它在当前对话中临时调整输出分布。

动手练习： 向 AI 发送以下请求，观察有无示例的区别：

Zero-shot：“帮我写一条朋友圈文案，主题是周末露营”

Few-shot：“帮我写一条朋友圈文案，主题是周末露营。参考风格：‘阳光正好，微风不燥，偷得浮生半日闲。‘“

Chain-of-Thought 为什么有效#

让模型先展示推理步骤。

原理：推理步骤是”下一个 token”的一部分，引导模型生成更长的、包含逻辑链的文本。模型在预训练中见过大量”因为…所以…”的推理模式。

八、回顾与衔接#

理解了 Transformer 的工作原理，你就能更好地理解前文提到的那些概念：

前文概念	本文解释
为什么 RAG 要用 Embedding 做语义检索？	因为 Embedding 能将语义相近的文本映射到距离接近的向量空间位置
为什么 Agent 需要 Function Calling？	因为模型在预训练中学会了调用外部工具的模式
为什么 RAG 比微调更适合最新知识？	预训练成本太高，更新知识不如外挂检索

回顾系列结构：

✅ 序章：术语讲解（LLM、RAG、Agent、MCP、Skill 是什么）
✅ 第一章：原理讲解（Tokenizer → Embedding → Transformer → Attention → 训练对齐）
📖 第二章节：提示词工程（如何高效调用 AI）

先懂原理，再学使用——这就是本系列的设计思路。

九、下一步#

本系列目录：

✅ 序章：术语讲解
✅ 第一章节：AI的思考模式（本文）
📖 第二章节：提示词工程（待发布）

参考文献：

[1] Vaswani et al. “Attention Is All You Need” (2017) https://arxiv.org/abs/1706.03762
[2] Jay Alammar. The Illustrated Transformer (2018) https://jalammar.github.io/illustrated-transformer/
[3] Andrej Karpathy. Let’s Build GPT: From Scratch, In Code, Spelled Out (2023) https://www.youtube.com/watch?v=kCc8FmEb1nY
[4] 3Blue1Brown. Neural Networks (2017) https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000dx_ZJJB-3S
[5] DeepSeek Team. “DeepSeek-R1” Technical Report (2025) https://arxiv.org/abs/2501.12948

下一篇预告：

AI入门指南·第二章节：提示词工程

学会了原理，下一步就是动手。敬请期待。

关于本系列：本文是「AI入门指南」系列的第二篇。这个系列面向零基础读者，先讲原理后讲使用。