mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
4089 字
11 分钟
AI入门指南·第一章:AI的思考模式
2026-04-03

本文是「AI入门指南」系列的第二篇文章。在开始之前,请确保你已经阅读了序章《术语讲解》。

引言:AI 真的会”思考”吗?#

当你和 ChatGPT 对话时,它回答问题的方式看起来真的很像在”思考”——它会分析你的问题,组织语言,给出有条理的回答。

但技术资料又告诉你:LLM 本质上只是一个”下一个 token 预测器”。

这两句话怎么同时成立?答案藏在今天我们要讲的内容里。

前置知识:本文是序章《术语讲解》的进阶篇。在开始之前,请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念(详见序章)。本文将在此基础上,深入解释它们的工作原理。

  • 为什么”预测下一个词”这个简单目标,能支撑起强大的语言能力
  • Transformer 为什么会取代 RNN,成为 LLM 的骨架
  • Attention 机制是怎么让模型”看懂”上下文的
  • 模型是怎么从”书呆子”变成”好助手”的

一、LLM 的本质:文字接龙#

厨师类比:读过全人类书籍的超级厨师#

理解 LLM,最核心的是这个类比:

把 LLM 想象成一个经验丰富的老厨师。

输入(食材)→ 厨师脑子(亿万个参数)→ 输出(菜肴)
  • 食材:你给模型的 prompt
  • 厨师脑子:模型内部亿万个参数
  • 菜肴:模型生成的文本

这个厨师为什么厉害?因为他读过”全人类文明”这本书——所有的书籍、文章、代码。

训练,就是让这个厨师从学徒做起。做咸了就调火候,做淡了就加盐,试错亿万次,最终稳定做出美味的菜肴。

下一个 Token 预测#

LLM 的核心任务只有一个:预测下一个最可能的 token

输入: "人工智能是" → 目标: 预测下一个 token

模型会输出一个概率分布:

"一" 的概率: 0.3
"指" 的概率: 0.2
"未" 的概率: 0.4
"来" 的概率: 0.1

训练的目标是:让真实下一个词的概率尽可能高。

自回归生成#

推理时,模型做的还是同一件事,只是从”老师给标准答案”变成”自己往下写”:

graph LR A["输入: 请写一首春天的诗"] --> B["预测: 春"] B --> C["输入拼接: 请写一首春天的诗春"] C --> D["预测: 风"] D --> E["..."] E --> F["最终输出: 春风化雨..."]
  1. 输入”请写一首春天的诗”
  2. 预测第一个 token,比如”春”
  3. 把”春”加入上下文
  4. 再预测下一个 token,比如”风”
  5. 重复这个过程,直到生成完整文本

为什么这个目标足够强#

做好”预测下一个词”这件看似简单的事,模型不得不学会很多东西:

能力说明
语法否则句子根本接不顺
事实和常识否则很多文本延续概率会错
任务模式问问题、代码报错、摘要有不同的后续分布
隐式推理”2+2=“后面更可能是 4,“巴黎是法国的”后面更可能是”首都”

关键洞见:“下一个 token 预测”这个目标虽然简单,但做到极致,就逼着模型压缩了大量世界知识和语言规律。


二、从文字到数字#

计算机看不懂汉字,它只认识数字。LLM 的第一个任务,就是把文字翻译成数字。

分词:把文本切成最小单位#

Token(词元) 是 LLM 处理文本的最小单位。

英文: "hello world" → 2 tokens (每个单词约1个token)
中文: "今天天气" → 约3-4 tokens (取决于具体分词器)

现代 LLM 使用 BPE(Byte Pair Encoding) 算法——常用词保持完整,生僻词拆分。

例子(GPT-4 Tokenizer,示意图):

输入: "今天天气真不错!"
分词结果: [今天] [天气] [真] [不错] [!]
Tokens数: 5

注:不同模型的分词器结果可能不同,实际 token 化取决于具体模型。

为什么重要:LLM 按 tokens 计费,理解它有助于估算成本。

动手试试: 打开 OpenAI Tokenizer,输入一段中文和一段英文,观察 token 数量差异。

Embedding:把文字变成坐标#

如果只用简单 ID,计算机分不清”苹果”和”香蕉”都是水果。

Embedding(向量化) 用一个稠密向量(如 512 个数字)来描述一个词:

"苹果" → [0.8 (是水果), 0.1 (红色), 0.9 (甜), ...]
"香蕉" → [0.7 (是水果), 0.2 (黄色), 0.8 (甜), ...]
"苹果公司" → [0.8 (是公司), 0.2 (科技), 0.1 (甜), ...]

核心特性:语义相近的词,在向量空间中距离更近。

向量空间示意(二维简化):

y 轴
苹果水果 ●
香蕉水果 ● ● 苹果公司
└────────→ x 轴
(水果类靠近) (公司类远离)

矩阵运算:GPU 并行加速#

为什么需要矩阵?因为 GPU 天生为矩阵运算设计。

一个词 = 一行数字(向量)
一句话 = 很多行数字 = 矩阵

只有把语言变成矩阵,才能利用 GPU 的并行能力,实现高效推理和训练。


三、Transformer 架构:LLM 的骨架#

RNN 的局限:传话游戏#

在 Transformer 出现之前,处理文本用的是 RNN(循环神经网络)。它的工作方式像”传话游戏”:

第1步:读"我",记在脑子里,传给下一步
第2步:读"爱",结合记忆更新,传给下一步
第3步:读"中",结合记忆更新,传给下一步
...

两个致命问题

问题说明
无法并行,前一步没算完,后一步不能开始
传到第100个人时,可能早就忘了第1个人说的是什么

Transformer 的创新:圆桌会议#

2017 年,Google 提出 Transformer,彻底改变了规则。

核心思想:让所有 token 同时进场,直接交互。

RNN = 排队传话(必须一个个来)
Transformer = 圆桌会议(所有人同时参与)

两个优势

优势说明
GPU 可以火力全开并行计算
不忘不管句子多长,第1个词和第10000个词的距离都是”一步之遥”

位置编码:解决词序问题#

Transformer 如果不做特殊处理,分不清”我爱你”和”你爱我”。

解决方案:给每个词贴上位置号码牌(位置编码)。

Encoder 与 Decoder#

原始 Transformer 分成两部分:

组件作用典型用途
Encoder(编码器)双向理解,每个 token 能看前后文BERT、分类、检索
Decoder(解码器)单向生成,只能看过去的 tokenGPT、文本生成

为什么 GPT 选择 Decoder-only

  • 训练目标和推理目标完全一致(都是 next-token prediction)
  • 架构更简单,扩展更直接
  • 对开放式文本生成足够强大

Masked Attention:为什么不能偷看未来#

Decoder 使用 Masked Attention(掩码注意力),确保生成第 N 个 token 时,只能看到第 1 到第 N-1 个 token,不能偷看后面的内容。

原理:通过数学技巧(掩码),让模型在生成第 N 个词时,“看不到”后面的内容,只能参考前面已经生成的词。相当于戴上了一副”只看过去”的眼镜。

Softmax 是什么:它是一种数学函数,将一堆分数转换为概率分布(所有分数相加等于 1),让模型知道每个位置该”关注”多少。

Transformer Block 的组成#

每个 Transformer Block 包含四个关键组件:

组件作用
Attention负责 token 之间的信息路由,让每个 token 找到相关的其他 token
MLP(多层感知机)负责精化每个 token 自己的表示,对每个 token 独立处理
残差连接让梯度更容易传播,防止深层网络训练困难
层归一化稳定训练过程,让模型更易收敛

类比:Attention 像是”开会讨论”,MLP 像是”个人消化”——讨论完,每个人再自己思考一遍。


四、Attention 机制:看重点#

为什么没有 Attention 不行#

设想一句话:

“小明把球递给了小红,因为她站得更近。”

处理”她”时,模型需要判断”她”指向谁。没有 Attention,模型很难建立这个联系。

Q / K / V:三个向量的直觉理解#

每个 token 进入注意力层后,会被投影成三个向量:

向量英文直觉含义
Q(Query)查询”我现在需要找什么信息?“
K(Key)”我这里提供了什么线索?“
V(Value)”如果你关注我,我真正传递给你的内容是什么?”

类比:图书馆检索

  • Q = 你要查找的关键词
  • K = 图书的索引标签
  • V = 图书的实际内容

Attention 做的是:拿着 Q 去和所有 K 匹配,按相关性加权聚合 V。

graph LR subgraph "每个 Token 独立计算" A["Token A 的 Q"] --> A1["匹配所有 K"] A1 --> A2["加权聚合 V"] B["Token B 的 Q"] --> B1["匹配所有 K"] B1 --> B2["加权聚合 V"] end K["所有 K"] --> A1 K --> B1 V["所有 V"] --> A2 V --> B2
Attention = 每个 Q 独立地匹配所有 K,按相关性加权聚合对应的 V

注意:Attention 不是把所有上下文一股脑塞进来,而是有选择性地”看重点”。

多头注意力:同时用多种视角看句子#

现实语言中的相关性不止一种:

关系类型示例
指代关系他、她、它
语法关系主谓宾
时间关系首先…然后…
因果关系因为…所以…

Transformer 不只做一次 Attention,而是做 Multi-Head Attention(多头注意力)

直觉理解:模型同时用很多种”视角”看句子,有的头专门抓局部语法,有的关注远距离指代,有的跟踪括号和列表。


五、训练与对齐:从”书呆子”到”好助手”#

预训练:博览群书#

在数万亿 token 的文本上做 next-token prediction(训练成本可达数千万美元甚至更高),让模型学到:

  • 语法结构
  • 世界知识
  • 推理模式

但还不够:你问他”你会写诗吗?“,他可能滔滔不绝背诵诗歌论文,而不是真的写一首诗。

SFT:名校进修#

SFT(监督微调) 给模型看几万对”题目-标准答案”,手把手教它如何回答。

类比:预训练让模型学富五车,但还不会用智能手机聊天。SFT 就像让牛顿学会发微信——知道屏幕左边是对方消息,右边是自己的消息。

输入: "请把'你好'翻译成英文"
输出: "Hello."

作用:将”知识”转化为”对话能力”。

RLHF:奖惩培训#

RLHF(人类反馈强化学习) 的过程:

  1. 训练一个”纪律委员”(Reward Model)
  2. 模型生成回答,人类老师打分
  3. 模型通过奖惩学会”对齐”人类偏好

DPO(直接偏好优化):RLHF 的简化版本,通过直接比较两个答案的优劣来训练,省去了单独训练奖励模型的步骤。

RLHF 的作用:RLHF 主要影响的是模型的”对齐程度”(是否符合人类偏好),而非直接提升底层知识或推理能力。SFT 给正向反馈增强表达能力,RLHF 给约束反馈规范输出格式。

对齐的结果#

经过预训练 + SFT + RLHF:

  • 模型变得彬彬有礼、有问必答
  • 能精准理解用户意图
  • 不再胡乱续写(但知识本身不会因此增加)

六、2026 新发展:推理能力的提升#

本节内容基于 2026 年初的公开资料,部分技术细节可能随研究进展而变化。

传统模型的局限#

早期 LLM 在处理复杂问题时,容易”秒回”——不假思索脱口而出,结果可能就是错的。

比如问”9.11 和 9.9 哪个大?“,模型可能脱口而出”9.11 更大”,但这是错的。

推理模型的出现#

2026 年,DeepSeek-R1OpenAI o1 等模型被描述为”在回答前进行更长的思考”:

特性基础模型推理优化模型
推理方式依赖 CoT 等提示技巧内置更长的思考链
响应速度较快较慢(思考时间更长)
适用场景创意写作、闲聊数学、代码、逻辑推理

注:具体效果评估仍需更多独立验证。

训练方法的变化#

传统模型的训练方法是”模仿学习”——给模型看人类的思考过程让它模仿。

部分推理模型引入了强化学习——不给过程数据,只给最终验证器(答案对不对)。模型自己尝试,通过奖惩机制学会更优的输出格式。

这个过程类似于 AlphaGo 的左右互搏——模型通过大量尝试,发现”先思考再回答”往往能获得更好的结果。

MoE 架构:更高效的模型#

MoE(混合专家模型) 是 2026 年的主流架构:

  • Dense 模型:一个全能天才,问什么都调动整个大脑,稳定但慢
  • MoE 模型:一个流水线上的专家团,每个 token 只激活部分专家网络(而非全部参数都参与计算),又博学又快

代表模型(已确认采用 MoE 架构):DeepSeek-V3、Mistral MoE;(业界推测可能使用 MoE):GPT-4。


七、为什么 prompt 技巧有效#

学完前面的原理,现在可以解释为什么常见的 prompt 技巧有效。

System Prompt 的作用#

System Prompt 设定了模型的”角色”和”行为模式”。

原理:模型在预训练中学会了不同角色/场景的语言分布,System Prompt 激活了特定的分布区域。

Few-shot 为什么有效#

给示例让模型知道”什么格式/风格是我要的”。

原理:示例本质上是微调模型的上下文,让它在当前对话中临时调整输出分布。

动手练习: 向 AI 发送以下请求,观察有无示例的区别:

  • Zero-shot:“帮我写一条朋友圈文案,主题是周末露营”
  • Few-shot:“帮我写一条朋友圈文案,主题是周末露营。参考风格:‘阳光正好,微风不燥,偷得浮生半日闲。‘“

Chain-of-Thought 为什么有效#

让模型先展示推理步骤。

原理:推理步骤是”下一个 token”的一部分,引导模型生成更长的、包含逻辑链的文本。模型在预训练中见过大量”因为…所以…”的推理模式。


八、回顾与衔接#

理解了 Transformer 的工作原理,你就能更好地理解前文提到的那些概念:

前文概念本文解释
为什么 RAG 要用 Embedding 做语义检索?因为 Embedding 能将语义相近的文本映射到距离接近的向量空间位置
为什么 Agent 需要 Function Calling?因为模型在预训练中学会了调用外部工具的模式
为什么 RAG 比微调更适合最新知识?预训练成本太高,更新知识不如外挂检索

回顾系列结构

  • 序章:术语讲解(LLM、RAG、Agent、MCP、Skill 是什么)
  • 第一章:原理讲解(Tokenizer → Embedding → Transformer → Attention → 训练对齐)
  • 📖 第二章节:提示词工程(如何高效调用 AI)

先懂原理,再学使用——这就是本系列的设计思路。


九、下一步#

本系列目录

  1. ✅ 序章:术语讲解
  2. ✅ 第一章节:AI的思考模式(本文)
  3. 📖 第二章节:提示词工程(待发布)

参考文献

[1] Vaswani et al. “Attention Is All You Need” (2017) https://arxiv.org/abs/1706.03762
[2] Jay Alammar. The Illustrated Transformer (2018) https://jalammar.github.io/illustrated-transformer/
[3] Andrej Karpathy. Let’s Build GPT: From Scratch, In Code, Spelled Out (2023) https://www.youtube.com/watch?v=kCc8FmEb1nY
[4] 3Blue1Brown. Neural Networks (2017) https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000dx_ZJJB-3S
[5] DeepSeek Team. “DeepSeek-R1” Technical Report (2025) https://arxiv.org/abs/2501.12948

下一篇预告

AI入门指南·第二章节:提示词工程

学会了原理,下一步就是动手。敬请期待。


关于本系列:本文是「AI入门指南」系列的第二篇。这个系列面向零基础读者,先讲原理后讲使用。

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

AI入门指南·第一章:AI的思考模式
https://bayunmoyu.com/posts/ai-thinking-mode/
作者
八云墨玉
发布于
2026-04-03
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00