AI入门指南·序章：术语讲解

本文是「AI入门指南」系列的第一篇。这个系列面向零基础读者，先讲原理后讲使用。

核心框架#

理解 AI 系统，先记住五个核心概念的关系：

以下是 AI 系统的典型架构。LLM 可以单独使用 RAG 或 MCP，也可以通过 Agent 组合使用。

graph TD A[用户提问] --> B[LLM] B --> C[Agent] B --> D[RAG<br/>检索知识] B --> E[MCP<br/>接口] C --> D C --> E C --> F[Skill<br/>能力] D --> G[知识库] E --> H[外部工具] F --> I[具体功能]

LLM：处理语言（大脑）
RAG：获取知识（记忆）
Agent：执行行动（手脚）
MCP：连接外部（接口）
Skill：能力包（技能）

一、核心架构#

LLM（Large Language Model）#

大语言模型。在海量文本上训练的深度学习模型，能理解和生成人类语言。

本质：预测下一个词。给一段话，LLM 计算下一个最可能出现的词是什么。重复数千次，就能生成一篇文章。

现代 LLM 通过海量训练，已具备理解语义、逻辑推理和世界知识的能力，远不止简单的词语预测。

2026年主要模型（截至本文发布时）：

模型	公司	上下文窗口
GPT-5 Ultra	OpenAI	128K tokens
Claude Opus 4.6	Anthropic	200K tokens
Gemini 2.0 Ultra	Google	1M tokens
DeepSeek V3	DeepSeek	128K tokens

注：模型参数可能随版本更新而变化，如有出入请以官方最新数据为准。

LLM 能做什么：文本生成、翻译、代码生成、问答、分析推理。

LLM 不能做什么：不知道最新信息、不能访问外部工具、可能生成错误内容（幻觉）。

入门建议：直接体验可访问通义千问、Kimi、豆包等国内平台，或 ChatGPT、Claude 等国际平台（需网络访问工具）。

Agent（智能体）#

能自主决策和执行任务的 AI 系统。

与普通 LLM 的区别：

普通 LLM：你问一句，它答一句
Agent：你给一个目标，它自主规划并执行

具体例子：让 AI 帮忙点外卖——普通 LLM 只能告诉你附近有什么店；Agent 可以自主打开外卖 App、筛选评分、下单支付。

Agent 的组成：LLM + 工具 + 记忆 + 决策逻辑

ReAct 循环（Agent 的工作方式）：

graph TB A[观察] --> B[推理] B --> C[行动] C --> D[反思] D --> A

观察：获取当前状态
推理：分析如何达成目标
行动：调用工具（如搜索引擎、数据库、代码执行器等）—— Function Calling 是 AI 调用外部函数或 API 的底层能力
反思：评估结果，决定是否重来

入门框架：

工具	需要编程	适合人群
扣子（Coze）	否	零基础
LangChain	是	开发者
AutoGen	是	开发者
CrewAI	是	开发者

动手试试： 体验现有 Agent 功能：

Claude 的 Computer Use（操作电脑）

扣子（Coze）平台搭建简单 Agent

GPTs + Actions（OpenAI）

RAG（Retrieval-Augmented Generation）#

检索增强生成。让 LLM 先检索相关知识，再生成回答。

工作流程：

graph LR A[用户提问] --> B[检索知识库] A --> C[LLM] B --> D[检索结果] D --> C C --> E[生成答案]

用户提问
从知识库检索相关内容
将检索结果和问题一起发给 LLM
LLM 基于检索内容生成答案

解决什么问题：LLM 训练数据有截止日期，且可能生成错误信息（幻觉）。RAG 让 LLM 能访问最新、最准确的数据。

适用场景：企业知识库、产品文档、客服问答系统、法律/医疗文档检索、个人知识管理等需要最新准确信息的场景。

对于需要改变模型行为风格的场景，可结合微调使用（详见”Fine-tuning”部分）。

入门工具：

工具	需要编程	适合人群
Dify	否	零基础
LangChain	是	开发者

MCP（Model Context Protocol）#

模型上下文协议。让 AI 连接外部工具和数据的标准协议。

类比：MCP 就像 USB-C 接口——一种通用标准，一种线缆连接所有设备。

解决什么问题：没有 MCP，每个 AI 工具需要单独对接各种 API；有 MCP，对接一次就能调用所有支持 MCP 的工具。

核心价值：MCP 是连接标准，解决的是”如何以统一方式调用外部工具”的问题，降低集成成本。

Skill（技能）#

AI 可调用的特定能力包。例如：

“总结文章”——自动提炼文章要点
“翻译文本”——多语言互译
“数据分析”——处理表格并生成图表
“生成 PPT”——自动创建演示文稿

常见 Skill 平台：

平台	需要编程	适合人群
扣子（Coze）	否	零基础
Dify	否	零基础

MCP 与 Skill 的区别：

	MCP	Skill
本质	连接标准	能力包
解决	如何调用外部工具	AI 能做什么

Skill = 能做什么，MCP = 如何调用。两者结合才能让 AI 既具备能力，又能调用外部工具。

二、技术实现#

Token#

LLM 处理文本的最小单位。

换算关系：

1 个英文单词 ≈ 1-2 个 tokens
1 个中文字符通常 ≈ 1 个 token，但具体取决于模型的分词器

例子（以部分模型分词器为例）：

“hello world” → 约 2 tokens
“你好世界” → 约 4 tokens（取决于具体模型的分词器）

为什么重要：LLM 按 tokens 计费，理解它有助于估算成本和优化输入。

动手试试： 打开 OpenAI Tokenizer，输入一段中文和一段英文，观察 token 数量差异。

Embedding（向量化）#

把文字转换为数字向量，使语义相近的文本在向量空间中距离接近，用于语义搜索和相似度计算。

向量空间示意（二维简化）：

1
            y 轴
2
            ↑
3
    苹果水果 ●
4
    香蕉水果 ●     ● 苹果公司
5
            └────────→ x 轴
6
     （水果类靠近）    （公司类远离）

“苹果水果”和”香蕉水果”的向量距离更近，因为它们都是水果；而”苹果公司”距离远，因为它属于不同类别。

数值示例（高维向量的二维投影）：

文本	向量（简化）
苹果水果	[0.2, -0.3]
香蕉水果	[0.2, -0.2]
苹果公司	[0.8, 0.1]

用途：语义搜索、相似内容推荐、RAG 的检索部分。

向量数据库#

存储和检索向量的工具。

数据库	适用场景
Chroma	原型/本地
Pinecone	生产环境
Weaviate	自部署
Milvus	大规模向量

Fine-tuning（微调）#

在预训练模型基础上，用特定领域数据继续训练。

与预训练的区别：

预训练：读了 10 万本书的通用学生
微调：再读 100 本医学书，成为医学专家

适用场景：需要特定输出格式、特定行业术语、品牌调性一致性。

微调和 RAG 并非互斥，实际项目中常结合使用——微调调整模型的行为风格和领域理解，RAG 提供最新的事实知识。

LoRA / QLoRA#

低成本的微调技术。相比全量微调大幅降低硬件要求，仅调整模型中极小比例的参数（通常不到1%），单张消费级 GPU（如 RTX 3090/4090）即可完成小规模微调任务。

三、提示词工程#

什么是提示词工程？#

提示词（Prompt）是给 LLM 的输入指令。提示词工程是优化这些指令的技术。

System Prompt#

定义 LLM 角色、规则、输出格式的指令。

例子：

弱：“你是 AI 助手”
强：“你是资深数据分析师，有 10 年经验。任务：分析销售数据并提供洞察。输出：简洁的商业语言，包含具体数字。约束：从不编造数据，不确定时说’需要更多信息’。”

动手练习： 试着写一个 System Prompt，让 AI 扮演你的角色：

角色：___

任务：___

输出格式：___

约束条件：___

Zero-shot / One-shot / Few-shot#

Zero-shot：直接提问，不给例子
One-shot：给一个例子
Few-shot：给 3-5 个例子

效果：Few-shot 通常能让输出更稳定、更符合预期格式。

动手试试： 向 AI 发送以下请求，观察有无示例的区别：

Zero-shot：“帮我写一条朋友圈文案，主题是周末露营”

Few-shot：“帮我写一条朋友圈文案，主题是周末露营。参考风格：‘阳光正好，微风不燥，偷得浮生半日闲。‘“

思维链（Chain-of-Thought，CoT）#

让 LLM 先展示推理步骤，再给出答案。

效果：复杂推理任务（数学、逻辑），CoT 能显著提高准确率。

生成控制#

Temperature：控制输出随机性。0 = 确定，1 = 创意。

效果对比（相同输入 “写一句关于春天的诗”，生成3次）：

1
Temperature 0.1: 春天来了，花开了      → 几乎固定（每次相同）
2
Temperature 0.5: 春天来了，万物复苏      → 略有变化（每次可能不同）
3
Temperature 0.9: 春风拂面，繁花似锦，...  → 每次都不同

注：以上为示意性示例，非实际输出。

Temperature 控制的是输出的随机性，而非创意水平。低温度意味着每次输出几乎相同，高温度意味着每次输出可能不同。

值（近似）	效果	适用场景
0.0-0.3	确定	事实问答、代码生成
0.4-0.6	平衡	一般对话
0.7-1.0	创意	写作、头脑风暴

Top-p：另一种控制输出的参数。值越小越保守，值越大越多样。

提示词工程的核心是明确指令 + 提供上下文 + 控制输出格式。好的提示词能让 LLM 的表现提升数倍。

四、进阶概念#

上下文窗口#

LLM 一次能处理的最大 token 数量。超过需要截断或扩展。

概念示意：

1
|←————————— 128K tokens —————————→|
2
[已处理文本] [当前输入] [剩余空间]

参考换算：128K tokens ≈ 10 万汉字 ≈ 500 页书（按每页约2000字符估算）。

幻觉（Hallucination）#

LLM 生成的内容看起来合理，但可能与事实不符。

为什么出现：LLM 本质是”预测下一个词”，不知道什么是真的，什么是假的。

如何减少：使用 RAG 提供准确知识、人工审核重要输出、要求模型标注不确定内容。

常见风险与应对#

风险类型	说明	应对策略
技术风险
幻觉	AI 生成错误信息	RAG、人工审核
安全风险
提示词注入	恶意指令劫持 AI	输入过滤、权限隔离
隐私风险
数据隐私	敏感信息泄露	本地部署、数据脱敏
模型偏见	训练数据导致的偏见	多样化训练、RLHF

涌现能力（Emergent Ability）#

当模型规模增大到一定程度，某些任务的性能会出现显著提升。学界对其成因仍有讨论，部分研究认为这与评估指标的非线性特性有关。

比如：某个规模的模型突然能做数学题，尽管没有专门训练过。

上下文学习（In-Context Learning）#

LLM 能在不修改模型参数的情况下，只通过输入中的示例学习新任务。

Multi-Agent#

多个 Agent 协作完成复杂任务。一个 Agent 负责协调，其他 Agent 各司其职（调研、写作、编辑等）。

五、新兴趋势#

Hybrid Search（混合搜索）#

结合向量搜索和关键词搜索，提高检索准确性。

方法	相对准确率	速度
纯向量搜索	中	快
纯关键词搜索	较低	很快
混合搜索	较高	中等

注：具体数值因数据集和评估标准而异，上述为相对比较。

Semantic Chunking（语义分块）#

按语义边界分割文档，而非固定长度。保留更多上下文。

效果：根据部分研究实验，语义分块可提升 RAG 检索相关性。

六、常见术语速查#

术语	含义
LLM	大语言模型，能理解和生成语言
Token	LLM 处理文本的最小单位
上下文窗口	LLM 一次能处理的 token 上限
RAG	让 AI 先查资料再回答
Fine-tuning / 微调	在预训练模型上继续训练
LoRA / QLoRA	低成本微调技术，仅调整少量参数
Embedding	把文字转换为数字向量，用于语义搜索
向量数据库	存储和检索向量的工具
Agent	能自主规划执行任务的 AI
ReAct Loop	Agent 核心循环：观察→推理→行动→反思
Function Calling	AI 调用外部函数的能力
MCP	AI 连接外部工具的标准协议
Skill	AI 可调用的特定能力包
System Prompt	定义 AI 角色和规则的指令
Zero-shot	不给示例直接提问
One-shot	给一个示例
Few-shot	给 3-5 个示例引导
CoT / 思维链	让 AI 先展示推理过程再回答
Temperature	控制输出随机性的参数，值越低越确定
Top-p	控制输出多样性的采样参数
幻觉	LLM 生成错误信息
涌现能力	大模型规模增大后出现的性能显著提升
上下文学习	通过输入示例让模型学习新任务
Multi-Agent	多个智能体协作完成复杂任务
Hybrid Search	结合向量搜索和关键词搜索的混合检索
Semantic Chunking	按语义边界分割文档的分块技术

七、下一步#

本系列目录：

✅ AI 术语速查手册 2026（本文）
📖 AI是怎么”思考”的？大语言模型的工作原理（待发布）

参考文献：

[1] Jay Alammar. The Illustrated Transformer (2018) https://jalammar.github.io/illustrated-transformer/
[2] Lilian Weng. “Attention? Attention!” (2018) https://lilianweng.github.io/posts/2018-06-24-attention/
[3] Andrej Karpathy. Let’s Build GPT (2023) https://www.youtube.com/watch?v=kCc8FmEb1nY
[4] OpenAI. “Prompt Engineering Guide” (2026) https://platform.openai.com/docs/guides/prompt-engineering
[5] Anthropic. Claude Documentation https://docs.anthropic.com/
[6] Anthropic. Model Context Protocol (2024) https://modelcontextprotocol.org/

下一篇预告：

AI是怎么”思考”的？大语言模型的工作原理

敬请期待。

关于本系列：本文是「AI入门指南」系列的第一篇。这个系列面向零基础读者，先讲原理后讲使用。