本文是「AI入门指南」系列的第一篇。这个系列面向零基础读者,先讲原理后讲使用。
核心框架
理解 AI 系统,先记住五个核心概念的关系:
以下是 AI 系统的典型架构。LLM 可以单独使用 RAG 或 MCP,也可以通过 Agent 组合使用。
- LLM:处理语言(大脑)
- RAG:获取知识(记忆)
- Agent:执行行动(手脚)
- MCP:连接外部(接口)
- Skill:能力包(技能)
一、核心架构
LLM(Large Language Model)
大语言模型。在海量文本上训练的深度学习模型,能理解和生成人类语言。
本质:预测下一个词。给一段话,LLM 计算下一个最可能出现的词是什么。重复数千次,就能生成一篇文章。
现代 LLM 通过海量训练,已具备理解语义、逻辑推理和世界知识的能力,远不止简单的词语预测。
2026年主要模型(截至本文发布时):
| 模型 | 公司 | 上下文窗口 |
|---|---|---|
| GPT-5 Ultra | OpenAI | 128K tokens |
| Claude Opus 4.6 | Anthropic | 200K tokens |
| Gemini 2.0 Ultra | 1M tokens | |
| DeepSeek V3 | DeepSeek | 128K tokens |
注:模型参数可能随版本更新而变化,如有出入请以官方最新数据为准。
LLM 能做什么:文本生成、翻译、代码生成、问答、分析推理。
LLM 不能做什么:不知道最新信息、不能访问外部工具、可能生成错误内容(幻觉)。
入门建议:直接体验可访问 通义千问、Kimi、豆包 等国内平台,或 ChatGPT、Claude 等国际平台(需网络访问工具)。
Agent(智能体)
能自主决策和执行任务的 AI 系统。
与普通 LLM 的区别:
- 普通 LLM:你问一句,它答一句
- Agent:你给一个目标,它自主规划并执行
具体例子:让 AI 帮忙点外卖——普通 LLM 只能告诉你附近有什么店;Agent 可以自主打开外卖 App、筛选评分、下单支付。
Agent 的组成:LLM + 工具 + 记忆 + 决策逻辑
ReAct 循环(Agent 的工作方式):
- 观察:获取当前状态
- 推理:分析如何达成目标
- 行动:调用工具(如搜索引擎、数据库、代码执行器等)—— Function Calling 是 AI 调用外部函数或 API 的底层能力
- 反思:评估结果,决定是否重来
入门框架:
动手试试: 体验现有 Agent 功能:
- Claude 的 Computer Use(操作电脑)
- 扣子(Coze)平台搭建简单 Agent
- GPTs + Actions(OpenAI)
RAG(Retrieval-Augmented Generation)
检索增强生成。让 LLM 先检索相关知识,再生成回答。
工作流程:
- 用户提问
- 从知识库检索相关内容
- 将检索结果和问题一起发给 LLM
- LLM 基于检索内容生成答案
解决什么问题:LLM 训练数据有截止日期,且可能生成错误信息(幻觉)。RAG 让 LLM 能访问最新、最准确的数据。
适用场景:企业知识库、产品文档、客服问答系统、法律/医疗文档检索、个人知识管理等需要最新准确信息的场景。
对于需要改变模型行为风格的场景,可结合微调使用(详见”Fine-tuning”部分)。
入门工具:
MCP(Model Context Protocol)
模型上下文协议。让 AI 连接外部工具和数据的标准协议。
类比:MCP 就像 USB-C 接口——一种通用标准,一种线缆连接所有设备。
解决什么问题:没有 MCP,每个 AI 工具需要单独对接各种 API;有 MCP,对接一次就能调用所有支持 MCP 的工具。
核心价值:MCP 是连接标准,解决的是”如何以统一方式调用外部工具”的问题,降低集成成本。
Skill(技能)
AI 可调用的特定能力包。例如:
- “总结文章”——自动提炼文章要点
- “翻译文本”——多语言互译
- “数据分析”——处理表格并生成图表
- “生成 PPT”——自动创建演示文稿
常见 Skill 平台:
MCP 与 Skill 的区别:
| MCP | Skill | |
|---|---|---|
| 本质 | 连接标准 | 能力包 |
| 解决 | 如何调用外部工具 | AI 能做什么 |
Skill = 能做什么,MCP = 如何调用。两者结合才能让 AI 既具备能力,又能调用外部工具。
二、技术实现
Token
LLM 处理文本的最小单位。
换算关系:
- 1 个英文单词 ≈ 1-2 个 tokens
- 1 个中文字符通常 ≈ 1 个 token,但具体取决于模型的分词器
例子(以部分模型分词器为例):
- “hello world” → 约 2 tokens
- “你好世界” → 约 4 tokens(取决于具体模型的分词器)
为什么重要:LLM 按 tokens 计费,理解它有助于估算成本和优化输入。
动手试试: 打开 OpenAI Tokenizer,输入一段中文和一段英文,观察 token 数量差异。
Embedding(向量化)
把文字转换为数字向量,使语义相近的文本在向量空间中距离接近,用于语义搜索和相似度计算。
向量空间示意(二维简化):
y 轴 ↑ 苹果水果 ● 香蕉水果 ● ● 苹果公司 └────────→ x 轴 (水果类靠近) (公司类远离)“苹果水果”和”香蕉水果”的向量距离更近,因为它们都是水果;而”苹果公司”距离远,因为它属于不同类别。
数值示例(高维向量的二维投影):
| 文本 | 向量(简化) |
|---|---|
| 苹果水果 | [0.2, -0.3] |
| 香蕉水果 | [0.2, -0.2] |
| 苹果公司 | [0.8, 0.1] |
用途:语义搜索、相似内容推荐、RAG 的检索部分。
向量数据库
存储和检索向量的工具。
| 数据库 | 适用场景 |
|---|---|
| Chroma | 原型/本地 |
| Pinecone | 生产环境 |
| Weaviate | 自部署 |
| Milvus | 大规模向量 |
Fine-tuning(微调)
在预训练模型基础上,用特定领域数据继续训练。
与预训练的区别:
- 预训练:读了 10 万本书的通用学生
- 微调:再读 100 本医学书,成为医学专家
适用场景:需要特定输出格式、特定行业术语、品牌调性一致性。
微调和 RAG 并非互斥,实际项目中常结合使用——微调调整模型的行为风格和领域理解,RAG 提供最新的事实知识。
LoRA / QLoRA
低成本的微调技术。相比全量微调大幅降低硬件要求,仅调整模型中极小比例的参数(通常不到1%),单张消费级 GPU(如 RTX 3090/4090)即可完成小规模微调任务。
三、提示词工程
什么是提示词工程?
提示词(Prompt)是给 LLM 的输入指令。提示词工程是优化这些指令的技术。
System Prompt
定义 LLM 角色、规则、输出格式的指令。
例子:
- 弱:“你是 AI 助手”
- 强:“你是资深数据分析师,有 10 年经验。任务:分析销售数据并提供洞察。输出:简洁的商业语言,包含具体数字。约束:从不编造数据,不确定时说’需要更多信息’。”
动手练习: 试着写一个 System Prompt,让 AI 扮演你的角色:
- 角色:___
- 任务:___
- 输出格式:___
- 约束条件:___
Zero-shot / One-shot / Few-shot
- Zero-shot:直接提问,不给例子
- One-shot:给一个例子
- Few-shot:给 3-5 个例子
效果:Few-shot 通常能让输出更稳定、更符合预期格式。
动手试试: 向 AI 发送以下请求,观察有无示例的区别:
- Zero-shot:“帮我写一条朋友圈文案,主题是周末露营”
- Few-shot:“帮我写一条朋友圈文案,主题是周末露营。参考风格:‘阳光正好,微风不燥,偷得浮生半日闲。‘“
思维链(Chain-of-Thought,CoT)
让 LLM 先展示推理步骤,再给出答案。
效果:复杂推理任务(数学、逻辑),CoT 能显著提高准确率。
生成控制
Temperature:控制输出随机性。0 = 确定,1 = 创意。
效果对比(相同输入 “写一句关于春天的诗”,生成3次):
Temperature 0.1: 春天来了,花开了 → 几乎固定(每次相同)Temperature 0.5: 春天来了,万物复苏 → 略有变化(每次可能不同)Temperature 0.9: 春风拂面,繁花似锦,... → 每次都不同注:以上为示意性示例,非实际输出。
Temperature 控制的是输出的随机性,而非创意水平。低温度意味着每次输出几乎相同,高温度意味着每次输出可能不同。
| 值(近似) | 效果 | 适用场景 |
|---|---|---|
| 0.0-0.3 | 确定 | 事实问答、代码生成 |
| 0.4-0.6 | 平衡 | 一般对话 |
| 0.7-1.0 | 创意 | 写作、头脑风暴 |
Top-p:另一种控制输出的参数。值越小越保守,值越大越多样。
提示词工程的核心是明确指令 + 提供上下文 + 控制输出格式。好的提示词能让 LLM 的表现提升数倍。
四、进阶概念
上下文窗口
LLM 一次能处理的最大 token 数量。超过需要截断或扩展。
概念示意:
|←————————— 128K tokens —————————→|[已处理文本] [当前输入] [剩余空间]参考换算:128K tokens ≈ 10 万汉字 ≈ 500 页书(按每页约2000字符估算)。
幻觉(Hallucination)
LLM 生成的内容看起来合理,但可能与事实不符。
为什么出现:LLM 本质是”预测下一个词”,不知道什么是真的,什么是假的。
如何减少:使用 RAG 提供准确知识、人工审核重要输出、要求模型标注不确定内容。
常见风险与应对
| 风险类型 | 说明 | 应对策略 |
|---|---|---|
| 技术风险 | ||
| 幻觉 | AI 生成错误信息 | RAG、人工审核 |
| 安全风险 | ||
| 提示词注入 | 恶意指令劫持 AI | 输入过滤、权限隔离 |
| 隐私风险 | ||
| 数据隐私 | 敏感信息泄露 | 本地部署、数据脱敏 |
| 模型偏见 | 训练数据导致的偏见 | 多样化训练、RLHF |
涌现能力(Emergent Ability)
当模型规模增大到一定程度,某些任务的性能会出现显著提升。学界对其成因仍有讨论,部分研究认为这与评估指标的非线性特性有关。
比如:某个规模的模型突然能做数学题,尽管没有专门训练过。
上下文学习(In-Context Learning)
LLM 能在不修改模型参数的情况下,只通过输入中的示例学习新任务。
Multi-Agent
多个 Agent 协作完成复杂任务。一个 Agent 负责协调,其他 Agent 各司其职(调研、写作、编辑等)。
五、新兴趋势
Hybrid Search(混合搜索)
结合向量搜索和关键词搜索,提高检索准确性。
| 方法 | 相对准确率 | 速度 |
|---|---|---|
| 纯向量搜索 | 中 | 快 |
| 纯关键词搜索 | 较低 | 很快 |
| 混合搜索 | 较高 | 中等 |
注:具体数值因数据集和评估标准而异,上述为相对比较。
Semantic Chunking(语义分块)
按语义边界分割文档,而非固定长度。保留更多上下文。
效果:根据部分研究实验,语义分块可提升 RAG 检索相关性。
六、常见术语速查
| 术语 | 含义 |
|---|---|
| LLM | 大语言模型,能理解和生成语言 |
| Token | LLM 处理文本的最小单位 |
| 上下文窗口 | LLM 一次能处理的 token 上限 |
| RAG | 让 AI 先查资料再回答 |
| Fine-tuning / 微调 | 在预训练模型上继续训练 |
| LoRA / QLoRA | 低成本微调技术,仅调整少量参数 |
| Embedding | 把文字转换为数字向量,用于语义搜索 |
| 向量数据库 | 存储和检索向量的工具 |
| Agent | 能自主规划执行任务的 AI |
| ReAct Loop | Agent 核心循环:观察→推理→行动→反思 |
| Function Calling | AI 调用外部函数的能力 |
| MCP | AI 连接外部工具的标准协议 |
| Skill | AI 可调用的特定能力包 |
| System Prompt | 定义 AI 角色和规则的指令 |
| Zero-shot | 不给示例直接提问 |
| One-shot | 给一个示例 |
| Few-shot | 给 3-5 个示例引导 |
| CoT / 思维链 | 让 AI 先展示推理过程再回答 |
| Temperature | 控制输出随机性的参数,值越低越确定 |
| Top-p | 控制输出多样性的采样参数 |
| 幻觉 | LLM 生成错误信息 |
| 涌现能力 | 大模型规模增大后出现的性能显著提升 |
| 上下文学习 | 通过输入示例让模型学习新任务 |
| Multi-Agent | 多个智能体协作完成复杂任务 |
| Hybrid Search | 结合向量搜索和关键词搜索的混合检索 |
| Semantic Chunking | 按语义边界分割文档的分块技术 |
七、下一步
本系列目录:
- ✅ AI 术语速查手册 2026(本文)
- 📖 AI是怎么”思考”的?大语言模型的工作原理(待发布)
参考文献:
[1] Jay Alammar. The Illustrated Transformer (2018) https://jalammar.github.io/illustrated-transformer/
[2] Lilian Weng. “Attention? Attention!” (2018) https://lilianweng.github.io/posts/2018-06-24-attention/
[3] Andrej Karpathy. Let’s Build GPT (2023) https://www.youtube.com/watch?v=kCc8FmEb1nY
[4] OpenAI. “Prompt Engineering Guide” (2026) https://platform.openai.com/docs/guides/prompt-engineering
[5] Anthropic. Claude Documentation https://docs.anthropic.com/
[6] Anthropic. Model Context Protocol (2024) https://modelcontextprotocol.org/
下一篇预告:
AI是怎么”思考”的?大语言模型的工作原理
敬请期待。
关于本系列:本文是「AI入门指南」系列的第一篇。这个系列面向零基础读者,先讲原理后讲使用。
部分信息可能已经过时









