AI 开发者必知的 20 个核心概念——从调 API 到搭 Agent

这两年 AI 发展的速度，说实话有点吓人。几乎每个月都有新概念冒出来：Chat Completions、Tool Use、RAG、MCP、Agent……如果你是刚准备入门的开发者，打开 OpenAI 或 Anthropic 的官方文档大概会直接被术语淹没。

这篇文章从 OpenAI 和 Anthropic 的官方文档中梳理了最重要的 20 个核心概念，分成了六个板块。从最基础的 API 调用，到工程优化，再到当下最火的 Agent 架构，一条线走下来，希望能帮你快速建立起一个完整的技术地图。

一、基础架构与交互

1. Messages / Chat Completions（消息 / 聊天补全）

大模型不是你想象的那种“输入一句话，补全后半句”的玩法。现代模型的核心交互模式是消息列表——你给它一段结构化的对话历史，它接着往下说。

每次请求里通常有三个角色：

System——给模型的全局指令，设定它的身份和行为边界
User——你的输入
Assistant——模型的回复

这三个角色共同构成了所谓“上下文”，模型基于这个上下文来理解该回答什么。

2. System Prompts / System Instructions（系统提示词）

这是你在对话开始前塞给模型的一纸“最高指示”。

打个比方：System Prompt 就像是给一个新入职员工发的公司规章制度手册，规定了什么能做、什么不能做、语气应该怎样、遇到敏感问题如何处理。OpenAI 和 Anthropic 两家都非常强调它对模型行为的决定性控制作用。写好 System Prompt，往往比调后面的用户消息更关键。

3. Tokens & Context Window（Token 与上下文窗口）

Token 是模型理解文本的最小单位。什么概念呢？大概 1 个 Token 约等于 0.75 个英文单词，中文的话一个汉字通常占 1-2 个 Token。

上下文窗口则是模型单次能处理的 Token 总量——包括你的输入和它的输出。超出这个窗口，模型会直接“失忆”，前面的内容就接不上了。而且 Token 的数量直接决定你每次 API 调用的账单金额，算钱的时候得心里有数。

4. Stop Reasons / Finish Reason（终止原因）

模型为什么停下来了？是话说完了？还是字数到了？或者它想调用工具了？

API 返回的 finish_reason 字段就是告诉你原因的：stop 表示正常结束，length 表示输出超长被截断，tool_calls（Anthropic 是 tool_use）表示模型请求调用外部工具。根据不同的终止原因，你的程序需要做出不同的下一步处理。

二、工具与结构化输出

5. Tool Use / Function Calling（工具调用 / 函数调用）

说白了就是给模型一双手，让它能碰外面的世界。

你给它定义一些工具——比如查天气的 API、算数学的引擎、或者查数据库的接口——模型会根据用户的问题自主决定要不要调用、传什么参数、什么时候调。它输出的是一段结构化的 JSON 调用请求，真正执行这段代码的还是你的后端。

6. Structured Outputs（结构化输出）

AI 的输出天然是自然语言，而传统软件要的是 JSON、是格式化的数据。怎么办？

OpenAI 提供了 Structured Outputs 模式，能保证模型返回的数据 100% 符合你预设的 JSON Schema。Anthropic 则通过工具定义的参数 Schema 做严格约束，达到类似效果。如果你想把 AI 的输出直接喂给下游系统——比如写入数据库、触发某个工作流——这个是必不可少的。

7. MCP（Model Context Protocol，模型上下文协议）

这是 Anthropic 发起并开源的一个开放标准。它的目标是解决一个老问题：每个 AI 应用都要重复对接各种工具，能不能有一套统一的方式？

MCP 的思路很简单：把 AI 应用拆成两个部分——MCP 客户端和 MCP 服务器。你开发好一个 MCP 服务器（比如对接 Slack、GitHub、本地文件系统），任何兼容 MCP 的 AI 工具都可以直接复用，不需要给每个模型单独写一遍适配代码。

三、性能与成本优化

8. Prompt Caching（提示词缓存）

如果你每次请求都带着同样一大段文档——比如几千行的代码库、几百页的产品手册——每次都重新处理这些内容，既慢又贵。

Prompt Caching 的解决方案是：云端自动把重复的部分缓存起来，下次再发同样的内容就直接命中缓存。注意，要被缓存的内容必须放在 prompt 的开头，中间插一段不一样的就会让缓存失效。OpenAI 和 Anthropic 两家都支持，而且计费上区分“缓存命中”和“未命中”。实测下来，成本可以降低 50% 到 90%，延迟也大幅下降。

9. Extended Thinking / Reasoning Effort（扩展思考 / 推理努力度）

还记得 ChatGPT 碰到数学题就瞎编的日子吗？现在有了“推理模型”。

当面对复杂的逻辑推理、数学证明或者代码难题时，模型在最终给出答案之前，会先打开一个内部的“思考通道”，在里面生成一条长长的思维链（Chain of Thought）。OpenAI 的 o 系列模型可以配置 reasoning_effort，Anthropic 也有对应的 Extended Thinking 功能。代价是更长的响应时间，但复杂任务的成功率提升非常明显。

10. Embeddings（嵌入向量）

把一段文字（甚至图片）转换成一串固定长度的数字，这些数字的几何距离就代表了语义的相似度——这就是 Embedding。

这玩意儿是很多 AI 应用的底层基础：语义搜索、文本分类、推荐系统，以及 RAG（检索增强生成，让模型拿着外部知识答复），都需要靠 Embedding 来判断“哪段文字跟用户的问题最相关”。

四、智能体架构

11. AI Agents / Agent Architecture Patterns（智能体与架构模式）

你可能已经发现了，传统的“一问一答”模式在很多场景下远远不够用——比如“帮我订一张下周去北京的机票”，这中间涉及查航班、比价格、看日期、下单支付等多个步骤。

Agent 的思路是：给 AI 设定一个目标，让它自己规划步骤、调用工具、反复迭代，直到完成。目前主流的设计模式有单智能体循环、多智能体协同，以及 OpenAI 深度集成的 Codex 编码智能体。

12. Orchestration / Multi-Agent Systems（编排与多智能体系统）

一个 Agent 搞不定的事，那就上多个。

核心思路是：把复杂任务拆碎，由一个“协调者”分发给多个“专家”智能体，各干各的活，最后再汇总。Anthropic 强调的是“小而专注的微技能组合”——每个 Agent 只做一件事，但做到极致。OpenAI 则推出了 Agents SDK，用代码来控制 Agent 之间的状态移交和协同。

13. State Management & Memory（状态管理与记忆）

Agent 不是一次性对话——它可能跑几小时甚至好几天。在这期间，用户的偏好、当前的进度、已经完成的任务，都不能丢。

这就意味着你必须为 Agent 设计明确的记忆存储和状态机。不然模型会在长时间的交互中迷失目标——它自己都忘了刚才干到哪一步了。

14. Grade-and-Revise Loop / Outcomes（自我验证与修正闭环）

这是一个很有意思的设计模式：Agent A 负责生成内容，Agent B 根据一套严格的标准来打分和审查，不合格就打回去重做，直到达标。

你可以理解成写论文——先写一版初稿，然后找审稿人挑毛病，修改完再审，直到通过。这套机制在需要高质量输出的场景下非常有用。

五、模型定制与评估

15. Fine-Tuning（微调）

基座模型很聪明但它不是为你定制的。如果你想让模型的语气更像你的客服风格，或者让它在你的代码库里用特定的命名规范——那就需要微调。

微调的本质是：用你特定场景的数据集对模型做二次训练。注意，它改变的是模型的行为习惯和长期记忆，而不是给它灌输新的外部知识。

16. Distillation（模型蒸馏）

大模型（比如 GPT-5 级别）聪明但贵、慢。小模型便宜又快但不够聪明。蒸馏就是：用大模型产出的高质量答案和推理路径，去训练一个小模型，让它尽量接近大模型的表现。

结果就是你得到了一个“缩小版”的模型——成本低、速度快，在特定场景下表现接近大模型，非常实用。

17. Evals（评估系统）

AI 的输出是有随机性的——同样的提示词，每次的回答可能都不完全一样。这就意味着传统的单元测试很难覆盖。

Evals 是一套系统化的评估框架，用于测量和监控模型（或 Agent）在各个维度上的表现。OpenAI 和 Anthropic 都强调必须建立自动化的 Evals 基准，不然你调整了提示词或做了微调之后到底变好还是变差了，根本说不清楚。

六、工程实践与安全

18. Realtime API & Low-Latency Streaming（实时 API 与流式低延迟）

传统的 API 调用是你发请求等响应，哪怕用 SSE 流式返回也只是“逐字输出”。Realtime API 不一样——它基于 WebSocket 或 WebRTC，支持双向音频、实时语音交互、中途打断。

你在语音助手里说话说到一半发现不对立刻改口，它能接上——这就是 Realtime API 做的事。

19. Safety Classifiers & Fallbacks（安全分类器与降级熔断）

大模型有时候会因为安全规则、合规政策（比如欧盟 AI 法案）或内容审查而被拦截。这在生产环境里是不能接受的——你不能让用户看到“抱歉，我无法回答这个问题”就直接断掉。

正确的做法是：捕获特定的错误码，在服务端设置自动降级策略。比如主模型被拦截了，自动切换到备用模型继续服务，保证可用性。

20. X-Request-ID & Tracing（请求追踪与可观测性）

大模型的黑盒特性让线上 Debug 变得异常困难——它出错了但你不知道是提示词写崩了，还是上下文太长被截断了，还是模型本身抽风了。

官方推荐的做法是：在全链路日志中记录每次请求的 x-request-id、openai-processing-ms 等元数据。在复杂的 Agent 异步执行场景下，这些追踪标识是你定位问题的最重要线索。

写在最后

20 个概念，从最基础的 Chat Completions 一路聊到生产级的追踪和降级。如果你能把这 20 个点都理清楚，基本上 AI 应用开发的全景图就在你脑子里了。

技术的变迁确实很快，但底层的思维方式是通的——理解“消息”怎么流动、“工具”怎么挂接、“状态”怎么维持，不管模型怎么换代，这些基础都能复用。