人人都能懂的科普：到底什么是 agent

你跟 AI 说："帮我做一份咖啡品牌的市场调研，对比一下星巴克、瑞幸、Manner 三家的定价、门店数和最近一年的口碑。"

几分钟之后它给了你一份整理好的报告。看起来 AI 一个人就把这件事做完了。

实际上它在背后开了好几场"小会"，有几场还是它派出去的"分身"开的。Agent 这个词，描述的就是这种"反复开会、必要时还派分身"的工作方式。这篇文章把这件事拆开来看。

第一篇文章《AI 办成一件事到底是谁在干活》讲了模型、助手软件、工具、规范文档这些角色各自负责什么。本文是第二篇，假设你已经知道"模型只动嘴、助手软件干活"这件事。

Agent 到底是个什么东西

很多人以为 agent 是某个软件、某个能下载安装的"AI 智能体"。其实都不是。

要理解 agent，先看一下它跟你最熟悉的"跟 AI 聊天"有什么区别。

普通聊天 vs agent

普通跟 ChatGPT 聊天是这样的：

你问"明天上海天气怎样"，AI 回"我不知道，因为我没法上网，但你可以自己去查"。聊天就到此为止了。AI 只能凭它训练时记下来的常识答你，碰到它不知道的事，它只会摊手。

Agent 是这样的：

你问"明天上海天气怎样"，AI 想了一下，说"我用一下查天气这个工具"。助手软件听到，真去查了天气，把结果交回 AI。AI 看着结果说"明天上海多云转晴，22 到 28 度"。

差别就这一点：普通聊天里的 AI 只能说话，agent 里的 AI 可以说"我想用某个工具"，然后让别人去办，再根据结果接着想下一步。

它做事的方式有点像一个不能离开座位的指挥：

它不能自己动手，但它能让助手软件帮它办事
它办一件事时不是想好整个计划再一气呵成，而是走一步看一步
每办完一步看到新结果，再决定下一步要让助手软件做什么
直到它觉得任务完成，自己说"我做完了"，整件事才停

这种"想一步、让别人办一步、看到结果再想下一步、直到自己叫停"的工作方式，就叫 agent。

Agent 长什么样

这种工作方式具体跑起来，是助手软件维护着的一段对话。这段对话里大致包含这么几样东西：

你说过的话、AI 说过的话、工具的返回结果，按时间顺序攒在一起
当前 AI 可以用哪些工具
当前可以参考哪些规范文档
一些进度记录（任务有没有做完、来回了多少次、派过几个分身）

助手软件负责把这段对话维护好，每次 AI 说了新话或者工具返回了结果，就往里添一笔。这段对话没有窗口、没有图标，肉眼看不到，但它确实在你电脑上跑着。任务结束后这段对话可以保存下来当聊天记录，也可以直接扔掉。

所以 agent 不在云端、不在你硬盘的某个文件里、不是某个能独立运行的程序。它活在助手软件里，本质就是这样一段被维护着的、能让 AI 不断决策和让外界办事的对话。

谁决定循环什么时候停

这是 agent 跟"任务流水线"最关键的区别。

如果是预先编好的流水线，每一步该做什么、做几步、什么时候停，都是程序员写死的。AI 只是在某些步骤里被叫来生成一段文字。

agent 不是这样。循环什么时候停，是 AI 自己说了算的。 AI 每轮回话有两种可能：要么说"我想用某个工具"，要么直接给最终回答（不调用任何工具）。助手软件看到 AI 这一轮没要工具，就知道 AI 觉得做完了，循环就停。

所以 agent 干活的时候，没人能精确预测它会跑几轮、会调几个工具、会派几个分身。这就是它"自主"的地方，也是它有时候会跑偏、跑废、烧掉一堆钱的原因。

主 agent 怎么启动

你回车的那一瞬间，主 agent 就启动了。

发生的事情很简单：助手软件起一段全新的空白对话，把你的需求写成第一句话，然后送给 AI。AI 回话之后，助手软件把回话也加到这段对话里，再继续问 AI "接下来呢"。这样一来一回，直到 AI 说"做完了"。

整段对话的生命过程，就是一个主 agent 的一生。下次你再问别的事，助手软件起一段新的空白对话，又是一个新的主 agent。

所以"主"这个字其实没什么特殊含义。它就是你这次任务里第一个跑起来的 agent，仅此而已。

子 agent 怎么生出来

主 agent 跑到某一轮，模型可能输出这么一段话：

这件事要查三家品牌，我一个人忙不过来，派三个分身去分头查。

助手软件听到这个请求，就另外起三段全新的空白对话，每段对话给一份不同的初始指令（一个去查星巴克、一个去查瑞幸、一个去查 Manner），让它们各自跟模型聊起来，自己跑自己的循环。

这三段新对话，每段就是一个子 agent（subagent）。它们跑完之后，每段对话只把"最终结果"抄回主 agent 的那段对话里，自己整段对话内容就丢掉了。主 agent 看到的就是三段干净的总结，不会被分身查过的几十个网页内容污染脑子。

子 agent 跟主 agent 长得完全一样，区别只有三点：

它是被主 agent "派"出来的，不是你直接启动的
它的对话是空白起步的，不知道主 agent 之前聊过什么，也不知道身边还有别的子 agent 在干类似的事
它的命很短，干完活把结果交回主 agent 之后立刻消失

一句话理解

主 agent 是助手软件为你这次任务起的一段对话。子 agent 是主 agent 让助手软件再多起几段独立的对话，干完脏活就丢掉。

它们都不是独立的程序、不是云端的服务，全部都活在你电脑上助手软件里。

这次会出现的两个新名字

下文会反复用到这两个词，先认个脸：

Agent：模型反复跟助手软件来回说话的整个循环。第一篇拆的"五轮对话"，整体就是一个 agent 在干活。
Subagent（分身）：主 agent 在某一步派出去的临时帮手，本身也是一个完整的 agent，跑完把结果交回来就消失。后文统一叫"分身"。

老角色（模型、助手软件、工具、规范文档、拦截器）跟第一篇里说的一样，不重复介绍。

一份调研报告的诞生过程

把"做一份咖啡品牌调研"这件事拆开看。

第一场会：主 agent 想清楚要干什么

你回车之后，主 agent 启动。第一轮对话里它告诉助手软件：

这件事要分头查三家。直接一个个查太慢了，我派三个分身分别去查。

注意这一步它并没有真去查，它只是说"我要派分身"。就像第一篇里讲的，模型说什么、做什么是分开的两件事，永远是模型先说话、软件再动手。

第二场会：助手软件派出三个分身

助手软件听到"派分身"的请求，就再起三段新的对话：

分身 A：去查星巴克
分身 B：去查瑞幸
分身 C：去查 Manner

每个分身拿到的指令大致是一样的：

去查 [品牌名] 的定价、门店数和最近一年的口碑，整理成一段简报交回来。

这三个分身之间互不知情，它们以为自己是被单独叫来干活的，不知道身边还有两个同事在干类似的事。每个分身都有自己干净的脑子，只装着自己这点活。

第三场会：每个分身自己开几轮小会

分身 A 拿到任务，开始跟模型来回（跟第一篇讲的"模型说话、软件干活"是同一种循环）：

分身 A 第 1 次：我想搜"星巴克 中国 定价 2026"
            → 软件去搜网页 → 把结果交回
分身 A 第 2 次：我想读这个网页全文
            → 软件抓网页 → 把内容交回
分身 A 第 3 次：我想搜"星巴克 中国 门店数"
            → ...
分身 A 第 N 次：信息够了，整理出一段简报。

整个过程跟第一篇的"整理纪要"是同一种循环，只是这里用的工具变成了搜网页、读网页。

分身 B 和分身 C 在做一样的事，只不过查的是另一家品牌。三个分身可能是同时跑（更快），也可能一个接一个跑（看助手软件怎么安排）。

第四场会：分身把结果交回主 agent

分身忙完后，每个分身只交回最后那段简报，不交回它自己跑过的几十轮对话。

主 agent 不需要知道分身查了多少网页、读了哪几篇文章、走了多少弯路。它只看到三段干净的总结。

主 agent 收到的三段简报：

[星巴克] 中国大陆 6800 家店，主流定价 30-40 元，过去一年口碑趋于负面...
[瑞幸]   中国大陆 19000 家店，主流定价 9.9-15 元，口碑两极...
[Manner] 中国大陆 1300 家店，主流定价 15-25 元，口碑偏正面...

这一步省了一大段东西。如果不用分身、主 agent 自己一个个查，三家品牌全部的网页内容、搜索结果、笔记都得堆在主 agent 自己的对话里，模型一次能记住的内容就那么多，很快就装不下了。

第五场会：主 agent 自己接着干

收到三段简报后，主 agent 回到自己的循环。它可能接着做这些事：

比对三家定价差异
看看你有没有规范文档（如果有"我们的报告必须按 SWOT 框架写"这种规范，它会去读）
调"改文件"工具把最终报告写到 咖啡品牌调研.md

这部分跟第一篇的"整理纪要"流程一模一样，没有新东西。

第六场会：交差

主 agent 完成报告，输出最后一句话：

已经把三家咖啡品牌的对比报告整理到 咖啡品牌调研.md 了。

助手软件渲染给你看。整个过程到这里结束。

这次一共开了几场会

粗略数一下：

主 agent
├── 第 1 次：决定派分身
├── 第 2 次：（等分身回来）
│   ├── 分身 A 自己开了 5 次小会查星巴克
│   ├── 分身 B 自己开了 6 次小会查瑞幸
│   └── 分身 C 自己开了 4 次小会查 Manner
├── 第 3 次：拿到三段简报，开始对比
├── 第 4 次：去读你要的报告格式
├── 第 5 次：把最终报告写进文件
└── 第 6 次：交差

主 agent 自己跟模型来回 6 次，三个分身加起来又跟模型来回了 15 次。一份你以为"几分钟搞定的报告"，背后其实是 21 次跟云端的来回。

几件值得说一下的事

循环和分身不是 bug，是这种工作方式本来的样子。 模型一次只能说一段话，一段话里只能讲"我下一步想干什么"。真正办成一件事，必须反复来回。任务越大，来回的次数越多，越慢，越花钱。

分身不是另一个 AI，就是同一个模型被再叫一次。 你电脑上没有"3 个 AI"，云端的模型还是同一个。分身只是助手软件用这个模型起了三段独立的对话，互不影响。每段对话忙完就关掉。

分身存在的意义是给主 agent"空脑子"。 模型一次能记住的内容是有上限的。如果不用分身、主 agent 自己查三家品牌，三家的所有原始资料（搜索结果、网页全文）会全堆在主 agent 的对话里，很快就装不下了。开分身相当于把脏活外包给临时工，临时工干完只交回总结，主 agent 的脑子始终轻装。

为什么这种任务又慢又贵。 主 agent 6 次 + 分身 15 次 = 21 次跟云端的来回。每一次都要花一笔钱（按字数算）。这就是为什么"做调研""分析合同""跨多文件改代码"这类任务，跑起来比"翻译一句话"贵几十倍。

不是每次都要分身

不是所有任务都要派分身。第一篇里那个"整理会议纪要"，主 agent 一个人干就够了，因为：

任务是单线的（先读纪要、再读规范、再写报告）
一份纪要加一份格式规范，几千字的事，主 agent 自己脑子完全装得下
没有可以同时进行的几件事

派分身是有代价的：要多起几段对话、多花钱、还得想办法把分身的结果拼起来。所以助手软件加模型会自己判断，简单的事直接干，复杂的才派分身。

判断的大致逻辑是：

任务能不能拆成几件互不相干的事（能拆 → 适合分身）
中间会不会产生大量的原始资料让主 agent 装不下（会 → 适合分身）
是不是需要"换个角度"看（比如让一个分身专门看法律风险、另一个专门看财务，这种也适合分身）

几个容易搞错的事

分身能记得主 agent 之前聊过什么。 不能。每个分身的脑子是空白起步的，主 agent 派它的时候交代了什么，它就只知道什么。之前聊过的事它一概不知道。

分身可以再开分身。 可以。分身本身就是一个完整的 agent，它也能继续派分身（套娃）。但助手软件一般会限层（比如最多 3 层），防止套娃失控把钱和脑子都烧光。

分身在你电脑上是几个程序？ 一个都没有。分身就是助手软件在脑子里多记了几段对话，全都用同一个云端模型。所以"派 3 个分身"对你电脑的影响约等于"主 agent 多说了几句话"，几乎感觉不到。

分身比主 agent 笨。 不一定。一般用的是同一个模型，能力一样。但有些助手软件会给分身配便宜的小模型干脏活、把贵的大模型留给主 agent 做整合，这种情况下分身确实会笨一点，是被故意调低的。

一句话

Agent 是模型、助手软件、工具配合起来的来回循环。分身是这个循环里派出去的临时工，干完脏活就交回结果。

只要模型一次还说不完一整套指令，这种来回循环就不会消失。任务越大，来回越多，分身越多。你看到的"AI 一下就帮你搞定了"，背后其实是几十次跟云端的对话，和好几个互相不认识的分身一起忙活。