ChengRang

人人都能懂的科普:到底什么是 agent

人人都能懂的科普 约 10 分钟阅读

你跟 AI 说:"帮我做一份咖啡品牌的市场调研,对比一下星巴克、瑞幸、Manner 三家的定价、门店数和最近一年的口碑。"

几分钟之后它给了你一份整理好的报告。看起来 AI 一个人就把这件事做完了。

实际上它在背后开了好几场"小会",有几场还是它派出去的"分身"开的。Agent 这个词,描述的就是这种"反复开会、必要时还派分身"的工作方式。这篇文章把这件事拆开来看。

第一篇文章《AI 办成一件事到底是谁在干活》讲了模型、助手软件、工具、规范文档这些角色各自负责什么。本文是第二篇,假设你已经知道"模型只动嘴、助手软件干活"这件事。

Agent 到底是个什么东西

很多人以为 agent 是某个软件、某个能下载安装的"AI 智能体"。其实都不是。

要理解 agent,先看一下它跟你最熟悉的"跟 AI 聊天"有什么区别。

普通聊天 vs agent

普通跟 ChatGPT 聊天是这样的:

你问"明天上海天气怎样",AI 回"我不知道,因为我没法上网,但你可以自己去查"。聊天就到此为止了。AI 只能凭它训练时记下来的常识答你,碰到它不知道的事,它只会摊手。

Agent 是这样的:

你问"明天上海天气怎样",AI 想了一下,说"我用一下查天气这个工具"。助手软件听到,真去查了天气,把结果交回 AI。AI 看着结果说"明天上海多云转晴,22 到 28 度"。

差别就这一点:普通聊天里的 AI 只能说话,agent 里的 AI 可以说"我想用某个工具",然后让别人去办,再根据结果接着想下一步。

它做事的方式有点像一个不能离开座位的指挥:

这种"想一步、让别人办一步、看到结果再想下一步、直到自己叫停"的工作方式,就叫 agent。

Agent 长什么样

这种工作方式具体跑起来,是助手软件维护着的一段对话。这段对话里大致包含这么几样东西:

助手软件负责把这段对话维护好,每次 AI 说了新话或者工具返回了结果,就往里添一笔。这段对话没有窗口、没有图标,肉眼看不到,但它确实在你电脑上跑着。任务结束后这段对话可以保存下来当聊天记录,也可以直接扔掉。

所以 agent 不在云端、不在你硬盘的某个文件里、不是某个能独立运行的程序。它活在助手软件里,本质就是这样一段被维护着的、能让 AI 不断决策和让外界办事的对话。

谁决定循环什么时候停

这是 agent 跟"任务流水线"最关键的区别。

如果是预先编好的流水线,每一步该做什么、做几步、什么时候停,都是程序员写死的。AI 只是在某些步骤里被叫来生成一段文字。

agent 不是这样。循环什么时候停,是 AI 自己说了算的。 AI 每轮回话有两种可能:要么说"我想用某个工具",要么直接给最终回答(不调用任何工具)。助手软件看到 AI 这一轮没要工具,就知道 AI 觉得做完了,循环就停。

所以 agent 干活的时候,没人能精确预测它会跑几轮、会调几个工具、会派几个分身。这就是它"自主"的地方,也是它有时候会跑偏、跑废、烧掉一堆钱的原因。

主 agent 怎么启动

你回车的那一瞬间,主 agent 就启动了。

发生的事情很简单:助手软件起一段全新的空白对话,把你的需求写成第一句话,然后送给 AI。AI 回话之后,助手软件把回话也加到这段对话里,再继续问 AI "接下来呢"。这样一来一回,直到 AI 说"做完了"。

整段对话的生命过程,就是一个主 agent 的一生。下次你再问别的事,助手软件起一段新的空白对话,又是一个新的主 agent。

所以"主"这个字其实没什么特殊含义。它就是你这次任务里第一个跑起来的 agent,仅此而已。

子 agent 怎么生出来

主 agent 跑到某一轮,模型可能输出这么一段话:

这件事要查三家品牌,我一个人忙不过来,派三个分身去分头查。

助手软件听到这个请求,就另外起三段全新的空白对话,每段对话给一份不同的初始指令(一个去查星巴克、一个去查瑞幸、一个去查 Manner),让它们各自跟模型聊起来,自己跑自己的循环。

这三段新对话,每段就是一个子 agent(subagent)。它们跑完之后,每段对话只把"最终结果"抄回主 agent 的那段对话里,自己整段对话内容就丢掉了。主 agent 看到的就是三段干净的总结,不会被分身查过的几十个网页内容污染脑子。

子 agent 跟主 agent 长得完全一样,区别只有三点:

一句话理解

主 agent 是助手软件为你这次任务起的一段对话。子 agent 是主 agent 让助手软件再多起几段独立的对话,干完脏活就丢掉。

它们都不是独立的程序、不是云端的服务,全部都活在你电脑上助手软件里。

这次会出现的两个新名字

下文会反复用到这两个词,先认个脸:

老角色(模型、助手软件、工具、规范文档、拦截器)跟第一篇里说的一样,不重复介绍。

一份调研报告的诞生过程

把"做一份咖啡品牌调研"这件事拆开看。

第一场会:主 agent 想清楚要干什么

你回车之后,主 agent 启动。第一轮对话里它告诉助手软件:

这件事要分头查三家。直接一个个查太慢了,我派三个分身分别去查。

注意这一步它并没有真去查,它只是说"我要派分身"。就像第一篇里讲的,模型说什么、做什么是分开的两件事,永远是模型先说话、软件再动手。

第二场会:助手软件派出三个分身

助手软件听到"派分身"的请求,就再起三段新的对话:

每个分身拿到的指令大致是一样的:

去查 [品牌名] 的定价、门店数和最近一年的口碑,整理成一段简报交回来。

这三个分身之间互不知情,它们以为自己是被单独叫来干活的,不知道身边还有两个同事在干类似的事。每个分身都有自己干净的脑子,只装着自己这点活。

第三场会:每个分身自己开几轮小会

分身 A 拿到任务,开始跟模型来回(跟第一篇讲的"模型说话、软件干活"是同一种循环):

分身 A 第 1 次:我想搜"星巴克 中国 定价 2026"
            → 软件去搜网页 → 把结果交回
分身 A 第 2 次:我想读这个网页全文
            → 软件抓网页 → 把内容交回
分身 A 第 3 次:我想搜"星巴克 中国 门店数"
            → ...
分身 A 第 N 次:信息够了,整理出一段简报。

整个过程跟第一篇的"整理纪要"是同一种循环,只是这里用的工具变成了搜网页、读网页。

分身 B 和分身 C 在做一样的事,只不过查的是另一家品牌。三个分身可能是同时跑(更快),也可能一个接一个跑(看助手软件怎么安排)。

第四场会:分身把结果交回主 agent

分身忙完后,每个分身只交回最后那段简报,不交回它自己跑过的几十轮对话。

主 agent 不需要知道分身查了多少网页、读了哪几篇文章、走了多少弯路。它只看到三段干净的总结。

主 agent 收到的三段简报:

[星巴克] 中国大陆 6800 家店,主流定价 30-40 元,过去一年口碑趋于负面...
[瑞幸]   中国大陆 19000 家店,主流定价 9.9-15 元,口碑两极...
[Manner] 中国大陆 1300 家店,主流定价 15-25 元,口碑偏正面...

这一步省了一大段东西。如果不用分身、主 agent 自己一个个查,三家品牌全部的网页内容、搜索结果、笔记都得堆在主 agent 自己的对话里,模型一次能记住的内容就那么多,很快就装不下了。

第五场会:主 agent 自己接着干

收到三段简报后,主 agent 回到自己的循环。它可能接着做这些事:

这部分跟第一篇的"整理纪要"流程一模一样,没有新东西。

第六场会:交差

主 agent 完成报告,输出最后一句话:

已经把三家咖啡品牌的对比报告整理到 咖啡品牌调研.md 了。

助手软件渲染给你看。整个过程到这里结束。

这次一共开了几场会

粗略数一下:

主 agent
├── 第 1 次:决定派分身
├── 第 2 次:(等分身回来)
│   ├── 分身 A 自己开了 5 次小会查星巴克
│   ├── 分身 B 自己开了 6 次小会查瑞幸
│   └── 分身 C 自己开了 4 次小会查 Manner
├── 第 3 次:拿到三段简报,开始对比
├── 第 4 次:去读你要的报告格式
├── 第 5 次:把最终报告写进文件
└── 第 6 次:交差

主 agent 自己跟模型来回 6 次,三个分身加起来又跟模型来回了 15 次。一份你以为"几分钟搞定的报告",背后其实是 21 次跟云端的来回。

几件值得说一下的事

循环和分身不是 bug,是这种工作方式本来的样子。 模型一次只能说一段话,一段话里只能讲"我下一步想干什么"。真正办成一件事,必须反复来回。任务越大,来回的次数越多,越慢,越花钱。

分身不是另一个 AI,就是同一个模型被再叫一次。 你电脑上没有"3 个 AI",云端的模型还是同一个。分身只是助手软件用这个模型起了三段独立的对话,互不影响。每段对话忙完就关掉。

分身存在的意义是给主 agent"空脑子"。 模型一次能记住的内容是有上限的。如果不用分身、主 agent 自己查三家品牌,三家的所有原始资料(搜索结果、网页全文)会全堆在主 agent 的对话里,很快就装不下了。开分身相当于把脏活外包给临时工,临时工干完只交回总结,主 agent 的脑子始终轻装。

为什么这种任务又慢又贵。 主 agent 6 次 + 分身 15 次 = 21 次跟云端的来回。每一次都要花一笔钱(按字数算)。这就是为什么"做调研""分析合同""跨多文件改代码"这类任务,跑起来比"翻译一句话"贵几十倍。

不是每次都要分身

不是所有任务都要派分身。第一篇里那个"整理会议纪要",主 agent 一个人干就够了,因为:

派分身是有代价的:要多起几段对话、多花钱、还得想办法把分身的结果拼起来。所以助手软件加模型会自己判断,简单的事直接干,复杂的才派分身。

判断的大致逻辑是:

几个容易搞错的事

分身能记得主 agent 之前聊过什么。 不能。每个分身的脑子是空白起步的,主 agent 派它的时候交代了什么,它就只知道什么。之前聊过的事它一概不知道。

分身可以再开分身。 可以。分身本身就是一个完整的 agent,它也能继续派分身(套娃)。但助手软件一般会限层(比如最多 3 层),防止套娃失控把钱和脑子都烧光。

分身在你电脑上是几个程序? 一个都没有。分身就是助手软件在脑子里多记了几段对话,全都用同一个云端模型。所以"派 3 个分身"对你电脑的影响约等于"主 agent 多说了几句话",几乎感觉不到。

分身比主 agent 笨。 不一定。一般用的是同一个模型,能力一样。但有些助手软件会给分身配便宜的小模型干脏活、把贵的大模型留给主 agent 做整合,这种情况下分身确实会笨一点,是被故意调低的。

一句话

Agent 是模型、助手软件、工具配合起来的来回循环。分身是这个循环里派出去的临时工,干完脏活就交回结果。

只要模型一次还说不完一整套指令,这种来回循环就不会消失。任务越大,来回越多,分身越多。你看到的"AI 一下就帮你搞定了",背后其实是几十次跟云端的对话,和好几个互相不认识的分身一起忙活。

← 返回目录