ChengRang

人人都能懂的科普:AI 办成一件事到底是谁在干活

人人都能懂的科普 约 6 分钟阅读

跟 AI 说一句"帮我把今天的会议纪要整理一下,追加到本周的工作总结里",几秒钟之后文件已经改好。看起来 AI 自己读了文件、自己改了文档。

实际上它没碰过你硬盘上的任何东西。整个过程它在做的事只有一件:跟你电脑上的助手软件来回说话。"我想看看那份纪要"、"我想往本周总结里加几段"。读文件、写文件,都是助手软件听了它的话之后,自己去你硬盘里办的。

下面把这件事拆开看。

这次会出场的角色

不展开介绍,先认个名字,后面用到再细说:

模型多数时候跑在云端的服务器上,少数人会用 Ollama 这种方案在自己电脑上跑(本文按云端这种常见场景讲,原理是一样的)。其他角色都在你电脑上。

一份会议纪要的整理过程

把"帮我把今天的会议纪要整理一下,追加到本周工作总结里"这件事,拆成助手软件跟模型之间的五轮对话。

第一轮:助手软件先把场子搭好

你回车的瞬间,模型还不知道你说了什么。助手软件在做这些事:

然后通过网络把这段文本发给模型。

模型这一步是完全被动的。它不知道你电脑里有什么文件、装了什么工具、有什么规范,全靠助手软件这次主动告诉它。

第二轮:模型说"我想看看那份纪要"

模型读完那段长文本,决定先看一眼今天的会议纪要。它的回应不是动作,而是一段类似这样的话:

我想用"读文件"这个工具,参数是 2026-Q2-周会-0605.md

这段话回到助手软件手里。软件认出"哦,模型想读文件",然后做这几件事:

  1. 触发拦截器(如果你设置过)。比如有人设置了"读公司机密目录前要确认一下",或者"读哪些文件需要记一笔日志",都在这里检查一下。
  2. 拦截器放行后,助手软件去硬盘真打开这份文件。
  3. 文件打开后又过一遍后置拦截器(比如"看到刚读了的文件,自动转一下编码")。
  4. 把文件内容打包成结果,再发给模型。

到这里模型才第一次知道这份会议纪要写了什么。它对你硬盘里所有东西的了解,都来自助手软件喂过去的这些片段。

第三轮:模型决定参考一下公司格式

看完纪要内容,模型注意到第一轮提到过有个规范文档叫"周报格式",描述写着"团队每周总结的统一格式"。它觉得这次该用上,于是说:

把"周报格式"这份规范读给我看。

助手软件去项目里找到那份 markdown 文档,读出里面的内容,比如:

团队周报格式:

1. 第一段:本周关键决议(带责任人)

2. 第二段:未完成的事项(带预计完成时间)

3. 第三段:下周重点

4. 不要写"近期"、"后续"这种没时间锚点的词

把这段话发给模型。

这里有个反直觉的事实:规范文档不是被"执行"的,它就是一份普通的 markdown 文档。助手软件把内容读出来贴给模型看而已,跟把会议纪要内容贴给模型看是同一件事。规范文档目录里也可以放小脚本(用来做更复杂的检查),但跑不跑也是模型读完文档之后再决定让软件去跑。

第四轮:模型把整理结果写出来

读完格式规范,模型按格式把今天的内容组织好,告诉助手软件:

我想用"改文件"这个工具,把这段内容追加到 本周总结.md 的末尾。

内容是:本周关键决议……

助手软件这一步要做的事跟第二轮是同一套:

  1. 前置拦截器检查(比如"禁止改某些受保护的文件"、"一次最多改 200 行")
  2. 真去改硬盘上的文件
  3. 后置拦截器跑(比如自动备份一份旧版本到 .bak、自动用 git 记一笔)
  4. 文件被改后,编辑器界面自动刷新显示新内容
  5. 把"改成功"打包成结果发给模型

第五轮:收尾

模型收到"改成功",认为任务完成,说最后一句话:

已经按周报格式把今天的纪要整理进 本周总结.md 了。

这次的回应没有任何工具调用。助手软件看到这一点,知道整个流程结束了。结束拦截器跑(比如自动 git commit、自动通知你"任务完成"),把这句话渲染给你看。

整个过程到这里结束,从你回车到看到结果,跟模型来回了 4 次。

几件值得说一下的事

回过头看刚才整个过程,几个细节值得拎出来。

模型一次都没碰过你的文件,它只是说了 4 次"我想干什么"。所有读文件、改文件的动作,都是助手软件听了它的话之后自己去办的。

助手软件跟模型来回了 4 次,每次都是一次完整的网络请求。AI 工具反应慢的根本原因在这里,跟你电脑性能基本无关。

规范文档全程没"执行"过任何东西,它只是被读出来塞给模型当参考用,跟你把会议纪要内容贴给模型看是同一件事。

拦截器和外挂工具盒这次大部分时间没动,但它们随时能介入,能在任何一步把动作拦下来或换成别的实现。这意味着同一个模型放在不同的助手软件里,行为可以完全不一样。

不是每次都这么复杂

上面是"完整版"的流程。换个问题,过程会短很多。

你问:"周报里写'近期'这个词合适吗?"

1. 助手软件把问题发给模型
2. 模型直接答
3. 助手软件把回答渲染出来

就这两步。这种问题模型训练的时候学过,不需要看你电脑里的任何东西,也不需要用任何工具。

但同一个模型,问法换一下:

我们项目里"近期"这个词用得多吗?

过程立刻变长,跟前面整理纪要那种循环差不多。模型得用"搜文件夹"找出所有出现"近期"的地方、用"读文件"看具体上下文,来回好几轮才能给答案。

差别是:抽象问题模型靠训练时记下来的常识就能答,具体问题必须靠工具去你电脑里现场看。模型对你电脑里所有东西的认知,都是助手软件当下喂给它的内容。它没法"瞄一眼"你的硬盘,只能等软件把内容塞过去。

几个容易搞错的事

AI 直接读了我的文件。 没有。模型只看到助手软件喂给它的文本。文件是软件读完后塞给模型看的,模型对你硬盘的认知完全来自软件这次塞了什么进去。

工具是 AI 厂商提供的。 不是。OpenAI、Anthropic 这些 AI 厂商只是提供了一种"协议",规定模型可以用结构化的方式说"我想用某个工具"。具体的工具是助手软件自己写的,AI 厂商完全不知道你装了什么工具。

换个 AI 工具就用不了了。 不会。工具实现跟模型解耦。比如把背后的模型从一家换到另一家,只要软件适配一下输出格式,工具本身一行代码不用改。

给 AI 越多工具它越聪明。 反了。工具超过十几个,模型挑工具的准确率会明显下降。"规范文档"这种按需注入的机制就是为了解决这个问题,不该看的工具先别让它看见,需要时再拿出来。

一句话

模型只产生文字,所有真正发生的事都是助手软件在你电脑上做的。

想清楚这一点,下面这两件事就好理解了:

规范文档和外挂工具盒能在不同 AI 工具之间通用,因为它们都是"喂给模型的内容"或"被软件调度的工具",跟模型本身没关系。

AI 误删文件这种事是助手软件的责任,不是模型的责任。模型连删文件的能力都没有,它只是说了"想删",是软件真删的。

← 返回目录