人人都能懂的科普：AI 办成一件事到底是谁在干活

跟 AI 说一句"帮我把今天的会议纪要整理一下，追加到本周的工作总结里"，几秒钟之后文件已经改好。看起来 AI 自己读了文件、自己改了文档。

实际上它没碰过你硬盘上的任何东西。整个过程它在做的事只有一件：跟你电脑上的助手软件来回说话。"我想看看那份纪要"、"我想往本周总结里加几段"。读文件、写文件，都是助手软件听了它的话之后，自己去你硬盘里办的。

下面把这件事拆开看。

这次会出场的角色

不展开介绍，先认个名字，后面用到再细说：

大模型：跑在云端的服务，输入一段文字、输出一段文字。它就是平时大家说的"AI"。
AI 助手软件：WorkBuddy、豆包、元宝、Cursor、Claude Code、ChatGPT 桌面版这些，跑在你自己的电脑上。它是你跟模型之间的中间人。
工具：助手软件里写好的一组小功能，比如"读文件"、"改文件"、"搜文件夹"。
规范文档（业内叫 Skill）：项目里的一份说明书，告诉模型"做某类事的时候参考它"，比如"我们公司的会议纪要格式长这样"。
拦截器（业内叫 Hook）：写在配置里的一些小检查，工具被使用前后都会先经过它。
外挂工具盒（业内叫 MCP）：把工具放在助手软件外面单独跑的程序，软件通过一种通用接口跟它说话。

模型多数时候跑在云端的服务器上，少数人会用 Ollama 这种方案在自己电脑上跑（本文按云端这种常见场景讲，原理是一样的）。其他角色都在你电脑上。

一份会议纪要的整理过程

把"帮我把今天的会议纪要整理一下，追加到本周工作总结里"这件事，拆成助手软件跟模型之间的五轮对话。

第一轮：助手软件先把场子搭好

你回车的瞬间，模型还不知道你说了什么。助手软件在做这些事：

看你当前正在编辑什么文件、光标在哪
扫一遍你项目里有没有写好的"规范文档"
加载你设过的偏好规则（比如"语气保持简洁"、"不要乱加 emoji"）
把可用工具清单整理出来（读文件、写文件、搜文件夹等等）
把这些信息拼成一段长文本

然后通过网络把这段文本发给模型。

模型这一步是完全被动的。它不知道你电脑里有什么文件、装了什么工具、有什么规范，全靠助手软件这次主动告诉它。

第二轮：模型说"我想看看那份纪要"

模型读完那段长文本，决定先看一眼今天的会议纪要。它的回应不是动作，而是一段类似这样的话：

我想用"读文件"这个工具，参数是 2026-Q2-周会-0605.md。

这段话回到助手软件手里。软件认出"哦，模型想读文件"，然后做这几件事：

触发拦截器（如果你设置过）。比如有人设置了"读公司机密目录前要确认一下"，或者"读哪些文件需要记一笔日志"，都在这里检查一下。
拦截器放行后，助手软件去硬盘真打开这份文件。
文件打开后又过一遍后置拦截器（比如"看到刚读了的文件，自动转一下编码"）。
把文件内容打包成结果，再发给模型。

到这里模型才第一次知道这份会议纪要写了什么。它对你硬盘里所有东西的了解，都来自助手软件喂过去的这些片段。

第三轮：模型决定参考一下公司格式

看完纪要内容，模型注意到第一轮提到过有个规范文档叫"周报格式"，描述写着"团队每周总结的统一格式"。它觉得这次该用上，于是说：

把"周报格式"这份规范读给我看。

助手软件去项目里找到那份 markdown 文档，读出里面的内容，比如：

团队周报格式：
1. 第一段：本周关键决议（带责任人）
2. 第二段：未完成的事项（带预计完成时间）
3. 第三段：下周重点
4. 不要写"近期"、"后续"这种没时间锚点的词

把这段话发给模型。

这里有个反直觉的事实：规范文档不是被"执行"的，它就是一份普通的 markdown 文档。助手软件把内容读出来贴给模型看而已，跟把会议纪要内容贴给模型看是同一件事。规范文档目录里也可以放小脚本（用来做更复杂的检查），但跑不跑也是模型读完文档之后再决定让软件去跑。

第四轮：模型把整理结果写出来

读完格式规范，模型按格式把今天的内容组织好，告诉助手软件：

我想用"改文件"这个工具，把这段内容追加到 本周总结.md 的末尾。
内容是：本周关键决议……

助手软件这一步要做的事跟第二轮是同一套：

前置拦截器检查（比如"禁止改某些受保护的文件"、"一次最多改 200 行"）
真去改硬盘上的文件
后置拦截器跑（比如自动备份一份旧版本到 .bak、自动用 git 记一笔）
文件被改后，编辑器界面自动刷新显示新内容
把"改成功"打包成结果发给模型

第五轮：收尾

模型收到"改成功"，认为任务完成，说最后一句话：

已经按周报格式把今天的纪要整理进 本周总结.md 了。

这次的回应没有任何工具调用。助手软件看到这一点，知道整个流程结束了。结束拦截器跑（比如自动 git commit、自动通知你"任务完成"），把这句话渲染给你看。

整个过程到这里结束，从你回车到看到结果，跟模型来回了 4 次。

几件值得说一下的事

回过头看刚才整个过程，几个细节值得拎出来。

模型一次都没碰过你的文件，它只是说了 4 次"我想干什么"。所有读文件、改文件的动作，都是助手软件听了它的话之后自己去办的。

助手软件跟模型来回了 4 次，每次都是一次完整的网络请求。AI 工具反应慢的根本原因在这里，跟你电脑性能基本无关。

规范文档全程没"执行"过任何东西，它只是被读出来塞给模型当参考用，跟你把会议纪要内容贴给模型看是同一件事。

拦截器和外挂工具盒这次大部分时间没动，但它们随时能介入，能在任何一步把动作拦下来或换成别的实现。这意味着同一个模型放在不同的助手软件里，行为可以完全不一样。

不是每次都这么复杂

上面是"完整版"的流程。换个问题，过程会短很多。

你问："周报里写'近期'这个词合适吗？"

1. 助手软件把问题发给模型
2. 模型直接答
3. 助手软件把回答渲染出来

就这两步。这种问题模型训练的时候学过，不需要看你电脑里的任何东西，也不需要用任何工具。

但同一个模型，问法换一下：

我们项目里"近期"这个词用得多吗？

过程立刻变长，跟前面整理纪要那种循环差不多。模型得用"搜文件夹"找出所有出现"近期"的地方、用"读文件"看具体上下文，来回好几轮才能给答案。

差别是：抽象问题模型靠训练时记下来的常识就能答，具体问题必须靠工具去你电脑里现场看。模型对你电脑里所有东西的认知，都是助手软件当下喂给它的内容。它没法"瞄一眼"你的硬盘，只能等软件把内容塞过去。

几个容易搞错的事

AI 直接读了我的文件。 没有。模型只看到助手软件喂给它的文本。文件是软件读完后塞给模型看的，模型对你硬盘的认知完全来自软件这次塞了什么进去。

工具是 AI 厂商提供的。 不是。OpenAI、Anthropic 这些 AI 厂商只是提供了一种"协议"，规定模型可以用结构化的方式说"我想用某个工具"。具体的工具是助手软件自己写的，AI 厂商完全不知道你装了什么工具。

换个 AI 工具就用不了了。 不会。工具实现跟模型解耦。比如把背后的模型从一家换到另一家，只要软件适配一下输出格式，工具本身一行代码不用改。

给 AI 越多工具它越聪明。 反了。工具超过十几个，模型挑工具的准确率会明显下降。"规范文档"这种按需注入的机制就是为了解决这个问题，不该看的工具先别让它看见，需要时再拿出来。

一句话

模型只产生文字，所有真正发生的事都是助手软件在你电脑上做的。

想清楚这一点，下面这两件事就好理解了：

规范文档和外挂工具盒能在不同 AI 工具之间通用，因为它们都是"喂给模型的内容"或"被软件调度的工具"，跟模型本身没关系。

AI 误删文件这种事是助手软件的责任，不是模型的责任。模型连删文件的能力都没有，它只是说了"想删"，是软件真删的。