Agent 到底是个啥?和 ChatGPT 有什么不一样
ChatGPT 是回答机器,Agent 是执行机器。一篇讲清 Agent 三件套(感知-规划-行动)、它现在能干什么、还干不了什么。
最近你肯定在到处听到"AI Agent"。Devin、Manus、AutoGPT、Claude Computer Use……每个产品都说自己是"下一代 Agent"。
但你问 10 个人 Agent 是啥,会得到 10 个不同答案。今天彻底讲清楚:Agent 到底跟 ChatGPT 有啥本质区别,它现在能干什么、不能干什么,普通人怎么用上。
1. 一句话区别:ChatGPT 是回答机器,Agent 是执行机器
ChatGPT 干的事:你问,它答。它的输出永远是文字。
你:帮我订一张明天去上海的机票 ChatGPT:好的,建议你去携程或 12306 搜索"明天,上海",选合适航班,填写身份证信息,付款……
Agent 干的事:你说要什么,它自己干。
你:帮我订一张明天去上海的机票 Agent:(打开浏览器 → 进入携程 → 搜索 → 比价 → 选航班 → 用你的账号付款 → 把订单发到你邮箱)✓ 已订完,订单号 X12345。
核心差别:能不能动手。ChatGPT 给攻略,Agent 给结果。
2. Agent 三件套:感知 + 规划 + 行动
任何一个 Agent,不管多花哨,都是这三件套循环:
感知 规划 行动
┌──────────┐ ┌──────────┐ ┌──────────┐
│ 我现在 │ │ 下一步该 │ │ 执行下一步 │
│ 看到啥? │ ───→ │ 干什么? │ ───→ │ 操作 │
└──────────┘ └──────────┘ └──────────┘
▲ │
└────────────────────────────────────────┘
循环,直到任务完成
具体到订机票这个例子:
| 轮次 | 感知 | 规划 | 行动 |
|---|---|---|---|
| 1 | 用户说要订明天去上海的机票 | 先打开携程 | 点击携程链接 |
| 2 | 看到搜索框 | 输入"上海,明天" | 填写表单,点搜索 |
| 3 | 看到 30 个航班 | 选最便宜的非红眼 | 点击 11:00 那班 |
| 4 | 看到付款页面 | 用绑定的信用卡 | 点支付 |
| 5 | 看到订单成功页 | 任务完成,回报用户 | 截图 + 邮件通知 |
你看,每一步它都要做三件事:看现状 → 决定下一步 → 真的执行。一直循环,直到目标达成。
3. Agent 怎么"动手"?—— 工具调用
Agent 不是真的有手。它是通过调用工具 (tools) 来执行动作。
工具可以是:
- 浏览器:打开网页、点击、填表
- 代码执行环境:跑 Python 脚本
- 文件系统:读写文件
- API:发邮件、查天气、订外卖
- 命令行:运行 git、pip、curl
每个工具背后都是一段代码。Agent 输出"我要点这个按钮",背后的工程系统真的去点了那个按钮,然后把页面截图喂回 Agent,让它继续判断下一步。
这套机制底层用的就是 Function Calling(让 AI 选择调用哪个工具)+ MCP(工具的标准接口)。这俩是 Agent 时代的两大基础设施。
4. 现在的 Agent 真的好用吗?—— 半真半假
好的一面:
✅ 简单明确的任务:批量处理 100 张图、把一份英文 PDF 翻译成中文、按格式整理一堆数据。Agent 完成度 80%+。
✅ 有清晰边界的"沙盒"任务:在 Linux 终端里跑代码、查数据、写脚本。Devin、Claude Code 这类编程 Agent 在自己擅长的领域接近能用。
✅ 重复性流程:批量发邮件、批量爬数据、批量回复消息。
糟的一面:
❌ 多步任务越长越容易翻车。第 1 步对了不代表第 10 步对——错误会累积。一个 20 步的任务,每步 95% 准确率,最后只有 36% 完成率(0.95²⁰ ≈ 0.36)。
❌ 看不懂细节。Agent 看网页是看截图 + HTML,遇到一个奇怪的弹窗、一个验证码,就傻了。
❌ "看起来对,其实错了"。这是最危险的——Agent 信心满满地报告"任务完成",结果你打开一看:发到了错的人、买错了型号、改了不该改的文件。
❌ 要钱。一个复杂任务跑下来,Agent 内部可能调用上百次大模型,单次任务成本 $1–$10 是常态。
现实建议: 把 Agent 用在可验证、可回滚的任务上。比如让它写代码(你可以 review)、整理文档(你可以校对)、批量处理(你可以抽查)。 千万别让它无监督地花钱、发邮件、改生产环境的东西。
5. 普通人现在能用上的 Agent
不要等"通用 AGI",已经有一批好用的 Agent 工具:
| 工具 | 用处 | 难度 |
|---|---|---|
| Claude Code | 编程 Agent,能在你的电脑里读改代码 | 程序员友好 |
| Cursor | IDE 内置编程 Agent | 程序员友好 |
| Manus | 通用任务 Agent,能上网、写代码、做报告 | 普通人友好 |
| Devin | 自主编程 Agent,能拿到一个 GitHub issue 自己提 PR | 程序员 |
| 扣子 (Coze) Agent | 对话型 Agent,可发布到微信、飞书 | 拖拽搭建,普通人能上手 |
| Dify Agent | 可视化搭建 Agent + 工作流 | 拖拽搭建,普通人能上手 |
| Computer Use (Claude) | Claude 直接操控你的电脑(有截屏权限) | 半实验,玩玩可以 |
普通人最容易上手的:扣子、Dify。最有想象力的:Claude Code(如果你会一点代码)、Manus(通用任务)。
6. 一个能用的 Agent 套路:套娃式拆任务
如果你现在想用 Agent 干点啥,最有效的套路是让大任务套小 Agent:
主 Agent(拿到模糊任务)
├─ 子 Agent A:负责搜资料
├─ 子 Agent B:负责整理资料
├─ 子 Agent C:负责写初稿
└─ 子 Agent D:负责校对配图
每个子 Agent 任务边界清晰,错误不会无限累积。这种多 Agent 协作模式现在非常火,是 Agent 真正能用起来的关键。
7. 复盘
- Agent vs ChatGPT:能不能动手做事
- 三件套:感知 → 规划 → 行动,循环
- 靠工具调用:浏览器、代码、API
- 现状:简单任务能用,复杂任务还会翻车,错误会累积
- 建议:从可验证的任务入手,别让它无监督花钱
- 能用的工具:Claude Code、Manus、Coze、Dify
下次再有人吹"Agent 元年"——你可以问一句:现在能让它无监督地干完一个 30 步的任务吗?答案是不能。 但有边界、可监督的小 Agent 已经在改变工作流了——这才是普通人值得关注的部分。
延伸阅读:Function Calling 一文看懂 · MCP 协议入门 · Claude Code 上手