AI面包君AI面包君关注
回到博客
AI 概念

Agent 到底是个啥?和 ChatGPT 有什么不一样

ChatGPT 是回答机器,Agent 是执行机器。一篇讲清 Agent 三件套(感知-规划-行动)、它现在能干什么、还干不了什么。

2026-04-2810 分钟

最近你肯定在到处听到"AI Agent"。Devin、Manus、AutoGPT、Claude Computer Use……每个产品都说自己是"下一代 Agent"。

但你问 10 个人 Agent 是啥,会得到 10 个不同答案。今天彻底讲清楚:Agent 到底跟 ChatGPT 有啥本质区别,它现在能干什么、不能干什么,普通人怎么用上

1. 一句话区别:ChatGPT 是回答机器,Agent 是执行机器

ChatGPT 干的事:你问,它答。它的输出永远是文字

你:帮我订一张明天去上海的机票 ChatGPT:好的,建议你去携程或 12306 搜索"明天,上海",选合适航班,填写身份证信息,付款……

Agent 干的事:你说要什么,它自己干

你:帮我订一张明天去上海的机票 Agent:(打开浏览器 → 进入携程 → 搜索 → 比价 → 选航班 → 用你的账号付款 → 把订单发到你邮箱)✓ 已订完,订单号 X12345。

核心差别:能不能动手。ChatGPT 给攻略,Agent 给结果。

2. Agent 三件套:感知 + 规划 + 行动

任何一个 Agent,不管多花哨,都是这三件套循环:

       感知                规划                行动
   ┌──────────┐       ┌──────────┐       ┌──────────┐
   │ 我现在    │       │ 下一步该  │       │ 执行下一步 │
   │ 看到啥?  │  ───→ │ 干什么?  │  ───→ │ 操作       │
   └──────────┘       └──────────┘       └──────────┘
        ▲                                        │
        └────────────────────────────────────────┘
                   循环,直到任务完成

具体到订机票这个例子:

轮次感知规划行动
1用户说要订明天去上海的机票先打开携程点击携程链接
2看到搜索框输入"上海,明天"填写表单,点搜索
3看到 30 个航班选最便宜的非红眼点击 11:00 那班
4看到付款页面用绑定的信用卡点支付
5看到订单成功页任务完成,回报用户截图 + 邮件通知

你看,每一步它都要做三件事:看现状 → 决定下一步 → 真的执行。一直循环,直到目标达成。

3. Agent 怎么"动手"?—— 工具调用

Agent 不是真的有手。它是通过调用工具 (tools) 来执行动作。

工具可以是:

  • 浏览器:打开网页、点击、填表
  • 代码执行环境:跑 Python 脚本
  • 文件系统:读写文件
  • API:发邮件、查天气、订外卖
  • 命令行:运行 git、pip、curl

每个工具背后都是一段代码。Agent 输出"我要点这个按钮",背后的工程系统真的去点了那个按钮,然后把页面截图喂回 Agent,让它继续判断下一步。

这套机制底层用的就是 Function Calling(让 AI 选择调用哪个工具)+ MCP(工具的标准接口)。这俩是 Agent 时代的两大基础设施。

4. 现在的 Agent 真的好用吗?—— 半真半假

好的一面

简单明确的任务:批量处理 100 张图、把一份英文 PDF 翻译成中文、按格式整理一堆数据。Agent 完成度 80%+。

有清晰边界的"沙盒"任务:在 Linux 终端里跑代码、查数据、写脚本。Devin、Claude Code 这类编程 Agent 在自己擅长的领域接近能用。

重复性流程:批量发邮件、批量爬数据、批量回复消息。

糟的一面

多步任务越长越容易翻车。第 1 步对了不代表第 10 步对——错误会累积。一个 20 步的任务,每步 95% 准确率,最后只有 36% 完成率(0.95²⁰ ≈ 0.36)。

看不懂细节。Agent 看网页是看截图 + HTML,遇到一个奇怪的弹窗、一个验证码,就傻了。

"看起来对,其实错了"。这是最危险的——Agent 信心满满地报告"任务完成",结果你打开一看:发到了错的人、买错了型号、改了不该改的文件。

要钱。一个复杂任务跑下来,Agent 内部可能调用上百次大模型,单次任务成本 $1–$10 是常态

现实建议: 把 Agent 用在可验证、可回滚的任务上。比如让它写代码(你可以 review)、整理文档(你可以校对)、批量处理(你可以抽查)。 千万别让它无监督地花钱、发邮件、改生产环境的东西

5. 普通人现在能用上的 Agent

不要等"通用 AGI",已经有一批好用的 Agent 工具

工具用处难度
Claude Code编程 Agent,能在你的电脑里读改代码程序员友好
CursorIDE 内置编程 Agent程序员友好
Manus通用任务 Agent,能上网、写代码、做报告普通人友好
Devin自主编程 Agent,能拿到一个 GitHub issue 自己提 PR程序员
扣子 (Coze) Agent对话型 Agent,可发布到微信、飞书拖拽搭建,普通人能上手
Dify Agent可视化搭建 Agent + 工作流拖拽搭建,普通人能上手
Computer Use (Claude)Claude 直接操控你的电脑(有截屏权限)半实验,玩玩可以

普通人最容易上手的:扣子、Dify。最有想象力的:Claude Code(如果你会一点代码)、Manus(通用任务)。

6. 一个能用的 Agent 套路:套娃式拆任务

如果你现在想用 Agent 干点啥,最有效的套路是让大任务套小 Agent

主 Agent(拿到模糊任务)
   ├─ 子 Agent A:负责搜资料
   ├─ 子 Agent B:负责整理资料
   ├─ 子 Agent C:负责写初稿
   └─ 子 Agent D:负责校对配图

每个子 Agent 任务边界清晰,错误不会无限累积。这种多 Agent 协作模式现在非常火,是 Agent 真正能用起来的关键。

7. 复盘

  • Agent vs ChatGPT:能不能动手做事
  • 三件套:感知 → 规划 → 行动,循环
  • 靠工具调用:浏览器、代码、API
  • 现状:简单任务能用,复杂任务还会翻车,错误会累积
  • 建议:从可验证的任务入手,别让它无监督花钱
  • 能用的工具:Claude Code、Manus、Coze、Dify

下次再有人吹"Agent 元年"——你可以问一句:现在能让它无监督地干完一个 30 步的任务吗?答案是不能。有边界、可监督的小 Agent 已经在改变工作流了——这才是普通人值得关注的部分。

延伸阅读:Function Calling 一文看懂 · MCP 协议入门 · Claude Code 上手