RAG 入门:让 AI 用上你的私人资料
大模型不知道你公司内部的资料,怎么办?答案不是去微调一个新模型,而是 RAG——先去找资料,再回答。一篇看懂这个 AI 应用最常用的架构。
你公司的所有合同、流程文档、产品说明书加起来几千份。能不能让 AI 当个"全知客服",新员工有问题随便问?
直觉答案:让 AI 学一遍这些资料。但这个想法 90% 错了。
正确的做法叫 RAG(Retrieval Augmented Generation,检索增强生成)。它是 2025 年企业 AI 应用最常用的架构。读完这篇你能搞懂:什么是 RAG、为什么不直接微调模型、普通人能在哪儿用上。
1. 大模型有个硬伤:它不知道你公司的事
大模型的知识来自训练数据。训练数据切断在某个时间点(比如 GPT-4o 是 2024 年某月),且只包括公开数据——书、论文、网页、维基百科。
它不知道:
- 你公司去年的销售数据
- 你产品的最新规格
- 你刚签的合同
- 你的私人笔记
直接问"我们公司的退货流程是什么",AI 只能凭空编(幻觉)。
2. 直觉答案:让 AI 学一下不就好了?—— 微调
你的第一直觉可能是:把这几千份文档喂给 AI,让它"学"一下。
这叫微调 (fine-tuning)。听起来对,实际上 90% 的场景都是错的。原因:
| 问题 | 微调的痛点 |
|---|---|
| 资料更新 | 文档每周都在改,每次都要重新训练?太贵 |
| 训练成本 | 微调一次几百到几千刀 |
| 训练效果 | 微调让模型"风格变了",但"事实"还是会幻觉 |
| 没法溯源 | 模型回答了,但你不知道它依据的是哪份文档 |
| 数据泄露 | 微调过的模型把你私料"记"进了参数,难删除 |
一句话总结:微调适合教 AI 风格(比如让它说话像鲁迅),不适合教 AI 事实(比如让它知道公司退货流程)。
3. RAG:换个思路,先查再答
既然不能让 AI "学会",那就让 AI 每次回答前,先去查相关资料。
用户问:我们公司退货流程是什么?
[ 第 1 步 检索 ]
系统在公司文档库里搜 "退货流程" → 找到 3 段相关内容
[ 第 2 步 增强 ]
把这 3 段内容塞到 prompt 里,连同用户问题一起喂给 AI:
「下面是公司文档:
《退货政策 v3》:客户购买 7 天内...
《售后流程图》:步骤一是...
《财务对账规则》:退款打回原账户...
用户问:我们公司退货流程是什么?请基于上面文档回答。」
[ 第 3 步 生成 ]
AI 根据文档生成答案(并附上引用来源)
关键变化:AI 不需要"记住" 公司文档。它每次都临时查,查完就忘。
类比:
- 微调 = 把整本《辞海》背下来
- RAG = 答题时手边放着《辞海》,需要时翻
显然后者更聪明。
4. 中间那一步"检索"是怎么干的?
最关键的工程问题:你公司有几千份文档,怎么快速找出和用户问题相关的那 3 段?
这就用到了 向量数据库 (vector database):
预处理阶段(一次性做完):
- 切分:把每份文档切成 200–500 字的小段
- 向量化:每个小段经过一个"嵌入模型",变成一个高维向量(一组 1500 个数字,代表语义)
- 入库:所有向量存进向量数据库
查询阶段(每次用户提问):
- 把用户问题也向量化
- 在向量数据库里找最相似的几段(向量距离最近)
- 把这几段拿出来,喂给 AI
直觉:向量化 = 把文字变成"语义坐标"。意思相近的两段文字,向量距离也近。这样"退货流程"能匹配到"售后办法",即使字面不一样。
5. RAG 的 4 大优势
为什么 2024-2025 年所有企业 AI 应用都在用 RAG:
✅ 资料更新快:换一份文档,重新切分入库即可,几分钟搞定(vs 微调几小时到几天)
✅ 能溯源:每次回答都能附上"我依据的是哪份文档第几段"——出错时能查、合规时能审计
✅ 抗幻觉:AI 直接看着原文回答,编造空间小很多
✅ 省钱:用通用大模型 + 你的检索系统,比专门微调便宜 10 倍以上
6. RAG 的坑(也得讲清楚)
不要被吹爆了——RAG 也有问题:
❌ 检索没找到,AI 就瞎答。如果用户问"售后规则",但你的向量库里只匹配到了"退货流程"(缺"售后规则"这种说法),检索就漏了。
❌ 切片太短/太长都不行。太短上下文丢失,太长一段塞不进 prompt。需要调。
❌ 跨文档推理弱。"对比 A 和 B 两个产品的差异" 这种问题,RAG 容易跑偏——它只会找单段相似的,不会跨文档综合。
❌ 依赖嵌入模型的质量。中文场景下,开源嵌入模型常常不如英文 OpenAI 的好用。
解决方向(2025 年热点):
- 混合检索 = 向量检索 + 关键词检索 + 重排序,召回率显著提升
- GraphRAG = 在文档之间建知识图谱,能做跨文档推理
- Agentic RAG = 让 Agent 决定"先查 A 再查 B 再综合",而不是一次性检索
7. 普通人能用 RAG 干啥
不写代码也能玩 RAG:
| 场景 | 工具 |
|---|---|
| 把 10 份 PDF 论文丢进去,一边读一边问 | NotebookLM(Google 出的,免费,超好用) |
| 给团队搭一个内部知识库 + 问答 | Dify / Coze 配置一下知识库节点 |
| 让 ChatGPT 基于自己的资料答 | GPTs 上传文件,背后就是 RAG |
| 让 Claude 看一堆代码再答问题 | Claude Project 拖几十个文件进去 |
| 自己写一个 RAG | LlamaIndex / LangChain + 向量数据库(程序员) |
最值得试的:NotebookLM。完全免费,把你想"对话"的所有资料拖进去——论文、笔记、会议纪要、合同——然后随便问。它甚至能基于这些资料生成一段双人播客(认真的,听过的人都说有点上头)。
8. 三句话复盘
- 微调适合教 AI 风格,RAG 适合教 AI 事实
- RAG = 检索(找相关段)+ 增强(塞进 prompt)+ 生成(让 AI 回答)
- 几乎所有企业级 AI 应用底层都是 RAG——客服、知识库、内部助手全都是
下次你听到"AI 知识库"、"AI 客服"、"基于私域数据的 AI"——99% 在做 RAG。 它不是新技术(2020 年就有了),但是是这两年最实用的 AI 应用架构。
延伸阅读:Agent 到底是个啥 · Function Calling 一文看懂 · Dify 上手