RAG 的未来——2025 下半年我的技术判断

老张2026/4/30大约 9 分钟

RAG 的未来——2025 下半年我的技术判断

适读人群：AI 应用开发者、后端工程师 | 阅读时长：约12分钟 | 核心价值：对 RAG 技术走向给出有明确立场的判断，欢迎一年后来对账

上个月我帮一个创业团队做技术评审，他们在纠结一件事：要不要把现有的向量检索 RAG 系统迁移到 Graph RAG。理由是看到一篇文章说 Graph RAG 效果好很多，团队 CTO 看完很兴奋，准备排期重构。

我看了他们的系统——客服问答场景，知识库是产品手册和 FAQ，总计大概 8 万字。

我直接说：别动，现在改是在浪费钱。

这不是随口说的。两年做 RAG 相关的项目，踩过向量检索的坑，评估过 Graph RAG 的方案，也真实用过长上下文模型来绕过 RAG 的路子。今天就把我对 2025 下半年 RAG 技术走向的判断写出来，有理有据，欢迎来打脸。

Graph RAG：技术上优秀，工程上还没到时候

先说结论：Graph RAG 在特定场景下效果显著优于传统向量 RAG，但 2025 下半年不会大范围普及，工程复杂度是主要障碍。

Graph RAG 的核心思路是把知识库里的实体关系抽取出来，构建知识图谱，检索时不是找相似段落，而是沿着关系路径遍历相关知识。微软研究院 2024 年发的那篇论文给的数据很好看，在需要多跳推理的问题上，Graph RAG 比向量 RAG 答案质量高 20-40%。

这个数字是真的，我不否认。但有几个工程现实我要点出来：

知识图谱的构建成本被严重低估。 实体抽取、关系抽取、图谱更新——这一套流程要做好，至少需要专门的数据工程投入。我见过一个团队搞了三个月，图谱质量还是很差，原因是他们的领域文档本身写得很不规范，实体边界模糊，LLM 抽取出来的关系乱七八糟。向量检索的容错性更强，文档质量差一点也能凑合跑。

更新维护是真正的难题。 向量库更新很简单，改了文档，重新 embedding，覆盖掉旧的向量。图谱不一样，一个节点的变更可能影响一堆边的有效性，怎么做增量更新而不破坏图结构，这个问题目前工程界还没有特别成熟的答案。

适用场景比宣传的更窄。 Graph RAG 真正发挥优势的场景是：知识库中存在大量显式的实体关系、问题需要多跳推理、实体之间的关联是核心答案。典型的例子：医药知识库（药物-疾病-副作用的关系网络）、法律条款引用关系、金融监管规定之间的相互依赖。

普通的企业知识库——产品文档、内部规范、客服 FAQ——用 Graph RAG 是杀鸡用牛刀，而且这把牛刀目前还需要专人磨。

我的判断：Graph RAG 2025 年下半年会继续在垂直领域（医药、法律、金融合规）有专项落地，但不会替代向量 RAG 成为主流架构。主流工程师不需要现在押注，可以保持关注。

长上下文模型会替代 RAG 吗？我的答案是：部分替代，有边界

这个问题过去一年被问烂了。Claude 3 支持 200K token，Gemini 1.5 Pro 支持 1M token，很多人开始问：直接把整个知识库塞进去不就行了，还要 RAG 干什么？

我当时也测试过这个路子。结论是：能用，但没法完全替代，而且成本账要算清楚。

先说能用的场景：知识库总量在 100 万字以内（约 130 万 token 以内），查询频率不高，对延迟不敏感，能承担相应的 token 成本。这种场景下，把全量知识直接喂给模型，效果往往比 RAG 更好，因为省去了检索可能遗漏关键信息的问题，模型可以在全局上下文中推理。

但有几个问题长上下文解决不了：

成本。 每次对话都带着完整知识库，token 费用是固定成本，不是边际成本。一个有 500 万字知识库的企业，每次查询就得烧掉相当数量的 token。RAG 检索后只放入相关片段，成本差一到两个数量级。

"迷失在中间"问题（Lost in the Middle）。 学术界已经有很多论文验证这个现象：LLM 对超长上下文的注意力分布不均匀，对头部和尾部内容的记忆更好，中间部分容易被忽略。这个问题没有被完全解决，只是在某些模型上有所改善。

知识更新成本。 知识库更新后，要么重新构建新的上下文，要么每次都带上最新的全量知识。RAG 系统只需要更新对应文档的向量，其余不变。

实时性问题。 RAG 可以接入实时数据源（数据库、API 调用），长上下文模型的知识是静态的。

我的判断：2025 年下半年，长上下文会在"小知识库、低频查询、高质量要求"的场景抢走一部分 RAG 的份额，但不会颠覆 RAG 的主体地位。RAG 会进化，不会消亡。

具体来说，我预计会看到更多 RAG + 长上下文的混合架构：先用 RAG 检索出候选文档集（几十个文档），再把这批文档放入长上下文窗口让模型做精细推理，取两者的优点。

多模态 RAG：技术成熟度判断

这个方向我最近花时间看了不少，说实话，目前的成熟度比我预期的要低。

多模态 RAG 解决的问题是：知识库里不只有文本，还有图表、流程图、产品截图、表格。怎么让 RAG 系统也能理解和检索这些非文本内容。

目前主流有两条路：

路线一：图文转文本。 用多模态 LLM（GPT-4V、Claude 3 Vision）把图片转成文字描述，再对描述做向量检索。简单粗暴，工程上好落地。缺点是信息损失大，图表中的精确数字、坐标关系、空间布局往往在转成文字后失真。

路线二：多模态向量。 用 CLIP 类的模型直接对图片和文字生成对齐的向量表示，在同一个向量空间里做检索。理论上更优雅，但实际工程中有个大问题：图文向量的对齐质量在专业领域（工业图纸、医学影像、财务报表）很差，通用 CLIP 模型根本理解不了这些专业图像。

我自己做过一个测试，用 CLIP 检索工程 PDF 里的流程图，准确率很让人沮丧。

目前相对跑得通的多模态 RAG 场景：产品图片描述（电商场景）、PPT/报告中的图表（配合 LLM 生成描述后再检索）。

我的判断：多模态 RAG 2025 年下半年仍处于"能 Demo、难生产"的阶段。电商图片检索是相对成熟的方向，其他场景建议谨慎排期，先做 PoC 验证效果再决定投入。

向量检索本身的演进：几个真实有用的方向

说完三个大方向，再说说向量 RAG 自身的优化——这些是我在项目里真实用到过、效果有保障的。

混合检索（Hybrid Search）已经是标配了。 纯向量检索有个经典问题：对精确词汇匹配很弱。比如用户问"报错 NullPointerException 怎么解决"，向量检索可能给你返回一堆语义上"差不多"的内容，但就是没有包含"NullPointerException"这个精确词的文档。BM25 稀疏检索在精确词匹配上更强。把两种检索结果用 RRF（Reciprocal Rank Fusion）融合，稳定性会明显好于单一方案。这个现在基本是中等以上复杂度项目的标配了。

Reranker 不是可选项，是必选项。 向量检索 Top-K 结果的质量不稳定，Reranker（cross-encoder 结构的精排模型）对候选结果做二次排序，能把最相关的结果拉到前面。BGE-Reranker、Cohere Rerank 都是工程上能用的。代价是延迟增加，通常在 200-500ms 范围，多数业务场景可以接受。

文档分块策略严重被低估。 我见过太多项目把分块当成一个参数设置，定个 chunk_size=500 就完事了。实际上分块策略对 RAG 质量的影响能有 30% 以上。语义分块（按段落和主题边界切，而不是按固定字数切）在大多数场景下比固定大小分块好。如果文档有清晰的结构（标题层级），按结构分块往往最好。

Query 改写和扩展是性价比很高的优化点。 用户输入的问题往往很短、很模糊。在检索前用 LLM 把查询扩展成更完整的表述，或者从不同角度生成多个查询变体（HyDE，Hypothetical Document Embeddings），检索召回率能有明显提升。这个实现成本低，效果稳定，强烈推荐。

我的总体判断：RAG 2025 下半年的走向

把上面的分析收一下，我的具体判断如下：

向量 RAG 不会被替代，会持续演进。混合检索 + Reranker + 语义分块的组合，是 2025 年下半年的工程主流。

Graph RAG 继续在垂直领域深耕，进不了大众视野。我预计 2026 年会有一两个成熟的 Graph RAG 平台出现，降低构建门槛，届时才值得普通团队认真评估。

长上下文和 RAG 的关系是互补而非竞争。混合架构（RAG 粗召回 + 长上下文精推理）会成为高质量 AI 应用的标配架构。

多模态 RAG 最快也要 2026 年才有相对成熟的工程方案，现在入场踩坑的成本很高，除非你的场景非常明确，否则不建议大力押注。

回到开头那个创业团队——我的建议是，先把现有向量 RAG 的混合检索和 Reranker 做好，查询质量提升 20% 轻松达到，比搞 Graph RAG 重构实际得多。他们最后采纳了这个建议，三周上线了改进版，效果确实不错。

技术判断这件事，不怕说错，怕的是没有立场。一年后来对账，我会把结果写出来。