RAG召回质量优化：混合检索、重排序、HyDE假设文档嵌入的提升效果

老张大约 10 分钟

RAG召回质量优化：混合检索、重排序、HyDE假设文档嵌入的提升效果

适读人群：Java后端工程师、RAG系统优化者 | 阅读时长：约20分钟 | 依赖：Spring AI 1.0、Cohere Rerank API

开篇故事

在给一家保险公司做理赔知识库的时候，我遇到了一个让我头疼好几天的问题。用户问"骑电动车出了事故，能赔吗"，知识库里有一段明确的条款："投保人骑乘电动自行车发生意外伤害，符合本保险合同约定的，予以赔付。"

但我们的RAG系统就是检索不到这段话。

我去分析了一下原因：用户的口语"骑电动车出了事故"和条款里的书面语"骑乘电动自行车发生意外伤害"，向量相似度只有0.61，比阈值0.65低了一点点，被过滤掉了。

这就是向量检索的一个经典问题：用户的查询和文档的表述风格差异太大时，语义距离偏大，即使内容高度相关也容易被过滤掉。

这个问题我用了三种技术组合来解决：混合检索（用BM25来补充关键词匹配）、重排序（用专门的语义相关性模型对检索结果重新评分）、以及HyDE（让LLM生成一个假设答案文档，用答案的向量去检索，而不是用问题的向量）。三者组合之后，这个保险问答系统的召回率从65%提升到了89%。

一、核心问题分析

召回质量差的原因可以分成两类：

表述差异问题：用户用口语，文档用书面语。"骑车出事"vs"骑乘发生意外"，语义相同但词汇差异大，向量相似度天然偏低。

查询意图与文档内容不对称问题：这是HyDE要解决的深层问题。用户问"天气怎么样"，文档里写的是"今天晴朗，温度25度"——一个是疑问句，一个是陈述句，它们的向量分布在不同区域，即使是同一话题也可能相似度不高。

解决思路分层：

第一层：扩大召回面
  → 混合检索（向量 + BM25），召回40条
第二层：提升质量  
  → 重排序，从40条中选出最相关的5条
第三层：改善查询表示
  → HyDE，把"问句"变成"答案文档"再检索

二、原理深度解析

2.1 三种优化技术对比

2.2 HyDE原理深度解析

HyDE（Hypothetical Document Embeddings，假设文档嵌入）是斯坦福大学2023年提出的方法。

核心洞察：问句和答案的向量分布不同，但答案和相关文档的向量分布很接近。

具体操作：

给LLM一个Zero-shot提示，让它根据查询问题生成一个假设性的答案文档（不需要准确，只需要风格接近）
对假设答案文档做Embedding
用这个向量去检索知识库，而不是用原始问题的向量

直觉理解：用户问"电动车出事故能赔吗"，LLM生成的假设答案可能是"投保人骑乘电动自行车发生意外，符合保险合同约定的可予以赔付……"，这个假设答案和真实条款的向量距离非常近，检索效果自然好。

风险：如果LLM对该领域不熟悉，生成的假设答案可能偏差很大，反而污染检索。建议在专业领域场景做评估后再用。

2.3 Cross-Encoder重排序原理

Bi-Encoder（双编码器，就是普通的Embedding检索）：query和document分别编码，然后计算相似度。速度快，但无法做query-document的深度交互。

Cross-Encoder（交叉编码器）：把query和document拼在一起输入模型，模型直接输出相关性分数。可以深度捕捉query和document的语义交互，精度远高于Bi-Encoder，但只能做重排序（不能预先建索引）。

三、完整代码实现

3.1 HyDE查询增强器

@Service
public class HydeQueryEnhancer {

    private final ChatClient chatClient;

    private static final String HYDE_PROMPT = """
            请根据以下问题，生成一段假设性的回答文档。
            这段文档应该看起来像是能够回答该问题的知识库文档，使用专业的书面语言。
            注意：直接输出文档内容，不要包含"根据您的问题"等引导语。

            问题：{question}

            假设文档：
            """;

    public HydeQueryEnhancer(ChatClient.Builder builder) {
        this.chatClient = builder.build();
    }

    /**
     * 生成假设答案文档
     */
    public String generateHypotheticalDocument(String question) {
        String prompt = HYDE_PROMPT.replace("{question}", question);
        return chatClient.prompt(prompt).call().content();
    }

    /**
     * HyDE向量：对假设文档做Embedding
     */
    public float[] getHydeEmbedding(String question,
                                     UnifiedEmbeddingService embeddingService) {
        String hypotheticalDoc = generateHypotheticalDocument(question);
        return embeddingService.embed(hypotheticalDoc);
    }

    /**
     * 融合原始查询向量和HyDE向量（平均融合）
     */
    public float[] getFusedEmbedding(String question,
                                      UnifiedEmbeddingService embeddingService,
                                      double hydeWeight) {
        float[] originalVec = embeddingService.embed(question);
        float[] hydeVec = getHydeEmbedding(question, embeddingService);

        float[] fused = new float[originalVec.length];
        for (int i = 0; i < originalVec.length; i++) {
            fused[i] = (float) ((1 - hydeWeight) * originalVec[i]
                    + hydeWeight * hydeVec[i]);
        }
        return fused;
    }
}

3.2 重排序服务（集成Cohere Rerank）

@Service
public class RerankService {

    private static final Logger log = LoggerFactory.getLogger(RerankService.class);

    private final RestTemplate restTemplate;

    @Value("${cohere.api-key}")
    private String cohereApiKey;

    private static final String COHERE_RERANK_URL =
            "https://api.cohere.ai/v1/rerank";

    public RerankService(RestTemplate restTemplate) {
        this.restTemplate = restTemplate;
    }

    /**
     * 使用Cohere Rerank对检索结果重排序
     */
    public List<Document> rerank(String query, List<Document> documents, int topN) {
        if (documents.isEmpty()) return documents;

        List<String> docTexts = documents.stream()
                .map(Document::getText)
                .collect(Collectors.toList());

        Map<String, Object> request = new HashMap<>();
        request.put("model", "rerank-multilingual-v3.0"); // 支持中文
        request.put("query", query);
        request.put("documents", docTexts);
        request.put("top_n", topN);
        request.put("return_documents", false); // 只返回排名，不重复传文档

        HttpHeaders headers = new HttpHeaders();
        headers.set("Authorization", "Bearer " + cohereApiKey);
        headers.setContentType(MediaType.APPLICATION_JSON);

        try {
            ResponseEntity<Map> response = restTemplate.exchange(
                    COHERE_RERANK_URL,
                    HttpMethod.POST,
                    new HttpEntity<>(request, headers),
                    Map.class);

            List<Map<String, Object>> results =
                    (List<Map<String, Object>>) response.getBody().get("results");

            return results.stream()
                    .map(r -> {
                        int index = ((Number) r.get("index")).intValue();
                        double score = ((Number) r.get("relevance_score")).doubleValue();
                        Document doc = documents.get(index);
                        // 在元数据中保存重排序分数
                        Map<String, Object> metadata = new HashMap<>(doc.getMetadata());
                        metadata.put("rerank_score", score);
                        return new Document(doc.getId(), doc.getText(), metadata);
                    })
                    .collect(Collectors.toList());
        } catch (Exception e) {
            log.error("Cohere重排序失败，返回原始顺序: {}", e.getMessage());
            return documents.subList(0, Math.min(topN, documents.size()));
        }
    }

    /**
     * 本地重排序（使用BGE-Reranker，无需API费用）
     */
    public List<Document> localRerank(String query,
                                       List<Document> documents,
                                       int topN) {
        // 调用本地BGE-Reranker服务
        List<Map<String, String>> pairs = documents.stream()
                .map(doc -> Map.of("query", query, "passage", doc.getText()))
                .collect(Collectors.toList());

        Map<String, Object> request = Map.of("pairs", pairs);
        ResponseEntity<Map> response = restTemplate.postForEntity(
                "http://localhost:8003/rerank", request, Map.class);

        List<Double> scores = (List<Double>) response.getBody().get("scores");

        List<int[]> indexed = new ArrayList<>();
        for (int i = 0; i < scores.size(); i++) {
            indexed.add(new int[]{i, (int)(scores.get(i) * 10000)});
        }
        indexed.sort((a, b) -> b[1] - a[1]);

        return indexed.stream()
                .limit(topN)
                .map(arr -> documents.get(arr[0]))
                .collect(Collectors.toList());
    }
}

3.3 完整的高级RAG检索管道

@Service
public class AdvancedRagPipeline {

    private static final Logger log = LoggerFactory.getLogger(AdvancedRagPipeline.class);

    private final HybridRetrieverService hybridRetriever;
    private final RerankService rerankService;
    private final HydeQueryEnhancer hydeEnhancer;
    private final UnifiedEmbeddingService embeddingService;
    private final VectorStore vectorStore;
    private final ChatClient chatClient;

    // 配置参数
    @Value("${rag.use-hyde:true}")
    private boolean useHyde;

    @Value("${rag.use-rerank:true}")
    private boolean useRerank;

    @Value("${rag.hyde-weight:0.5}")
    private double hydeWeight;

    @Value("${rag.initial-recall:20}")
    private int initialRecall;

    @Value("${rag.final-topk:5}")
    private int finalTopK;

    public AdvancedRagPipeline(HybridRetrieverService hybridRetriever,
                                RerankService rerankService,
                                HydeQueryEnhancer hydeEnhancer,
                                UnifiedEmbeddingService embeddingService,
                                VectorStore vectorStore,
                                ChatClient.Builder chatClientBuilder) {
        this.hybridRetriever = hybridRetriever;
        this.rerankService = rerankService;
        this.hydeEnhancer = hydeEnhancer;
        this.embeddingService = embeddingService;
        this.vectorStore = vectorStore;
        this.chatClient = chatClientBuilder.build();
    }

    public RagResponse process(String userQuery) {
        long startTime = System.currentTimeMillis();

        // 步骤1：查询增强
        String searchQuery = userQuery;
        float[] searchVector;

        if (useHyde) {
            // 使用融合向量（原始向量 + HyDE向量）
            searchVector = hydeEnhancer.getFusedEmbedding(
                    userQuery, embeddingService, hydeWeight);
            log.debug("HyDE向量增强完成，用时{}ms",
                    System.currentTimeMillis() - startTime);
        } else {
            searchVector = embeddingService.embed(userQuery);
        }

        // 步骤2：混合检索（扩大召回面）
        List<Document> candidates = hybridRetriever.hybridSearch(
                userQuery, initialRecall);

        // 步骤3：向量检索（使用HyDE向量，如果启用）
        if (useHyde && candidates.size() < initialRecall) {
            // 补充HyDE向量检索结果
            List<Document> hydeResults = vectorStoreSearch(searchVector,
                    initialRecall - candidates.size());
            Set<String> existingIds = candidates.stream()
                    .map(Document::getId).collect(Collectors.toSet());
            hydeResults.stream()
                    .filter(d -> !existingIds.contains(d.getId()))
                    .forEach(candidates::add);
        }

        // 步骤4：重排序（精炼结果）
        List<Document> finalDocs;
        if (useRerank && candidates.size() > finalTopK) {
            finalDocs = rerankService.rerank(userQuery, candidates, finalTopK);
        } else {
            finalDocs = candidates.subList(0, Math.min(finalTopK, candidates.size()));
        }

        // 步骤5：生成答案
        String context = finalDocs.stream()
                .map(Document::getText)
                .collect(Collectors.joining("\n\n---\n\n"));

        String answer = generateAnswer(userQuery, context);
        long totalTime = System.currentTimeMillis() - startTime;

        return new RagResponse(answer, finalDocs, totalTime);
    }

    private List<Document> vectorStoreSearch(float[] vector, int topK) {
        // 使用自定义向量检索（绕过Spring AI只支持文本查询的限制）
        // 具体实现依赖向量库
        SearchRequest request = SearchRequest.builder()
                .query(vectorToString(vector))
                .topK(topK)
                .build();
        return vectorStore.similaritySearch(request);
    }

    private String generateAnswer(String query, String context) {
        String prompt = String.format("""
                你是一个专业的知识问答助手，请根据以下参考资料回答问题。
                
                参考资料：
                %s
                
                问题：%s
                
                请给出准确、简洁的回答：
                """, context, query);

        return chatClient.prompt(prompt).call().content();
    }

    private String vectorToString(float[] vec) {
        StringBuilder sb = new StringBuilder("[");
        for (int i = 0; i < vec.length; i++) {
            if (i > 0) sb.append(",");
            sb.append(vec[i]);
        }
        return sb.append("]").toString();
    }

    @Data
    @AllArgsConstructor
    public static class RagResponse {
        private String answer;
        private List<Document> sourceDocuments;
        private long processingTimeMs;
    }
}

3.4 各技术组合的A/B测试框架

@Service
public class RagAbTestService {

    private final Map<String, AdvancedRagPipeline> variants;

    /**
     * 运行A/B测试
     */
    public AbTestResult runTest(List<TestCase> testCases) {
        Map<String, Double> variantRecalls = new HashMap<>();

        for (Map.Entry<String, AdvancedRagPipeline> entry : variants.entrySet()) {
            String variantName = entry.getKey();
            AdvancedRagPipeline pipeline = entry.getValue();

            int hit = 0;
            for (TestCase tc : testCases) {
                RagResponse resp = pipeline.process(tc.getQuery());
                boolean correct = resp.getSourceDocuments().stream()
                        .anyMatch(d -> d.getText().contains(tc.getExpectedText()));
                if (correct) hit++;
            }

            double recall = (double) hit / testCases.size();
            variantRecalls.put(variantName, recall);
            log.info("变体[{}] Recall@{}: {:.4f}", variantName,
                     pipeline.getFinalTopK(), recall);
        }

        return new AbTestResult(variantRecalls);
    }
}

四、效果评估与优化

在保险理赔知识库上（500条测试集），各技术组合的效果：

优化方案	Recall@5	MRR	平均延迟	额外成本
基础向量检索	65.2%	0.531	180ms	-
+ 混合检索(RRF)	74.8%	0.623	310ms	Lucene存储成本
+ 重排序(Cohere)	81.3%	0.712	820ms	约￥0.002/次
+ HyDE	83.6%	0.738	1250ms	LLM调用费用
混合检索+重排序+HyDE	89.1%	0.791	1580ms	综合最高
混合检索+本地重排序	85.4%	0.751	680ms	GPU部署成本

最优组合是全开，但延迟1580ms对于聊天场景略长。实际部署时我选择了"混合检索+本地重排序"方案，延迟680ms，召回率85.4%，性价比最高。HyDE只在离线批处理场景使用（比如定期重新索引知识库时用HyDE生成更丰富的假设文档作为辅助索引）。

五、踩坑实录

坑1：HyDE对LLM的依赖使得效果不稳定

HyDE的质量完全取决于LLM生成的假设文档质量。我用GPT-4-turbo测试效果很好，换成GPT-3.5-turbo之后，生成的假设文档经常跑偏，有时候生成的是反面案例（"以下情形不赔……"），导致向量检索方向全错，召回率反而比不用HyDE更低。解决方案是加一个假设文档质量过滤：用关键词检查假设文档是否和问题相关，不相关的直接丢弃，回退到原始向量检索。

坑2：重排序模型对长文档表现下降

Cohere Rerank的rerank-multilingual-v3.0模型有输入长度限制。当document超过512个token时，超出部分会被截断。我的一些chunk是800字，超过了限制。重排序分数偏低，因为关键信息可能在被截断的后半段。解决方案：重排序时用一个截短版本（前512字），但实际返回给LLM的还是完整的chunk。

坑3：混合检索的RRF权重不平衡

早期我没有对向量检索和BM25检索的结果质量进行评估就直接用了标准RRF（两路权重各50%）。后来发现我们的场景里向量检索明显优于BM25，但RRF给两路一样的权重，反而被BM25拉低了。后来改成了加权RRF——向量检索贡献系数1.5，BM25贡献系数0.8，召回率提升了约3个点。不同业务场景权重要单独调。

六、总结

RAG召回优化是一个系统工程，混合检索、重排序、HyDE三种技术各有其适用场景和代价：

混合检索是基础，几乎所有场景都应该上，成本低，召回率提升明显。重排序是精化层，对于精度要求高的问答场景很有价值，Cohere的多语言模型中文效果不错，BGE-Reranker是更经济的本地方案。HyDE适合口语化查询和专业文档的语言鸿沟明显的场景，但对基础LLM的质量有要求，建议先测评再上生产。

实际落地建议：先做混合检索，效果通常已经够用；如果还不满足，再叠加本地重排序；HyDE留到特定问题场景，不要无脑全开。