HyDE技术详解：用假设答案提升RAG检索精度30%

老张2026/5/14大约 18 分钟AI工程实践HyDERAG检索优化Spring AIJava假设文档

HyDE技术详解：用假设答案提升RAG检索精度30%

"为什么检索出来的全是监控文章？"

林涛是一家互联网公司的后端架构师，他的团队在2025年底上线了一套内部技术文档问答系统。知识库里有约8000篇技术文章，涵盖Java调优、微服务架构、DevOps实践等方向。

有一天，他的同事小张在测试时问了一个问题：

"我们Java应用最近GC频繁，内存使用率一直在80%以上，该怎么优化？"

RAG系统返回了top-5的检索结果：

《Java应用内存监控实践：Prometheus + Grafana搭建全链路监控》
《JVM内存指标解读：Heap、Non-Heap、GC监控指标含义》
《K8s容器内存限制设置与监控告警配置》
《内存使用率告警规则配置指南》
《Java应用健康检查与监控大盘设计》

全是监控文章。

但小张要的是优化方案——比如如何调整GC参数、如何排查内存泄漏、如何优化对象分配等。这些内容在知识库里都有，但RAG没有检索到。

原因是什么？

用户的查询是关于"问题现象"的描述，而知识库里存储的是"解决方案"。两者在向量空间中的距离比想象中要远——描述问题的向量和描述解决方案的向量，根本不在一个语义邻域里。

这就是HyDE（Hypothetical Document Embeddings）要解决的核心问题。

林涛在研究了HyDE论文之后，花了3天实现并上线，检索准确率从67%提升到了89%，提升了22个百分点。

先说结论（TL;DR）

方案	召回率（Recall@5）	精确率（Precision@5）	延迟增加	成本增加
普通RAG	71%	68%	基准	基准
HyDE	89%	87%	+1-2s	+$0.001/次
多假设HyDE	93%	91%	+3-5s	+$0.003/次
HyDE + Query Expansion	94%	88%	+2-3s	+$0.002/次

核心结论：

HyDE对"问题描述型"查询效果显著（提升20%+）
HyDE对"精确查找型"查询效果一般（提升5%左右）
每次多一次LLM调用，延迟增加1-2秒，成本可忽略
法律、医疗、技术文档场景效果最好

为什么查询向量和答案向量会"相距很远"？

这是理解HyDE的关键。

想象一下向量空间是一个巨大的多维球体，语义相近的文本聚集在一起。

用户的查询"GC频繁，内存使用率80%，怎么优化？"，用的是描述问题现象的语言。而知识库里的优化方案文章，用的是描述解决方法的语言。这两种语言风格在向量空间中天然存在距离。

相比之下，"假设答案"（即LLM基于查询生成的一个回答草稿）用的就是解决方案的语言，它在向量空间中和真实的解决方案文档天然更近。

HyDE原理：以子之矛，攻子之盾

HyDE（Hypothetical Document Embeddings）由斯坦福大学研究者在2022年提出，核心思路非常优雅：

不直接用查询向量检索，而是：

让LLM基于查询生成一个"假设答案"（hypothetical document）
对假设答案进行向量化
用假设答案的向量去检索

为什么叫"假设"答案？因为这个答案可能是错的——LLM可能没有足够的知识给出正确答案。但这不重要，重要的是这个假设答案的语言风格和语义空间与真实答案文档是一致的。

用假设答案的向量去检索，就像是"用答案语言的嗅觉去寻找答案"，而不是"用问题语言的嗅觉去寻找答案"。

Spring AI中的HyDE完整实现

application.yml

spring:
  application:
    name: rag-hyde-demo
  
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      chat:
        options:
          model: gpt-4o-mini        # 生成假设答案用便宜的模型
          temperature: 0.7          # 稍高温度，让假设答案更发散
          max-tokens: 512           # 假设答案不需要太长
      embedding:
        options:
          model: text-embedding-3-small

milvus:
  host: ${MILVUS_HOST:localhost}
  port: 19530
  collection-name: tech_docs

hyde:
  enabled: true
  # 假设答案的生成提示词
  hypothesis-prompt: |
    请基于以下问题，生成一个简洁的答案草稿。
    注意：这个答案草稿用于辅助检索，不一定是最终答案，
    重点是用"答案的语言"来描述，而不是重复问题。
    
    问题：{question}
    
    答案草稿（200字以内，直接给出解决思路和关键点）：
  
  # 多假设模式配置
  multi-hypothesis:
    enabled: false
    count: 3                        # 生成3个假设答案

HyDE核心服务

package com.laozhang.rag.hyde;

import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.chat.ChatClient;
import org.springframework.ai.chat.prompt.Prompt;
import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.EmbeddingClient;
import org.springframework.ai.vectorstore.SearchRequest;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.stream.Collectors;

/**
 * HyDE（Hypothetical Document Embeddings）检索服务
 *
 * 核心思路：
 * 1. 让LLM基于用户查询生成一个假设答案
 * 2. 对假设答案向量化，用于检索
 * 3. 检索到真实文档后，用LLM结合真实文档生成最终答案
 *
 * 适用场景：
 * - 用户描述的是"问题现象"，知识库存储的是"解决方案"
 * - 用户使用的是通俗语言，知识库使用的是专业术语
 * - 问答场景（而非精确匹配场景）
 */
@Slf4j
@Service
public class HydeRetrievalService {

    private final ChatClient hypothesisChatClient;
    private final ChatClient answerChatClient;
    private final EmbeddingClient embeddingClient;
    private final VectorStore vectorStore;
    
    @Value("${hyde.enabled:true}")
    private boolean hydeEnabled;
    
    @Value("${hyde.hypothesis-prompt}")
    private String hypothesisPromptTemplate;

    public HydeRetrievalService(
            ChatClient hypothesisChatClient,
            ChatClient answerChatClient,
            EmbeddingClient embeddingClient,
            VectorStore vectorStore) {
        this.hypothesisChatClient = hypothesisChatClient;
        this.answerChatClient = answerChatClient;
        this.embeddingClient = embeddingClient;
        this.vectorStore = vectorStore;
    }

    /**
     * 使用HyDE进行检索问答
     */
    public HydeAnswer query(String userQuestion, int topK) {
        long startTime = System.currentTimeMillis();
        
        if (!hydeEnabled) {
            // HyDE关闭时，回退到普通RAG
            return fallbackToNormalRag(userQuestion, topK);
        }
        
        // Step 1: 生成假设答案
        String hypotheticalAnswer = generateHypotheticalAnswer(userQuestion);
        log.debug("Generated hypothetical answer: {}", 
                 hypotheticalAnswer.substring(0, Math.min(100, hypotheticalAnswer.length())));
        
        long hypothesisTime = System.currentTimeMillis() - startTime;
        
        // Step 2: 对假设答案进行向量化
        List<Double> hypothesisVector = embeddingClient.embed(hypotheticalAnswer);
        
        // Step 3: 用假设答案的向量检索真实文档
        List<Document> retrievedDocs = vectorStore.similaritySearch(
            SearchRequest.query(hypotheticalAnswer)  // Spring AI会自动向量化这段文本
                .withTopK(topK)
                .withSimilarityThreshold(0.65)
        );
        
        long retrievalTime = System.currentTimeMillis() - startTime - hypothesisTime;
        
        if (retrievedDocs.isEmpty()) {
            log.warn("No documents retrieved for query: {}", userQuestion);
            return HydeAnswer.builder()
                .answer("抱歉，知识库中没有找到相关内容。")
                .hypotheticalAnswer(hypotheticalAnswer)
                .retrievedDocs(List.of())
                .build();
        }
        
        // Step 4: 基于真实文档生成最终答案
        String finalAnswer = generateFinalAnswer(userQuestion, retrievedDocs);
        
        long totalTime = System.currentTimeMillis() - startTime;
        
        return HydeAnswer.builder()
            .answer(finalAnswer)
            .hypotheticalAnswer(hypotheticalAnswer)
            .retrievedDocs(retrievedDocs)
            .sources(extractSources(retrievedDocs))
            .hypothesisTimeMs(hypothesisTime)
            .retrievalTimeMs(retrievalTime)
            .totalTimeMs(totalTime)
            .build();
    }

    /**
     * 生成假设答案
     *
     * 注意：这个答案不需要准确，只需要在语义空间中接近真实答案
     * 使用较便宜的模型（gpt-4o-mini）降低成本
     */
    private String generateHypotheticalAnswer(String question) {
        String prompt = hypothesisPromptTemplate.replace("{question}", question);
        
        try {
            return hypothesisChatClient.call(prompt).trim();
        } catch (Exception e) {
            log.error("Failed to generate hypothetical answer: {}", e.getMessage());
            // 降级：直接用原始问题
            return question;
        }
    }

    /**
     * 基于检索到的真实文档生成最终答案
     */
    private String generateFinalAnswer(String question, List<Document> documents) {
        String context = documents.stream()
            .map(doc -> "【参考文档】\n" + 
                       (doc.getMetadata().containsKey("title") ? 
                        "标题：" + doc.getMetadata().get("title") + "\n" : "") +
                       doc.getContent())
            .collect(Collectors.joining("\n\n---\n\n"));
        
        String answerPrompt = """
            请基于以下参考文档，准确回答用户的问题。
            
            要求：
            1. 答案必须基于参考文档，不要添加文档中没有的信息
            2. 如果参考文档中有具体的步骤或代码，请完整保留
            3. 如果多个文档有不同的说法，以最新的或最权威的为准
            4. 答案要结构清晰，适当使用列表和标题
            
            参考文档：
            """ + context + """
            
            用户问题：""" + question + """
            
            答案：
            """;
        
        return answerChatClient.call(answerPrompt);
    }
    
    private HydeAnswer fallbackToNormalRag(String question, int topK) {
        List<Document> docs = vectorStore.similaritySearch(
            SearchRequest.query(question).withTopK(topK)
        );
        String answer = generateFinalAnswer(question, docs);
        return HydeAnswer.builder()
            .answer(answer)
            .retrievedDocs(docs)
            .sources(extractSources(docs))
            .build();
    }
    
    private List<String> extractSources(List<Document> docs) {
        return docs.stream()
            .map(d -> (String) d.getMetadata().getOrDefault("title", d.getId()))
            .distinct()
            .collect(Collectors.toList());
    }
}

HyDE答案对象

package com.laozhang.rag.hyde;

import lombok.Builder;
import lombok.Data;
import org.springframework.ai.document.Document;

import java.util.List;

@Data
@Builder
public class HydeAnswer {
    private String answer;                      // 最终答案
    private String hypotheticalAnswer;          // 用于检索的假设答案
    private List<Document> retrievedDocs;       // 检索到的真实文档
    private List<String> sources;              // 来源文档标题列表
    
    // 性能指标
    private long hypothesisTimeMs;             // 生成假设答案耗时
    private long retrievalTimeMs;              // 向量检索耗时
    private long totalTimeMs;                  // 总耗时
}

多假设HyDE：提高召回率

单个假设答案可能因为LLM生成的偏向性而遗漏某些角度的文档。多假设HyDE生成多个不同角度的假设答案，取其向量的平均值或合并检索结果。

package com.laozhang.rag.hyde;

import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.document.Document;
import org.springframework.ai.vectorstore.SearchRequest;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.stereotype.Service;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.concurrent.CompletableFuture;
import java.util.concurrent.Executors;
import java.util.stream.Collectors;

/**
 * 多假设HyDE服务
 *
 * 从不同角度生成多个假设答案，合并检索结果，提高召回率
 * 代价：多次LLM调用，延迟增加2-4秒
 *
 * 适用场景：准确率要求极高的场景（如法律咨询、医疗知识库）
 */
@Slf4j
@Service
public class MultiHypothesisHydeService {

    private final ChatClient chatClient;
    private final VectorStore vectorStore;
    
    // 从不同角度生成假设答案的提示词模板
    private static final List<String> PERSPECTIVE_PROMPTS = List.of(
        // 角度1：直接解决方案
        """
        请用技术专家的角度，对以下问题给出直接的解决方案和步骤：
        问题：{question}
        解决方案（150字以内）：
        """,
        
        // 角度2：原因分析
        """
        请分析以下问题的可能原因，重点描述问题的根本原因：
        问题：{question}
        原因分析（150字以内）：
        """,
        
        // 角度3：最佳实践
        """
        请描述解决以下问题的最佳实践和注意事项：
        问题：{question}
        最佳实践（150字以内）：
        """
    );

    public MultiHypothesisAnswer query(String userQuestion, int topKPerHypothesis) {
        long startTime = System.currentTimeMillis();
        
        // 并发生成多个假设答案（使用虚拟线程）
        List<CompletableFuture<String>> hypothesisFutures;
        try (var executor = Executors.newVirtualThreadPerTaskExecutor()) {
            hypothesisFutures = PERSPECTIVE_PROMPTS.stream()
                .map(promptTemplate -> CompletableFuture.supplyAsync(
                    () -> generateHypothesis(promptTemplate, userQuestion),
                    executor
                ))
                .collect(Collectors.toList());
        }
        
        List<String> hypotheses = hypothesisFutures.stream()
            .map(f -> {
                try { return f.get(); }
                catch (Exception e) { return userQuestion; }  // 降级
            })
            .collect(Collectors.toList());
        
        long hypothesisTime = System.currentTimeMillis() - startTime;
        log.debug("Generated {} hypotheses in {}ms", hypotheses.size(), hypothesisTime);
        
        // 对每个假设答案分别检索
        Set<String> seenDocIds = new HashSet<>();
        List<Document> allDocs = new ArrayList<>();
        
        for (String hypothesis : hypotheses) {
            List<Document> docs = vectorStore.similaritySearch(
                SearchRequest.query(hypothesis)
                    .withTopK(topKPerHypothesis)
                    .withSimilarityThreshold(0.65)
            );
            
            // 去重合并（不同假设可能检索到相同文档）
            for (Document doc : docs) {
                if (seenDocIds.add(doc.getId())) {
                    allDocs.add(doc);
                }
            }
        }
        
        log.info("Multi-hypothesis retrieved {} unique docs from {} searches", 
                allDocs.size(), hypotheses.size());
        
        // 对合并后的文档重新排序（用原始问题的相似度排序）
        // 这里简化处理：直接用所有文档，取前topK个
        List<Document> finalDocs = allDocs.size() > topKPerHypothesis 
            ? allDocs.subList(0, topKPerHypothesis) 
            : allDocs;
        
        long totalTime = System.currentTimeMillis() - startTime;
        
        return MultiHypothesisAnswer.builder()
            .retrievedDocs(finalDocs)
            .hypotheses(hypotheses)
            .hypothesisTimeMs(hypothesisTime)
            .totalTimeMs(totalTime)
            .build();
    }
    
    private String generateHypothesis(String promptTemplate, String question) {
        String prompt = promptTemplate.replace("{question}", question);
        try {
            return chatClient.call(prompt).trim();
        } catch (Exception e) {
            log.warn("Failed to generate hypothesis: {}", e.getMessage());
            return question;
        }
    }
}

HyDE的向量空间分析

用实际数据来解释为什么HyDE有效。

林涛团队对100个查询做了向量空间分析，计算查询向量/假设答案向量与正确答案文档的余弦相似度：

查询类型	原始查询 vs 正确文档	假设答案 vs 正确文档	提升
问题描述型	0.61	0.82	+21%
方法询问型	0.72	0.85	+13%
概念解释型	0.78	0.83	+5%
精确查找型	0.88	0.87	-1%

关键发现：

问题描述型查询（"我遇到了X问题，怎么解决"）：HyDE提升最大
精确查找型查询（"XX配置项的默认值是多少"）：HyDE几乎没有提升，甚至轻微下降

这说明HyDE不是万能药，要用对场景。

HyDE的适用场景和局限

适用场景

强烈推荐使用HyDE的场景：

技术问题排查：用户描述的是报错/现象，知识库里是解决方案
法律咨询：用户用通俗语言描述纠纷，知识库是法律条文
医疗知识库：患者用症状描述，知识库是诊疗方案
客户支持：用户用日常语言描述问题，知识库是标准解答
学术研究辅助：用户有模糊的研究方向，知识库是论文摘要

不适用场景

不建议使用HyDE的场景：

精确查找：查找特定值、参数、API名称——原始查询向量就已经很准了
关键词匹配型：如果用户已经在用专业术语查询，HyDE没有额外价值
实时响应要求极高：额外的LLM调用会增加1-2秒延迟

局限性

假设答案可能引入偏见：LLM生成的假设答案可能有错误，这会让检索偏向错误方向
成本增加：每次多一次LLM调用（但用小模型成本很低）
延迟增加：不可避免地增加1-2秒响应时间

HyDE的成本分析

详细算一笔账：

普通RAG的成本（每次查询）：

查询向量化：~100 token，$0.000002
生成答案：~1000 token input + 500 output，约$0.0035（用GPT-4o）
合计：约$0.0037/次

HyDE增加的成本：

生成假设答案：~200 token input + 200 output，用GPT-4o-mini
GPT-4o-mini价格：$0.00015 / 1K token
增加成本：约$0.00006/次

结论：每次查询额外增加$0.00006，即每1万次查询增加$0.6。

对于日均查询量1万次的系统，每月增加成本约$18。完全可以接受。

与查询改写的结合：HyDE + Query Expansion

HyDE和查询改写（Query Expansion）不是竞争关系，可以结合使用：

@Service
public class AdvancedQueryPipeline {

    private final HydeRetrievalService hydeService;
    private final QueryExpander queryExpander;
    private final VectorStore vectorStore;
    private final RerankService rerankService;

    /**
     * 完整的高级检索流水线：
     * 1. 查询扩展：生成多个语义等价的查询
     * 2. HyDE：为原始查询生成假设答案
     * 3. 合并所有查询的检索结果
     * 4. 重排序：用原始问题对所有结果重新排序
     */
    public AdvancedRetrievalResult query(String userQuestion, int topK) {
        
        // Step 1: 查询扩展——生成2-3个语义等价但表达方式不同的查询
        List<String> expandedQueries = queryExpander.expand(userQuestion, 2);
        log.debug("Expanded queries: {}", expandedQueries);
        
        // Step 2: HyDE——生成假设答案
        String hypotheticalAnswer = hydeService.generateHypotheticalAnswer(userQuestion);
        
        // Step 3: 用所有查询（原始 + 扩展 + 假设答案）并行检索
        List<String> allQueries = new ArrayList<>();
        allQueries.add(userQuestion);         // 原始查询
        allQueries.addAll(expandedQueries);   // 扩展查询
        allQueries.add(hypotheticalAnswer);   // 假设答案
        
        Set<String> seenIds = new HashSet<>();
        List<Document> allDocs = new ArrayList<>();
        
        // 并发检索
        try (var executor = Executors.newVirtualThreadPerTaskExecutor()) {
            List<CompletableFuture<List<Document>>> futures = allQueries.stream()
                .map(q -> CompletableFuture.supplyAsync(
                    () -> vectorStore.similaritySearch(
                        SearchRequest.query(q)
                            .withTopK(topK)
                            .withSimilarityThreshold(0.6)
                    ), executor
                ))
                .collect(Collectors.toList());
            
            for (CompletableFuture<List<Document>> future : futures) {
                try {
                    future.get().forEach(doc -> {
                        if (seenIds.add(doc.getId())) {
                            allDocs.add(doc);
                        }
                    });
                } catch (Exception e) {
                    log.warn("Retrieval failed for one query: {}", e.getMessage());
                }
            }
        }
        
        // Step 4: 重排序——用原始问题对所有结果排序
        List<Document> reranked = rerankService.rerank(userQuestion, allDocs, topK);
        
        return AdvancedRetrievalResult.builder()
            .docs(reranked)
            .originalQuery(userQuestion)
            .expandedQueries(expandedQueries)
            .hypotheticalAnswer(hypotheticalAnswer)
            .totalCandidates(allDocs.size())
            .build();
    }
}

QueryExpander实现

@Service
public class QueryExpander {

    private final ChatClient chatClient;
    
    private static final String EXPANSION_PROMPT = """
        请为以下问题生成{count}个语义等价但表达方式不同的问题。
        目的是扩大检索范围，找到可能使用不同术语描述的相关文档。
        
        原始问题：{question}
        
        输出格式（只输出问题，每行一个）：
        1. [扩展问题1]
        2. [扩展问题2]
        """;

    /**
     * 生成查询的语义等价变体
     *
     * 示例：
     * 原始："Java内存优化"
     * 扩展1："JVM堆内存调优方法"
     * 扩展2："如何降低Java应用内存使用"
     */
    public List<String> expand(String query, int count) {
        String prompt = EXPANSION_PROMPT
            .replace("{count}", String.valueOf(count))
            .replace("{question}", query);
        
        try {
            String response = chatClient.call(prompt);
            return parseExpandedQueries(response);
        } catch (Exception e) {
            log.warn("Query expansion failed: {}", e.getMessage());
            return List.of(query);
        }
    }
    
    private List<String> parseExpandedQueries(String response) {
        return response.lines()
            .map(line -> line.replaceAll("^\\d+[.、]\\s*", "").trim())
            .filter(line -> !line.isBlank())
            .collect(Collectors.toList());
    }
}

实测数据：在不同领域的效果对比

林涛团队在三个不同领域的知识库上做了系统性测试（每个领域100个标注问题）：

技术文档领域

指标	普通RAG	HyDE	提升
Recall@5	71%	89%	+18%
MRR（平均倒数排名）	0.62	0.81	+19%
平均响应时间	1.8s	3.2s	+1.4s
每次成本	$0.004	$0.004	+$0.00006

法律文书领域

指标	普通RAG	HyDE	提升
Recall@5	68%	87%	+19%
MRR	0.59	0.79	+20%
平均响应时间	2.1s	3.6s	+1.5s

医疗知识库领域

指标	普通RAG	HyDE	提升
Recall@5	64%	83%	+19%
MRR	0.55	0.76	+21%
平均响应时间	2.0s	3.5s	+1.5s

三个领域的一致结论：HyDE平均提升召回率约20%，延迟增加约1.5秒，成本增加可忽略。

对于大多数企业应用，这个trade-off是非常划算的。

完整的HyDE Spring Boot应用

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.laozhang.rag</groupId>
    <artifactId>rag-hyde-service</artifactId>
    <version>1.0.0</version>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>3.2.5</version>
    </parent>

    <properties>
        <java.version>21</java.version>
        <spring-ai.version>1.0.0</spring-ai.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.ai</groupId>
            <artifactId>spring-ai-openai-spring-boot-starter</artifactId>
            <version>${spring-ai.version}</version>
        </dependency>
        <dependency>
            <groupId>io.milvus</groupId>
            <artifactId>milvus-sdk-java</artifactId>
            <version>2.4.1</version>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-redis</artifactId>
        </dependency>
        <dependency>
            <groupId>io.micrometer</groupId>
            <artifactId>micrometer-registry-prometheus</artifactId>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>
    </dependencies>
</project>

REST API Controller

@RestController
@RequestMapping("/api/v1/qa")
@Slf4j
public class QAController {

    private final HydeRetrievalService hydeService;
    private final AdvancedQueryPipeline advancedPipeline;
    private final QAMetrics metrics;

    @PostMapping("/query")
    public ResponseEntity<QAResponse> query(@RequestBody @Valid QARequest request) {
        long startTime = System.currentTimeMillis();
        
        try {
            QAResponse response;
            
            switch (request.getMode()) {
                case "hyde" -> {
                    HydeAnswer answer = hydeService.query(request.getQuestion(), request.getTopK());
                    response = QAResponse.builder()
                        .answer(answer.getAnswer())
                        .sources(answer.getSources())
                        .mode("hyde")
                        .latencyMs(answer.getTotalTimeMs())
                        .debug(request.isDebug() ? Map.of(
                            "hypothetical_answer", answer.getHypotheticalAnswer(),
                            "hypothesis_time_ms", answer.getHypothesisTimeMs(),
                            "retrieval_time_ms", answer.getRetrievalTimeMs()
                        ) : null)
                        .build();
                }
                case "advanced" -> {
                    AdvancedRetrievalResult result = advancedPipeline.query(
                        request.getQuestion(), request.getTopK());
                    // 基于检索结果生成答案...
                    response = buildAdvancedResponse(request, result);
                }
                default -> {
                    // 普通RAG
                    HydeAnswer answer = hydeService.fallbackToNormalRag(
                        request.getQuestion(), request.getTopK());
                    response = QAResponse.builder()
                        .answer(answer.getAnswer())
                        .sources(answer.getSources())
                        .mode("rag")
                        .latencyMs(answer.getTotalTimeMs())
                        .build();
                }
            }
            
            metrics.recordQuery(request.getMode(), System.currentTimeMillis() - startTime);
            return ResponseEntity.ok(response);
            
        } catch (Exception e) {
            log.error("Query failed: {}", e.getMessage(), e);
            metrics.recordError(request.getMode());
            return ResponseEntity.internalServerError()
                .body(QAResponse.builder()
                    .answer("系统处理请求时遇到错误，请稍后重试。")
                    .build());
        }
    }
    
    @GetMapping("/health")
    public ResponseEntity<Map<String, Object>> health() {
        return ResponseEntity.ok(Map.of(
            "status", "UP",
            "hyde_enabled", true,
            "timestamp", System.currentTimeMillis()
        ));
    }
}

生产注意事项

1. 假设答案的质量控制

生成的假设答案质量直接影响检索效果。需要加一个简单的质量检查：

private boolean isValidHypothesis(String hypothesis) {
    if (hypothesis == null || hypothesis.isBlank()) return false;
    if (hypothesis.length() < 20) return false;  // 太短，可能是降级了
    
    // 检查是否像拒绝回答（"我不知道"、"无法回答"等）
    List<String> refusalPatterns = List.of(
        "我不知道", "无法回答", "没有相关信息", 
        "I don't know", "I cannot", "not enough information"
    );
    
    return refusalPatterns.stream()
        .noneMatch(p -> hypothesis.toLowerCase().contains(p.toLowerCase()));
}

2. 缓存假设答案

相似的问题可能会生成相同的假设答案，可以缓存：

@Cacheable(value = "hyde_hypothesis", key = "#question.hashCode()")
public String generateHypotheticalAnswer(String question) {
    // ... 生成假设答案
}

3. A/B测试HyDE效果

上线HyDE前，必须用A/B测试验证效果（参考article-129）。不要假设HyDE对你的场景也有相同的提升。

常见问题解答

Q1：HyDE生成的假设答案是错误的，这会影响检索结果吗？

会有影响，但影响有限。关键在于假设答案的语义方向是否正确，而不是答案是否准确。错误的细节不会显著改变向量方向，只要方向大体对，检索结果就比原始查询好。

Q2：HyDE对所有类型的查询都有效吗？

不是。如本文数据所示，HyDE对"问题描述型"查询提升最大，对"精确查找型"查询提升有限。建议根据你的实际查询分布来决定是否全量开启HyDE。

Q3：假设答案生成用什么模型最合适？

推荐用小而快的模型，如GPT-4o-mini或Claude Haiku。假设答案不需要高质量，关键是快和便宜。林涛团队用GPT-4o-mini，每次成本约$0.0001，可接受。

Q4：多假设HyDE和单假设HyDE什么时候用哪个？

准确率极其重要（如医疗、法律）用多假设，延迟敏感的场景用单假设。多假设的准确率约高3-5个百分点，但延迟增加约2-3秒。

Q5：HyDE可以和BM25关键词检索结合吗？

可以，而且效果更好。用假设答案做向量检索，用原始查询做BM25检索，两个结果用Reciprocal Rank Fusion（RRF）合并，然后Rerank。这是目前效果最好的开源检索方案。

Q6：如果LLM服务延迟很高，HyDE还能用吗？

可以设置超时降级：假设答案生成超过1秒则降级到普通RAG。这样既能在正常情况下享受HyDE的提升，又不会因为LLM服务波动而影响整体体验。

总结

HyDE是一个设计优雅、效果显著、实现简单的RAG优化技术。

林涛用3天时间实现它，让检索准确率从67%提升到89%。对于大多数问答型RAG系统，这是投入产出比最高的单项优化。

行动清单：

分析你的查询日志，统计"问题描述型"查询的占比（超过30%，HyDE就值得做）
实现基础版HyDE：在检索前调用LLM生成假设答案
假设答案生成用小模型（GPT-4o-mini / Claude Haiku），降低成本
添加质量检查：假设答案太短或是拒绝回答时，降级到普通RAG
通过A/B测试验证HyDE在你场景下的效果（参考article-129）
如果准确率要求极高，考虑多假设HyDE
可以结合查询改写（Query Expansion）进一步提升召回率