向量检索性能优化：从500ms到20ms的优化实录

老张2026/6/11大约 18 分钟向量检索性能优化HNSWPGVectorQdrantJava索引

向量检索性能优化：从500ms到20ms的优化实录

那句让人心碎的反馈

2025年9月，深圳一家做智能合同审查的初创公司，产品经理吴芸在用户调研会上收到了这样一条反馈：

"你们的AI助手功能挺好，但感觉反应有点慢，就是……感觉AI不太聪明的那种慢。"

"感觉AI不太聪明"——用户用情感描述了一个性能问题。

吴芸把这句话截图发给了后端负责人刘磊："用户说AI不聪明，你看看是什么问题。"

刘磊打开Jaeger链路追踪，很快找到了答案：

请求总耗时：620ms
  ├── 用户输入Embedding：45ms
  ├── 向量库检索(PGVector)：512ms  ← 罪魁祸首
  ├── 文档组装Prompt：8ms
  └── GPT-4o-mini推理：55ms（流式首token）

向量检索占了整个RAG流程 82% 的时间。用户感知到的"AI慢"，根源不是AI模型，而是数据库查询。

经过3周系统性优化，最终结果：

阶段	向量检索延迟	整体P99
优化前	512ms	680ms
优化阶段1（索引重建）	85ms	195ms
优化阶段2（参数调优）	32ms	112ms
优化阶段3（缓存+批量）	8ms（热）	68ms
最终效果（P99）	20ms	72ms

从500ms到20ms，本文完整还原这个过程。

1. 向量检索慢的根因分析

1.1 刘磊的排查过程

先做最基础的检查：

-- 检查索引是否存在
SELECT indexname, indexdef
FROM pg_indexes
WHERE tablename = 'document_chunks';

-- 输出结果（令人崩溃）：
-- indexname        | indexdef
-- primary_key_idx  | CREATE UNIQUE INDEX ON document_chunks(id)
-- 没有向量索引！！！

原来，系统上线时在本地测试，数据量只有500条，即使全表扫描也很快。上线后数据增长到85万条，但没有人建向量索引。

每次向量检索都在做全表扫描，计算85万次余弦相似度。

-- 用EXPLAIN ANALYZE验证
EXPLAIN ANALYZE
SELECT id, content, embedding <=> '[0.1, 0.2, ...]' AS distance
FROM document_chunks
ORDER BY distance
LIMIT 10;

-- 输出（惨不忍睹）：
-- Seq Scan on document_chunks  (cost=0.00..289432.50 rows=850000)
--                              (actual time=0.043..498.234 rows=10)
-- Execution Time: 498.312 ms

1.2 向量检索慢的五大根因

2. HNSW参数调优：找到最优的三个数字

2.1 HNSW算法原理（简版）

HNSW（Hierarchical Navigable Small World）是目前最流行的近似最近邻（ANN）算法。

关键参数：
- m：每个节点在图中的最大邻居数（建索引时设置）
  - 越大 → 召回率越高，内存越大，建索引越慢
  - 推荐范围：16-64

- ef_construction：建索引时的搜索宽度（建索引时设置）
  - 越大 → 索引质量越好，建索引越慢
  - 推荐范围：64-256

- ef_search：查询时的搜索宽度（查询时设置）
  - 越大 → 召回率越高，查询越慢
  - 推荐范围：40-200

2.2 PGVector HNSW索引创建与调优

-- ===== 步骤1：创建HNSW索引（在维护窗口执行）=====

-- 基础配置（适合大多数场景）
CREATE INDEX CONCURRENTLY idx_document_chunks_embedding_hnsw
ON document_chunks
USING hnsw (embedding vector_cosine_ops)
WITH (
    m = 16,                  -- 每个节点16个邻居
    ef_construction = 128    -- 建索引时搜索128个候选
);

-- 高质量配置（向量检索是核心功能，追求更高召回率）
CREATE INDEX CONCURRENTLY idx_document_chunks_embedding_hnsw_hq
ON document_chunks
USING hnsw (embedding vector_cosine_ops)
WITH (
    m = 32,                  -- 增加到32个邻居（更高召回率）
    ef_construction = 256    -- 更高质量建索引
);

-- ===== 步骤2：建索引前调大maintenance_work_mem =====
-- 这是最容易被忽略的！
SET maintenance_work_mem = '8GB';  -- 临时调大（建完后会恢复）

-- 对于大表（>100万条），需要在postgresql.conf中配置：
-- maintenance_work_mem = 8GB

-- ===== 步骤3：查询时设置ef_search =====
SET hnsw.ef_search = 100;  -- 会话级别设置

-- 或者在Spring Boot中通过DataSource ExecuteSQL设置
-- （下文有Java代码实现）

2.3 HNSW参数调优测试（85万条，1536维）

m	ef_construction	ef_search	查询延迟	召回率@10	索引大小
8	64	40	12ms	91.2%	2.8GB
16	128	64	18ms	96.8%	4.2GB
16	128	100	28ms	98.1%	4.2GB
32	256	100	35ms	99.2%	7.8GB
64	256	200	78ms	99.7%	15GB

刘磊的选择：m=16, ef_construction=128, ef_search=64

查询延迟 18ms（满足目标 <20ms）
召回率 96.8%（合同检索可接受）
索引大小 4.2GB（服务器32GB内存可以承受）

2.4 Java代码：动态设置ef_search

/**
 * PGVector向量检索Repository
 * 支持动态设置ef_search参数
 */
@Repository
@Slf4j
public class VectorSearchRepository {

    private final JdbcTemplate jdbcTemplate;
    private final NamedParameterJdbcTemplate namedParamJdbc;

    // ef_search配置（可通过配置中心动态调整）
    @Value("${vector.hnsw.ef-search:64}")
    private int efSearch;

    public VectorSearchRepository(JdbcTemplate jdbcTemplate) {
        this.jdbcTemplate = jdbcTemplate;
        this.namedParamJdbc = new NamedParameterJdbcTemplate(jdbcTemplate);
    }

    /**
     * 向量相似度检索
     *
     * @param queryEmbedding 查询向量
     * @param limit          返回数量
     * @param threshold      相似度阈值（0-1，越大越相似）
     * @return 检索结果列表
     */
    public List<VectorSearchResult> search(
            float[] queryEmbedding,
            int limit,
            double threshold) {

        String embeddingStr = floatArrayToPgVector(queryEmbedding);

        // 在事务中设置ef_search（线程安全）
        return jdbcTemplate.execute((ConnectionCallback<List<VectorSearchResult>>) conn -> {
            // 设置查询参数
            try (PreparedStatement setEf = conn.prepareStatement(
                    "SET LOCAL hnsw.ef_search = " + efSearch)) {
                setEf.execute();
            }

            // 执行向量检索
            String sql = """
                SELECT
                    id,
                    content,
                    metadata,
                    1 - (embedding <=> ?::vector) AS similarity,
                    embedding <=> ?::vector AS distance
                FROM document_chunks
                WHERE 1 - (embedding <=> ?::vector) >= ?
                ORDER BY embedding <=> ?::vector
                LIMIT ?
                """;

            try (PreparedStatement ps = conn.prepareStatement(sql)) {
                ps.setString(1, embeddingStr);
                ps.setString(2, embeddingStr);
                ps.setString(3, embeddingStr);
                ps.setDouble(4, threshold);
                ps.setString(5, embeddingStr);
                ps.setInt(6, limit);

                long startTime = System.currentTimeMillis();
                try (ResultSet rs = ps.executeQuery()) {
                    List<VectorSearchResult> results = new ArrayList<>();
                    while (rs.next()) {
                        results.add(new VectorSearchResult(
                            rs.getString("id"),
                            rs.getString("content"),
                            rs.getString("metadata"),
                            rs.getDouble("similarity")
                        ));
                    }
                    long elapsed = System.currentTimeMillis() - startTime;
                    log.debug("向量检索完成 | 耗时: {}ms | 结果数: {} | ef_search: {}",
                        elapsed, results.size(), efSearch);
                    return results;
                }
            }
        });
    }

    /**
     * 批量向量检索（一次查询多个向量）
     */
    public List<List<VectorSearchResult>> batchSearch(
            List<float[]> queryEmbeddings,
            int limit,
            double threshold) {

        // 并发执行多个查询（注意：不要超过连接池大小）
        int concurrency = Math.min(queryEmbeddings.size(), 10);
        ExecutorService executor = Executors.newFixedThreadPool(concurrency);

        List<CompletableFuture<List<VectorSearchResult>>> futures = queryEmbeddings.stream()
            .map(embedding -> CompletableFuture.supplyAsync(
                () -> search(embedding, limit, threshold), executor))
            .collect(Collectors.toList());

        try {
            return futures.stream()
                .map(CompletableFuture::join)
                .collect(Collectors.toList());
        } finally {
            executor.shutdown();
        }
    }

    /**
     * float[]转PostgreSQL向量字符串
     */
    private String floatArrayToPgVector(float[] embedding) {
        StringBuilder sb = new StringBuilder("[");
        for (int i = 0; i < embedding.length; i++) {
            if (i > 0) sb.append(",");
            sb.append(embedding[i]);
        }
        sb.append("]");
        return sb.toString();
    }
}

3. PGVector性能调优：PostgreSQL配置的关键参数

3.1 PostgreSQL配置调优

-- postgresql.conf 中针对向量检索的关键配置

-- ===== 内存配置 =====
shared_buffers = 8GB              -- 共享缓冲区（建议物理内存的25%）
effective_cache_size = 24GB       -- 告诉查询规划器可用的总缓存（物理内存的75%）
work_mem = 256MB                   -- 单个查询的工作内存（向量计算需要）
maintenance_work_mem = 8GB         -- 维护操作内存（建HNSW索引用）

-- ===== 并行查询 =====
max_parallel_workers_per_gather = 4  -- 每个查询最多4个并行worker
max_parallel_workers = 8             -- 总并行worker数
max_worker_processes = 16            -- 总worker进程数

-- ===== 连接配置 =====
max_connections = 200               -- 最大连接数（配合连接池使用）

-- ===== IO优化 =====
random_page_cost = 1.1              -- SSD设备设为1.1（机械硬盘默认4.0）
effective_io_concurrency = 200      -- SSD设备设高（机械硬盘设1）

-- ===== 向量检索专用 =====
-- 全局ef_search（也可以在查询时设置）
hnsw.ef_search = 64

-- IVFFlat配置（如果使用IVFFlat索引）
ivfflat.probes = 10

3.2 索引策略：何时用HNSW，何时用IVFFlat

-- ===== HNSW vs IVFFlat 对比 =====

-- HNSW（推荐）：
-- 优点：查询快，召回率高，不需要训练
-- 缺点：内存占用大，建索引慢
-- 适合：数据量 < 1000万，内存充足

-- IVFFlat：
-- 优点：内存占用小，建索引快
-- 缺点：需要提前训练（确定分区数），召回率相对低
-- 适合：数据量 > 1000万，内存有限

-- 创建IVFFlat索引
CREATE INDEX CONCURRENTLY idx_chunks_embedding_ivfflat
ON document_chunks
USING ivfflat (embedding vector_cosine_ops)
WITH (
    -- lists = sqrt(行数)，85万条约设920
    lists = 1000
);

-- 查询时设置probes（列表扫描数）
SET ivfflat.probes = 10;  -- lists的1%到5%

-- ===== 建索引进度查看 =====
SELECT
    phase,
    blocks_done,
    blocks_total,
    CASE WHEN blocks_total > 0
         THEN round(blocks_done::numeric/blocks_total*100, 2)
         ELSE 0
    END AS progress_percent
FROM pg_stat_progress_create_index
WHERE relid = 'document_chunks'::regclass;

3.3 连接池优化（Spring Boot + HikariCP）

/**
 * 针对向量检索的HikariCP配置
 */
@Configuration
public class DatabaseConfig {

    @Bean
    @Primary
    public DataSource vectorDataSource() {
        HikariConfig config = new HikariConfig();

        // 基础配置
        config.setJdbcUrl("jdbc:postgresql://localhost:5432/ragdb?sslmode=disable");
        config.setUsername("raguser");
        config.setPassword("${DB_PASSWORD}");

        // 连接池大小（公式：connections = (core_count * 2) + effective_spindle_count）
        // 8核SSD服务器：(8 * 2) + 1 = 17，约设20
        config.setMinimumIdle(5);
        config.setMaximumPoolSize(20);

        // 超时配置
        config.setConnectionTimeout(3000);    // 3秒获取连接超时
        config.setIdleTimeout(600000);         // 10分钟空闲超时
        config.setMaxLifetime(1800000);        // 30分钟连接最大寿命

        // 关键：连接初始化SQL（设置向量检索参数）
        config.setConnectionInitSql(
            "SET hnsw.ef_search = 64; " +
            "SET work_mem = '256MB';"
        );

        // 健康检查
        config.setKeepaliveTime(30000);
        config.setConnectionTestQuery("SELECT 1");

        // 连接池名称（便于监控区分）
        config.setPoolName("VectorDB-Pool");

        // 开启监控（Micrometer集成）
        config.setMetricRegistry(new PrometheusMeterRegistry(PrometheusConfig.DEFAULT));

        return new HikariDataSource(config);
    }
}

4. Qdrant性能调优：向量类型量化的威力

4.1 Qdrant向量类型对比

向量类型     精度      每维存储    1536维大小    速度倍数    精度损失
float32(f32)  全精度    4字节       6,144字节     1x         0%
float16(f16)  半精度    2字节       3,072字节     1.5-2x     <0.5%
uint8(u8)     量化      1字节       1,536字节     3-4x       1-2%
Binary        1bit      0.125字节   192字节       10-20x     5-10%

4.2 Qdrant集合配置（Java SDK）

/**
 * Qdrant集合创建与优化配置
 */
@Service
@Slf4j
public class QdrantCollectionManager {

    private final QdrantClient qdrantClient;

    public QdrantCollectionManager(@Value("${qdrant.host}") String host,
                                   @Value("${qdrant.port}") int port) {
        this.qdrantClient = new QdrantClient(
            QdrantGrpcClient.newBuilder(host, port, false).build()
        );
    }

    /**
     * 创建高性能向量集合（使用float16量化）
     * 适合：大规模数据，对精度要求不苛刻的场景
     */
    public void createCollectionWithQuantization(String collectionName) throws Exception {
        CreateCollection createRequest = CreateCollection.newBuilder()
            .setCollectionName(collectionName)
            .setVectorsConfig(
                VectorsConfig.newBuilder()
                    .setParams(
                        VectorParams.newBuilder()
                            .setSize(1536)                      // OpenAI维度
                            .setDistance(Distance.Cosine)       // 余弦相似度
                            .build()
                    )
                    .build()
            )
            // 标量量化（float32 → uint8）
            .setQuantizationConfig(
                QuantizationConfig.newBuilder()
                    .setScalar(
                        ScalarQuantization.newBuilder()
                            .setType(QuantizationType.Int8)     // 量化为int8
                            .setQuantile(0.99f)                  // 99%分位数校准
                            .setAlwaysRam(true)                  // 量化向量常驻内存
                            .build()
                    )
                    .build()
            )
            // HNSW索引配置
            .setHnswConfig(
                HnswConfigDiff.newBuilder()
                    .setM(16)                    // 邻居数
                    .setEfConstruct(128)          // 建索引ef
                    .setFullScanThreshold(10000)  // 小于1万条时全扫描（更准确）
                    .build()
            )
            // 优化器配置
            .setOptimizerConfig(
                OptimizersConfigDiff.newBuilder()
                    .setIndexingThreshold(20000)  // 超过2万条才建索引
                    .setMemmapThreshold(50000)    // 超过5万条使用内存映射文件
                    .build()
            )
            .build();

        qdrantClient.createCollectionAsync(createRequest).get();
        log.info("Qdrant集合创建成功: {}", collectionName);
    }

    /**
     * 批量插入向量点
     * 推荐批次大小：100-500个点
     */
    public void upsertVectors(String collectionName,
                               List<VectorPoint> points) throws Exception {
        int batchSize = 200;
        int total = points.size();
        int inserted = 0;

        for (int i = 0; i < total; i += batchSize) {
            int end = Math.min(i + batchSize, total);
            List<VectorPoint> batch = points.subList(i, end);

            List<PointStruct> pointStructs = batch.stream()
                .map(this::toPointStruct)
                .collect(Collectors.toList());

            UpsertPoints upsertRequest = UpsertPoints.newBuilder()
                .setCollectionName(collectionName)
                .setWait(true)  // 等待确认
                .addAllPoints(pointStructs)
                .build();

            qdrantClient.upsertAsync(upsertRequest).get();
            inserted += batch.size();
            log.info("插入进度: {}/{}", inserted, total);
        }
    }

    /**
     * 向量检索（带过滤条件）
     */
    public List<ScoredPoint> searchWithFilter(
            String collectionName,
            float[] queryVector,
            int limit,
            Map<String, Object> filters) throws Exception {

        SearchPoints.Builder searchBuilder = SearchPoints.newBuilder()
            .setCollectionName(collectionName)
            .addAllVector(toFloatList(queryVector))
            .setLimit(limit)
            .setWithPayload(WithPayloadSelector.newBuilder()
                .setEnable(true)
                .build())
            // 使用量化向量搜索，但用原始向量重排序（精度+速度兼顾）
            .setSearchParams(
                SearchParams.newBuilder()
                    .setHnswEf(128)       // 查询ef（越大越准，越慢）
                    .setExact(false)       // 近似搜索
                    .setQuantization(
                        QuantizationSearchParams.newBuilder()
                            .setIgnore(false)   // 使用量化加速
                            .setRescore(true)   // 用原始向量重排序
                            .setOversampling(2.0)  // 候选集2倍过采样后重排
                            .build()
                    )
                    .build()
            );

        // 添加过滤条件
        if (filters != null && !filters.isEmpty()) {
            Filter filter = buildFilter(filters);
            searchBuilder.setFilter(filter);
        }

        List<ScoredPoint> results = qdrantClient
            .searchAsync(searchBuilder.build())
            .get();

        log.debug("Qdrant检索 | 集合: {} | 结果数: {} | 过滤条件: {}",
            collectionName, results.size(), filters);

        return results;
    }

    private List<Float> toFloatList(float[] array) {
        List<Float> list = new ArrayList<>(array.length);
        for (float f : array) list.add(f);
        return list;
    }

    private PointStruct toPointStruct(VectorPoint point) {
        return PointStruct.newBuilder()
            .setId(PointId.newBuilder().setUuid(point.getId()).build())
            .setVectors(Vectors.newBuilder()
                .setVector(Vector.newBuilder()
                    .addAllData(toFloatList(point.getEmbedding()))
                    .build())
                .build())
            .setPayload("content", point.getContent())
            .setPayload("metadata", point.getMetadata())
            .build();
    }
}

5. 查询优化：四个高效查询技巧

5.1 减少向量维度：PCA降维

/**
 * 向量降维优化
 * 将1536维降到512维，检索速度提升3x，精度损失<3%
 *
 * 注意：降维后的向量不能与原始向量直接比较
 */
@Service
public class VectorDimensionReducer {

    /**
     * 简单截断法（最快但精度损失较大）
     * 适用于：OpenAI text-embedding-3-large（支持原生降维）
     */
    public float[] truncate(float[] embedding, int targetDim) {
        if (embedding.length <= targetDim) return embedding;
        // OpenAI的Matryoshka embeddings支持截断后归一化
        float[] truncated = Arrays.copyOf(embedding, targetDim);
        return normalize(truncated);
    }

    /**
     * L2归一化
     */
    private float[] normalize(float[] vector) {
        double norm = 0;
        for (float v : vector) norm += v * v;
        norm = Math.sqrt(norm);

        float[] normalized = new float[vector.length];
        for (int i = 0; i < vector.length; i++) {
            normalized[i] = (float)(vector[i] / norm);
        }
        return normalized;
    }

    /**
     * 测试维度vs性能（给出决策数据）
     */
    public void benchmarkDimensions(List<float[]> embeddings, List<String> labels) {
        int[] dims = {256, 512, 768, 1024, 1536};

        for (int dim : dims) {
            long startTime = System.nanoTime();
            int sampleSize = Math.min(100, embeddings.size());

            // 模拟检索：计算样本向量间的余弦相似度
            for (int i = 0; i < sampleSize; i++) {
                float[] query = truncate(embeddings.get(i), dim);
                for (int j = 0; j < sampleSize; j++) {
                    float[] candidate = truncate(embeddings.get(j), dim);
                    cosineSimilarity(query, candidate);
                }
            }

            long elapsed = (System.nanoTime() - startTime) / 1_000_000;
            log.info("维度 {} | 100x100相似度计算耗时: {}ms", dim, elapsed);
        }
    }

    private float cosineSimilarity(float[] a, float[] b) {
        float dot = 0, normA = 0, normB = 0;
        for (int i = 0; i < a.length; i++) {
            dot += a[i] * b[i];
            normA += a[i] * a[i];
            normB += b[i] * b[i];
        }
        return (float)(dot / (Math.sqrt(normA) * Math.sqrt(normB)));
    }
}

5.2 批量向量查询

/**
 * 批量向量查询（比串行查询快5-8倍）
 */
@Service
@Slf4j
public class BatchVectorSearchService {

    private final VectorSearchRepository vectorRepository;
    private final ExecutorService searchExecutor;

    public BatchVectorSearchService(VectorSearchRepository vectorRepository) {
        this.vectorRepository = vectorRepository;
        // 查询线程池（避免占满数据库连接池）
        this.searchExecutor = new ThreadPoolExecutor(
            5, 10,                              // 核心5个，最大10个线程
            60, TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(100),
            new ThreadFactoryBuilder()
                .setNameFormat("vector-search-%d")
                .build(),
            new ThreadPoolExecutor.CallerRunsPolicy()  // 队列满时由调用线程执行
        );
    }

    /**
     * 多查询并发搜索（Multi-Query RAG）
     */
    public Map<String, List<VectorSearchResult>> multiQuerySearch(
            Map<String, float[]> queries,  // query名称 → 向量
            int limit) {

        long startTime = System.currentTimeMillis();

        // 提交所有查询
        Map<String, CompletableFuture<List<VectorSearchResult>>> futures = new HashMap<>();
        for (Map.Entry<String, float[]> entry : queries.entrySet()) {
            String queryName = entry.getKey();
            float[] embedding = entry.getValue();

            CompletableFuture<List<VectorSearchResult>> future =
                CompletableFuture.supplyAsync(
                    () -> vectorRepository.search(embedding, limit, 0.7),
                    searchExecutor
                );
            futures.put(queryName, future);
        }

        // 收集结果
        Map<String, List<VectorSearchResult>> results = new HashMap<>();
        for (Map.Entry<String, CompletableFuture<List<VectorSearchResult>>> entry : futures.entrySet()) {
            try {
                results.put(entry.getKey(), entry.getValue().get(5, TimeUnit.SECONDS));
            } catch (Exception e) {
                log.error("批量查询失败: {}", entry.getKey(), e);
                results.put(entry.getKey(), Collections.emptyList());
            }
        }

        long elapsed = System.currentTimeMillis() - startTime;
        log.info("批量向量查询 | 查询数: {} | 耗时: {}ms（并发） vs 估算串行: {}ms",
            queries.size(), elapsed, queries.size() * 20);

        return results;
    }
}

6. 缓存层：热点查询的向量缓存设计

6.1 缓存架构设计

6.2 两级缓存实现

/**
 * 向量检索两级缓存
 * L1: Caffeine（本地，<1ms）
 * L2: Redis（分布式，2-5ms）
 */
@Service
@Slf4j
public class CachedVectorSearchService {

    private final VectorSearchRepository vectorRepository;
    private final RedisTemplate<String, Object> redisTemplate;

    // L1本地缓存（按内存大小限制，不是数量）
    private final Cache<String, List<VectorSearchResult>> localCache;

    // 缓存Key前缀
    private static final String CACHE_PREFIX = "vec:search:";
    // Redis缓存TTL
    private static final Duration REDIS_TTL = Duration.ofMinutes(30);

    public CachedVectorSearchService(
            VectorSearchRepository vectorRepository,
            RedisTemplate<String, Object> redisTemplate) {
        this.vectorRepository = vectorRepository;
        this.redisTemplate = redisTemplate;

        // L1缓存配置：最大100MB
        this.localCache = Caffeine.newBuilder()
            .maximumWeight(100 * 1024 * 1024)  // 100MB
            .weigher((String k, List<VectorSearchResult> v) ->
                // 粗略估算每个结果1KB
                v.size() * 1024
            )
            .expireAfterWrite(Duration.ofMinutes(5))   // 本地缓存5分钟
            .recordStats()
            .build();
    }

    public List<VectorSearchResult> searchWithCache(
            String queryText,
            float[] queryEmbedding,
            int limit,
            double threshold) {

        // 生成缓存Key（基于查询文本的哈希）
        String cacheKey = generateCacheKey(queryText, limit, threshold);

        // 1. 查L1本地缓存
        List<VectorSearchResult> cachedResult = localCache.getIfPresent(cacheKey);
        if (cachedResult != null) {
            log.debug("L1缓存命中: {}", queryText);
            return cachedResult;
        }

        // 2. 查L2 Redis缓存
        String redisKey = CACHE_PREFIX + cacheKey;
        @SuppressWarnings("unchecked")
        List<VectorSearchResult> redisResult = (List<VectorSearchResult>)
            redisTemplate.opsForValue().get(redisKey);

        if (redisResult != null) {
            log.debug("L2 Redis缓存命中: {}", queryText);
            // 回填L1
            localCache.put(cacheKey, redisResult);
            return redisResult;
        }

        // 3. 查向量库
        long startTime = System.currentTimeMillis();
        List<VectorSearchResult> results = vectorRepository.search(
            queryEmbedding, limit, threshold);
        long elapsed = System.currentTimeMillis() - startTime;

        log.info("向量库查询 | 查询: {} | 耗时: {}ms | 结果数: {}",
            queryText, elapsed, results.size());

        // 回填缓存
        localCache.put(cacheKey, results);
        redisTemplate.opsForValue().set(redisKey, results, REDIS_TTL);

        return results;
    }

    /**
     * 生成缓存Key（使用MD5哈希）
     */
    private String generateCacheKey(String queryText, int limit, double threshold) {
        String input = queryText + "|" + limit + "|" + threshold;
        return DigestUtils.md5DigestAsHex(input.getBytes(StandardCharsets.UTF_8));
    }

    /**
     * 缓存统计信息（用于监控）
     */
    @Scheduled(fixedRate = 60000)
    public void reportCacheStats() {
        CacheStats l1Stats = localCache.stats();
        log.info("向量检索缓存统计 | L1命中率: {:.1f}% | L1命中次数: {} | L1大小: {}",
            l1Stats.hitRate() * 100,
            l1Stats.hitCount(),
            localCache.estimatedSize());
    }
}

7. 容量规划：不同数据规模的推荐配置

7.1 各规模配置对比

7.2 详细配置表

数据规模	向量库	索引类型	关键参数	内存需求	查询P99
1万条	PGVector	IVFFlat lists=100	probes=5	500MB	5ms
10万条	PGVector	HNSW m=16	ef_search=64	4GB	15ms
100万条	PGVector	HNSW m=32	ef_search=100	25GB	35ms
100万条	Qdrant+量化	HNSW m=16	ef=128,int8	8GB	18ms
1000万条	Qdrant集群	HNSW m=16	量化+分片	集群64GB	25ms

7.3 内存需求计算公式

PGVector HNSW内存 = 向量数量 × 维度 × 4字节 × (1 + m × 2 / 维度 × 8)

例：100万条 × 1536维 × m=16：
  向量数据：100万 × 1536 × 4 = 5.8GB
  索引开销：100万 × 16 × 2 × 8 = 2.4GB（邻居指针）
  总计：约8GB（加上PG本身开销约12-15GB）

Qdrant int8量化内存 = 向量数量 × 维度 × 1字节
  100万条 × 1536 × 1 = 1.5GB（量化向量）
  原始向量（可不加载到内存）= 5.8GB
  实际内存：约3GB

8. 监控：向量检索P99延迟的监控告警

8.1 Prometheus监控指标

/**
 * 向量检索监控指标
 * 集成Micrometer + Prometheus
 */
@Aspect
@Component
@Slf4j
public class VectorSearchMetrics {

    private final MeterRegistry meterRegistry;
    private final Timer searchTimer;
    private final Counter searchErrorCounter;
    private final DistributionSummary resultCountSummary;

    public VectorSearchMetrics(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;

        // 检索延迟直方图（P50/P95/P99）
        this.searchTimer = Timer.builder("vector.search.duration")
            .description("向量检索耗时")
            .publishPercentiles(0.5, 0.95, 0.99)
            .publishPercentileHistogram()
            .tag("service", "rag")
            .register(meterRegistry);

        // 错误计数
        this.searchErrorCounter = Counter.builder("vector.search.errors")
            .description("向量检索错误次数")
            .register(meterRegistry);

        // 结果数量分布
        this.resultCountSummary = DistributionSummary.builder("vector.search.results")
            .description("向量检索返回结果数量")
            .register(meterRegistry);
    }

    /**
     * AOP拦截VectorSearchRepository的search方法
     */
    @Around("execution(* com.example.rag.repository.VectorSearchRepository.search(..))")
    public Object measureSearchTime(ProceedingJoinPoint joinPoint) throws Throwable {
        long startTime = System.currentTimeMillis();
        String status = "success";

        try {
            Object result = joinPoint.proceed();

            if (result instanceof List) {
                resultCountSummary.record(((List<?>) result).size());
            }

            return result;
        } catch (Exception e) {
            status = "error";
            searchErrorCounter.increment();
            throw e;
        } finally {
            long elapsed = System.currentTimeMillis() - startTime;
            searchTimer.record(elapsed, TimeUnit.MILLISECONDS);

            // 慢查询告警
            if (elapsed > 100) {
                log.warn("向量检索慢查询 | 耗时: {}ms | 状态: {}", elapsed, status);
            }
        }
    }
}

8.2 Grafana告警规则

# alerting-rules.yaml - Prometheus告警规则
groups:
  - name: vector-search-alerts
    rules:
      # P99延迟超过50ms告警
      - alert: VectorSearchHighLatency
        expr: |
          histogram_quantile(0.99,
            rate(vector_search_duration_seconds_bucket[5m])
          ) > 0.05
        for: 2m
        labels:
          severity: warning
        annotations:
          summary: "向量检索P99延迟过高"
          description: "向量检索P99延迟 {{ $value | humanizeDuration }}，超过50ms阈值"

      # P99延迟超过200ms严重告警
      - alert: VectorSearchCriticalLatency
        expr: |
          histogram_quantile(0.99,
            rate(vector_search_duration_seconds_bucket[5m])
          ) > 0.2
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "向量检索延迟严重超标"
          description: "向量检索P99延迟 {{ $value | humanizeDuration }}，严重影响用户体验"

      # 错误率超过1%
      - alert: VectorSearchHighErrorRate
        expr: |
          rate(vector_search_errors_total[5m]) /
          rate(vector_search_duration_seconds_count[5m]) > 0.01
        for: 2m
        labels:
          severity: warning
        annotations:
          summary: "向量检索错误率过高"
          description: "向量检索错误率 {{ $value | humanizePercentage }}"

9. 完整优化清单

优化完成后，刘磊整理了一份检查清单，供团队后续新项目使用：

向量检索性能优化检查清单

基础检查（必做）：
  □ 向量列是否创建了HNSW或IVFFlat索引？
  □ 索引类型是否与距离函数匹配？
    （余弦→vector_cosine_ops，内积→vector_ip_ops，L2→vector_l2_ops）
  □ maintenance_work_mem是否在建索引前调大？
  □ ef_search参数是否合理设置？

数据规模评估：
  □ 当前数据量多少条？
  □ 预计6个月后多少条？
  □ 是否需要提前规划分区？

查询优化：
  □ 是否有不必要的全量扫描（忘加threshold过滤）？
  □ 是否有高频相同查询（可以加缓存）？
  □ 是否有批量查询场景（可以并发执行）？

资源配置：
  □ PostgreSQL shared_buffers是否合理？
  □ work_mem是否足够向量计算？
  □ 服务器内存是否能容纳索引？
  □ 存储是否是SSD/NVMe（random_page_cost需相应调整）？

监控告警：
  □ P99延迟监控是否配置？
  □ 慢查询日志是否开启？
  □ 告警阈值是否合理？

FAQ

Q1：HNSW建索引需要多长时间？可以在线建吗？

A：对于85万条1536维数据，使用CREATE INDEX CONCURRENTLY在线建索引（不锁表）：

m=16, ef_construction=128：约45分钟（maintenance_work_mem=8GB）
m=32, ef_construction=256：约2小时

建议在业务低峰期执行，通过pg_stat_progress_create_index监控进度。

Q2：向量检索结果不准确，召回率低，怎么提升？

A：按优先级排序：1）增大ef_search（从64增到128或200）；2）增大m值（从16增到32）；3）重新嵌入文档（可能是原始嵌入质量差）；4）调整相似度阈值（threshold）；5）考虑重排序（Rerank）。

Q3：使用Qdrant还是PGVector，如何选择？

A：简单标准：如果已有PostgreSQL就用PGVector，省去运维多一个组件的成本。如果数据量超过500万条，或者对延迟极致追求（<10ms P99），考虑Qdrant。两者在100万条以内的性能差距不大。

Q4：向量缓存用Redis的Key怎么设计？查询文本相似但不同怎么办？

A："查询文本相似但不同"这个场景需要语义缓存，普通哈希缓存确实无法处理。可以考虑：1）对查询先做语义归一化（去除同义词）；2）查询向量缓存（先查缓存中所有Key的向量相似度）。但对大多数场景，直接哈希缓存命中率已经足够高了。

Q5：数据量增长到1000万条后怎么办？现有索引还能用吗？

A：HNSW索引是动态增量建立的，不需要重建。但随着数据增长，查询延迟会缓慢增加。当P99超过50ms时，需要考虑：1）切换到Qdrant并启用量化；2）按业务维度分片（不同租户、不同业务线）；3）增加从库分担读压力。

总结

从500ms到20ms，核心改进只有三步：

建对索引（最重要）：没有HNSW索引等于全表扫描，这是第一个、效果最大的优化
调对参数：ef_search是精度和速度的旋钮，不同场景需要不同设置
加对缓存：热点查询缓存命中后<1ms，彻底消除数据库压力

99%的向量检索性能问题，都是没有建索引或索引参数不对造成的。先看索引，再看参数，最后才是架构优化。