Embedding嵌入优化：向量化性能与质量的双重提升

老张2026/6/13大约 20 分钟Embedding向量化嵌入模型性能优化Spring AIJava

Embedding嵌入优化：向量化性能与质量的双重提升

2小时的等待背后

2025年8月，成都一家知识管理公司的技术负责人孙浩，正在做公司内部知识库系统的验收测试。

系统功能完美，对话效果优秀——但验收时卡在了一个数字上：

1万篇技术文档的向量化构建，需要整整2小时。

更麻烦的是，文档是动态更新的，每周会新增约500篇、修改约300篇。按现在的架构，每次全量重建就是2小时暂停服务。

孙浩翻开监控数据：

向量化构建耗时分析（1万篇文档）：
  文档读取：8分钟
  文本分割（Chunk）：3分钟
  Embedding嵌入：109分钟 ← 占整个流程80%
  写入向量库：5分钟
  总计：125分钟 ≈ 2小时

Embedding详细数据：
  平均文档大小：3,200字符
  每篇文档平均切片数：12个chunk
  总chunk数：12万个
  当前处理方式：逐条调用API
  单条API延迟：55ms（含网络RTT）
  总耗时：12万 × 55ms = 6,600秒 = 110分钟

问题很清楚：逐条串行调用API，网络往返时间成了瓶颈。

经过2周优化，最终结果：

优化阶段	时间	关键改进
原始状态	109分钟	逐条串行API
批量提交	18分钟	100条/次批量
并发+批量	6分钟	8线程×100条批量
增量嵌入	1.5分钟	只处理变更文档
最终（增量+缓存）	15秒	热数据命中缓存

1万篇文档的嵌入从109分钟降到15秒（全增量场景）。

1. 嵌入模型选型：速度、质量、成本的三角

1.1 主流嵌入模型对比

模型                 维度   中文支持  速度      成本           适用场景
OpenAI ada-002       1536   良好     中        $0.10/百万     历史项目兼容
OpenAI 3-small       1536   良好     快        $0.02/百万     通用推荐
OpenAI 3-large       3072   优秀     中        $0.13/百万     高精度场景
BGE-M3（本地）       1024   优秀     极快      $0（硬件成本） 中文为主
Cohere embed-v3      1024   良好     中        $0.10/百万     多语言场景
nomic-embed          768    一般     快        $0.008/百万    低成本场景

1.2 中文嵌入质量测试

/**
 * 嵌入模型质量测试
 * 测试指标：语义相似度的召回准确率
 */
@Service
@Slf4j
public class EmbeddingQualityEvaluator {

    /**
     * 测试用例：语义相似的句子对
     * 期望：相似的句子相似度高，不相似的低
     */
    private static final List<TestCase> TEST_CASES = Arrays.asList(
        // 相似对（期望相似度 > 0.8）
        new TestCase("如何使用Spring Boot创建REST API",
                     "Spring Boot RESTful接口开发教程", true),
        new TestCase("Java多线程并发编程",
                     "Java线程安全和并发控制", true),
        new TestCase("机器学习模型训练方法",
                     "深度学习神经网络训练技巧", true),
        // 不相似对（期望相似度 < 0.5）
        new TestCase("今天天气不错",
                     "Java并发编程最佳实践", false),
        new TestCase("怎么做红烧肉",
                     "Spring AI集成OpenAI", false)
    );

    /**
     * 评估嵌入模型质量
     */
    public EvaluationReport evaluate(EmbeddingModel model, String modelName) {
        int correct = 0;
        int total = TEST_CASES.size();
        List<TestResult> results = new ArrayList<>();

        for (TestCase tc : TEST_CASES) {
            float[] emb1 = model.embed(tc.text1);
            float[] emb2 = model.embed(tc.text2);
            float similarity = cosineSimilarity(emb1, emb2);

            boolean passed;
            if (tc.shouldBeSimilar) {
                passed = similarity > 0.75;
            } else {
                passed = similarity < 0.5;
            }

            if (passed) correct++;

            results.add(new TestResult(tc.text1, tc.text2, similarity,
                tc.shouldBeSimilar, passed));

            log.debug("{} | 相似度: {:.3f} | {} | {}",
                modelName, similarity,
                tc.shouldBeSimilar ? "应相似" : "应不相似",
                passed ? "通过" : "失败");
        }

        return new EvaluationReport(modelName, correct, total, results);
    }

    private float cosineSimilarity(float[] a, float[] b) {
        float dot = 0, normA = 0, normB = 0;
        for (int i = 0; i < Math.min(a.length, b.length); i++) {
            dot += a[i] * b[i];
            normA += a[i] * a[i];
            normB += b[i] * b[i];
        }
        return (float)(dot / (Math.sqrt(normA) * Math.sqrt(normB)));
    }
}

1.3 各模型实测数据（孙浩的测试环境）

模型	质量得分	单条延迟	批量(100条)	100万条成本	推荐
OpenAI 3-small	92%	52ms	380ms	$20	通用首选
OpenAI 3-large	96%	65ms	520ms	$130	高精度
BGE-M3（本地）	95%	8ms	45ms	$0	中文推荐
ada-002	88%	55ms	400ms	$100	旧项目
nomic-embed	83%	40ms	280ms	$8	低成本

结论：BGE-M3在中文场景质量最高、速度最快、成本为零（一次性硬件投入），是中文知识库的首选。

2. 批量嵌入：10倍速度提升的秘密

2.1 逐条 vs 批量的性能差距

场景：嵌入1000条文本（平均200字符/条）

逐条调用：
  1000 次 × 55ms/次 = 55,000ms = 55秒
  网络往返：1000次
  API计费：1000次调用

批量调用（100条/批）：
  10 批 × 380ms/批 = 3,800ms = 3.8秒
  网络往返：10次
  API计费：10次调用（相同Token数）

速度提升：55秒 → 3.8秒（14.5x）

2.2 批量嵌入实现（Spring AI）

/**
 * 批量嵌入服务
 * 支持自动分批、并发、限速、进度追踪
 */
@Service
@Slf4j
public class BatchEmbeddingService {

    private final EmbeddingModel embeddingModel;

    // 批次大小（OpenAI限制：最多2048个输入，总tokens不超过300,000）
    private static final int BATCH_SIZE = 100;

    // 并发批次数（受Rate Limit控制）
    private static final int CONCURRENT_BATCHES = 5;

    // 限速：5 batches/sec × 100条 = 500 RPS
    // OpenAI 3-small Rate Limit：1,000,000 tokens/min
    // 100条 × 200tokens = 20,000 tokens/batch
    // 1,000,000 / 20,000 = 50 batches/min ≈ 0.83 batches/sec
    private final RateLimiter rateLimiter = RateLimiter.create(0.8);

    private final Semaphore concurrencySemaphore =
        new Semaphore(CONCURRENT_BATCHES);

    private final ExecutorService embeddingExecutor =
        Executors.newFixedThreadPool(CONCURRENT_BATCHES);

    /**
     * 批量嵌入主方法
     *
     * @param texts 待嵌入的文本列表
     * @param progressCallback 进度回调（可选）
     * @return 嵌入向量列表（与输入一一对应）
     */
    public List<float[]> batchEmbed(
            List<String> texts,
            Consumer<EmbeddingProgress> progressCallback) {

        log.info("开始批量嵌入 | 总数量: {} | 批次大小: {} | 并发数: {}",
            texts.size(), BATCH_SIZE, CONCURRENT_BATCHES);

        long startTime = System.currentTimeMillis();
        AtomicInteger processedCount = new AtomicInteger(0);

        // 分批
        List<List<String>> batches = partition(texts, BATCH_SIZE);
        int totalBatches = batches.size();

        // 预分配结果数组（保持原始顺序）
        float[][] results = new float[texts.size()][];

        // 并发处理
        List<CompletableFuture<Void>> futures = new ArrayList<>();

        for (int batchIndex = 0; batchIndex < totalBatches; batchIndex++) {
            final int idx = batchIndex;
            final List<String> batch = batches.get(idx);
            final int startOffset = idx * BATCH_SIZE;

            CompletableFuture<Void> future = CompletableFuture.runAsync(() -> {
                // 获取并发令牌
                try {
                    concurrencySemaphore.acquire();
                } catch (InterruptedException e) {
                    Thread.currentThread().interrupt();
                    throw new RuntimeException(e);
                }

                // 速率限制
                rateLimiter.acquire();

                try {
                    // 调用嵌入API
                    List<float[]> batchEmbeddings = callEmbeddingAPI(batch);

                    // 写回结果数组
                    for (int i = 0; i < batchEmbeddings.size(); i++) {
                        results[startOffset + i] = batchEmbeddings.get(i);
                    }

                    int processed = processedCount.addAndGet(batch.size());

                    // 回调进度
                    if (progressCallback != null) {
                        double progress = (double) processed / texts.size() * 100;
                        long elapsed = System.currentTimeMillis() - startTime;
                        double rps = (double) processed / elapsed * 1000;
                        long etaMs = (long)((texts.size() - processed) / rps * 1000);

                        progressCallback.accept(new EmbeddingProgress(
                            processed, texts.size(), progress, rps, etaMs));
                    }

                    log.debug("批次 {}/{} 完成 | 当前进度: {}/{}",
                        idx + 1, totalBatches, processedCount.get(), texts.size());

                } finally {
                    concurrencySemaphore.release();
                }

            }, embeddingExecutor);

            futures.add(future);
        }

        // 等待所有批次完成
        try {
            CompletableFuture.allOf(futures.toArray(new CompletableFuture[0]))
                .get(30, TimeUnit.MINUTES);
        } catch (Exception e) {
            throw new RuntimeException("批量嵌入失败", e);
        }

        long totalTime = System.currentTimeMillis() - startTime;
        double avgRps = texts.size() * 1000.0 / totalTime;

        log.info("批量嵌入完成 | 总数量: {} | 耗时: {}ms | 平均速率: {:.1f}条/秒",
            texts.size(), totalTime, avgRps);

        return Arrays.asList(results);
    }

    /**
     * 调用嵌入API（带重试）
     */
    private List<float[]> callEmbeddingAPI(List<String> texts) {
        int maxRetries = 3;
        for (int attempt = 0; attempt < maxRetries; attempt++) {
            try {
                // 使用Spring AI批量嵌入
                EmbeddingRequest request = new EmbeddingRequest(
                    texts,
                    EmbeddingOptions.EMPTY
                );
                EmbeddingResponse response = embeddingModel.call(request);

                return response.getResults().stream()
                    .map(r -> r.getOutput())
                    .collect(Collectors.toList());

            } catch (RateLimitException e) {
                if (attempt < maxRetries - 1) {
                    long sleepMs = 1000L * (long) Math.pow(2, attempt);
                    log.warn("遇到Rate Limit，等待{}ms后重试（第{}次）", sleepMs, attempt + 1);
                    try { Thread.sleep(sleepMs); } catch (InterruptedException ie) {
                        Thread.currentThread().interrupt();
                        throw new RuntimeException(ie);
                    }
                } else {
                    throw e;
                }
            }
        }
        throw new RuntimeException("批量嵌入重试次数耗尽");
    }

    private <T> List<List<T>> partition(List<T> list, int size) {
        List<List<T>> result = new ArrayList<>();
        for (int i = 0; i < list.size(); i += size) {
            result.add(new ArrayList<>(list.subList(i, Math.min(i + size, list.size()))));
        }
        return result;
    }
}

3. 本地嵌入模型：零API成本的方案

3.1 为什么用本地模型

成本对比（嵌入100万条文本）：

OpenAI 3-small：
  100万 × 200字符 / 4字符/token = 5000万tokens
  成本：5000万 / 100万 × $0.02 = $1

BGE-M3本地部署：
  一次性硬件：1台GPU服务器 or 云GPU实例
  运行成本：电费（约$0.01/小时）
  100万条：约30分钟 = $0.005

对于百万级以上的场景，本地模型更划算。
中文场景：BGE-M3质量比OpenAI更好。

3.2 Spring AI集成本地嵌入（Ollama）

/**
 * 本地嵌入模型配置（使用Ollama）
 * 支持BGE-M3、nomic-embed等本地模型
 */
@Configuration
public class LocalEmbeddingConfig {

    /**
     * 使用Ollama运行本地嵌入模型
     * 启动命令：ollama run nomic-embed-text
     *           ollama run bge-m3
     */
    @Bean
    @Profile("local-embedding")
    public EmbeddingModel localEmbeddingModel() {
        return new OllamaEmbeddingModel(
            new OllamaApi("http://localhost:11434"),
            OllamaOptions.builder()
                .withModel("nomic-embed-text")  // 或 bge-m3
                .build()
        );
    }

    /**
     * 使用HuggingFace本地服务（更高吞吐量）
     * 启动：python -m text_embeddings_inference --model-id BAAI/bge-m3 --port 8080
     */
    @Bean
    @Profile("hf-embedding")
    public EmbeddingModel hfLocalEmbeddingModel() {
        return new HuggingFaceEmbeddingModel(
            WebClient.builder()
                .baseUrl("http://localhost:8080")
                .build()
        );
    }
}

/**
 * HuggingFace Text Embeddings Inference客户端
 */
@Component
@Slf4j
public class HuggingFaceEmbeddingModel implements EmbeddingModel {

    private final WebClient webClient;
    private final ObjectMapper objectMapper = new ObjectMapper();

    public HuggingFaceEmbeddingModel(WebClient webClient) {
        this.webClient = webClient;
    }

    @Override
    public EmbeddingResponse call(EmbeddingRequest request) {
        List<String> texts = request.getInstructions();

        // 批量调用TEI API
        Map<String, Object> body = Map.of("inputs", texts);

        List<List<Float>> embeddings = webClient.post()
            .uri("/embed")
            .contentType(MediaType.APPLICATION_JSON)
            .bodyValue(body)
            .retrieve()
            .bodyToMono(new ParameterizedTypeReference<List<List<Float>>>() {})
            .block(Duration.ofSeconds(30));

        // 转换为Spring AI格式
        List<Embedding> results = new ArrayList<>();
        for (int i = 0; i < embeddings.size(); i++) {
            List<Float> embedding = embeddings.get(i);
            float[] array = new float[embedding.size()];
            for (int j = 0; j < embedding.size(); j++) {
                array[j] = embedding.get(j);
            }
            results.add(new Embedding(array, i));
        }

        return new EmbeddingResponse(results);
    }
}

3.3 本地模型性能优化（GPU加速）

/**
 * 本地嵌入服务性能测试
 * 对比CPU、单GPU、多GPU的性能
 */
@Service
@Slf4j
public class LocalEmbeddingBenchmark {

    @Autowired
    private HuggingFaceEmbeddingModel hfModel;

    /**
     * 性能测试：测量不同批次大小的吞吐量
     */
    public void benchmarkBatchSizes() {
        List<String> testTexts = generateTestTexts(1000);

        int[] batchSizes = {1, 8, 16, 32, 64, 128, 256, 512};

        log.info("本地嵌入模型性能测试");
        log.info("批次大小 | 处理时间 | 吞吐量");

        for (int batchSize : batchSizes) {
            // 预热
            hfModel.call(new EmbeddingRequest(
                testTexts.subList(0, Math.min(batchSize, 10)),
                EmbeddingOptions.EMPTY));

            // 测试
            long start = System.currentTimeMillis();
            int processed = 0;

            for (int i = 0; i < testTexts.size(); i += batchSize) {
                int end = Math.min(i + batchSize, testTexts.size());
                List<String> batch = testTexts.subList(i, end);
                hfModel.call(new EmbeddingRequest(batch, EmbeddingOptions.EMPTY));
                processed += batch.size();
            }

            long elapsed = System.currentTimeMillis() - start;
            double throughput = processed * 1000.0 / elapsed;

            log.info("批次={} | {}ms | {:.0f}条/秒", batchSize, elapsed, throughput);
        }
    }

    private List<String> generateTestTexts(int count) {
        List<String> texts = new ArrayList<>();
        String[] templates = {
            "Java多线程编程中的%s问题",
            "Spring Boot自动配置原理：%s",
            "MySQL索引优化：%s场景",
            "Redis缓存设计：%s方案",
            "分布式系统中的%s挑战"
        };
        String[] variables = {"性能", "安全", "高可用", "扩展性", "一致性"};

        Random random = new Random(42);
        for (int i = 0; i < count; i++) {
            String template = templates[random.nextInt(templates.length)];
            String variable = variables[random.nextInt(variables.length)];
            texts.add(String.format(template, variable) + " 第" + i + "篇");
        }
        return texts;
    }
}

4. 嵌入缓存：相同文本不重复嵌入

4.1 缓存策略设计

4.2 嵌入缓存实现

/**
 * 嵌入缓存服务
 * 两级缓存：本地Caffeine + Redis
 */
@Service
@Slf4j
public class CachedEmbeddingService {

    private final EmbeddingModel embeddingModel;
    private final RedisTemplate<String, float[]> redisTemplate;

    // L1: 本地缓存（最大500MB）
    private final Cache<String, float[]> localCache;

    // 统计
    private final AtomicLong totalRequests = new AtomicLong(0);
    private final AtomicLong l1Hits = new AtomicLong(0);
    private final AtomicLong l2Hits = new AtomicLong(0);
    private final AtomicLong apiCalls = new AtomicLong(0);

    private static final String REDIS_KEY_PREFIX = "emb:";
    private static final Duration REDIS_TTL = Duration.ofDays(30);  // 嵌入向量稳定，缓存时间长

    public CachedEmbeddingService(
            EmbeddingModel embeddingModel,
            RedisTemplate<String, float[]> redisTemplate) {
        this.embeddingModel = embeddingModel;
        this.redisTemplate = redisTemplate;

        this.localCache = Caffeine.newBuilder()
            .maximumWeight(500 * 1024 * 1024L)
            .weigher((String key, float[] value) -> value.length * 4)
            .expireAfterAccess(Duration.ofHours(4))
            .recordStats()
            .build();
    }

    /**
     * 单条嵌入（带缓存）
     */
    public float[] embed(String text) {
        totalRequests.incrementAndGet();

        // 归一化文本（去除首尾空白，统一换行符）
        String normalizedText = normalizeText(text);
        String cacheKey = computeKey(normalizedText);

        // L1查询
        float[] embedding = localCache.getIfPresent(cacheKey);
        if (embedding != null) {
            l1Hits.incrementAndGet();
            return embedding;
        }

        // L2查询
        String redisKey = REDIS_KEY_PREFIX + cacheKey;
        embedding = redisTemplate.opsForValue().get(redisKey);
        if (embedding != null) {
            l2Hits.incrementAndGet();
            localCache.put(cacheKey, embedding);  // 回填L1
            return embedding;
        }

        // API调用
        apiCalls.incrementAndGet();
        embedding = embeddingModel.embed(normalizedText);

        // 缓存
        localCache.put(cacheKey, embedding);
        redisTemplate.opsForValue().set(redisKey, embedding, REDIS_TTL);

        return embedding;
    }

    /**
     * 批量嵌入（带缓存+去重）
     */
    public List<float[]> batchEmbed(List<String> texts) {
        // 去重：相同文本只嵌入一次
        Map<String, Integer> firstOccurrence = new LinkedHashMap<>();
        List<String> uniqueTexts = new ArrayList<>();

        for (int i = 0; i < texts.size(); i++) {
            String key = computeKey(normalizeText(texts.get(i)));
            if (!firstOccurrence.containsKey(key)) {
                firstOccurrence.put(key, uniqueTexts.size());
                uniqueTexts.add(texts.get(i));
            }
        }

        int dedupeCount = texts.size() - uniqueTexts.size();
        if (dedupeCount > 0) {
            log.debug("去重优化 | 原始: {} | 去重后: {} | 节省: {}",
                texts.size(), uniqueTexts.size(), dedupeCount);
        }

        // 分类：缓存命中 vs 需要调用API
        Map<String, float[]> cachedResults = new HashMap<>();
        List<String> uncachedTexts = new ArrayList<>();

        for (String text : uniqueTexts) {
            String key = computeKey(normalizeText(text));
            float[] cached = getCachedEmbedding(key);
            if (cached != null) {
                cachedResults.put(key, cached);
            } else {
                uncachedTexts.add(text);
            }
        }

        log.debug("缓存分析 | 总量: {} | 缓存命中: {} | 需调用API: {}",
            uniqueTexts.size(), cachedResults.size(), uncachedTexts.size());

        // 批量调用API（只处理未缓存的）
        Map<String, float[]> apiResults = new HashMap<>();
        if (!uncachedTexts.isEmpty()) {
            List<float[]> embeddings = batchCallAPI(uncachedTexts);
            for (int i = 0; i < uncachedTexts.size(); i++) {
                String key = computeKey(normalizeText(uncachedTexts.get(i)));
                float[] embedding = embeddings.get(i);
                apiResults.put(key, embedding);
                // 回填缓存
                localCache.put(key, embedding);
                redisTemplate.opsForValue().set(REDIS_KEY_PREFIX + key, embedding, REDIS_TTL);
            }
        }

        // 合并结果，按原始顺序返回
        List<float[]> results = new ArrayList<>(texts.size());
        for (String text : texts) {
            String key = computeKey(normalizeText(text));
            float[] embedding = cachedResults.getOrDefault(key, apiResults.get(key));
            results.add(embedding);
        }

        return results;
    }

    private float[] getCachedEmbedding(String key) {
        float[] local = localCache.getIfPresent(key);
        if (local != null) {
            l1Hits.incrementAndGet();
            return local;
        }

        float[] redis = redisTemplate.opsForValue().get(REDIS_KEY_PREFIX + key);
        if (redis != null) {
            l2Hits.incrementAndGet();
            localCache.put(key, redis);
            return redis;
        }

        return null;
    }

    private String normalizeText(String text) {
        return text.trim().replaceAll("\\s+", " ");
    }

    private String computeKey(String text) {
        return DigestUtils.md5DigestAsHex(text.getBytes(StandardCharsets.UTF_8));
    }

    @Scheduled(fixedRate = 60000)
    public void reportCacheStats() {
        long total = totalRequests.get();
        long l1 = l1Hits.get();
        long l2 = l2Hits.get();
        long api = apiCalls.get();

        if (total > 0) {
            log.info("嵌入缓存统计 | 总请求: {} | L1命中: {}({:.1f}%) | L2命中: {}({:.1f}%) | API调用: {}({:.1f}%)",
                total,
                l1, (double)l1/total*100,
                l2, (double)l2/total*100,
                api, (double)api/total*100);
        }
    }
}

5. 增量嵌入：只对变更内容重新嵌入

5.1 增量嵌入架构

5.2 增量嵌入实现

/**
 * 增量文档嵌入服务
 * 只对变更的内容重新嵌入
 */
@Service
@Slf4j
public class IncrementalEmbeddingService {

    private final CachedEmbeddingService embeddingService;
    private final DocumentChunkRepository chunkRepository;
    private final VectorStoreService vectorStore;

    /**
     * 增量更新文档嵌入
     *
     * @param document 待更新的文档
     * @return 更新统计
     */
    public UpdateStats updateDocumentEmbeddings(Document document) {
        String docId = document.getId();
        long startTime = System.currentTimeMillis();

        // 1. 计算文档总体哈希（快速判断是否有变更）
        String newDocHash = computeDocumentHash(document.getContent());
        String storedDocHash = chunkRepository.findDocumentHash(docId);

        if (newDocHash.equals(storedDocHash)) {
            log.debug("文档未变更，跳过 | doc_id: {}", docId);
            return UpdateStats.noChange(docId);
        }

        // 2. 分割成chunks
        List<DocumentChunk> newChunks = splitDocument(document);

        // 3. 获取已有chunks
        List<DocumentChunk> oldChunks = chunkRepository.findByDocumentId(docId);
        Map<String, DocumentChunk> oldChunksByHash = oldChunks.stream()
            .collect(Collectors.toMap(DocumentChunk::getContentHash, c -> c));

        // 4. 对比，找出变更的chunks
        List<DocumentChunk> chunksToEmbed = new ArrayList<>();
        List<DocumentChunk> unchangedChunks = new ArrayList<>();

        for (DocumentChunk newChunk : newChunks) {
            String chunkHash = computeChunkHash(newChunk.getContent());
            newChunk.setContentHash(chunkHash);

            if (oldChunksByHash.containsKey(chunkHash)) {
                // chunk未变更，复用旧向量
                DocumentChunk oldChunk = oldChunksByHash.get(chunkHash);
                newChunk.setEmbedding(oldChunk.getEmbedding());
                unchangedChunks.add(newChunk);
            } else {
                // chunk已变更或新增，需要重新嵌入
                chunksToEmbed.add(newChunk);
            }
        }

        log.info("增量分析 | doc_id: {} | 总chunks: {} | 需嵌入: {} | 复用: {}",
            docId, newChunks.size(), chunksToEmbed.size(), unchangedChunks.size());

        // 5. 只嵌入变更的chunks
        if (!chunksToEmbed.isEmpty()) {
            List<String> texts = chunksToEmbed.stream()
                .map(DocumentChunk::getContent)
                .collect(Collectors.toList());

            List<float[]> embeddings = embeddingService.batchEmbed(texts);

            for (int i = 0; i < chunksToEmbed.size(); i++) {
                chunksToEmbed.get(i).setEmbedding(embeddings.get(i));
            }
        }

        // 6. 删除旧chunks，保存新chunks
        chunkRepository.deleteByDocumentId(docId);

        List<DocumentChunk> allNewChunks = new ArrayList<>();
        allNewChunks.addAll(chunksToEmbed);
        allNewChunks.addAll(unchangedChunks);

        // 更新文档顺序
        for (int i = 0; i < newChunks.size(); i++) {
            newChunks.get(i).setChunkIndex(i);
        }

        chunkRepository.saveAll(allNewChunks);
        chunkRepository.updateDocumentHash(docId, newDocHash);

        // 7. 更新向量库
        vectorStore.deleteByDocumentId(docId);
        vectorStore.upsertChunks(allNewChunks);

        long elapsed = System.currentTimeMillis() - startTime;

        UpdateStats stats = UpdateStats.builder()
            .docId(docId)
            .totalChunks(newChunks.size())
            .embeddedChunks(chunksToEmbed.size())
            .reuseChunks(unchangedChunks.size())
            .savedApiCalls(unchangedChunks.size())
            .elapsedMs(elapsed)
            .build();

        log.info("增量更新完成 | {} | 节省API调用: {}次 | 耗时: {}ms",
            docId, stats.getSavedApiCalls(), elapsed);

        return stats;
    }

    /**
     * 批量增量更新（并发处理多个文档）
     */
    public BatchUpdateStats batchUpdateDocuments(List<Document> documents) {
        int concurrency = 5;
        ExecutorService executor = Executors.newFixedThreadPool(concurrency);

        List<CompletableFuture<UpdateStats>> futures = documents.stream()
            .map(doc -> CompletableFuture.supplyAsync(
                () -> updateDocumentEmbeddings(doc), executor))
            .collect(Collectors.toList());

        List<UpdateStats> stats = futures.stream()
            .map(f -> {
                try {
                    return f.get(5, TimeUnit.MINUTES);
                } catch (Exception e) {
                    log.error("文档更新失败", e);
                    return UpdateStats.failed();
                }
            })
            .collect(Collectors.toList());

        executor.shutdown();

        long totalEmbedded = stats.stream().mapToLong(UpdateStats::getEmbeddedChunks).sum();
        long totalReused = stats.stream().mapToLong(UpdateStats::getReuseChunks).sum();
        long totalNoChange = stats.stream().filter(s -> s.getTotalChunks() == 0).count();

        return BatchUpdateStats.builder()
            .totalDocuments(documents.size())
            .noChangeDocuments((int) totalNoChange)
            .totalChunksEmbedded(totalEmbedded)
            .totalChunksReused(totalReused)
            .reuseRate(String.format("%.1f%%",
                (double)totalReused/(totalEmbedded+totalReused)*100))
            .build();
    }

    private String computeDocumentHash(String content) {
        return DigestUtils.sha256Hex(content);
    }

    private String computeChunkHash(String content) {
        return DigestUtils.md5DigestAsHex(content.getBytes(StandardCharsets.UTF_8));
    }
}

6. 嵌入质量评估：量化"好"与"差"

6.1 嵌入质量指标

/**
 * 嵌入质量评估框架
 * 量化评估嵌入模型在特定领域的表现
 */
@Service
@Slf4j
public class EmbeddingQualityFramework {

    /**
     * 评估指标1：命中率（Hit Rate）
     * 给定问题，Top-K检索结果中包含正确答案的比例
     */
    public HitRateResult evaluateHitRate(
            List<EvaluationSample> samples,
            int topK,
            EmbeddingModel embeddingModel,
            VectorStoreService vectorStore) {

        int hits = 0;
        int total = samples.size();

        for (EvaluationSample sample : samples) {
            float[] queryEmbedding = embeddingModel.embed(sample.getQuestion());
            List<String> retrievedIds = vectorStore.search(queryEmbedding, topK).stream()
                .map(VectorSearchResult::getId)
                .collect(Collectors.toList());

            if (retrievedIds.contains(sample.getExpectedDocumentId())) {
                hits++;
            }
        }

        double hitRate = (double) hits / total;
        log.info("命中率评估 | 模型: {} | TopK: {} | 命中率: {:.2f}%",
            embeddingModel.getClass().getSimpleName(), topK, hitRate * 100);

        return new HitRateResult(hitRate, hits, total);
    }

    /**
     * 评估指标2：MRR（Mean Reciprocal Rank）
     * 正确答案在检索结果中的平均倒数排名
     */
    public double evaluateMRR(
            List<EvaluationSample> samples,
            int topK,
            EmbeddingModel embeddingModel,
            VectorStoreService vectorStore) {

        double totalRR = 0;

        for (EvaluationSample sample : samples) {
            float[] queryEmbedding = embeddingModel.embed(sample.getQuestion());
            List<String> retrievedIds = vectorStore.search(queryEmbedding, topK).stream()
                .map(VectorSearchResult::getId)
                .collect(Collectors.toList());

            for (int rank = 0; rank < retrievedIds.size(); rank++) {
                if (retrievedIds.get(rank).equals(sample.getExpectedDocumentId())) {
                    totalRR += 1.0 / (rank + 1);
                    break;
                }
            }
        }

        double mrr = totalRR / samples.size();
        log.info("MRR评估 | TopK: {} | MRR: {:.4f}", topK, mrr);
        return mrr;
    }

    /**
     * 完整对比评估（多个模型）
     */
    public EvaluationComparisonReport compareModels(
            List<EvaluationSample> samples,
            Map<String, EmbeddingModel> models,
            VectorStoreService vectorStore) {

        Map<String, ModelEvalResult> results = new LinkedHashMap<>();

        for (Map.Entry<String, EmbeddingModel> entry : models.entrySet()) {
            String modelName = entry.getKey();
            EmbeddingModel model = entry.getValue();

            long start = System.currentTimeMillis();
            HitRateResult hitRate5 = evaluateHitRate(samples, 5, model, vectorStore);
            HitRateResult hitRate10 = evaluateHitRate(samples, 10, model, vectorStore);
            double mrr = evaluateMRR(samples, 10, model, vectorStore);
            long elapsed = System.currentTimeMillis() - start;

            results.put(modelName, ModelEvalResult.builder()
                .hitRate5(hitRate5.getHitRate())
                .hitRate10(hitRate10.getHitRate())
                .mrr(mrr)
                .evalTimeMs(elapsed)
                .build());
        }

        // 打印对比表格
        log.info("\n========== 嵌入模型评估对比 ==========");
        log.info("{:<20} {:>10} {:>10} {:>10} {:>10}",
            "模型", "Hit@5", "Hit@10", "MRR", "评估耗时");
        for (Map.Entry<String, ModelEvalResult> entry : results.entrySet()) {
            ModelEvalResult r = entry.getValue();
            log.info("{:<20} {:>9.2f}% {:>9.2f}% {:>9.4f} {:>9}ms",
                entry.getKey(),
                r.getHitRate5() * 100,
                r.getHitRate10() * 100,
                r.getMrr(),
                r.getEvalTimeMs());
        }

        return new EvaluationComparisonReport(results);
    }
}

7. 并发嵌入：线程池配置最优解

7.1 线程池参数计算

嵌入API调用特性：
  - IO密集型（等待网络响应）
  - 单次调用延迟：50-500ms
  - 主要时间在IO等待

线程池大小公式（IO密集型）：
  线程数 = CPU核心数 × (1 + 等待时间/计算时间)
  等待时间/计算时间 ≈ 50（网络延迟50ms，计算约1ms）
  8核 × (1 + 50) = 408个线程（理论值）

实际限制：
  - Rate Limit：8 batches/sec = 8个并发就够了
  - 连接池大小：20个
  - 推荐：min(Rate Limit并发, 连接池大小) = 8

结论：嵌入并发线程数 = 8

7.2 生产级线程池配置

/**
 * 嵌入服务的线程池配置
 */
@Configuration
public class EmbeddingThreadPoolConfig {

    /**
     * 嵌入线程池
     * 根据Rate Limit动态调整并发数
     */
    @Bean("embeddingExecutor")
    public ThreadPoolTaskExecutor embeddingExecutor(
            @Value("${embedding.concurrency:8}") int concurrency) {

        ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
        executor.setCorePoolSize(concurrency);
        executor.setMaxPoolSize(concurrency);
        executor.setQueueCapacity(1000);        // 队列1000个任务
        executor.setKeepAliveSeconds(30);
        executor.setThreadNamePrefix("emb-worker-");
        executor.setRejectedExecutionHandler(
            new ThreadPoolExecutor.CallerRunsPolicy()  // 队列满时调用线程直接执行
        );

        // 异常处理
        executor.setTaskDecorator(runnable -> () -> {
            try {
                runnable.run();
            } catch (Exception e) {
                log.error("嵌入任务执行失败", e);
                throw e;
            }
        });

        executor.initialize();
        return executor;
    }
}

/**
 * 并发嵌入服务（带超时控制）
 */
@Service
@Slf4j
public class ConcurrentEmbeddingService {

    @Autowired
    @Qualifier("embeddingExecutor")
    private ThreadPoolTaskExecutor embeddingExecutor;

    @Autowired
    private CachedEmbeddingService cachedEmbeddingService;

    /**
     * 并发批量嵌入
     * 超大量文档分块后并发处理
     *
     * @param documents 文档列表
     * @param chunkSize 每个并发任务处理的文档数
     */
    public List<float[]> concurrentBatchEmbed(
            List<String> documents,
            int chunkSize) {

        if (documents.isEmpty()) return Collections.emptyList();

        List<List<String>> chunks = partition(documents, chunkSize);
        float[][] results = new float[documents.size()][];

        List<CompletableFuture<Void>> futures = new ArrayList<>();
        AtomicInteger chunkIndex = new AtomicInteger(0);

        for (List<String> chunk : chunks) {
            final int chunkIdx = chunkIndex.getAndIncrement();
            final int startOffset = chunkIdx * chunkSize;

            CompletableFuture<Void> future = CompletableFuture.runAsync(() -> {
                List<float[]> embeddings = cachedEmbeddingService.batchEmbed(chunk);
                for (int i = 0; i < embeddings.size(); i++) {
                    results[startOffset + i] = embeddings.get(i);
                }
            }, embeddingExecutor.getThreadPoolExecutor())
            .orTimeout(5, TimeUnit.MINUTES);  // 5分钟超时

            futures.add(future);
        }

        try {
            CompletableFuture.allOf(futures.toArray(new CompletableFuture[0])).join();
        } catch (CompletionException e) {
            log.error("并发嵌入失败", e.getCause());
            throw new RuntimeException("嵌入失败", e.getCause());
        }

        return Arrays.asList(results);
    }

    private <T> List<List<T>> partition(List<T> list, int size) {
        List<List<T>> result = new ArrayList<>();
        for (int i = 0; i < list.size(); i += size) {
            result.add(list.subList(i, Math.min(i + size, list.size())));
        }
        return result;
    }
}

8. 实战数据：1万篇文档嵌入时间对比

8.1 各优化阶段数据

===== 测试环境 =====
文档数：10,000篇
平均文档大小：3,200字符
分割后总chunks：120,000个
嵌入模型：OpenAI text-embedding-3-small
服务器：8核16GB，上海到OpenAI的RTT约120ms

===== 各阶段耗时 =====

阶段0：串行逐条调用
  速率：1条/55ms = 18条/秒
  时间：120,000 / 18 = 6,666秒 = 111分钟
  API调用次数：120,000次
  费用：120,000 × 200tokens × $0.02/百万 = $0.48

阶段1：批量调用（100条/批）
  速率：100条/380ms = 263条/秒（不含网络并发）
  批次数：1,200批
  时间：1,200 × 380ms = 456秒 = 7.6分钟（串行）
  但Rate Limit限制：约18分钟
  费用：相同

阶段2：并发批量（8线程 × 100条/批）
  并发：8路
  Rate Limit控制在0.8 batch/sec
  有效并发：0.8 × 8（不是简单乘法，受Rate Limit控制）
  实际时间：约6分钟
  费用：相同

阶段3：增量嵌入（典型每周更新场景）
  每周变更：新增500篇 + 修改300篇 = 800篇
  变更chunks：9,600个
  时间：9,600 / 263 = 36秒（+Rate Limit缓冲）≈ 1.5分钟
  费用：$0.038（节省92%）

阶段4：缓存命中（同一批文档第二次处理）
  缓存命中率：95%（大部分chunk未变更）
  实际需要嵌入：6,000个新/变更chunks
  时间：~20秒
  费用：$0.024

===== 最终效果汇总 =====
场景          耗时        费用      改进
全量重建      111分钟    $0.48    基准
全量（优化后）6分钟      $0.48    速度18x
每周增量       1.5分钟   $0.038   速度74x，费用节省92%
热缓存更新    15秒       $0.024   速度444x，费用节省95%

8.2 监控大屏配置

/**
 * 嵌入性能监控指标（Prometheus）
 */
@Component
public class EmbeddingMetrics {

    private final Timer embeddingTimer;
    private final Counter embeddingCounter;
    private final Gauge cacheHitRate;
    private final DistributionSummary batchSizeSummary;

    public EmbeddingMetrics(MeterRegistry registry) {
        this.embeddingTimer = Timer.builder("embedding.duration")
            .publishPercentiles(0.5, 0.95, 0.99)
            .register(registry);

        this.embeddingCounter = Counter.builder("embedding.requests.total")
            .register(registry);

        this.cacheHitRate = Gauge.builder("embedding.cache.hit_rate",
            this, EmbeddingMetrics::calculateCacheHitRate)
            .register(registry);

        this.batchSizeSummary = DistributionSummary.builder("embedding.batch.size")
            .register(registry);
    }

    private double calculateCacheHitRate() {
        // 从CachedEmbeddingService获取命中率
        return 0.0;  // 实际实现需要注入
    }
}

FAQ

Q1：BGE-M3在本地部署，需要什么硬件配置？

A：BGE-M3参数约570M，本地CPU推理单条约200ms，批量(32条)约800ms，约40条/秒。如果需要更高吞吐，NVIDIA T4 GPU单批可达500条/秒。最低配置：16GB RAM + 8核CPU可以满足中小规模（每天<50万条）的嵌入需求。

Q2：嵌入缓存中的向量，如果嵌入模型版本升级了，怎么处理？

A：在缓存Key中加入模型版本号，例如emb:v3-small:{text_hash}。模型升级时，旧版本Key自然会过期，新版本会重新嵌入。建议同时为每个文档记录嵌入时使用的模型版本，方便后续数据清理。

Q3：批量嵌入时，如果其中某几条文本超出了Token限制，怎么处理？

A：最佳实践：在分割chunk时就控制好最大长度（通常500-800 tokens）。如果运行时遇到超长，有两种策略：1）截断（简单但可能损失信息）；2）把这条单独拆成更小的sub-chunk分别嵌入，然后取平均向量（效果更好）。

Q4：增量嵌入时，如何判断chunk是否变化？用全文哈希还是语义相似度？

A：用内容哈希（MD5/SHA256），不要用语义相似度。原因：1）哈希计算极快，语义相似度需要调用嵌入API；2）哈希是精确匹配，不存在"差不多变了"的模糊情况；3）即使两个chunk的语义相似，但如果内容不同，通常也应该重新嵌入。

Q5：嵌入模型切换（比如从OpenAI换成BGE-M3），旧的向量还能用吗？

A：不能直接混用。不同模型的向量空间完全不同，余弦相似度没有可比性。切换模型时，需要对所有文档重新嵌入并重建向量库。建议：1）新旧向量库并行运行，用AB测试验证质量；2）确认新模型效果后，一次性全量迁移。

总结

Embedding嵌入优化的核心思路：

批量化：从单条串行变批量（100条/次），速度立即10-15倍提升
并发化：多线程并发批次，在Rate Limit范围内最大化吞吐
增量化：只嵌入变更的内容，配合哈希对比
缓存化：相同文本不重复嵌入，两级缓存覆盖热点

这四步组合，可以把嵌入时间从小时级压缩到分钟级，甚至秒级。