第2220篇：多模态Embedding的检索精度优化——从CLIP到最新多模态向量模型

老张大约 11 分钟

第2220篇：多模态Embedding的检索精度优化——从CLIP到最新多模态向量模型

适读人群：做多模态检索、图文搜索系统的工程师 | 阅读时长：约17分钟 | 核心价值：掌握多模态Embedding的选型、微调和检索精度优化方法

做图文检索系统最让人崩溃的时刻，是当用户搜索"红色运动鞋"，系统返回的前三个结果是：一双蓝色皮鞋、一件红色T恤、一双橙色跑鞋。

每个结果都沾边，但都不对。

这是我两年前做电商多模态搜索时遇到的真实场景。那时我们直接用了 CLIP 的开源模型，结果发现它在通用场景下还行，但在电商垂直领域，属性理解精度惨不忍睹——颜色混淆率超过 20%，品类混淆更严重。

这篇文章把我们走过的路系统地讲一遍：从理解多模态 Embedding 的原理，到选型，到优化检索精度，有完整的工程代码。

多模态 Embedding 的工作原理

CLIP（Contrastive Language-Image Pretraining）的核心思想是：用大量图文对做对比学习，让描述同一内容的图片和文字在向量空间中靠近，无关的图文对拉开距离。

CLIP的局限性：

通用性优先，垂直场景精度不足。 CLIP 训练数据来自互联网，擅长理解通用概念，对"2024春夏新款宽松直筒牛仔裤"这类电商描述理解有限。
细粒度属性理解弱。 颜色、材质、款式等细粒度属性的向量区分度不如专门训练的模型。
中文支持参差不齐。 OpenAI 的 CLIP 对中文支持很弱，需要中文多模态模型。

主流多模态 Embedding 模型对比

/**
 * 多模态 Embedding 模型适配器
 * 统一封装不同模型的调用接口
 */
public interface MultimodalEmbeddingModel {
    float[] embedText(String text);
    float[] embedImage(byte[] imageBytes);
    int getDimension();
    String getModelName();
}

/**
 * OpenAI CLIP 适配器
 * 使用 CLIP ViT-L/14，维度 768
 */
@Component("clipModel")
public class ClipEmbeddingModel implements MultimodalEmbeddingModel {

    @Autowired
    private OpenAiClient openAiClient;

    @Override
    public float[] embedText(String text) {
        // CLIP 文本编码
        return openAiClient.embedText(text, "clip-vit-large-patch14");
    }

    @Override
    public float[] embedImage(byte[] imageBytes) {
        String base64 = Base64.getEncoder().encodeToString(imageBytes);
        return openAiClient.embedImage(base64, "clip-vit-large-patch14");
    }

    @Override
    public int getDimension() { return 768; }

    @Override
    public String getModelName() { return "clip-vit-large-patch14"; }
}

/**
 * 阿里 EMU / 通义万相 多模态 Embedding
 * 对中文和电商场景有专门优化
 */
@Component("aliMultimodalModel")
public class AliMultimodalEmbeddingModel implements MultimodalEmbeddingModel {

    @Autowired
    private DashScopeClient dashScopeClient;

    @Override
    public float[] embedText(String text) {
        return dashScopeClient.embedMultimodalText(text);
    }

    @Override
    public float[] embedImage(byte[] imageBytes) {
        return dashScopeClient.embedMultimodalImage(imageBytes);
    }

    @Override
    public int getDimension() { return 1024; }

    @Override
    public String getModelName() { return "multimodal-embedding-v1"; }
}

/**
 * 本地部署的 E5-Mistral 多模态模型
 * 适合对数据隐私有要求的场景
 */
@Component("localMultimodalModel")
public class LocalMultimodalEmbeddingModel implements MultimodalEmbeddingModel {

    @Value("${local.embedding.endpoint:http://localhost:8080}")
    private String endpoint;

    private final RestTemplate restTemplate = new RestTemplate();

    @Override
    public float[] embedText(String text) {
        Map<String, Object> request = Map.of("text", text, "type", "text");
        float[] result = restTemplate.postForObject(endpoint + "/embed", request, float[].class);
        return result != null ? result : new float[0];
    }

    @Override
    public float[] embedImage(byte[] imageBytes) {
        String base64 = Base64.getEncoder().encodeToString(imageBytes);
        Map<String, Object> request = Map.of("image", base64, "type", "image");
        float[] result = restTemplate.postForObject(endpoint + "/embed", request, float[].class);
        return result != null ? result : new float[0];
    }

    @Override
    public int getDimension() { return 4096; }

    @Override
    public String getModelName() { return "local-multimodal-e5"; }
}

检索精度评估框架

在优化之前，要先能量化当前精度：

/**
 * 多模态检索精度评估器
 * 计算 Recall@K、NDCG、MRR 等标准检索指标
 */
@Service
@Slf4j
public class RetrievalEvaluator {

    @Autowired
    private MultimodalVectorStore vectorStore;

    @Autowired
    private MultimodalEmbeddingModel embeddingModel;

    /**
     * 在评估数据集上计算多项检索指标
     *
     * @param evalDataset 评估数据集（每项包含查询和正确结果的ID列表）
     * @param topK 检索的K值
     */
    public EvaluationReport evaluate(List<EvalItem> evalDataset, int topK) {
        List<Double> recallAtK = new ArrayList<>();
        List<Double> precisionAtK = new ArrayList<>();
        List<Double> ndcgAtK = new ArrayList<>();
        List<Double> mrrValues = new ArrayList<>();

        for (EvalItem item : evalDataset) {
            // 获取查询向量
            float[] queryVector = switch (item.getQueryType()) {
                case TEXT -> embeddingModel.embedText(item.getQueryText());
                case IMAGE -> embeddingModel.embedImage(item.getQueryImageBytes());
            };

            // 检索
            List<SearchResult> results = vectorStore.search(queryVector, topK);
            List<String> retrievedIds = results.stream()
                    .map(SearchResult::getItemId)
                    .collect(Collectors.toList());

            Set<String> relevantIds = new HashSet<>(item.getRelevantItemIds());

            // 计算各指标
            recallAtK.add(calculateRecallAtK(retrievedIds, relevantIds, topK));
            precisionAtK.add(calculatePrecisionAtK(retrievedIds, relevantIds, topK));
            ndcgAtK.add(calculateNDCG(retrievedIds, relevantIds, topK));
            mrrValues.add(calculateMRR(retrievedIds, relevantIds));
        }

        return EvaluationReport.builder()
                .recallAtK(average(recallAtK))
                .precisionAtK(average(precisionAtK))
                .ndcgAtK(average(ndcgAtK))
                .mrr(average(mrrValues))
                .totalEvalItems(evalDataset.size())
                .topK(topK)
                .build();
    }

    /**
     * Recall@K：前K个结果中，相关结果占所有相关结果的比例
     */
    private double calculateRecallAtK(List<String> retrieved, Set<String> relevant, int k) {
        if (relevant.isEmpty()) return 1.0;
        long hits = retrieved.subList(0, Math.min(k, retrieved.size())).stream()
                .filter(relevant::contains)
                .count();
        return (double) hits / relevant.size();
    }

    /**
     * Precision@K：前K个结果中，相关结果的比例
     */
    private double calculatePrecisionAtK(List<String> retrieved, Set<String> relevant, int k) {
        if (retrieved.isEmpty()) return 0.0;
        List<String> topK = retrieved.subList(0, Math.min(k, retrieved.size()));
        long hits = topK.stream().filter(relevant::contains).count();
        return (double) hits / topK.size();
    }

    /**
     * NDCG@K：归一化折损累积增益，考虑排序质量
     */
    private double calculateNDCG(List<String> retrieved, Set<String> relevant, int k) {
        List<String> topK = retrieved.subList(0, Math.min(k, retrieved.size()));

        // 计算DCG
        double dcg = 0;
        for (int i = 0; i < topK.size(); i++) {
            if (relevant.contains(topK.get(i))) {
                dcg += 1.0 / (Math.log(i + 2) / Math.log(2));
            }
        }

        // 计算理想DCG（IDCG）
        double idcg = 0;
        int perfectHits = Math.min(relevant.size(), k);
        for (int i = 0; i < perfectHits; i++) {
            idcg += 1.0 / (Math.log(i + 2) / Math.log(2));
        }

        return idcg == 0 ? 0 : dcg / idcg;
    }

    /**
     * MRR：平均倒数排名，考虑第一个相关结果的位置
     */
    private double calculateMRR(List<String> retrieved, Set<String> relevant) {
        for (int i = 0; i < retrieved.size(); i++) {
            if (relevant.contains(retrieved.get(i))) {
                return 1.0 / (i + 1);
            }
        }
        return 0.0;
    }

    private double average(List<Double> values) {
        return values.stream().mapToDouble(Double::doubleValue).average().orElse(0.0);
    }
}

检索精度优化策略一：查询扩展

原始查询往往不包含足够的视觉特征描述：

/**
 * 多模态查询扩展服务
 * 通过 LLM 扩展查询的视觉特征描述，提升检索精度
 */
@Service
@Slf4j
public class MultimodalQueryExpander {

    @Autowired
    private OpenAiClient openAiClient;

    @Autowired
    private MultimodalEmbeddingModel embeddingModel;

    /**
     * 文本查询扩展：补充视觉特征描述
     */
    public ExpandedQuery expandTextQuery(String originalQuery, String domain) {
        String expansionPrompt = String.format("""
                用户在%s平台搜索："%s"
                
                请将这个搜索词扩展为更详细的视觉特征描述，用于图片检索。
                包含：颜色、形状、材质、风格等视觉可见属性。
                
                输出3个扩展版本，从具体到通用：
                1. 最具体版本（所有可能的视觉特征）
                2. 中等版本（核心视觉特征）
                3. 通用版本（最基本的视觉特征）
                
                格式：
                1. [具体描述]
                2. [中等描述]  
                3. [通用描述]
                """, domain, originalQuery);

        String expansion = openAiClient.chat(expansionPrompt);
        List<String> expandedQueries = parseExpandedQueries(expansion);
        expandedQueries.add(0, originalQuery); // 原始查询也保留

        // 对每个扩展查询计算向量，加权融合
        List<float[]> vectors = expandedQueries.stream()
                .map(embeddingModel::embedText)
                .collect(Collectors.toList());

        // 权重：原始查询权重最高
        float[] fusedVector = weightedAverageVectors(vectors, new double[]{0.4, 0.3, 0.2, 0.1});

        return ExpandedQuery.builder()
                .originalQuery(originalQuery)
                .expandedQueries(expandedQueries)
                .fusedVector(fusedVector)
                .build();
    }

    /**
     * 图片查询扩展：用LLM描述图片特征，再嵌入文本描述
     * 对于细粒度属性检索效果更好
     */
    public ExpandedQuery expandImageQuery(byte[] imageBytes) {
        String base64 = Base64.getEncoder().encodeToString(imageBytes);

        String descriptionPrompt = """
                请描述这张图片的视觉特征，用于图片检索系统。
                
                按优先级描述：
                1. 主体物品（是什么）
                2. 颜色（主色和辅色）
                3. 材质/质感
                4. 风格/用途
                5. 其他显著特征
                
                输出简洁的描述句，不要解释。
                """;

        String imageDescription = openAiClient.chatMultimodal(descriptionPrompt, base64, "image/jpeg");

        // 同时使用图片向量和文字描述向量
        float[] imageVector = embeddingModel.embedImage(imageBytes);
        float[] textVector = embeddingModel.embedText(imageDescription);

        // 融合：图片向量权重更高（因为是以图搜图场景）
        float[] fusedVector = weightedAverageVectors(
                Arrays.asList(imageVector, textVector),
                new double[]{0.7, 0.3}
        );

        return ExpandedQuery.builder()
                .originalImageDescription(imageDescription)
                .fusedVector(fusedVector)
                .build();
    }

    private float[] weightedAverageVectors(List<float[]> vectors, double[] weights) {
        if (vectors.isEmpty()) return new float[0];
        int dim = vectors.get(0).length;
        float[] result = new float[dim];

        // 归一化权重
        double totalWeight = Arrays.stream(weights).sum();

        for (int v = 0; v < Math.min(vectors.size(), weights.length); v++) {
            float[] vector = vectors.get(v);
            double weight = weights[v] / totalWeight;
            for (int i = 0; i < dim; i++) {
                result[i] += (float) (vector[i] * weight);
            }
        }

        // L2 归一化
        return l2Normalize(result);
    }

    private float[] l2Normalize(float[] vector) {
        double norm = 0;
        for (float v : vector) norm += v * v;
        norm = Math.sqrt(norm);
        if (norm == 0) return vector;
        float[] normalized = new float[vector.length];
        for (int i = 0; i < vector.length; i++) {
            normalized[i] = (float) (vector[i] / norm);
        }
        return normalized;
    }

    private List<String> parseExpandedQueries(String expansion) {
        List<String> queries = new ArrayList<>();
        String[] lines = expansion.split("\n");
        for (String line : lines) {
            if (line.matches("^[123]\\. .+")) {
                queries.add(line.replaceFirst("^[123]\\. ", "").trim());
            }
        }
        return queries;
    }
}

检索精度优化策略二：重排序

向量检索只是第一步，重排序（Reranking）可以大幅提升精度：

/**
 * 多模态检索结果重排序器
 * 使用多个信号对初步检索结果进行重排
 */
@Service
@Slf4j
public class MultimodalResultReranker {

    @Autowired
    private OpenAiClient openAiClient;

    @Autowired
    private CrossEncoderClient crossEncoder; // 更精确但更慢的交叉编码器

    /**
     * 对文本查询+图片候选集进行重排序
     * 使用交叉编码器精确计算文本-图片相关度
     */
    public List<RankedResult> rerankTextImageResults(String textQuery,
                                                      List<SearchResult> candidates,
                                                      byte[] queryImageBytes) {
        List<RankedResult> rankedResults = new ArrayList<>();

        for (SearchResult candidate : candidates) {
            double score = 0.0;

            // 信号1：原始向量相似度（已归一化到0-1）
            double vectorScore = candidate.getSimilarityScore();

            // 信号2：交叉编码器精确打分
            double crossEncoderScore = crossEncoder.score(
                    textQuery, candidate.getImageBytes());

            // 信号3：属性匹配度（对于有结构化属性的场景）
            double attributeScore = calculateAttributeMatch(
                    textQuery, candidate.getMetadata());

            // 信号4：如果有查询图片，计算图-图相似度
            double imageImageScore = 0.0;
            if (queryImageBytes != null && candidate.getImageBytes() != null) {
                imageImageScore = computeImageSimilarity(queryImageBytes,
                        candidate.getImageBytes());
            }

            // 加权融合
            score = 0.3 * vectorScore
                    + 0.4 * crossEncoderScore
                    + 0.2 * attributeScore
                    + 0.1 * imageImageScore;

            rankedResults.add(RankedResult.builder()
                    .searchResult(candidate)
                    .finalScore(score)
                    .scoreBreakdown(Map.of(
                            "vector", vectorScore,
                            "crossEncoder", crossEncoderScore,
                            "attribute", attributeScore,
                            "imageImage", imageImageScore
                    ))
                    .build());
        }

        // 按最终得分降序排列
        rankedResults.sort(Comparator.comparingDouble(RankedResult::getFinalScore).reversed());
        return rankedResults;
    }

    /**
     * 基于 LLM 的语义重排序
     * 适合无法使用交叉编码器的场景
     */
    public List<RankedResult> rerankWithLLM(String userQuery,
                                              List<SearchResult> candidates) {
        // 构建重排序提示
        StringBuilder prompt = new StringBuilder();
        prompt.append(String.format("用户查询：\"%s\"\n\n", userQuery));
        prompt.append("以下是检索到的候选图片，请按照与用户查询的相关度从高到低排序：\n\n");

        for (int i = 0; i < candidates.size(); i++) {
            prompt.append(String.format("候选%d：%s\n",
                    i + 1, candidates.get(i).getDescription()));
        }

        prompt.append("\n请只输出排序后的候选编号，格式：2,1,4,3,5（最相关在前）");

        String rankingResult = openAiClient.chat(prompt.toString());
        List<Integer> rankedIndices = parseRankingResult(rankingResult, candidates.size());

        List<RankedResult> rankedResults = new ArrayList<>();
        double scoreStep = 1.0 / candidates.size();
        for (int rank = 0; rank < rankedIndices.size(); rank++) {
            int candidateIdx = rankedIndices.get(rank);
            if (candidateIdx >= 0 && candidateIdx < candidates.size()) {
                rankedResults.add(RankedResult.builder()
                        .searchResult(candidates.get(candidateIdx))
                        .finalScore(1.0 - rank * scoreStep)
                        .build());
            }
        }

        return rankedResults;
    }

    private double calculateAttributeMatch(String query,
                                            Map<String, String> metadata) {
        if (metadata == null || metadata.isEmpty()) return 0.5;

        double matchScore = 0.5; // 基础分
        String lowerQuery = query.toLowerCase();

        // 颜色匹配
        String color = metadata.get("color");
        if (color != null && lowerQuery.contains(color.toLowerCase())) {
            matchScore += 0.3;
        }

        // 品类匹配
        String category = metadata.get("category");
        if (category != null && lowerQuery.contains(category.toLowerCase())) {
            matchScore += 0.2;
        }

        return Math.min(1.0, matchScore);
    }

    private double computeImageSimilarity(byte[] img1, byte[] img2) {
        // 简化：使用感知哈希距离
        // 生产环境用图片特征向量余弦相似度
        return 0.5;
    }

    private List<Integer> parseRankingResult(String result, int maxCount) {
        List<Integer> indices = new ArrayList<>();
        String[] parts = result.trim().split("[,，]");
        for (String part : parts) {
            try {
                int idx = Integer.parseInt(part.trim()) - 1; // 1-based -> 0-based
                if (idx >= 0 && idx < maxCount) {
                    indices.add(idx);
                }
            } catch (NumberFormatException ignored) {}
        }
        return indices;
    }
}

向量索引的工程配置

大规模多模态检索需要高效的向量索引：

/**
 * 多模态向量存储与检索配置
 * 以 Milvus 为例，展示企业级向量数据库的配置
 */
@Configuration
@Slf4j
public class MultimodalVectorStoreConfig {

    /**
     * Milvus Collection 创建配置
     * 图文多模态场景：图片向量 + 文本向量 + 元数据
     */
    public void createMultimodalCollection(MilvusServiceClient milvus,
                                            String collectionName) {
        // 字段定义
        FieldType idField = FieldType.newBuilder()
                .withName("id")
                .withDataType(DataType.VarChar)
                .withMaxLength(64)
                .withPrimaryKey(true)
                .withAutoID(false)
                .build();

        FieldType imageVectorField = FieldType.newBuilder()
                .withName("image_vector")
                .withDataType(DataType.FloatVector)
                .withDimension(768) // CLIP ViT-L/14
                .build();

        FieldType textVectorField = FieldType.newBuilder()
                .withName("text_vector")
                .withDataType(DataType.FloatVector)
                .withDimension(768)
                .build();

        FieldType metadataField = FieldType.newBuilder()
                .withName("metadata")
                .withDataType(DataType.JSON)
                .build();

        // 创建 Collection
        CollectionSchemaParam schema = CollectionSchemaParam.newBuilder()
                .withFieldTypes(Arrays.asList(idField, imageVectorField,
                        textVectorField, metadataField))
                .build();

        CreateCollectionParam createParam = CreateCollectionParam.newBuilder()
                .withCollectionName(collectionName)
                .withSchema(schema)
                .build();

        milvus.createCollection(createParam);

        // 创建向量索引（HNSW，适合高精度场景）
        createHnswIndex(milvus, collectionName, "image_vector");
        createHnswIndex(milvus, collectionName, "text_vector");

        log.info("多模态 Collection 创建完成: {}", collectionName);
    }

    private void createHnswIndex(MilvusServiceClient milvus,
                                   String collectionName, String fieldName) {
        Map<String, Object> indexParams = new HashMap<>();
        indexParams.put("M", 16);          // HNSW图的连接数，越大精度越高但内存更多
        indexParams.put("efConstruction", 200); // 构建时的搜索宽度

        CreateIndexParam indexParam = CreateIndexParam.newBuilder()
                .withCollectionName(collectionName)
                .withFieldName(fieldName)
                .withIndexType(IndexType.HNSW)
                .withMetricType(MetricType.COSINE) // 多模态检索用余弦相似度
                .withExtraParam(new Gson().toJson(indexParams))
                .build();

        milvus.createIndex(indexParam);
        log.info("HNSW索引创建完成: collection={}, field={}", collectionName, fieldName);
    }

    /**
     * 搜索参数配置
     * ef 越大检索精度越高，但速度越慢，需要根据业务调优
     */
    public SearchParam buildSearchParam(String collectionName, float[] queryVector,
                                         String vectorField, int topK,
                                         String filterExpression) {
        Map<String, Object> searchParams = new HashMap<>();
        searchParams.put("ef", 64); // 搜索时的宽度，通常设为 topK 的2-4倍

        SearchParam.Builder builder = SearchParam.newBuilder()
                .withCollectionName(collectionName)
                .withVectorFieldName(vectorField)
                .withVectors(Collections.singletonList(toList(queryVector)))
                .withTopK(topK)
                .withMetricType(MetricType.COSINE)
                .withParams(new Gson().toJson(searchParams))
                .withOutFields(Arrays.asList("id", "metadata"));

        if (filterExpression != null && !filterExpression.isEmpty()) {
            builder.withExpr(filterExpression); // 标量过滤，先过滤再向量搜索
        }

        return builder.build();
    }

    private List<Float> toList(float[] array) {
        List<Float> list = new ArrayList<>(array.length);
        for (float f : array) list.add(f);
        return list;
    }
}

模型微调：领域适配

当通用 CLIP 模型精度不满足业务需求时，需要微调：

/**
 * CLIP 微调数据准备工具
 * 将业务标注数据转换为 CLIP 对比学习格式
 */
@Service
public class ClipFineTuneDataPreparer {

    /**
     * 准备正负样本对
     * 正样本：相关的图文对
     * 负样本：同品类但属性不同的对（困难负样本）
     */
    public List<ContrastivePair> prepareTrainingData(
            List<ProductAnnotation> annotations) {
        List<ContrastivePair> pairs = new ArrayList<>();

        for (ProductAnnotation annotation : annotations) {
            // 正样本：图片 + 对应文字描述
            pairs.add(ContrastivePair.positive(
                    annotation.getImageId(),
                    annotation.getDescription()
            ));

            // 困难负样本：同品类但颜色不同的图片
            // 这类负样本能强化模型对颜色属性的区分
            List<ProductAnnotation> hardNegatives = findHardNegatives(annotation, annotations);
            for (ProductAnnotation negative : hardNegatives) {
                pairs.add(ContrastivePair.hardNegative(
                        annotation.getImageId(),
                        negative.getDescription(), // 用负样本的描述
                        0.0 // 相似度目标为0
                ));
            }
        }

        return pairs;
    }

    /**
     * 找困难负样本：同品类但某个属性不同
     * 困难负样本训练出来的模型对属性区分能力更强
     */
    private List<ProductAnnotation> findHardNegatives(ProductAnnotation target,
                                                        List<ProductAnnotation> pool) {
        return pool.stream()
                .filter(a -> !a.getProductId().equals(target.getProductId()))
                .filter(a -> a.getCategory().equals(target.getCategory())) // 同品类
                .filter(a -> !a.getColor().equals(target.getColor()))       // 但颜色不同
                .limit(3) // 每个正样本最多3个困难负样本
                .collect(Collectors.toList());
    }
}

端到端效果对比

经过以上优化后，我们电商场景的检索精度变化：

优化措施	Recall@10	NDCG@10	颜色混淆率
原始 CLIP	0.62	0.58	23%
+ 查询扩展	0.71	0.67	18%
+ 重排序	0.79	0.76	12%
+ 领域微调	0.87	0.84	5%
+ 属性过滤	0.91	0.88	3%

每一步优化都有明显提升，最终 Recall@10 从 0.62 提升到 0.91。