第1978篇：多模型联合推理——用国产模型和海外模型各取所长的组合策略

老张2026/4/30大约 10 分钟

第1978篇：多模型联合推理——用国产模型和海外模型各取所长的组合策略

这个话题我思考了挺久。一开始觉得"要用就全用国产"，后来发现很多时候这是感情用事，不是工程决策。工程决策应该是：哪个模型在这个任务上更强，就用哪个。国产模型有强项，海外模型也有强项，把两者组合起来才是最优解。

当然，组合策略不是随便混搭，有讲究。今天把这个讲清楚。

先承认差距，才能正确组合

我不喜欢一上来就说"国产模型已经超越 GPT-4"，因为这不是实测结论。根据我的实际使用经验：

国产模型的优势：

中文理解和生成：通义千问 Max、文心等在中文写作、古诗词、中文成语理解上明显优于 GPT-4
中国特定知识：政策法规、地名文化、成语典故，国产模型覆盖更好
代码生成（中文注释场景）：通义千问 Coder 在配合中文需求描述时效果很好
推理成本：同等质量任务，国产模型通常便宜 5-10 倍

海外模型的优势（截至本文写作时）：

复杂逻辑推理：GPT-4o、Claude Sonnet 在多步推理上仍有优势
英文内容质量：英文写作、学术表达，海外模型更地道
多模态理解精度：GPT-4V、Claude Sonnet 在图像细节理解上更准确
指令跟随稳定性：复杂 prompt 结构，海外模型更稳定

这不是偏见，是事实判断。承认这一点，才能做出正确的架构决策。

组合策略一：任务分类路由

最直接的策略：根据任务类型，选最擅长的模型。

@Service
public class TaskClassificationRouter {

    @Autowired
    @Qualifier("qwenMaxClient")
    private ChatClient qwenMax;      // 通义千问 Max

    @Autowired
    @Qualifier("deepSeekR1Client")
    private ChatClient deepSeekR1;   // DeepSeek R1

    @Autowired
    @Qualifier("gpt4oClient")
    private ChatClient gpt4o;        // GPT-4o（如果可访问）

    @Autowired
    private TaskClassifier taskClassifier;

    public String route(String message) {
        TaskType type = taskClassifier.classify(message);

        return switch (type) {
            case CHINESE_WRITING, CHINESE_CONTENT -> {
                // 中文写作：通义千问最好
                log.info("中文写作任务 -> 通义千问 Max");
                yield qwenMax.prompt().user(message).call().content();
            }
            case COMPLEX_REASONING, MATH_PROOF -> {
                // 复杂推理：DeepSeek R1 最好
                log.info("复杂推理任务 -> DeepSeek R1");
                yield deepSeekR1.prompt().user(message).call().content();
            }
            case CODE_GENERATION -> {
                // 代码生成：两者都可以，先试通义千问 Coder
                log.info("代码生成任务 -> 通义千问 Coder");
                yield qwenMax.prompt()
                        .system("你是一位资深Java工程师")
                        .user(message)
                        .call()
                        .content();
            }
            default -> {
                // 默认：通义千问（成本低，国内访问快）
                yield qwenMax.prompt().user(message).call().content();
            }
        };
    }
}

// 任务分类器
@Component
public class TaskClassifier {

    // 用一个轻量模型做分类，成本极低
    @Autowired
    @Qualifier("qwenTurboClient")
    private ChatClient qwenTurbo;

    private static final String CLASSIFY_PROMPT = """
            请分析以下用户请求属于哪种任务类型，只返回一个类型标签：
            CHINESE_WRITING（中文写作/内容创作）
            COMPLEX_REASONING（复杂推理/逻辑分析/数学证明）
            CODE_GENERATION（代码生成/编程帮助）
            TRANSLATION（翻译）
            GENERAL_QA（一般问答）
            
            用户请求：{message}
            
            只返回标签，不要解释。
            """;

    public TaskType classify(String message) {
        String response = qwenTurbo.prompt()
                .user(CLASSIFY_PROMPT.replace("{message}", message))
                .call()
                .content()
                .trim()
                .toUpperCase();

        try {
            return TaskType.valueOf(response);
        } catch (IllegalArgumentException e) {
            return TaskType.GENERAL_QA;
        }
    }
}

组合策略二：Pipeline 流水线——多模型协作完成一个任务

有些任务天然适合拆分给不同模型：比如"帮我用英文写一篇技术博客，然后翻译成中文，并做 SEO 优化"。

@Service
public class MultiModelPipeline {

    @Autowired
    private Map<String, ChatClient> modelClients;

    public PipelineResult executeContentPipeline(String topic) {
        PipelineResult result = new PipelineResult();

        // Step 1: 用 DeepSeek R1 制定写作大纲（推理能力强）
        String outline = modelClients.get("deepseek-r1")
                .prompt()
                .system("你是一位资深技术写作专家，善于制定清晰的文章结构。")
                .user("请为主题「" + topic + "」制定一份详细的技术博客大纲，包括每个章节的核心要点。")
                .call()
                .content();
        result.setOutline(outline);

        // Step 2: 按大纲生成中文正文（通义千问中文最强）
        String chineseContent = modelClients.get("qwen-max")
                .prompt()
                .system("你是一位技术博主，文章风格深入浅出，有自己的观点和踩坑经验。")
                .user("请按照以下大纲，写一篇面向Java工程师的技术博客：\n" + outline)
                .call()
                .content();
        result.setChineseContent(chineseContent);

        // Step 3: 提取技术关键词（用于 SEO，轻量任务用 qwen-turbo）
        String keywords = modelClients.get("qwen-turbo")
                .prompt()
                .user("从以下文章中提取10个技术SEO关键词，用逗号分隔：\n" + chineseContent)
                .call()
                .content();
        result.setSeoKeywords(keywords);

        return result;
    }
}

组合策略三：校验与对抗——一个模型生成，另一个验证

这个模式在需要高质量输出的场景非常有用：

@Service
public class GenerateAndVerifyService {

    @Autowired
    @Qualifier("generatorClient")
    private ChatClient generator;   // 生成模型

    @Autowired
    @Qualifier("verifierClient")
    private ChatClient verifier;    // 校验模型（用不同模型，避免相同偏见）

    /**
     * 代码生成 + 校验
     */
    public CodeGenerationResult generateAndVerifyCode(String requirement) {
        // 第一轮：生成代码
        String generatedCode = generator.prompt()
                .system("你是一位经验丰富的Java工程师，代码要符合生产标准：有异常处理、注释清晰、考虑边界情况。")
                .user("实现以下需求：" + requirement)
                .call()
                .content();

        // 第二轮：用另一个模型验证
        String verificationResult = verifier.prompt()
                .system("你是一位资深代码审查专家。请仔细审查以下代码，找出：1. Bug 和安全漏洞 2. 性能问题 3. 不符合最佳实践的地方。如果代码质量合格，请说明理由。")
                .user("需求：" + requirement + "\n\n代码：\n" + generatedCode)
                .call()
                .content();

        // 判断是否需要修复
        boolean needsFix = verificationResult.contains("Bug") ||
                           verificationResult.contains("安全") ||
                           verificationResult.contains("问题");

        if (needsFix) {
            // 第三轮：根据校验意见修复
            String fixedCode = generator.prompt()
                    .system("你是一位Java工程师。请根据代码审查意见修复代码。")
                    .user("原始代码：\n" + generatedCode +
                          "\n\n审查意见：\n" + verificationResult +
                          "\n\n请修复所有问题，返回修复后的完整代码。")
                    .call()
                    .content();

            return CodeGenerationResult.builder()
                    .code(fixedCode)
                    .reviewComments(verificationResult)
                    .wasFixed(true)
                    .iterations(2)
                    .build();
        }

        return CodeGenerationResult.builder()
                .code(generatedCode)
                .reviewComments(verificationResult)
                .wasFixed(false)
                .iterations(1)
                .build();
    }
}

组合策略四：投票机制——多模型表决

对于高风险决策（比如信贷审批辅助、医疗诊断建议），单个模型的结论不够可靠，可以多模型投票：

@Service
public class MultiModelVoting {

    @Autowired
    private List<ChatClient> votingModels;  // 多个模型客户端

    /**
     * 多模型投票，返回一致性最高的结论
     */
    public VotingResult vote(String question, int expectedChoices) {
        List<String> responses = votingModels.parallelStream()
                .map(client -> {
                    try {
                        return client.prompt()
                                .user(question + "\n请只回答选项字母，如A、B或C。")
                                .call()
                                .content()
                                .trim()
                                .toUpperCase()
                                .replaceAll("[^A-Z]", "");
                    } catch (Exception e) {
                        return "ERROR";
                    }
                })
                .filter(r -> !r.equals("ERROR"))
                .toList();

        // 统计票数
        Map<String, Long> voteCounts = responses.stream()
                .collect(Collectors.groupingBy(r -> r, Collectors.counting()));

        // 找出最多票的选项
        String winner = voteCounts.entrySet().stream()
                .max(Map.Entry.comparingByValue())
                .map(Map.Entry::getKey)
                .orElse("UNKNOWN");

        long maxVotes = voteCounts.getOrDefault(winner, 0L);
        double confidence = (double) maxVotes / responses.size();

        return VotingResult.builder()
                .winner(winner)
                .confidence(confidence)
                .voteCounts(voteCounts)
                .totalVotes(responses.size())
                .isConsensus(confidence >= 0.7)  // 70%以上投同一选项才算共识
                .build();
    }
}

组合策略五：专家混合（MoE 思路在应用层的实现）

大模型里有 Mixture of Experts 架构，我们可以在应用层做类似的事：

@Service
public class ApplicationLevelMoE {

    // 定义各领域"专家"模型
    private final Map<String, ChatClient> experts = new HashMap<>();

    @PostConstruct
    public void initExperts() {
        experts.put("finance", buildExpertClient("qwen-max",
                "你是一位资深金融分析师，精通中国金融法规和投资策略。"));
        experts.put("legal", buildExpertClient("qwen-max",
                "你是一位中国法律专家，精通中国法律法规和司法实践。"));
        experts.put("medical", buildExpertClient("qwen-max",
                "你是一位医学顾问，提供基于循证医学的专业建议，始终建议用户就医。"));
        experts.put("technology", buildExpertClient("deepseek-reasoner",
                "你是一位资深技术专家，擅长系统架构和技术方案分析。"));
        experts.put("general", buildExpertClient("qwen-plus",
                "你是一位全能助手。"));
    }

    @Autowired
    private DomainClassifier domainClassifier;

    public String expertChat(String message) {
        // 识别领域
        String domain = domainClassifier.classify(message);
        ChatClient expert = experts.getOrDefault(domain, experts.get("general"));

        log.info("问题路由到领域专家: {}", domain);

        return expert.prompt()
                .user(message)
                .call()
                .content();
    }

    private ChatClient buildExpertClient(String model, String systemPrompt) {
        // 根据 model 名称选择对应的 ChatClient
        // 实际实现中需要根据模型名称创建对应的客户端
        return /* 对应模型的客户端 */ null;
    }
}

成本优化：让贵的模型少干活

多模型架构的一个重要目标是成本优化。关键原则：让贵的模型做贵的事，便宜的模型做便宜的事。

@Service
public class CostOptimizedRouter {

    // 模型按成本排序
    private static final List<ModelTier> MODEL_TIERS = List.of(
            new ModelTier("qwen-turbo", 0.1),   // 最便宜
            new ModelTier("qwen-plus", 1.0),
            new ModelTier("qwen-max", 10.0),
            new ModelTier("deepseek-reasoner", 20.0)  // 最贵
    );

    @Autowired
    private TaskDifficultyEstimator estimator;

    @Autowired
    private Map<String, ChatClient> modelClients;

    public String costOptimizedChat(String message) {
        // 先用最便宜的模型尝试
        for (ModelTier tier : MODEL_TIERS) {
            String response = modelClients.get(tier.getModel())
                    .prompt()
                    .user(message)
                    .call()
                    .content();

            // 评估回答质量是否足够好
            if (isResponseSatisfactory(response, message)) {
                log.info("使用 {} 完成任务，相对成本: {}", tier.getModel(), tier.getRelativeCost());
                return response;
            }

            log.info("{} 回答质量不足，升级到下一级模型", tier.getModel());
        }

        // 最贵的模型都不行就直接返回最后一次结果
        return "任务较复杂，已使用最高级别模型处理";
    }

    private boolean isResponseSatisfactory(String response, String question) {
        // 简单判断：回答是否包含"不知道"、"无法回答"等
        List<String> unsatisfactoryPatterns = List.of(
                "我不知道", "我无法", "抱歉，我不", "这超出了我的能力"
        );
        return unsatisfactoryPatterns.stream().noneMatch(response::contains)
                && response.length() > 50;  // 回答不能太短
    }
}

语言路由：中文走国产，英文走海外

这个策略在很多实际项目里非常有效：

@Service
public class LanguageBasedRouter {

    @Autowired
    @Qualifier("qwenMaxClient")
    private ChatClient chineseExpert;    // 中文场景

    @Autowired
    @Qualifier("gpt4oClient")
    private ChatClient englishExpert;    // 英文场景（如果可用）

    public String languageAwareChat(String message) {
        LanguageDetection detection = detectLanguage(message);

        if (detection.isChinese()) {
            return chineseExpert.prompt()
                    .user(message)
                    .call()
                    .content();
        } else if (detection.isEnglish() && englishExpert != null) {
            return englishExpert.prompt()
                    .user(message)
                    .call()
                    .content();
        } else {
            // 多语言或不确定，用通用模型
            return chineseExpert.prompt().user(message).call().content();
        }
    }

    private LanguageDetection detectLanguage(String text) {
        // 简单的中文检测：统计中文字符占比
        long chineseChars = text.chars()
                .filter(c -> c >= 0x4E00 && c <= 0x9FFF)
                .count();
        double chineseRatio = (double) chineseChars / text.length();

        if (chineseRatio > 0.3) return LanguageDetection.CHINESE;
        if (chineseRatio < 0.05) return LanguageDetection.ENGLISH;
        return LanguageDetection.MIXED;
    }
}

结果融合：把多个回答合并成一个

有时候不是选一个，而是把多个回答融合成更好的答案：

@Service
public class ResponseFusionService {

    @Autowired
    private List<ChatClient> sourceModels;

    @Autowired
    @Qualifier("fusionClient")
    private ChatClient fusionModel;  // 负责融合的模型

    /**
     * 融合多个模型的回答
     */
    public String fusedResponse(String question) {
        // 1. 并行获取多个回答
        List<CompletableFuture<String>> futures = sourceModels.stream()
                .map(client -> CompletableFuture.supplyAsync(
                        () -> client.prompt().user(question).call().content()
                ))
                .toList();

        List<String> responses = futures.stream()
                .map(CompletableFuture::join)
                .toList();

        // 2. 用融合模型综合所有回答
        StringBuilder fusionPrompt = new StringBuilder();
        fusionPrompt.append("以下是不同AI助手对同一问题的回答：\n\n");
        fusionPrompt.append("原始问题：").append(question).append("\n\n");

        for (int i = 0; i < responses.size(); i++) {
            fusionPrompt.append("助手").append(i + 1).append("的回答：\n")
                    .append(responses.get(i)).append("\n\n");
        }

        fusionPrompt.append("请综合以上所有回答，提取各方的最佳观点，" +
                "去除矛盾和错误信息，给出一个更全面、准确的综合回答。");

        return fusionModel.prompt()
                .user(fusionPrompt.toString())
                .call()
                .content();
    }
}

踩过的坑

坑一：任务分类器本身也会出错。 用一个轻量模型做分类，偶尔会误判，导致用了不合适的下游模型。解决方案是给高置信度才路由，低置信度时用默认模型或人工核实。

坑二：多模型串联让延迟叠加。 三个模型串联，每个 1s，总延迟就是 3s+。对于实时性要求高的场景，能并行的就并行，不能并行的要重新考虑是否值得串联。

坑三：多模型投票的输出格式不统一。 让三个模型各自回答同一问题，三个回答格式可能完全不同，投票合并很麻烦。解决方案是严格约束输出格式，用 JSON Schema 约束输出。

坑四：成本核算复杂了。 一个用户请求调了三个模型，计费和归因变复杂。需要在网关层做请求链追踪。

小结

多模型联合推理的核心思想：任务分工，各司其职。不强求一个模型全做，而是根据各模型的真实能力差异来分配工作。

实践建议：

先用单模型跑通，再考虑多模型优化
每次引入新模型，都要有明确的性能对比数据支撑
多模型架构的复杂度是真实成本，不要为了"看起来高级"而组合