第2150篇：LLM-as-Judge模式——用大模型评估大模型输出的工程实践

老张2026/4/30大约 8 分钟

第2150篇：LLM-as-Judge模式——用大模型评估大模型输出的工程实践

适读人群：需要自动化评估LLM输出质量的AI工程师 | 阅读时长：约18分钟 | 核心价值：掌握LLM-as-Judge的核心实现模式，解决开放式输出无法自动评估的工程难题

做代码审查的时候，我们会叫同事来看，而不是只跑单元测试。因为有些质量问题，只有人（或者另一个懂的人）才能判断。

LLM的输出评估也是一样的道理。

规则和字符串匹配能告诉你"有没有包含关键词"，但告诉不了你"这个回答逻辑是否清晰"、"解释是否准确"、"语气是否合适"。这些维度以前只能人工评估，效率极低，也没法自动化。

LLM-as-Judge的思路很直接：既然语言理解是LLM的强项，那就用一个LLM来评估另一个LLM的输出。

我第一次用这个方法时有点心理障碍——"用AI评估AI，这不是循环论证吗？"后来想明白了：Judge和被评估的模型不一定是同一个，而且Judge的职责不是创造答案，而是按照给定的标准做评估，这是完全不同的任务。

LLM-as-Judge的三种基本模式

在工程实践中，LLM-as-Judge有三种常见用法，适用于不同场景：

/**
 * LLM-as-Judge的三种评估模式
 * 
 * 模式一：Pointwise（单点评估）
 * 对单个输出独立打分，不参照其他输出
 * 适用：日常质量监控，需要得到绝对分数
 * 
 * 模式二：Pairwise（对比评估）
 * 比较两个输出，判断哪个更好
 * 适用：A/B测试，比较新旧Prompt效果
 * 优点：相对判断比绝对打分更准确
 * 
 * 模式三：Listwise（列表排序）
 * 对多个候选输出排序
 * 适用：候选答案筛选，Best-of-N采样后选最好的
 * 成本最高，但判断质量最高
 */

在我们的项目里，日常监控用Pointwise（效率优先），Prompt迭代用Pairwise（准确度优先）。

Pointwise评估的工程实现

/**
 * 单点评估器（Pointwise Judge）
 * 
 * 使用Spring AI调用Judge模型
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class PointwiseJudgeService implements DimensionEvaluator {

    private final ChatClient judgeChatClient; // 专门用于评估的ChatClient实例
    private final PromptTemplateManager templateManager;

    @Override
    public String getDimensionName() {
        return "accuracy";
    }

    @Override
    public DimensionScore evaluate(String userInput, String llmOutput, String context) {
        String judgePrompt = buildJudgePrompt(userInput, llmOutput, context);
        
        try {
            String judgeResponse = judgeChatClient.prompt()
                .user(judgePrompt)
                .call()
                .content();
            
            return parseJudgeResponse(judgeResponse);
        } catch (Exception e) {
            log.error("Judge调用失败", e);
            return DimensionScore.failed("accuracy", "Judge调用异常: " + e.getMessage());
        }
    }

    private String buildJudgePrompt(String userInput, String llmOutput, String context) {
        // 关键：Judge的Prompt要非常精确，输出要结构化
        StringBuilder prompt = new StringBuilder();
        prompt.append("你是一个专业的AI输出质量评估专家。请评估以下AI助手的回答质量。\n\n");
        
        prompt.append("## 用户问题\n");
        prompt.append(userInput).append("\n\n");
        
        if (context != null && !context.isEmpty()) {
            prompt.append("## 参考资料（AI助手可以使用的背景信息）\n");
            prompt.append(context).append("\n\n");
        }
        
        prompt.append("## AI助手的回答\n");
        prompt.append(llmOutput).append("\n\n");
        
        prompt.append("## 评估任务\n");
        prompt.append("请从【准确性】维度评估上述回答。准确性的定义：\n");
        prompt.append("- 回答中的事实陈述是否正确\n");
        prompt.append("- 是否有虚假信息或明显的事实错误\n");
        prompt.append("- 如果提供了参考资料，回答是否与参考资料一致\n\n");
        
        prompt.append("## 输出格式（严格按此格式，不要输出其他内容）\n");
        prompt.append("SCORE: [0.0-1.0之间的数字，精确到小数点后2位]\n");
        prompt.append("REASONING: [评分理由，不超过100字]\n");
        prompt.append("ISSUES: [发现的问题列表，每个问题一行，以'-'开头；如果没有问题，写'无']\n");
        
        return prompt.toString();
    }

    private DimensionScore parseJudgeResponse(String response) {
        // 解析结构化输出
        double score = 0.5; // 默认中间分
        String reasoning = "";
        List<String> issues = new ArrayList<>();
        
        String[] lines = response.split("\n");
        boolean inIssues = false;
        
        for (String line : lines) {
            line = line.trim();
            
            if (line.startsWith("SCORE:")) {
                String scoreStr = line.substring("SCORE:".length()).trim();
                try {
                    score = Double.parseDouble(scoreStr);
                    score = Math.max(0.0, Math.min(1.0, score)); // 确保在[0,1]范围
                } catch (NumberFormatException e) {
                    log.warn("无法解析Judge分数: {}", scoreStr);
                }
                inIssues = false;
            } else if (line.startsWith("REASONING:")) {
                reasoning = line.substring("REASONING:".length()).trim();
                inIssues = false;
            } else if (line.startsWith("ISSUES:")) {
                String issuesStr = line.substring("ISSUES:".length()).trim();
                if (!issuesStr.equals("无") && !issuesStr.isEmpty()) {
                    if (issuesStr.startsWith("-")) {
                        issues.add("ACCURACY: " + issuesStr.substring(1).trim());
                    }
                }
                inIssues = true;
            } else if (inIssues && line.startsWith("-")) {
                issues.add("ACCURACY: " + line.substring(1).trim());
            }
        }
        
        return DimensionScore.builder()
            .dimension("accuracy")
            .score(score)
            .reasoning(reasoning)
            .issues(issues)
            .details(Map.of("judgeResponse", response))
            .build();
    }
}

Pairwise评估：更准确的对比判断

Pairwise评估的核心优势是：人（和模型）做相对判断比绝对打分更可靠。"A比B好"比"A得7分"要更稳定。

/**
 * 对比评估服务（Pairwise Judge）
 * 
 * 核心用途：Prompt A/B测试，模型版本对比
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class PairwiseJudgeService {

    private final ChatClient judgeChatClient;

    public enum PairwiseResult {
        A_BETTER, B_BETTER, TIE, UNCERTAIN
    }

    /**
     * 对比两个输出，判断哪个更好
     * 
     * 注意：为避免位置偏差，自动进行正反两次比较
     */
    public PairwiseEvaluation compare(String userInput, 
                                       String outputA, 
                                       String outputB,
                                       String dimension) {
        
        // 正向比较（A在前）
        PairwiseResult forwardResult = singleComparison(userInput, outputA, outputB, dimension, false);
        
        // 反向比较（B在前，消除位置偏差）
        PairwiseResult reverseResult = singleComparison(userInput, outputB, outputA, dimension, true);
        
        // 综合两次结果
        PairwiseResult finalResult = reconcileResults(forwardResult, reverseResult);
        
        // 计算置信度
        double confidence = computeConfidence(forwardResult, reverseResult);
        
        return PairwiseEvaluation.builder()
            .userInput(userInput)
            .dimension(dimension)
            .result(finalResult)
            .confidence(confidence)
            .forwardResult(forwardResult)
            .reverseResult(reverseResult)
            .reliable(confidence >= 0.7) // 置信度低于0.7时结果不可靠
            .build();
    }

    private PairwiseResult singleComparison(String userInput, 
                                              String first, 
                                              String second, 
                                              String dimension,
                                              boolean reversed) {
        String prompt = buildPairwisePrompt(userInput, first, second, dimension);
        
        try {
            String response = judgeChatClient.prompt()
                .user(prompt)
                .call()
                .content();
            
            PairwiseResult rawResult = parsePairwiseResponse(response);
            
            // 如果是反向比较，翻转结果
            if (reversed) {
                return flipResult(rawResult);
            }
            return rawResult;
            
        } catch (Exception e) {
            log.error("Pairwise Judge调用失败", e);
            return PairwiseResult.UNCERTAIN;
        }
    }

    private String buildPairwisePrompt(String userInput, String first, String second, String dimension) {
        return String.format("""
            你是一个公正的AI输出质量评估专家。
            
            ## 用户问题
            %s
            
            ## 回答A
            %s
            
            ## 回答B
            %s
            
            ## 评估任务
            从【%s】维度对比两个回答，判断哪个更好。
            
            ## 输出格式（只输出以下之一）
            WINNER: A
            WINNER: B
            WINNER: TIE
            REASONING: [判断理由，不超过80字]
            """,
            userInput, first, second, dimension
        );
    }

    private PairwiseResult reconcileResults(PairwiseResult forward, PairwiseResult reverse) {
        if (forward == reverse) return forward;
        if (forward == PairwiseResult.TIE || reverse == PairwiseResult.TIE) return PairwiseResult.TIE;
        // 前后结果不一致，返回UNCERTAIN
        return PairwiseResult.UNCERTAIN;
    }

    private double computeConfidence(PairwiseResult r1, PairwiseResult r2) {
        if (r1 == r2 && r1 != PairwiseResult.UNCERTAIN) return 0.9;
        if (r1 == PairwiseResult.TIE || r2 == PairwiseResult.TIE) return 0.6;
        return 0.3; // 两次结果不一致
    }

    private PairwiseResult flipResult(PairwiseResult result) {
        return switch (result) {
            case A_BETTER -> PairwiseResult.B_BETTER;
            case B_BETTER -> PairwiseResult.A_BETTER;
            default -> result;
        };
    }

    private PairwiseResult parsePairwiseResponse(String response) {
        if (response.contains("WINNER: A")) return PairwiseResult.A_BETTER;
        if (response.contains("WINNER: B")) return PairwiseResult.B_BETTER;
        if (response.contains("WINNER: TIE")) return PairwiseResult.TIE;
        return PairwiseResult.UNCERTAIN;
    }
}

Judge模型的选择与成本控制

/**
 * Judge模型选择策略
 * 
 * 核心原则：Judge的能力应该 >= 被评估模型的能力
 * 用GPT-3.5评估GPT-4的输出，可靠性很低
 * 
 * 分层策略：
 * - 规则可判断的维度：用规则（零成本）
 * - 简单维度（格式、语言）：用小模型评估（低成本）
 * - 复杂维度（准确性、推理）：用强模型评估（高成本，抽样）
 */
@Component
@RequiredArgsConstructor
public class JudgeModelRouter {

    @Value("${judge.sample-rate:0.1}") // 默认10%抽样
    private double sampleRate;
    
    private final Random random = new Random();

    /**
     * 决定是否需要LLM Judge评估（成本控制）
     */
    public boolean shouldEvaluate(EvaluationRequest request) {
        // 高优先级请求（如标注样本）100%评估
        if (request.isPriority()) return true;
        
        // 安全性相关100%评估（合规要求）
        if (request.requiresSafetyCheck()) return true;
        
        // 其他请求按采样率
        return random.nextDouble() < sampleRate;
    }

    /**
     * 根据评估维度选择合适的Judge模型
     */
    public String selectJudgeModel(String dimension) {
        return switch (dimension) {
            // 准确性和复杂推理用最强模型
            case "accuracy", "reasoning" -> "gpt-4o";
            // 相关性和完整性用中等模型
            case "relevance", "completeness" -> "gpt-4o-mini";
            // 格式等简单维度用最小模型
            case "format", "tone" -> "gpt-3.5-turbo";
            default -> "gpt-4o-mini";
        };
    }
}

真实踩坑：Judge偏差的工程处理

LLM-as-Judge有几个已知偏差，工程上必须处理：

偏差1：长度偏差。Judge倾向于认为更长的回答更好，即使长度是废话堆砌。

处理方法：在Judge Prompt里明确写"不要因为答案更长而给高分"，同时在分析时检查分数和长度的相关性，如果相关性太高说明Judge有问题。

偏差2：位置偏差。在Pairwise评估中，Judge倾向于更喜欢第一个呈现的选项。

处理方法：前面代码已经展示了——每次对比做正反两次，取一致结论。

偏差3：自我偏好偏差。用GPT-4做Judge，它会倾向于认为GPT-4风格的输出更好。

处理方法：如果你的业务模型是GPT-4，考虑用Claude做Judge；或者用多个不同Family的模型做Judge，取投票结果。

偏差4：过于宽松。很多Judge模型倾向于给高分，因为训练时的RLHF让模型不太喜欢批评。

处理方法：在Prompt里明确要求"严格评估，不要怕给低分"；定期人工抽查Judge打出高分的案例，验证是否名副其实。

/**
 * Judge偏差检测
 * 
 * 定期运行，检测Judge是否存在系统性偏差
 */
@Component
@RequiredArgsConstructor
@Slf4j
public class JudgeBiasDetector {

    private final EvaluationResultRepository repository;

    @Scheduled(cron = "0 0 2 * * MON") // 每周一凌晨2点运行
    public void detectBiases() {
        LocalDate oneWeekAgo = LocalDate.now().minusWeeks(1);
        List<EvaluationReport> recentReports = repository.findSince(oneWeekAgo);
        
        // 检测长度偏差：分数与回答长度的相关性
        double lengthCorrelation = computeCorrelation(
            recentReports.stream().mapToDouble(r -> r.getLlmOutput().length()).toArray(),
            recentReports.stream().mapToDouble(EvaluationReport::getOverallScore).toArray()
        );
        
        if (Math.abs(lengthCorrelation) > 0.3) {
            log.warn("检测到潜在的长度偏差，分数与长度相关系数={}", lengthCorrelation);
            // 发送告警
        }
        
        // 检测分数分布是否过于集中在高分区间
        long highScoreCount = recentReports.stream()
            .filter(r -> r.getOverallScore() > 0.8)
            .count();
        double highScoreRatio = (double) highScoreCount / recentReports.size();
        
        if (highScoreRatio > 0.8) {
            log.warn("Judge打分过于宽松，高分(>0.8)比例={}%", highScoreRatio * 100);
        }
        
        log.info("偏差检测完成，样本数={}, 长度相关性={}, 高分比例={}%",
            recentReports.size(), lengthCorrelation, highScoreRatio * 100);
    }

    private double computeCorrelation(double[] x, double[] y) {
        // Pearson相关系数
        int n = x.length;
        double sumX = 0, sumY = 0, sumXY = 0, sumX2 = 0, sumY2 = 0;
        for (int i = 0; i < n; i++) {
            sumX += x[i]; sumY += y[i];
            sumXY += x[i] * y[i];
            sumX2 += x[i] * x[i];
            sumY2 += y[i] * y[i];
        }
        double numerator = n * sumXY - sumX * sumY;
        double denominator = Math.sqrt((n * sumX2 - sumX * sumX) * (n * sumY2 - sumY * sumY));
        return denominator == 0 ? 0 : numerator / denominator;
    }
}