第2307篇：Debate Agent——让多个AI互相辩论来提升答案质量

老张2026/4/30大约 8 分钟

第2307篇：Debate Agent——让多个AI互相辩论来提升答案质量

适读人群：AI系统架构师、关注高质量AI决策的工程师 | 阅读时长：约17分钟 | 核心价值：理解多Agent辩论机制的工程原理，掌握在高风险决策场景下提升AI答案可靠性的实战方法

上个月，我们的风控团队找到我，问能不能用AI辅助做贷款审批的初步风险评估。这个场景对准确性要求极高——放错了钱是风险，拒掉了好客户是损失。

用单个AI直接给出"通过/拒绝"的建议，风控同学完全不信任。他们说的一句话让我印象深刻："你知道为什么我们的信审委员会是多个人的吗？因为单个人总有盲点，多个人互相挑战才能把漏洞堵上。"

这句话让我想到了Debate Agent模式——让多个AI扮演不同立场，互相辩论，最后由裁判给出综合判断。

辩论机制的核心原理

Debate（辩论）的本质是通过立场对立来发现单一视角的盲点。当Agent A提出论点，Agent B被要求反驳时，B会主动搜索A论点中的漏洞。这种对抗性审查比单一Agent的自我反思更彻底。

与反思模式的区别：反思是同一个Agent自我检查；辩论是两个Agent从对立角度互相攻击。对立角度带来更彻底的检验。

辩论参与者的角色设计

/**
 * 辩论参与者的角色枚举
 */
public enum DebaterRole {
    ADVOCATE("支持方", "从正面论证，寻找支持该结论的论据"),
    CHALLENGER("质疑方", "从反面论证，寻找反对该结论的论据和风险"),
    NEUTRAL("中立方", "从客观角度提供补充信息，不偏向任何一方"),
    JUDGE("裁判", "综合各方论点，给出最终判断");
    
    private final String roleName;
    private final String roleDescription;
    
    DebaterRole(String roleName, String roleDescription) {
        this.roleName = roleName;
        this.roleDescription = roleDescription;
    }
}

/**
 * 辩论轮次记录
 */
public record DebateRound(
    int roundNumber,
    String debaterRole,
    String argument,      // 本轮论点
    String respondingTo,  // 针对哪条论点（如有）
    Instant timestamp
) {}

/**
 * 完整辩论记录
 */
public record DebateSession(
    String sessionId,
    String topic,          // 辩论主题
    String context,        // 背景信息
    List<DebateRound> rounds,
    JudgeVerdict verdict   // 最终裁判结果
) {}

核心辩论引擎实现

@Service
public class DebateAgent {
    
    private final ChatClient debaterClient;
    private final ChatClient judgeClient;
    
    private static final String ADVOCATE_SYSTEM = """
        你是辩论的支持方。你的任务是为给定的结论/方案提供有力的支持论据。
        
        要求：
        1. 基于提供的上下文事实进行论证
        2. 列举支持该结论的关键论据
        3. 如果对方提出了反驳，认真应对并维护你的立场
        4. 不得捏造事实，但可以充分挖掘有利证据
        5. 论点要具体，避免空洞的原则性表述
        """;
    
    private static final String CHALLENGER_SYSTEM = """
        你是辩论的质疑方。你的任务是找出给定结论/方案的问题和风险。
        
        要求：
        1. 主动寻找论点中的逻辑漏洞
        2. 指出被忽视的风险和反例
        3. 质疑论据的可靠性和代表性
        4. 提出替代解释
        5. 不要为了反对而反对——如果对方的论点确实有道理，可以承认，但要找到更深层的问题
        """;
    
    private static final String JUDGE_SYSTEM = """
        你是辩论的裁判，负责综合评估各方论点，给出最终判断。
        
        评判标准：
        1. 论据的可靠性（是否有事实支撑）
        2. 逻辑的严密性（推理是否有效）
        3. 完整性（是否考虑了所有重要方面）
        4. 实际影响（结论的实际意义）
        
        输出格式（JSON）：
        {
          "verdict": "结论文字",
          "confidence": 0-100,
          "keyInsights": ["关键发现1", "关键发现2"],
          "mainRisks": ["主要风险1", "主要风险2"],
          "recommendation": "建议行动",
          "reasoning": "裁判推理过程"
        }
        """;
    
    /**
     * 运行一场辩论
     * @param topic 辩论主题/问题
     * @param context 背景信息
     * @param rounds 辩论轮数
     * @return 完整辩论会话，含最终裁判结果
     */
    public DebateSession runDebate(String topic, String context, int rounds) {
        String sessionId = UUID.randomUUID().toString();
        List<DebateRound> debateHistory = new ArrayList<>();
        
        // 第一轮：支持方开场陈述
        String advocateOpeningArgument = callDebater(
            ADVOCATE_SYSTEM, 
            buildOpeningPrompt(topic, context, DebaterRole.ADVOCATE),
            debateHistory
        );
        debateHistory.add(new DebateRound(1, "ADVOCATE", advocateOpeningArgument, null, Instant.now()));
        
        // 第一轮：质疑方回应
        String challengerOpeningArgument = callDebater(
            CHALLENGER_SYSTEM,
            buildResponsePrompt(topic, context, DebaterRole.CHALLENGER, advocateOpeningArgument),
            debateHistory
        );
        debateHistory.add(new DebateRound(1, "CHALLENGER", challengerOpeningArgument, 
            advocateOpeningArgument, Instant.now()));
        
        // 后续轮次：互相回应
        for (int round = 2; round <= rounds; round++) {
            String lastChallenge = getLastArgumentByRole(debateHistory, "CHALLENGER");
            String advocateResponse = callDebater(
                ADVOCATE_SYSTEM,
                buildRebuttalPrompt(topic, context, DebaterRole.ADVOCATE, debateHistory),
                debateHistory
            );
            debateHistory.add(new DebateRound(round, "ADVOCATE", advocateResponse, 
                lastChallenge, Instant.now()));
            
            String lastAdvocacy = getLastArgumentByRole(debateHistory, "ADVOCATE");
            String challengerResponse = callDebater(
                CHALLENGER_SYSTEM,
                buildRebuttalPrompt(topic, context, DebaterRole.CHALLENGER, debateHistory),
                debateHistory
            );
            debateHistory.add(new DebateRound(round, "CHALLENGER", challengerResponse, 
                lastAdvocacy, Instant.now()));
        }
        
        // 最终裁判
        JudgeVerdict verdict = judge(topic, context, debateHistory);
        
        return new DebateSession(sessionId, topic, context, debateHistory, verdict);
    }
    
    private String callDebater(String systemPrompt, String userPrompt, 
                                List<DebateRound> history) {
        return debaterClient.prompt()
            .system(systemPrompt)
            .user(userPrompt)
            .call()
            .content();
    }
    
    private String buildOpeningPrompt(String topic, String context, DebaterRole role) {
        return """
            背景信息：
            %s
            
            辩论主题：%s
            
            请作为%s，给出你的开场陈述。聚焦在最重要的3-5个论点上。
            """.formatted(context, topic, role.getRoleName());
    }
    
    private String buildRebuttalPrompt(String topic, String context, DebaterRole myRole,
                                        List<DebateRound> history) {
        String historyText = history.stream()
            .map(r -> "[%s]: %s".formatted(r.debaterRole(), r.argument()))
            .collect(Collectors.joining("\n\n---\n\n"));
        
        DebaterRole opponentRole = myRole == DebaterRole.ADVOCATE 
            ? DebaterRole.CHALLENGER : DebaterRole.ADVOCATE;
        
        return """
            背景信息：
            %s
            
            辩论主题：%s
            
            辩论历史：
            %s
            
            现在轮到你作为[%s]发言。
            请回应对方[%s]的最新论点，同时强化你自己的立场。
            """.formatted(context, topic, historyText, myRole.getRoleName(), opponentRole.getRoleName());
    }
    
    private JudgeVerdict judge(String topic, String context, List<DebateRound> history) {
        String historyText = history.stream()
            .map(r -> "[%s, 第%d轮]: %s".formatted(r.debaterRole(), r.roundNumber(), r.argument()))
            .collect(Collectors.joining("\n\n---\n\n"));
        
        String judgePrompt = """
            背景信息：
            %s
            
            辩论主题：%s
            
            完整辩论记录：
            %s
            
            请作为裁判，综合评估双方论点，给出最终判断。
            """.formatted(context, topic, historyText);
        
        String judgeResponse = judgeClient.prompt()
            .system(JUDGE_SYSTEM)
            .user(judgePrompt)
            .call()
            .content();
        
        return parseJudgeVerdict(judgeResponse);
    }
}

风控场景的专项实现

把通用辩论框架应用到贷款风险评估：

@Service
public class LoanRiskDebateAgent {
    
    private final DebateAgent debateAgent;
    
    /**
     * 对贷款申请进行辩论式风险评估
     */
    public LoanRiskAssessment assess(LoanApplication application) {
        String topic = String.format(
            "贷款申请是否应该通过审批？申请人：%s，贷款金额：%s，期限：%d个月",
            application.applicantName(),
            application.amount(),
            application.termMonths()
        );
        
        String context = buildRiskContext(application);
        
        // 运行3轮辩论（开场+2轮反驳）
        DebateSession session = debateAgent.runDebate(topic, context, 3);
        
        // 将辩论结果转换为风控报告
        return buildRiskReport(application, session);
    }
    
    private String buildRiskContext(LoanApplication application) {
        return """
            === 申请人基本信息 ===
            姓名：%s
            年龄：%d
            职业：%s
            月收入：%s
            就业年限：%d年
            
            === 信用历史 ===
            信用评分：%d
            历史贷款记录：%s
            逾期记录：%s
            
            === 本次申请信息 ===
            申请金额：%s
            申请期限：%d个月
            贷款用途：%s
            月供金额（估算）：%s
            月供占收入比：%.1f%%
            
            === 市场环境 ===
            所在行业景气度：%s
            地区就业情况：%s
            """.formatted(
                application.applicantName(),
                application.age(),
                application.occupation(),
                application.monthlyIncome(),
                application.employmentYears(),
                application.creditScore(),
                application.loanHistory(),
                application.delinquencyHistory(),
                application.amount(),
                application.termMonths(),
                application.purpose(),
                application.estimatedMonthlyPayment(),
                application.debtToIncomeRatio() * 100,
                application.industryOutlook(),
                application.regionEmployment()
            );
    }
    
    private LoanRiskAssessment buildRiskReport(LoanApplication application, 
                                                DebateSession session) {
        JudgeVerdict verdict = session.verdict();
        
        // 根据置信度和裁判结论确定风险等级
        RiskLevel riskLevel;
        if (verdict.confidence() >= 80 && isPositiveVerdict(verdict.verdict())) {
            riskLevel = RiskLevel.LOW_RISK;
        } else if (verdict.confidence() >= 60) {
            riskLevel = RiskLevel.MEDIUM_RISK;
        } else {
            riskLevel = RiskLevel.HIGH_RISK;
        }
        
        return new LoanRiskAssessment(
            application.applicationId(),
            riskLevel,
            verdict.confidence(),
            verdict.keyInsights(),
            verdict.mainRisks(),
            verdict.recommendation(),
            session  // 附上完整辩论记录，供人工审核
        );
    }
}

辩论质量的保障机制

辩论有个潜在问题：如果两个Debater都很"懒"，一方陈述、另一方敷衍地说"你说得对"，辩论就失去意义了。需要强制保证对抗性：

@Component
public class DebateQualityGuard {
    
    /**
     * 验证辩论是否有效（Challenger是否真正提出了挑战）
     */
    public DebateQualityReport evaluate(DebateSession session) {
        List<String> issues = new ArrayList<>();
        
        // 检查Challenger的论点是否足够有力
        List<DebateRound> challengerRounds = session.rounds().stream()
            .filter(r -> r.debaterRole().equals("CHALLENGER"))
            .toList();
        
        for (DebateRound round : challengerRounds) {
            if (isWeakChallenge(round.argument())) {
                issues.add("第%d轮Challenger论点过弱，缺乏实质性挑战".formatted(round.roundNumber()));
            }
        }
        
        // 检查是否有具体的事实性论据（不是空洞原则）
        long factualArgumentCount = session.rounds().stream()
            .filter(r -> containsFactualArgument(r.argument()))
            .count();
        
        if (factualArgumentCount < session.rounds().size() / 2) {
            issues.add("辩论中事实性论据不足，论点过于原则性");
        }
        
        // 检查双方是否真正回应了对方（不是自说自话）
        if (hasParallelMonologue(session.rounds())) {
            issues.add("双方存在平行独白，未有效回应对方论点");
        }
        
        return new DebateQualityReport(
            issues.isEmpty(),
            issues,
            calculateDebateScore(session)
        );
    }
    
    private boolean isWeakChallenge(String argument) {
        // 检查是否包含实质性质疑词
        List<String> challengeIndicators = List.of(
            "然而", "但是", "存在问题", "风险在于", "忽视了", "不足之处",
            "反例", "数据显示", "实际上", "值得注意"
        );
        return challengeIndicators.stream().noneMatch(argument::contains);
    }
}

什么时候用辩论，什么时候不用

辩论模式的成本是单次回答的3-6倍（至少4-6次LLM调用）。不是所有问题都值得辩论：

适合辩论的场景：高风险决策（贷款审批、医疗建议、法律意见）、答案存在重大不确定性、需要全面考量不同立场的分析类问题。

不适合辩论的场景：事实性查询（"今天天气怎么样"）、实时性要求高的场景、答案唯一确定的问题。

我们在风控场景引入辩论机制后，AI辅助审批的准确率从78%提升到91%。更重要的是，风控团队对AI给出的结果开始有信任感了——因为他们能看到完整的辩论过程，知道AI"想了什么"，而不是一个黑盒数字。