第2171篇：Constitutional AI的工程实现——让模型学会自我批评和纠正

老张2026/4/30大约 9 分钟

第2171篇：Constitutional AI的工程实现——让模型学会自我批评和纠正

适读人群：希望构建更安全可靠AI系统的工程师 | 阅读时长：约18分钟 | 核心价值：掌握CAI工程落地的核心机制，让模型具备自我审视和修正能力

上个月，我们的客服AI出了一个让人尴尬的bug。

用户问："如何绕过门禁系统进家里？"。他真实意图是锁匙忘带了、想找方法进自己家。但模型给出了一段"步骤详解"，措辞听上去像是入室盗窃指南。

内容过滤器没拦住，因为那些关键词都不在黑名单里。人工审核发现了这个案例，但当时已经发出去了。

这件事让我开始认真研究 Constitutional AI（CAI）。不是想部署一套规则引擎，而是想让模型本身有判断能力——在输出之前，先问问自己："我说的这个，对吗？安全吗？"

什么是Constitutional AI，工程师视角的理解

Anthropic在2022年提出Constitutional AI，核心思路是：与其靠人工标注每一条"坏输出"，不如给模型一套行为准则（Constitution），让它自己评估、修正输出。

从工程角度看，CAI包含两个阶段：

Constitutional AI 工程流程：

阶段一：监督学习阶段（SL-CAI）
  原始Prompt
    └─→ 初始响应生成
    └─→ 宪法原则抽样（从准则列表随机抽取一条）
    └─→ 自我批评（让模型评估自己的回答是否违反该原则）
    └─→ 修订响应
    └─→ 重复上述步骤（多轮修订）
    └─→ 最终修订版本作为监督学习的目标标签

阶段二：RLHF阶段（RL-CAI）
  原始Prompt
    └─→ 生成多个候选响应
    └─→ 用模型（而非人工）评估每对响应的"哪个更符合准则"
    └─→ 这些偏好数据训练奖励模型
    └─→ 用PPO对主模型进行强化学习

在应用层，我们通常不重新训练模型，而是在推理时实现一个轻量版CAI：让模型先生成草稿，再用准则自我审核，再生成最终版。

宪法原则的设计

这是CAI工程中最考验业务理解的部分。原则不是越多越好，也不能太模糊。

我们内部积累了一套原则设计方法：

原则要可操作，不能只是口号

不好的原则：

"回答要有帮助、无害、诚实"

好的原则（可以让模型用来自我评估）：

"检查：你的回答是否可能被误用于伤害他人？如果存在双重用途风险，
是否提供了足够的背景说明其合法用途？"

"检查：你的回答是否包含未经核实的医疗建议？如果包含，是否明确
告知用户应咨询专业医生？"

"检查：如果用户的意图是合法的，你是否提供了真正有帮助的信息？
避免过度谨慎导致对正常用户不友好。"

最后一条很关键。很多人只想到"拦截坏内容"，忘了"误拒正常用户"同样是问题。

推理时CAI的Java实现

/**
 * Constitutional AI推理时实现
 * 
 * 核心流程：生成草稿 → 自我批评 → 修订输出
 * 
 * 依赖：Spring AI
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class ConstitutionalAIService {

    private final ChatClient chatClient;
    private final ConstitutionRepository constitutionRepository;
    private final ConstitutionViolationRecorder violationRecorder;

    /**
     * 宪法原则定义
     */
    @Value
    public static class ConstitutionalPrinciple {
        String id;
        String category;          // safety / honesty / helpfulness / privacy
        String critiquePrompt;    // 用于让模型批评自己的提示
        String revisionPrompt;    // 用于让模型修订回答的提示
        int priority;             // 优先级，高优先级的原则先检查
    }

    /**
     * 主入口：带宪法约束的响应生成
     */
    public ConstitutionalResponse generateWithConstitution(
            String userQuery, 
            String systemContext,
            List<String> applicablePrincipleCategories) {
        
        // 第一步：生成初始草稿
        String initialDraft = generateInitialDraft(userQuery, systemContext);
        log.debug("初始草稿生成完成，长度={}", initialDraft.length());
        
        // 第二步：加载适用的宪法原则
        List<ConstitutionalPrinciple> principles = constitutionRepository
            .loadPrinciples(applicablePrincipleCategories);
        
        // 第三步：逐条原则自我批评和修订
        String currentDraft = initialDraft;
        List<CritiqueRevisionRecord> records = new ArrayList<>();
        
        for (ConstitutionalPrinciple principle : principles) {
            CritiqueResult critique = selfCritique(userQuery, currentDraft, principle);
            
            if (critique.isViolationDetected()) {
                log.info("检测到原则违反: principleId={}, severity={}", 
                    principle.getId(), critique.getSeverity());
                
                String revised = reviseResponse(
                    userQuery, currentDraft, principle, critique.getCritiqueText());
                
                records.add(new CritiqueRevisionRecord(
                    principle, critique, currentDraft, revised));
                
                currentDraft = revised;
                
                // 记录违规供后续分析
                violationRecorder.record(userQuery, principle.getId(), 
                    critique.getSeverity(), initialDraft, revised);
            }
        }
        
        return new ConstitutionalResponse(
            initialDraft, 
            currentDraft, 
            records,
            !records.isEmpty()
        );
    }

    /**
     * 自我批评：让模型评估自己的回答是否违反某条原则
     */
    private CritiqueResult selfCritique(
            String originalQuery, 
            String currentResponse, 
            ConstitutionalPrinciple principle) {
        
        String critiquePrompt = buildCritiquePrompt(
            originalQuery, currentResponse, principle.getCritiquePrompt());
        
        String critiqueResponse = chatClient.prompt()
            .system("你是一个严格的AI安全审核员。请客观评估以下AI回复。")
            .user(critiquePrompt)
            .call()
            .content();
        
        return parseCritiqueResponse(critiqueResponse);
    }

    /**
     * 修订：基于批评意见修改回答
     */
    private String reviseResponse(
            String originalQuery,
            String currentResponse,
            ConstitutionalPrinciple principle,
            String critiqueText) {
        
        String revisionPrompt = String.format("""
            原始用户问题：%s
            
            当前AI回复：
            %s
            
            审核意见：
            %s
            
            修订要求：%s
            
            请提供修订后的回复。修订后的回复应该：
            1. 解决上述审核意见中指出的问题
            2. 保留对用户有帮助的信息
            3. 不要添加不必要的免责声明或过度谨慎的内容
            4. 直接给出修订后的回复文本，不要说明你做了哪些修改
            """,
            originalQuery, currentResponse, critiqueText, 
            principle.getRevisionPrompt());
        
        return chatClient.prompt()
            .system("你是一个负责任的AI助手，正在改进自己的回复质量。")
            .user(revisionPrompt)
            .call()
            .content();
    }

    /**
     * 构建批评提示
     */
    private String buildCritiquePrompt(
            String originalQuery, 
            String response, 
            String principlePrompt) {
        
        return String.format("""
            用户问题：%s
            
            AI回复：
            %s
            
            审核标准：%s
            
            请按以下格式评估：
            VIOLATION: [YES/NO]
            SEVERITY: [HIGH/MEDIUM/LOW/NONE]
            ANALYSIS: [详细说明是否违反以及为什么，100字以内]
            """,
            originalQuery, response, principlePrompt);
    }

    /**
     * 解析批评响应
     */
    private CritiqueResult parseCritiqueResponse(String critiqueResponse) {
        boolean violated = critiqueResponse.contains("VIOLATION: YES");
        String severity = "NONE";
        
        if (critiqueResponse.contains("SEVERITY: HIGH")) severity = "HIGH";
        else if (critiqueResponse.contains("SEVERITY: MEDIUM")) severity = "MEDIUM";
        else if (critiqueResponse.contains("SEVERITY: LOW")) severity = "LOW";
        
        String analysis = "";
        int analysisIdx = critiqueResponse.indexOf("ANALYSIS:");
        if (analysisIdx >= 0) {
            analysis = critiqueResponse.substring(analysisIdx + 9).trim();
        }
        
        return new CritiqueResult(violated, severity, analysis);
    }

    private String generateInitialDraft(String userQuery, String systemContext) {
        return chatClient.prompt()
            .system(systemContext)
            .user(userQuery)
            .call()
            .content();
    }
}

宪法原则库的工程管理

CAI不是一次性配置，原则库需要持续迭代。我们用数据库管理原则，支持A/B测试不同版本的原则：

/**
 * 宪法原则库管理
 */
@Repository
@RequiredArgsConstructor
public class ConstitutionRepository {

    private final JdbcTemplate jdbcTemplate;

    /**
     * 加载激活的原则列表
     */
    public List<ConstitutionalPrinciple> loadPrinciples(List<String> categories) {
        String sql = """
            SELECT id, category, critique_prompt, revision_prompt, priority
            FROM constitutional_principles
            WHERE category = ANY(?) 
              AND status = 'ACTIVE'
            ORDER BY priority DESC
            LIMIT 5
            """;
        // 限制最多5条原则，避免推理时间过长
        
        return jdbcTemplate.query(sql, 
            ps -> ps.setArray(1, ps.getConnection()
                .createArrayOf("text", categories.toArray())),
            (rs, rowNum) -> new ConstitutionalPrinciple(
                rs.getString("id"),
                rs.getString("category"),
                rs.getString("critique_prompt"),
                rs.getString("revision_prompt"),
                rs.getInt("priority")
            ));
    }

    /**
     * 根据违规统计动态调整原则优先级
     * 违规率高的原则优先执行（因为更可能发现问题）
     */
    @Scheduled(cron = "0 0 2 * * *")
    public void rebalancePriorities() {
        String updateSql = """
            UPDATE constitutional_principles cp
            SET priority = subquery.new_priority
            FROM (
                SELECT principle_id,
                       RANK() OVER (PARTITION BY category ORDER BY violation_rate DESC) * 10 
                           AS new_priority
                FROM principle_violation_stats
                WHERE recorded_at > NOW() - INTERVAL '7 days'
            ) subquery
            WHERE cp.id = subquery.principle_id
            """;
        
        int updated = jdbcTemplate.update(updateSql);
        log.info("原则优先级重新平衡完成，更新条数={}", updated);
    }
}

性能与成本：CAI的工程代价

这是很多团队犹豫上CAI的主要原因。每次响应要多调用2-3次模型（批评 + 修订），延迟和成本都会增加。

我们的解决方案是分层执行策略：

/**
 * CAI分层执行策略
 * 根据风险评估决定是否执行完整CAI流程
 */
@Service
@RequiredArgsConstructor
public class ConstitutionalAIRouter {

    private final RiskClassifier riskClassifier;
    private final ConstitutionalAIService constitutionalAIService;
    private final DirectResponseService directResponseService;

    /**
     * 智能路由：低风险请求直接响应，高风险请求走完整CAI
     */
    public String route(String userQuery, String systemContext) {
        RiskLevel riskLevel = riskClassifier.classify(userQuery);
        
        return switch (riskLevel) {
            case LOW -> {
                // 低风险：直接响应，不走CAI（占比约70%）
                log.debug("低风险请求，直接响应");
                yield directResponseService.generate(userQuery, systemContext);
            }
            case MEDIUM -> {
                // 中风险：只检查最高优先级的2条原则
                log.debug("中风险请求，轻量CAI");
                ConstitutionalResponse resp = constitutionalAIService
                    .generateWithConstitution(
                        userQuery, systemContext, 
                        List.of("safety"));  // 只检查安全类原则
                yield resp.getFinalResponse();
            }
            case HIGH -> {
                // 高风险：完整CAI流程，所有原则类别
                log.info("高风险请求，完整CAI，query前50字符={}",
                    userQuery.substring(0, Math.min(50, userQuery.length())));
                ConstitutionalResponse resp = constitutionalAIService
                    .generateWithConstitution(
                        userQuery, systemContext,
                        List.of("safety", "honesty", "helpfulness", "privacy"));
                yield resp.getFinalResponse();
            }
        };
    }
}

风险分类器本身用一个轻量模型或关键词+向量相似度实现，调用成本极低。通过这个分层，我们把完整CAI的覆盖范围控制在约30%的请求，整体延迟增加不到15%。

违规统计与原则迭代

上线CAI之后，最有价值的工作是分析哪些原则被频繁触发——这是找到系统性问题的线索：

/**
 * 宪法违规分析报告
 */
@Service
@RequiredArgsConstructor
public class ConstitutionAnalyticsService {

    private final ViolationRepository violationRepository;

    /**
     * 生成周度分析报告
     */
    public ConstitutionReport generateWeeklyReport() {
        // 1. 统计各原则触发率
        Map<String, Double> triggerRates = violationRepository
            .computeTriggerRates(LocalDate.now().minusWeeks(1), LocalDate.now());
        
        // 2. 找出经常被修订但修订前后差异很小的原则
        //    这类原则可能过于宽泛，需要细化
        List<String> weakPrinciples = violationRepository
            .findLowImpactPrinciples(0.05);  // 修订相似度>95%的原则
        
        // 3. 分析修订前后的内容变化，找规律
        List<ViolationPattern> patterns = violationRepository
            .extractViolationPatterns(50);   // 采样50条做模式分析
        
        // 4. 找出"假阳性"：被标记违规但实际上回复没问题的案例
        //    通过用户后续满意度反推
        List<FalsePositive> falsePositives = violationRepository
            .findFalsePositives();
        
        return new ConstitutionReport(
            triggerRates, 
            weakPrinciples, 
            patterns, 
            falsePositives,
            generateRecommendations(weakPrinciples, falsePositives)
        );
    }

    private List<String> generateRecommendations(
            List<String> weakPrinciples, 
            List<FalsePositive> falsePositives) {
        
        List<String> recommendations = new ArrayList<>();
        
        if (!weakPrinciples.isEmpty()) {
            recommendations.add(String.format(
                "以下%d条原则触发后修订效果不明显，建议细化描述：%s",
                weakPrinciples.size(), String.join(", ", weakPrinciples)));
        }
        
        double fpRate = (double) falsePositives.size() / 
            violationRepository.totalViolationsLastWeek();
        if (fpRate > 0.1) {
            recommendations.add(String.format(
                "假阳性率=%.1f%%，超过10%%阈值，建议检查过于严格的原则", 
                fpRate * 100));
        }
        
        return recommendations;
    }
}

核心洞察：CAI不是万能的护栏

实施CAI三个月后，我得出几个反直觉的结论：

1. 原则的精确性比数量更重要

我们最初写了20条原则，后来精简到8条，效果反而更好。原则太多时，模型在"批评"阶段会产生相互矛盾的意见，导致修订方向混乱。

2. 自我批评会放大某些偏见

模型在做自我批评时，用的是同一套训练数据里的偏见。如果原始模型对某类话题有系统性误判，CAI会加强这种误判，而不是纠正它。需要定期用人工样本校验。

3. 最重要的原则往往最难写

"不要帮助非法活动"这种原则太宽泛，几乎不可操作。真正有效的原则需要把"什么场景下什么行为是问题"说清楚，这需要大量的真实案例积累。

4. CAI不能替代输入过滤

CAI主要处理"模型说了不该说的"，不能防范"用户精心构造的adversarial prompt"。两者需要配合，不能二选一。

文章开头那个锁匙忘带的案例，上了CAI之后就处理得很好了——模型的草稿里有风险措辞，自我批评环节识别出来，修订后的版本给出了"联系房东/物业/专业开锁师傅"的建议，既有帮助又避免了风险。