第2114篇：LLM的A/B测试与Prompt实验管理——如何科学地迭代提示词

老张2026/4/30大约 10 分钟

第2114篇：LLM的A/B测试与Prompt实验管理——如何科学地迭代提示词

适读人群：需要持续优化LLM效果的工程师和产品经理 | 阅读时长：约19分钟 | 核心价值：建立严格的Prompt实验框架，让每次改动都有数据支撑，告别靠感觉调Prompt

"我觉得新Prompt比旧的好。"

"你确定吗？我感觉旧的在某些情况下更稳。"

这种对话在每个团队里都发生过。Prompt改动的效果评估，如果靠人的主观感受，永远得不出共识。更糟的是，团队对Prompt A和Prompt B争论了两周，最后随便选了一个上线，结果实际用户反馈是另一种结果。

A/B测试能解决这个问题：让数据说话，不让感觉说话。

但LLM的A/B测试比普通功能的A/B测试复杂得多，这篇文章把这些复杂性梳理清楚。

LLM A/B测试的特殊性

/**
 * 为什么LLM的A/B测试比普通A/B更难？
 * 
 * 普通A/B测试：
 * - 变体A/B之间差异大且固定（按钮颜色/文字）
 * - 指标直接可衡量（点击率/转化率）
 * - 结果通常在几天内就能统计显著
 * 
 * LLM A/B测试的挑战：
 * 
 * 1. LLM输出有随机性
 *    同一个Prompt，同一个用户，两次调用结果不同
 *    这个随机性不是噪声，是系统的一部分
 * 
 * 2. 质量指标难以自动化
 *    "哪个回答更好"通常需要人工判断
 *    或者用另一个LLM来评判（有偏见）
 * 
 * 3. 用户行为指标有延迟
 *    用户是否满意可能要在对话结束后才知道
 * 
 * 4. 交互效应
 *    不同用户对"好回答"的标准不同
 *    某个Prompt对新用户好，对老用户差
 * 
 * 解决思路：
 * - 明确指标体系（隐式信号 + 显式评分）
 * - 分层采样（按用户类型分层）
 * - 结合在线A/B和离线评估
 */

实验管理服务

/**
 * Prompt实验管理
 * 
 * 管理多个Prompt版本的并行实验
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class PromptExperimentService {
    
    private final ExperimentRepository experimentRepo;
    private final UserAssignmentService assignmentService;
    private final RedisTemplate<String, String> redisTemplate;
    
    /**
     * 创建实验
     */
    public Experiment createExperiment(CreateExperimentRequest request) {
        
        // 验证：流量分配必须加起来 ≤ 100%
        double totalTraffic = request.getVariants().stream()
            .mapToDouble(Experiment.Variant::getTrafficPercent)
            .sum();
        
        if (totalTraffic > 100.0) {
            throw new IllegalArgumentException("实验流量总和超过100%: " + totalTraffic);
        }
        
        Experiment experiment = Experiment.builder()
            .experimentId(UUID.randomUUID().toString())
            .name(request.getName())
            .description(request.getDescription())
            .featureFlag(request.getFeatureFlag())
            .variants(request.getVariants())
            .status(Experiment.Status.DRAFT)
            .targetUserGroup(request.getTargetUserGroup())
            .primaryMetric(request.getPrimaryMetric())
            .guardrailMetrics(request.getGuardrailMetrics())
            .createdAt(LocalDateTime.now())
            .build();
        
        experimentRepo.save(experiment);
        log.info("实验创建: experimentId={}, name={}", 
                 experiment.getExperimentId(), experiment.getName());
        
        return experiment;
    }
    
    /**
     * 启动实验
     */
    public void startExperiment(String experimentId) {
        Experiment experiment = experimentRepo.findById(experimentId)
            .orElseThrow(() -> new IllegalArgumentException("实验不存在: " + experimentId));
        
        if (experiment.getStatus() != Experiment.Status.DRAFT) {
            throw new IllegalStateException("只有草稿状态的实验可以启动");
        }
        
        experiment.setStatus(Experiment.Status.RUNNING);
        experiment.setStartedAt(LocalDateTime.now());
        experimentRepo.save(experiment);
        
        // 清空分组缓存（强制重新分配）
        redisTemplate.delete("experiment:assignments:" + experimentId + ":*");
        
        log.info("实验启动: experimentId={}", experimentId);
    }
    
    /**
     * 获取用户应该使用哪个变体
     * 
     * 保证：同一个用户在实验期间始终分到同一个变体（分组一致性）
     */
    public Optional<Experiment.Variant> getVariantForUser(
            String experimentId, String userId) {
        
        Experiment experiment = experimentRepo.findById(experimentId).orElse(null);
        if (experiment == null || experiment.getStatus() != Experiment.Status.RUNNING) {
            return Optional.empty();
        }
        
        // 检查用户是否在目标用户群
        if (!isUserInTargetGroup(userId, experiment.getTargetUserGroup())) {
            return Optional.empty();
        }
        
        // 获取或确定用户的分组
        String assignmentKey = "experiment:assignments:" + experimentId + ":" + userId;
        String cachedVariantId = redisTemplate.opsForValue().get(assignmentKey);
        
        if (cachedVariantId != null) {
            return experiment.getVariants().stream()
                .filter(v -> v.getVariantId().equals(cachedVariantId))
                .findFirst();
        }
        
        // 首次访问：分配变体
        Experiment.Variant assigned = assignmentService.assign(userId, experiment.getVariants());
        
        if (assigned != null) {
            // 缓存分组结果（实验结束之前一直有效）
            redisTemplate.opsForValue().set(assignmentKey, assigned.getVariantId(),
                Duration.ofDays(30));
        }
        
        return Optional.ofNullable(assigned);
    }
    
    private boolean isUserInTargetGroup(String userId, TargetUserGroup group) {
        if (group == null) return true;  // 不限制用户群
        
        return switch (group) {
            case ALL_USERS -> true;
            case NEW_USERS -> isNewUser(userId);
            case PREMIUM_USERS -> isPremiumUser(userId);
            case INTERNAL_USERS -> isInternalUser(userId);
        };
    }
    
    private boolean isNewUser(String userId) { return true; }  // 简化实现
    private boolean isPremiumUser(String userId) { return true; }
    private boolean isInternalUser(String userId) { return userId.endsWith("@company.com"); }
    
    public enum TargetUserGroup { ALL_USERS, NEW_USERS, PREMIUM_USERS, INTERNAL_USERS }
    
    @Data
    @Builder
    public static class Experiment {
        private String experimentId;
        private String name;
        private String description;
        private String featureFlag;       // 和Feature Flag关联，方便控制
        private List<Variant> variants;
        private Status status;
        private TargetUserGroup targetUserGroup;
        private String primaryMetric;     // 主指标（如user_satisfaction_score）
        private List<String> guardrailMetrics;  // 护栏指标（不能下降的指标）
        private LocalDateTime createdAt;
        private LocalDateTime startedAt;
        private LocalDateTime endedAt;
        
        @Data
        @Builder
        public static class Variant {
            private String variantId;
            private String name;          // "control" 或 "treatment_A"
            private double trafficPercent;
            private String promptTemplate;
            private Map<String, String> parameters;  // 其他参数（temperature等）
        }
        
        public enum Status { DRAFT, RUNNING, PAUSED, COMPLETED, ARCHIVED }
    }
    
    @Data
    @Builder
    public static class CreateExperimentRequest {
        private String name;
        private String description;
        private String featureFlag;
        private List<Experiment.Variant> variants;
        private TargetUserGroup targetUserGroup;
        private String primaryMetric;
        private List<String> guardrailMetrics;
    }
}

用户分配服务

/**
 * 用户到实验变体的分配
 * 
 * 要求：
 * 1. 相同用户 + 相同实验 = 相同分组（一致性）
 * 2. 分组比例符合配置（准确性）
 * 3. 分配过程不依赖随机数（可复现）
 */
@Service
public class UserAssignmentService {
    
    /**
     * 基于哈希的确定性分配
     * 
     * 不使用random()，而是对userId+experimentId做哈希
     * 保证：相同输入 → 相同输出
     */
    public PromptExperimentService.Experiment.Variant assign(
            String userId, 
            List<PromptExperimentService.Experiment.Variant> variants) {
        
        if (variants == null || variants.isEmpty()) return null;
        
        // 计算用户的哈希值（0-99）
        String hashInput = userId + ":" + variants.get(0).getVariantId();
        int hashValue = Math.abs(hashInput.hashCode()) % 100;
        
        // 按流量比例分配
        double cumulative = 0;
        for (PromptExperimentService.Experiment.Variant variant : variants) {
            cumulative += variant.getTrafficPercent();
            if (hashValue < cumulative) {
                return variant;
            }
        }
        
        // 如果流量总和 < 100%，剩余用户不参与实验
        return null;
    }
}

指标收集服务

/**
 * 实验指标收集
 * 
 * 收集隐式信号（行为数据）和显式信号（用户评分）
 * 关联到实验分组
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class ExperimentMetricsCollector {
    
    private final JdbcTemplate jdbc;
    private final MeterRegistry meterRegistry;
    
    /**
     * 记录一次LLM交互的指标
     */
    public void recordInteraction(InteractionMetrics metrics) {
        try {
            jdbc.update("""
                INSERT INTO experiment_interactions
                (interaction_id, experiment_id, variant_id, user_id, session_id,
                 response_latency_ms, response_length, 
                 user_continued_conversation, user_rated_positive, user_rating_score,
                 interaction_time)
                VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, NOW())
                """,
                UUID.randomUUID().toString(),
                metrics.getExperimentId(),
                metrics.getVariantId(),
                metrics.getUserId(),
                metrics.getSessionId(),
                metrics.getResponseLatencyMs(),
                metrics.getResponseLength(),
                metrics.isUserContinuedConversation(),
                metrics.getUserRatedPositive(),
                metrics.getUserRatingScore()
            );
        } catch (Exception e) {
            log.error("指标记录失败: {}", e.getMessage());
        }
    }
    
    /**
     * 记录用户显式评分
     * 
     * 通常是用户点击"有帮助"/"没帮助"按钮
     */
    public void recordExplicitFeedback(String interactionId, boolean positive, String reason) {
        try {
            jdbc.update("""
                UPDATE experiment_interactions 
                SET user_rated_positive = ?, user_feedback_reason = ?
                WHERE interaction_id = ?
                """,
                positive, reason, interactionId
            );
        } catch (Exception e) {
            log.error("反馈记录失败: {}", e.getMessage());
        }
    }
    
    /**
     * 记录隐式信号（用户行为）
     * 
     * 比显式反馈更客观，但信号更弱
     * 
     * 信号类型：
     * - 用户继续追问 → 可能说明回答不够清楚
     * - 用户没有追问直接离开 → 可能满意（也可能放弃）
     * - 用户复制了回答内容 → 强正向信号（真的用了）
     * - 会话时长 → 间接反映价值
     */
    public void recordImplicitSignal(String sessionId, ImplicitSignalType signalType) {
        try {
            jdbc.update("""
                INSERT INTO experiment_implicit_signals (session_id, signal_type, signal_time)
                VALUES (?, ?, NOW())
                """,
                sessionId, signalType.name()
            );
        } catch (Exception e) {
            log.error("隐式信号记录失败: {}", e.getMessage());
        }
    }
    
    public enum ImplicitSignalType {
        USER_COPIED_RESPONSE,     // 复制了回答
        USER_ASKED_FOLLOWUP,      // 继续追问
        USER_ENDED_SESSION_FAST,  // 快速结束会话（<10秒）
        USER_SESSION_LONG,        // 长时间会话（>5分钟）
        USER_SHARED_RESPONSE      // 分享了回答
    }
    
    @Data
    @Builder
    public static class InteractionMetrics {
        private String experimentId;
        private String variantId;
        private String userId;
        private String sessionId;
        private long responseLatencyMs;
        private int responseLength;
        private boolean userContinuedConversation;
        private Boolean userRatedPositive;     // null = 未评分
        private Double userRatingScore;        // null = 未评分，0-1
    }
}

统计分析和结论

/**
 * 实验结果统计分析
 * 
 * 核心：判断变体间的差异是否统计显著
 * 避免因为样本太小就下结论
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class ExperimentAnalysisService {
    
    private final JdbcTemplate jdbc;
    
    /**
     * 分析实验结果
     */
    public ExperimentReport analyzeExperiment(String experimentId) {
        
        // 获取各变体的指标
        List<VariantStats> variantStats = getVariantStats(experimentId);
        
        if (variantStats.size() < 2) {
            return ExperimentReport.insufficient("数据不足");
        }
        
        VariantStats control = variantStats.stream()
            .filter(s -> s.variantName().equals("control"))
            .findFirst()
            .orElse(variantStats.get(0));
        
        List<VariantComparison> comparisons = new ArrayList<>();
        
        for (VariantStats treatment : variantStats) {
            if (treatment.variantId().equals(control.variantId())) continue;
            
            VariantComparison comparison = compareVariants(control, treatment);
            comparisons.add(comparison);
        }
        
        return ExperimentReport.builder()
            .experimentId(experimentId)
            .variantStats(variantStats)
            .comparisons(comparisons)
            .recommendation(buildRecommendation(comparisons))
            .generatedAt(LocalDateTime.now())
            .build();
    }
    
    private List<VariantStats> getVariantStats(String experimentId) {
        return jdbc.query("""
            SELECT 
                variant_id,
                MAX(variant_name) as variant_name,
                COUNT(*) as sample_size,
                AVG(CASE WHEN user_rated_positive = true THEN 1.0 
                         WHEN user_rated_positive = false THEN 0.0 
                         ELSE NULL END) as satisfaction_rate,
                COUNT(CASE WHEN user_rated_positive IS NOT NULL THEN 1 END) as rated_count,
                AVG(response_latency_ms) as avg_latency_ms,
                AVG(CASE WHEN user_continued_conversation THEN 1.0 ELSE 0.0 END) as followup_rate
            FROM experiment_interactions
            WHERE experiment_id = ?
            GROUP BY variant_id
            HAVING COUNT(*) >= 30
            ORDER BY variant_name
            """,
            (rs, rowNum) -> new VariantStats(
                rs.getString("variant_id"),
                rs.getString("variant_name"),
                rs.getLong("sample_size"),
                rs.getDouble("satisfaction_rate"),
                rs.getLong("rated_count"),
                rs.getDouble("avg_latency_ms"),
                rs.getDouble("followup_rate")
            ),
            experimentId
        );
    }
    
    /**
     * 统计显著性检验（用z检验做比例对比）
     * 
     * 对于满意率这类比例指标
     */
    private VariantComparison compareVariants(VariantStats control, VariantStats treatment) {
        
        double controlRate = control.satisfactionRate();
        double treatmentRate = treatment.satisfactionRate();
        double delta = treatmentRate - controlRate;
        double deltaPercent = control.satisfactionRate() > 0 ? 
            delta / control.satisfactionRate() * 100 : 0;
        
        // z检验
        double pooledRate = (controlRate * control.ratedCount() + 
                             treatmentRate * treatment.ratedCount()) 
                           / (control.ratedCount() + treatment.ratedCount());
        
        double se = Math.sqrt(pooledRate * (1 - pooledRate) * 
            (1.0/control.ratedCount() + 1.0/treatment.ratedCount()));
        
        double zScore = se > 0 ? delta / se : 0;
        
        // 计算p值（双尾）
        double pValue = 2 * (1 - normalCdf(Math.abs(zScore)));
        
        boolean isSignificant = pValue < 0.05;  // 95%置信水平
        
        SignificanceLevel sigLevel;
        if (pValue < 0.001) sigLevel = SignificanceLevel.VERY_HIGH;
        else if (pValue < 0.01) sigLevel = SignificanceLevel.HIGH;
        else if (pValue < 0.05) sigLevel = SignificanceLevel.MODERATE;
        else sigLevel = SignificanceLevel.NOT_SIGNIFICANT;
        
        return new VariantComparison(
            control.variantId(), treatment.variantId(),
            treatment.variantName(), delta, deltaPercent,
            pValue, isSignificant, sigLevel,
            control.sampleSize(), treatment.sampleSize()
        );
    }
    
    private String buildRecommendation(List<VariantComparison> comparisons) {
        if (comparisons.isEmpty()) return "数据不足，无法给出建议";
        
        // 找到最好的treatment（显著优于control的）
        Optional<VariantComparison> bestTreatment = comparisons.stream()
            .filter(c -> c.isSignificant() && c.delta() > 0)
            .max(Comparator.comparingDouble(VariantComparison::delta));
        
        if (bestTreatment.isPresent()) {
            VariantComparison best = bestTreatment.get();
            return String.format(
                "建议上线 %s（满意率提升 %.1f%%，p=%.4f，统计显著）",
                best.treatmentName(), best.deltaPercent(), best.pValue()
            );
        }
        
        // 检查是否有显著差于control的
        boolean hasRegression = comparisons.stream()
            .anyMatch(c -> c.isSignificant() && c.delta() < 0);
        
        if (hasRegression) {
            return "实验变体显著差于基线，建议回滚或重新设计";
        }
        
        // 无显著差异
        int totalSamples = comparisons.stream()
            .mapToInt(c -> (int) c.treatmentSampleSize()).sum();
        
        if (totalSamples < 1000) {
            return "当前样本量不足（" + totalSamples + "），建议继续运行实验至少收集1000个有效反馈";
        }
        
        return "实验变体与基线无显著差异，建议维持现状或调整实验设计";
    }
    
    /**
     * 正态分布CDF（用于计算p值）
     * 
     * 使用误差函数近似
     */
    private double normalCdf(double z) {
        return 0.5 * (1 + erf(z / Math.sqrt(2)));
    }
    
    private double erf(double x) {
        double t = 1.0 / (1.0 + 0.3275911 * Math.abs(x));
        double y = 1.0 - (((((1.061405429 * t - 1.453152027) * t) + 1.421413741) * t 
                           - 0.284496736) * t + 0.254829592) * t * Math.exp(-x * x);
        return x >= 0 ? y : -y;
    }
    
    record VariantStats(
        String variantId, String variantName, long sampleSize, 
        double satisfactionRate, long ratedCount,
        double avgLatencyMs, double followupRate
    ) {}
    
    record VariantComparison(
        String controlId, String treatmentId, String treatmentName,
        double delta, double deltaPercent,
        double pValue, boolean isSignificant, SignificanceLevel significanceLevel,
        long controlSampleSize, long treatmentSampleSize
    ) {}
    
    public enum SignificanceLevel { NOT_SIGNIFICANT, MODERATE, HIGH, VERY_HIGH }
    
    @Data
    @Builder
    public static class ExperimentReport {
        private String experimentId;
        private List<VariantStats> variantStats;
        private List<VariantComparison> comparisons;
        private String recommendation;
        private LocalDateTime generatedAt;
        private String insufficientDataReason;
        
        public static ExperimentReport insufficient(String reason) {
            return ExperimentReport.builder()
                .insufficientDataReason(reason)
                .recommendation("数据不足，无法分析")
                .build();
        }
    }
}

实验管理仪表板

/**
 * 实验管理API
 * 
 * 提供给运营/产品团队查看实验状态和结果
 */
@RestController
@RequestMapping("/api/experiments")
@RequiredArgsConstructor
@Slf4j
public class ExperimentController {
    
    private final PromptExperimentService experimentService;
    private final ExperimentAnalysisService analysisService;
    
    /**
     * 获取实验当前状态（实时指标）
     * GET /api/experiments/{id}/status
     */
    @GetMapping("/{id}/status")
    public Map<String, Object> getExperimentStatus(@PathVariable String id) {
        ExperimentAnalysisService.ExperimentReport report = 
            analysisService.analyzeExperiment(id);
        
        Map<String, Object> status = new LinkedHashMap<>();
        status.put("experimentId", id);
        
        if (report.getVariantStats() != null) {
            status.put("variants", report.getVariantStats().stream()
                .map(v -> Map.of(
                    "name", v.variantName(),
                    "sampleSize", v.sampleSize(),
                    "satisfactionRate", String.format("%.1f%%", v.satisfactionRate() * 100),
                    "avgLatencyMs", Math.round(v.avgLatencyMs())
                ))
                .toList());
        }
        
        if (report.getComparisons() != null) {
            status.put("statisticalResults", report.getComparisons().stream()
                .map(c -> Map.of(
                    "treatment", c.treatmentName(),
                    "delta", String.format("%+.1f%%", c.deltaPercent()),
                    "pValue", String.format("%.4f", c.pValue()),
                    "isSignificant", c.isSignificant(),
                    "sampleSize", c.treatmentSampleSize()
                ))
                .toList());
        }
        
        status.put("recommendation", report.getRecommendation());
        
        return status;
    }
    
    /**
     * 结束实验并应用最佳变体
     * POST /api/experiments/{id}/conclude
     */
    @PostMapping("/{id}/conclude")
    public Map<String, Object> concludeExperiment(
            @PathVariable String id,
            @RequestBody Map<String, String> body) {
        
        String winnerVariantId = body.get("winnerVariantId");
        String reason = body.get("reason");
        
        // 这里应该：
        // 1. 把赢得实验的Prompt设为默认
        // 2. 记录实验结论（供日后审计）
        // 3. 关闭实验
        
        log.info("实验结束: experimentId={}, winner={}, reason={}", id, winnerVariantId, reason);
        
        return Map.of(
            "status", "concluded",
            "winnerVariantId", winnerVariantId,
            "message", "实验已结束，获胜变体已应用"
        );
    }
}

实践建议

先搞清楚你的"北极星指标"

A/B测试最容易犯的错误是没有明确的主指标，同时看7个指标，最后陷入"这个指标涨了，那个指标降了"的困境。用户满意度（点赞率）通常是LLM产品最直接的主指标。确定主指标后，再定护栏指标（不能降低的指标，比如不能因为用户满意度提升而导致回答时间大幅增加）。

样本量比速度更重要

很多团队急于出结论，在100个样本时就开始看结果。但如果你的基线满意率是70%，想检测到5%的提升（到75%），95%置信水平下需要约1500个有反馈的样本。数量不够就看结果，得到的结论可能完全是统计噪声。用样本量计算器算好需要多少样本，在达到之前别轻易下结论。

记录所有实验，哪怕是"没有显著差异"的

"没效果"也是有价值的信息。我见过团队三年内把同一个Prompt改了5次，每次都觉得新版更好，其实每次都没有显著差异，只是在白费功夫。如果第一次就记录下"这个方向没有效果"，后面就不会重复这个错误。实验记录是团队的集体知识资产。