第2154篇：LLM A/B实验设计——统计意义上有效的Prompt对比实验

老张2026/4/30大约 7 分钟

第2154篇：LLM A/B实验设计——统计意义上有效的Prompt对比实验

适读人群：需要科学验证Prompt改进效果的AI工程师 | 阅读时长：约18分钟 | 核心价值：设计统计显著的A/B实验，让Prompt优化不再靠感觉，每次改动有数据支撑

"新Prompt感觉比原来好，我们上线吧。"

"感觉"是最不靠谱的工程依据。我见过太多次"感觉好了"但数据变差、"感觉没区别"但其实提升显著的情况。

LLM的A/B实验比传统软件的A/B实验更复杂，原因有几个：输出质量难以量化、同一Prompt不同时间跑结果可能不同、评估本身需要成本。很多团队遇到这些困难就放弃了，回到"感觉"。

这篇文章讲怎么设计一个真正统计有效的LLM A/B实验框架。

A/B实验的基础统计知识

在写代码之前，先把基础统计搞清楚，否则实验设计会出根本性的错误。

样本量计算：要检测某个效果量（effect size），需要多少样本才够？

这取决于三个参数：

效果量（你期望检测的最小改进，比如5%）
显著性水平α（通常0.05，即5%的假阳性率）
统计功效（1-β，通常0.8，即80%的真阳性率）

/**
 * A/B实验样本量计算
 */
public class SampleSizeCalculator {

    /**
     * 计算两组对比实验所需的最小样本量
     * 
     * @param baselineConversionRate 基准转化率（如当前通过率0.75）
     * @param minimumDetectableEffect 最小可检测效果量（如0.05，即5%的提升）
     * @param alpha 显著性水平（通常0.05）
     * @param power 统计功效（通常0.80）
     * @return 每组所需最小样本量
     */
    public static int calculateRequiredSampleSize(double baselineConversionRate,
                                                   double minimumDetectableEffect,
                                                   double alpha,
                                                   double power) {
        double p1 = baselineConversionRate;
        double p2 = baselineConversionRate + minimumDetectableEffect;
        
        // Z分数
        double zAlpha = getNormalZ(1 - alpha / 2); // 双尾检验
        double zBeta = getNormalZ(power);
        
        double pooledP = (p1 + p2) / 2;
        
        // 标准公式
        double numerator = Math.pow(zAlpha * Math.sqrt(2 * pooledP * (1 - pooledP)) 
                                  + zBeta * Math.sqrt(p1 * (1 - p1) + p2 * (1 - p2)), 2);
        double denominator = Math.pow(p2 - p1, 2);
        
        return (int) Math.ceil(numerator / denominator);
    }

    // 近似标准正态分布的Z值
    private static double getNormalZ(double p) {
        if (p == 0.975) return 1.96;
        if (p == 0.95) return 1.645;
        if (p == 0.80) return 0.842;
        if (p == 0.90) return 1.282;
        // 通用近似
        return Math.sqrt(2) * erfInv(2 * p - 1);
    }
    
    // 简化的逆误差函数
    private static double erfInv(double x) {
        double a = 0.147;
        double ln = Math.log(1 - x * x);
        double term1 = 2 / (Math.PI * a) + ln / 2;
        return Math.signum(x) * Math.sqrt(Math.sqrt(term1 * term1 - ln / a) - term1);
    }
}

实际例子：当前Prompt通过率75%，想检测5%的提升，需要每组约500个样本。这意味着在你的流量不够时，实验可能需要跑好几天。

A/B实验框架实现

/**
 * LLM A/B实验框架
 * 
 * 支持：
 * - 多变体实验（A/B/C...）
 * - 流量分配（百分比）
 * - 指标收集
 * - 自动停止（达到样本量或发现显著差异）
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class LlmAbTestingService {

    private final PromptVersionManager promptVersionManager;
    private final LlmEvaluationService evaluationService;
    private final AbTestRepository testRepository;
    private final StatisticalTestService statsService;

    // 内存中的实验配置（生产中应该持久化）
    private final Map<String, AbExperiment> activeExperiments = new ConcurrentHashMap<>();

    /**
     * 创建A/B实验
     */
    public AbExperiment createExperiment(AbExperimentConfig config) {
        // 计算所需样本量
        int requiredSamplesPerGroup = SampleSizeCalculator.calculateRequiredSampleSize(
            config.getBaselineMetric(),
            config.getMinimumDetectableEffect(),
            0.05, // alpha
            0.80  // power
        );
        
        AbExperiment experiment = AbExperiment.builder()
            .id(UUID.randomUUID().toString())
            .name(config.getName())
            .description(config.getDescription())
            .variants(config.getVariants()) // 实验变体，如[{name: "control", promptId: "v1"}, {name: "treatment", promptId: "v2"}]
            .trafficSplit(config.getTrafficSplit()) // 如[0.5, 0.5]
            .requiredSamplesPerGroup(requiredSamplesPerGroup)
            .startTime(Instant.now())
            .status(ExperimentStatus.RUNNING)
            .metrics(new HashMap<>())
            .build();
        
        activeExperiments.put(experiment.getId(), experiment);
        testRepository.save(experiment);
        
        log.info("实验创建成功: {}, 需要每组{}个样本", config.getName(), requiredSamplesPerGroup);
        return experiment;
    }

    /**
     * 处理请求时，根据实验分配变体
     * 
     * @return 分配的Prompt版本
     */
    public ExperimentAssignment assignVariant(String experimentId, String userId) {
        AbExperiment experiment = activeExperiments.get(experimentId);
        if (experiment == null || experiment.getStatus() != ExperimentStatus.RUNNING) {
            return ExperimentAssignment.useDefault();
        }
        
        // 用userId做一致性哈希，保证同一用户总是分到同一组
        int hash = Math.abs((userId + experimentId).hashCode());
        double position = (hash % 1000) / 1000.0;
        
        // 根据流量分配确定变体
        double cumulative = 0;
        List<ExperimentVariant> variants = experiment.getVariants();
        List<Double> trafficSplit = experiment.getTrafficSplit();
        
        for (int i = 0; i < variants.size(); i++) {
            cumulative += trafficSplit.get(i);
            if (position < cumulative) {
                return ExperimentAssignment.builder()
                    .experimentId(experimentId)
                    .variantName(variants.get(i).getName())
                    .promptId(variants.get(i).getPromptId())
                    .build();
            }
        }
        
        return ExperimentAssignment.useDefault();
    }

    /**
     * 记录实验结果
     */
    public void recordResult(String experimentId, String variantName, 
                              String userInput, String output, 
                              Map<String, Object> context) {
        AbExperiment experiment = activeExperiments.get(experimentId);
        if (experiment == null) return;
        
        // 异步评估（不阻塞用户请求）
        CompletableFuture.runAsync(() -> {
            try {
                EvaluationReport evalReport = evaluationService.evaluate(
                    EvaluationRequest.builder()
                        .userInput(userInput)
                        .llmOutput(output)
                        .context((String) context.get("retrievedContext"))
                        .build()
                );
                
                // 记录到实验指标
                experiment.getMetrics()
                    .computeIfAbsent(variantName, k -> new VariantMetrics())
                    .addSample(evalReport.getOverallScore(), evalReport.isPassed());
                
                // 检查是否达到样本量
                checkExperimentCompletion(experiment);
                
            } catch (Exception e) {
                log.error("记录实验结果失败", e);
            }
        });
    }

    /**
     * 检查实验是否可以得出结论
     */
    private void checkExperimentCompletion(AbExperiment experiment) {
        boolean allVariantsReachTarget = experiment.getMetrics().values().stream()
            .allMatch(m -> m.getSampleCount() >= experiment.getRequiredSamplesPerGroup());
        
        if (!allVariantsReachTarget) return;
        
        // 进行统计检验
        AbTestResult result = statsService.runTest(experiment);
        
        log.info("实验 {} 完成，结果：{}", experiment.getName(), result.getSummary());
        
        experiment.setStatus(ExperimentStatus.COMPLETED);
        experiment.setResult(result);
        testRepository.update(experiment);
        activeExperiments.remove(experiment.getId());
    }
}

统计检验服务

/**
 * 统计检验服务
 * 
 * 对LLM A/B实验结果进行统计检验
 */
@Service
public class StatisticalTestService {

    /**
     * 对实验结果进行统计检验
     * 
     * 使用t检验比较连续指标（如质量分数）
     * 使用Z检验比较通过率（二分指标）
     */
    public AbTestResult runTest(AbExperiment experiment) {
        Map<String, VariantMetrics> metrics = experiment.getMetrics();
        
        // 找到control组
        VariantMetrics control = metrics.get("control");
        if (control == null) {
            return AbTestResult.error("没有找到control组");
        }
        
        Map<String, VariantTestResult> variantResults = new HashMap<>();
        
        for (Map.Entry<String, VariantMetrics> entry : metrics.entrySet()) {
            if ("control".equals(entry.getKey())) continue;
            
            VariantMetrics treatment = entry.getValue();
            VariantTestResult testResult = testVariantVsControl(control, treatment);
            variantResults.put(entry.getKey(), testResult);
        }
        
        // 确定推荐
        String recommendation = generateRecommendation(variantResults);
        
        return AbTestResult.builder()
            .controlMetrics(buildMetricsSummary(control))
            .variantResults(variantResults)
            .recommendation(recommendation)
            .confidenceLevel(0.95)
            .build();
    }

    private VariantTestResult testVariantVsControl(VariantMetrics control, 
                                                    VariantMetrics treatment) {
        // t检验比较平均分数
        double tStat = computeTStatistic(
            control.getScores(), control.getMeanScore(), control.getStdDev(),
            treatment.getScores(), treatment.getMeanScore(), treatment.getStdDev()
        );
        
        double degreesOfFreedom = control.getSampleCount() + treatment.getSampleCount() - 2;
        double pValue = computePValue(tStat, degreesOfFreedom);
        
        // 效果量（Cohen's d）
        double pooledStd = Math.sqrt(
            (Math.pow(control.getStdDev(), 2) + Math.pow(treatment.getStdDev(), 2)) / 2
        );
        double cohensD = pooledStd > 0 
            ? (treatment.getMeanScore() - control.getMeanScore()) / pooledStd 
            : 0;
        
        boolean significant = pValue < 0.05;
        double relativeImprovement = control.getMeanScore() > 0
            ? (treatment.getMeanScore() - control.getMeanScore()) / control.getMeanScore() * 100
            : 0;
        
        return VariantTestResult.builder()
            .sampleCount(treatment.getSampleCount())
            .meanScore(treatment.getMeanScore())
            .passRate(treatment.getPassRate())
            .pValue(pValue)
            .cohensD(cohensD)
            .relativeImprovement(relativeImprovement)
            .statistically significant(significant)
            .effectSizeInterpretation(interpretCohensD(cohensD))
            .build();
    }

    private String generateRecommendation(Map<String, VariantTestResult> results) {
        // 找到表现最好的变体
        Optional<Map.Entry<String, VariantTestResult>> best = results.entrySet().stream()
            .filter(e -> e.getValue().isStatisticallySignificant())
            .filter(e -> e.getValue().getRelativeImprovement() > 0)
            .max(Comparator.comparingDouble(e -> e.getValue().getRelativeImprovement()));
        
        if (best.isPresent()) {
            VariantTestResult winner = best.get().getValue();
            return String.format(
                "推荐上线变体 '%s'：相对提升 +%.1f%%（p=%.3f，%s效果量）。" +
                "在95%%置信水平下，该提升具有统计显著性。",
                best.get().getKey(),
                winner.getRelativeImprovement(),
                winner.getPValue(),
                winner.getEffectSizeInterpretation()
            );
        }
        
        boolean hasImprovements = results.values().stream()
            .anyMatch(r -> r.getRelativeImprovement() > 0);
        
        if (hasImprovements) {
            return "实验变体显示出正向趋势，但尚未达到统计显著性。建议继续收集数据，或增大效果量阈值。";
        }
        
        return "没有变体表现出统计显著的改进。建议保持当前Prompt，重新设计实验变体。";
    }

    private String interpretCohensD(double d) {
        double absD = Math.abs(d);
        if (absD < 0.2) return "可忽略";
        if (absD < 0.5) return "小";
        if (absD < 0.8) return "中等";
        return "大";
    }

    // 简化的t统计量计算
    private double computeTStatistic(List<Double> s1, double m1, double sd1,
                                      List<Double> s2, double m2, double sd2) {
        double pooledSe = Math.sqrt(sd1 * sd1 / s1.size() + sd2 * sd2 / s2.size());
        return pooledSe > 0 ? (m2 - m1) / pooledSe : 0;
    }

    // 简化的p值计算（实际生产中建议用Apache Commons Math）
    private double computePValue(double tStat, double df) {
        // 这里使用简化近似，生产中应该用精确的t分布
        double absT = Math.abs(tStat);
        if (df > 30) {
            // 对于大样本，t分布近似于正态分布
            return 2 * (1 - normalCdf(absT));
        }
        return 0.05; // 小样本时保守返回0.05作为边界
    }

    private double normalCdf(double x) {
        return 0.5 * (1 + erf(x / Math.sqrt(2)));
    }

    private double erf(double x) {
        double t = 1 / (1 + 0.3275911 * Math.abs(x));
        double poly = t * (0.254829592 + t * (-0.284496736 + t * (1.421413741 + 
                          t * (-1.453152027 + t * 1.061405429))));
        double result = 1 - poly * Math.exp(-x * x);
        return x >= 0 ? result : -result;
    }
    
    private MetricsSummary buildMetricsSummary(VariantMetrics metrics) {
        return MetricsSummary.builder()
            .sampleCount(metrics.getSampleCount())
            .meanScore(metrics.getMeanScore())
            .stdDev(metrics.getStdDev())
            .passRate(metrics.getPassRate())
            .build();
    }
}

多重比较问题和实验设计陷阱

陷阱1：多重比较（Multiple Comparisons）

如果你同时测试10个Prompt变体，每个用α=0.05的显著性水平，即使所有变体效果相同，期望发现"显著差异"的概率是 1 - 0.95^10 ≈ 40%。这是假阳性。

解决方法：Bonferroni校正——将α除以比较次数。测10个变体时，用α=0.005而不是0.05。

陷阱2：Peeking Problem（偷看问题）

很多人会在实验跑到一半时看一眼数据，"哇，treatment组已经显著好了！"就停止实验并上线。

这是错的。如果你在多个时间点检查显著性，整体假阳性率会大幅上升。

解决方法：预先确定结束条件（样本量），严格执行，中途不做决策。

陷阱3：新奇效应（Novelty Effect）

新Prompt上线初期，用户可能因为"不一样"而有更高互动，但这不是真实的质量提升。

解决方法：实验至少跑2-3个业务周期，而不是只看前两天。

陷阱4：网络效应（Network Effects）

如果用户会互相影响（比如社区问答场景），A/B随机分组会失效。

解决方法：用Cluster Randomization——按用户分组，而不是按请求随机分配。