第2071篇：AI应用的灰度发布——让LLM功能安全上线

老张2026/4/30大约 5 分钟

第2071篇：AI应用的灰度发布——让LLM功能安全上线

适读人群：负责AI应用发布的工程师和技术负责人 | 阅读时长：约18分钟 | 核心价值：掌握AI功能的灰度发布策略，通过流量控制和实时监控降低上线风险

传统软件的灰度发布已经很成熟了，但AI功能的灰度有它特殊的地方。

普通功能灰度：代码是确定的，只需要控制流量比例，验证功能是否正确。

AI功能灰度：LLM输出是概率性的，不能简单判断"对"或"错"，需要收集用户反馈信号来评估质量。

AI灰度的挑战

灰度控制器

/**
 * AI功能灰度发布控制器
 * 控制哪些用户使用新版本，并收集对比数据
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class AiFeatureGrayController {
    
    private final GrayConfigRepository configRepo;
    private final UserProfileService userService;
    private final AiQualityMetricsCollector metricsCollector;
    
    /**
     * 判断当前请求是否走灰度版本
     */
    public FeatureVersion determineVersion(String featureKey, String userId) {
        GrayConfig config = configRepo.findByFeatureKey(featureKey)
            .orElse(GrayConfig.disabled(featureKey));
        
        if (!config.isEnabled()) {
            return FeatureVersion.STABLE;
        }
        
        // 1. 白名单用户（测试账号、内部员工）直接进灰度
        if (config.getWhitelistUserIds().contains(userId)) {
            return FeatureVersion.CANARY;
        }
        
        // 2. 黑名单用户排除出灰度（如已投诉用户）
        if (config.getBlacklistUserIds().contains(userId)) {
            return FeatureVersion.STABLE;
        }
        
        // 3. 按用户ID哈希，稳定分配（同一用户始终在同一组）
        int hash = Math.abs(userId.hashCode()) % 100;
        boolean inGray = hash < config.getGrayPercentage();
        
        FeatureVersion version = inGray ? FeatureVersion.CANARY : FeatureVersion.STABLE;
        
        log.debug("灰度决策: feature={}, user={}, hash={}, version={}", 
            featureKey, userId, hash, version);
        
        return version;
    }
    
    /**
     * 动态调整灰度比例
     * 当质量指标达到阈值时，自动扩量或回滚
     */
    @Scheduled(fixedDelay = 60000)  // 每分钟检查
    public void autoAdjustGrayPercentage() {
        List<GrayConfig> activeGrays = configRepo.findAllEnabled();
        
        for (GrayConfig config : activeGrays) {
            GrayQualityReport report = metricsCollector.getReport(
                config.getFeatureKey(), Duration.ofMinutes(30));
            
            if (shouldRollback(report, config)) {
                // 自动回滚
                log.warn("AI灰度质量下降，自动回滚: feature={}, report={}", 
                    config.getFeatureKey(), report);
                rollback(config.getFeatureKey(), "自动回滚: " + report.getRollbackReason());
                
            } else if (shouldExpand(report, config)) {
                // 逐步扩量
                int newPercentage = Math.min(100, config.getGrayPercentage() + 10);
                config.setGrayPercentage(newPercentage);
                configRepo.save(config);
                log.info("AI灰度扩量: feature={}, {}%→{}%", 
                    config.getFeatureKey(), config.getGrayPercentage() - 10, newPercentage);
            }
        }
    }
    
    private boolean shouldRollback(GrayQualityReport report, GrayConfig config) {
        // 负向反馈率超过阈值
        if (report.getNegativeFeedbackRate() > config.getMaxNegativeFeedbackRate()) return true;
        // 错误率超过阈值
        if (report.getErrorRate() > config.getMaxErrorRate()) return true;
        // 延迟比稳定版本高太多
        if (report.getLatencyP95() > config.getMaxLatencyMs()) return true;
        return false;
    }
    
    private boolean shouldExpand(GrayQualityReport report, GrayConfig config) {
        // 最低观察量
        if (report.getTotalRequests() < config.getMinObservationsForExpansion()) return false;
        // 负向反馈率低
        if (report.getNegativeFeedbackRate() > 0.02) return false;
        // 质量分数高于稳定版本
        return report.getQualityScore() >= report.getStableQualityScore() * 0.98;
    }
    
    public void rollback(String featureKey, String reason) {
        configRepo.findByFeatureKey(featureKey).ifPresent(config -> {
            config.setEnabled(false);
            config.setRollbackReason(reason);
            config.setRolledBackAt(LocalDateTime.now());
            configRepo.save(config);
        });
    }
    
    public enum FeatureVersion { STABLE, CANARY }
    
    @Data @Builder
    public static class GrayConfig {
        private String featureKey;
        private boolean enabled;
        private int grayPercentage;          // 0-100
        private List<String> whitelistUserIds;
        private List<String> blacklistUserIds;
        private double maxNegativeFeedbackRate;  // 最大负向反馈率，超过自动回滚
        private double maxErrorRate;              // 最大错误率
        private long maxLatencyMs;               // 最大延迟
        private int minObservationsForExpansion; // 扩量前最小样本量
        private String rollbackReason;
        private LocalDateTime rolledBackAt;
        
        public static GrayConfig disabled(String key) {
            return GrayConfig.builder().featureKey(key).enabled(false).build();
        }
    }
}

AI质量指标收集

/**
 * 收集AI功能的质量信号
 * 比普通接口多了用户满意度、幻觉率等AI特有指标
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class AiQualityMetricsCollector {
    
    private final RedisTemplate<String, String> redis;
    private final MeterRegistry meterRegistry;
    
    /**
     * 记录一次AI交互的质量信号
     */
    public void recordInteraction(AiInteractionMetrics metrics) {
        String featureKey = metrics.getFeatureKey();
        String version = metrics.getVersion();
        String prefix = "ai:quality:" + featureKey + ":" + version + ":";
        
        // 1. 请求计数
        redis.opsForValue().increment(prefix + "total");
        
        // 2. 错误率
        if (metrics.isError()) {
            redis.opsForValue().increment(prefix + "errors");
        }
        
        // 3. 延迟分布（简化为P50/P95/P99）
        redis.opsForZSet().add(prefix + "latencies", 
            String.valueOf(metrics.getLatencyMs()), metrics.getLatencyMs());
        
        // 4. 用户反馈（如果有）
        if (metrics.getUserFeedback() != null) {
            if (metrics.getUserFeedback() == UserFeedback.NEGATIVE) {
                redis.opsForValue().increment(prefix + "negative_feedback");
            }
            redis.opsForValue().increment(prefix + "total_feedback");
        }
        
        // Prometheus指标
        Counter.builder("ai.interactions")
            .tag("feature", featureKey)
            .tag("version", version)
            .tag("error", String.valueOf(metrics.isError()))
            .register(meterRegistry)
            .increment();
    }
    
    /**
     * 获取指定时间窗口的质量报告
     */
    public GrayQualityReport getReport(String featureKey, Duration window) {
        String canaryPrefix = "ai:quality:" + featureKey + ":CANARY:";
        String stablePrefix = "ai:quality:" + featureKey + ":STABLE:";
        
        long canaryTotal = getLong(canaryPrefix + "total");
        long canaryErrors = getLong(canaryPrefix + "errors");
        long canaryNegative = getLong(canaryPrefix + "negative_feedback");
        long canaryFeedback = getLong(canaryPrefix + "total_feedback");
        
        long stableTotal = getLong(stablePrefix + "total");
        double stableQuality = stableTotal > 0 ? 
            1.0 - (double) getLong(stablePrefix + "errors") / stableTotal : 1.0;
        
        double errorRate = canaryTotal > 0 ? (double) canaryErrors / canaryTotal : 0;
        double negativeFeedbackRate = canaryFeedback > 0 ? 
            (double) canaryNegative / canaryFeedback : 0;
        double qualityScore = 1.0 - errorRate - negativeFeedbackRate * 0.5;
        
        String rollbackReason = null;
        if (errorRate > 0.05) rollbackReason = "错误率过高: " + String.format("%.1f%%", errorRate * 100);
        if (negativeFeedbackRate > 0.15) rollbackReason = "负面反馈率过高: " + String.format("%.1f%%", negativeFeedbackRate * 100);
        
        return GrayQualityReport.builder()
            .featureKey(featureKey)
            .totalRequests(canaryTotal)
            .errorRate(errorRate)
            .negativeFeedbackRate(negativeFeedbackRate)
            .qualityScore(qualityScore)
            .stableQualityScore(stableQuality)
            .latencyP95(getP95Latency(canaryPrefix + "latencies"))
            .rollbackReason(rollbackReason)
            .build();
    }
    
    private long getLong(String key) {
        String val = redis.opsForValue().get(key);
        return val != null ? Long.parseLong(val) : 0;
    }
    
    private long getP95Latency(String zsetKey) {
        Long size = redis.opsForZSet().size(zsetKey);
        if (size == null || size == 0) return 0;
        
        long p95Index = (long)(size * 0.95);
        Set<String> values = redis.opsForZSet().range(zsetKey, p95Index, p95Index);
        if (values == null || values.isEmpty()) return 0;
        
        return Long.parseLong(values.iterator().next());
    }
    
    @Data @Builder
    public static class GrayQualityReport {
        private String featureKey;
        private long totalRequests;
        private double errorRate;
        private double negativeFeedbackRate;
        private double qualityScore;
        private double stableQualityScore;
        private long latencyP95;
        private String rollbackReason;
    }
    
    @Data @Builder
    public static class AiInteractionMetrics {
        private String featureKey;
        private String version;
        private boolean error;
        private long latencyMs;
        private UserFeedback userFeedback;  // 可以为null
    }
    
    public enum UserFeedback { POSITIVE, NEGATIVE, NEUTRAL }
}

用户反馈采集

/**
 * 在AI对话中采集用户反馈
 * 简单的👍👎机制是最有效的质量信号
 */
@RestController
@RequiredArgsConstructor
@RequestMapping("/api/ai")
public class AiFeedbackController {
    
    private final AiQualityMetricsCollector metricsCollector;
    private final AiInteractionRepository interactionRepo;
    
    /**
     * 用户对AI回答点赞/踩
     */
    @PostMapping("/feedback")
    public ResponseEntity<Void> submitFeedback(
            @RequestBody FeedbackRequest request,
            @AuthenticationPrincipal UserPrincipal user) {
        
        // 记录到质量指标
        metricsCollector.recordFeedback(
            request.getInteractionId(),
            user.getUserId(),
            request.getFeedback()
        );
        
        // 收集负面反馈的详细原因（用于改进）
        if (request.getFeedback() == AiQualityMetricsCollector.UserFeedback.NEGATIVE 
                && request.getReason() != null) {
            
            AiNegativeFeedback feedback = AiNegativeFeedback.builder()
                .interactionId(request.getInteractionId())
                .userId(user.getUserId())
                .reason(request.getReason())
                .feedbackTime(LocalDateTime.now())
                .build();
            
            interactionRepo.saveNegativeFeedback(feedback);
        }
        
        return ResponseEntity.ok().build();
    }
    
    @Data
    public static class FeedbackRequest {
        private String interactionId;
        private AiQualityMetricsCollector.UserFeedback feedback;
        private String reason;  // 负面反馈的具体原因
    }
}

完整灰度流程

/**
 * 完整的灰度发布流程示例
 * 集成所有组件
 */
@Service
@RequiredArgsConstructor
public class GrayAwareAiService {
    
    private final AiFeatureGrayController grayController;
    private final AiQualityMetricsCollector metricsCollector;
    private final StableAiService stableService;
    private final CanaryAiService canaryService;
    
    public AiResponse chat(String userId, String message) {
        long startTime = System.currentTimeMillis();
        AiFeatureGrayController.FeatureVersion version = 
            grayController.determineVersion("chat", userId);
        
        String interactionId = UUID.randomUUID().toString();
        boolean isError = false;
        String response;
        
        try {
            // 根据灰度决策选择服务版本
            response = version == AiFeatureGrayController.FeatureVersion.CANARY
                ? canaryService.chat(userId, message)
                : stableService.chat(userId, message);
                
        } catch (Exception e) {
            isError = true;
            response = "服务暂时不可用，请稍后再试";
            log.error("AI服务异常: version={}, userId={}", version, userId, e);
        }
        
        // 记录质量指标
        metricsCollector.recordInteraction(
            AiQualityMetricsCollector.AiInteractionMetrics.builder()
                .featureKey("chat")
                .version(version.toString())
                .error(isError)
                .latencyMs(System.currentTimeMillis() - startTime)
                .build()
        );
        
        return AiResponse.builder()
            .interactionId(interactionId)
            .content(response)
            .version(version.toString())
            .showFeedback(!isError)  // 只在成功响应时显示反馈按钮
            .build();
    }
    
    @Data @Builder
    public static class AiResponse {
        private String interactionId;
        private String content;
        private String version;     // 告知前端当前版本，用于调试
        private boolean showFeedback;
    }
}

AI功能的灰度发布比传统功能难在：你不能自动判断AI回答"对不对"，必须依赖用户行为信号（点踩、续聊率、投诉率）来评估质量。

建议的发布节奏：白名单测试（内部员工）→ 5%灰度（持续7天）→ 20%灰度（持续7天）→ 全量。每一步都看指标，异常了立即回滚。