第1956篇：AI服务的优雅降级链——从高质量到可用的渐进式退化

老张2026/4/30大约 9 分钟

第1956篇：AI服务的优雅降级链——从高质量到可用的渐进式退化

我做过一次不太体面的上线。

那是一个智能报告生成服务，调用GPT-4生成分析报告。某天GPT-4 API开始大规模超时，我们的服务跟着挂了，用户完全无法获取报告。后来复盘，技术上问题很简单：加个备用方案就好。但当时我们脑子里只有一个路径：调GPT-4，成功返回结果；调失败，抛错误。

没有任何降级设计。

这个问题在AI应用里尤其严重，因为AI服务的依赖链比普通服务更脆弱：LLM API可能限流、可能超时、可能返回空结果；向量数据库可能响应慢；缓存可能失效……任何一环出问题，如果没有降级设计，整个链路就断了。

今天这篇来讲优雅降级链：当高质量方案不可用时，如何以最小的用户体验损失，一级一级退化到"至少能用"。

降级链的设计思想

先说清楚"降级链"这个概念。

普通的"备用方案"是二元的：主方案 → 备方案。要么用好的，要么用差的。

降级链是渐进的：主方案 → 次优方案 → 可用方案 → 最低保障方案 → 静态兜底。每一级都比上一级质量低一点，但也比完全失败强。

这条链的设计原则：每一级的失败条件要明确，降级过渡要对用户透明，最终总有一级能兜底。

核心框架实现

@Service
public class DegradationChainService {
    
    private final List<DegradationLevel> levels;
    private final DegradationMetrics metrics;
    
    public DegradationChainService(
            FullFunctionLevel fullLevel,
            StandardLevel standardLevel,
            BasicLLMLevel basicLevel,
            CacheLevel cacheLevel,
            StaticFallbackLevel staticLevel,
            DegradationMetrics metrics) {
        
        // 按质量从高到低排列
        this.levels = List.of(
            fullLevel,      // Level 0: 全功能
            standardLevel,  // Level 1: 标准质量
            basicLevel,     // Level 2: 基础LLM
            cacheLevel,     // Level 3: 缓存
            staticLevel     // Level 4: 静态兜底
        );
        this.metrics = metrics;
    }
    
    /**
     * 执行降级链：从最高质量级别开始尝试，直到找到可用的
     */
    public DegradationResult execute(AIRequest request) {
        DegradationContext context = DegradationContext.from(request);
        
        for (DegradationLevel level : levels) {
            // 先检查这个级别是否可以尝试（熔断器是否打开）
            if (!level.isAvailable(context)) {
                log.debug("降级级别不可用，跳过: level={}", level.getName());
                metrics.recordSkipped(level.getName());
                continue;
            }
            
            try {
                log.debug("尝试降级级别: level={}", level.getName());
                
                AIResponse response = level.execute(context);
                
                // 执行成功
                metrics.recordSuccess(level.getName());
                
                // 告知用户当前是哪个质量级别（可选，根据业务决定是否展示）
                response.setQualityLevel(level.getQualityLevel());
                response.setDegradationNote(level.getUserFacingNote());
                
                if (level.isDegraded()) {
                    metrics.recordDegradation(level.getName());
                }
                
                return DegradationResult.success(response, level);
                
            } catch (DegradationLevelExhaustedException e) {
                // 这个级别无法处理该请求（比如缓存未命中）
                log.debug("降级级别耗尽，尝试下一级: level={}, reason={}", 
                    level.getName(), e.getMessage());
                continue;
                
            } catch (Exception e) {
                // 这个级别执行失败（比如API超时）
                log.warn("降级级别执行失败，尝试下一级: level={}, error={}", 
                    level.getName(), e.getMessage());
                metrics.recordFailure(level.getName(), e);
                level.recordFailure(e); // 通知熔断器
                continue;
            }
        }
        
        // 所有级别都失败了（理论上不应该，因为静态兜底总是成功的）
        metrics.recordTotalFailure(request);
        return DegradationResult.failed("所有降级级别均不可用");
    }
}

各级别的具体实现

// Level 0: 全功能（最高质量）
@Component
public class FullFunctionLevel implements DegradationLevel {
    
    private final GPT4Client gpt4Client;
    private final RAGService ragService;
    private final PersonalizationService personalizationService;
    private final CircuitBreaker circuitBreaker;
    
    @Override
    public AIResponse execute(DegradationContext ctx) {
        return circuitBreaker.executeSupplier(() -> {
            // 个性化用户画像
            UserProfile profile = personalizationService.getProfile(ctx.getUserId());
            
            // RAG检索
            List<RetrievedDoc> docs = ragService.retrieve(ctx.getQuery(), 
                RagConfig.highQuality(10)); // 检索10个文档
            
            // 构建个性化Prompt
            String prompt = buildPersonalizedPrompt(ctx, profile, docs);
            
            // 调用GPT-4
            return gpt4Client.complete(prompt, GenerationConfig.highQuality());
        });
    }
    
    @Override
    public boolean isAvailable(DegradationContext ctx) {
        return circuitBreaker.getState() == CircuitBreaker.State.CLOSED;
    }
    
    @Override
    public QualityLevel getQualityLevel() { return QualityLevel.PREMIUM; }
    
    @Override
    public boolean isDegraded() { return false; }
    
    @Override
    public String getUserFacingNote() { return null; } // 最高质量不需要提示
}

// Level 1: 标准质量
@Component
public class StandardLevel implements DegradationLevel {
    
    private final GPT35Client gpt35Client;
    private final RAGService ragService;
    private final CircuitBreaker circuitBreaker;
    
    @Override
    public AIResponse execute(DegradationContext ctx) {
        return circuitBreaker.executeSupplier(() -> {
            // RAG检索，但只取5个文档（减少成本和延迟）
            List<RetrievedDoc> docs = ragService.retrieve(ctx.getQuery(),
                RagConfig.standard(5));
            
            String prompt = buildStandardPrompt(ctx, docs);
            
            return gpt35Client.complete(prompt, GenerationConfig.standard());
        });
    }
    
    @Override
    public String getUserFacingNote() { 
        return "当前使用标准模式"; // 可以选择展示给用户，也可以不展示
    }
}

// Level 2: 基础LLM（无RAG）
@Component
public class BasicLLMLevel implements DegradationLevel {
    
    private final GPT35Client gpt35Client;
    private final CircuitBreaker circuitBreaker;
    
    @Override
    public AIResponse execute(DegradationContext ctx) {
        return circuitBreaker.executeSupplier(() -> {
            // 不做RAG检索，直接调LLM
            // 这样可以避免向量数据库的依赖
            String prompt = buildBasicPrompt(ctx);
            
            AIResponse response = gpt35Client.complete(prompt, 
                GenerationConfig.fast()); // 用更快的配置
            
            // 标记没有使用知识库，可能准确性下降
            response.addWarning("当前未使用知识库，回答基于模型通用知识");
            
            return response;
        });
    }
    
    @Override
    public String getUserFacingNote() { 
        return "当前使用基础模式，回答准确性可能有所下降"; 
    }
}

// Level 3: 缓存命中
@Component
public class CacheLevel implements DegradationLevel {
    
    private final SemanticCacheService semanticCache;
    
    @Override
    public AIResponse execute(DegradationContext ctx) {
        // 语义缓存：不是精确匹配，而是找语义相似的历史问答
        Optional<CachedAnswer> cached = semanticCache.findSimilar(
            ctx.getQuery(), 
            0.85 // 相似度阈值
        );
        
        if (cached.isEmpty()) {
            throw new DegradationLevelExhaustedException("缓存未命中");
        }
        
        CachedAnswer answer = cached.get();
        AIResponse response = AIResponse.fromCache(answer);
        response.addWarning("当前返回相似问题的历史答案，可能不完全匹配您的问题");
        response.setCacheHit(true);
        response.setCacheSimilarity(answer.getSimilarity());
        
        return response;
    }
    
    @Override
    public boolean isAvailable(DegradationContext ctx) {
        return semanticCache.isAvailable(); // 缓存服务是否健康
    }
    
    @Override
    public String getUserFacingNote() { 
        return "当前使用缓存回答"; 
    }
}

// Level 4: 静态兜底（永远成功）
@Component
public class StaticFallbackLevel implements DegradationLevel {
    
    private final FallbackResponseRepository fallbackRepo;
    
    @Override
    public AIResponse execute(DegradationContext ctx) {
        // 根据请求类型匹配最合适的静态回答
        String category = classifyRequest(ctx.getQuery());
        
        StaticResponse staticResponse = fallbackRepo.findByCategory(category)
            .orElse(fallbackRepo.getDefaultResponse()); // 总有一个默认回答
        
        AIResponse response = AIResponse.fromStatic(staticResponse);
        response.addWarning("AI服务暂时不可用，为您提供参考回答");
        response.setStaticFallback(true);
        
        // 记录这次降级，用于后续分析
        log.warn("降级到静态兜底: category={}, query={}", 
            category, ctx.getQuery().substring(0, Math.min(50, ctx.getQuery().length())));
        
        return response;
    }
    
    @Override
    public boolean isAvailable(DegradationContext ctx) {
        return true; // 静态兜底永远可用
    }
    
    @Override
    public boolean isDegraded() { return true; }
}

降级条件的精细化控制

不同类型的请求，降级阈值应该不一样：

@Component
public class AdaptiveDegradationPolicy {
    
    private final SystemMetrics metrics;
    
    /**
     * 根据请求特征和系统状态，动态决定是否主动降级
     * （有时候提前降级比等到失败后再降级更好）
     */
    public DegradationDecision shouldPreemptivelyDegrade(AIRequest request) {
        
        SystemState state = metrics.getCurrentState();
        
        // 1. 系统负载高时，主动为低优先级请求降级
        if (state.getLlmQueueLength() > 100) {
            RequestPriority priority = request.getPriority();
            
            if (priority == RequestPriority.LOW) {
                return DegradationDecision.degradeTo(DegradationLevel.CACHE, 
                    "系统繁忙，低优先级请求使用缓存");
            }
            
            if (priority == RequestPriority.NORMAL && 
                state.getLlmQueueLength() > 300) {
                return DegradationDecision.degradeTo(DegradationLevel.BASIC_LLM,
                    "系统严重过载，降级到基础模式");
            }
        }
        
        // 2. 用户之前已经收到过降级响应，不要反复降级同一用户
        if (metrics.getUserRecentDegradationCount(request.getUserId()) > 3) {
            // 这个用户最近降级太多次了，尽力用好方案
            return DegradationDecision.noDegrade();
        }
        
        // 3. 批量任务主动降级，节省配额给实时请求
        if (request.getType() == RequestType.BATCH) {
            return DegradationDecision.degradeTo(DegradationLevel.STANDARD,
                "批量任务使用标准模式");
        }
        
        return DegradationDecision.noDegrade();
    }
}

降级透明性：告诉用户发生了什么

一个设计细节我觉得很重要：是否要把降级情况告诉用户？

@Component
public class DegradationNotificationService {
    
    /**
     * 根据降级级别和业务场景，决定如何告知用户
     */
    public Optional<String> buildUserNotification(DegradationResult result,
                                                    UserPreferences prefs) {
        if (!result.isDegraded()) {
            return Optional.empty(); // 没降级，不需要提示
        }
        
        DegradationLevel level = result.getLevel();
        
        // 如果降到了静态兜底，必须告知用户
        if (level instanceof StaticFallbackLevel) {
            return Optional.of("⚠️ 当前AI服务繁忙，以下为参考回答，建议稍后重试获取更准确的答案。");
        }
        
        // 缓存命中，给用户知情权
        if (level instanceof CacheLevel) {
            CachedAnswer cached = (CachedAnswer) result.getAdditionalInfo("cached_answer");
            if (cached != null && cached.getSimilarity() < 0.92) {
                // 相似度不够高时，提示用户
                return Optional.of("ℹ️ 以下回答来自相似问题的历史记录，供参考。");
            }
        }
        
        // 如果用户在设置里关闭了降级提示，不显示
        if (!prefs.isShowDegradationNotice()) {
            return Optional.empty();
        }
        
        return Optional.ofNullable(level.getUserFacingNote())
            .map(note -> "ℹ️ " + note);
    }
}

我自己的立场：降级了要告诉用户，但要用用户听得懂的语言，不要用技术黑话。 "当前使用标准模式"这种说法对用户没意义，"当前AI服务较忙，回答质量可能略有下降"就清晰多了。

降级数据的监控

@Component
public class DegradationMetrics {
    
    private final MeterRegistry registry;
    
    // 记录各级别的使用情况
    public void recordSuccess(String levelName) {
        registry.counter("ai.degradation.success",
            Tags.of("level", levelName)).increment();
    }
    
    public void recordDegradation(String levelName) {
        registry.counter("ai.degradation.triggered",
            Tags.of("level", levelName)).increment();
    }
    
    public void recordFailure(String levelName, Exception e) {
        registry.counter("ai.degradation.failure",
            Tags.of("level", levelName, 
                   "error_type", e.getClass().getSimpleName())).increment();
    }
    
    /**
     * 关键指标：降级率
     * 如果Level0的成功率低于80%，说明主路径有系统性问题
     */
    @Scheduled(fixedRate = 60_000)
    public void calculateDegradationRate() {
        // 这里通过Gauge来暴露当前的降级率
        // Grafana可以基于这个指标做告警
        double degradationRate = calculateCurrentDegradationRate();
        registry.gauge("ai.degradation.rate", degradationRate);
        
        if (degradationRate > 0.20) { // 超过20%的请求在降级
            log.warn("降级率过高: {}%", degradationRate * 100);
        }
    }
}

我踩过的几个坑

坑1：降级链太长，用户等待时间叠加

每一级失败都要等到超时才进入下一级，如果超时设置是10秒，四个级别都超时的话，用户要等40秒。后来改成：主方案有5秒超时，备方案只有3秒，第三方案只有2秒，同时对前两个级别做异步超时——不等超时，先并行发起下一级，谁先成功用谁。

坑2：静态兜底内容太过时

静态兜底的FAQ文本三个月没更新，很多答案已经不准确了。用户拿到错误的静态答案，比完全失败还糟糕——因为他会以为这就是正确答案，被误导了。后来给静态兜底加了内容有效期机制，超期的内容自动降为"服务暂时不可用，请稍后重试"。

坑3：降级信息泄露

某次降级时，我在响应里附带了详细的降级原因，包括"GPT-4 API返回429错误"这样的内部信息。这些信息出现在用户界面上，导致用户质疑我们的技术稳定性。后来改成：内部日志记录详细原因，用户侧只显示友好的提示文案。

坑4：熔断器参数设错

熔断器的恢复探测设成了"每5分钟尝试一次"，但每次探测都是发一个真实请求。如果LLM API确实在限流，探测请求也会被限流，消耗了有限的限流配额，反而让正常业务请求更容易触达限流。后来把探测改成专用的轻量心跳请求，不走正常业务通道。

优雅降级链的核心不是"备用方案"，而是"渐进式保障"。

你可以没有世界上最好的AI，但你的AI应用得保证"永远能给用户一个回答"。

哪怕这个回答是"我现在忙不过来，但你可以先看这些参考资料"，也比一个报错页面强。