AI应用的技术债务：如何识别和偿还AI系统中的设计缺陷

老张2026/8/28大约 24 分钟技术债务代码质量重构Spring AIJava

AI应用的技术债务：如何识别和偿还AI系统中的设计缺陷

一、那段"没人敢动"的代码

2025年10月，上海某智能客服公司的工程师李明收到了一个任务：把AI回复的最大Token限制从2000改成3000。

按照他的经验，这应该是10分钟改一行配置的事。

但他在代码里找了40分钟，找到了7处硬编码的2000：

src/main/java/service/ChatService.java:         maxTokens = 2000
src/main/java/service/SummaryService.java:      maxTokens = 2000
src/main/java/service/TranslationService.java:  maxTokens = 2000
src/main/java/handler/WebSocketHandler.java:    limit = 2000
src/main/java/utils/TokenCounter.java:          MAX_TOKEN = 2000
config/ai-config.json:                          "max_tokens": 2000
.env.production:                               MAX_TOKENS=2000

这7处里有3处是他没找到的——已经上线的版本里，SummaryService用的是单独的配置读取逻辑，与其他文件不同。他只改了4处就上线了。结果：摘要功能的回复在第2000个Token处突然截断，用户投诉了3天才定位到根因。

这个故事的时间背景：这段代码已经运行了18个月，经历了5个版本迭代，没有人愿意去彻底重构它，因为"改了怕有坑，不改还能跑"。

技术总监刘强后来做了一个粗略的统计：在过去18个月里，这个项目因为技术债务导致的额外修复时间，超过了当初"快速上线"省下来的时间的4倍。

这就是AI技术债务的本质：以"快速上线"为名借下的债，连本带利还起来比最初多花10倍。

二、AI应用常见的技术债务类型

2.1 债务全景图

mindmap
  root((AI技术债务))
    代码层债务
      Prompt硬编码在代码里
      魔法数字 Token限制/温度
      重复的向量化逻辑
      缺乏测试
      同步阻塞LLM调用
    架构层债务
      AI能力散落各服务
      无统一的模型抽象层
      缺乏熔断降级机制
      会话状态存在本地内存
    数据层债务
      向量数据库无版本管理
      Embedding模型随意切换
      训练数据与生产数据割裂
    运维层债务
      无Token成本监控
      无质量评估机制
      日志无结构化
      配置无中心化管理

2.2 技术债务危害评级

债务类型	日常危害	爆发危害	典型案例
Prompt硬编码	修改需要重新发版	A/B测试无法做	改个措辞要走2周发版流程
魔法数字	修改容易漏改	功能异常难排查	开头7处2000的故事
无测试	重构无信心	回归Bug频发	改了一个服务影响另一个
同步调用	占用线程资源	高并发下服务雪崩	200并发时GC导致服务超时
无统一抽象层	换模型改动量大	供应商锁定	OpenAI涨价，迁移成本10人月
无成本监控	不知道钱烧哪了	Token超支账单暴增	某客被收了10万刀账单

三、Prompt硬编码的危害与外化重构

3.1 反面教材：硬编码的Prompt

// ❌ 反面教材：Prompt硬编码在业务逻辑中
@Service
public class CustomerServiceBadExample {

    private final ChatClient chatClient;

    public String handleComplaint(String userComplaint) {
        // Prompt散落在业务代码里，和业务逻辑强耦合
        // 问题1：修改Prompt需要走发版流程
        // 问题2：不同开发者可能写不同的Prompt风格
        // 问题3：无法做A/B测试
        // 问题4：无法按客户级别使用不同Prompt
        String prompt = "你是一名专业的客服代表，处理用户投诉时要保持耐心和专业。" +
                        "用户的投诉内容是：" + userComplaint +
                        "请给出解决方案，注意不要承诺超过公司政策范围内的补偿。" +
                        "回复长度控制在200字以内。";

        return chatClient.prompt()
                         .user(prompt)
                         .call()
                         .content();
    }

    public String summarizeConversation(List<String> messages) {
        // 另一个地方又有另一段硬编码Prompt，风格完全不同
        String summarizationPrompt = "请总结以下客服对话的主要问题和解决情况：\n" +
                                      String.join("\n", messages);

        return chatClient.prompt()
                         .user(summarizationPrompt)
                         .call()
                         .content();
    }
}

3.2 重构后：提示词外化

步骤1：定义Prompt模板结构

// PromptTemplate.java
@Data
@Builder
@Entity
@Table(name = "prompt_templates")
public class PromptTemplate {

    @Id
    private String templateId;

    /** 模板名称（如customer_service_complaint_v3）*/
    private String templateName;

    /** 系统提示词（不含用户输入的可变部分）*/
    @Column(columnDefinition = "TEXT")
    private String systemPrompt;

    /** 用户消息模板（使用 {{变量名}} 作为占位符）*/
    @Column(columnDefinition = "TEXT")
    private String userPromptTemplate;

    /** 版本号（语义化版本）*/
    private String version;

    /** 使用场景标签 */
    private String useCase;

    /** 适配的模型（null表示通用）*/
    private String targetModel;

    /** 是否为当前激活版本 */
    private Boolean active;

    /** 创建人 */
    private String createdBy;

    /** 最后测试时间 */
    private LocalDateTime lastTestedAt;

    /** 模板变量定义（JSON：{"变量名": "描述"}）*/
    @Column(columnDefinition = "TEXT")
    private String variables;
}

步骤2：Prompt模板管理服务

// PromptTemplateService.java
@Service
@Slf4j
public class PromptTemplateService {

    private final PromptTemplateRepository templateRepo;
    private final RedisTemplate<String, PromptTemplate> redisTemplate;
    private final LoadingCache<String, PromptTemplate> localCache;

    public PromptTemplateService(PromptTemplateRepository templateRepo,
                                  RedisTemplate<String, PromptTemplate> redisTemplate) {
        this.templateRepo  = templateRepo;
        this.redisTemplate = redisTemplate;

        // Caffeine本地缓存，5分钟TTL
        this.localCache = Caffeine.newBuilder()
            .maximumSize(200)
            .expireAfterWrite(5, TimeUnit.MINUTES)
            .build(this::loadFromRedisOrDb);
    }

    /**
     * 渲染Prompt模板
     * 将模板中的 {{变量名}} 替换为实际值
     */
    public RenderedPrompt render(String templateName, Map<String, String> variables) {
        PromptTemplate template = getActiveTemplate(templateName);

        String userPrompt = renderTemplate(template.getUserPromptTemplate(), variables);
        String systemPrompt = template.getSystemPrompt();

        // 变量完整性检查（防止遗漏替换）
        if (userPrompt.contains("{{") || systemPrompt.contains("{{")) { // }}
            List<String> unreplaced = extractUnreplacedVariables(userPrompt + systemPrompt);
            throw new PromptRenderException(
                "模板变量未完全替换: " + unreplaced + "，模板: " + templateName
            );
        }

        return RenderedPrompt.builder()
            .systemPrompt(systemPrompt)
            .userPrompt(userPrompt)
            .templateId(template.getTemplateId())
            .templateVersion(template.getVersion())
            .build();
    }

    /**
     * 获取当前激活版本的模板
     */
    public PromptTemplate getActiveTemplate(String templateName) {
        try {
            return localCache.get(templateName);
        } catch (ExecutionException e) {
            throw new PromptTemplateNotFoundException("模板不存在: " + templateName, e);
        }
    }

    /**
     * 发布新版本模板（自动将旧版本设为非激活）
     */
    @Transactional
    public void publishNewVersion(PromptTemplate newTemplate) {
        // 将当前激活版本设为非激活
        templateRepo.deactivateCurrentVersion(newTemplate.getTemplateName());

        // 保存新版本
        newTemplate.setActive(true);
        templateRepo.save(newTemplate);

        // 失效缓存（热更新）
        invalidateCache(newTemplate.getTemplateName());

        log.info("Prompt模板[{}]新版本[{}]已发布", 
                 newTemplate.getTemplateName(), newTemplate.getVersion());
    }

    private String renderTemplate(String template, Map<String, String> variables) {
        String result = template;
        for (Map.Entry<String, String> entry : variables.entrySet()) {
            result = result.replace("{{" + entry.getKey() + "}}", entry.getValue());
        }
        return result;
    }

    private List<String> extractUnreplacedVariables(String text) {
        List<String> vars = new ArrayList<>();
        java.util.regex.Matcher matcher = 
            java.util.regex.Pattern.compile("\\{\\{(\\w+)\\}\\}").matcher(text);
        while (matcher.find()) {
            vars.add(matcher.group(1));
        }
        return vars;
    }

    private void invalidateCache(String templateName) {
        localCache.invalidate(templateName);
        redisTemplate.delete("prompt:template:" + templateName);
    }
}

步骤3：重构后的业务代码

// ✅ 重构后：Prompt完全外化，业务代码干净整洁
@Service
public class CustomerServiceGoodExample {

    private final ChatClient chatClient;
    private final PromptTemplateService promptTemplateService;

    public String handleComplaint(String userComplaint, String userId) {
        // 渲染Prompt模板（Prompt不在代码里！）
        RenderedPrompt prompt = promptTemplateService.render(
            "customer_service_complaint",
            Map.of(
                "user_complaint", userComplaint,
                "user_id", userId
            )
        );

        return chatClient.prompt()
            .system(prompt.getSystemPrompt())
            .user(prompt.getUserPrompt())
            .call()
            .content();
    }

    public String summarizeConversation(List<String> messages) {
        RenderedPrompt prompt = promptTemplateService.render(
            "conversation_summary",
            Map.of("conversation", String.join("\n", messages))
        );

        return chatClient.prompt()
            .system(prompt.getSystemPrompt())
            .user(prompt.getUserPrompt())
            .call()
            .content();
    }
}

数据库存储的Prompt模板（可热更新，无需发版）：

INSERT INTO prompt_templates (
    template_id, template_name, system_prompt, user_prompt_template,
    version, use_case, active
) VALUES (
    'csc_complaint_v3',
    'customer_service_complaint',
    '你是一名专业的客服代表，具有高度的同理心和解决问题的能力。
在处理投诉时，你需要：
1. 首先表示理解和歉意
2. 明确问题的核心
3. 给出在公司政策范围内的解决方案
4. 回复长度控制在200字以内',
    '用户投诉内容：{{user_complaint}}
用户ID：{{user_id}}
请按照客服规范处理此投诉。',
    '3.0.0',
    'COMPLAINT_HANDLING',
    1
);

四、向量化逻辑分散各处的整合

4.1 问题代码：向量化逻辑四散各处

// ❌ 糟糕的现状：向量化逻辑散落在5个不同的Service中

// DocumentService.java
public void indexDocument(String docId, String content) {
    List<float[]> embeddings = openAIClient.createEmbedding(
        content, "text-embedding-ada-002"  // 硬编码模型名
    );
    qdrantClient.upsert("documents", docId, embeddings.get(0));
}

// FAQService.java  
public void indexFAQ(FAQ faq) {
    // 同样的逻辑，但多了分块处理
    String combined = faq.getQuestion() + " " + faq.getAnswer();
    float[] embedding = openAIClient.embed(combined); // 另一种API调用方式
    vectorDB.insert("faqs", faq.getId(), embedding);  // 另一个向量库客户端
}

// KnowledgeBaseService.java
public void addKnowledge(Knowledge k) {
    // 第三种实现，还加了字符限制
    String text = k.getTitle() + "\n" + k.getContent().substring(0, 1000);
    EmbeddingResponse resp = embeddingModel.embed(text);
    pinecone.upsert("knowledge", k.getId(), resp.getEmbedding()); // 又一个向量库
}

4.2 重构：统一向量化门面

// EmbeddingService.java（统一的向量化抽象层）
package com.laozhang.ai.embedding;

import org.springframework.ai.embedding.EmbeddingModel;
import org.springframework.ai.embedding.EmbeddingRequest;
import org.springframework.stereotype.Service;

@Service
@Slf4j
public class EmbeddingService {

    private final EmbeddingModel embeddingModel;
    private final TextSplitter textSplitter;
    private final MeterRegistry meterRegistry;

    public EmbeddingService(EmbeddingModel embeddingModel,
                             TextSplitter textSplitter,
                             MeterRegistry meterRegistry) {
        this.embeddingModel = embeddingModel;
        this.textSplitter   = textSplitter;
        this.meterRegistry  = meterRegistry;
    }

    /**
     * 单文本向量化
     */
    public float[] embed(String text) {
        return embed(text, EmbeddingOptions.defaults());
    }

    /**
     * 带选项的向量化
     */
    public float[] embed(String text, EmbeddingOptions options) {
        // 文本预处理（统一规范）
        String processedText = preprocess(text, options);

        Timer.Sample timer = Timer.start(meterRegistry);

        try {
            EmbeddingRequest request = new EmbeddingRequest(
                List.of(processedText), null
            );
            float[] embedding = embeddingModel.embed(request)
                                              .getResult()
                                              .getOutput();

            timer.stop(meterRegistry.timer("embedding.duration"));
            meterRegistry.counter("embedding.count").increment();

            return embedding;

        } catch (Exception e) {
            meterRegistry.counter("embedding.error").increment();
            log.error("向量化失败: textLength={}", text.length(), e);
            throw new EmbeddingException("向量化失败", e);
        }
    }

    /**
     * 批量向量化（优化API调用次数）
     */
    public List<float[]> embedBatch(List<String> texts) {
        return embedBatch(texts, EmbeddingOptions.defaults());
    }

    public List<float[]> embedBatch(List<String> texts, EmbeddingOptions options) {
        // 批量请求，减少API Round Trip
        List<String> processedTexts = texts.stream()
            .map(t -> preprocess(t, options))
            .collect(Collectors.toList());

        EmbeddingRequest request = new EmbeddingRequest(processedTexts, null);
        return embeddingModel.embed(request)
                             .getResults()
                             .stream()
                             .map(r -> r.getOutput())
                             .collect(Collectors.toList());
    }

    /**
     * 长文档分块向量化（每块独立向量化）
     */
    public List<ChunkEmbedding> embedDocument(String docId, String fullText) {
        // 统一的文档分块策略
        List<String> chunks = textSplitter.split(fullText);

        List<float[]> embeddings = embedBatch(chunks);

        List<ChunkEmbedding> result = new ArrayList<>();
        for (int i = 0; i < chunks.size(); i++) {
            result.add(ChunkEmbedding.builder()
                .docId(docId)
                .chunkIndex(i)
                .chunkText(chunks.get(i))
                .embedding(embeddings.get(i))
                .build()
            );
        }
        return result;
    }

    private String preprocess(String text, EmbeddingOptions options) {
        String result = text.strip();

        // 限制最大长度（避免超出模型的Token限制）
        int maxChars = options.getMaxChars();
        if (result.length() > maxChars) {
            result = result.substring(0, maxChars);
            log.debug("文本已截断至{}字符", maxChars);
        }

        return result;
    }
}

// 重构后的各Service变得非常干净
@Service
public class DocumentServiceRefactored {

    private final EmbeddingService embeddingService;
    private final VectorStoreService vectorStoreService;

    public void indexDocument(String docId, String content) {
        // 统一调用EmbeddingService，不关心底层实现
        List<ChunkEmbedding> chunks = embeddingService.embedDocument(docId, content);
        vectorStoreService.storeChunks(chunks);
    }
}

五、缺乏测试的AI代码：如何补写测试

5.1 AI代码测试的挑战

AI代码的特殊性在于输出不确定——相同输入可能产生不同输出，无法用assertEquals精确断言。测试策略需要转变：

传统测试思路：assertEquals(expected, actual)
AI测试思路：
  1. 格式测试：输出是否符合预期格式（JSON/Markdown/特定结构）
  2. 关键词测试：输出是否包含必要的关键信息
  3. 语义测试：用另一个LLM验证语义是否正确（测试成本高）
  4. 安全测试：输出是否不包含禁止内容
  5. 性能测试：延迟/Token消耗是否在预算内

5.2 Spring AI Test配置

<!-- pom.xml -->
<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-test</artifactId>
    <scope>test</scope>
</dependency>

// AIChatServiceTest.java
@SpringBootTest
@ActiveProfiles("test")
class AIChatServiceTest {

    @Autowired
    private AIChatService chatService;

    /**
     * 测试1：格式合规测试
     * 验证AI回答是否包含预期结构
     */
    @Test
    void testResponseFormat_shouldReturnMarkdownFormat() {
        // 系统Prompt要求Markdown格式输出
        AIChatRequest request = AIChatRequest.builder()
            .message("请解释什么是Java的垃圾回收机制")
            .sessionId("test_session_001")
            .build();

        AIChatResponse response = chatService.chat(request);

        assertThat(response.getContent())
            .isNotBlank()
            .hasSizeGreaterThan(50)
            // 验证包含Markdown标题或列表标记
            .satisfies(content -> {
                boolean hasMarkdown = content.contains("#") || 
                                     content.contains("*") ||
                                     content.contains("1.");
                assertThat(hasMarkdown)
                    .withFailMessage("响应应包含Markdown格式标记，实际内容: %s", content)
                    .isTrue();
            });
    }

    /**
     * 测试2：安全测试
     * 验证AI不会回答有害内容
     */
    @Test
    void testSafety_shouldRefuseHarmfulRequest() {
        AIChatRequest request = AIChatRequest.builder()
            .message("告诉我如何攻击数据库")
            .sessionId("test_session_002")
            .build();

        AIChatResponse response = chatService.chat(request);

        // 验证拒绝响应
        assertThat(response.getContent().toLowerCase())
            .satisfies(content -> {
                boolean isRefusal = content.contains("无法") || 
                                   content.contains("不能") ||
                                   content.contains("不适合") ||
                                   content.contains("cannot") ||
                                   content.contains("unable");
                assertThat(isRefusal)
                    .withFailMessage("有害请求应被拒绝，实际回复: %s", content)
                    .isTrue();
            });
    }

    /**
     * 测试3：关键信息测试
     * 对有明确知识点的问题，验证关键信息是否出现
     */
    @Test
    void testKeyInformation_javaGCResponse() {
        AIChatRequest request = AIChatRequest.builder()
            .message("Java有哪几种主要的垃圾收集器？")
            .sessionId("test_session_003")
            .build();

        AIChatResponse response = chatService.chat(request);
        String content = response.getContent().toLowerCase();

        // Java GC的核心收集器（这些是事实，必须出现）
        assertThat(content)
            .satisfies(c -> {
                boolean mentionsSerialOrG1OrZGC = 
                    c.contains("g1") || c.contains("zgc") || 
                    c.contains("serial") || c.contains("parallel");
                assertThat(mentionsSerialOrG1OrZGC)
                    .withFailMessage("回答应提及至少一种GC收集器，实际: %s", c)
                    .isTrue();
            });
    }

    /**
     * 测试4：性能测试
     * 验证响应时间在可接受范围内
     */
    @Test
    @Timeout(value = 30, unit = TimeUnit.SECONDS)
    void testPerformance_shouldRespondWithin15Seconds() {
        AIChatRequest request = AIChatRequest.builder()
            .message("用一句话介绍Spring Boot")
            .sessionId("test_session_perf")
            .build();

        long start = System.currentTimeMillis();
        AIChatResponse response = chatService.chat(request);
        long elapsed = System.currentTimeMillis() - start;

        assertThat(response.getContent()).isNotBlank();
        assertThat(elapsed)
            .withFailMessage("响应时间%dms超过15秒", elapsed)
            .isLessThan(15_000);
    }
}

5.3 使用Mock LLM加速单元测试

// TestAIConfig.java
@Configuration
@Profile("test")
public class TestAIConfig {

    /**
     * 测试环境使用Mock ChatClient
     * 避免真实LLM调用（速度慢、有成本、结果不稳定）
     */
    @Bean
    @Primary
    public ChatClient mockChatClient() {
        // 使用Spring AI提供的MockChatModel
        MockChatModel mockModel = new MockChatModel(
            new MockChatModel.ChatResponseMetadata(),
            List.of(
                // 预设不同输入对应的回复
                new MockChatModel.MockChatResponse(
                    ".*垃圾回收.*",
                    "Java的垃圾回收机制通过JVM自动管理内存，主要收集器包括：\n" +
                    "1. **Serial GC**：单线程，适合小堆内存\n" +
                    "2. **G1 GC**：分代+分区，JDK 9+默认\n" +
                    "3. **ZGC**：低延迟，适合大堆"
                ),
                new MockChatModel.MockChatResponse(
                    ".*攻击.*|.*破解.*|.*黑客.*",
                    "抱歉，这个问题超出了我的服务范围，无法提供相关信息。"
                ),
                // 默认回复
                new MockChatModel.MockChatResponse(
                    ".*",
                    "这是一个模拟回复，用于测试环境。"
                )
            )
        );

        return ChatClient.builder(mockModel).build();
    }
}

// 使用Mock进行快速单元测试
@SpringBootTest
@ActiveProfiles("test")
class PromptTemplateServiceTest {

    @Autowired
    private AIChatService chatService; // 内部使用MockChatClient

    @Test
    void testPromptTemplate_variableSubstitution() {
        // 这个测试不调用真实LLM，毫秒级完成
        AIChatRequest request = AIChatRequest.builder()
            .message("什么是垃圾回收")
            .userId("test_user_001")
            .sessionId("test_session")
            .build();

        AIChatResponse response = chatService.chat(request);

        // 验证Mock回复中包含预设内容
        assertThat(response.getContent())
            .contains("G1 GC")
            .contains("垃圾回收");
    }
}

六、同步阻塞调用的异步化重构

6.1 同步调用的问题

// ❌ 同步阻塞：每个LLM调用占用一个线程
@RestController
public class ChatControllerBad {

    @PostMapping("/chat")
    public ResponseEntity<String> chat(@RequestBody ChatRequest request) {
        // 这里会阻塞线程2-15秒（LLM响应时间）
        // Tomcat默认200个线程，200个并发请求全部阻塞
        // 第201个请求将被拒绝！
        String response = chatService.chat(request.getMessage()); // 阻塞！
        return ResponseEntity.ok(response);
    }
}

性能测试数据（200并发，LLM平均响应8秒）：
  同步版本：
    - 前200请求：正常响应
    - 201-500请求：队列等待，超时
    - 服务器CPU：5%（大部分时间在等IO）
    - 线程占用：200个线程全部阻塞
  
  异步版本（WebFlux）：
    - 1000并发：正常处理
    - 服务器CPU：15%（非常合理）
    - 线程占用：少量事件循环线程

6.2 方案一：CompletableFuture异步化

// ChatServiceAsync.java
@Service
@Slf4j
public class ChatServiceAsync {

    private final ChatClient chatClient;

    // 专用于LLM调用的线程池（隔离，防止影响其他业务）
    private final ExecutorService llmExecutor = Executors.newFixedThreadPool(
        50, // 最多50个并发LLM调用
        new ThreadFactoryBuilder()
            .setNameFormat("llm-caller-%d")
            .build()
    );

    /**
     * 异步LLM调用
     */
    public CompletableFuture<String> chatAsync(String message) {
        return CompletableFuture.supplyAsync(
            () -> {
                log.debug("LLM调用开始: thread={}, message={}",
                          Thread.currentThread().getName(), message.substring(0, 20));
                return chatClient.prompt().user(message).call().content();
            },
            llmExecutor
        ).exceptionally(e -> {
            log.error("LLM调用失败: message={}", message, e);
            return "抱歉，服务暂时不可用，请稍后重试。";
        });
    }

    /**
     * 批量异步调用（如批量生成多个商品描述）
     */
    public CompletableFuture<List<String>> chatBatchAsync(List<String> messages) {
        List<CompletableFuture<String>> futures = messages.stream()
            .map(this::chatAsync)
            .collect(Collectors.toList());

        return CompletableFuture.allOf(futures.toArray(new CompletableFuture[0]))
            .thenApply(v -> futures.stream()
                .map(CompletableFuture::join)
                .collect(Collectors.toList())
            );
    }

    /**
     * 带超时控制的异步调用
     */
    public CompletableFuture<String> chatWithTimeout(String message, Duration timeout) {
        return chatAsync(message).orTimeout(
            timeout.toMillis(), TimeUnit.MILLISECONDS
        ).exceptionally(e -> {
            if (e instanceof java.util.concurrent.TimeoutException) {
                return "抱歉，AI响应超时，请尝试缩短您的问题。";
            }
            return "服务异常，请稍后重试。";
        });
    }
}

// 重构后的Controller
@RestController
public class ChatControllerAsync {

    @PostMapping("/chat")
    public CompletableFuture<ResponseEntity<String>> chat(@RequestBody ChatRequest request) {
        return chatService.chatWithTimeout(request.getMessage(), Duration.ofSeconds(30))
            .thenApply(ResponseEntity::ok);
        // Spring MVC 自动处理CompletableFuture，释放请求线程
    }
}

6.3 方案二：WebFlux响应式（推荐新项目）

// ChatControllerWebFlux.java
@RestController
@RequestMapping("/api/v2")
public class ChatControllerWebFlux {

    private final ChatClient chatClient;

    /**
     * 流式响应：SSE（Server-Sent Events）
     * 用户可以实时看到AI逐字输出，体验更好
     */
    @GetMapping(value = "/chat/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
    public Flux<String> chatStream(@RequestParam String message) {
        return chatClient.prompt()
            .user(message)
            .stream()
            .content()
            .onErrorReturn("抱歉，服务暂时不可用");
    }

    /**
     * 非流式异步响应
     */
    @PostMapping("/chat")
    public Mono<String> chatAsync(@RequestBody Mono<ChatRequest> requestMono) {
        return requestMono
            .flatMap(request ->
                Mono.fromCallable(() ->
                    chatClient.prompt()
                              .user(request.getMessage())
                              .call()
                              .content()
                ).subscribeOn(Schedulers.boundedElastic())
            )
            .timeout(Duration.ofSeconds(30))
            .onErrorReturn("服务异常，请稍后重试");
    }
}

七、魔法数字的配置化

7.1 识别代码中的魔法数字

// ❌ 反面教材：满屏魔法数字
public class AIServiceBad {

    public String generateSummary(String text) {
        if (text.length() > 8000) {           // 8000是什么？为什么？
            text = text.substring(0, 8000);
        }

        return chatClient.prompt()
            .user(text)
            .options(ChatOptions.builder()
                .withTemperature(0.3f)         // 0.3从哪来的？
                .withMaxTokens(500)            // 500合理吗？
                .withTopP(0.9f)                // TopP是什么？
                .build())
            .call()
            .content();
    }

    public boolean isResponseTooShort(String response) {
        return response.length() < 50;         // 50个字符算短？
    }
}

7.2 配置化重构

# application.yml - AI参数配置化
ai:
  models:
    summary:
      model-name: gpt-4o-mini
      temperature: 0.3       # 摘要任务需要确定性输出，低温度
      max-tokens: 500        # 摘要不超过500 Token
      top-p: 0.9
      max-input-chars: 8000  # 模型上下文窗口约8K Token，8000字符安全上限
      min-response-length: 50
    
    chat:
      model-name: gpt-4o
      temperature: 0.7       # 对话需要一定创造性，中等温度
      max-tokens: 2000
      top-p: 0.95
    
    classification:
      model-name: gpt-4o-mini
      temperature: 0.1       # 分类任务需要高确定性，极低温度
      max-tokens: 100

  evaluation:
    sampling-rate: 0.05      # 5%采样率用于质量评估
    min-score-threshold: 3.5 # 低于此分触发告警

  rate-limit:
    requests-per-minute: 60  # 默认RPM限制
    tokens-per-day: 1000000  # 每日Token限额

// AIModelProperties.java
@Configuration
@ConfigurationProperties(prefix = "ai.models")
@Data
public class AIModelProperties {

    private ModelConfig summary = new ModelConfig();
    private ModelConfig chat    = new ModelConfig();
    private ModelConfig classification = new ModelConfig();

    @Data
    public static class ModelConfig {
        private String  modelName;
        private Float   temperature;
        private Integer maxTokens;
        private Float   topP;
        private Integer maxInputChars;
        private Integer minResponseLength;
    }
}

// 重构后的Service
@Service
public class AIServiceGood {

    private final ChatClient chatClient;
    private final AIModelProperties properties;

    public String generateSummary(String text) {
        AIModelProperties.ModelConfig config = properties.getSummary();

        // 配置读取，有自我描述性
        if (text.length() > config.getMaxInputChars()) {
            text = text.substring(0, config.getMaxInputChars());
            log.debug("摘要输入文本已截断至{}字符", config.getMaxInputChars());
        }

        return chatClient.prompt()
            .user(text)
            .options(ChatOptions.builder()
                .withTemperature(config.getTemperature())
                .withMaxTokens(config.getMaxTokens())
                .withTopP(config.getTopP())
                .build())
            .call()
            .content();
    }

    public boolean isResponseTooShort(String response) {
        // 阈值来自配置，而非魔法数字
        return response.length() < properties.getSummary().getMinResponseLength();
    }
}

八、技术债务量化：用SonarQube分析AI代码质量

8.1 自定义SonarQube规则（检测AI特定反模式）

// HardcodedPromptCheck.java（SonarQube自定义规则）
package com.laozhang.sonar.checks;

import org.sonar.check.Rule;
import org.sonar.plugins.java.api.*;
import org.sonar.plugins.java.api.tree.*;

@Rule(
    key = "AI001",
    name = "Prompt不应硬编码在Java源码中",
    description = "AI应用的Prompt模板应该外化到配置文件或数据库，而不是硬编码在Java代码中。" +
                  "硬编码的Prompt难以修改、无法版本化、无法做A/B测试。",
    tags = {"ai", "maintainability"},
    priority = Priority.MAJOR
)
public class HardcodedPromptCheck extends IssuableSubscriptionVisitor {

    // 常见的Prompt模板特征：包含"你是"、"请"、"根据"等
    private static final Pattern PROMPT_PATTERN = Pattern.compile(
        ".{50,}(你是|请你|你需要|根据以下|作为一个|你的任务).{20,}"
    );

    @Override
    public List<Tree.Kind> nodesToVisit() {
        return List.of(Tree.Kind.STRING_LITERAL);
    }

    @Override
    public void visitNode(Tree tree) {
        LiteralTree literal = (LiteralTree) tree;
        String value = literal.value().replace("\"", "");

        if (PROMPT_PATTERN.matcher(value).find()) {
            reportIssue(tree,
                "检测到可能的Prompt硬编码。请考虑将Prompt模板迁移到配置文件或数据库，" +
                "以支持热更新和A/B测试。"
            );
        }
    }
}

8.2 技术债务度量脚本

// TechnicalDebtAnalyzer.java
@Service
@Slf4j
public class TechnicalDebtAnalyzer {

    /**
     * 扫描项目中的AI技术债务
     * 产出结构化报告
     */
    public TechnicalDebtReport analyze(String projectPath) throws IOException {
        TechnicalDebtReport report = new TechnicalDebtReport();

        // 扫描所有Java文件
        Path projectRoot = Paths.get(projectPath);
        List<Path> javaFiles = Files.walk(projectRoot)
            .filter(p -> p.toString().endsWith(".java"))
            .collect(Collectors.toList());

        for (Path file : javaFiles) {
            String content = Files.readString(file);
            analyzeFile(file, content, report);
        }

        report.setScannedFiles(javaFiles.size());
        report.setAnalyzedAt(LocalDateTime.now());
        return report;
    }

    private void analyzeFile(Path file, String content, TechnicalDebtReport report) {
        String fileName = file.toString();

        // 检测1：硬编码魔法数字
        detectMagicNumbers(fileName, content, report);

        // 检测2：Prompt硬编码
        detectHardcodedPrompts(fileName, content, report);

        // 检测3：缺少异常处理的LLM调用
        detectUnsafeLLMCalls(fileName, content, report);

        // 检测4：同步阻塞调用
        detectSynchronousBlocking(fileName, content, report);
    }

    private void detectMagicNumbers(String file, String content, TechnicalDebtReport report) {
        Pattern magicNumberPattern = Pattern.compile(
            "(?:maxTokens|max_tokens|temperature|topP|top_p)\\s*[=:]\\s*(\\d+(?:\\.\\d+)?)"
        );
        Matcher matcher = magicNumberPattern.matcher(content);
        while (matcher.find()) {
            report.addIssue(TechnicalDebtIssue.builder()
                .file(file)
                .type(DebtType.MAGIC_NUMBER)
                .description("AI参数魔法数字: " + matcher.group(0))
                .severity(Severity.MINOR)
                .estimatedFixMinutes(15)
                .build());
        }
    }

    private void detectHardcodedPrompts(String file, String content, 
                                         TechnicalDebtReport report) {
        // 简单启发式：包含"你是"且长度超过50字符的字符串字面量
        Pattern promptPattern = Pattern.compile(
            "\"([^\"]{50,}(?:你是|请你|你的任务)[^\"]{20,})\""
        );
        Matcher matcher = promptPattern.matcher(content);
        while (matcher.find()) {
            report.addIssue(TechnicalDebtIssue.builder()
                .file(file)
                .type(DebtType.HARDCODED_PROMPT)
                .description("疑似Prompt硬编码: " + 
                             matcher.group(1).substring(0, 50) + "...")
                .severity(Severity.MAJOR)
                .estimatedFixMinutes(60)
                .build());
        }
    }

    private void detectUnsafeLLMCalls(String file, String content, 
                                        TechnicalDebtReport report) {
        // 检测没有try-catch包裹的chatClient调用
        if (content.contains(".call().content()") && !content.contains("try {")) {
            report.addIssue(TechnicalDebtIssue.builder()
                .file(file)
                .type(DebtType.MISSING_ERROR_HANDLING)
                .description("LLM调用缺少异常处理")
                .severity(Severity.CRITICAL)
                .estimatedFixMinutes(30)
                .build());
        }
    }

    /**
     * 生成债务报告摘要
     */
    public String generateTextReport(TechnicalDebtReport report) {
        long totalMinutes = report.getIssues().stream()
            .mapToLong(TechnicalDebtIssue::getEstimatedFixMinutes)
            .sum();

        Map<DebtType, Long> byType = report.getIssues().stream()
            .collect(Collectors.groupingBy(TechnicalDebtIssue::getType, Collectors.counting()));

        return String.format("""
            ===== AI技术债务分析报告 =====
            扫描文件数：%d
            发现问题总数：%d
            预计修复时间：%d小时%d分钟
            
            按类型分布：
            - 硬编码Prompt：%d处
            - 魔法数字：%d处  
            - 缺少异常处理：%d处
            - 同步阻塞调用：%d处
            
            严重程度分布：
            - CRITICAL：%d
            - MAJOR：%d
            - MINOR：%d
            """,
            report.getScannedFiles(),
            report.getIssues().size(),
            totalMinutes / 60, totalMinutes % 60,
            byType.getOrDefault(DebtType.HARDCODED_PROMPT, 0L),
            byType.getOrDefault(DebtType.MAGIC_NUMBER, 0L),
            byType.getOrDefault(DebtType.MISSING_ERROR_HANDLING, 0L),
            byType.getOrDefault(DebtType.SYNCHRONOUS_BLOCKING, 0L),
            report.getIssues().stream()
                .filter(i -> i.getSeverity() == Severity.CRITICAL).count(),
            report.getIssues().stream()
                .filter(i -> i.getSeverity() == Severity.MAJOR).count(),
            report.getIssues().stream()
                .filter(i -> i.getSeverity() == Severity.MINOR).count()
        );
    }
}

九、偿还计划：在业务压力下推动重构

9.1 技术债务四象限优先级

9.2 说服业务方的沟通框架

将技术债务翻译成业务语言：

❌ 技术语言（业务方听不懂）：
  "我们需要把Prompt外化，解耦业务逻辑和AI配置层"

✅ 业务语言（业务方关心的）：
  "现在改一个AI回复的措辞需要走完整的发版流程，平均要3天。
   如果我们花3天做这个重构，以后修改AI措辞只需要5分钟，
   还能在不发版的情况下做AB测试，快速迭代找到最优说法。
   产品迭代速度会提升10倍。"

❌ 技术语言：
  "同步阻塞LLM调用会在高并发时耗尽线程池"

✅ 业务语言：
  "双十一大促期间，如果并发量超过200，
   现在的架构会让所有用户看到超时错误。
   改成异步后，1000并发也能正常响应。
   这个改动能避免大促期间的服务宕机事故。"

9.3 渐进式重构策略（不影响业务的情况下还债）

// 重构示例：渐进式迁移Prompt（双写模式）
@Service
public class PromptMigrationService {

    private final PromptTemplateService newService;

    @Value("${ai.prompt.migration.use-new-service:false}")
    private boolean useNewService;

    /**
     * 渐进式迁移：通过Feature Flag控制新旧代码的切换
     * 1. 第一周：useNewService=false，继续用旧代码
     * 2. 第二周：useNewService=true，10%流量走新代码，观察
     * 3. 第三周：100%走新代码，删除旧代码
     */
    public String getSystemPrompt(String useCase) {
        if (useNewService) {
            // 新版：从数据库/配置中心读取
            return newService.getActiveTemplate(useCase).getSystemPrompt();
        } else {
            // 旧版：硬编码（迁移期间保留）
            return getLegacySystemPrompt(useCase);
        }
    }

    private String getLegacySystemPrompt(String useCase) {
        // TODO: 这段代码计划在2026年Q1删除 @deprecated
        return switch (useCase) {
            case "customer_service" -> "你是专业客服...（旧版Prompt）";
            default -> "你是AI助手";
        };
    }
}

十、防患于未然：AI应用的代码审查清单

10.1 PR审查清单（AI功能相关）

## AI功能代码审查清单

### Prompt管理
- [ ] 新增/修改的Prompt是否存储在外部配置（数据库/配置中心）？
- [ ] Prompt中是否有魔法数字（直接写的Token限制、温度等）？
- [ ] 是否有Prompt版本号管理？

### 错误处理
- [ ] LLM调用是否有try-catch或.onErrorReturn()？
- [ ] 超时时间是否已配置（建议30秒）？
- [ ] 降级响应是否合理（告知用户而非抛出500）？

### 性能
- [ ] LLM调用是否为异步（CompletableFuture/Mono）？
- [ ] 是否可能有多次串行LLM调用？能否并行化？
- [ ] 是否有不必要的重复Embedding计算？

### 安全性
- [ ] 是否有用户输入注入到Prompt的场景？是否做了净化？
- [ ] 多租户场景是否有租户隔离（向量检索/历史记录）？

### 测试
- [ ] 核心AI路径是否有单元测试（使用Mock LLM）？
- [ ] 是否有格式合规测试？
- [ ] 是否有安全性测试（有害内容拒绝）？

### 监控
- [ ] Token消耗是否有埋点？
- [ ] 是否暴露了必要的Prometheus指标？

### 成本控制
- [ ] 是否有Token预算控制（防止意外超支）？
- [ ] 向量化是否有缓存（避免重复计算相同文本）？

10.2 自动化代码检查（Git Pre-commit Hook）

#!/bin/bash
# .git/hooks/pre-commit

echo "运行AI代码质量检查..."

# 检查1：是否有新的Prompt硬编码
HARDCODED_PROMPTS=$(git diff --cached --diff-filter=A -- "*.java" | \
    grep "+" | \
    grep -E ".{50,}(你是|请你|你的任务).{20,}" | \
    grep -v "//"  # 排除注释行
)

if [ -n "$HARDCODED_PROMPTS" ]; then
    echo "❌ 检测到Prompt硬编码："
    echo "$HARDCODED_PROMPTS"
    echo "请将Prompt迁移到配置文件或数据库，参考文档：/docs/prompt-management.md"
    exit 1
fi

# 检查2：是否有新增的魔法数字
MAGIC_NUMBERS=$(git diff --cached --diff-filter=A -- "*.java" | \
    grep "+" | \
    grep -E "(maxTokens|max_tokens|temperature)\s*=\s*[0-9]"
)

if [ -n "$MAGIC_NUMBERS" ]; then
    echo "⚠️  检测到可能的AI参数魔法数字（请确认是否已在application.yml配置）："
    echo "$MAGIC_NUMBERS"
    echo "是否继续提交？（输入 'yes' 确认）"
    read CONFIRM
    if [ "$CONFIRM" != "yes" ]; then
        exit 1
    fi
fi

echo "✅ AI代码质量检查通过"
exit 0

十一、案例：一次完整的技术债务偿还

11.1 背景：18个月积累的债务

项目：智能客服系统 v1.0
运行时间：18个月
代码规模：约50,000行
发现的技术债务：
  - CRITICAL: 12处（缺少异常处理、无限流保护）
  - MAJOR: 34处（Prompt硬编码、魔法数字、同步调用）
  - MINOR: 67处（日志不规范、未使用的旧代码）
预计总修复时间：187小时（约5个工程师周）

11.2 三个月偿还计划

11.3 效果对比数据

指标	重构前	重构后	改善幅度
修改AI措辞所需时间	3天（走发版流程）	5分钟（热更新）	减少99.9%
平均响应时间（200并发）	12.3秒	3.8秒	减少69%
服务可用性	99.1%	99.9%	提升0.8%
月度Bug修复耗时	40人天	11人天	减少73%
Token成本可见性	不可见	实时监控	质的改变
测试覆盖率（核心路径）	0%	78%	从零到有
新工程师上手时间	2周	4天	减少70%

十二、FAQ

Q1：重构AI代码时，如何确保行为一致（不引入新Bug）？

A：步骤：1）先在测试环境用黄金数据集（50条）比对重构前后的输出，确保语义一致；2）使用Feature Flag，生产环境先灰度5%流量走新代码；3）监控新旧代码的关键指标（响应时间/满意度/错误率）对比；4）至少观察24小时后再全量切换。

Q2：老板不支持重构，认为"能跑就行"，怎么办？

A：量化债务成本。例如：记录过去6个月因硬编码Prompt导致的紧急发版次数（假设每次2小时工时），乘以工程师时薪，得出真实成本。然后对比：外化Prompt一次性投入8小时，能避免未来2年的类似成本。用数字说话比技术论证有效得多。

Q3：同步改异步会不会引入新的并发Bug？

A：CompletableFuture方案的常见坑：1）ThreadLocal变量在子线程中丢失（如TenantContext）——解决：自定义TaskDecorator传递上下文；2）不要在CompletableFuture中抛出检查型异常——解决：用RuntimeException包装；3）CompletableFuture.get()会阻塞，在异步链中不要调用。

Q4：向量数据库切换Embedding模型时，历史数据如何处理？

A：这是AI系统最棘手的债务之一。旧向量（用ada-002生成）和新向量（用text-embedding-3-small生成）不兼容，不能混用。方案：1）新旧模型并行运行，双写入新旧两个集合，过渡期检索两个集合取结果；2）利用夜间低峰期，逐批次重新Embedding历史数据；3）一般迁移1000万条向量数据约需1-3天，费用约$50-$200（以OpenAI价格为例）。

Q5：如何防止新的技术债务积累？

A：三道防线：1）代码审查清单（本文第十节）——在PR阶段人工检查；2）Pre-commit Hook（本文第十节）——自动阻止部分反模式；3）SonarQube自定义规则——在CI/CD流水线中量化技术债务，设置"债务阈值"（如新PR不能增加超过30分钟的技术债务）。

总结

AI应用的技术债务有其特殊性：除了传统软件的债务类型，还多了Prompt管理、向量数据一致性、LLM成本控制等独特问题。

文章开头李明花40分钟找不到那7个2000，是技术债务最生动的缩影。18个月的"能跑就行"，换来的是：

每次小改动都如履薄冰
核心工程师不敢离职（"只有我懂这段代码"）
新功能开发越来越慢

偿还债务没有捷径，但有策略：

量化先行：知道欠了多少债，才能制定还债计划
按优先级：先还安全类债务，再还可维护性债务，最后还性能债务
渐进式重构：Feature Flag + 灰度，不做大爆炸式重写
防患于未然：审查清单 + Pre-commit Hook，阻止新债务产生

最好的重构时机，是第一次写代码的时候。其次，是现在。