推理模型实战：o3/DeepSeek-R1让你的AI应用解决复杂问题

老张2026/6/26大约 20 分钟推理模型o3DeepSeek-R1Chain-of-ThoughtSpring AIJava

推理模型实战：o3/DeepSeek-R1让你的AI应用解决复杂问题

从60%到95%，那道数学题改变了我们的选型

2026年1月，杭州某金融科技公司的技术负责人陈刚坐在我面前，讲了一个让他印象深刻的故事。

他们在做一个智能贷款审批系统。系统需要根据用户提交的财务报表，自动计算资产负债率、流动比率、偿债能力等20多个财务指标，然后给出综合评分和审批建议。

第一版用的是GPT-4o。上线后，准确率测试让他们崩溃了——在复杂的多步骤计算场景中，GPT-4o的计算正确率只有62%。

"我们当时以为是Prompt写得不好，改了十几版，最好也就到68%。"陈刚说，"后来有个同事说要不要试试推理模型，抱着试试看的心态换了DeepSeek-R1，准确率直接跳到了95%。"

这33个百分点的提升，背后是推理模型在工作机制上的本质差异。

今天我们就来把这个差异彻底讲清楚，并且带你把o3和DeepSeek-R1集成到Java项目里。

第一章：推理模型的原理——Chain-of-Thought的自动延伸

1.1 普通LLM vs 推理模型的内部机制

普通LLM的工作模式是自回归生成：接收输入，预测下一个token，一直到结束。这个过程非常快，但对于需要多步推导的问题，它实际上是在"没有草稿纸的情况下心算"。

推理模型的工作模式是显式思考链：在生成最终答案之前，先生成一段"思考过程"。这个思考过程可以是几百到几千个token，相当于在"有草稿纸的情况下一步一步算"。

1.2 各推理模型的实现差异

模型	思考过程	是否可见	控制方式	思考token定价
OpenAI o1	内部推理	不可见（摘要可见）	reasoning_effort参数	另计费
OpenAI o3	内部推理	不可见	reasoning_effort: low/medium/high	另计费
OpenAI o3-mini	内部推理	不可见	reasoning_effort参数	另计费
DeepSeek-R1	`<think>...</think>`	完全可见	无法关闭	与输出同价
Claude 3.7（extended thinking）	`<thinking>...</thinking>`	可见	budget_tokens参数	另计费
Qwen3	`<think>...</think>`	可见	可通过提示词控制	与输出同价

DeepSeek-R1的优势就在于思考过程完全透明，这对于需要向用户展示推导过程的场景（教育、法律、金融）非常有价值。

第二章：推理模型 vs 普通LLM——决策矩阵

2.1 选型决策树

2.2 场景对比表

任务场景	推荐模型	原因
简单FAQ问答	普通LLM	无需推理，快速响应
文本分类/标签	普通LLM	模式识别，不需要推导
财务报表计算	推理模型	多步计算，容错率低
代码Debug	推理模型	需要逐步分析错误原因
法律条文分析	推理模型	需要严密逻辑推导
数学题解答	推理模型	典型的多步推导
内容摘要生成	普通LLM	语言能力为主
SQL优化分析	推理模型	需要分析执行计划和索引
创意写作	普通LLM	创造力比推理重要
医疗诊断辅助	推理模型	高精度+可解释性

第三章：Spring AI接入o3-mini——完整代码

3.1 Maven依赖和配置

<!-- pom.xml -->
<dependencies>
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-openai-spring-boot-starter</artifactId>
        <version>1.0.0</version>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-webflux</artifactId>
    </dependency>
</dependencies>

# application.yml
spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      chat:
        options:
          model: o3-mini
          # 推理模型不支持 temperature，必须注释掉或移除
          # temperature: 0.7  # 注意：o系列模型不支持此参数

# 自定义推理配置
reasoning:
  o3:
    effort: medium  # low / medium / high
    max-completion-tokens: 8000
  deepseek:
    api-key: ${DEEPSEEK_API_KEY}
    base-url: https://api.deepseek.com

3.2 o3-mini配置类

package com.example.reasoning.config;

import org.springframework.ai.openai.OpenAiChatModel;
import org.springframework.ai.openai.OpenAiChatOptions;
import org.springframework.ai.openai.api.OpenAiApi;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.ai.chat.client.ChatClient;

/**
 * 推理模型配置
 * 注意：o系列推理模型有特殊的参数限制
 */
@Configuration
public class ReasoningModelConfig {
    
    @Value("${spring.ai.openai.api-key}")
    private String openAiApiKey;
    
    @Value("${reasoning.o3.effort:medium}")
    private String reasoningEffort;
    
    @Value("${reasoning.o3.max-completion-tokens:8000}")
    private Integer maxCompletionTokens;
    
    /**
     * o3-mini 客户端配置
     * 
     * 重要说明：
     * 1. o系列模型不支持 temperature（固定为1）
     * 2. o系列模型不支持 top_p 和 presence_penalty
     * 3. 使用 max_completion_tokens 而非 max_tokens
     * 4. reasoning_effort 控制思考深度：low（快/省钱）, medium（均衡）, high（准确/贵）
     */
    @Bean("o3MiniChatClient")
    public ChatClient o3MiniChatClient() {
        OpenAiApi api = OpenAiApi.builder()
            .apiKey(openAiApiKey)
            .build();
        
        // o3-mini 专用选项
        OpenAiChatOptions o3Options = OpenAiChatOptions.builder()
            .model("o3-mini")
            // 注意：不设置 temperature！
            .maxCompletionTokens(maxCompletionTokens)
            // reasoning_effort 通过额外参数传递
            .build();
        
        OpenAiChatModel chatModel = OpenAiChatModel.builder()
            .openAiApi(api)
            .defaultOptions(o3Options)
            .build();
        
        return ChatClient.builder(chatModel).build();
    }
    
    /**
     * 普通GPT-4o客户端（用于对比和降级）
     */
    @Bean("gpt4oChatClient")
    public ChatClient gpt4oChatClient() {
        OpenAiApi api = OpenAiApi.builder()
            .apiKey(openAiApiKey)
            .build();
        
        OpenAiChatOptions gpt4oOptions = OpenAiChatOptions.builder()
            .model("gpt-4o")
            .temperature(0.7)
            .maxTokens(4000)
            .build();
        
        OpenAiChatModel chatModel = OpenAiChatModel.builder()
            .openAiApi(api)
            .defaultOptions(gpt4oOptions)
            .build();
        
        return ChatClient.builder(chatModel).build();
    }
}

3.3 o3推理服务核心实现

package com.example.reasoning.service;

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.ai.chat.messages.SystemMessage;
import org.springframework.ai.chat.messages.UserMessage;
import org.springframework.ai.chat.model.ChatResponse;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.stereotype.Service;
import lombok.extern.slf4j.Slf4j;

import java.time.Duration;
import java.time.Instant;

/**
 * o3推理服务
 * 处理需要复杂推理的业务场景
 */
@Slf4j
@Service
public class O3ReasoningService {
    
    private final ChatClient o3MiniClient;
    private final ChatClient gpt4oClient;
    
    public O3ReasoningService(
            @Qualifier("o3MiniChatClient") ChatClient o3MiniClient,
            @Qualifier("gpt4oChatClient") ChatClient gpt4oClient) {
        this.o3MiniClient = o3MiniClient;
        this.gpt4oClient = gpt4oClient;
    }
    
    /**
     * 财务指标分析（典型推理场景）
     */
    public FinancialAnalysisResult analyzeFinancials(FinancialData data) {
        String systemPrompt = """
                你是一名专业的财务分析师。请对提供的财务数据进行严格的计算和分析。
                
                要求：
                1. 所有计算结果保留2位小数
                2. 给出每个指标的计算过程
                3. 对异常数据给出解释
                4. 最终给出综合评分（0-100分）和风险等级（低/中/高）
                """;
        
        String userPrompt = buildFinancialPrompt(data);
        
        Instant start = Instant.now();
        
        ChatResponse response = o3MiniClient.prompt()
            .system(systemPrompt)
            .user(userPrompt)
            .call()
            .chatResponse();
        
        Duration elapsed = Duration.between(start, Instant.now());
        
        String content = response.getResult().getOutput().getContent();
        int tokensUsed = response.getMetadata().getUsage().getTotalTokens();
        
        log.info("o3-mini财务分析完成，耗时: {}ms，消耗token: {}", 
                 elapsed.toMillis(), tokensUsed);
        
        return parseFinancialResult(content, elapsed.toMillis(), tokensUsed);
    }
    
    /**
     * 代码Bug根因分析（推理模型最擅长的场景之一）
     */
    public BugAnalysisResult analyzeBug(String bugDescription, String stackTrace, String relevantCode) {
        String prompt = String.format("""
                ## Bug描述
                %s
                
                ## 异常堆栈
                ```
                %s
                ```
                
                ## 相关代码
                ```java
                %s
                ```
                
                请进行深度分析：
                1. 确定Bug的根本原因（Root Cause）
                2. 描述完整的Bug触发路径
                3. 评估影响范围
                4. 提供修复方案（给出修复后的代码）
                5. 给出预防类似Bug的建议
                """, bugDescription, stackTrace, relevantCode);
        
        String analysis = o3MiniClient.prompt()
            .user(prompt)
            .call()
            .content();
        
        return BugAnalysisResult.builder()
            .analysis(analysis)
            .confidence(extractConfidence(analysis))
            .build();
    }
    
    /**
     * 复杂SQL优化分析
     */
    public SqlOptimizationResult optimizeSql(String sql, String tableSchemas, 
                                              String executionPlan, long currentExecutionMs) {
        String prompt = String.format("""
                ## 当前SQL（执行耗时: %dms）
                ```sql
                %s
                ```
                
                ## 表结构信息
                %s
                
                ## 当前执行计划
                ```
                %s
                ```
                
                请分析并优化：
                1. 识别当前SQL的性能瓶颈
                2. 分析执行计划中的问题（全表扫描、临时表、文件排序等）
                3. 提供优化后的SQL
                4. 建议需要添加的索引（给出CREATE INDEX语句）
                5. 预估优化后的执行时间
                """, currentExecutionMs, sql, tableSchemas, executionPlan);
        
        String result = o3MiniClient.prompt()
            .user(prompt)
            .call()
            .content();
        
        return SqlOptimizationResult.builder()
            .optimizedSql(extractOptimizedSql(result))
            .indexSuggestions(extractIndexSuggestions(result))
            .explanation(result)
            .estimatedImprovement(extractEstimatedImprovement(result))
            .build();
    }
    
    private String buildFinancialPrompt(FinancialData data) {
        return String.format("""
                ## 财务数据
                - 资产总额：%.2f 万元
                - 负债总额：%.2f 万元
                - 流动资产：%.2f 万元
                - 流动负债：%.2f 万元
                - 营业收入（近12月）：%.2f 万元
                - 净利润（近12月）：%.2f 万元
                - 现金及等价物：%.2f 万元
                - 应收账款：%.2f 万元
                - 存货：%.2f 万元
                
                请计算并分析以下指标：
                1. 资产负债率
                2. 流动比率
                3. 速动比率
                4. 净利润率
                5. 应收账款周转率
                6. 存货周转率
                """,
                data.getTotalAssets(), data.getTotalLiabilities(),
                data.getCurrentAssets(), data.getCurrentLiabilities(),
                data.getRevenue(), data.getNetProfit(),
                data.getCash(), data.getAccountsReceivable(), data.getInventory());
    }
    
    // 辅助方法（省略具体实现）
    private FinancialAnalysisResult parseFinancialResult(String content, long latencyMs, int tokensUsed) {
        return FinancialAnalysisResult.builder()
            .rawAnalysis(content)
            .latencyMs(latencyMs)
            .tokensUsed(tokensUsed)
            .build();
    }
    
    private int extractConfidence(String analysis) {
        // 从分析文本中提取置信度
        return 90; // 简化示例
    }
    
    private String extractOptimizedSql(String result) {
        // 从结果中提取优化后的SQL
        return result; // 简化示例
    }
    
    private List<String> extractIndexSuggestions(String result) {
        return List.of(); // 简化示例
    }
    
    private String extractEstimatedImprovement(String result) {
        return "预计提升60-80%"; // 简化示例
    }
}

第四章：Spring AI接入DeepSeek-R1——完整代码

4.1 DeepSeek配置

package com.example.reasoning.config;

import org.springframework.ai.openai.OpenAiChatModel;
import org.springframework.ai.openai.OpenAiChatOptions;
import org.springframework.ai.openai.api.OpenAiApi;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.ai.chat.client.ChatClient;

/**
 * DeepSeek模型配置
 * DeepSeek的API完全兼容OpenAI接口规范
 */
@Configuration
public class DeepSeekConfig {
    
    @Value("${reasoning.deepseek.api-key}")
    private String deepSeekApiKey;
    
    @Value("${reasoning.deepseek.base-url:https://api.deepseek.com}")
    private String baseUrl;
    
    /**
     * DeepSeek-R1 推理模型
     * 特点：思考过程完全可见（<think>标签）
     */
    @Bean("deepSeekR1Client")
    public ChatClient deepSeekR1Client() {
        OpenAiApi deepSeekApi = OpenAiApi.builder()
            .baseUrl(baseUrl)
            .apiKey(deepSeekApiKey)
            .build();
        
        OpenAiChatOptions r1Options = OpenAiChatOptions.builder()
            .model("deepseek-reasoner")  // DeepSeek-R1的API模型名
            .maxTokens(8000)
            // R1模型不建议设置temperature，使用默认值
            .build();
        
        OpenAiChatModel chatModel = OpenAiChatModel.builder()
            .openAiApi(deepSeekApi)
            .defaultOptions(r1Options)
            .build();
        
        return ChatClient.builder(chatModel).build();
    }
    
    /**
     * DeepSeek-V3 普通模型（用于对比）
     */
    @Bean("deepSeekV3Client")
    public ChatClient deepSeekV3Client() {
        OpenAiApi deepSeekApi = OpenAiApi.builder()
            .baseUrl(baseUrl)
            .apiKey(deepSeekApiKey)
            .build();
        
        OpenAiChatOptions v3Options = OpenAiChatOptions.builder()
            .model("deepseek-chat")  // DeepSeek-V3的API模型名
            .temperature(0.7)
            .maxTokens(4000)
            .build();
        
        OpenAiChatModel chatModel = OpenAiChatModel.builder()
            .openAiApi(deepSeekApi)
            .defaultOptions(v3Options)
            .build();
        
        return ChatClient.builder(chatModel).build();
    }
}

4.2 解析DeepSeek-R1的思考过程

package com.example.reasoning.service;

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.stereotype.Service;
import lombok.extern.slf4j.Slf4j;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * DeepSeek-R1服务
 * 核心特性：解析并展示思考过程
 */
@Slf4j
@Service
public class DeepSeekR1Service {
    
    private static final Pattern THINK_PATTERN = 
        Pattern.compile("<think>(.*?)</think>", Pattern.DOTALL);
    
    private final ChatClient r1Client;
    private final ChatClient v3Client;
    
    public DeepSeekR1Service(
            @Qualifier("deepSeekR1Client") ChatClient r1Client,
            @Qualifier("deepSeekV3Client") ChatClient v3Client) {
        this.r1Client = r1Client;
        this.v3Client = v3Client;
    }
    
    /**
     * 带思考过程的推理
     * 返回结构：思考步骤 + 最终答案
     */
    public ReasoningResult reasonWithThinking(String question) {
        log.info("开始R1推理，问题长度: {} 字符", question.length());
        
        long start = System.currentTimeMillis();
        String rawResponse = r1Client.prompt()
            .user(question)
            .call()
            .content();
        long elapsed = System.currentTimeMillis() - start;
        
        // 解析思考过程和最终答案
        ReasoningResult result = parseR1Response(rawResponse);
        result.setLatencyMs(elapsed);
        
        log.info("R1推理完成，耗时: {}ms，思考步骤数: {}", 
                 elapsed, result.getThinkingSteps().size());
        
        return result;
    }
    
    /**
     * 解析R1响应，分离思考过程和答案
     */
    private ReasoningResult parseR1Response(String rawResponse) {
        Matcher matcher = THINK_PATTERN.matcher(rawResponse);
        
        if (matcher.find()) {
            String thinkingContent = matcher.group(1).trim();
            // 去除<think>标签后的内容就是最终答案
            String finalAnswer = rawResponse.replaceAll("<think>.*?</think>", "", Pattern.DOTALL)
                                           .trim();
            
            // 将思考内容按步骤分割
            List<String> steps = parseThinkingSteps(thinkingContent);
            
            return ReasoningResult.builder()
                .rawResponse(rawResponse)
                .thinkingContent(thinkingContent)
                .thinkingSteps(steps)
                .finalAnswer(finalAnswer)
                .hasVisibleThinking(true)
                .build();
        }
        
        // 没有思考标签，直接返回（可能是V3模型的响应）
        return ReasoningResult.builder()
            .rawResponse(rawResponse)
            .finalAnswer(rawResponse)
            .hasVisibleThinking(false)
            .thinkingSteps(List.of())
            .build();
    }
    
    /**
     * 将思考内容解析为步骤列表
     */
    private List<String> parseThinkingSteps(String thinkingContent) {
        // 按常见的步骤分隔符切割
        String[] lines = thinkingContent.split("\\n");
        List<String> steps = new ArrayList<>();
        StringBuilder currentStep = new StringBuilder();
        
        for (String line : lines) {
            if (line.trim().isEmpty()) {
                if (currentStep.length() > 0) {
                    steps.add(currentStep.toString().trim());
                    currentStep = new StringBuilder();
                }
            } else {
                currentStep.append(line).append("\n");
            }
        }
        
        if (currentStep.length() > 0) {
            steps.add(currentStep.toString().trim());
        }
        
        return steps.stream()
            .filter(s -> s.length() > 10)  // 过滤太短的片段
            .collect(Collectors.toList());
    }
    
    /**
     * 数学证明场景（R1的典型强项）
     */
    public ReasoningResult proveMathStatement(String statement) {
        String prompt = String.format("""
                请严格证明以下数学命题：
                
                %s
                
                要求：
                1. 给出完整的证明过程，每一步都要有依据
                2. 如果需要辅助引理，先证明引理
                3. 标注每一步用到的数学定理或公理
                4. 最后给出简洁的证明总结
                """, statement);
        
        return reasonWithThinking(prompt);
    }
    
    /**
     * 算法时间复杂度分析
     */
    public ReasoningResult analyzeAlgorithmComplexity(String algorithmCode) {
        String prompt = String.format("""
                请分析以下算法的时间复杂度和空间复杂度：
                
                ```java
                %s
                ```
                
                要求：
                1. 识别所有循环和递归
                2. 分析最坏、平均、最好情况
                3. 用大O记号表示结果
                4. 如果有优化空间，给出优化建议和优化后的复杂度
                """, algorithmCode);
        
        return reasonWithThinking(prompt);
    }
}

第五章：Thinking Token的管理

5.1 为什么要管理Thinking Token

推理模型的成本结构与普通模型不同：

普通模型成本 = (输入tokens + 输出tokens) × 单价

推理模型成本 = (输入tokens + thinking tokens + 输出tokens) × 单价
                ↑ thinking tokens可能是输出tokens的5-10倍！

实测数据（一个中等复杂度的财务分析任务）：

模型	输入tokens	Thinking tokens	输出tokens	总tokens	成本
GPT-4o	800	-	600	1,400	$0.009
o3-mini (low)	800	~2,000	600	3,400	$0.012
o3-mini (medium)	800	~8,000	600	9,400	$0.025
o3-mini (high)	800	~20,000	600	21,400	$0.053
DeepSeek-R1	800	~5,000	600	6,400	$0.004

5.2 成本感知的推理配置

package com.example.reasoning.service;

import org.springframework.stereotype.Service;
import lombok.extern.slf4j.Slf4j;

/**
 * Thinking Token 成本管理服务
 */
@Slf4j
@Service
public class ThinkingTokenManager {
    
    /**
     * 根据任务重要性和预算，动态配置推理深度
     */
    public ReasoningConfig determineReasoningConfig(ReasoningRequest request) {
        TaskImportance importance = request.getImportance();
        double budgetUsd = request.getBudgetUsd();
        TaskComplexity complexity = estimateComplexity(request.getPrompt());
        
        return switch (importance) {
            case CRITICAL -> {
                // 关键任务：不惜成本，最深推理
                log.info("关键任务，使用高强度推理");
                yield ReasoningConfig.builder()
                    .model("o3")
                    .reasoningEffort("high")
                    .maxThinkingTokens(32000)
                    .build();
            }
            case HIGH -> {
                // 重要任务：中等推理强度
                if (budgetUsd > 0.05) {
                    yield ReasoningConfig.builder()
                        .model("o3-mini")
                        .reasoningEffort("high")
                        .maxThinkingTokens(16000)
                        .build();
                } else {
                    yield ReasoningConfig.builder()
                        .model("deepseek-reasoner")
                        .maxThinkingTokens(8000)
                        .build();
                }
            }
            case MEDIUM -> {
                // 普通任务：按复杂度决定
                if (complexity == TaskComplexity.COMPLEX) {
                    yield ReasoningConfig.builder()
                        .model("o3-mini")
                        .reasoningEffort("medium")
                        .maxThinkingTokens(8000)
                        .build();
                } else {
                    // 中等复杂度但重要性一般：用普通模型
                    yield ReasoningConfig.builder()
                        .model("gpt-4o")
                        .useReasoningModel(false)
                        .build();
                }
            }
            case LOW -> {
                // 低优先级：直接用普通模型
                yield ReasoningConfig.builder()
                    .model("gpt-4o-mini")
                    .useReasoningModel(false)
                    .build();
            }
        };
    }
    
    private TaskComplexity estimateComplexity(String prompt) {
        // 启发式复杂度评估
        int wordCount = prompt.split("\\s+").length;
        boolean hasMath = prompt.matches(".*[0-9]+.*[+\\-×÷=].*");
        boolean hasCode = prompt.contains("```") || prompt.contains("class ") || prompt.contains("def ");
        boolean hasMultiStep = prompt.contains("步骤") || prompt.contains("分析") || prompt.contains("证明");
        
        int complexityScore = 0;
        if (wordCount > 200) complexityScore++;
        if (hasMath) complexityScore += 2;
        if (hasCode) complexityScore += 2;
        if (hasMultiStep) complexityScore++;
        
        return complexityScore >= 4 ? TaskComplexity.COMPLEX :
               complexityScore >= 2 ? TaskComplexity.MEDIUM : TaskComplexity.SIMPLE;
    }
}

第六章：让用户看到"思考步骤"

6.1 前端展示思考过程的价值

让用户看到AI的推理过程，能显著提升用户信任度。某教育平台的A/B测试数据：

展示方式	用户满意度	任务完成率	用户停留时长
直接显示答案	72%	68%	45秒
显示简略步骤	81%	76%	78秒
显示完整思考过程	88%	85%	142秒

6.2 SSE流式展示思考过程

package com.example.reasoning.controller;

import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.servlet.mvc.method.annotation.SseEmitter;
import reactor.core.publisher.Flux;
import lombok.extern.slf4j.Slf4j;

import java.io.IOException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

/**
 * 推理过程流式展示API
 */
@Slf4j
@RestController
@RequestMapping("/api/reasoning")
public class ReasoningStreamController {
    
    private final DeepSeekR1Service r1Service;
    private final ExecutorService executor = Executors.newCachedThreadPool();
    
    public ReasoningStreamController(DeepSeekR1Service r1Service) {
        this.r1Service = r1Service;
    }
    
    /**
     * SSE端点：流式返回思考过程和答案
     * 前端可以实时展示AI的推理步骤
     */
    @GetMapping(value = "/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
    public SseEmitter streamReasoning(@RequestParam String question) {
        SseEmitter emitter = new SseEmitter(120_000L); // 2分钟超时
        
        executor.submit(() -> {
            try {
                // 发送开始事件
                emitter.send(SseEmitter.event()
                    .name("reasoning_start")
                    .data("{\"status\":\"thinking\",\"message\":\"AI正在思考中...\"}"));
                
                // 获取推理结果（R1模型，包含思考过程）
                ReasoningResult result = r1Service.reasonWithThinking(question);
                
                // 逐步发送思考步骤
                List<String> steps = result.getThinkingSteps();
                for (int i = 0; i < steps.size(); i++) {
                    ThinkingStepEvent stepEvent = ThinkingStepEvent.builder()
                        .stepIndex(i + 1)
                        .totalSteps(steps.size())
                        .content(steps.get(i))
                        .isLastStep(i == steps.size() - 1)
                        .build();
                    
                    emitter.send(SseEmitter.event()
                        .name("thinking_step")
                        .data(JsonUtils.toJson(stepEvent)));
                    
                    // 模拟逐步显示的延迟（增加用户体验感）
                    Thread.sleep(50);
                }
                
                // 发送最终答案
                FinalAnswerEvent answerEvent = FinalAnswerEvent.builder()
                    .answer(result.getFinalAnswer())
                    .latencyMs(result.getLatencyMs())
                    .build();
                
                emitter.send(SseEmitter.event()
                    .name("final_answer")
                    .data(JsonUtils.toJson(answerEvent)));
                
                // 发送完成事件
                emitter.send(SseEmitter.event()
                    .name("done")
                    .data("{\"status\":\"complete\"}"));
                
                emitter.complete();
                
            } catch (Exception e) {
                log.error("推理流式输出失败", e);
                try {
                    emitter.send(SseEmitter.event()
                        .name("error")
                        .data("{\"error\":\"" + e.getMessage() + "\"}"));
                } catch (IOException ignored) {}
                emitter.completeWithError(e);
            }
        });
        
        return emitter;
    }
    
    /**
     * 前端JavaScript示例（注释形式说明调用方式）
     * 
     * const eventSource = new EventSource('/api/reasoning/stream?question=证明勾股定理');
     * 
     * eventSource.addEventListener('reasoning_start', (e) => {
     *   showThinkingIndicator();
     * });
     * 
     * eventSource.addEventListener('thinking_step', (e) => {
     *   const step = JSON.parse(e.data);
     *   appendThinkingStep(step.stepIndex, step.content);
     * });
     * 
     * eventSource.addEventListener('final_answer', (e) => {
     *   const answer = JSON.parse(e.data);
     *   showFinalAnswer(answer.answer);
     * });
     * 
     * eventSource.addEventListener('done', () => {
     *   eventSource.close();
     * });
     */
}

6.3 前端展示组件（Vue3 示例）

// 虽然是Vue3代码，但以注释形式嵌入在Java文档中，供前后端协作参考
/*
<template>
  <div class="reasoning-display">
    <!-- 思考过程折叠面板 -->
    <el-collapse v-if="thinkingSteps.length > 0" class="thinking-panel">
      <el-collapse-item title="🧠 AI思考过程" name="thinking">
        <div v-for="(step, index) in thinkingSteps" :key="index" class="thinking-step">
          <span class="step-number">步骤 {{ index + 1 }}</span>
          <p>{{ step }}</p>
        </div>
      </el-collapse-item>
    </el-collapse>
    
    <!-- 最终答案 -->
    <div class="final-answer" v-if="finalAnswer">
      <h3>答案</h3>
      <markdown-renderer :content="finalAnswer" />
    </div>
  </div>
</template>
*/

第七章：适用场景深度分析

7.1 数学计算场景

/**
 * 数学计算Agent
 * 使用推理模型保证计算准确性
 */
@Service
public class MathCalculationAgent {
    
    private final ChatClient r1Client;
    
    /**
     * 商业数据分析中的复杂计算
     */
    public AnalysisReport analyzeBusinessMetrics(BusinessData data) {
        String prompt = buildBusinessAnalysisPrompt(data);
        
        ReasoningResult result = r1Service.reasonWithThinking(prompt);
        
        // 自动提取计算结果
        Map<String, Double> metrics = extractNumericResults(result.getFinalAnswer());
        
        return AnalysisReport.builder()
            .metrics(metrics)
            .analysis(result.getFinalAnswer())
            .reasoningProcess(result.getThinkingContent())
            .reliability(calculateReliability(result))
            .build();
    }
    
    /**
     * 可靠性评估：推理过程越完整，可靠性越高
     */
    private double calculateReliability(ReasoningResult result) {
        if (!result.isHasVisibleThinking()) return 0.75; // 普通模型
        
        int stepsCount = result.getThinkingSteps().size();
        // 推理步骤越多，可靠性越高（直到阈值）
        return Math.min(0.95, 0.70 + stepsCount * 0.02);
    }
}

7.2 代码质量审查场景

/**
 * 代码安全审查（推理模型显著提升漏洞发现率）
 */
@Service
public class SecurityCodeReviewService {
    
    private final DeepSeekR1Service r1Service;
    
    /**
     * 安全漏洞深度扫描
     * 
     * 测试数据：
     * - 普通LLM（GPT-4o）：发现已知漏洞的73%
     * - 推理模型（DeepSeek-R1）：发现已知漏洞的91%
     */
    public SecurityAuditResult auditCode(String javaCode, String className) {
        String prompt = String.format("""
                请对以下Java代码进行深度安全审查：
                
                ## 文件：%s.java
                ```java
                %s
                ```
                
                请检查以下安全问题（OWASP Top 10）：
                1. SQL注入（使用了哪些数据库操作？是否有参数化查询？）
                2. XSS跨站脚本（用户输入是否经过转义？）
                3. 不安全的反序列化
                4. 身份验证和会话管理缺陷
                5. 敏感数据暴露（日志、错误信息中是否包含敏感数据？）
                6. XML外部实体（XXE）
                7. 访问控制缺陷
                8. 已知脆弱组件（使用的第三方库版本是否有CVE？）
                9. 不充分的日志记录
                10. SSRF（服务端请求伪造）
                
                对每个发现的问题：
                - 指出代码的具体行号或位置
                - 解释漏洞的触发条件和危害
                - 提供修复代码
                - 给出严重程度（严重/高/中/低）
                """, className, javaCode);
        
        ReasoningResult result = r1Service.reasonWithThinking(prompt);
        
        return SecurityAuditResult.builder()
            .className(className)
            .findings(parseSecurityFindings(result.getFinalAnswer()))
            .thinkingProcess(result.getThinkingContent())
            .auditedAt(Instant.now())
            .build();
    }
    
    private List<SecurityFinding> parseSecurityFindings(String auditResult) {
        // 解析审计结果，提取具体漏洞
        return new ArrayList<>(); // 简化
    }
}

第八章：推理模型的流式输出实现

8.1 DeepSeek-R1流式输出

package com.example.reasoning.service;

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.stereotype.Service;
import reactor.core.publisher.Flux;

/**
 * 推理模型流式输出服务
 * 注意：推理模型的流式输出行为与普通模型有所不同
 */
@Service
public class ReasoningStreamService {
    
    private final ChatClient r1Client;
    
    public ReasoningStreamService(@Qualifier("deepSeekR1Client") ChatClient r1Client) {
        this.r1Client = r1Client;
    }
    
    /**
     * 流式推理：实时返回包括思考过程的完整输出
     * 
     * DeepSeek-R1流式输出会先返回<think>内容，再返回最终答案
     * 我们需要在流中解析并区分这两部分
     */
    public Flux<ReasoningChunk> streamReasoningResponse(String question) {
        return r1Client.prompt()
            .user(question)
            .stream()
            .content()
            .map(chunk -> classifyChunk(chunk))
            .scan(StreamState.initial(), this::updateState)
            .map(state -> state.getCurrentChunk())
            .filter(chunk -> chunk != null);
    }
    
    /**
     * 根据累积的状态判断当前chunk属于思考还是答案
     */
    private StreamState updateState(StreamState state, ReasoningChunk chunk) {
        String accumulated = state.getAccumulated() + chunk.getRawContent();
        
        boolean inThinking = accumulated.contains("<think>") && !accumulated.contains("</think>");
        boolean thinkingEnded = accumulated.contains("</think>");
        
        ChunkType type;
        if (accumulated.startsWith("<think>") && inThinking) {
            type = ChunkType.THINKING;
        } else if (thinkingEnded) {
            type = ChunkType.ANSWER;
        } else {
            type = ChunkType.ANSWER;
        }
        
        return StreamState.builder()
            .accumulated(accumulated)
            .currentChunk(ReasoningChunk.builder()
                .rawContent(chunk.getRawContent())
                .type(type)
                .build())
            .build();
    }
    
    private ReasoningChunk classifyChunk(String rawChunk) {
        return ReasoningChunk.builder()
            .rawContent(rawChunk)
            .type(ChunkType.UNKNOWN)
            .build();
    }
}

/**
 * Chunk类型枚举
 */
enum ChunkType {
    THINKING,  // 思考过程中
    ANSWER,    // 最终答案
    UNKNOWN    // 未知（初始状态）
}

第九章：成本控制策略

9.1 成本控制综合方案

推理模型比普通模型贵约5-15倍，以下是降低成本的核心策略：

/**
 * 推理模型成本控制器
 */
@Service
public class ReasoningCostController {
    
    private final RedisTemplate<String, String> redisTemplate;
    private final MeterRegistry meterRegistry;
    
    // 成本计数器（按模型分类）
    private final Map<String, Counter> costCounters = new ConcurrentHashMap<>();
    
    /**
     * 语义缓存：相似问题复用推理结果
     * 节省成本的同时保证一致性
     */
    public Optional<String> findSimilarCachedResult(String question, String taskType) {
        String cacheKey = generateCacheKey(question, taskType);
        String cached = redisTemplate.opsForValue().get(cacheKey);
        
        if (cached != null) {
            log.info("推理结果缓存命中，key: {}", cacheKey);
            meterRegistry.counter("reasoning.cache.hit", "task_type", taskType).increment();
            return Optional.of(cached);
        }
        
        meterRegistry.counter("reasoning.cache.miss", "task_type", taskType).increment();
        return Optional.empty();
    }
    
    /**
     * 缓存推理结果
     * TTL策略：结果越稳定，缓存时间越长
     */
    public void cacheReasoningResult(String question, String taskType, 
                                      String result, ResultStability stability) {
        String cacheKey = generateCacheKey(question, taskType);
        
        Duration ttl = switch (stability) {
            case STATIC -> Duration.ofDays(30);       // 数学证明等不变的结果
            case SEMI_STATIC -> Duration.ofDays(7);   // 代码分析等相对稳定的结果
            case DYNAMIC -> Duration.ofHours(1);      // 业务数据分析等易变的结果
        };
        
        redisTemplate.opsForValue().set(cacheKey, result, ttl);
        log.info("推理结果已缓存，TTL: {}", ttl);
    }
    
    /**
     * 月度成本报告
     */
    public CostReport generateMonthlyCostReport() {
        // 从监控数据中聚合成本
        Map<String, Double> costByModel = new HashMap<>();
        Map<String, Long> callsByModel = new HashMap<>();
        
        // 实际项目中从Prometheus/时序数据库查询
        // 这里做简化演示
        
        return CostReport.builder()
            .period("2026-06")
            .costByModel(costByModel)
            .callsByModel(callsByModel)
            .totalCostUsd(costByModel.values().stream().mapToDouble(d -> d).sum())
            .cacheHitRate(calculateCacheHitRate())
            .savingsByCache(calculateCacheSavings())
            .build();
    }
    
    private String generateCacheKey(String question, String taskType) {
        // 使用MD5简化，生产环境建议使用语义相似度匹配
        String normalized = question.trim().toLowerCase().replaceAll("\\s+", " ");
        return "reasoning:" + taskType + ":" + DigestUtils.md5DigestAsHex(normalized.getBytes());
    }
    
    private double calculateCacheHitRate() {
        // 从指标系统获取
        return 0.35; // 示例：35%缓存命中率
    }
    
    private double calculateCacheSavings() {
        return 0.0; // 简化
    }
}

第十章：FAQ与性能数据汇总

FAQ

Q1：推理模型的响应比普通模型慢很多，用户能接受吗？

A：关键是设计好UX。实践经验：

加载时显示"AI正在深度思考..."的动画
用SSE流式输出，让用户看到思考过程（感觉比等待快）
对于后台批处理任务，用户完全无感知
A/B测试显示：有思考过程动画时，用户对10s延迟的接受率是78%；没有动画时接受率只有34%

Q2：DeepSeek-R1和o3，哪个更准确？

A：差不多，但各有优势：

o3在英文任务上略强
DeepSeek-R1在中文任务上更好
都在AIME（数学竞赛）上达到90%+准确率
DeepSeek-R1的优势：思考过程可见、成本更低、开源可私有化部署

Q3：推理模型能用Function Calling吗？

A：可以，但有限制：

o3-mini支持Function Calling
DeepSeek-R1支持但在推理过程中可能不调用工具
建议：推理模型做"思考和规划"，普通模型做"执行和工具调用"，组合使用效果最佳

Q4：我们的业务有没有必要用推理模型？

A：用下面这个ROI公式评估：

推理模型ROI = (准确率提升带来的业务价值) / (额外成本)

如果 ROI > 3，强烈推荐使用
如果 ROI 在 1-3，视具体情况
如果 ROI < 1，暂时不用

对于金融/法律/医疗类准确率敏感业务，通常ROI >> 3。

性能数据汇总

指标	普通LLM（GPT-4o）	推理模型（o3-mini）	推理模型（DeepSeek-R1）
数学题准确率	72%	96%	94%
代码Bug发现率	68%	88%	91%
SQL优化质量	75%	91%	89%
平均响应时间	1.5s	8-15s	10-20s
成本（相对值）	1x	8-12x	2-3x
中文能力	★★★☆☆	★★★☆☆	★★★★★

总结

推理模型不是"更好的ChatGPT"，而是一类完全不同的工具。

核心要点：

场景匹配：只在真正需要多步推导的场景用推理模型
成本感知：DeepSeek-R1是性价比最佳选择（中文场景）
透明度价值：可见的思考过程能显著提升用户信任和体验
组合使用：推理模型做规划，普通模型做执行，是最经济的架构