模型	版本	显存需求	CPU+内存（量化）	推理速度（tokens/s）
Llama 3.1	8B Q4	5GB	8GB RAM	~30（CPU）/ ~60（GPU）
Qwen2.5	7B Q4	5GB	8GB RAM	~28（CPU）/ ~55（GPU）
DeepSeek-R1	7B Q4	5GB	8GB RAM	~20（CPU）/ ~45（GPU）
Qwen2.5	14B Q4	10GB	16GB RAM	~15（CPU）/ ~35（GPU）
DeepSeek-V2.5	MoE	多GPU	需要GPU集群	高（MoE并行）

Spring AI 集成代码（三者通用）

三个模型都可以通过Ollama接入，代码基本一致：

# 分别拉取三种模型
ollama pull llama3.1:8b
ollama pull qwen2.5:7b
ollama pull deepseek-r1:7b

# application.yml - 通过profile切换不同模型
spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        model: ${AI_MODEL:qwen2.5:7b}  # 环境变量控制

@Service
@Slf4j
public class ModelAgnosticChatService {

    private final ChatClient chatClient;

    /**
     * 根据任务类型选择最优模型
     * 通过Spring Profile或环境变量切换
     */
    public String processTask(String taskType, String content) {
        return switch (taskType) {
            case "code" -> processCodeTask(content);
            case "reasoning" -> processReasoningTask(content);
            case "chinese" -> processChineseTask(content);
            default -> processGeneralTask(content);
        };
    }

    private String processCodeTask(String code) {
        return chatClient.prompt()
            .system("""
                你是一个专业的Java代码审查专家。
                请分析代码中的问题，给出具体的修改建议。
                输出格式：问题列表 + 修改后的代码。
                """)
            .user("请审查以下代码：\n```java\n" + code + "\n```")
            .call()
            .content();
    }

    private String processReasoningTask(String problem) {
        // DeepSeek-R1场景：允许更多Token用于推理
        return chatClient.prompt()
            .system("请仔细分析问题，一步步推理，最后给出结论。")
            .user(problem)
            .options(OllamaOptions.builder()
                .withNumPredict(4096)  // 允许更长的推理链
                .withTemperature(0.1)  // 低温度保证推理稳定性
                .build())
            .call()
            .content();
    }

    private String processChineseTask(String text) {
        return chatClient.prompt()
            .system("你是一个中文专家，请用流畅自然的中文回答。")
            .user(text)
            .call()
            .content();
    }

    private String processGeneralTask(String query) {
        return chatClient.prompt()
            .user(query)
            .call()
            .content();
    }
}

选型决策树

最终推荐

给大多数Java工程师的建议：

生产环境中文应用：首选 Qwen2.5:14b（14B，16GB显存，中文质量和稳定性最好）
资源有限的开发/测试：Qwen2.5:7b（8GB内存CPU可跑，速度可接受）
代码相关应用：Qwen2.5-coder:7b 或 deepseek-coder-v2
需要复杂推理：DeepSeek-R1:7b（注意Token消耗，成本比普通模型高3倍）
英文国际化产品：Llama 3.1:8b（英文社区生态最好）

那个金融团队最终选了 Qwen2.5:14b，金融报告格式遵循率达到了96%，数字准确性达到了99.2%（因为他们加了一层数字验证）。

选型不难，难的是搞清楚自己的业务约束条件。