国产大模型 2025 年中横评——实测 6 个模型的真实感受

老张2026/4/30大约 8 分钟

国产大模型 2025 年中横评——实测 6 个模型的真实感受

适读人群：在国产模型里选型的开发者和团队 | 阅读时长：约16分钟 | 核心价值：实测DeepSeek V3、Qwen3、Kimi、GLM-4、Doubao、MiniMax在真实开发任务上的表现，给出明确的推荐场景

今年3月到4月，我集中跑了一轮国产模型的测试。

触发原因很具体：一个客户团队要在国内部署AI应用，数据合规要求必须用国内服务，我需要帮他们选型。既然要选，不如认真测一遍，把结论记下来，对自己也有用。

我不做跑分，我做任务测试。跑分告诉你模型在标准数据集上的数字，我更想知道的是在真实的开发工作里用起来什么感觉。

测试方法说明

我测的6个模型是：

DeepSeek V3（非推理版，2025年3月更新版）
Qwen3（阿里，72B参数的旗舰版，打开了thinking模式和不打开分开测）
Kimi（Moonshot，长文本版）
GLM-4（智谱，旗舰版）
Doubao（字节，Pro版）
MiniMax（Text-01）

测试任务分三类：

代码生成：给业务需求，写可运行的代码
文档理解：给长文档（技术文档、合同、API说明），提问
中文推理：需要多步推断的中文问题，包括逻辑推理和带有隐含前提的分析

每个任务类型我设计了5到8个具体的测试用例，下面说每个模型的整体感受和明显的特点。

DeepSeek V3——目前综合最稳的

没有太多废话：DeepSeek V3在我测试的所有国产模型里，代码生成任务综合下来是最好的。

具体体现在：

代码生成时，给出的方案不只是"能跑的"，而是在代码结构、错误处理、边界case上明显比其他模型做得更周全。比如我让它写一个带重试机制的HTTP客户端，它的实现里有指数退避、有超时配置、有状态码判断、有日志输出，没有提示它就有了这些工程常识。其他模型给的版本通常更简单，能跑，但在生产使用时要补很多东西。

# DeepSeek V3给出的HTTP客户端实现片段（真实输出，略有整理）
import httpx
import logging
import time
from typing import Optional, Dict, Any

logger = logging.getLogger(__name__)

class ResilientHttpClient:
    def __init__(
        self, 
        base_url: str,
        timeout: float = 30.0,
        max_retries: int = 3,
        retry_base_delay: float = 1.0
    ):
        self.base_url = base_url
        self.timeout = timeout
        self.max_retries = max_retries
        self.retry_base_delay = retry_base_delay
        self._client = httpx.Client(timeout=timeout)
    
    def get(self, path: str, params: Optional[Dict] = None) -> Dict[Any, Any]:
        url = f"{self.base_url}{path}"
        last_exception = None
        
        for attempt in range(self.max_retries):
            try:
                response = self._client.get(url, params=params)
                
                if response.status_code == 429:
                    retry_after = int(response.headers.get("Retry-After", 60))
                    logger.warning(f"Rate limited, waiting {retry_after}s")
                    time.sleep(retry_after)
                    continue
                
                response.raise_for_status()
                return response.json()
                
            except httpx.TimeoutException as e:
                last_exception = e
                delay = self.retry_base_delay * (2 ** attempt)
                logger.warning(f"Timeout on attempt {attempt + 1}, retrying in {delay}s")
                time.sleep(delay)
            except httpx.HTTPStatusError as e:
                if e.response.status_code < 500:
                    raise  # 4xx不重试
                last_exception = e
                delay = self.retry_base_delay * (2 ** attempt)
                time.sleep(delay)
        
        raise RuntimeError(f"Failed after {self.max_retries} retries") from last_exception

这个质量的输出，在其他模型里我要额外要求才能得到。

文档理解和中文推理，V3也在前列，但领先优势没有代码任务那么明显。

适合场景： 代码生成、技术方案、需要工程常识的实现任务。

Qwen3——中文推理最强，但要会用

Qwen3给我最大的惊喜是在中文推理任务上。

我设计了一类测试：给出一段有隐含矛盾或需要推断的中文情境，问结论。这类问题对语言理解的要求很高，不只是表面语义，还要理解语境和潜台词。

Qwen3（开thinking模式）在这类任务上的表现是6个模型里最好的，它的分析更有层次，会主动列出隐含假设，推导过程清晰。DeepSeek V3是第二，但在几个比较绕的case上给出了不完整的分析。

但Qwen3有一个重要的使用要点： thinking模式和非thinking模式差别很大。我测了同样的问题，不开thinking模式，Qwen3的中文推理水平只是中等；开了thinking模式，上一个台阶。

对于简单的代码任务，Qwen3不开thinking模式完全够用，而且更快。但对于复杂的逻辑分析、政策解读、有多个条件的判断，一定要开thinking模式。

代码任务上，Qwen3比V3略差，主要表现在对工程细节的主动补充没有V3多——它给的代码能跑，但需要更多追问才能达到生产级别的质量。

适合场景： 复杂中文分析、需要多步推理的文本任务、中文文档的深度理解。

Kimi——长文本处理是真优势

Kimi的长文本处理能力是真实的差异化优势，不是营销说辞。

我测了一个任务：给它一份80页的技术规范文档（约10万字），问其中两个相关章节的要求是否存在矛盾，如果存在，矛盾的具体内容是什么。

其他几个模型处理这个任务的方式，基本是读前面部分，然后只引用了前面找到的内容。Kimi真的过了一遍全文，找到了两处矛盾，引用的章节位置准确，分析到位。

在合同分析、长技术文档问答、多文档联合分析这类场景，Kimi是目前国产里最好用的。

代码任务上，Kimi是6个里面偏弱的。它能完成基本的代码生成，但在复杂任务上经常缺少错误处理和边界case，需要大量追问才能完善。这不是它的强项。

适合场景： 长文档理解、合同分析、多文档信息综合、法律/规范类文本处理。

GLM-4——中规中矩，有几个场景意外不错

GLM-4是我测试里感觉最"中规中矩"的，没有明显的强项，但也没有明显的弱点。

三个任务类型都能完成，质量在中等到中等偏上，不会让你满意但也不会让你失望。

有两个地方它表现出乎我的意料——

表格和结构化信息提取。 给它一段混乱的文本，让它提取并整理成表格，GLM-4的格式输出比较稳定，字段对齐、空值处理都做得不错。对于需要批量处理文本并输出结构化结果的场景，它的稳定性是优点。

遵从格式指令的一致性。 我设计了一些有严格格式要求的输出任务，GLM-4在格式遵从上比较严格，格式飘的情况比其他模型少。

代码质量上，GLM-4比V3和Qwen3都差一些，主要是生成的代码有时候有语法错误，需要检查。

适合场景： 结构化信息提取、格式严格的批量处理任务、不需要深度推理的中文生成任务。

Doubao——速度最快，有些任务够用就行

Doubao给我最深的印象是响应速度快，明显快于其他几个。

在速度敏感的场景——比如实时客服对话、需要快速响应的交互式应用——这个差距是用户体验上感知得到的。

但速度的代价是深度。在需要多步推理的任务上，Doubao的输出质量是6个里面最弱的。它的答案通常是第一反应，不是深度分析后的判断。

代码任务上，简单任务Doubao够用，复杂任务不推荐。

有一个场景我觉得Doubao是好的选择：高频、轻量的任务，比如意图分类、情感分析、简单问答——这类任务不需要深度，速度快是真正的优势，成本也相对低。

适合场景： 实时对话、意图识别、情感分析、简单的分类任务、对速度敏感的轻量应用。

MiniMax——中文对话体验最自然

MiniMax在我测试的任务里成绩不算突出，但有一个特点让我印象比较深：中文对话的表达最自然流畅。

这很难量化，但你能感受到：它的回答在措辞上更接近人类写作的风格，不那么像"AI腔"。这在面向C端用户的对话类产品里是有价值的——用户不会觉得在和机器说话。

代码任务上，MiniMax比较弱，不建议用于专业的代码生成场景。

文档理解上，中等水平，没有特别突出的地方。

适合场景： C端对话产品、需要自然中文表达的内容生成、客服机器人（对专业知识要求不高的场景）。

综合推荐

场景                           推荐模型         备选
-------------------------------------------------------
代码生成、工程实现              DeepSeek V3      Qwen3
复杂中文推理、逻辑分析          Qwen3 (thinking) DeepSeek V3
长文档理解、合同分析            Kimi             GLM-4
结构化信息提取                 GLM-4            DeepSeek V3
高频轻量任务（速度优先）        Doubao           GLM-4
C端对话、自然语言生成           MiniMax          Doubao

几个坦诚的补充

这个测试有局限。 我的测试用例带有我自己工作的偏向，代码任务占比相对高。如果你的主要需求是写作、创意内容、教育等场景，排名可能不一样。

模型更新很快。 这份测试基于2025年3-4月的版本。国产模型的迭代速度很快，几个月后这个排名可能会有变化。Qwen3就是在测试期间发布的，影响了我的初步判断。

最重要的建议：用你自己的用例去测。 我的任务和你的任务不一样，这份评测的价值是给你一个初步判断，帮你缩小选型范围。真正的选型决策，要用你实际的业务场景去跑，看哪个模型在你的具体任务上表现最好。

如果你有特定的测试需求或想交流选型经验，评论区见。