国产大模型 2025 年中横评——实测 6 个模型的真实感受
国产大模型 2025 年中横评——实测 6 个模型的真实感受
适读人群:在国产模型里选型的开发者和团队 | 阅读时长:约16分钟 | 核心价值:实测DeepSeek V3、Qwen3、Kimi、GLM-4、Doubao、MiniMax在真实开发任务上的表现,给出明确的推荐场景
今年3月到4月,我集中跑了一轮国产模型的测试。
触发原因很具体:一个客户团队要在国内部署AI应用,数据合规要求必须用国内服务,我需要帮他们选型。既然要选,不如认真测一遍,把结论记下来,对自己也有用。
我不做跑分,我做任务测试。跑分告诉你模型在标准数据集上的数字,我更想知道的是在真实的开发工作里用起来什么感觉。
测试方法说明
我测的6个模型是:
- DeepSeek V3(非推理版,2025年3月更新版)
- Qwen3(阿里,72B参数的旗舰版,打开了thinking模式和不打开分开测)
- Kimi(Moonshot,长文本版)
- GLM-4(智谱,旗舰版)
- Doubao(字节,Pro版)
- MiniMax(Text-01)
测试任务分三类:
- 代码生成:给业务需求,写可运行的代码
- 文档理解:给长文档(技术文档、合同、API说明),提问
- 中文推理:需要多步推断的中文问题,包括逻辑推理和带有隐含前提的分析
每个任务类型我设计了5到8个具体的测试用例,下面说每个模型的整体感受和明显的特点。
DeepSeek V3——目前综合最稳的
没有太多废话:DeepSeek V3在我测试的所有国产模型里,代码生成任务综合下来是最好的。
具体体现在:
代码生成时,给出的方案不只是"能跑的",而是在代码结构、错误处理、边界case上明显比其他模型做得更周全。比如我让它写一个带重试机制的HTTP客户端,它的实现里有指数退避、有超时配置、有状态码判断、有日志输出,没有提示它就有了这些工程常识。其他模型给的版本通常更简单,能跑,但在生产使用时要补很多东西。
# DeepSeek V3给出的HTTP客户端实现片段(真实输出,略有整理)
import httpx
import logging
import time
from typing import Optional, Dict, Any
logger = logging.getLogger(__name__)
class ResilientHttpClient:
def __init__(
self,
base_url: str,
timeout: float = 30.0,
max_retries: int = 3,
retry_base_delay: float = 1.0
):
self.base_url = base_url
self.timeout = timeout
self.max_retries = max_retries
self.retry_base_delay = retry_base_delay
self._client = httpx.Client(timeout=timeout)
def get(self, path: str, params: Optional[Dict] = None) -> Dict[Any, Any]:
url = f"{self.base_url}{path}"
last_exception = None
for attempt in range(self.max_retries):
try:
response = self._client.get(url, params=params)
if response.status_code == 429:
retry_after = int(response.headers.get("Retry-After", 60))
logger.warning(f"Rate limited, waiting {retry_after}s")
time.sleep(retry_after)
continue
response.raise_for_status()
return response.json()
except httpx.TimeoutException as e:
last_exception = e
delay = self.retry_base_delay * (2 ** attempt)
logger.warning(f"Timeout on attempt {attempt + 1}, retrying in {delay}s")
time.sleep(delay)
except httpx.HTTPStatusError as e:
if e.response.status_code < 500:
raise # 4xx不重试
last_exception = e
delay = self.retry_base_delay * (2 ** attempt)
time.sleep(delay)
raise RuntimeError(f"Failed after {self.max_retries} retries") from last_exception这个质量的输出,在其他模型里我要额外要求才能得到。
文档理解和中文推理,V3也在前列,但领先优势没有代码任务那么明显。
适合场景: 代码生成、技术方案、需要工程常识的实现任务。
Qwen3——中文推理最强,但要会用
Qwen3给我最大的惊喜是在中文推理任务上。
我设计了一类测试:给出一段有隐含矛盾或需要推断的中文情境,问结论。这类问题对语言理解的要求很高,不只是表面语义,还要理解语境和潜台词。
Qwen3(开thinking模式)在这类任务上的表现是6个模型里最好的,它的分析更有层次,会主动列出隐含假设,推导过程清晰。DeepSeek V3是第二,但在几个比较绕的case上给出了不完整的分析。
但Qwen3有一个重要的使用要点: thinking模式和非thinking模式差别很大。我测了同样的问题,不开thinking模式,Qwen3的中文推理水平只是中等;开了thinking模式,上一个台阶。
对于简单的代码任务,Qwen3不开thinking模式完全够用,而且更快。但对于复杂的逻辑分析、政策解读、有多个条件的判断,一定要开thinking模式。
代码任务上,Qwen3比V3略差,主要表现在对工程细节的主动补充没有V3多——它给的代码能跑,但需要更多追问才能达到生产级别的质量。
适合场景: 复杂中文分析、需要多步推理的文本任务、中文文档的深度理解。
Kimi——长文本处理是真优势
Kimi的长文本处理能力是真实的差异化优势,不是营销说辞。
我测了一个任务:给它一份80页的技术规范文档(约10万字),问其中两个相关章节的要求是否存在矛盾,如果存在,矛盾的具体内容是什么。
其他几个模型处理这个任务的方式,基本是读前面部分,然后只引用了前面找到的内容。Kimi真的过了一遍全文,找到了两处矛盾,引用的章节位置准确,分析到位。
在合同分析、长技术文档问答、多文档联合分析这类场景,Kimi是目前国产里最好用的。
代码任务上,Kimi是6个里面偏弱的。它能完成基本的代码生成,但在复杂任务上经常缺少错误处理和边界case,需要大量追问才能完善。这不是它的强项。
适合场景: 长文档理解、合同分析、多文档信息综合、法律/规范类文本处理。
GLM-4——中规中矩,有几个场景意外不错
GLM-4是我测试里感觉最"中规中矩"的,没有明显的强项,但也没有明显的弱点。
三个任务类型都能完成,质量在中等到中等偏上,不会让你满意但也不会让你失望。
有两个地方它表现出乎我的意料——
表格和结构化信息提取。 给它一段混乱的文本,让它提取并整理成表格,GLM-4的格式输出比较稳定,字段对齐、空值处理都做得不错。对于需要批量处理文本并输出结构化结果的场景,它的稳定性是优点。
遵从格式指令的一致性。 我设计了一些有严格格式要求的输出任务,GLM-4在格式遵从上比较严格,格式飘的情况比其他模型少。
代码质量上,GLM-4比V3和Qwen3都差一些,主要是生成的代码有时候有语法错误,需要检查。
适合场景: 结构化信息提取、格式严格的批量处理任务、不需要深度推理的中文生成任务。
Doubao——速度最快,有些任务够用就行
Doubao给我最深的印象是响应速度快,明显快于其他几个。
在速度敏感的场景——比如实时客服对话、需要快速响应的交互式应用——这个差距是用户体验上感知得到的。
但速度的代价是深度。在需要多步推理的任务上,Doubao的输出质量是6个里面最弱的。它的答案通常是第一反应,不是深度分析后的判断。
代码任务上,简单任务Doubao够用,复杂任务不推荐。
有一个场景我觉得Doubao是好的选择:高频、轻量的任务,比如意图分类、情感分析、简单问答——这类任务不需要深度,速度快是真正的优势,成本也相对低。
适合场景: 实时对话、意图识别、情感分析、简单的分类任务、对速度敏感的轻量应用。
MiniMax——中文对话体验最自然
MiniMax在我测试的任务里成绩不算突出,但有一个特点让我印象比较深:中文对话的表达最自然流畅。
这很难量化,但你能感受到:它的回答在措辞上更接近人类写作的风格,不那么像"AI腔"。这在面向C端用户的对话类产品里是有价值的——用户不会觉得在和机器说话。
代码任务上,MiniMax比较弱,不建议用于专业的代码生成场景。
文档理解上,中等水平,没有特别突出的地方。
适合场景: C端对话产品、需要自然中文表达的内容生成、客服机器人(对专业知识要求不高的场景)。
综合推荐
场景 推荐模型 备选
-------------------------------------------------------
代码生成、工程实现 DeepSeek V3 Qwen3
复杂中文推理、逻辑分析 Qwen3 (thinking) DeepSeek V3
长文档理解、合同分析 Kimi GLM-4
结构化信息提取 GLM-4 DeepSeek V3
高频轻量任务(速度优先) Doubao GLM-4
C端对话、自然语言生成 MiniMax Doubao几个坦诚的补充
这个测试有局限。 我的测试用例带有我自己工作的偏向,代码任务占比相对高。如果你的主要需求是写作、创意内容、教育等场景,排名可能不一样。
模型更新很快。 这份测试基于2025年3-4月的版本。国产模型的迭代速度很快,几个月后这个排名可能会有变化。Qwen3就是在测试期间发布的,影响了我的初步判断。
最重要的建议:用你自己的用例去测。 我的任务和你的任务不一样,这份评测的价值是给你一个初步判断,帮你缩小选型范围。真正的选型决策,要用你实际的业务场景去跑,看哪个模型在你的具体任务上表现最好。
如果你有特定的测试需求或想交流选型经验,评论区见。
