国产 AI 生态的发展观察——工程师视角的 2025 年中

老张2026/4/30大约 8 分钟

国产 AI 生态的发展观察——工程师视角的 2025 年中

适读人群：关注国内 AI 工程生态的开发者 | 阅读时长：约13分钟 | 核心价值：工程师视角的国内 AI 生态真实观察，有进步有差距，不吹不踩

2024 年初我写过一篇文章，总结了当时国内 AI 工程生态的状态。那时候我的结论是：模型能用，但工具链太薄，踩坑靠自己。

一年多过去了，我重新扫了一遍自己的开发工作流，发现变化比我预期的大。但"变化大"不等于"已经很好"，这两件事要分开说。

模型质量：真的追上来了一部分

先说最重要的——模型本身。

2024 年初，我的工作流是：复杂推理用 GPT-4，代码生成用 GPT-4，中文内容处理用国产模型凑合。那时候国产模型和 GPT-4 之间的差距是肉眼可见的，尤其在代码任务上，生成质量差很多，幻觉也更多。

2025 年中再看这个问题，差距确实缩小了。

DeepSeek 系列是这波里变化最大的。DeepSeek-V3 和 R1 发布之后，我做了系统测试，在代码生成任务上，DeepSeek-V3 和 Claude 3.5 Sonnet 之间的差距已经缩到我在日常工作中感知不到的程度。具体说：简单到中等复杂度的代码任务，DeepSeek-V3 的产出质量我打 85 分，Claude 3.5 Sonnet 我打 90 分，但 DeepSeek 的成本只有 Claude 的十分之一左右。

这个差距缩小，对国内工程师的意义非常大。你不再需要为了用一个好模型就付高昂的 API 费用，或者担心数据出境合规的问题。

Qwen 系列也在进步。Qwen2.5-72B 在理解中文复杂语义上已经很好，我用它处理中文文档分析任务的效果比用 GPT-4 更自然。不是因为参数更多，是因为中文训练数据的质量和覆盖面本来就有优势。

但我要说差距依然存在的地方：

超复杂推理任务。 需要多步骤、跨领域综合推理的任务，GPT-4o 和 Claude 3.5 Sonnet 依然有优势。差距不是靠"继续炼大模型"就能在六个月内弥补的，这里面有架构层面的差异。

Instruction Following 的稳定性。 国产模型在执行复杂的、多条件的 system prompt 时，偶发性不遵循的情况比头部国际模型更多。这个在 RAG 系统、Agent 框架里是个实际痛点——你精心设计的 prompt 格式，国产模型有时候会忽视掉某些约束。

多模态能力。 这块国内还在追赶，图像理解的质量和 GPT-4V / Claude 3 Vision 之间还有可感知的差距。

开发工具：进步最明显的地方之一

这里有真实的变化，我直接说工程上的体感。

LangChain 的国产替代在出现。 国内团队开始做更符合中文工程师习惯的框架，文档是中文的，示例对接的是国产模型，不需要先翻墙查文档、再做适配。这个方向在 2024 年初几乎没有，现在有几个项目已经有相当规模的用户群了。

本地部署的工具链成熟很多。 Ollama 在国内的普及程度超出我的预期。两年前，让一个不熟悉 AI 的工程师在本地跑起来一个 LLM，需要一整天配环境。现在两条命令，五分钟，普通 MacBook 跑 7B/13B 模型没有障碍。这个工具链的成熟直接降低了国内团队做原型、做内部工具的门槛。

向量数据库的国产选项出来了。 Milvus 本来就是国内团队做的，这两年在功能完善度和稳定性上进步了很多，在国内企业里的使用率已经很高。一个朋友在某大型国企做内部知识库，最后选型就是 Milvus + Qwen，整套方案不需要出境，合规压力小很多。

IDE 工具的配套。 国内出现了一些针对 Cursor / GitHub Copilot 的"平替"产品，对接国产模型，有些质量已经够用。我自己还是用 Cursor，但我见过用国产 IDE 插件的同事，日常任务的体验差距不大。

但工具链的短板也很真实：

中文文档的质量参差不齐。 很多开源项目的 README 是英文的，遇到问题去搜，StackOverflow 上有，国内社区没有，或者有但是过时的。这个问题随着社区成熟会改善，但 2025 年中这还是个现实痛点。

生产级稳定性的案例积累不足。 国内 AI 工具的 Bug 报告修复速度、Breaking Change 的处理方式、生产环境 SLA 保障，和成熟的国际工具还有差距。我们不是第一批用户不好，是很多项目还处于"能跑通 Demo"到"生产可用"之间的阶段。

基础设施：GPU 资源这件事不得不提

这是一个绕不开的现实问题。

国内 GPU 供给在 2024-2025 年依然紧张。A100/H100 受出口限制，国内主要靠 A800/H800（受限版本），以及国产芯片（华为昇腾系列、燧原 T 系列等）。

工程上的影响：

训练成本更高。 同等算力下，国内方案的价格比直接用 AWS/GCP 上的 A100 贵不少。如果你的团队需要做模型微调（Fine-tuning），这个成本差异是真实的。

国产芯片的软件生态还在补课。 昇腾的 CANN 框架和 CUDA 生态不兼容，很多基于 CUDA 优化的推理框架（vLLM、TGI）需要移植和适配。适配质量参差不齐，踩坑的概率比在 CUDA 上高很多。我有个同事在昇腾上搞 vLLM 适配版，前前后后折腾了三个月，才达到基本可用的状态。

云推理 API 价格战打得很激烈。 这对用 API 的工程师是好事。国内各大云的推理 API 价格在 2024-2025 年间降了不止一次，DeepSeek、Qwen 的 API 成本已经非常低廉，对小团队来说做 AI 应用的边际成本大幅降低。

开源生态：这是我观察到进步最大的地方

说实话，2025 年中，国内 AI 开源社区的活跃度让我刮目相看。

DeepSeek-R1 开源这件事的影响，远不止一个模型。它让全球开发者看到国内团队在技术上的真实水平，也带动了一波国内工程师在海外开源社区的参与度。GitHub 上开始有更多标注中国机构的 AI 项目被国际社区认真对待，而不是被自动归类为"仿制品"。

Qwen、Baichuan、Yi 系列的持续开源，给国内团队做私有化部署提供了真实可用的基础模型。两年前，开源模型和闭源 GPT-4 之间的差距大到不可用，现在开源模型在很多场景是够用的。

但开源生态有一个我认为严重被忽视的问题：重复造轮子太多，缺乏标准化。

每家大厂都有自己的 AI 应用框架，格式不兼容，生态不共享。一个用 A 公司框架的工程师，几乎不能直接用 B 公司的工具。这种碎片化在短期内看起来像"百花齐放"，实际上是在浪费整个生态的协作可能性。国际上的 LangChain、LlamaIndex 虽然有各种问题，但至少有一个相对统一的生态，国内这块还差。

和 2024 年初相比，变化最大的三件事

整理一下，我认为变化最大的三个维度：

变化一：模型选择的自由度高很多了。 两年前，做 AI 应用基本默认用 OpenAI。现在，根据场景选模型（国产/国际/本地部署）是正常操作，不再是"凑合用"，而是有真实的性价比考量。

变化二：工程师的 AI 应用能力门槛降低了。 工具链更完善，文档更多，社区案例更丰富。两年前能做 RAG 应用的工程师算稀缺，现在稍微认真学一个月，大多数后端工程师都能搭出一个能跑的版本。

变化三：合规路径更清晰了。 数据不出境、模型私有化部署、国产方案全替代——这条路现在是可以走通的，不像两年前那样需要大量定制开发才能实现。

差距没变的是什么？ 最顶层的模型能力、推理深度、指令遵循稳定性，以及最成熟的 AI 开发工具（Cursor、GitHub Copilot 这类有几年积累的产品）——这些国内还在追赶。

我对国内 AI 工程生态的总体判断：已经从"勉强能用"进化到"生产可用"，但离"标杆水平"还有真实的差距。差距在缩小，速度比我预期的快，但别被部分场景的优秀掩盖了全局的不均衡。

保持清醒，持续跟进，这是工程师对待技术变化最正确的姿势。