国产 AI 生态的发展观察——工程师视角的 2025 年中
国产 AI 生态的发展观察——工程师视角的 2025 年中
适读人群:关注国内 AI 工程生态的开发者 | 阅读时长:约13分钟 | 核心价值:工程师视角的国内 AI 生态真实观察,有进步有差距,不吹不踩
2024 年初我写过一篇文章,总结了当时国内 AI 工程生态的状态。那时候我的结论是:模型能用,但工具链太薄,踩坑靠自己。
一年多过去了,我重新扫了一遍自己的开发工作流,发现变化比我预期的大。但"变化大"不等于"已经很好",这两件事要分开说。
模型质量:真的追上来了一部分
先说最重要的——模型本身。
2024 年初,我的工作流是:复杂推理用 GPT-4,代码生成用 GPT-4,中文内容处理用国产模型凑合。那时候国产模型和 GPT-4 之间的差距是肉眼可见的,尤其在代码任务上,生成质量差很多,幻觉也更多。
2025 年中再看这个问题,差距确实缩小了。
DeepSeek 系列是这波里变化最大的。DeepSeek-V3 和 R1 发布之后,我做了系统测试,在代码生成任务上,DeepSeek-V3 和 Claude 3.5 Sonnet 之间的差距已经缩到我在日常工作中感知不到的程度。具体说:简单到中等复杂度的代码任务,DeepSeek-V3 的产出质量我打 85 分,Claude 3.5 Sonnet 我打 90 分,但 DeepSeek 的成本只有 Claude 的十分之一左右。
这个差距缩小,对国内工程师的意义非常大。你不再需要为了用一个好模型就付高昂的 API 费用,或者担心数据出境合规的问题。
Qwen 系列也在进步。Qwen2.5-72B 在理解中文复杂语义上已经很好,我用它处理中文文档分析任务的效果比用 GPT-4 更自然。不是因为参数更多,是因为中文训练数据的质量和覆盖面本来就有优势。
但我要说差距依然存在的地方:
超复杂推理任务。 需要多步骤、跨领域综合推理的任务,GPT-4o 和 Claude 3.5 Sonnet 依然有优势。差距不是靠"继续炼大模型"就能在六个月内弥补的,这里面有架构层面的差异。
Instruction Following 的稳定性。 国产模型在执行复杂的、多条件的 system prompt 时,偶发性不遵循的情况比头部国际模型更多。这个在 RAG 系统、Agent 框架里是个实际痛点——你精心设计的 prompt 格式,国产模型有时候会忽视掉某些约束。
多模态能力。 这块国内还在追赶,图像理解的质量和 GPT-4V / Claude 3 Vision 之间还有可感知的差距。
开发工具:进步最明显的地方之一
这里有真实的变化,我直接说工程上的体感。
LangChain 的国产替代在出现。 国内团队开始做更符合中文工程师习惯的框架,文档是中文的,示例对接的是国产模型,不需要先翻墙查文档、再做适配。这个方向在 2024 年初几乎没有,现在有几个项目已经有相当规模的用户群了。
本地部署的工具链成熟很多。 Ollama 在国内的普及程度超出我的预期。两年前,让一个不熟悉 AI 的工程师在本地跑起来一个 LLM,需要一整天配环境。现在两条命令,五分钟,普通 MacBook 跑 7B/13B 模型没有障碍。这个工具链的成熟直接降低了国内团队做原型、做内部工具的门槛。
向量数据库的国产选项出来了。 Milvus 本来就是国内团队做的,这两年在功能完善度和稳定性上进步了很多,在国内企业里的使用率已经很高。一个朋友在某大型国企做内部知识库,最后选型就是 Milvus + Qwen,整套方案不需要出境,合规压力小很多。
IDE 工具的配套。 国内出现了一些针对 Cursor / GitHub Copilot 的"平替"产品,对接国产模型,有些质量已经够用。我自己还是用 Cursor,但我见过用国产 IDE 插件的同事,日常任务的体验差距不大。
但工具链的短板也很真实:
中文文档的质量参差不齐。 很多开源项目的 README 是英文的,遇到问题去搜,StackOverflow 上有,国内社区没有,或者有但是过时的。这个问题随着社区成熟会改善,但 2025 年中这还是个现实痛点。
生产级稳定性的案例积累不足。 国内 AI 工具的 Bug 报告修复速度、Breaking Change 的处理方式、生产环境 SLA 保障,和成熟的国际工具还有差距。我们不是第一批用户不好,是很多项目还处于"能跑通 Demo"到"生产可用"之间的阶段。
基础设施:GPU 资源这件事不得不提
这是一个绕不开的现实问题。
国内 GPU 供给在 2024-2025 年依然紧张。A100/H100 受出口限制,国内主要靠 A800/H800(受限版本),以及国产芯片(华为昇腾系列、燧原 T 系列等)。
工程上的影响:
训练成本更高。 同等算力下,国内方案的价格比直接用 AWS/GCP 上的 A100 贵不少。如果你的团队需要做模型微调(Fine-tuning),这个成本差异是真实的。
国产芯片的软件生态还在补课。 昇腾的 CANN 框架和 CUDA 生态不兼容,很多基于 CUDA 优化的推理框架(vLLM、TGI)需要移植和适配。适配质量参差不齐,踩坑的概率比在 CUDA 上高很多。我有个同事在昇腾上搞 vLLM 适配版,前前后后折腾了三个月,才达到基本可用的状态。
云推理 API 价格战打得很激烈。 这对用 API 的工程师是好事。国内各大云的推理 API 价格在 2024-2025 年间降了不止一次,DeepSeek、Qwen 的 API 成本已经非常低廉,对小团队来说做 AI 应用的边际成本大幅降低。
开源生态:这是我观察到进步最大的地方
说实话,2025 年中,国内 AI 开源社区的活跃度让我刮目相看。
DeepSeek-R1 开源这件事的影响,远不止一个模型。它让全球开发者看到国内团队在技术上的真实水平,也带动了一波国内工程师在海外开源社区的参与度。GitHub 上开始有更多标注中国机构的 AI 项目被国际社区认真对待,而不是被自动归类为"仿制品"。
Qwen、Baichuan、Yi 系列的持续开源,给国内团队做私有化部署提供了真实可用的基础模型。两年前,开源模型和闭源 GPT-4 之间的差距大到不可用,现在开源模型在很多场景是够用的。
但开源生态有一个我认为严重被忽视的问题:重复造轮子太多,缺乏标准化。
每家大厂都有自己的 AI 应用框架,格式不兼容,生态不共享。一个用 A 公司框架的工程师,几乎不能直接用 B 公司的工具。这种碎片化在短期内看起来像"百花齐放",实际上是在浪费整个生态的协作可能性。国际上的 LangChain、LlamaIndex 虽然有各种问题,但至少有一个相对统一的生态,国内这块还差。
和 2024 年初相比,变化最大的三件事
整理一下,我认为变化最大的三个维度:
变化一:模型选择的自由度高很多了。 两年前,做 AI 应用基本默认用 OpenAI。现在,根据场景选模型(国产/国际/本地部署)是正常操作,不再是"凑合用",而是有真实的性价比考量。
变化二:工程师的 AI 应用能力门槛降低了。 工具链更完善,文档更多,社区案例更丰富。两年前能做 RAG 应用的工程师算稀缺,现在稍微认真学一个月,大多数后端工程师都能搭出一个能跑的版本。
变化三:合规路径更清晰了。 数据不出境、模型私有化部署、国产方案全替代——这条路现在是可以走通的,不像两年前那样需要大量定制开发才能实现。
差距没变的是什么? 最顶层的模型能力、推理深度、指令遵循稳定性,以及最成熟的 AI 开发工具(Cursor、GitHub Copilot 这类有几年积累的产品)——这些国内还在追赶。
我对国内 AI 工程生态的总体判断:已经从"勉强能用"进化到"生产可用",但离"标杆水平"还有真实的差距。差距在缩小,速度比我预期的快,但别被部分场景的优秀掩盖了全局的不均衡。
保持清醒,持续跟进,这是工程师对待技术变化最正确的姿势。
