第1950篇:未来五年AI工程的核心命题——我对行业走向的判断与准备
第1950篇:未来五年AI工程的核心命题——我对行业走向的判断与准备
写完这1950篇,想做一次不一样的收尾。不是技术教程,是我这几年观察和实践积累下来的一些判断——对行业走向,对技术趋势,以及对我们这些做AI工程的人意味着什么。
这篇文章会有很多我自己的观点,不一定对。但我会说清楚我的推理过程,供你参考和反驳。
我们正处于什么阶段
先说一个基本判断:当前的AI能力已经足够强,弱点不是模型本身,而是工程集成和落地。
这话听起来简单,但含义很深。
过去三年,AI领域的主要叙事是"模型能力的提升"。GPT-4比GPT-3.5强很多,Claude 3比Claude 2强,每隔几个月就有新模型刷新benchmark。大家都在追新模型,以为用了最新的模型就能解决业务问题。
但实际上,我见过的大多数失败的AI项目,不是因为模型不够强,而是因为:
- 需求不清晰,不知道AI应该做什么
- 没有评估体系,不知道效果好不好
- 数据质量差,RAG检索出来的都是垃圾
- 集成做得粗糙,模型能力没有被正确地发挥出来
- 把AI当魔法,期望不合理,最终失望
模型能力已经是相对容易的那部分,难的是工程。这个判断在未来几年里不会过时。
五个我认为重要的趋势
趋势一:推理模型会成为主流,但不会替代标准模型
o1/o3这类推理模型的出现,改变了AI能解决的问题边界。以前一些被认为"AI做不好"的数学推导、复杂逻辑、代码验证,现在推理模型能做了。
但推理模型的代价是延迟和成本。未来的架构不会是"全用推理模型",而是分层架构:高频简单请求用轻量标准模型,低频复杂任务用推理模型。
对工程师的影响:需要设计好任务路由层,根据任务特征自动选择合适的模型。这不是一行代码能搞定的,是一个需要持续优化的系统。
// 未来的模型路由器会越来越复杂
@Service
public class IntelligentModelRouter {
public ModelConfig selectModel(TaskProfile task) {
// 实时性要求
if (task.getLatencyRequirement() == LatencyReq.REALTIME) {
return ModelConfig.of("gpt-4o-mini", Effort.NONE);
}
// 精度要求 + 可以等待
if (task.getAccuracyRequirement() == AccuracyReq.HIGH
&& task.getComplexityScore() > 7) {
return ModelConfig.of("o3", Effort.HIGH);
}
// 中文处理 + 数据隐私
if (task.getPrimaryLanguage() == Language.CHINESE
&& task.containsSensitiveData()) {
return ModelConfig.of("qwen-local", Effort.MEDIUM);
}
// 默认
return ModelConfig.of("gpt-4o", Effort.NONE);
}
}趋势二:Agent会从"Demo"变成"基础设施"
现在绝大多数Agent项目都是Demo级别的——在受控环境里工作得还行,一到生产就暴露问题。
这个状态会改变,但改变的方式不是"模型变得更聪明",而是工程基础设施的成熟:
- 工具调用的幂等性框架
- Agent任务的检查点和恢复机制
- Agent行为的审计和可解释性
- 错误处理和人工干预接口的标准化
五年后,Agent不会是一个"高级功能",而是像消息队列、缓存一样,是应用架构里的一个标准组件,有成熟的部署、监控、运维方案。
但实现这一步需要大量工程投入,不是靠模型进步自动完成的。这里有巨大的工程师价值空间。
趋势三:本地模型和云端模型会长期并存
有人预测"本地小模型会被云端大模型淘汰",我不认同。
本地模型的价值不只是性能,而是数据主权、延迟、成本、可控性。这些需求在企业场景里不会消失。
Qwen、LLaMA、Mistral这些开源模型的能力还在快速提升,7B/14B级别的本地模型已经能搞定大多数企业内部任务。
未来的企业AI架构会是:敏感数据走本地模型,非敏感的复杂任务走云端,两者共存,有统一的接入层管理。
Spring AI这类框架的价值正在于此——让你的业务代码不感知底层是本地还是云端。
趋势四:多模态会重塑工作流,而不只是"加功能"
现在很多人理解多模态是"在文本AI上加了个看图功能"。这个理解太浅。
多模态的更深层影响是:AI可以接管更多以前必须由人来做的工作,因为以前人的工作很多是处理图片、视频、音频等非文本信息。
五年后,一个能同时处理文本、图片、音频的AI,可以作为真正的"工作流参与者":阅读扫描件、处理客服语音、分析监控视频、生成带图的报告。
工程侧的挑战在于:这些工作流的数据格式复杂、数据量大、延迟要求各异。需要针对性的架构设计,不能套用纯文本AI的思路。
趋势五:AI工程师的核心竞争力会分化
这是我最想说的一点。
"AI工程师"这个标签现在包含的范围太广:会调用OpenAI API的人,和能设计企业级AI平台的人,都叫AI工程师。
五年后,这个领域会分化出几个清晰的方向:
AI应用工程师:构建面向业务的AI功能,核心能力是提示词工程、RAG、工具集成。入门门槛相对低,竞争也会更激烈。
AI平台工程师:构建AI基础设施,包括训练平台、推理服务、MLOps。需要深厚的分布式系统知识加AI知识,稀缺。
AI算法工程师:微调、预训练、模型架构研究。需要扎实的数学和机器学习背景,门槛最高。
AI产品工程师:理解用户需求,能把AI能力转化为产品价值,同时懂技术边界。这类人现在极度稀缺。
你现在要判断自己适合哪个方向,并且针对性地积累。不要无差别地什么都学,那样五年后你什么都懂一点但没有核心竞争力。
给Java工程师的具体建议
我们这群做Java后端的,在AI浪潮里应该怎么定位?
短期(1年内):
掌握Spring AI,能独立完成RAG系统、工具调用、多模型集成。这是基本盘,现在的就业市场就在要求这些。
中期(1-3年):
深入一个方向。你如果喜欢做平台,去研究vLLM的源码,搞清楚推理服务的优化原理,学Kubernetes和分布式系统。如果你喜欢做应用,深入研究提示词工程和评估体系,能设计可靠的AI应用架构。
长期(3-5年):
积累你自己的判断力。什么任务值得用AI,什么任务用AI是过度工程。AI能解决什么问题,不能解决什么问题。这种判断力是最难被替代的,也是最有价值的。
我自己踩过的弯路
写到这里顺便说几个我自己踩过的弯路,可能对你有用。
弯路一:追新模型而不是建系统
有段时间每出一个新模型我就想切换,以为新模型能解决所有问题。后来意识到,模型切换的收益往往不如把现有架构做扎实。
现在我的原则是:新模型出来,观察两周,看社区反馈,再决定要不要切。不做第一批吃螃蟹的,也不做最后一个跟进的。
弯路二:低估了数据质量的重要性
做RAG系统的早期,我花了大量时间调整检索算法、调提示词,但效果提升有限。后来专门做了一轮数据清洗,把低质量的文档从知识库里剔除,效果提升比之前所有优化加起来还大。
数据质量是地基,算法是楼层。地基不好,楼盖多高都不稳。
弯路三:没有评估体系就上线
有个项目上线前没有建立评估基准,上线后用户反馈说效果不好,但我们完全不知道是哪里不好,也无法衡量每次改进的效果。最后花了额外两个月建评估体系,然后才开始有系统地改进。
教训:任何AI功能,在动手实现之前,先想清楚评估指标是什么,怎么衡量好坏。这件事如果留到上线后做,成本要高十倍。
弯路四:过早引入复杂架构
因为看了太多"多Agent协作"、"自适应RAG"的论文和文章,我们在一个其实需求很简单的内部工具上上了一套复杂的Agent架构,结果维护成本极高,出了问题无法排查,最后重写成了简单的提示词+单次调用,效果差不多但维护成本降低了80%。
复杂架构有其适用场景,但在没有充分理由的情况下,永远选择最简单能解决问题的方案。
一个不那么主流的判断
最后说一个我认为重要但目前不太被讨论的判断:
AI工程师最大的价值,在于知道AI不该做什么。
这几年我见过太多"AI化"的失败项目。把本来工作得好好的规则引擎换成AI,结果不稳定、不可解释,出了问题也不知道怎么修。把简单的数据查询包上AI界面,用户反而不如直接用SQL快。把所有决策都交给AI,在关键时刻AI给出荒谬的答案但没有人工把关。
AI是一个非常强大但也非常适用范围受限的工具。在正确的场景用AI,是价值放大器;在错误的场景用AI,是麻烦放大器。
知道边界在哪里,是这个行业里最稀缺、最不容易被模型本身替代的能力。
这件事靠读论文学不会,靠看教程学不会,只能靠在真实项目里吃亏、复盘、积累判断。
所以去做项目,去踩坑,去复盘,去形成你自己的判断。
这是我写这1950篇里面最想说的一句话。
写在最后
1950篇,写了很久。
不是每篇都是精品,有些写得仓促,有些写完自己都觉得可以更好。但每一篇都是我当时真实理解和实践的记录,没有为了凑数而凑。
AI这个行业变化太快,很多我三年前写的内容现在已经过时了。这没关系,技术本来就是这样的,我们都在一边跑一边学。
重要的不是哪篇文章,而是保持对这个领域的好奇心和持续思考的习惯。
感谢这几年一直跟着的读者,下一篇见。
