第2455篇：AI工程总结与展望——在工程化道路上我们还差多远

老张2026/4/30大约 8 分钟

第2455篇：AI工程总结与展望——在工程化道路上我们还差多远

适读人群：AI工程师、技术负责人 | 阅读时长：约14分钟 | 核心价值：系统性地审视AI工程化的现状与差距，找到下一阶段的努力方向

写这篇文章的时候，我在回看这个系列走过的路。

从2435篇开始，我们谈了招聘、采购、SLA、灾难恢复、安全审计、效能量化、ROI计算……这些主题，三年前几乎没有人会把它们和"AI工程"放在一起谈。那时候的AI工程，主要就是训练模型、调参数、提AUC。

现在AI工程的边界已经大幅扩展。但我也清楚地看到：即使是最好的AI工程团队，距离真正成熟的工程化，还有相当大的差距。

今天这篇，我想诚实地说说我们现在在哪里，还差多远，以及接下来的路。

一、AI工程化的成熟度模型

根据我的观察，大多数国内企业AI团队处于L1-L2之间。有少数头部互联网公司在L3，极少数在L4。

二、当前AI工程化的主要差距

差距一：评估体系的缺失

这是我认为最普遍、危害最大的差距。

EVALUATION_MATURITY_LEVELS = {
    "level_0_no_evaluation": {
        "symptoms": [
            "凭主观感觉判断模型好不好",
            "只有上线后才知道效果怎样",
            "没有系统性的测试集"
        ],
        "consequence": "改了之后不知道是好了还是坏了，无法持续改进"
    },
    "level_1_basic": {
        "what_exists": [
            "有一些手工测试案例",
            "有基本的指标（如准确率）"
        ],
        "what_missing": "测试集不够、不系统、不持续更新"
    },
    "level_2_systematic": {
        "what_exists": [
            "系统性的评估集（覆盖多种场景）",
            "自动化评估流水线",
            "多维度指标"
        ],
        "what_missing": "评估指标与业务价值的关联"
    },
    "level_3_business_linked": {
        "what_exists": [
            "技术指标和业务指标双向追踪",
            "持续的线上评估",
            "评估驱动决策"
        ],
        "this_is_rare": "大多数团队还没有到这一步"
    }
}

诊断你的团队： 如果你无法回答"上次模型更新后，线上效果提升了多少？有数据为证的那种"——你的评估体系存在差距。

差距二：可观测性的不足

很多AI系统是"盲飞"的：

OBSERVABILITY_GAP_ANALYSIS = {
    "what_most_teams_monitor": [
        "HTTP成功率",
        "API延迟",
        "基础设施指标（CPU/内存）"
    ],
    "what_most_teams_miss": [
        "AI输出质量变化趋势",
        "用户真实的满意度（不是点击率）",
        "模型行为的静默漂移（没有报警，但效果在慢慢变差）",
        "成本/效益的实时追踪"
    ],
    "the_dangerous_pattern": """
    一个AI系统可以在所有技术指标都绿灯的情况下，
    悄悄地越来越差——因为技术指标没有捕捉AI质量。
    这种静默退化，往往要等到用户大量投诉才被发现。
    """
}

差距三：工程规范的缺失

ENGINEERING_STANDARDS_REALITY = {
    "common_situation": """
    大多数AI团队的"规范"存在于少数人的头脑里，
    不是成文的、可检查的、被实际执行的规范。
    """,
    "consequences": [
        "新人入职后的摸索成本很高",
        "不同工程师的工作质量差异大",
        "重复犯同类错误",
        "关键人员离职后知识损失"
    ],
    "gap_indicators": [
        "没有明确的代码评审标准",
        "不同项目使用不同的实验管理方式",
        "数据集版本管理混乱",
        "没有明文的模型上线审查清单"
    ]
}

差距四：组织能力跟不上技术能力

ORGANIZATIONAL_MATURITY_GAPS = {
    "talent": {
        "gap": "AI工程人才稀缺，且招聘标准不清晰",
        "symptom": "招来的人'能用AI'但不能'工程化AI'",
        "implication": "需要建立更清晰的AI工程能力评估体系"
    },
    "culture": {
        "gap": "AI实验文化vs工程质量文化的矛盾",
        "symptom": "'快速迭代'被用来为技术债辩护",
        "implication": "需要建立'快速但不乱'的工程文化"
    },
    "collaboration": {
        "gap": "AI团队与业务团队的协作模式不成熟",
        "symptom": "AI团队做了很多技术上很好的东西，但业务不用",
        "implication": "AI工程师需要更强的产品思维"
    }
}

三、近三年AI工程化的显著进步

公平地说，这个领域的进步也是令人印象深刻的：

NOTABLE_PROGRESS = {
    "2022": {
        "state": "LLM刚开始可用，大多数团队还在用传统ML",
        "typical_team": "在GPU集群上训练自己的模型，评估周期以月计"
    },
    "2023": {
        "state": "ChatGPT推动了LLM应用爆发",
        "advances": [
            "Prompt Engineering成为独立技能",
            "RAG模式被广泛采用",
            "AI基础设施创业生态爆发（LangChain, LlamaIndex等）"
        ]
    },
    "2024": {
        "state": "AI工程开始成熟",
        "advances": [
            "MLOps工具链更完整（LangSmith, Weave等）",
            "LLM评估方法开始系统化",
            "AI安全和治理开始受到重视",
            "成本管理成为必须考虑的问题"
        ]
    },
    "2025": {
        "state": "AI Agent开始实用化，AI工程复杂度进一步提升",
        "advances": [
            "多智能体系统工程实践开始形成",
            "AI工程规范和最佳实践逐渐形成行业共识",
            "政府和行业的AI治理框架趋于成熟"
        ]
    }
}

四、接下来的关键挑战

挑战一：AI系统的可靠性工程

RELIABILITY_CHALLENGES = {
    "current_state": "AI系统的可靠性工程远落后于传统软件",
    "specific_gaps": {
        "testing": {
            "traditional_software": "单元测试/集成测试覆盖率>80%是常见要求",
            "ai_systems": "很多AI系统几乎没有自动化测试"
        },
        "failure_modes": {
            "traditional": "失败通常是明确的（崩溃/错误码）",
            "ai": "失败往往是隐性的（输出质量下降但没有错误）"
        },
        "reproducibility": {
            "traditional": "给定输入，输出可重现",
            "ai": "AI输出有随机性，难以精确重现"
        }
    },
    "path_forward": [
        "建立AI特有的测试方法论",
        "将AI测试工具纳入CI/CD",
        "用统计方法处理AI输出的不确定性"
    ]
}

挑战二：AI系统的长期可维护性

MAINTAINABILITY_CHALLENGES = {
    "model_drift": {
        "problem": "生产环境的数据分布随时间变化，模型性能会逐渐下降",
        "current_practice": "很多团队的应对是'等到明显出问题了再重训'",
        "better_practice": "建立持续监控+自动触发重训的机制"
    },
    "tech_stack_evolution": {
        "problem": "AI技术栈变化极快，今天的最佳实践，两年后可能是遗留负担",
        "challenge": "如何在采用新技术的同时，不产生难以维护的技术债"
    },
    "knowledge_retention": {
        "problem": "AI项目的很多关键知识（为什么这样设计、失败过什么）没有记录",
        "consequence": "团队成员变动后，重复踩同样的坑"
    }
}

挑战三：AI治理的工程实现

GOVERNANCE_ENGINEERING_CHALLENGES = {
    "current_state": "大多数公司的AI治理还停留在政策层面，缺少工程实现",
    "gap": {
        "policy": "有了'AI决策要可解释'的政策",
        "engineering": "但没有配套的技术实现——什么叫可解释？技术上如何实现？如何证明？"
    },
    "complexity": "AI治理要求往往与工程效率存在张力，需要在两者之间找到平衡"
}

五、给AI工程师的建议

这个系列即将结束，最后给正在这条路上走的工程师们一些实用建议：

建议一：T型能力结构

T型AI工程师：
─────────────────────────────────── （广度：了解AI全栈）
           │
           │
           │ （深度：1-2个方向的专家级能力）
           │

AI工程变化太快，不能只深耕一个方向。但也不能样样会样样稀松。找到你的深度方向（如：评估体系专家、MLOps专家、AI安全专家），同时保持对其他方向的基本理解。

建议二：重视"无聊"的工程能力

最容易被低估的AI工程技能（按低估程度排序）：

1. 评估设计：如何科学地评估AI系统好不好
2. 数据工程：如何高质量地准备和管理数据
3. 监控和可观测性：如何让系统行为可见
4. 文档写作：如何清晰地记录技术决策

这些技能不够"性感"，但往往是AI项目成败的关键

建议三：主动学习工程之外的能力

AI工程师需要但学校没有教的能力：

- 成本意识：每次调用花多少钱？怎么优化？
- 沟通翻译：能把技术结论翻译成业务价值
- 风险判断：这个功能有什么潜在风险？
- 项目管理：如何拆解复杂项目，管理风险

六、AI工程化的长期展望

我相信，5-10年后，"AI工程"不会是一个独立的专业——就像今天我们不单独说"数据库工程"一样。AI会成为软件工程的一部分，AI工程的规范和最佳实践会被融入通用软件工程体系。

但在那一天到来之前，我们这一代AI工程师有一个独特的机会：建立和定义这个领域的工程规范。这是一个可以真正留下工程遗产的时代。

AI工程化的道路还很长，但每一步都算数。保持学习，保持实践，保持对"为什么"的追问——这是工程师在技术快速演变时代的生存之道。