技术负责人的 AI 决策——不能只看 Demo

老张2026/4/30大约 8 分钟

技术负责人的 AI 决策——不能只看 Demo

适读人群：技术 Leader、CTO、有技术决策权的工程师 | 阅读时长：约13分钟 | 核心价值：建立 AI 产品和 AI 方案的技术评估框架，避免被 Demo 打动后的决策失误

两年前，我们公司买了一套 AI 客服系统。

Demo 看起来非常厉害——自然语言理解准确，回答专业，响应快，界面也好看。产品经理看完 Demo 当场拍板，技术 Leader 觉得没问题，我当时也没提出异议。合同签了，三个月后开始集成。

集成的第一周就出了问题。

那套系统在 Demo 环境里跑的是供应商精心准备的知识库，知识库里只有几百条高质量 FAQ。而我们的真实业务有几千条产品 SKU，知识结构复杂，用户问题的长尾分布很宽。真实环境下，这套系统的准确率跌到了 Demo 的一半都不到。

更麻烦的是，当我们提出"我们需要自定义知识库"的时候，供应商说可以，但需要额外付费，而且操作界面复杂到我们自己的运营没法维护。

最终那套系统只用了五个月，就被废弃了，换成了我们自己基于 RAG 搭的方案。

那次失误的学费，大概是 30 万。

事后我复盘，问题不在于供应商骗了我们，他们的系统本身是真实的。问题在于我们在 Demo 阶段问错了问题——我们在问"它能做什么"，但应该问的是"它在我们的条件下能做什么"。

Demo 天然有欺骗性

这不是在说供应商坏，这是 Demo 这种形式本身的局限。

任何 Demo 都是在最优条件下运行的：

精心挑选的测试数据
预先调好的参数
适合展示的问题类型
不会触发边界情况的流程

Demo 展示的是系统的上限，而你的生产环境面对的是系统的均值。

AI 系统的这个 gap 尤其大，因为 AI 的性能对数据分布极其敏感。训练数据或者 few-shot 示例如果和你的真实数据分布不一样，效果可能差一大截。

技术决策的三个常见失误

在我见过的 AI 技术决策里，有三类失误反复出现。

失误一：高估 Demo 效果的迁移性

就是上面说的那种情况。Demo 效果好，但没有验证在你的数据上的效果。

更隐蔽的版本是：在你的测试数据上效果也好，但测试数据是你精心准备的，而真实用户的问题千奇百怪。一个典型的例子是意图识别：你测了 100 个标准问法，准确率 92%。但真实用户问"我的那个东西怎么还没发"，这种问法可能就出了识别范围。

失误二：忽视生产成本

AI 的 Demo 成本和生产成本往往差距巨大。

GPT-4o 的 API 调用，在 Demo 里看不出问题，一天就用了几十次。但生产里每天几万次调用，成本计算完，商业模型就算不过来了。

更典型的是延迟问题。Demo 里等三秒是可以的，用户接受，觉得这是 AI 在"思考"。但生产里，如果一个功能每次都要等三秒，用户的使用习惯很快就会改变，甚至放弃使用。

失误三：没有问集成代价

AI 产品通常有一个"看起来能用，实际上很难集成"的问题。

API 文档是否完整？认证方式是否和你们的系统兼容？数据格式转换的代价多大？如果系统有问题，排查路径是什么？这些问题，在 Demo 阶段完全看不出来，但会在集成阶段全部爆发。

技术决策前要问的清单

我整理了一个清单，不是 checklist 那种走形式的东西，是每个问题都有具体含义的。

关于数据适配性

你们的数据分布和供应商的训练/测试数据有多大差异？
能不能用你们自己的数据（哪怕是小规模）做一个快速验证？
系统对输入数据的质量要求是什么？（长度、格式、语言）
当输入超出系统预期范围时，它怎么处理？

关于效果的可量化性

核心指标是什么？如何测量？
有没有和你们业务相关的基准（benchmark）？如果没有，怎么建立？
效果下降时，如何发现和诊断？
人工兜底的机制是什么？

关于生产成本

在你预期的 QPS/日调用量下，月成本大概是多少？
延迟的 P95/P99 是多少？在负载增加时，延迟如何变化？
系统的降级策略是什么？（模型服务不可用时怎么办）
数据需要上传到供应商服务器吗？合规风险如何评估？

关于集成和维护

需要多少工程投入才能跑起来？（man-day 估计）
知识库/模型的更新流程是什么？运营团队能自己操作吗？
出了问题，排查路径是什么？供应商的 SLA 是什么？
如果以后要换掉这个方案，迁移代价多大？

关于团队能力

团队有没有人能维护和迭代这套系统？
如果供应商不再更新或者倒闭，我们能接管吗？
团队理解这套系统的工作原理吗？（黑盒还是能 debug）

这 19 个问题，不是要你全部找到完美答案，而是让这些问题的答案显化，帮你判断决策的代价。

一个反直觉的建议：先跑最难的情况

大部分技术评估都是先跑 happy path——最简单的情况，标准的输入，预期的输出。

我建议倒过来：先跑你最担心的情况。

最担心什么？

你知道用户会问的那类"奇怪问题"
你的数据里质量最差的那部分
你的业务里最复杂的那个场景
系统压力最大时（高并发）

如果这些情况都能过，happy path 基本不用担心。如果这些情况跑不好，早知道早放弃，比集成三个月后发现要好太多。

这个原则叫"最坏情况优先测试"，听起来很反直觉，但在 AI 系统评估里格外有效，因为 AI 系统在边界情况上的表现，往往和它在标准情况下的表现完全不是同一个水平。

关于 Agent 和"自动化程度"的特别提醒

最近两年，很多 AI 产品的卖点是"自动化"——AI 自动完成某某任务，不需要人工干预。

这类产品在 Demo 里非常好看，因为 Demo 里的任务都是设计过的。

技术决策时，对这类产品要多一个额外的问题：当 AI 出错时，人工干预的入口在哪里？

自动化程度越高，出错的代价往往越大，因为没有人在中间拦截。如果一套 AI 系统能自动发邮件、自动修改配置、自动执行某些操作，那么它的错误恢复机制必须是你技术评估的核心。

我见过一个案例：某公司用 AI Agent 自动处理退款申请，Demo 阶段准确率 95%。生产上线后，有 5% 的误判，这些误判的退款已经打出去了，无法追回。5% 的错误率听起来很低，但乘以每天的处理量，这是真实的资金损失。

高自动化 = 高风险的入口，不是高自动化 = 可以放心。

一个具体的评估流程

把上面的思路整合成一个实际可操作的流程：

阶段一：数据验证（1-2 周）

用你自己的真实数据（或者接近真实的数据）跑一遍核心场景。不需要完整的测试集，50-100 个有代表性的案例足够发现大问题。

阶段二：成本估算（2-3 天）

按照你的预期使用量，算出月成本。包括：API 费用、延迟带来的用户体验成本、运维人力成本。

阶段三：集成 POC（1-2 周）

让工程师做一个最小化的集成，不需要完整功能，只需要跑通核心路径，验证集成代价是否在预期范围内。

阶段四：决策

基于以上三个阶段的结论，做带数据支撑的决策。不是"感觉可以"，是"测试结果 X，成本 Y，集成工期 Z，风险点 W"。

最后说一句：我没有说 AI 产品都不好，也没有说自研一定比买好。我说的是：决策要基于你自己业务场景下的验证，不能基于供应商给你看的 Demo。

Demo 是用来激发想象力的，验证是用来做决策的。这两者不能混。