第1961篇:反思AI泡沫——哪些AI应用真的创造了价值,哪些只是概念
第1961篇:反思AI泡沫——哪些AI应用真的创造了价值,哪些只是概念
去年我参加了一个内部技术评审会,某个业务团队展示了他们花了三个月搭建的"AI客服系统"。演示很华丽,PPT上全是大模型、RAG、向量数据库这些词。然后主持人问了一个问题:上线以来,用户满意度有变化吗?
现场沉默了大概十秒。
负责人说,他们还没有建立满意度追踪机制。
这件事让我想了很久。三个月,按工程师成本粗算至少一百多万人民币投进去了,但没有人在问:这玩意儿到底有没有用?
我不是要否定AI的价值,恰恰相反,我见过真正用AI解决问题的案例,那种ROI高得让人眼红。但我也见过太多用"AI赋能"包装的半成品,撑过了融资轮,撑不过用户的第一个月留存。
今天想认真聊聊这个问题——到底什么样的AI应用在创造真实价值?
先把问题想清楚:什么叫"创造价值"
这听起来是废话,但很多工程师和产品经理其实没想清楚。
价值有几种:
第一种:替代了人力成本。 原来要10个人工完成的工作,现在3个人+AI就搞定了。这是硬价值,算得出来。
第二种:提升了用户体验,带来了留存和转化。 用户因为AI功能而留下来,愿意付费。这是软价值,需要数据支撑。
第三种:打开了新的业务空间。 AI让某些之前做不到的事情成为可能,创造了全新的营收来源。这是增量价值。
第四种:降低了决策风险。 AI辅助分析让某类决策更准确,减少了错误带来的损失。这是负向成本的减少。
我见过太多AI项目,说不清楚自己在创造哪种价值。"提升了效率"是一句空话,提升了多少?怎么测量?谁验证了?
真正创造了价值的AI应用,长什么样
我整理了几个我亲眼见过或者深度参与过的案例,不是行业报告那种脱水的二手资料。
案例一:代码审查自动化
一家中型互联网公司,有200多名工程师,每天大概提交800-1000个PR。过去的代码审查高度依赖人工,平均审查周期是2.3天。更大的问题是:代码质量参差不齐,很多低级错误(空指针、SQL注入漏洞、日志泄露敏感信息)需要资深工程师一遍遍重复指出。
他们用GPT-4结合静态分析工具构建了一套自动审查系统,专门处理那些规则明确的问题类型。
关键的设计决策是:不让AI做最终审批,只做一轮预筛。AI审查完输出结构化报告,标注风险等级,人工只需要确认或驳回,不需要从零开始读代码。
结果是:平均审查周期从2.3天降到0.8天,低级问题的漏检率从12%降到了3%以下,资深工程师把节省出来的时间用在了架构讨论上。
这个案例为什么成功?因为价值目标非常清晰(缩短周期、降低漏检),AI做的是它真正擅长的部分(规则检查、模式识别),人工兜底了它不擅长的部分(语境判断、业务逻辑),而且有明确的度量指标。
案例二:合同要素抽取
一家法律科技公司,主营业务是帮中小企业做合同管理。过去他们用人工团队逐份合同提取关键条款,平均每份合同需要15-20分钟,高峰期积压严重。
他们用微调后的模型做了合同要素抽取系统。这里有个关键细节:他们没有选通用大模型直接API调用,而是对一个较小的模型(7B级别)做了大量行业特定数据的微调,原因是通用大模型在处理中文法律合同时,对某些特殊表述的准确率不稳定,而且API成本对高频调用场景来说太贵。
核心代码架构大概是这样的:
@Service
public class ContractAnalysisService {
private final LlmClient llmClient;
private final ContractValidator validator;
private final HumanReviewQueue reviewQueue;
public ContractAnalysisResult analyze(ContractDocument doc) {
// 第一步:结构化预处理,把合同文本按章节切分
List<ContractSection> sections = preprocessor.split(doc);
// 第二步:并发提取各类要素
CompletableFuture<List<KeyClause>> clausesFuture =
CompletableFuture.supplyAsync(() -> extractClauses(sections));
CompletableFuture<RiskAssessment> riskFuture =
CompletableFuture.supplyAsync(() -> assessRisk(sections));
CompletableFuture<PartyInfo> partyFuture =
CompletableFuture.supplyAsync(() -> extractParties(sections));
// 等待所有任务完成
ContractAnalysisResult result = CompletableFuture
.allOf(clausesFuture, riskFuture, partyFuture)
.thenApply(v -> buildResult(
clausesFuture.join(),
riskFuture.join(),
partyFuture.join()))
.join();
// 第三步:置信度过滤,低于阈值的进人工队列
if (result.getConfidenceScore() < 0.85) {
reviewQueue.enqueue(doc, result);
result.setStatus(AnalysisStatus.PENDING_REVIEW);
}
return result;
}
private List<KeyClause> extractClauses(List<ContractSection> sections) {
String prompt = buildClauseExtractionPrompt(sections);
LlmResponse response = llmClient.complete(prompt);
return clauseParser.parse(response.getContent());
}
}结果是:平均处理时间从15分钟降到了45秒,人工团队从12人缩减到4人(剩下的人专门处理低置信度案例和客户沟通),整体准确率维持在97%以上。
案例三:一个失败案例——"智能推荐升级"
为了平衡,我也说个失败的。
某电商平台,要把原有的协同过滤推荐系统"升级为AI推荐"。项目背景是竞争对手在宣传大模型推荐,管理层有压力。
工程团队花了四个月,接入了大模型做用户意图理解,把用户的历史行为序列转成自然语言喂给大模型,让大模型"理解用户喜好"。
上线后点击率反而下降了8%,A/B测试打了一个多月,始终没能超过原来的协同过滤基准。
问题出在哪?
协同过滤的核心优势是大规模用户行为数据的规律挖掘,它处理的是成百上千万用户维度的统计关联。大模型的优势是语义理解和复杂推理,它在处理稀疏行为数据的短期用户上可能有帮助,但在有海量行为数据的场景,它并不比专门优化的推荐算法强。
更关键的是:团队没有诚实地问"原有系统的瓶颈到底在哪里",就直接跳到了"用大模型替换"。这是一种技术跟风,而不是问题驱动。
一个判断AI应用价值的框架
经历过这些案例之后,我总结了一个简单的判断框架,叫做"价值锚定三问":
问题一:这个AI功能,在解决一个有明确成本或损失的问题吗?
(是 → 继续;否 → 重新定义问题)
问题二:AI在这个场景中,是否有超过现有方案的竞争优势?
(是 → 继续;否 → 优先优化现有方案)
问题三:你有没有一个在上线前就设计好的度量方案?
(是 → 可以立项;否 → 先设计度量再开发)用这三个问题过滤一遍,大概80%的"AI项目需求"会被拦截。这不是坏事,这是在帮团队保存弹药。
AI泡沫的本质是什么
我不认为AI是泡沫整体。但AI的应用叙事存在严重泡沫。
泡沫的来源有几层:
第一层:演示偏差。 大模型的演示效果极好,因为演示是精心挑选的输入,现实世界的输入是混乱、模糊、充满噪声的。"看起来很厉害"和"在生产环境里稳定有效"之间,有一条很深的鸿沟。
第二层:指标错位。 很多AI项目用技术指标(模型准确率、延迟、BLEU分数)汇报进度,而不是用业务指标(成本降低、转化率、用户留存)。这两者之间未必对应。
第三层:沉没成本效应。 一旦团队在一个AI项目上投入了人月和资源,就很难理性地评估"我们是不是做错了"。我见过不止一个团队,已经明显数据不好看了,还在继续投入,因为"再优化一下可能就好了"。
第四层:竞争焦虑放大了决策失误。 "竞争对手在用AI,我们不用就落后了"是一种很强的情绪,但这种情绪驱动的决策往往是粗糙的。
这条路径,我见过太多次了。
哪些场景AI真的有竞争优势
我在这里不说大方向,只说我认为现阶段(2025年前后)AI应用真正有竞争优势的具体场景:
1. 非结构化文本的结构化提取。 合同、报告、病历、客户反馈——把人类语言转成结构化数据,大模型在这方面比任何规则系统都强,而且泛化能力好。
2. 多轮对话场景下的意图追踪。 客服、导购、问诊——需要跨轮次理解上下文,保持一致的业务逻辑。这是规则引擎的噩梦,是大模型的强项。
3. 代码辅助生成和审查(规则明确的部分)。 重复性代码、boilerplate、已知安全规则的检查——大模型的效率提升是肉眼可见的。
4. 文档生成和摘要。 技术文档、会议纪要、报告摘要——质量稳定,节省大量人力。
5. 低频但高复杂度的查询。 用户偶尔提出的复杂问题,规则系统覆盖不到,人工处理成本高,大模型可以稳定处理。
哪些场景目前AI还没有竞争优势(但总有人想用):
- 需要强实时性的交易决策(延迟和一致性不过关)
- 强规则、强约束的业务流程(规则引擎更可靠、更可解释)
- 纯数值型的预测任务(专门的ML模型效果更好)
- 高度依赖行业隐性知识的专家判断(模型会幻觉,成本太高)
一个检验方法:六个月后的测试
我给自己定了一个规则:对于任何AI项目,我在立项时就写下六个月后要测量的三个指标,以及每个指标的及格线是什么。
如果六个月后,三个指标中有两个没达到及格线,我会主动提议终止或重构。
这个规则帮我避免了很多无效投入,也让我更认真地在立项阶段思考"我们到底在解决什么问题"。
在AI投资热退潮之后,留下来的一定不是那些PPT做得最漂亮的项目,而是那些能讲清楚"你帮我省了多少钱"或者"你帮我多挣了多少钱"的项目。
技术是中性的,AI也是中性的。价值是由问题定义的,不是由技术定义的。
