第1961篇：反思AI泡沫——哪些AI应用真的创造了价值，哪些只是概念

老张2026/4/30大约 10 分钟

第1961篇：反思AI泡沫——哪些AI应用真的创造了价值，哪些只是概念

去年我参加了一个内部技术评审会，某个业务团队展示了他们花了三个月搭建的"AI客服系统"。演示很华丽，PPT上全是大模型、RAG、向量数据库这些词。然后主持人问了一个问题：上线以来，用户满意度有变化吗？

现场沉默了大概十秒。

负责人说，他们还没有建立满意度追踪机制。

这件事让我想了很久。三个月，按工程师成本粗算至少一百多万人民币投进去了，但没有人在问：这玩意儿到底有没有用？

我不是要否定AI的价值，恰恰相反，我见过真正用AI解决问题的案例，那种ROI高得让人眼红。但我也见过太多用"AI赋能"包装的半成品，撑过了融资轮，撑不过用户的第一个月留存。

今天想认真聊聊这个问题——到底什么样的AI应用在创造真实价值？

先把问题想清楚：什么叫"创造价值"

这听起来是废话，但很多工程师和产品经理其实没想清楚。

价值有几种：

第一种：替代了人力成本。 原来要10个人工完成的工作，现在3个人+AI就搞定了。这是硬价值，算得出来。

第二种：提升了用户体验，带来了留存和转化。 用户因为AI功能而留下来，愿意付费。这是软价值，需要数据支撑。

第三种：打开了新的业务空间。 AI让某些之前做不到的事情成为可能，创造了全新的营收来源。这是增量价值。

第四种：降低了决策风险。 AI辅助分析让某类决策更准确，减少了错误带来的损失。这是负向成本的减少。

我见过太多AI项目，说不清楚自己在创造哪种价值。"提升了效率"是一句空话，提升了多少？怎么测量？谁验证了？

真正创造了价值的AI应用，长什么样

我整理了几个我亲眼见过或者深度参与过的案例，不是行业报告那种脱水的二手资料。

案例一：代码审查自动化

一家中型互联网公司，有200多名工程师，每天大概提交800-1000个PR。过去的代码审查高度依赖人工，平均审查周期是2.3天。更大的问题是：代码质量参差不齐，很多低级错误（空指针、SQL注入漏洞、日志泄露敏感信息）需要资深工程师一遍遍重复指出。

他们用GPT-4结合静态分析工具构建了一套自动审查系统，专门处理那些规则明确的问题类型。

关键的设计决策是：不让AI做最终审批，只做一轮预筛。AI审查完输出结构化报告，标注风险等级，人工只需要确认或驳回，不需要从零开始读代码。

结果是：平均审查周期从2.3天降到0.8天，低级问题的漏检率从12%降到了3%以下，资深工程师把节省出来的时间用在了架构讨论上。

这个案例为什么成功？因为价值目标非常清晰（缩短周期、降低漏检），AI做的是它真正擅长的部分（规则检查、模式识别），人工兜底了它不擅长的部分（语境判断、业务逻辑），而且有明确的度量指标。

案例二：合同要素抽取

一家法律科技公司，主营业务是帮中小企业做合同管理。过去他们用人工团队逐份合同提取关键条款，平均每份合同需要15-20分钟，高峰期积压严重。

他们用微调后的模型做了合同要素抽取系统。这里有个关键细节：他们没有选通用大模型直接API调用，而是对一个较小的模型（7B级别）做了大量行业特定数据的微调，原因是通用大模型在处理中文法律合同时，对某些特殊表述的准确率不稳定，而且API成本对高频调用场景来说太贵。

核心代码架构大概是这样的：

@Service
public class ContractAnalysisService {
    
    private final LlmClient llmClient;
    private final ContractValidator validator;
    private final HumanReviewQueue reviewQueue;
    
    public ContractAnalysisResult analyze(ContractDocument doc) {
        // 第一步：结构化预处理，把合同文本按章节切分
        List<ContractSection> sections = preprocessor.split(doc);
        
        // 第二步：并发提取各类要素
        CompletableFuture<List<KeyClause>> clausesFuture = 
            CompletableFuture.supplyAsync(() -> extractClauses(sections));
        CompletableFuture<RiskAssessment> riskFuture = 
            CompletableFuture.supplyAsync(() -> assessRisk(sections));
        CompletableFuture<PartyInfo> partyFuture = 
            CompletableFuture.supplyAsync(() -> extractParties(sections));
        
        // 等待所有任务完成
        ContractAnalysisResult result = CompletableFuture
            .allOf(clausesFuture, riskFuture, partyFuture)
            .thenApply(v -> buildResult(
                clausesFuture.join(), 
                riskFuture.join(), 
                partyFuture.join()))
            .join();
        
        // 第三步：置信度过滤，低于阈值的进人工队列
        if (result.getConfidenceScore() < 0.85) {
            reviewQueue.enqueue(doc, result);
            result.setStatus(AnalysisStatus.PENDING_REVIEW);
        }
        
        return result;
    }
    
    private List<KeyClause> extractClauses(List<ContractSection> sections) {
        String prompt = buildClauseExtractionPrompt(sections);
        LlmResponse response = llmClient.complete(prompt);
        return clauseParser.parse(response.getContent());
    }
}

结果是：平均处理时间从15分钟降到了45秒，人工团队从12人缩减到4人（剩下的人专门处理低置信度案例和客户沟通），整体准确率维持在97%以上。

案例三：一个失败案例——"智能推荐升级"

为了平衡，我也说个失败的。

某电商平台，要把原有的协同过滤推荐系统"升级为AI推荐"。项目背景是竞争对手在宣传大模型推荐，管理层有压力。

工程团队花了四个月，接入了大模型做用户意图理解，把用户的历史行为序列转成自然语言喂给大模型，让大模型"理解用户喜好"。

上线后点击率反而下降了8%，A/B测试打了一个多月，始终没能超过原来的协同过滤基准。

问题出在哪？

协同过滤的核心优势是大规模用户行为数据的规律挖掘，它处理的是成百上千万用户维度的统计关联。大模型的优势是语义理解和复杂推理，它在处理稀疏行为数据的短期用户上可能有帮助，但在有海量行为数据的场景，它并不比专门优化的推荐算法强。

更关键的是：团队没有诚实地问"原有系统的瓶颈到底在哪里"，就直接跳到了"用大模型替换"。这是一种技术跟风，而不是问题驱动。

一个判断AI应用价值的框架

经历过这些案例之后，我总结了一个简单的判断框架，叫做"价值锚定三问"：

问题一：这个AI功能，在解决一个有明确成本或损失的问题吗？
（是 → 继续；否 → 重新定义问题）

问题二：AI在这个场景中，是否有超过现有方案的竞争优势？
（是 → 继续；否 → 优先优化现有方案）

问题三：你有没有一个在上线前就设计好的度量方案？
（是 → 可以立项；否 → 先设计度量再开发）

用这三个问题过滤一遍，大概80%的"AI项目需求"会被拦截。这不是坏事，这是在帮团队保存弹药。

AI泡沫的本质是什么

我不认为AI是泡沫整体。但AI的应用叙事存在严重泡沫。

泡沫的来源有几层：

第一层：演示偏差。 大模型的演示效果极好，因为演示是精心挑选的输入，现实世界的输入是混乱、模糊、充满噪声的。"看起来很厉害"和"在生产环境里稳定有效"之间，有一条很深的鸿沟。

第二层：指标错位。 很多AI项目用技术指标（模型准确率、延迟、BLEU分数）汇报进度，而不是用业务指标（成本降低、转化率、用户留存）。这两者之间未必对应。

第三层：沉没成本效应。 一旦团队在一个AI项目上投入了人月和资源，就很难理性地评估"我们是不是做错了"。我见过不止一个团队，已经明显数据不好看了，还在继续投入，因为"再优化一下可能就好了"。

第四层：竞争焦虑放大了决策失误。 "竞争对手在用AI，我们不用就落后了"是一种很强的情绪，但这种情绪驱动的决策往往是粗糙的。

这条路径，我见过太多次了。

哪些场景AI真的有竞争优势

我在这里不说大方向，只说我认为现阶段（2025年前后）AI应用真正有竞争优势的具体场景：

1. 非结构化文本的结构化提取。 合同、报告、病历、客户反馈——把人类语言转成结构化数据，大模型在这方面比任何规则系统都强，而且泛化能力好。

2. 多轮对话场景下的意图追踪。 客服、导购、问诊——需要跨轮次理解上下文，保持一致的业务逻辑。这是规则引擎的噩梦，是大模型的强项。

3. 代码辅助生成和审查（规则明确的部分）。 重复性代码、boilerplate、已知安全规则的检查——大模型的效率提升是肉眼可见的。

4. 文档生成和摘要。 技术文档、会议纪要、报告摘要——质量稳定，节省大量人力。

5. 低频但高复杂度的查询。 用户偶尔提出的复杂问题，规则系统覆盖不到，人工处理成本高，大模型可以稳定处理。

哪些场景目前AI还没有竞争优势（但总有人想用）：

需要强实时性的交易决策（延迟和一致性不过关）
强规则、强约束的业务流程（规则引擎更可靠、更可解释）
纯数值型的预测任务（专门的ML模型效果更好）
高度依赖行业隐性知识的专家判断（模型会幻觉，成本太高）

一个检验方法：六个月后的测试

我给自己定了一个规则：对于任何AI项目，我在立项时就写下六个月后要测量的三个指标，以及每个指标的及格线是什么。

如果六个月后，三个指标中有两个没达到及格线，我会主动提议终止或重构。

这个规则帮我避免了很多无效投入，也让我更认真地在立项阶段思考"我们到底在解决什么问题"。

在AI投资热退潮之后，留下来的一定不是那些PPT做得最漂亮的项目，而是那些能讲清楚"你帮我省了多少钱"或者"你帮我多挣了多少钱"的项目。

技术是中性的，AI也是中性的。价值是由问题定义的，不是由技术定义的。