第1890篇：技术创业的AI赌注——用大模型做产品的真实成本与收益

老张2026/4/30大约 10 分钟

第1890篇：技术创业的AI赌注——用大模型做产品的真实成本与收益

两年前，一个朋友找我说要一起创业，方向是用LLM做一个垂直领域的AI助手。

"这是个风口，我们得快。"他说。

我问他估算过成本吗？他说"模型API又不贵，产品做出来就能卖"。

我没有泼冷水，因为我自己也只是隐约觉得这件事没那么简单，但说不清楚具体哪里。

两年后，他的公司撑过来了，但走了很长一段弯路。我自己也在公司内部做了一个AI产品创业项目，从立项到商业化，经历了很多意想不到的成本和收益。

这篇文章是我对"用大模型做产品"这件事的真实成本与收益的梳理，没有渲染也没有唱衰，就是把账算清楚。

成本的真实构成：比你想象的多三倍

很多人在评估AI产品成本时，只算了模型API费用。这是最大的认知误区。

根据我们的实际经验，一个AI产品的成本大致分布是：

模型API费用只占了总成本的约25%。让很多人没想到的是工程开发成本，占了35%，是最大的一块。

模型API费用：比看起来贵得多

我们产品最初的设计是：每次用户提问，调用一次GPT-4o，Token消耗大约1500 input + 800 output。

按GPT-4o的定价（input $5/M tokens，output $15/M tokens）：

每次查询：1500/1000000 × 5 + 800/1000000 × 15 = $0.0075 + $0.012 = $0.0195

每次查询接近两分钱，听起来不多。

但我们日活用户2000人，每人平均每天8次查询，每天的API费用是： 2000 × 8 × 0.0195 = $312

一个月下来，API费用是 $312 × 30 = $9,360，接近7万人民币。

然后随着日活增长到5000，每月API费用超过了20万。

更大的隐藏成本是：我们实际的Token消耗比预估高了50%以上。原因是：

成本隐患一：Prompt比想象的长。

我们的系统Prompt（包含角色设定、输出格式要求、安全规则）有大约800个Token。RAG召回的上下文平均有2000个Token。加上对话历史（我们保留了最近5轮），平均input token远不止1500。

实际测量下来，平均input是4200 tokens，是估算的2.8倍。

成本隐患二：失败重试的额外消耗。

模型调用失败（网络超时、内容过滤、格式错误）会触发重试，每次重试都是额外的Token消耗。我们的重试率约8%，这部分成本不小。

成本隐患三：开发和测试阶段的消耗。

开发同学调试Prompt、测试新功能，这些都要消耗Token。我们跑一次评估集需要消耗大约5美元，每周跑几次，一个月下来不少。

// 我们后来做的Token成本追踪
@Aspect
@Component
public class TokenCostTrackingAspect {
    
    @Around("@annotation(TrackTokenCost)")
    public Object trackCost(ProceedingJoinPoint pjp) throws Throwable {
        LlmCallContext context = extractContext(pjp);
        
        long startTime = System.currentTimeMillis();
        LlmResponse response = (LlmResponse) pjp.proceed();
        long duration = System.currentTimeMillis() - startTime;
        
        // 记录每次调用的Token消耗
        TokenUsage usage = response.getUsage();
        double cost = calculateCost(usage, context.getModel());
        
        metrics.record(
            "llm.token.cost",
            cost,
            Tags.of(
                "model", context.getModel(),
                "feature", context.getFeatureKey(),
                "env", currentEnv,
                "user_tier", context.getUserTier()
            )
        );
        
        // 超出成本阈值时告警
        if (cost > 0.1) {  // 单次调用超过0.1美元
            log.warn("High cost LLM call: feature={}, model={}, cost=${}, tokens={}",
                context.getFeatureKey(), context.getModel(), cost, usage.getTotalTokens());
        }
        
        return response;
    }
    
    private double calculateCost(TokenUsage usage, String model) {
        // GPT-4o定价（美元/token）
        Map<String, double[]> pricing = Map.of(
            "gpt-4o", new double[]{5.0/1e6, 15.0/1e6},
            "gpt-4o-mini", new double[]{0.15/1e6, 0.6/1e6},
            "gpt-3.5-turbo", new double[]{0.5/1e6, 1.5/1e6}
        );
        
        double[] prices = pricing.getOrDefault(model, pricing.get("gpt-4o"));
        return usage.getInputTokens() * prices[0] + usage.getOutputTokens() * prices[1];
    }
}

工程开发成本：最被低估的部分

很多人以为用LLM做产品，只需要写一些调用API的代码，技术难度不高。

这个认知在Demo阶段是对的。在生产级产品阶段是错的。

我统计了我们团队在各个工程方向上的投入比例：

工程方向	占工程总投入比例	大多数人预估的比例
LLM调用和Prompt管理	15%	50%
RAG系统（向量化、检索、重排序）	20%	15%
评估体系建设	12%	5%
可靠性和降级机制	15%	5%
数据清洗和知识库建设	18%	10%
监控、可观测性	10%	5%
其他（认证、安全、合规）	10%	10%

"LLM调用和Prompt管理"只占了工程投入的15%。大部分时间花在了RAG系统、数据处理和评估体系上——这些都是"AI功能的支撑工程"，不是AI功能本身。

数据处理成本：一次性但不小

如果你的产品需要私有知识库（大多数B端AI产品都需要），知识库的建设成本是一次性大额投入。

我们有一个客户，他们的知识库来自历史客服工单（200万条）和产品文档（5000份PDF）。这些数据的处理过程包括：

格式转换和清洗（约3周工程师时间）
Embedding向量化（200万条×平均500 tokens，按OpenAI embedding价格约$200，但需要做批处理工程）
质量校验和人工抽查（约1周工程师+业务专家时间）
持续的增量更新机制（长期维护成本）

这个数据处理过程消耗的人力成本，远超过了Embedding的API费用。

收益的真实图谱：不只是省了多少人力

谈AI产品的收益，很多人习惯算"省了多少人"。这个角度既不准确，也不讨好。

更准确的收益框架是：AI让哪些原本做不到的事成为可能，让哪些原本昂贵的事变便宜。

收益一：服务规模的扩张（而不只是成本下降）

我们有一个产品，是帮企业做合同初审的AI工具。

在用AI之前，企业只有3个法务人员，每周能审20份合同，积压严重。

用了AI之后，AI每天能处理200份合同的初审，法务人员只需要复核AI标注了高风险的30%，实际工作量反而下降了。

这里的收益不是"省了2个法务"，而是"审合同的吞吐量提升了10倍"。对企业来说，这意味着可以做更多的业务，而不是裁更多的人。

收益 = 在同等成本下，服务规模扩大了多少。

收益二：质量的提升（某些场景）

AI在某些任务上的质量，确实高于平均水平的人工。

我们做了一个对比评估：用AI审查合同找出的问题数，vs. 3个法务人员分别审查之后取平均，AI的召回率（找出了多少真实问题）比人工高约18个百分点。

不是所有场景都这样。在创意类任务、高度个性化的任务、需要深度领域知识的任务上，AI的质量通常不如高水平的专业人士。

在大量的、中等复杂度的、有明确标准的任务上，AI的质量稳定性往往优于人工（不会有坏心情、不会疲劳、不会粗心）。

收益三：响应速度（有时候比质量更重要）

这条很容易被忽视。

合同审查的例子：法务人员审一份合同需要2-4小时，AI需要45秒。对于一些时间敏感的商业场景（比如投标前需要紧急审查合同），这45秒 vs. 4小时的差距，价值远超过成本。

响应速度是一个经常被低估的收益维度。

真实的投资回报期：比预期长，但比预期稳

我们内部做AI产品的项目，从立项到实现正向现金流，大概花了18个月。

这18个月里，大致的资金投入分布是这样的：

前6个月：探索期，主要是工程投入，无收入。月均烧钱约40万（人力+API+基础设施）。
7-12个月：MVP上线，开始有付费用户，但收入远不够覆盖成本。月均净亏损约20万。
13-18个月：产品迭代，用户增长，规模效应开始显现。月均亏损收窄到5万以内。
第19个月：首次月度盈亏平衡。

18个月的总投入大约是560万人民币。

这个投入在我们的预算内，但比最初预估的"12个月内回本"慢了半年。

慢在哪里？主要是两个地方：

第一：客户教育成本高于预期。

我们的第一批企业客户，大概有60%在签合同前都要问"AI审查结果有法律效力吗"。这个问题的回答（没有，需要法务人员最终确认）每次都会让客户犹豫。我们花了大量时间在"改变客户认知"上，这是前期没有预估到的销售成本。

第二：产品打磨比预期花了更多时间。

AI产品有一个特殊性：用户对"偶尔出错"的容忍度远低于对传统软件的容忍度。传统软件错了是bug，AI出错是"AI不可信"。这种认知上的不对称，让我们不得不把产品打磨到更高的稳定性才敢推给大客户。

我的判断：什么情况下值得押注

做了这么长时间，我觉得用大模型做产品，有三类场景相对更值得押注：

场景一：处理量大、人力成本高、质量要求中等的重复性工作。

合同初审、客服问答、代码注释生成、会议纪要、数据报告撰写——这类工作的特点是量大、有明确标准、专业人士处理成本高。AI在这里有最稳定的ROI。

场景二：知识密集型的信息检索和整合。

企业知识库问答、技术支持、医疗咨询辅助——用户需要从大量文档中找到准确信息。AI在检索速度和覆盖面上有压倒性优势，而且用户对"不够完美的回答"有一定接受度（他们知道这是辅助工具）。

场景三：有差异化数据的垂直领域。

如果你能拿到某个垂直领域其他人拿不到的数据（行业专有数据、用户行为数据、历史决策数据），用这些数据做fine-tuning或RAG，能构建出通用模型很难复制的护城河。这比"我也在调用GPT-4"要有竞争力得多。

一个忠告：算清楚再下注

最后说一句可能不受欢迎的话。

现在有很多人进场做AI产品，有些人是因为真的看清楚了市场机会，有些人是因为"不上AI会落后"的焦虑驱动的。

焦虑驱动的决策，往往会在第一次遇到真实困难时失去后劲。当发现"做一个AI产品原来不只是调调API"，当API账单比预期高两倍，当用户说"这功能有点鸡肋"——这时候如果没有清醒的预判和足够的现金流支撑，很容易半途而废。

把账算清楚再下注，不是保守，是负责任。

清醒地进场，比冲动地进场，成功率要高很多。