自研 vs 采购 AI 能力——判断逻辑
自研 vs 采购 AI 能力——判断逻辑
适读人群:技术负责人、产品经理、AI工程师 | 阅读时长:约12分钟 | 核心价值:建立自研与采购的判断框架,避免走弯路浪费资源
半年前,我见过一个团队,他们要做一个简历筛选系统,能自动从简历 PDF 里抽取教育经历、工作经历、技能关键词,然后按岗位要求打分排序。
技术负责人召集我们开了个方案讨论会。上来就说:我们要自己训练一个简历理解模型,需要收集训练数据、做标注、跑微调实验……
我当时就想打断他。
市面上已经有好几款成熟的简历解析 SaaS 服务了,精准率 95% 以上,API 接入,按简历条数收费,一条几分钱。他们预期的月处理量是五千份简历,一个月成本不到两百块钱。
他们愣是自研了,前前后后花了差不多五个月,效果比买来的还差,最后悄悄换成了商业服务。
这不是个例。我见过太多类似的情况,反方向也一样——该自研的时候买了现成产品,然后在定制化需求上反复撞墙,最后还是得推倒重来。
这个决策为什么难做
自研 vs 采购,表面看是技术问题,其实是资源分配问题。
技术人有一种天然的「自研冲动」——觉得只有自己造的东西才能完全掌控,才有技术沉淀,买来的东西太黑盒、太受制于人。这种想法有道理,但放在具体决策里经常失真。
另一个方向也有问题:非技术背景的决策者倾向于「买买买」,觉得什么都能买来现成的,殊不知 AI 能力高度依赖业务数据和业务逻辑,很多东西根本买不到合适的。
所以这个决策需要一个框架,而不是凭感觉。
先说什么情况下应该买
场景一:通用能力,且市场已经有成熟方案
OCR、语音识别、人脸识别、简历解析、票据识别、情感分析——这类通用能力,大厂已经投入了几亿研发,你一个五人团队想用三个月赶上他们的效果,大概率是做不到的。
这类场景的判断标准是:能不能找到至少两三个成熟的商业服务,精准率能满足你的业务要求?如果能,直接买。
场景二:业务数据量不足以支撑自研
自研模型或微调模型是需要数据的。你有多少标注样本?几百条?那别想了,微调效果不会好。通常来说,要微调出有意义的效果,分类任务至少几千条高质量样本,复杂任务要更多。
如果你现在没有足够的业务数据,买现成的,一边跑业务一边积累数据,等数据量上来了再考虑自研。
场景三:非核心差异化能力
问自己一个问题:这个 AI 能力,是你们和竞争对手的核心差异点吗?
如果不是,自研就是在把时间和资源投在非差异化的地方。比如你在做一个电商平台,AI 辅助的客服回复不是你的核心差异,直接买现成的就行,把时间花在真正重要的产品功能上。
场景四:需要快速验证 MVP
你还在验证方向,不确定这个 AI 功能用户是否真的需要,先用商业服务快速搭一个原型跑数据,3 个月内能出结论。如果方向验证成功了,再根据数据决定要不要自研。
什么情况下应该自研
场景一:核心差异化能力
这是最重要的判断。如果一个 AI 能力是你产品的核心护城河,你不能把它建立在别人的服务上。
举个例子:你在做一个医疗影像辅助诊断产品,影像识别是你的核心能力,你怎么可能去买别人的 API?你必须自己积累医疗数据、自己训练模型。这是你的产品价值所在。
场景二:数据不能出域
前面说合规的时候提过这个。医疗数据、金融数据、政务数据,很多时候合同或监管要求数据不能发到第三方服务器。你没得选,只能自己搭。
这种情况下的「自研」不一定是从头训练模型,更多是把开源模型部署到自己的环境里,或者采购私有化部署方案。
场景三:现有商业方案无法满足需求的定制化程度
你认真评估过至少三个商业方案,都不满足你的核心需求,而且这个需求是业务真实需要的,不是你工程师臆想出来的。
这种情况我见过最典型的是:某个垂直行业(比如法律合同、工业设备手册)的文档理解,通用的文档理解 API 效果很差,因为行业术语、文档格式差异太大。这种情况就必须在行业数据上做微调。
场景四:成本规模到了临界点
商业服务按使用量收费,初期便宜,但量大了以后成本会高得离谱。
我见过一个公司做的内容审核,用某商业服务,日均调用 500 万次,一个月费用要七八十万。这个量级下,自研部署的 ROI 就非常清楚了——哪怕自己搭需要投入 100 万,半年就能回本。
一个失败案例:该买时偏要自研
回到开头那个简历解析的案例,深扒一下为什么会失败。
技术负责人的原始逻辑是:商业服务有几个字段不满足我们的需求(他们要抽取一些行业特定的技能分类),而且觉得「自研可以积累技术」。
问题出在哪里?
第一,他把「几个字段不满足需求」当成了「必须自研的理由」。实际上,商业服务提供标准字段,他们真正需要的行业特定字段完全可以用 LLM Prompt 在商业服务输出的基础上做二次处理。他们做的事情不需要从头训练模型。
第二,「积累技术」是个过于模糊的目标。具体到这个场景,积累什么技术?PDF 解析技术?信息抽取模型训练?这些技术对他们的核心业务有多大价值?没想清楚。
第三,没有算时间成本。五个月四个工程师,按人力成本算,花掉的资源远超商业服务的年费。
另一个失败案例:该自研时买了现成
另一个故事发生在一家做法律文书的公司。他们的核心产品是帮律师自动生成合同草稿,用户上传关键条款要求,AI 生成合同框架。
他们一开始接入了某家文档生成 SaaS,把这个功能快速上线了。
然后问题来了:他们的用户(律师)对合同条款的语言非常敏感,措辞要精准、要符合特定法院管辖区的用语习惯、要跟自家模板风格对齐。商业服务的通用模板根本满足不了这些要求,律师们每次都要大量修改,觉得产品没价值。
他们找到我的时候,已经在商业服务上砸了三个月,用户留存很差。
我的判断是:这里的文书生成质量是他们产品的核心价值,而且高度依赖他们积累的法律文书语料和客户的定制需求,这个能力从一开始就应该自建——用 LLM API + 他们自己的提示工程 + 他们积累的模板数据,而不是买一个通用文档生成工具然后指望它能满足法律专业要求。
我自己的判断框架
整理了这么多案例,我把判断逻辑浓缩成这几个问题,按顺序回答:
问题一:这个 AI 能力是你们产品的核心差异化吗?
-> 是:考虑自研路径
-> 否:优先考虑采购
问题二(合规优先):数据能发给第三方吗?
-> 不能:只能自研或私有化部署
-> 能:继续下一步
问题三:市场上有满足需求的成熟商业方案吗?
-> 有(且能覆盖核心需求的 80% 以上):采购,不足部分用 LLM 补充处理
-> 没有:考虑自研
问题四:你有足够的标注数据吗?
-> 没有:先采购,积累数据
-> 有:评估自研的 ROI
问题五:算清楚了采购成本和自研成本吗?
-> 采购年成本 < 自研人力成本的 50%:采购
-> 采购年成本 > 自研人力成本的 150%:自研
-> 中间地带:看战略价值这个顺序很重要。合规是硬约束,在第二步就要排除掉不可行的方案,不要到最后才发现数据不能出境。
还有一个选项经常被忽略
自研和采购之间,还有一个混合方案经常被忽略:基础能力采购 + 上层逻辑自研。
很多时候你不需要全部自己搞,也不需要全部依赖商业服务。比如:
- 用 OpenAI 的 Embedding API(采购底层能力),自己做 RAG 的检索逻辑和排序(自研上层逻辑)
- 用通用 OCR 服务(采购通用能力),自己做行业文档的后处理和字段规则化(自研业务逻辑)
- 用商业模型做基础推理(采购),自己做 Prompt 工程和评估体系(自研调优能力)
这个混合方案在大多数场景下是最优解:你不需要重复发明轮子,但核心的业务逻辑和数据还是在你手里。
做这个决策的时候,脑子里要先把「我想自研」和「自研更好」分开。工程师想自研是正常的,但这不能是决策依据。把问题问清楚,把成本算清楚,再做决定——这才是应该有的工作方式。
