AI 系统的用户培训——让不懂技术的业务用户正确使用 AI
AI 系统的用户培训——让不懂技术的业务用户正确使用 AI
适读人群:做企业 AI 落地的工程师,关注用户教育问题
阅读时长:约 20 分钟
文章价值:用户培训体系设计 + 常见误用案例 + UI 引导设计思路
我以为培训不是工程师的事
在很长一段时间里,我把「用户培训」这件事归结为「运营的事情」,和我没什么关系。
然后我亲眼见证了用户培训缺失怎么摧毁一个技术上做得很好的 AI 系统。
那是一个法律事务所的合同审查 AI,技术上是我见过做得最扎实的系统之一:准确率 91%,可以识别合同里的风险条款,给出修改建议,有完整的引用来源。我帮他们做了 Code Review,从架构到代码都没什么大问题。
系统上线三个月,使用率只有 20%。80% 的律师根本不用。
我去做了用户调研,问那些不用的律师为什么不用。得到的答案让我沉默了好一会儿:
「我用了几次,感觉它有时候很好,有时候说的不对,我不知道什么时候该信它,就懒得用了。」
「它给的建议我不知道是针对我这个行业的还是通用的,我不敢直接用。」
「问它'这个条款有没有问题',它有时候说有问题,有时候说没问题,同一份合同,我这里问和同事问,得到的答案不一样。」
这些问题都是真实的——AI 确实有不确定性,确实有能力范围,确实会对同一个问题给出略有差异的回答。但没有人告诉这些律师这些事,他们只是发现 AI「不稳定」,然后放弃了。
用户培训不到位,技术上完美的系统也会死。
从那以后,我把用户教育当成 AI 项目交付的核心组成部分,不是附加项。
工程师容易犯的几个认知误区
在讲怎么做用户培训之前,先说几个工程师(包括我自己)容易有的误区。
误区一:用户会自己摸索
我们自己上手一个新工具,确实会自己摸索。但我们有技术背景,对「AI 的局限性」有基本认知。普通业务用户没有这个背景,他们用过搜索引擎,搜索引擎是「你问我答」的,他们会用同样的心智模型来用 AI。
AI 不是搜索引擎。搜索引擎返回链接,用户自己判断真假;AI 返回结论,用户的第一反应是相信。这个差异如果不明确告知,会造成用户要么过度依赖(什么都信),要么完全放弃(发现一次错了就不信了)。
误区二:准确率高了,用户自然会用
我在前面的例子里也说了,那个系统准确率 91%,但使用率只有 20%。准确率是技术指标,不是用户体验指标。用户不知道 91% 意味着什么,他们只知道「有时候对,有时候错」。
误区三:操作简单,不需要培训
界面做得越来越简单,「用户不需要培训就能上手」——这是常见的产品思路,对于功能软件基本成立,对于 AI 系统不成立。
AI 系统的操作可能很简单(输入问题,看输出),但正确使用不简单。用户需要知道:怎么问才能问出好答案,哪些场景 AI 擅长,哪些不擅长,怎么判断 AI 的输出质量,什么情况下要做人工核实。
这些都需要培训,不是界面做得好就能自动解决的。
用户教育的三层内容
我把用户培训内容分三层,从基础到进阶:
第一层:AI 是什么,不是什么
这一层的目标是建立正确的心智模型。
要传达的核心认知:
AI 是概率性的,不是确定性的。 同样的问题,在不同的时候可能得到略有不同的回答,这是正常的,不是系统故障。
AI 的知识有边界。 它只了解被训练过和被提供的内容,对于它不了解的事情,可能会编造听起来合理的答案(这叫「幻觉」)。
AI 不能替代判断,只能辅助判断。 对于需要专业判断的事情(法律、医疗、重要决策),AI 的建议应该作为参考,不应该作为最终依据。
和 AI 交互需要技巧。 问题描述越清晰,提供的上下文越多,答案质量越高。
怎么传达这些内容,我的经验是:用对比案例,不用抽象概念。
「AI 有时候会犯错」——这是抽象的,没有感觉。
「如果你问'合同里第三条有什么风险',AI 可能会给一个很好的分析;但如果你问'这份合同整体上有没有问题',AI 可能给出一个听起来完整但实际上遗漏了重要内容的分析,因为问题太宽泛了」——这是具体的,有场景感。
第二层:怎么问才能得到好答案
这一层是操作技能,即「Prompt 技巧」的业务用户版。
不要对用户讲「Prompt Engineering」,这个词大多数业务用户不懂也不想懂。换成业务语言:
「告诉它你是谁,你要做什么决定」
示例(法律场景):
差的问法:「这个条款有没有问题?」
好的问法:「我是一家科技公司的法务,这是一份软件许可协议,我要判断这个知识产权归属条款是否对我们公司有不利的条款,请帮我分析。」
后者提供了:身份(我是谁)、场景(什么类型的合同)、目的(要做什么决定)。AI 能给出针对性更强的分析。
「分步骤问,不要一次问所有问题」
差:「帮我分析这份合同的风险点、签署建议、需要修改的条款、和行业标准的差距」
好:先问「帮我列出这份合同的主要风险点」,看完后再问「第二点的风险,具体可能造成什么后果」,再问「针对这个风险,通常的处理方式是什么」。
分步骤问,每个问题聚焦,质量更高,也更容易发现 AI 答错了哪里。
「不确定的答案,问 AI 为什么这么说」
对于不确定的答案,追问「你为什么得出这个结论」「这个结论的依据是什么」。如果 AI 能给出清晰的引用和推理,可信度更高;如果 AI 开始含糊其辞,可能就是在编造了。
第三层:什么时候信,什么时候不信
这是最难的一层,也是最重要的一层。
不同场景的可信度不同:
| 场景 | 可信度判断 | 建议操作 |
|---|---|---|
| 查找已知事实(公司政策、产品说明) | 较高 | 可以直接参考,复杂情况做快速核实 |
| 分析和解读(合同条款、数据分析) | 中等 | 参考结论,但要自己判断核心部分 |
| 预测和建议(市场判断、方案选择) | 较低 | 作为一个参考视角,不作为决策依据 |
| 高风险操作(签合同、发公告、财务决策) | 必须人工核实 | AI 只做辅助,最终判断必须由人做 |
这个表格要根据具体的业务场景定制,不能用通用版本。
用户误用 AI 的真实案例
下面是我见到的真实误用案例,用来作为培训素材,比抽象的原则更有效。
案例一:把 AI 当百科全书(高置信度误用)
某销售用 AI 查询竞争对手的产品规格,AI 给了一堆数字,他直接发给了客户。客户说「你们的数据是错的」。
问题:AI 的知识库截止时间是固定的,实时数据不准确,尤其是竞争对手的产品规格这类频繁变化的信息。
教训:AI 不是实时数据库,时效性强的信息要去官方渠道核实。
案例二:把 AI 的语气当成置信度(表面文章误用)
某运营看到 AI 用肯定的语气说「根据我们的政策,退款应当在 5 个工作日内到账」,就直接回复客户「5 个工作日到账」。实际上政策是 7 个工作日,AI 说错了,而且语气很肯定。
问题:LLM 的语气和它的准确程度没有关系,说话越肯定不意味着越准确,有时候恰恰相反。
教训:AI 的语气不是置信度标志。对于关键数字、时间、条件,必须去原始文件核实。
案例三:缺乏上下文导致答非所问(问题质量误用)
某 HR 问「员工工资应该怎么算」,AI 给了一套通用的薪资计算方法。HR 按这个方法算了一批员工的工资,结果完全不对——公司有自己的薪酬体系,AI 根本不知道。
问题:问题没有提供公司特定的上下文,AI 只能给通用答案。
教训:AI 不知道你的公司内部情况,需要你主动提供相关上下文。
AI 使用引导的 UI 设计思路
除了显性的培训,UI 层面的使用引导是更自然的教育方式。
输入框的引导提示
输入框不只是一个文本框,要给用户正确的引导:
// React 组件示意(设计思路,非生产代码)
const AIQueryInput = ({ onSubmit, context }) => {
const [query, setQuery] = useState('');
const [queryQuality, setQueryQuality] = useState(null);
// 实时评估查询质量(基于简单规则)
const evaluateQueryQuality = (text) => {
if (text.length < 10) return null;
const issues = [];
if (text.length < 30) {
issues.push('问题较简短,补充更多背景有助于得到更好的答复');
}
if (!text.includes(',') && !text.includes('。') && text.length > 50) {
issues.push('可以尝试分步骤描述你的问题');
}
return issues.length > 0 ? issues : null;
};
const placeholders = [
'例如:我是采购部门,正在审核一份供应商合同,请帮我分析第三条付款条款是否存在风险...',
'例如:我需要了解公司的报销流程,我是新入职员工,具体要报餐费...',
];
return (
<div className="ai-input-container">
<textarea
value={query}
onChange={(e) => {
setQuery(e.target.value);
setQueryQuality(evaluateQueryQuality(e.target.value));
}}
placeholder={placeholders[0]}
rows={4}
/>
{/* 查询质量提示 */}
{queryQuality && (
<div className="query-quality-hint">
<span className="hint-icon">💡</span>
<span>提示:{queryQuality[0]}</span>
</div>
)}
{/* 场景快捷选择 */}
<div className="quick-scenarios">
<span className="label">常用场景:</span>
{['合同审查', '政策查询', '数据分析', '方案建议'].map(scene => (
<button
key={scene}
className="scenario-tag"
onClick={() => appendSceneContext(scene)}
>
{scene}
</button>
))}
</div>
</div>
);
};答复的置信度展示
答复旁边展示置信度,帮助用户判断是否需要核实:
// 后端:生成答复时附带置信度标注
@Component
public class ResponseConfidenceAnnotator {
/**
* 对AI答复进行置信度标注和使用建议
*/
public AnnotatedResponse annotate(String rawResponse, QueryContext context) {
// 分析答复中的置信度信号
ConfidenceSignals signals = analyzeConfidenceSignals(rawResponse, context);
// 确定置信度等级
ConfidenceLevel level = determineLevel(signals);
// 生成使用建议
String usageAdvice = generateUsageAdvice(level, context.getQueryType());
return AnnotatedResponse.builder()
.content(rawResponse)
.confidenceLevel(level)
.confidenceExplanation(signals.getExplanation())
.usageAdvice(usageAdvice)
// 如果有引用来源,标注来源信息
.sourceReferences(extractSourceReferences(rawResponse, context))
// 高风险场景下强制显示核实提醒
.requiresVerification(context.isHighRiskQuery())
.build();
}
private ConfidenceSignals analyzeConfidenceSignals(
String response, QueryContext context) {
ConfidenceSignals.Builder builder = ConfidenceSignals.builder();
// 信号1:答复中是否有不确定性标志词
boolean hasUncertaintyMarkers = containsUncertaintyMarkers(response);
builder.hasUncertaintyMarkers(hasUncertaintyMarkers);
// 信号2:答复中是否有可验证的具体引用(文件名、条款号等)
boolean hasVerifiableReferences = containsVerifiableReferences(response);
builder.hasVerifiableReferences(hasVerifiableReferences);
// 信号3:查询问题的清晰度(影响答复质量)
boolean queryIsClear = context.getQueryClarityScore() > 70;
builder.queryIsClear(queryIsClear);
// 信号4:是否属于实时/频繁变化的信息类型
boolean isTimelyInfo = context.getQueryType().isTimeSensitive();
builder.isTimelySensitive(isTimelyInfo);
return builder.build();
}
private String generateUsageAdvice(ConfidenceLevel level, QueryType queryType) {
return switch (level) {
case HIGH -> switch (queryType) {
case HIGH_RISK -> "本答复置信度较高,但涉及重要决策,建议核实关键信息后使用";
default -> "本答复置信度较高,可以直接参考";
};
case MEDIUM -> "本答复仅供参考,建议结合原始文件或咨询相关负责人确认";
case LOW -> "⚠️ 本答复不确定性较高,请以权威来源为准,不建议直接使用";
case REQUIRES_EXPERT -> "⚠️ 本问题超出了AI的可靠回答范围,请咨询专业人员";
};
}
}首次使用的引导流程
用户第一次使用 AI 系统时,应该有一个简短的引导流程,不是冗长的帮助文档,是交互式的「快速了解」:
- 展示 AI 能做什么:列出 3 个最有价值的使用场景,附上示例问题
- 展示 AI 不适合做什么:列出 2-3 个容易误用的场景,说明为什么
- 一个实际操作:让用户用一个预设的示例问题试用一次,体验完整流程
- 核心注意事项:用一张卡片展示「使用 AI 的 3 个好习惯」
整个流程控制在 3 分钟内,太长用户会跳过。
培训效果的评估
培训做了,怎么知道有没有效果?
指标一:误用率
定义几类典型的误用行为(比如:在高风险场景使用 AI 结论而没有核实),统计培训前后的发生频率。
指标二:问题质量
统计用户问题的平均长度和信息密度(提供了多少上下文)。培训有效果的话,问题质量会提升,AI 的回答质量也会随之提升。
指标三:使用率和留存
培训不到位,用户遇到一次糟糕体验就会放弃。培训到位,用户理解了 AI 的特性,能接受偶发的不准确,留存会更高。
指标四:人工确认比例
在该核实的场景里,用户有没有去核实?这个指标的目标不是越低越好(低可能意味着用户懒),而是和业务风险等级匹配。
不同角色的培训差异
同一套培训内容,对不同角色的效果是不同的,要分层设计。
普通用户:重点在「怎么用」和「什么时候信」,不需要讲技术原理,时间控制在 30 分钟以内。
超级用户(系统的重度使用者):需要更深入,包括高级查询技巧、如何提供有效反馈、如何处理系统无法回答的情况。时间 1-2 小时。
系统管理员和关键决策者:需要了解系统的能力边界、常见失败模式、如何解读监控指标。时间半天。
培训时机:上线第一天做一次集中培训,上线后第一个月每两周发一次「使用技巧」邮件(简短,2-3 个技巧),上线后 3 个月做一次回顾培训(解答使用中遇到的问题)。
总结:用户培训是产品的一部分
我现在做 AI 项目,用户培训是项目计划里的一项正式工作,有时间、有资源、有验收标准。
这个变化,是从那个 20% 使用率的法律 AI 系统上学到的。
技术做好是工程师的本职,但如果技术做好了却没有人正确使用,这个项目就是失败的。
用户培训不是运营的事,是工程交付的一部分。 这个认知转变,让我后续几个项目的用户采用率都明显高于行业平均水平。
AI 系统的目标不是「准确率 90%」,而是「让用户能正确、有效地使用,并从中得到真实的价值」。达到这个目标,技术和培训缺一不可。
