第2258篇：客服AI升级——从规则引擎到LLM驱动的智能客服进化路

老张2026/4/30大约 10 分钟

第2258篇：客服AI升级——从规则引擎到LLM驱动的智能客服进化路

适读人群：客服系统开发者、Java后端工程师、企业数字化技术团队 | 阅读时长：约16分钟 | 核心价值：系统梳理客服AI从规则时代到LLM时代的完整演进路径，给出可落地的工程实现方案

那是一个电商大促前的深夜，我在某头部零售平台做技术顾问，客服中台团队的负责人发来消息：明天大促，客服机器人命中率只有38%，能不能今晚紧急优化一下？

我打开他们的规则引擎配置，几千条关键词规则，密密麻麻。"退款"触发退款流程，"发货"触发物流查询，"换货"触发换货流程——看上去很完整，但用户真实说的是什么？"我的包裹怎么还没到"、"这件衣服尺码不对想换一件"、"昨天下的单能不能取消"。语言的多样性让规则匹配彻底失效。

那晚我们做了一个临时补丁：用一个简单的意图分类模型替换部分关键词规则，命中率提升到61%。但那次经历让我深刻认识到，基于规则的客服系统有一道天花板，而LLM的出现，才真正打开了智能客服的上限。

客服AI的三代演进

第一代：规则引擎时代

规则引擎的核心是关键词匹配和决策树。工程师或运营人员手写规则，"如果用户说了X，就回复Y"。这套方案在早期电话客服自动化中很成功，但在文本客服场景暴露了致命缺陷：用户语言太多样，规则永远追不上。

第二代：NLP意图分类时代

用机器学习训练意图分类模型，把用户输入映射到预定义的意图（退款、查物流、投诉等），再根据意图执行对应流程。这一代大幅提升了命中率，但仍受限于意图数量固定、上下文理解弱、回复靠模板无法个性化。

第三代：LLM驱动时代

LLM可以理解复杂语义、维持多轮对话上下文、生成自然语言回复，并通过工具调用连接后端业务系统。这一代才真正实现了"类人客服"体验。

系统架构设计

核心设计原则：分层处理，快慢分离。简单问题走RAG快速响应，复杂问题走LLM深度处理，超出能力边界立即转人工——这是工程上保证服务质量的关键。

核心工程实现

对话上下文管理

多轮对话的关键是上下文管理。LLM的上下文窗口有限，需要设计合理的裁剪策略：

@Component
public class ConversationContextManager {

    private static final int MAX_CONTEXT_TURNS = 10;
    private static final int MAX_CONTEXT_TOKENS = 3000;

    @Autowired
    private RedisTemplate<String, Object> redisTemplate;

    @Autowired
    private TokenCounter tokenCounter;

    /**
     * 获取对话上下文，自动裁剪超长历史
     */
    public List<ChatMessage> getContext(String sessionId) {
        String key = "chat:context:" + sessionId;
        List<ChatMessage> history = (List<ChatMessage>) redisTemplate.opsForValue().get(key);
        if (history == null) {
            return new ArrayList<>();
        }

        // 按token数裁剪，保留最近的对话
        return trimContextByTokens(history, MAX_CONTEXT_TOKENS);
    }

    /**
     * 追加新消息到上下文
     */
    public void appendMessage(String sessionId, ChatMessage message) {
        String key = "chat:context:" + sessionId;
        List<ChatMessage> history = getContext(sessionId);
        history.add(message);

        // 超出轮次限制时删除最早的对话（保留system message）
        while (history.size() > MAX_CONTEXT_TURNS * 2 + 1) {
            // 找到第一条非system的消息删除
            for (int i = 0; i < history.size(); i++) {
                if (!"system".equals(history.get(i).getRole())) {
                    history.remove(i);
                    history.remove(i); // 同时删除对应的assistant回复
                    break;
                }
            }
        }

        redisTemplate.opsForValue().set(key, history, Duration.ofHours(2));
    }

    private List<ChatMessage> trimContextByTokens(List<ChatMessage> history, int maxTokens) {
        int totalTokens = 0;
        List<ChatMessage> result = new ArrayList<>();

        // 从后往前添加，保证最近的消息优先
        for (int i = history.size() - 1; i >= 0; i--) {
            ChatMessage msg = history.get(i);
            int msgTokens = tokenCounter.count(msg.getContent());
            if (totalTokens + msgTokens > maxTokens && !result.isEmpty()) {
                break;
            }
            result.add(0, msg);
            totalTokens += msgTokens;
        }
        return result;
    }

    /**
     * 清除会话上下文（对话结束时）
     */
    public void clearContext(String sessionId) {
        redisTemplate.delete("chat:context:" + sessionId);
    }
}

LLM工具调用集成

客服AI的核心能力是连接后端业务系统。通过Function Calling让LLM能够查询订单、发起退款：

@Service
public class CustomerServiceLLMService {

    @Autowired
    private OpenAIClient openAIClient;

    @Autowired
    private OrderService orderService;

    @Autowired
    private RefundService refundService;

    @Autowired
    private ConversationContextManager contextManager;

    // 定义工具列表
    private static final List<ChatFunction> TOOLS = Arrays.asList(
        ChatFunction.builder()
            .name("query_order")
            .description("查询用户订单信息，包括订单状态、物流信息、金额等")
            .parameters(ChatFunctionParameters.builder()
                .addProperty("order_id", "string", "订单号", true)
                .build())
            .build(),

        ChatFunction.builder()
            .name("initiate_refund")
            .description("为用户发起退款申请")
            .parameters(ChatFunctionParameters.builder()
                .addProperty("order_id", "string", "订单号", true)
                .addProperty("reason", "string", "退款原因", true)
                .addProperty("amount", "number", "退款金额，不填则全额退款", false)
                .build())
            .build(),

        ChatFunction.builder()
            .name("query_logistics")
            .description("查询包裹物流轨迹信息")
            .parameters(ChatFunctionParameters.builder()
                .addProperty("tracking_number", "string", "快递单号", true)
                .addProperty("carrier", "string", "快递公司", false)
                .build())
            .build()
    );

    /**
     * 处理用户消息，返回AI回复
     */
    public CustomerServiceResponse handleMessage(String sessionId, String userId, String userMessage) {
        // 1. 获取对话上下文
        List<ChatMessage> context = contextManager.getContext(sessionId);

        // 2. 构建系统提示
        String systemPrompt = buildSystemPrompt(userId);
        if (context.isEmpty()) {
            context.add(ChatMessage.systemMessage(systemPrompt));
        }

        // 3. 追加用户消息
        ChatMessage userMsg = ChatMessage.userMessage(userMessage);
        context.add(userMsg);
        contextManager.appendMessage(sessionId, userMsg);

        // 4. 调用LLM（支持工具调用）
        return executeWithTools(sessionId, userId, context);
    }

    private CustomerServiceResponse executeWithTools(String sessionId, String userId,
                                                       List<ChatMessage> context) {
        int maxIterations = 5; // 防止工具调用死循环
        List<ChatMessage> workingContext = new ArrayList<>(context);

        for (int i = 0; i < maxIterations; i++) {
            ChatCompletionRequest request = ChatCompletionRequest.builder()
                .model("gpt-4o")
                .messages(workingContext)
                .functions(TOOLS)
                .functionCallMode("auto")
                .temperature(0.3) // 客服场景需要稳定性，温度设低
                .maxTokens(800)
                .build();

            ChatCompletionResponse response = openAIClient.createChatCompletion(request);
            ChatMessage assistantMsg = response.getChoices().get(0).getMessage();

            // 如果没有工具调用，直接返回文本回复
            if (assistantMsg.getFunctionCall() == null) {
                contextManager.appendMessage(sessionId, assistantMsg);
                return CustomerServiceResponse.builder()
                    .content(assistantMsg.getContent())
                    .requireHuman(false)
                    .sessionId(sessionId)
                    .build();
            }

            // 处理工具调用
            workingContext.add(assistantMsg);
            String toolResult = executeTool(
                assistantMsg.getFunctionCall().getName(),
                assistantMsg.getFunctionCall().getArguments(),
                userId
            );

            // 将工具结果加入上下文
            ChatMessage toolResultMsg = ChatMessage.functionMessage(
                assistantMsg.getFunctionCall().getName(),
                toolResult
            );
            workingContext.add(toolResultMsg);
        }

        // 超出最大迭代次数，转人工
        return CustomerServiceResponse.builder()
            .content("您的问题比较复杂，我为您转接人工客服，请稍候。")
            .requireHuman(true)
            .sessionId(sessionId)
            .build();
    }

    private String executeTool(String toolName, String arguments, String userId) {
        try {
            Map<String, Object> args = JsonUtils.parseObject(arguments, Map.class);
            switch (toolName) {
                case "query_order":
                    String orderId = (String) args.get("order_id");
                    OrderInfo order = orderService.queryByIdAndUser(orderId, userId);
                    if (order == null) {
                        return "{\"error\": \"订单不存在或不属于当前用户\"}";
                    }
                    return JsonUtils.toJson(order);

                case "initiate_refund":
                    String refundOrderId = (String) args.get("order_id");
                    String reason = (String) args.get("reason");
                    RefundResult refundResult = refundService.initiate(refundOrderId, userId, reason);
                    return JsonUtils.toJson(refundResult);

                case "query_logistics":
                    String trackingNumber = (String) args.get("tracking_number");
                    String carrier = (String) args.getOrDefault("carrier", "auto");
                    LogisticsInfo logistics = logisticsService.query(trackingNumber, carrier);
                    return JsonUtils.toJson(logistics);

                default:
                    return "{\"error\": \"未知工具: " + toolName + "\"}";
            }
        } catch (Exception e) {
            log.error("Tool execution failed: toolName={}, error={}", toolName, e.getMessage());
            return "{\"error\": \"工具执行失败，请稍后重试\"}";
        }
    }

    private String buildSystemPrompt(String userId) {
        return """
                你是一位专业、友善的客服代表，代表公司为用户提供服务。
                
                当前用户ID: %s
                
                你的职责：
                1. 解答用户关于订单、物流、退换货的问题
                2. 在必要时调用工具查询或操作系统
                3. 用简洁、友好的语言回复，避免过度解释
                4. 如果遇到复杂投诉或超出能力范围的问题，告知用户转人工处理
                
                注意事项：
                - 不要编造订单信息，必须通过工具查询
                - 退款操作前必须确认用户身份和订单归属
                - 涉及金额的操作要谨慎确认
                """.formatted(userId);
    }
}

智能转人工判断

不是所有问题都应该让AI处理。转人工的时机判断很关键：

@Component
public class EscalationDecisionEngine {

    // 触发转人工的关键词
    private static final List<String> ESCALATION_KEYWORDS = Arrays.asList(
        "投诉", "举报", "曝光", "律师", "法院", "消费者协会",
        "媒体", "微博", "骗子", "欺诈", "差评"
    );

    // 情感分析阈值
    private static final double ANGER_THRESHOLD = 0.8;
    private static final int MAX_TURNS_WITHOUT_RESOLUTION = 5;

    @Autowired
    private SentimentAnalyzer sentimentAnalyzer;

    /**
     * 判断是否需要转人工
     */
    public EscalationDecision decide(String message, ConversationState state) {
        // 1. 关键词触发
        for (String keyword : ESCALATION_KEYWORDS) {
            if (message.contains(keyword)) {
                return EscalationDecision.escalate(
                    EscalationReason.SENSITIVE_KEYWORD,
                    "检测到敏感关键词: " + keyword
                );
            }
        }

        // 2. 情感强度触发
        SentimentScore sentiment = sentimentAnalyzer.analyze(message);
        if (sentiment.getAngerScore() > ANGER_THRESHOLD) {
            return EscalationDecision.escalate(
                EscalationReason.HIGH_EMOTION,
                "用户情绪激动，愤怒指数: " + sentiment.getAngerScore()
            );
        }

        // 3. 长时间未解决触发
        if (state.getTurnCount() > MAX_TURNS_WITHOUT_RESOLUTION
                && !state.isResolved()) {
            return EscalationDecision.escalate(
                EscalationReason.UNRESOLVED_LONG,
                "多轮对话未解决问题"
            );
        }

        // 4. 用户主动要求转人工
        if (message.contains("人工") || message.contains("转接") || message.contains("真人")) {
            return EscalationDecision.escalate(
                EscalationReason.USER_REQUEST,
                "用户主动要求转人工"
            );
        }

        return EscalationDecision.continueAI();
    }
}

知识库RAG方案

FAQ类问题通过RAG快速响应，避免每次都调用LLM，降低成本和延迟：

@Service
public class KnowledgeBaseService {

    @Autowired
    private VectorStore vectorStore; // 向量数据库，如Milvus或Pinecone

    @Autowired
    private EmbeddingService embeddingService;

    @Autowired
    private OpenAIClient openAIClient;

    /**
     * RAG检索增强生成
     */
    public String answerWithRAG(String question) {
        // 1. 将问题转为向量
        float[] questionVector = embeddingService.embed(question);

        // 2. 向量检索相关知识
        List<KnowledgeDoc> relevantDocs = vectorStore.search(
            questionVector,
            SearchParams.builder()
                .topK(5)
                .minSimilarity(0.75)
                .filter("category", "customer_service")
                .build()
        );

        if (relevantDocs.isEmpty()) {
            return null; // 无相关知识，走LLM全量处理
        }

        // 3. 构建增强提示
        String context = relevantDocs.stream()
            .map(doc -> "【" + doc.getTitle() + "】\n" + doc.getContent())
            .collect(Collectors.joining("\n\n---\n\n"));

        String prompt = """
                根据以下知识库内容，回答用户问题。
                如果知识库内容不足以回答，请说明无法确定，不要编造。
                
                知识库内容：
                %s
                
                用户问题：%s
                
                请给出简洁、准确的回答：
                """.formatted(context, question);

        ChatCompletionResponse response = openAIClient.createChatCompletion(
            ChatCompletionRequest.builder()
                .model("gpt-4o-mini") // FAQ场景用轻量模型节省成本
                .messages(List.of(ChatMessage.userMessage(prompt)))
                .temperature(0.2)
                .maxTokens(500)
                .build()
        );

        return response.getChoices().get(0).getMessage().getContent();
    }

    /**
     * 知识库更新——新增或更新FAQ条目
     */
    public void upsertKnowledge(KnowledgeDoc doc) {
        // 对文档内容生成向量
        float[] vector = embeddingService.embed(doc.getTitle() + " " + doc.getContent());
        doc.setVector(vector);
        vectorStore.upsert(doc);
        log.info("Knowledge base updated: docId={}", doc.getId());
    }
}

质量监控和持续优化

LLM客服上线不是终点，持续监控和优化才是保证服务质量的关键：

@Service
public class CustomerServiceQualityMonitor {

    @Autowired
    private MetricsRegistry metricsRegistry;

    @Autowired
    private AlertService alertService;

    // 关键指标
    private Counter totalConversations;
    private Counter resolvedByAI;
    private Counter escalatedToHuman;
    private Histogram responseLatency;
    private Counter negativeRatings;

    @PostConstruct
    public void init() {
        totalConversations = metricsRegistry.counter("cs.conversations.total");
        resolvedByAI = metricsRegistry.counter("cs.resolved.ai");
        escalatedToHuman = metricsRegistry.counter("cs.escalated.human");
        responseLatency = metricsRegistry.histogram("cs.response.latency.ms");
        negativeRatings = metricsRegistry.counter("cs.ratings.negative");
    }

    /**
     * 记录对话结束指标
     */
    public void recordConversationEnd(ConversationSummary summary) {
        totalConversations.increment();

        if (summary.isResolvedByAI()) {
            resolvedByAI.increment();
        } else {
            escalatedToHuman.increment();
        }

        responseLatency.record(summary.getAvgResponseLatencyMs());

        // 用户负面评价告警
        if (summary.getUserRating() != null && summary.getUserRating() <= 2) {
            negativeRatings.increment();
            // 超过阈值告警
            double negativeRate = negativeRatings.count() / (double) totalConversations.count();
            if (negativeRate > 0.1) { // 负评率超过10%
                alertService.send(Alert.builder()
                    .level(AlertLevel.WARNING)
                    .title("客服AI负评率告警")
                    .message("近期负评率: " + String.format("%.1f%%", negativeRate * 100))
                    .build());
            }
        }

        // 记录待复盘的低质量对话
        if (summary.getUserRating() != null && summary.getUserRating() <= 3) {
            saveForReview(summary);
        }
    }

    /**
     * 保存低质量对话用于人工复盘和训练数据收集
     */
    private void saveForReview(ConversationSummary summary) {
        // 存入待复盘队列
        reviewQueue.add(ConversationReview.builder()
            .conversationId(summary.getSessionId())
            .userRating(summary.getUserRating())
            .turns(summary.getTurns())
            .escalated(summary.isEscalated())
            .reviewStatus(ReviewStatus.PENDING)
            .createdAt(LocalDateTime.now())
            .build());
    }
}

上线效果和工程经验

在实际项目中，从规则引擎迁移到LLM驱动的客服系统，典型收益：

意图识别准确率：从45%提升到87%
AI自助解决率：从32%提升到68%
平均响应时间：1.2秒（包含工具调用）
人工客服工作量：降低约40%

几个工程上的关键经验：

1. 分层路由是成本控制的核心。不要所有消息都走GPT-4，简单FAQ用gpt-4o-mini+RAG，复杂工具调用才用GPT-4o。合理分层可以把LLM调用成本降低60%以上。

2. 工具调用要有幂等性保护。退款这类操作绝对不能重复执行，必须在工具层做幂等校验，不能依赖LLM的"记忆"。

3. 上下文裁剪要保留关键信息。裁剪历史时，涉及已查到的订单号、已做的操作要优先保留，否则LLM可能重复查询。

4. 人工转接要携带完整上下文。转人工时把AI对话摘要一起传给人工坐席，坐席不需要再问用户重复问题，体验差异巨大。