@Component
public class LogParser {
    
    // 常见日志格式的正则
    private static final List<LogPattern> PATTERNS = List.of(
        new LogPattern("spring-boot", 
            "^(?<timestamp>\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}\\.\\d{3})\\s+(?<level>\\w+)\\s+(?<pid>\\d+)\\s+---\\s+\\[(?<thread>[^\\]]+)\\]\\s+(?<logger>[\\w.]+)\\s*:\\s+(?<message>.*)$"),
        new LogPattern("log4j",
            "^(?<timestamp>\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2},\\d{3})\\s+(?<level>\\w+)\\s+\\[(?<thread>[^\\]]+)\\]\\s+(?<logger>[\\w.]+)\\s+-\\s+(?<message>.*)$"),
        new LogPattern("logback-json",
            null) // JSON格式，特殊处理
    );
    
    public ParsedLog parse(String rawLog) {
        // 先尝试JSON格式
        if (rawLog.startsWith("{")) {
            return parseJson(rawLog);
        }
        
        // 尝试各种pattern
        for (LogPattern pattern : PATTERNS) {
            if (pattern.getRegex() == null) continue;
            
            Matcher matcher = Pattern.compile(pattern.getRegex()).matcher(rawLog);
            if (matcher.matches()) {
                return ParsedLog.builder()
                    .timestamp(parseTimestamp(matcher.group("timestamp")))
                    .level(LogLevel.valueOf(matcher.group("level")))
                    .thread(matcher.group("thread"))
                    .logger(matcher.group("logger"))
                    .message(matcher.group("message"))
                    .raw(rawLog)
                    .build();
            }
        }
        
        // 无法解析的日志，尝试提取基本信息
        return parseWithHeuristics(rawLog);
    }
    
    private ParsedLog parseWithHeuristics(String rawLog) {
        // 启发式：找时间戳、日志级别等基本字段
        LogLevel level = detectLogLevel(rawLog);
        Instant timestamp = detectTimestamp(rawLog);
        
        return ParsedLog.builder()
            .timestamp(timestamp != null ? timestamp : Instant.now())
            .level(level != null ? level : LogLevel.UNKNOWN)
            .message(rawLog)
            .raw(rawLog)
            .parsed(false) // 标记为未完全解析
            .build();
    }
}

2. 日志聚类（这是关键步骤）

日志聚类的核心思想是：把内容相似的日志合并，只保留代表性样本和出现次数。

最实用的算法是Drain算法，它通过构建前缀树来识别日志模板：

@Component
public class DrainLogClusterer {
    
    private static final int MAX_DEPTH = 4;
    private static final double SIMILARITY_THRESHOLD = 0.5;
    private static final int MAX_CHILDREN = 100;
    
    private final DrainPrefixTree prefixTree = new DrainPrefixTree(MAX_DEPTH);
    private final Map<String, LogCluster> clusters = new ConcurrentHashMap<>();
    
    /**
     * Drain算法核心：
     * 1. 按日志长度（token数量）分到不同的子树
     * 2. 在子树中按前N个token继续分支
     * 3. 在叶节点做相似度匹配，找到最相似的模板
     * 4. 如果没有足够相似的模板，创建新模板
     */
    public ClusterResult cluster(ParsedLog log) {
        List<String> tokens = tokenize(log.getMessage());
        int logLength = tokens.size();
        
        // 找到候选集群
        LogCluster matchedCluster = prefixTree.search(tokens, SIMILARITY_THRESHOLD);
        
        if (matchedCluster != null) {
            // 更新现有集群：用通配符替换不一致的token
            matchedCluster.update(tokens);
            matchedCluster.incrementCount();
            return ClusterResult.existed(matchedCluster.getId());
        } else {
            // 创建新集群
            LogCluster newCluster = LogCluster.of(tokens);
            prefixTree.add(tokens, newCluster);
            clusters.put(newCluster.getId(), newCluster);
            return ClusterResult.created(newCluster.getId());
        }
    }
    
    public List<LogCluster> getTopClusters(int n) {
        return clusters.values().stream()
            .sorted(Comparator.comparingLong(LogCluster::getCount).reversed())
            .limit(n)
            .collect(toList());
    }
    
    private List<String> tokenize(String message) {
        // 预处理：替换常见的变量部分（IP、数字、UUID等）
        String normalized = message
            .replaceAll("\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}", "<IP>")
            .replaceAll("[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}", "<UUID>")
            .replaceAll("\\b\\d+\\b", "<NUM>")
            .replaceAll("'[^']*'", "<STR>");
        
        return Arrays.asList(normalized.split("\\s+"));
    }
}

3. 异常时间窗口提取

聚类完成后，需要找出哪些集群在某个时间窗口内出现了异常增长：

@Service
public class AnomalyTimeWindowExtractor {
    
    /**
     * 滑动窗口异常检测
     * 对比当前窗口和历史基线窗口的日志分布差异
     */
    public List<AnomalousCluster> extract(
            List<LogCluster> clusters, 
            Instant analysisStart,
            Instant analysisEnd) {
        
        List<AnomalousCluster> anomalies = new ArrayList<>();
        
        for (LogCluster cluster : clusters) {
            // 当前窗口的出现频率
            double currentRate = cluster.getRateInWindow(analysisStart, analysisEnd);
            
            // 历史基线（往前取24小时，排除当前窗口）
            double baselineRate = cluster.getHistoricalBaselineRate(
                analysisStart.minus(24, ChronoUnit.HOURS),
                analysisStart
            );
            
            if (baselineRate == 0 && currentRate > 0) {
                // 新出现的错误模式，高度可疑
                anomalies.add(AnomalousCluster.newPattern(cluster, currentRate));
            } else if (baselineRate > 0) {
                double rateRatio = currentRate / baselineRate;
                if (rateRatio > 5.0) { // 频率暴增5倍
                    anomalies.add(AnomalousCluster.spiked(cluster, rateRatio, currentRate, baselineRate));
                }
            }
        }
        
        return anomalies.stream()
            .sorted(Comparator.comparingDouble(AnomalousCluster::getAnomalyScore).reversed())
            .collect(toList());
    }
}

4. LLM根因分析

经过前三步的预处理，发送给LLM的数据量已经从亿级压缩到了百级，可以高效分析：

@Service
public class LLMLogAnalyzer {
    
    private final ChatClient chatClient;
    
    public LogAnalysisReport analyze(
            List<AnomalousCluster> anomalies,
            String serviceId,
            Instant analysisStart,
            Instant analysisEnd) {
        
        String prompt = buildPrompt(anomalies, serviceId, analysisStart, analysisEnd);
        
        ChatResponse response = chatClient.call(new Prompt(
            List.of(
                new SystemMessage(SYSTEM_PROMPT),
                new UserMessage(prompt)
            ),
            OpenAiChatOptions.builder()
                .withModel("gpt-4o")
                .withTemperature(0.1f)
                .build()
        ));
        
        return parseReport(response.getResult().getOutput().getContent());
    }
    
    private String buildPrompt(
            List<AnomalousCluster> anomalies,
            String serviceId,
            Instant start,
            Instant end) {
        
        StringBuilder sb = new StringBuilder();
        sb.append(String.format("分析服务 [%s] 在 %s 到 %s 期间的日志异常。\n\n", serviceId, start, end));
        
        sb.append("## 发现的异常日志模式\n\n");
        
        for (int i = 0; i < anomalies.size(); i++) {
            AnomalousCluster anomaly = anomalies.get(i);
            sb.append(String.format("### 异常模式 %d (异常度: %.2f)\n", i + 1, anomaly.getAnomalyScore()));
            sb.append("**日志模板**: ").append(anomaly.getCluster().getTemplate()).append("\n");
            sb.append("**样本日志**: \n```\n");
            
            // 提供3条真实样本
            anomaly.getCluster().getSamples(3).forEach(sample -> 
                sb.append(sample).append("\n")
            );
            sb.append("```\n");
            
            sb.append(String.format("**当前频率**: %.1f次/分钟 (历史基线: %.1f次/分钟, 增幅: %.1fx)\n\n",
                anomaly.getCurrentRate(),
                anomaly.getBaselineRate(),
                anomaly.getRateRatio()
            ));
        }
        
        sb.append("\n请分析：\n");
        sb.append("1. 这些异常日志模式可能的根因是什么？\n");
        sb.append("2. 哪个异常模式最需要优先处理？\n");
        sb.append("3. 建议的排查步骤是什么？\n");
        
        return sb.toString();
    }
    
    private static final String SYSTEM_PROMPT = """
        你是一个经验丰富的后端工程师，专门分析生产系统的日志异常。
        
        分析时：
        - 关注异常的具体内容，不要给出泛泛的建议
        - 优先分析最频繁或最新出现的异常模式
        - 根据错误信息推断可能的代码位置和问题类型
        - 给出具体可操作的排查步骤
        
        返回JSON格式，包含：
        - summary: 整体情况摘要（2-3句话）
        - rootCauseAnalysis: 根因分析列表
        - priorityIssue: 最优先处理的问题
        - actionItems: 具体排查步骤列表
        """;
}

实际效果和踩坑记录

踩坑一：Drain算法的相似度阈值要仔细调

默认的0.5在有些日志格式下太低，会把完全不同的日志归为一类；太高又会导致每条日志都是单独一个集群，完全没有聚合效果。我们最后的实践是：对INFO级别日志用0.4（更激进地聚合），对ERROR日志用0.6（保留更多细节），这样ERROR日志的分析精度更高。

踩坑二：时间窗口的选择要和业务周期匹配

如果你的服务有明显的早晚峰，用24小时历史均值做基线会产生大量误报——早峰时的流量本来就比凌晨高10倍，不是异常。我们改成用"同比"基线：跟上周同一时段的日志分布对比，效果好很多。

踩坑三：LLM分析的结果要有反馈机制

LLM给出分析之后，工程师处置完问题，要把实际根因和处置结果回填到知识库。不然LLM永远在猜，无法从历史案例中学习。这个反馈闭环建立起来之后，分析准确率提升了将近30%。

落地建议

如果你的团队刚开始做AI日志分析，我建议从最简单的场景切入：专门针对ERROR和WARN级别日志做聚类+LLM分析，其他日志暂时忽略。

ERROR日志量通常只有总日志量的1%不到，处理起来成本低、效果直观，容易让团队看到价值。等这个场景跑通了，再逐步扩展到INFO日志的行为分析。