第2197篇：图表理解与数据提取——让AI读懂折线图和柱状图

老张2026/4/30大约 7 分钟

第2197篇：图表理解与数据提取——让AI读懂折线图和柱状图

适读人群：需要从图表图片中提取数值数据的Java工程师 | 阅读时长：约14分钟 | 核心价值：从图表图片反向提取数值的工程实现，解决图表数据无法直接复用的问题

有一次做竞品分析，需要从竞争对手的年报PDF里提取一些折线图的数据，然后和自己的数据对比。

PDF里的图表是图片格式，没有底层数据，复制不出来。手动看图读值费时还不准，关键是图上有几十个时间点，用尺子量像素的方式太低效。

我当时随手试了一下把图表截图发给GPT-4V，让它说出图里每个点的值。结果出乎意料地好。不是完美，但误差在可接受范围内（柱状图的整数值基本准确，折线图的连续值有少量误差）。

这件事让我开始系统研究图表理解的工程实现。

一、图表理解的难点在哪里

图表理解和普通图片理解最大的区别是：需要精确的数值，不是模糊的描述。

"增长趋势明显"这种描述对分析没用，要的是"2024Q1是4.2万，2024Q2是5.8万，环比增长38%"这样的具体数值。

VLM在这方面的能力是不均匀的：

柱状图：识别相对准确，因为每个柱子高度可以对应坐标轴刻度
折线图：连续曲线的具体值较难精确，但趋势和相对关系识别好
饼图：百分比识别一般，因为扇形角度难以精确判断
散点图：每个点的精确坐标识别较差
组合图表（柱线混合）：需要分别处理两个Y轴

理解这些特性后，我们可以针对不同图表类型用不同策略。

二、基础图表识别实现

@Service
public class ChartDataExtractor {
    
    private final VisionService visionService;
    private final ObjectMapper objectMapper;
    
    // 针对不同图表类型的专用Prompt
    private static final Map<ChartType, String> CHART_PROMPTS = new HashMap<>();
    
    static {
        CHART_PROMPTS.put(ChartType.BAR_CHART, """
            这是一张柱状图。请精确读取图表数据。
            
            步骤：
            1. 首先读取Y轴的刻度值（确定最小值、最大值、刻度间隔）
            2. 对每个柱子，根据其高度和Y轴刻度推算精确值
            3. 读取X轴标签
            
            返回JSON格式：
            {
              "chartTitle": "图表标题",
              "xAxisLabel": "X轴标签",
              "yAxisLabel": "Y轴标签",
              "yAxisUnit": "单位（如万元、%、个等）",
              "series": [
                {
                  "name": "系列名称（如果有图例）",
                  "data": [
                    {"x": "X轴值", "y": 数值},
                    ...
                  ]
                }
              ]
            }
            只返回JSON，不要有任何解释。
            """);
        
        CHART_PROMPTS.put(ChartType.LINE_CHART, """
            这是一张折线图。请读取所有数据点的值。
            
            注意：
            1. 仔细读取Y轴刻度，确定数值范围和精度
            2. 对于折线上的每个标记点，读取精确值
            3. 如果折线没有标记点，在主要转折处读值
            4. 多条折线要分别读取
            
            返回格式同柱状图，只返回JSON。
            """);
        
        CHART_PROMPTS.put(ChartType.PIE_CHART, """
            这是一张饼图/环形图。请读取每个扇区的值。
            
            注意：图上通常标注了百分比或具体数值，优先读取标注值而非估算角度。
            
            返回JSON格式：
            {
              "chartTitle": "图表标题",
              "total": 总计值（如果有标注）,
              "unit": "单位",
              "segments": [
                {"label": "标签", "value": 数值, "percentage": 百分比数值}
              ]
            }
            只返回JSON。
            """);
    }
    
    public ChartData extractChartData(byte[] chartImageBytes, ChartType chartType) {
        // 如果类型未知，先让VLM识别图表类型
        if (chartType == ChartType.UNKNOWN) {
            chartType = detectChartType(chartImageBytes);
        }
        
        String prompt = CHART_PROMPTS.getOrDefault(chartType, CHART_PROMPTS.get(ChartType.BAR_CHART));
        
        VisionRequest request = VisionRequest.builder()
            .images(List.of(ImageInput.fromBytes(chartImageBytes, "image/jpeg")))
            .prompt(prompt)
            // 图表理解需要高清模式
            .metadata(Map.of("detail", "high"))
            .build();
        
        String response = visionService.analyzeImage(request).getContent();
        
        return parseChartResponse(response, chartType);
    }
    
    private ChartType detectChartType(byte[] imageBytes) {
        VisionRequest request = VisionRequest.builder()
            .images(List.of(ImageInput.fromBytes(imageBytes, "image/jpeg")))
            .prompt("""
                这张图表是什么类型？
                只能从以下选项中选一个：BAR_CHART, LINE_CHART, PIE_CHART, SCATTER_PLOT, 
                AREA_CHART, COMBO_CHART, TABLE_CHART, OTHER
                只返回类型名称，不要有其他内容。
                """)
            .build();
        
        String typeStr = visionService.analyzeImage(request).getContent().trim();
        
        try {
            return ChartType.valueOf(typeStr);
        } catch (IllegalArgumentException e) {
            return ChartType.OTHER;
        }
    }
    
    private ChartData parseChartResponse(String response, ChartType chartType) {
        String cleanJson = response.replaceAll("```json\\s*", "")
            .replaceAll("```\\s*", "").trim();
        
        try {
            JsonNode root = objectMapper.readTree(cleanJson);
            return new ChartData(chartType, root, cleanJson);
        } catch (JsonProcessingException e) {
            throw new ChartExtractionException("图表数据JSON解析失败: " + cleanJson, e);
        }
    }
    
    public enum ChartType {
        BAR_CHART, LINE_CHART, PIE_CHART, SCATTER_PLOT, 
        AREA_CHART, COMBO_CHART, TABLE_CHART, UNKNOWN, OTHER
    }
    
    public record ChartData(ChartType type, JsonNode rawData, String rawJson) {
        // 将数据转为列表形式便于处理
        public List<Map<String, Object>> toFlatList() {
            List<Map<String, Object>> result = new ArrayList<>();
            if (rawData.has("series")) {
                rawData.get("series").forEach(series -> {
                    String seriesName = series.has("name") ? series.get("name").asText() : "默认";
                    series.get("data").forEach(point -> {
                        Map<String, Object> row = new LinkedHashMap<>();
                        row.put("series", seriesName);
                        point.fields().forEachRemaining(entry -> 
                            row.put(entry.getKey(), entry.getValue().isNumber() 
                                ? entry.getValue().numberValue() 
                                : entry.getValue().asText()));
                        result.add(row);
                    });
                });
            }
            return result;
        }
    }
}

三、提高精度的工程技巧

VLM读图表值有时不准，有几个工程技巧可以提高精度：

技巧1：坐标轴辅助线增强

在把图表喂给VLM之前，用OpenCV在图表图片上叠加坐标参考线，帮助模型更准确地读值：

@Component
public class ChartImageEnhancer {
    
    /**
     * 在图表图片上叠加参考网格，帮助VLM更准确读取数值
     */
    public Mat addReferenceGrid(Mat chartImage) {
        Mat enhanced = chartImage.clone();
        int width = chartImage.cols();
        int height = chartImage.rows();
        
        // 添加浅色水平参考线（每隔10%高度一条）
        Scalar gridColor = new Scalar(200, 200, 200); // 浅灰色
        for (int i = 1; i < 10; i++) {
            int y = (int) (height * i / 10.0);
            Imgproc.line(enhanced, new Point(0, y), new Point(width, y), 
                gridColor, 1, Imgproc.LINE_AA);
        }
        
        // 添加浅色垂直参考线
        for (int i = 1; i < 10; i++) {
            int x = (int) (width * i / 10.0);
            Imgproc.line(enhanced, new Point(x, 0), new Point(x, height),
                gridColor, 1, Imgproc.LINE_AA);
        }
        
        return enhanced;
    }
}

技巧2：两次验证策略

对关键数值，调用两次并交叉验证：

public ChartData extractWithVerification(byte[] imageBytes, ChartType chartType) {
    // 第一次提取
    ChartData result1 = extractChartData(imageBytes, chartType);
    
    // 第二次提取（用不同的提示角度）
    String verificationPrompt = """
        请再次验证这张图表的数据。
        我得到的数据是：%s
        请确认是否正确，如有错误请给出正确值。
        输出格式：{"confirmed": true/false, "corrections": {...}}
        """.formatted(result1.rawJson());
    
    VisionRequest verifyRequest = VisionRequest.builder()
        .images(List.of(ImageInput.fromBytes(imageBytes, "image/jpeg")))
        .prompt(verificationPrompt)
        .build();
    
    String verifyResponse = visionService.analyzeImage(verifyRequest).getContent();
    
    // 如果有修正，应用修正
    return applyCorrections(result1, verifyResponse);
}

技巧3：局部放大识别

对于坐标轴刻度文字较小的图表，截取坐标轴区域单独识别：

public AxisInfo extractAxisInfo(byte[] chartImageBytes) {
    // 截取Y轴区域（左侧约15%宽度）
    Mat fullImage = // 从bytes加载...
    int yAxisWidth = (int) (fullImage.cols() * 0.15);
    Rect yAxisRegion = new Rect(0, 0, yAxisWidth, fullImage.rows());
    Mat yAxisImage = new Mat(fullImage, yAxisRegion);
    
    // 放大Y轴区域（提高小字体的识别率）
    Mat enlarged = new Mat();
    Imgproc.resize(yAxisImage, enlarged, new Size(yAxisImage.cols() * 3, yAxisImage.rows() * 3),
        0, 0, Imgproc.INTER_CUBIC);
    
    // 对放大后的Y轴单独识别
    byte[] enlargedBytes = matToBytes(enlarged);
    
    VisionRequest request = VisionRequest.builder()
        .images(List.of(ImageInput.fromBytes(enlargedBytes, "image/jpeg")))
        .prompt("这是一个图表的Y轴区域，请读取所有刻度值，从下到上列出。返回JSON数组，如：[0, 50, 100, 150, 200]")
        .build();
    
    String response = visionService.analyzeImage(request).getContent();
    // 解析刻度值...
    return parseAxisValues(response);
}

四、图表数据的后处理与导出

提取出来的数据，需要做合理性验证再导出：

@Service
public class ChartDataProcessor {
    
    /**
     * 将图表数据导出为CSV
     */
    public String exportToCSV(ChartData chartData) {
        List<Map<String, Object>> flatData = chartData.toFlatList();
        if (flatData.isEmpty()) return "";
        
        StringBuilder csv = new StringBuilder();
        // 表头
        csv.append(String.join(",", flatData.get(0).keySet())).append("\n");
        // 数据行
        for (Map<String, Object> row : flatData) {
            csv.append(row.values().stream()
                .map(v -> v == null ? "" : v.toString())
                .collect(Collectors.joining(","))
            ).append("\n");
        }
        return csv.toString();
    }
    
    /**
     * 将图表数据重新用ECharts格式输出（用于前端可视化复原）
     */
    public String exportToEChartsConfig(ChartData chartData) {
        List<Map<String, Object>> flatData = chartData.toFlatList();
        // 构建ECharts配置JSON...
        // 这样提取的数据可以直接驱动前端图表渲染
        return "{}"; // 省略具体实现
    }
    
    /**
     * 数值合理性检查（基于统计特征）
     */
    public List<String> validateChartData(List<Map<String, Object>> data, String valueKey) {
        List<String> warnings = new ArrayList<>();
        
        List<Double> values = data.stream()
            .map(row -> row.get(valueKey))
            .filter(v -> v instanceof Number)
            .map(v -> ((Number) v).doubleValue())
            .collect(Collectors.toList());
        
        if (values.isEmpty()) return warnings;
        
        // 检查异常值（超过均值3个标准差的值）
        double mean = values.stream().mapToDouble(Double::doubleValue).average().orElse(0);
        double stdDev = Math.sqrt(values.stream()
            .mapToDouble(v -> Math.pow(v - mean, 2))
            .average().orElse(0));
        
        for (int i = 0; i < data.size(); i++) {
            Object val = data.get(i).get(valueKey);
            if (val instanceof Number) {
                double v = ((Number) val).doubleValue();
                if (Math.abs(v - mean) > 3 * stdDev) {
                    warnings.add(String.format("第%d行可能存在识别误差: %s=%s (均值=%.2f, 标准差=%.2f)",
                        i + 1, valueKey, val, mean, stdDev));
                }
            }
        }
        
        return warnings;
    }
}

五、精度评估与实际效果

在我们实际项目中，对不同图表类型的提取精度（相对误差在5%以内的比例）：

图表类型	整数值准确率	浮点值（2位小数）准确率	使用建议
简单柱状图	92%	78%	可直接使用
堆叠柱状图	85%	65%	建议人工复核
折线图（有标记点）	88%	70%	可直接使用
折线图（无标记点）	70%	55%	需要人工复核
饼图（有标注）	95%	90%	优先读标注值

对于精度要求高的场景，建议结合"人工智能+人工复核"：AI提取后，人工对超出合理范围的值进行核对。这样可以把人工工作量降低到20%以下，同时保证最终数据准确率。