第2217篇：PDF文档的多模态解析——当纯文本解析不够用的时候

老张2026/4/30大约 12 分钟

第2217篇：PDF文档的多模态解析——当纯文本解析不够用的时候

适读人群：做文档智能、知识库系统的Java工程师 | 阅读时长：约17分钟 | 核心价值：掌握PDF多模态解析的完整工程方案，处理表格、图表、混合排版等复杂场景

那是一个加班到凌晨的夜晚。

客户上传了一份 200 页的审计报告，要求系统能回答里面的具体数据。我自信满满——我们已经有了 PDFBox 解析 + RAG 的完整流水线，理论上没问题。

结果客户问："第 87 页第三季度营收数据是多少？"系统回答："无法找到相关信息。"

我手动翻开 PDF 第 87 页，原来那一页是一张扫描的财务表格图片。PDFBox 提取出来的文字是空的。

然后我又翻了翻，发现这份 PDF 里大约 30% 的页面是扫描图片，还有 20% 是包含合并单元格的复杂表格，用 PDFBox 提取出来全是乱序的数字串。

这才意识到：纯文本 PDF 解析只解决了最简单的那 50%。

PDF 解析的复杂性分类

不是所有 PDF 都一样难解析。按难度分层：

工程实践中，企业级文档（合同、报告、表单）通常是 C 类和 E 类的混合体，这是最难搞的。

解析策略选择框架

在深入实现之前，先建立策略选择的判断逻辑：

/**
 * PDF解析策略路由器
 * 根据PDF特征自动选择最合适的解析策略
 */
@Service
@Slf4j
public class PdfParsingStrategyRouter {

    @Autowired
    private PdfAnalyzer pdfAnalyzer;

    @Autowired
    private TextPdfParser textPdfParser;          // 纯文本PDF快速解析

    @Autowired
    private StructuredPdfParser structuredParser; // 含表格/图表的结构化解析

    @Autowired
    private OcrPdfParser ocrPdfParser;            // 扫描版PDF的OCR解析

    @Autowired
    private MultimodalPdfParser multimodalParser; // 多模态模型辅助解析

    /**
     * 智能选择解析策略
     * 优先用轻量级策略，复杂场景升级
     */
    public PdfParseResult parse(byte[] pdfBytes, ParseConfig config) {
        // 第一步：分析PDF特征
        PdfFeatureAnalysis features = pdfAnalyzer.analyze(pdfBytes);
        log.info("PDF分析完成: pages={}, textCoverage={}%, hasScannedPages={}, " +
                        "hasComplexTables={}, hasImages={}",
                features.getTotalPages(),
                features.getTextCoveragePercent(),
                features.isHasScannedPages(),
                features.isHasComplexTables(),
                features.isHasImages());

        // 第二步：按策略路由
        if (features.getTextCoveragePercent() > 90 && !features.isHasComplexTables()) {
            // 高文字覆盖且无复杂表格：直接文本提取
            log.info("使用策略: TEXT_ONLY");
            return textPdfParser.parse(pdfBytes);
        }

        if (features.getTextCoveragePercent() < 20) {
            // 低文字覆盖：很可能是扫描版，用OCR
            log.info("使用策略: OCR_BASED");
            return ocrPdfParser.parse(pdfBytes, config.getOcrLanguages());
        }

        if (features.isHasComplexTables() || features.isHasCharts()) {
            // 含复杂表格或图表：用结构化解析器
            if (config.isUseMultimodalForTables()) {
                // 高精度要求：用多模态模型
                log.info("使用策略: MULTIMODAL_FULL");
                return multimodalParser.parse(pdfBytes, config);
            } else {
                log.info("使用策略: STRUCTURED");
                return structuredParser.parse(pdfBytes);
            }
        }

        // 混合情况：分页处理，每页独立选策略
        log.info("使用策略: HYBRID_PER_PAGE");
        return parseHybridPerPage(pdfBytes, features, config);
    }

    /**
     * 混合策略：每页独立判断
     * 对文字页用快速解析，对图片页用OCR/多模态
     */
    private PdfParseResult parseHybridPerPage(byte[] pdfBytes,
                                               PdfFeatureAnalysis features,
                                               ParseConfig config) {
        List<PageParseResult> pageResults = new ArrayList<>();

        for (int pageNum = 1; pageNum <= features.getTotalPages(); pageNum++) {
            byte[] pageImage = renderPageToImage(pdfBytes, pageNum, 200); // 200 DPI
            PageFeature pageFeature = features.getPageFeature(pageNum);

            PageParseResult pageResult;
            if (pageFeature.isScanned() || pageFeature.getTextLength() < 50) {
                // 扫描页或极少文字页：OCR
                pageResult = ocrPdfParser.parsePage(pageImage, config.getOcrLanguages());
            } else if (pageFeature.hasTable()) {
                // 含表格页：结构化解析
                pageResult = structuredParser.parsePage(pdfBytes, pageNum);
            } else {
                // 普通文字页：快速提取
                pageResult = textPdfParser.parsePage(pdfBytes, pageNum);
            }

            pageResult.setPageNumber(pageNum);
            pageResults.add(pageResult);
        }

        return PdfParseResult.fromPages(pageResults);
    }

    private byte[] renderPageToImage(byte[] pdfBytes, int pageNum, int dpi) {
        // 使用 PDFBox 将指定页渲染为图片
        try (PDDocument doc = PDDocument.load(pdfBytes)) {
            PDFRenderer renderer = new PDFRenderer(doc);
            BufferedImage image = renderer.renderImageWithDPI(pageNum - 1, dpi);
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            ImageIO.write(image, "PNG", baos);
            return baos.toByteArray();
        } catch (IOException e) {
            throw new PdfRenderException("PDF页面渲染失败: page=" + pageNum, e);
        }
    }
}

复杂表格解析：从混乱到结构化

表格是 PDF 解析最大的痛点。用 PDFBox 提取复杂表格，经常得到这种结果：

产品A  Q1  Q2  Q3  Q4
1200  1350  980  2100
产品B  1100  1280

合并单元格、跨行表头全都乱了。我们的解决方案是将表格页转为图片，用多模态模型理解表格结构：

/**
 * 基于多模态模型的表格解析器
 * 将表格区域转换为图片，让多模态模型输出结构化JSON
 */
@Service
@Slf4j
public class MultimodalTableExtractor {

    @Autowired
    private OpenAiClient openAiClient;

    private static final String TABLE_EXTRACTION_PROMPT = """
            请仔细分析这张表格图片，将表格内容完整提取为JSON格式。
            
            要求：
            1. 保持原始的行列结构，包括合并单元格
            2. 表头单独输出
            3. 数字保持原始格式，不要转换单位
            4. 如有合并单元格，在对应位置重复填入值
            5. 输出格式：
            {
              "title": "表格标题（如果有）",
              "headers": ["列头1", "列头2", ...],
              "rows": [
                ["值1", "值2", ...],
                ...
              ],
              "footnotes": ["脚注（如果有）"]
            }
            
            只输出JSON，不要任何解释文字。
            """;

    /**
     * 从PDF页面提取表格
     * 返回结构化的表格数据列表
     */
    public List<TableData> extractTablesFromPage(byte[] pageImageBytes, int pageNum) {
        // 1. 先用传统方法检测表格边界框
        List<Rectangle> tableBounds = detectTableBounds(pageImageBytes);

        if (tableBounds.isEmpty()) {
            log.debug("第{}页未检测到表格", pageNum);
            return Collections.emptyList();
        }

        List<TableData> tables = new ArrayList<>();

        for (int tableIdx = 0; tableIdx < tableBounds.size(); tableIdx++) {
            Rectangle bounds = tableBounds.get(tableIdx);

            // 2. 裁剪表格区域（加边距避免截断）
            byte[] tableImageBytes = cropImageWithPadding(pageImageBytes, bounds, 10);

            // 3. 调用多模态模型解析
            String jsonResult = callMultimodalModel(tableImageBytes);

            // 4. 解析JSON结果
            try {
                TableData tableData = parseTableJson(jsonResult);
                tableData.setPageNum(pageNum);
                tableData.setTableIndex(tableIdx);
                tables.add(tableData);
                log.info("第{}页第{}个表格解析成功: {}行{}列",
                        pageNum, tableIdx,
                        tableData.getRows().size(),
                        tableData.getHeaders().size());
            } catch (JsonProcessingException e) {
                log.warn("表格JSON解析失败，使用原始文本: page={}, table={}", pageNum, tableIdx);
                // 降级：存储原始模型输出
                tables.add(TableData.ofRawText(jsonResult, pageNum, tableIdx));
            }
        }

        return tables;
    }

    private String callMultimodalModel(byte[] tableImageBytes) {
        String base64Image = Base64.getEncoder().encodeToString(tableImageBytes);

        ChatRequest request = ChatRequest.builder()
                .model("gpt-4o")
                .messages(Arrays.asList(
                        UserMessage.ofMultipart(
                                TextPart.of(TABLE_EXTRACTION_PROMPT),
                                ImagePart.ofBase64(base64Image, "image/png")
                        )
                ))
                .maxTokens(2000)
                .temperature(0.0) // 表格提取不需要创造性
                .build();

        ChatResponse response = openAiClient.chat(request);
        return response.getContent();
    }

    /**
     * 基于投影分析的表格边界检测
     * 检测水平和垂直线条密集区域
     */
    private List<Rectangle> detectTableBounds(byte[] imageBytes) {
        try {
            BufferedImage image = ImageIO.read(new ByteArrayInputStream(imageBytes));
            int width = image.getWidth();
            int height = image.getHeight();

            // 转为灰度并二值化
            int[] horizontalProjection = new int[height];
            int[] verticalProjection = new int[width];

            for (int y = 0; y < height; y++) {
                for (int x = 0; x < width; x++) {
                    int gray = getGrayValue(image, x, y);
                    if (gray < 128) { // 深色像素（线条）
                        horizontalProjection[y]++;
                        verticalProjection[x]++;
                    }
                }
            }

            // 找水平线密集区域（表格行）
            List<int[]> tableRegions = findDenseRegions(horizontalProjection, width * 0.3);

            // 过滤太小的区域
            return tableRegions.stream()
                    .filter(region -> (region[1] - region[0]) > 50) // 高度 > 50像素
                    .map(region -> new Rectangle(0, region[0], width, region[1] - region[0]))
                    .collect(Collectors.toList());

        } catch (IOException e) {
            log.error("表格边界检测失败", e);
            return Collections.emptyList();
        }
    }

    private List<int[]> findDenseRegions(int[] projection, double threshold) {
        List<int[]> regions = new ArrayList<>();
        boolean inRegion = false;
        int start = 0;

        for (int i = 0; i < projection.length; i++) {
            if (!inRegion && projection[i] > threshold) {
                inRegion = true;
                start = i;
            } else if (inRegion && projection[i] <= threshold) {
                regions.add(new int[]{start, i});
                inRegion = false;
            }
        }
        if (inRegion) regions.add(new int[]{start, projection.length - 1});
        return regions;
    }

    private int getGrayValue(BufferedImage image, int x, int y) {
        int rgb = image.getRGB(x, y);
        int r = (rgb >> 16) & 0xFF;
        int g = (rgb >> 8) & 0xFF;
        int b = rgb & 0xFF;
        return (int) (0.299 * r + 0.587 * g + 0.114 * b);
    }

    private byte[] cropImageWithPadding(byte[] imageBytes, Rectangle bounds, int padding) {
        try {
            BufferedImage image = ImageIO.read(new ByteArrayInputStream(imageBytes));
            int x = Math.max(0, bounds.x - padding);
            int y = Math.max(0, bounds.y - padding);
            int w = Math.min(image.getWidth() - x, bounds.width + 2 * padding);
            int h = Math.min(image.getHeight() - y, bounds.height + 2 * padding);
            BufferedImage cropped = image.getSubimage(x, y, w, h);
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            ImageIO.write(cropped, "PNG", baos);
            return baos.toByteArray();
        } catch (IOException e) {
            throw new ImageProcessException("图片裁剪失败", e);
        }
    }

    private TableData parseTableJson(String jsonStr) throws JsonProcessingException {
        // 清理模型可能输出的 markdown 代码块标记
        String cleaned = jsonStr.replaceAll("```json\\s*", "").replaceAll("```\\s*", "").trim();
        ObjectMapper mapper = new ObjectMapper();
        return mapper.readValue(cleaned, TableData.class);
    }
}

图表（Chart）内容的语义提取

PDF 中的折线图、柱状图等图表，纯文本解析完全无法处理。用多模态模型提取图表数据：

/**
 * 图表内容提取器
 * 将图表图片转换为数据描述和关键数值
 */
@Service
public class ChartContentExtractor {

    @Autowired
    private OpenAiClient openAiClient;

    private static final String CHART_ANALYSIS_PROMPT = """
            请分析这张图表，提取关键信息：
            
            1. 图表类型（折线图/柱状图/饼图/散点图等）
            2. 图表标题
            3. X轴和Y轴的含义及单位
            4. 关键数据点（最高值、最低值、趋势等）
            5. 用1-3句话总结图表的核心结论
            
            输出格式：
            {
              "chartType": "图表类型",
              "title": "标题",
              "xAxis": "X轴描述",
              "yAxis": "Y轴描述",
              "keyDataPoints": [
                {"label": "数据点名称", "value": "值", "unit": "单位"}
              ],
              "trend": "趋势描述",
              "summary": "核心结论"
            }
            """;

    public ChartData extractChartContent(byte[] chartImageBytes, int pageNum) {
        String base64 = Base64.getEncoder().encodeToString(chartImageBytes);

        String result = openAiClient.chatMultimodal(CHART_ANALYSIS_PROMPT, base64, "image/png");

        try {
            String cleaned = result.replaceAll("```json\\s*", "").replaceAll("```\\s*", "").trim();
            ChartData data = new ObjectMapper().readValue(cleaned, ChartData.class);
            data.setPageNum(pageNum);

            // 生成可检索的文本表示（用于RAG）
            data.setSearchableText(buildSearchableText(data));
            return data;
        } catch (Exception e) {
            // 降级：至少保留summary
            ChartData fallback = new ChartData();
            fallback.setPageNum(pageNum);
            fallback.setSearchableText("图表内容: " + result);
            return fallback;
        }
    }

    private String buildSearchableText(ChartData data) {
        StringBuilder sb = new StringBuilder();
        if (data.getTitle() != null) sb.append("图表标题: ").append(data.getTitle()).append("\n");
        if (data.getSummary() != null) sb.append("结论: ").append(data.getSummary()).append("\n");
        if (data.getTrend() != null) sb.append("趋势: ").append(data.getTrend()).append("\n");
        if (data.getKeyDataPoints() != null) {
            sb.append("关键数据: ");
            data.getKeyDataPoints().forEach(dp ->
                    sb.append(dp.getLabel()).append("=").append(dp.getValue())
                            .append(dp.getUnit() != null ? dp.getUnit() : "").append(" "));
        }
        return sb.toString();
    }
}

解析结果的结构化存储与检索

解析完的内容需要以利于检索的方式存储：

/**
 * PDF解析结果的分块存储
 * 按内容类型分块，为RAG系统提供结构化输入
 */
@Service
@Slf4j
public class PdfChunkingService {

    @Autowired
    private EmbeddingService embeddingService;

    @Autowired
    private VectorStoreService vectorStore;

    /**
     * 将解析结果分块并存入向量数据库
     * 文字块、表格块、图表块分开处理，各有最优分块策略
     */
    public void indexPdfContent(PdfParseResult parseResult, String documentId) {
        List<DocumentChunk> chunks = new ArrayList<>();
        int chunkIndex = 0;

        for (PageParseResult page : parseResult.getPages()) {
            int pageNum = page.getPageNumber();

            // 1. 文字内容分块（按段落或固定大小）
            List<String> textChunks = splitTextIntoChunks(page.getTextContent(), 500, 50);
            for (String textContent : textChunks) {
                chunks.add(DocumentChunk.builder()
                        .chunkId(documentId + "_p" + pageNum + "_t" + chunkIndex++)
                        .documentId(documentId)
                        .pageNum(pageNum)
                        .contentType(ContentType.TEXT)
                        .content(textContent)
                        .metadata(Map.of("page", pageNum, "type", "text"))
                        .build());
            }

            // 2. 表格内容（整张表格作为一个chunk，加前缀说明来源）
            for (TableData table : page.getTables()) {
                String tableText = buildTableSearchText(table);
                chunks.add(DocumentChunk.builder()
                        .chunkId(documentId + "_p" + pageNum + "_table" + table.getTableIndex())
                        .documentId(documentId)
                        .pageNum(pageNum)
                        .contentType(ContentType.TABLE)
                        .content(tableText)
                        .rawData(table)  // 同时保存原始结构化数据
                        .metadata(Map.of("page", pageNum, "type", "table",
                                "tableIndex", table.getTableIndex()))
                        .build());
            }

            // 3. 图表内容（使用语义描述文本）
            for (ChartData chart : page.getCharts()) {
                chunks.add(DocumentChunk.builder()
                        .chunkId(documentId + "_p" + pageNum + "_chart" + chunkIndex++)
                        .documentId(documentId)
                        .pageNum(pageNum)
                        .contentType(ContentType.CHART)
                        .content(chart.getSearchableText())
                        .rawData(chart)
                        .metadata(Map.of("page", pageNum, "type", "chart"))
                        .build());
            }
        }

        // 批量计算 Embedding 并存储
        log.info("开始索引PDF内容: documentId={}, totalChunks={}", documentId, chunks.size());
        List<List<DocumentChunk>> batches = partitionList(chunks, 20); // 每批20个

        for (List<DocumentChunk> batch : batches) {
            List<String> texts = batch.stream()
                    .map(DocumentChunk::getContent)
                    .collect(Collectors.toList());

            List<float[]> embeddings = embeddingService.batchEmbed(texts);

            for (int i = 0; i < batch.size(); i++) {
                batch.get(i).setEmbedding(embeddings.get(i));
            }

            vectorStore.upsertBatch(batch);
        }

        log.info("PDF内容索引完成: documentId={}", documentId);
    }

    private String buildTableSearchText(TableData table) {
        StringBuilder sb = new StringBuilder();
        if (table.getTitle() != null) {
            sb.append("表格: ").append(table.getTitle()).append("\n");
        }

        // 表头
        if (table.getHeaders() != null && !table.getHeaders().isEmpty()) {
            sb.append("列: ").append(String.join(" | ", table.getHeaders())).append("\n");
        }

        // 数据行（最多输出前10行避免太长）
        if (table.getRows() != null) {
            List<List<String>> rows = table.getRows();
            int maxRows = Math.min(rows.size(), 10);
            for (int i = 0; i < maxRows; i++) {
                sb.append(String.join(" | ", rows.get(i))).append("\n");
            }
            if (rows.size() > 10) {
                sb.append("...（共").append(rows.size()).append("行）\n");
            }
        }

        return sb.toString();
    }

    private List<String> splitTextIntoChunks(String text, int maxChunkSize, int overlap) {
        if (text == null || text.isEmpty()) return Collections.emptyList();

        List<String> chunks = new ArrayList<>();
        // 按段落优先分割
        String[] paragraphs = text.split("\n\n+");
        StringBuilder currentChunk = new StringBuilder();

        for (String paragraph : paragraphs) {
            if (currentChunk.length() + paragraph.length() > maxChunkSize && currentChunk.length() > 0) {
                chunks.add(currentChunk.toString().trim());
                // 保留最后overlap个字符作为重叠
                int overlapStart = Math.max(0, currentChunk.length() - overlap);
                currentChunk = new StringBuilder(currentChunk.substring(overlapStart));
            }
            currentChunk.append(paragraph).append("\n\n");
        }

        if (currentChunk.length() > 0) {
            chunks.add(currentChunk.toString().trim());
        }

        return chunks;
    }

    private <T> List<List<T>> partitionList(List<T> list, int batchSize) {
        List<List<T>> batches = new ArrayList<>();
        for (int i = 0; i < list.size(); i += batchSize) {
            batches.add(list.subList(i, Math.min(i + batchSize, list.size())));
        }
        return batches;
    }
}

性能优化：并行处理大文件

200页的PDF用串行处理太慢，需要并行化：

/**
 * 并行PDF解析管理器
 * 对大文件进行分批并行处理，控制API并发限制
 */
@Service
@Slf4j
public class ParallelPdfProcessor {

    @Autowired
    private MultimodalTableExtractor tableExtractor;

    @Autowired
    private ChartContentExtractor chartExtractor;

    // 控制并发：多模态API通常有RPM限制
    private final Semaphore apiSemaphore = new Semaphore(5); // 最多5个并发API调用

    private final ExecutorService executor = Executors.newFixedThreadPool(8);

    /**
     * 并行处理PDF各页
     */
    public PdfParseResult processParallel(byte[] pdfBytes, ParseConfig config) throws Exception {
        int totalPages = getPdfPageCount(pdfBytes);
        log.info("开始并行处理PDF: totalPages={}", totalPages);

        List<CompletableFuture<PageParseResult>> futures = new ArrayList<>();

        for (int pageNum = 1; pageNum <= totalPages; pageNum++) {
            final int page = pageNum;
            CompletableFuture<PageParseResult> future = CompletableFuture.supplyAsync(() -> {
                try {
                    return processOnePage(pdfBytes, page, config);
                } catch (Exception e) {
                    log.error("第{}页处理失败", page, e);
                    return PageParseResult.error(page, e.getMessage());
                }
            }, executor);

            futures.add(future);
        }

        // 等待所有页面完成，按页码排序
        List<PageParseResult> results = new ArrayList<>();
        for (CompletableFuture<PageParseResult> future : futures) {
            results.add(future.get(60, TimeUnit.SECONDS));
        }

        results.sort(Comparator.comparingInt(PageParseResult::getPageNumber));
        return PdfParseResult.fromPages(results);
    }

    private PageParseResult processOnePage(byte[] pdfBytes, int pageNum,
                                            ParseConfig config) throws Exception {
        apiSemaphore.acquire(); // 限速控制
        try {
            long start = System.currentTimeMillis();

            // 渲染为图片
            byte[] pageImage = renderPage(pdfBytes, pageNum, config.getRenderDpi());

            PageParseResult result = new PageParseResult(pageNum);

            // 并行提取：表格和图表可以同时处理
            CompletableFuture<List<TableData>> tablesFuture = CompletableFuture.supplyAsync(
                    () -> tableExtractor.extractTablesFromPage(pageImage, pageNum));

            CompletableFuture<List<ChartData>> chartsFuture = CompletableFuture.supplyAsync(
                    () -> chartExtractor.extractChartsFromPage(pageImage, pageNum));

            // 文本提取（同步，不消耗API配额）
            String textContent = extractTextFromPage(pdfBytes, pageNum);
            result.setTextContent(textContent);

            result.setTables(tablesFuture.get(30, TimeUnit.SECONDS));
            result.setCharts(chartsFuture.get(30, TimeUnit.SECONDS));

            long elapsed = System.currentTimeMillis() - start;
            log.debug("第{}页处理完成，耗时{}ms", pageNum, elapsed);

            return result;
        } finally {
            apiSemaphore.release();
        }
    }

    private int getPdfPageCount(byte[] pdfBytes) throws IOException {
        try (PDDocument doc = PDDocument.load(pdfBytes)) {
            return doc.getNumberOfPages();
        }
    }

    private byte[] renderPage(byte[] pdfBytes, int pageNum, int dpi) throws IOException {
        try (PDDocument doc = PDDocument.load(pdfBytes)) {
            PDFRenderer renderer = new PDFRenderer(doc);
            BufferedImage image = renderer.renderImageWithDPI(pageNum - 1, dpi);
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            ImageIO.write(image, "PNG", baos);
            return baos.toByteArray();
        }
    }

    private String extractTextFromPage(byte[] pdfBytes, int pageNum) throws IOException {
        try (PDDocument doc = PDDocument.load(pdfBytes)) {
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setStartPage(pageNum);
            stripper.setEndPage(pageNum);
            return stripper.getText(doc);
        }
    }
}

实践总结

处理复杂 PDF 的几条经验：

1. 不要信任单一解析器。 PDFBox 对原生文字 PDF 很好，但对扫描版和复杂表格力不从心。建立分层路由机制，用正确的工具处理正确的场景。

2. 多模态模型解析表格比传统方法精度高得多，但要控制成本。 不是每个表格都需要多模态解析，先用传统方法试，复杂情况才上多模态。

3. 渲染 DPI 影响 OCR/多模态识别精度。 150 DPI 往往不够，200-300 DPI 识别精度更好，但文件更大。在精度和存储成本之间做权衡。

4. 解析失败要有降级策略。 宁可返回"该页面解析失败"，也不要返回乱码文字混入知识库，污染 RAG 结果。

5. 保留原始页面图片。 无论用什么解析策略，原始页面图片都值得存储，因为后续可能需要重新解析或人工核验。