企业知识库搭建：文档解析、增量更新、权限过滤的完整方案

老张大约 10 分钟

企业知识库搭建：文档解析、增量更新、权限过滤的完整方案

适读人群：Java后端工程师、企业信息化架构师 | 阅读时长：约22分钟 | 依赖：Spring AI 1.0、Apache Tika、Spring Security

开篇故事

给一家集团公司做内部知识库，这是我目前做过的规模最大的RAG项目：文档总量超过50万份，涵盖PDF合同、Word制度文件、Excel数据报表、PPT培训资料，还有存在各种内部系统里的网页内容。更复杂的是权限问题——财务文件只有财务部门能看，HR文件只有HR和高管能搜，机密合同只有合同归属业务部门的人可以访问。

把这50万份文档索引进向量库，只是第一步，而且不是最难的那步。真正难的是：如何处理文档的增量更新（每天都有新文档，有文档被修订）？如何在检索时精确过滤权限（不能让员工看到权限外的内容，哪怕是在检索摘要里）？如何处理各种格式的文档（有些老文档是扫描件PDF，只有图片没有文字）？

花了将近4个月把这个系统做稳定，今天把完整方案整理出来。

一、核心问题分析

企业知识库和个人知识库的本质差异：

文档多样性：PDF、Word、Excel、PPT、Markdown、HTML、扫描件……每种格式需要不同的解析策略。

权限管理：知识库必须对接企业的RBAC权限体系，检索结果要按用户权限过滤，而不是检索后再人工过滤（否则用户可能在"正在检索"的提示中看到权限外的文档名）。

增量更新：知识库不是"建完就不动"，文档每天在更新、新增、删除。如何高效做增量索引而不是每次全量重建？

文档溯源：用户需要知道答案来自哪份文档的哪一页，以便核实原文，这要求每个chunk都要存储完整的来源元数据。

二、原理深度解析

2.1 企业知识库完整架构

2.2 增量更新策略

全量重建太慢（50万文档需要几十小时），增量更新是必须的。增量策略基于内容哈希：

文档入库时，存储内容MD5哈希
文档变更时，对比新旧MD5，只有变化的才重新处理
删除文档时，按文档ID批量删除所有关联chunk
修改文档时，先删除旧chunk，再插入新chunk

三、完整代码实现

3.1 多格式文档解析器

@Service
public class UniversalDocumentParser {

    private static final Logger log = LoggerFactory.getLogger(UniversalDocumentParser.class);

    private final OcrService ocrService;

    public UniversalDocumentParser(OcrService ocrService) {
        this.ocrService = ocrService;
    }

    /**
     * 解析任意格式文档，返回文本内容和元数据
     */
    public ParseResult parse(byte[] fileBytes, String filename) {
        String extension = getExtension(filename).toLowerCase();
        return switch (extension) {
            case "pdf" -> parsePdf(fileBytes, filename);
            case "docx", "doc" -> parseWord(fileBytes, filename);
            case "xlsx", "xls" -> parseExcel(fileBytes, filename);
            case "pptx", "ppt" -> parsePowerPoint(fileBytes, filename);
            case "txt", "md" -> parsePlainText(fileBytes, filename);
            case "html", "htm" -> parseHtml(fileBytes, filename);
            default -> parseWithTika(fileBytes, filename); // 兜底：Apache Tika
        };
    }

    private ParseResult parsePdf(byte[] fileBytes, String filename) {
        try (PDDocument document = PDDocument.load(fileBytes)) {
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 判断是否为扫描件（文字内容极少时认为是扫描件）
            if (text.trim().length() < document.getNumberOfPages() * 50) {
                log.info("检测到扫描PDF，启用OCR：{}", filename);
                text = ocrService.extractText(fileBytes);
            }

            // 按页分段，保留页码信息
            List<PageContent> pages = new ArrayList<>();
            for (int pageNum = 1; pageNum <= document.getNumberOfPages(); pageNum++) {
                stripper.setStartPage(pageNum);
                stripper.setEndPage(pageNum);
                String pageText = stripper.getText(document).trim();
                if (!pageText.isEmpty()) {
                    pages.add(new PageContent(pageNum, pageText));
                }
            }

            return new ParseResult(text, pages,
                    Map.of("total_pages", document.getNumberOfPages(),
                           "format", "pdf"));
        } catch (IOException e) {
            log.error("PDF解析失败: {}", filename, e);
            return ParseResult.empty(filename);
        }
    }

    private ParseResult parseWord(byte[] fileBytes, String filename) {
        try (XWPFDocument doc = new XWPFDocument(new ByteArrayInputStream(fileBytes))) {
            StringBuilder text = new StringBuilder();
            List<PageContent> sections = new ArrayList<>();
            int sectionIndex = 0;

            for (XWPFParagraph para : doc.getParagraphs()) {
                String paraText = para.getText().trim();
                if (paraText.isEmpty()) continue;

                text.append(paraText).append("\n");

                // 把一级标题作为section分割点
                if (para.getStyleID() != null &&
                        para.getStyleID().startsWith("Heading1")) {
                    sections.add(new PageContent(++sectionIndex, paraText));
                }
            }

            return new ParseResult(text.toString(), sections,
                    Map.of("format", "docx"));
        } catch (Exception e) {
            log.error("Word解析失败: {}", filename, e);
            return parseWithTika(fileBytes, filename);
        }
    }

    private ParseResult parseExcel(byte[] fileBytes, String filename) {
        try (Workbook workbook = WorkbookFactory.create(
                new ByteArrayInputStream(fileBytes))) {
            StringBuilder text = new StringBuilder();

            for (int i = 0; i < workbook.getNumberOfSheets(); i++) {
                Sheet sheet = workbook.getSheetAt(i);
                text.append("## Sheet: ").append(sheet.getSheetName()).append("\n");

                for (Row row : sheet) {
                    StringBuilder rowText = new StringBuilder();
                    for (Cell cell : row) {
                        String cellValue = getCellStringValue(cell);
                        if (!cellValue.isEmpty()) {
                            rowText.append(cellValue).append(" | ");
                        }
                    }
                    if (rowText.length() > 0) {
                        text.append(rowText).append("\n");
                    }
                }
                text.append("\n");
            }

            return new ParseResult(text.toString(), List.of(),
                    Map.of("sheets", workbook.getNumberOfSheets(), "format", "xlsx"));
        } catch (Exception e) {
            log.error("Excel解析失败: {}", filename, e);
            return ParseResult.empty(filename);
        }
    }

    private ParseResult parseWithTika(byte[] fileBytes, String filename) {
        try {
            AutoDetectParser tikaParser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler(-1); // -1表示无长度限制
            Metadata metadata = new Metadata();
            metadata.set(TikaCoreProperties.RESOURCE_NAME_KEY, filename);

            tikaParser.parse(new ByteArrayInputStream(fileBytes),
                    handler, metadata, new ParseContext());

            Map<String, Object> meta = new HashMap<>();
            for (String name : metadata.names()) {
                meta.put(name, metadata.get(name));
            }

            return new ParseResult(handler.toString(), List.of(), meta);
        } catch (Exception e) {
            log.error("Tika解析失败: {}", filename, e);
            return ParseResult.empty(filename);
        }
    }

    private String getCellStringValue(Cell cell) {
        if (cell == null) return "";
        return switch (cell.getCellType()) {
            case STRING -> cell.getStringCellValue().trim();
            case NUMERIC -> DateUtil.isCellDateFormatted(cell) ?
                    cell.getDateCellValue().toString() :
                    String.valueOf((long) cell.getNumericCellValue());
            case BOOLEAN -> String.valueOf(cell.getBooleanCellValue());
            case FORMULA -> cell.getCellFormula();
            default -> "";
        };
    }

    private String getExtension(String filename) {
        int dotIdx = filename.lastIndexOf('.');
        return dotIdx >= 0 ? filename.substring(dotIdx + 1) : "";
    }
}

3.2 增量更新管理器

@Service
public class IncrementalIndexManager {

    private static final Logger log = LoggerFactory.getLogger(IncrementalIndexManager.class);

    private final DocumentHashRepository hashRepository;
    private final VectorStore vectorStore;
    private final UniversalDocumentParser parser;
    private final SmartDocumentChunker chunker;
    private final EmbeddingModel embeddingModel;

    public IncrementalIndexManager(DocumentHashRepository hashRepository,
                                    VectorStore vectorStore,
                                    UniversalDocumentParser parser,
                                    SmartDocumentChunker chunker,
                                    EmbeddingModel embeddingModel) {
        this.hashRepository = hashRepository;
        this.vectorStore = vectorStore;
        this.parser = parser;
        this.chunker = chunker;
        this.embeddingModel = embeddingModel;
    }

    /**
     * 增量索引文档（只处理变更的）
     */
    public IndexResult indexDocument(DocumentRecord doc) {
        // 1. 计算内容哈希
        String contentHash = computeMd5(doc.getContent());

        // 2. 检查是否已存在且未变更
        Optional<DocumentHashRecord> existing =
                hashRepository.findByDocumentId(doc.getId());
        if (existing.isPresent() &&
                existing.get().getContentHash().equals(contentHash)) {
            log.debug("文档未变更，跳过：{}", doc.getId());
            return IndexResult.SKIPPED;
        }

        // 3. 如果存在旧版本，删除旧chunk
        if (existing.isPresent()) {
            deleteDocumentChunks(doc.getId());
            log.info("删除旧版本chunk：{}", doc.getId());
        }

        // 4. 解析文档
        ParseResult parseResult = parser.parse(doc.getContent(), doc.getFilename());

        // 5. 分块
        List<String> chunks = chunker.recursiveChunk(parseResult.getText());

        // 6. 构建Document列表（附带权限和来源元数据）
        List<Document> documents = new ArrayList<>();
        for (int i = 0; i < chunks.size(); i++) {
            Map<String, Object> metadata = new HashMap<>();
            metadata.put("document_id", doc.getId());
            metadata.put("filename", doc.getFilename());
            metadata.put("chunk_index", i);
            metadata.put("total_chunks", chunks.size());
            metadata.put("source_type", doc.getSourceType());
            metadata.put("department", doc.getDepartment());
            // 权限标签：用于检索时过滤
            metadata.put("permission_groups",
                    String.join(",", doc.getPermissionGroups()));
            metadata.put("content_hash", contentHash);
            metadata.put("indexed_at", System.currentTimeMillis());

            documents.add(new Document(chunks.get(i), metadata));
        }

        // 7. 入库
        vectorStore.add(documents);

        // 8. 更新哈希记录
        DocumentHashRecord hashRecord = existing
                .orElse(new DocumentHashRecord(doc.getId()));
        hashRecord.setContentHash(contentHash);
        hashRecord.setLastIndexedAt(LocalDateTime.now());
        hashRecord.setChunkCount(chunks.size());
        hashRepository.save(hashRecord);

        log.info("文档索引完成：{}，共{}个chunk", doc.getId(), chunks.size());
        return IndexResult.INDEXED;
    }

    /**
     * 删除文档（从向量库中删除所有关联chunk）
     */
    public void deleteDocument(String documentId) {
        deleteDocumentChunks(documentId);
        hashRepository.deleteByDocumentId(documentId);
        log.info("文档已从知识库删除：{}", documentId);
    }

    private void deleteDocumentChunks(String documentId) {
        // 使用pgvector的元数据过滤删除
        vectorStore.delete(Filter.expression("document_id == '" + documentId + "'"));
    }

    private String computeMd5(byte[] content) {
        try {
            MessageDigest md = MessageDigest.getInstance("MD5");
            byte[] hash = md.digest(content);
            StringBuilder sb = new StringBuilder();
            for (byte b : hash) {
                sb.append(String.format("%02x", b));
            }
            return sb.toString();
        } catch (NoSuchAlgorithmException e) {
            throw new RuntimeException(e);
        }
    }
}

3.3 权限感知检索服务

@Service
public class PermissionAwareSearchService {

    private final VectorStore vectorStore;
    private final UserPermissionService permissionService;
    private final RerankService rerankService;
    private final ChatClient chatClient;

    public PermissionAwareSearchService(VectorStore vectorStore,
                                         UserPermissionService permissionService,
                                         RerankService rerankService,
                                         ChatClient.Builder builder) {
        this.vectorStore = vectorStore;
        this.permissionService = permissionService;
        this.rerankService = rerankService;
        this.chatClient = builder.build();
    }

    /**
     * 权限感知的RAG问答
     * 关键：先过滤权限，再检索，绝不在用户可见区域暴露权限外内容
     */
    public SearchResult searchAndAnswer(String userId, String query) {
        // 1. 获取用户的权限组列表
        Set<String> userGroups = permissionService.getUserGroups(userId);
        if (userGroups.isEmpty()) {
            return SearchResult.noPermission("用户没有访问知识库的权限");
        }

        // 2. 构建权限过滤表达式
        // 只返回用户所在权限组能访问的chunk
        String filterExpression = buildPermissionFilter(userGroups);

        // 3. 带权限过滤的向量检索
        SearchRequest request = SearchRequest.builder()
                .query(query)
                .topK(20)
                .similarityThreshold(0.5)
                .filterExpression(filterExpression)
                .build();

        List<Document> candidates = vectorStore.similaritySearch(request);

        if (candidates.isEmpty()) {
            return SearchResult.empty("知识库中未找到相关内容");
        }

        // 4. 重排序
        List<Document> topDocs = rerankService.rerank(query, candidates, 5);

        // 5. 构建答案，并附带来源引用
        String answer = generateAnswerWithSources(query, topDocs);

        // 6. 构建来源引用列表（用于前端展示"查看原文"链接）
        List<SourceReference> sources = topDocs.stream()
                .map(doc -> new SourceReference(
                        (String) doc.getMetadata().get("filename"),
                        (String) doc.getMetadata().get("document_id"),
                        ((Number) doc.getMetadata().getOrDefault("chunk_index", 0))
                                .intValue()
                ))
                .distinct()
                .collect(Collectors.toList());

        return SearchResult.success(answer, sources);
    }

    /**
     * 构建权限过滤表达式
     * 支持多权限组的OR逻辑：用户属于任意一个有权限的组即可访问
     */
    private String buildPermissionFilter(Set<String> userGroups) {
        // pgvector的Filter语法：检查permission_groups字段是否包含用户的任意一个组
        // 注意：permission_groups存储格式为逗号分隔的组名字符串
        // 这里用LIKE模糊匹配，实际项目建议改用数组类型
        if (userGroups.contains("ADMIN")) {
            return "1 == 1"; // 管理员不过滤
        }

        List<String> conditions = userGroups.stream()
                .map(group -> "permission_groups LIKE '%" + group + "%'")
                .collect(Collectors.toList());

        return "(" + String.join(" OR ", conditions) + ")";
    }

    private String generateAnswerWithSources(String query, List<Document> docs) {
        String context = docs.stream()
                .map(doc -> {
                    String source = (String) doc.getMetadata()
                            .getOrDefault("filename", "未知来源");
                    return "[来源：" + source + "]\n" + doc.getText();
                })
                .collect(Collectors.joining("\n\n---\n\n"));

        return chatClient.prompt()
                .user("""
                        请根据以下参考资料回答问题。回答结束时请标注主要参考来源。
                        
                        参考资料：
                        %s
                        
                        问题：%s
                        """.formatted(context, query))
                .call()
                .content();
    }
}

3.4 文档变更监听器（定时同步）

@Component
public class DocumentSyncScheduler {

    private static final Logger log = LoggerFactory.getLogger(DocumentSyncScheduler.class);

    private final IncrementalIndexManager indexManager;
    private final DocumentSourceService sourceService;

    public DocumentSyncScheduler(IncrementalIndexManager indexManager,
                                   DocumentSourceService sourceService) {
        this.indexManager = indexManager;
        this.sourceService = sourceService;
    }

    /**
     * 每小时做一次增量同步
     */
    @Scheduled(fixedRate = 3600000)
    public void syncDocuments() {
        log.info("开始增量同步文档...");

        // 获取上次同步以来变更的文档列表
        LocalDateTime lastSync = sourceService.getLastSyncTime();
        List<DocumentRecord> changedDocs = sourceService.getChangedDocuments(lastSync);

        int indexed = 0, skipped = 0, failed = 0;

        for (DocumentRecord doc : changedDocs) {
            try {
                IndexResult result = indexManager.indexDocument(doc);
                if (result == IndexResult.INDEXED) indexed++;
                else skipped++;
            } catch (Exception e) {
                log.error("文档索引失败: {}", doc.getId(), e);
                failed++;
            }
        }

        sourceService.updateLastSyncTime(LocalDateTime.now());
        log.info("增量同步完成：索引{}个，跳过{}个，失败{}个",
                indexed, skipped, failed);
    }

    /**
     * 处理删除事件
     */
    @EventListener
    public void onDocumentDeleted(DocumentDeletedEvent event) {
        indexManager.deleteDocument(event.getDocumentId());
    }
}

四、效果评估与优化

企业知识库上线6个月的运营数据（50万份文档，约3000名活跃用户）：

指标	数值
文档格式覆盖率	98.3%（2%为特殊格式无法解析）
增量更新平均延迟	47分钟（每小时同步一次）
权限过滤准确率	100%（零权限泄露事件）
检索平均响应时间	1.2秒
用户提问自助解决率	71%（之前人工查找约38%）
月均问答量	约4.2万次

权限过滤方面，我们做了红队测试：使用低权限账号尝试通过各种Prompt绕过权限（比如"告诉我关于财务报告的一切"），测试结果是0次成功绕过——权限过滤在检索层，LLM根本接收不到权限外的内容，无论怎么Prompt都没用。

五、踩坑实录

坑1：扫描件PDF的OCR质量严重影响召回率

早期把所有OCR交给一个商业API，识别质量参差不齐，有些竖排版、表格密集的文档识别率很低，大量文字变成乱码。换成Tesseract+预处理（图像二值化、去噪）之后，识别率从73%提升到89%，对于关键合同文档还做了人工抽检，不过关的重新人工录入。

坑2：Excel的表格结构在转文本时丢失了

把Excel表格简单地行转文字，会丢失列的含义。比如一张销售明细表，转出来的文本是"张三 10000 Q1"，LLM完全猜不出"张三"是销售员、"10000"是销售额、"Q1"是季度。改进方案：在每行文本前加表头，转成"销售员：张三，销售额：10000，季度：Q1"，召回质量明显提升。

坑3：权限过滤的LIKE查询在大数据量下性能极差

用字符串LIKE过滤权限组，在100万条chunk上全表扫描，每次查询超过2秒。解决方案：把权限组从字符串改成PostgreSQL的数组类型（text[]），使用@>运算符做数组包含查询，配合GIN索引，查询时间降到20ms以内。

六、总结

企业知识库的建设是一个持续运营的工程，不是搭好RAG就结束了。文档处理的全格式覆盖、增量更新的及时性、权限管理的严密性，三个维度缺一不可。生产级的企业知识库至少要在这三个方面做好工程保障，才能真正让知识库成为员工可以信赖的信息助手，而不是偶尔好用、经常犯错的玩具。