// DataSourceConnector.java - 统一数据源接口
public interface DataSourceConnector {
    
    /**
     * 全量采集
     */
    List<RawDocument> fetchAll();
    
    /**
     * 增量采集（基于最后同步时间）
     */
    List<RawDocument> fetchSince(Instant lastSyncTime);
    
    /**
     * 获取数据源类型
     */
    DataSourceType getType();
    
    /**
     * 数据源健康检查
     */
    boolean healthCheck();
}

@Data
@Builder
public class RawDocument {
    private String sourceId;           // 原始系统中的ID
    private String sourceType;         // confluence/dingtalk/sharepoint等
    private String title;
    private String rawContent;         // 原始内容（可能是HTML/PDF字节等）
    private ContentType contentType;   // HTML/PDF/WORD/EXCEL/CHAT
    private Instant createdAt;
    private Instant updatedAt;
    private String author;
    private List<String> permissionGroups;  // 有权限查看此文档的用户组
    private Map<String, String> metadata;   // 扩展元数据
    private String sourceUrl;              // 原始链接
}

4.2 Confluence数据采集

// ConfluenceConnector.java
@Component
@Slf4j
public class ConfluenceConnector implements DataSourceConnector {

    private final ConfluenceProperties properties;
    private final RestTemplate restTemplate;
    
    @Override
    public List<RawDocument> fetchSince(Instant lastSyncTime) {
        List<RawDocument> documents = new ArrayList<>();
        int start = 0;
        int limit = 50;
        
        while (true) {
            // Confluence REST API: 获取最近更新的页面
            String url = String.format(
                "%s/rest/api/content?type=page&status=current" +
                "&lastModified=%s&start=%d&limit=%d&expand=body.storage,space,history,ancestors",
                properties.getBaseUrl(),
                formatDate(lastSyncTime),
                start, limit
            );
            
            ConfluencePageListResponse response = restTemplate.getForObject(
                url, ConfluencePageListResponse.class);
            
            if (response == null || response.getResults().isEmpty()) {
                break;
            }
            
            for (ConfluencePage page : response.getResults()) {
                // 获取页面权限
                List<String> permissionGroups = fetchPagePermissions(page.getId());
                
                RawDocument doc = RawDocument.builder()
                    .sourceId("confluence-" + page.getId())
                    .sourceType("confluence")
                    .title(page.getTitle())
                    .rawContent(page.getBody().getStorage().getValue())
                    .contentType(ContentType.HTML)
                    .createdAt(page.getHistory().getCreatedDate().toInstant())
                    .updatedAt(page.getHistory().getLastUpdated().toInstant())
                    .author(page.getHistory().getCreatedBy().getDisplayName())
                    .permissionGroups(permissionGroups)
                    .sourceUrl(properties.getBaseUrl() + page.getLinks().getWebui())
                    .build();
                
                documents.add(doc);
            }
            
            start += limit;
            if (start >= response.getSize()) break;
        }
        
        log.info("Confluence sync: fetched {} documents since {}", 
            documents.size(), lastSyncTime);
        return documents;
    }
    
    private List<String> fetchPagePermissions(String pageId) {
        try {
            String url = String.format(
                "%s/rest/api/content/%s/restriction/byOperation/read",
                properties.getBaseUrl(), pageId);
            
            ConfluenceRestrictionResponse response = restTemplate.getForObject(
                url, ConfluenceRestrictionResponse.class);
            
            if (response == null || response.getGroup() == null) {
                // 无特殊限制，所有员工可见
                return List.of("ALL_EMPLOYEES");
            }
            
            return response.getGroup().getResults().stream()
                .map(group -> "confluence-group:" + group.getName())
                .collect(Collectors.toList());
        } catch (Exception e) {
            log.warn("Failed to fetch permissions for page {}, defaulting to ALL_EMPLOYEES", pageId);
            return List.of("ALL_EMPLOYEES");
        }
    }
    
    @Override
    public DataSourceType getType() {
        return DataSourceType.CONFLUENCE;
    }
}

4.3 钉钉群消息采集

// DingTalkConnector.java
@Component
@Slf4j
public class DingTalkConnector implements DataSourceConnector {

    private final DingTalkProperties properties;
    private final OkHttpClient httpClient;
    
    @Override
    public List<RawDocument> fetchSince(Instant lastSyncTime) {
        List<RawDocument> documents = new ArrayList<>();
        
        // 获取配置的知识群组列表
        for (String groupId : properties.getKnowledgeGroups()) {
            try {
                List<DingTalkMessage> messages = fetchGroupMessages(groupId, lastSyncTime);
                
                // 将消息聚合为知识片段
                // 策略：把连续对话（时间间隔<30分钟）聚合为一个知识文档
                List<ConversationThread> threads = groupMessagesByThread(messages, Duration.ofMinutes(30));
                
                for (ConversationThread thread : threads) {
                    // 过滤：只保留包含有效知识的对话（长度>50字）
                    String content = thread.toMarkdown();
                    if (content.length() < 50) continue;
                    
                    RawDocument doc = RawDocument.builder()
                        .sourceId("dingtalk-" + groupId + "-" + thread.getStartTime().toEpochMilli())
                        .sourceType("dingtalk")
                        .title(extractTitle(thread))
                        .rawContent(content)
                        .contentType(ContentType.MARKDOWN)
                        .createdAt(thread.getStartTime())
                        .updatedAt(thread.getEndTime())
                        .author(thread.getInitiator())
                        // 钉钉群消息：对应该群的成员可见
                        .permissionGroups(List.of("dingtalk-group:" + groupId))
                        .metadata(Map.of(
                            "group_id", groupId,
                            "message_count", String.valueOf(thread.getMessages().size())
                        ))
                        .build();
                    
                    documents.add(doc);
                }
            } catch (Exception e) {
                log.error("Failed to fetch messages from DingTalk group: {}", groupId, e);
            }
        }
        
        return documents;
    }
    
    /**
     * 提取对话标题
     * 策略：取第一条消息的前30个字符，或者第一条@机器人的问题
     */
    private String extractTitle(ConversationThread thread) {
        return thread.getMessages().stream()
            .filter(msg -> msg.getContent().startsWith("@知识助手"))
            .findFirst()
            .map(msg -> msg.getContent()
                .replace("@知识助手", "")
                .trim()
                .substring(0, Math.min(50, msg.getContent().length())))
            .orElse(thread.getMessages().get(0).getContent()
                .substring(0, Math.min(30, thread.getMessages().get(0).getContent().length())));
    }
}

五、文档处理流水线

5.1 多格式文档解析

// DocumentParser.java - 统一文档解析器
@Component
public class DocumentParserFactory {

    private final Map<ContentType, DocumentParser> parsers;
    
    public DocumentParserFactory() {
        this.parsers = Map.of(
            ContentType.PDF, new PdfDocumentParser(),
            ContentType.WORD, new WordDocumentParser(),
            ContentType.EXCEL, new ExcelDocumentParser(),
            ContentType.HTML, new HtmlDocumentParser(),
            ContentType.MARKDOWN, new MarkdownDocumentParser(),
            ContentType.CHAT, new ChatLogDocumentParser()
        );
    }
    
    public ParsedDocument parse(RawDocument rawDocument) {
        DocumentParser parser = parsers.get(rawDocument.getContentType());
        if (parser == null) {
            throw new UnsupportedContentTypeException(rawDocument.getContentType());
        }
        return parser.parse(rawDocument);
    }
}

// PDF解析（处理企业常见的扫描件PDF）
@Slf4j
public class PdfDocumentParser implements DocumentParser {

    @Override
    public ParsedDocument parse(RawDocument rawDocument) {
        byte[] pdfBytes = Base64.getDecoder().decode(rawDocument.getRawContent());
        
        try (PDDocument document = PDDocument.load(pdfBytes)) {
            PDFTextStripper stripper = new PDFTextStripper();
            String extractedText = stripper.getText(document);
            
            // 判断是否是扫描件（文字很少但页数很多）
            boolean isScannedPdf = isScannedDocument(document, extractedText);
            
            if (isScannedPdf) {
                log.info("Detected scanned PDF: {}, using OCR", rawDocument.getTitle());
                extractedText = performOcr(document);
            }
            
            // 清理PDF特有的噪声
            String cleanedText = cleanPdfText(extractedText);
            
            return ParsedDocument.builder()
                .content(cleanedText)
                .pageCount(document.getNumberOfPages())
                .hasImages(hasImages(document))
                .build();
        }
    }
    
    private boolean isScannedDocument(PDDocument document, String extractedText) {
        // 如果页数>5但文字<500字符，很可能是扫描件
        return document.getNumberOfPages() > 5 && extractedText.trim().length() < 500;
    }
    
    private String cleanPdfText(String text) {
        return text
            // 移除多余的空行
            .replaceAll("\\n{3,}", "\n\n")
            // 移除页码（常见格式：- 1 - 或 第1页）
            .replaceAll("[-–]\\s*\\d+\\s*[-–]|第\\s*\\d+\\s*页", "")
            // 移除页眉页脚常见pattern
            .replaceAll("(?m)^\\s*(机密|仅供内部使用|Confidential)\\s*$", "")
            .trim();
    }
}

// Excel解析（处理产品配置、价格表等）
@Slf4j
public class ExcelDocumentParser implements DocumentParser {

    @Override
    public ParsedDocument parse(RawDocument rawDocument) {
        byte[] excelBytes = Base64.getDecoder().decode(rawDocument.getRawContent());
        StringBuilder content = new StringBuilder();
        
        try (Workbook workbook = WorkbookFactory.create(new ByteArrayInputStream(excelBytes))) {
            for (int i = 0; i < workbook.getNumberOfSheets(); i++) {
                Sheet sheet = workbook.getSheetAt(i);
                
                if (isEmptySheet(sheet)) continue;
                
                content.append("## ").append(sheet.getSheetName()).append("\n\n");
                
                // 检测表头行
                Row headerRow = sheet.getRow(0);
                List<String> headers = extractHeaders(headerRow);
                
                // 将每行数据转为自然语言描述
                for (int rowNum = 1; rowNum <= sheet.getLastRowNum(); rowNum++) {
                    Row row = sheet.getRow(rowNum);
                    if (row == null) continue;
                    
                    StringBuilder rowDesc = new StringBuilder();
                    for (int cellNum = 0; cellNum < headers.size(); cellNum++) {
                        Cell cell = row.getCell(cellNum);
                        if (cell != null) {
                            String header = headers.get(cellNum);
                            String value = getCellValue(cell);
                            if (!value.isBlank()) {
                                rowDesc.append(header).append("：").append(value).append("；");
                            }
                        }
                    }
                    
                    if (!rowDesc.isEmpty()) {
                        content.append("- ").append(rowDesc).append("\n");
                    }
                }
                content.append("\n");
            }
        }
        
        return ParsedDocument.builder()
            .content(content.toString())
            .build();
    }
}

5.2 智能语义分块

// SemanticChunker.java - 语义感知的文档分块
@Component
@Slf4j
public class SemanticChunker {

    private final EmbeddingModel embeddingModel;
    
    // 分块配置
    private static final int MAX_CHUNK_SIZE = 800;      // 最大字符数
    private static final int MIN_CHUNK_SIZE = 100;      // 最小字符数
    private static final int CHUNK_OVERLAP = 100;       // 重叠字符数
    private static final double SEMANTIC_THRESHOLD = 0.5; // 语义相似度阈值
    
    public List<DocumentChunk> chunk(ParsedDocument document, RawDocument rawDocument) {
        String content = document.getContent();
        
        // 第一步：按标题/段落先做粗粒度分割
        List<String> paragraphs = splitByStructure(content);
        
        // 第二步：对相邻段落计算语义相似度，决定是否合并
        List<String> semanticChunks = mergeBySemantics(paragraphs);
        
        // 第三步：超大块进一步分割，确保不超过MAX_CHUNK_SIZE
        List<String> finalChunks = splitOversizedChunks(semanticChunks);
        
        // 第四步：构建DocumentChunk对象
        return buildChunks(finalChunks, rawDocument);
    }
    
    private List<String> splitByStructure(String content) {
        // 按Markdown标题分割
        if (content.contains("#")) {
            return Arrays.stream(content.split("(?=\\n#{1,6}\\s)"))
                .filter(s -> !s.isBlank())
                .collect(Collectors.toList());
        }
        
        // 按段落分割（两个换行符）
        return Arrays.stream(content.split("\n\n"))
            .filter(s -> !s.isBlank())
            .collect(Collectors.toList());
    }
    
    private List<String> mergeBySemantics(List<String> paragraphs) {
        if (paragraphs.size() <= 1) return paragraphs;
        
        List<String> result = new ArrayList<>();
        StringBuilder currentChunk = new StringBuilder(paragraphs.get(0));
        
        for (int i = 1; i < paragraphs.size(); i++) {
            String current = paragraphs.get(i);
            String accumulated = currentChunk.toString();
            
            // 如果当前块已经太大，直接保存
            if (accumulated.length() > MAX_CHUNK_SIZE) {
                result.add(accumulated);
                currentChunk = new StringBuilder(current);
                continue;
            }
            
            // 如果合并后不超限，计算语义相似度决定是否合并
            if (accumulated.length() + current.length() <= MAX_CHUNK_SIZE) {
                // 简化版：不每次都调用embedding（成本高）
                // 使用启发式规则：如果有相同的关键词，倾向于合并
                if (shouldMerge(accumulated, current)) {
                    currentChunk.append("\n\n").append(current);
                } else {
                    if (accumulated.length() >= MIN_CHUNK_SIZE) {
                        result.add(accumulated);
                    }
                    currentChunk = new StringBuilder(current);
                }
            } else {
                result.add(accumulated);
                currentChunk = new StringBuilder(current);
            }
        }
        
        if (!currentChunk.isEmpty()) {
            result.add(currentChunk.toString());
        }
        
        return result;
    }
    
    /**
     * 简单的启发式合并判断（避免大量embedding调用）
     * 更精确的实现可以使用embedding相似度，但成本较高
     */
    private boolean shouldMerge(String text1, String text2) {
        // 如果text2以"但是"、"然而"、"另外"等连接词开头，倾向于合并
        for (String connector : List.of("但是", "然而", "另外", "此外", "同时", "因此", "所以", "例如")) {
            if (text2.startsWith(connector)) return true;
        }
        
        // 如果text2是列表的延续（以"-"或数字开头），倾向于合并
        if (text2.matches("^[-•\\d].*")) return true;
        
        return false;
    }
    
    private List<DocumentChunk> buildChunks(List<String> chunks, RawDocument rawDocument) {
        List<DocumentChunk> result = new ArrayList<>();
        
        for (int i = 0; i < chunks.size(); i++) {
            String chunkContent = chunks.get(i);
            
            // 添加前后文重叠（提升检索召回）
            String contentWithOverlap = addOverlap(chunks, i, CHUNK_OVERLAP);
            
            result.add(DocumentChunk.builder()
                .id(generateChunkId(rawDocument.getSourceId(), i))
                .sourceDocumentId(rawDocument.getSourceId())
                .content(contentWithOverlap)
                .chunkIndex(i)
                .totalChunks(chunks.size())
                // 元数据：用于权限过滤和来源展示
                .sourceType(rawDocument.getSourceType())
                .sourceTitle(rawDocument.getTitle())
                .sourceUrl(rawDocument.getSourceUrl())
                .permissionGroups(rawDocument.getPermissionGroups())
                .updatedAt(rawDocument.getUpdatedAt())
                .build());
        }
        
        return result;
    }
}

六、知识更新机制：增量更新与版本管理

6.1 变更检测策略

// DocumentChangeDetector.java
@Service
@Slf4j
public class DocumentChangeDetector {

    private final DocumentMetadataRepository metadataRepo;
    
    /**
     * 检测文档是否需要更新
     * 策略：对比内容哈希 + 最后修改时间
     */
    public ChangeType detectChange(RawDocument newDoc) {
        Optional<DocumentMetadata> existing = metadataRepo.findBySourceId(newDoc.getSourceId());
        
        if (existing.isEmpty()) {
            return ChangeType.NEW;
        }
        
        DocumentMetadata meta = existing.get();
        
        // 1. 检查修改时间（快速判断，避免计算哈希）
        if (newDoc.getUpdatedAt().isBefore(meta.getLastIndexedAt())) {
            return ChangeType.NO_CHANGE;
        }
        
        // 2. 计算内容哈希（避免更新时间变了但内容没变的情况）
        String newHash = computeContentHash(newDoc.getRawContent());
        if (newHash.equals(meta.getContentHash())) {
            // 更新索引时间但不重新向量化（节省成本）
            metadataRepo.updateLastCheckedAt(meta.getId());
            return ChangeType.NO_CHANGE;
        }
        
        // 3. 检查是否是微小变更（只改了标点、日期等）
        double changeRatio = computeChangeRatio(meta.getLastContent(), newDoc.getRawContent());
        if (changeRatio < 0.05) {  // 变化不足5%
            return ChangeType.MINOR_CHANGE;
        }
        
        return ChangeType.MAJOR_CHANGE;
    }
    
    private String computeContentHash(String content) {
        try {
            MessageDigest digest = MessageDigest.getInstance("SHA-256");
            byte[] hash = digest.digest(content.getBytes(StandardCharsets.UTF_8));
            return Base64.getEncoder().encodeToString(hash);
        } catch (NoSuchAlgorithmException e) {
            throw new RuntimeException(e);
        }
    }
    
    private double computeChangeRatio(String oldContent, String newContent) {
        // 使用简单的字符差异比例
        int longer = Math.max(oldContent.length(), newContent.length());
        if (longer == 0) return 0.0;
        
        int editDistance = computeLevenshteinDistance(oldContent, newContent);
        return (double) editDistance / longer;
    }
}

// 增量同步调度器
@Component
@Slf4j
public class KnowledgeSyncScheduler {

    private final List<DataSourceConnector> connectors;
    private final DocumentProcessingPipeline pipeline;
    private final SyncStateRepository syncStateRepo;
    
    // 每小时增量同步
    @Scheduled(fixedRate = 3600000)
    public void incrementalSync() {
        log.info("Starting incremental knowledge sync...");
        
        for (DataSourceConnector connector : connectors) {
            try {
                SyncState state = syncStateRepo.findBySourceType(connector.getType())
                    .orElse(SyncState.initial());
                
                List<RawDocument> newDocs = connector.fetchSince(state.getLastSyncTime());
                
                int processed = 0;
                int updated = 0;
                int skipped = 0;
                
                for (RawDocument doc : newDocs) {
                    try {
                        ChangeType change = pipeline.process(doc);
                        if (change == ChangeType.NEW || change == ChangeType.MAJOR_CHANGE) {
                            updated++;
                        } else {
                            skipped++;
                        }
                        processed++;
                    } catch (Exception e) {
                        log.error("Failed to process document: {}", doc.getSourceId(), e);
                    }
                }
                
                syncStateRepo.updateLastSyncTime(connector.getType(), Instant.now());
                
                log.info("Sync complete for {}: processed={}, updated={}, skipped={}",
                    connector.getType(), processed, updated, skipped);
                    
            } catch (Exception e) {
                log.error("Sync failed for connector: {}", connector.getType(), e);
            }
        }
    }
    
    // 每天凌晨2点全量对账（检查是否有漏掉的文档）
    @Scheduled(cron = "0 0 2 * * ?")
    public void fullReconciliation() {
        log.info("Starting full reconciliation...");
        // 对比数据源和知识库的文档列表，找出差异
        // 这个过程耗时较长，放在业务低峰期
    }
}

七、权限体系：知识的访问控制与RAG检索的权限过滤

7.1 权限数据模型

// 权限实体设计
@Entity
@Table(name = "document_permissions")
public class DocumentPermission {
    @Id
    private String documentChunkId;
    
    // 允许访问的用户组（OR关系：属于任一组即可）
    @ElementCollection
    @CollectionTable(name = "chunk_permission_groups")
    private Set<String> allowedGroups;
    
    // 允许访问的特定用户（用于个人文档）
    @ElementCollection
    @CollectionTable(name = "chunk_permission_users")
    private Set<String> allowedUsers;
    
    // 文档密级（PUBLIC/INTERNAL/CONFIDENTIAL/SECRET）
    @Enumerated(EnumType.STRING)
    private SecurityLevel securityLevel;
}

// 用户权限上下文
@Data
@Builder
public class UserPermissionContext {
    private String userId;
    private Set<String> userGroups;      // 用户所属的组（来自SSO）
    private SecurityLevel maxLevel;       // 用户可访问的最高密级
    private String department;
    private String location;             // 地理位置（某些文档限中国区访问）
}

7.2 带权限的RAG检索

// PermissionAwareRagService.java
@Service
@Slf4j
public class PermissionAwareRagService {

    private final VectorStore vectorStore;
    private final ChatClient chatClient;
    private final UserPermissionService permissionService;
    
    public String query(String question, String userId) {
        // 1. 获取用户权限上下文（从SSO/LDAP获取）
        UserPermissionContext userContext = permissionService.getUserContext(userId);
        
        // 2. 构建权限过滤器
        Filter.Expression permissionFilter = buildPermissionFilter(userContext);
        
        // 3. 带权限的向量检索
        SearchRequest searchRequest = SearchRequest.query(question)
            .withTopK(10)
            .withSimilarityThreshold(0.65)
            .withFilterExpression(permissionFilter);
        
        List<Document> documents = vectorStore.similaritySearch(searchRequest);
        
        // 4. 二次权限验证（防止Filter实现有Bug）
        documents = documents.stream()
            .filter(doc -> hasPermission(doc, userContext))
            .collect(Collectors.toList());
        
        if (documents.isEmpty()) {
            return "未找到您有权限访问的相关知识。如需访问受限内容，请联系您的部门负责人申请权限。";
        }
        
        // 5. 组装RAG上下文
        String context = documents.stream()
            .map(doc -> String.format("来源：%s\n内容：%s", 
                doc.getMetadata().get("source_title"),
                doc.getFormattedContent()))
            .collect(Collectors.joining("\n\n---\n\n"));
        
        // 6. LLM生成回答
        return chatClient.prompt()
            .system("""
                你是公司内部知识库助手。请基于以下提供的内部文档回答员工的问题。
                如果文档中没有相关信息，请明确说明。
                回答时请标注信息来源。
                """)
            .user(String.format("""
                内部文档内容：
                %s
                
                员工问题：%s
                """, context, question))
            .call()
            .content();
    }
    
    /**
     * 构建PgVector的FilterExpression
     * 支持OR逻辑：用户属于任一允许组即可
     */
    private Filter.Expression buildPermissionFilter(UserPermissionContext context) {
        // 构建组权限过滤
        // SQL等价：WHERE 'ALL_EMPLOYEES' = ANY(permission_groups) 
        //       OR 'dept:finance' = ANY(permission_groups)
        //       OR 'user:zhangyu' = ANY(permission_groups)
        
        List<String> allowedValues = new ArrayList<>();
        allowedValues.add("ALL_EMPLOYEES");
        allowedValues.addAll(context.getUserGroups());
        allowedValues.add("user:" + context.getUserId());
        allowedValues.add("dept:" + context.getDepartment());
        
        // 安全密级过滤
        allowedValues.add("security:" + context.getMaxLevel().name());
        
        return new Filter.Expression(
            Filter.ExpressionType.IN,
            new Filter.Key("permission_groups"),
            new Filter.Value(allowedValues)
        );
    }
    
    private boolean hasPermission(Document doc, UserPermissionContext context) {
        @SuppressWarnings("unchecked")
        List<String> groups = (List<String>) doc.getMetadata().get("permission_groups");
        if (groups == null) return false;
        
        // ALL_EMPLOYEES 表示全员可访问
        if (groups.contains("ALL_EMPLOYEES")) return true;
        
        // 检查用户组交集
        return groups.stream().anyMatch(group -> 
            context.getUserGroups().contains(group) ||
            group.equals("user:" + context.getUserId()) ||
            group.equals("dept:" + context.getDepartment()));
    }
}

八、问答质量优化：针对企业私有知识

8.1 混合检索（向量 + BM25关键词）

// HybridSearchService.java
@Service
public class HybridSearchService {

    private final VectorStore vectorStore;
    private final ElasticsearchClient esClient;  // BM25全文检索
    private final RerankingService rerankingService;
    
    /**
     * 混合检索：向量语义检索 + BM25关键词检索
     * 企业私有知识中有很多专有名词，纯向量检索召回率不足
     */
    public List<Document> search(String query, UserPermissionContext context) {
        // 并行执行两种检索
        CompletableFuture<List<Document>> vectorSearchFuture = CompletableFuture
            .supplyAsync(() -> vectorSearch(query, context));
        
        CompletableFuture<List<Document>> keywordSearchFuture = CompletableFuture
            .supplyAsync(() -> keywordSearch(query, context));
        
        CompletableFuture.allOf(vectorSearchFuture, keywordSearchFuture).join();
        
        List<Document> vectorResults = vectorSearchFuture.join();
        List<Document> keywordResults = keywordSearchFuture.join();
        
        // RRF融合：Reciprocal Rank Fusion
        List<Document> fusedResults = reciprocalRankFusion(vectorResults, keywordResults);
        
        // 重排序（使用Cross-Encoder模型提升精度）
        return rerankingService.rerank(query, fusedResults, 5);
    }
    
    /**
     * RRF算法：融合两种检索结果的排名
     */
    private List<Document> reciprocalRankFusion(
            List<Document> list1, List<Document> list2) {
        
        Map<String, Double> scores = new HashMap<>();
        int k = 60;  // RRF常数
        
        // 向量检索结果得分
        for (int i = 0; i < list1.size(); i++) {
            String docId = list1.get(i).getId();
            scores.merge(docId, 1.0 / (k + i + 1), Double::sum);
        }
        
        // 关键词检索结果得分
        for (int i = 0; i < list2.size(); i++) {
            String docId = list2.get(i).getId();
            scores.merge(docId, 1.0 / (k + i + 1), Double::sum);
        }
        
        // 合并去重并按分数排序
        Map<String, Document> allDocs = new HashMap<>();
        list1.forEach(doc -> allDocs.put(doc.getId(), doc));
        list2.forEach(doc -> allDocs.putIfAbsent(doc.getId(), doc));
        
        return scores.entrySet().stream()
            .sorted(Map.Entry.<String, Double>comparingByValue().reversed())
            .limit(20)
            .map(entry -> allDocs.get(entry.getKey()))
            .filter(Objects::nonNull)
            .collect(Collectors.toList());
    }
}

九、知识图谱：将文档实体关系结构化

9.1 Neo4j集成

// KnowledgeGraphService.java
@Service
@Slf4j
public class KnowledgeGraphService {

    private final Neo4jClient neo4jClient;
    private final ChatClient chatClient;
    
    /**
     * 从文档中提取实体和关系，写入知识图谱
     */
    public void extractAndStore(DocumentChunk chunk) {
        // 使用LLM提取实体和关系
        String extractionPrompt = String.format("""
            从以下企业内部文档中提取实体和关系，以JSON格式返回。
            
            文档内容：
            %s
            
            请提取：
            1. 人员实体（员工姓名、职位）
            2. 系统/产品实体（系统名称、版本）
            3. 流程实体（流程名称、步骤）
            4. 实体间的关系
            
            返回格式：
            {
              "entities": [
                {"type": "PERSON/SYSTEM/PROCESS", "name": "...", "properties": {}}
              ],
              "relationships": [
                {"from": "entity_name", "to": "entity_name", "type": "OWNS/USES/MANAGES/DEPENDS_ON"}
              ]
            }
            
            只返回JSON，不要其他内容。
            """, chunk.getContent());
        
        String jsonResult = chatClient.prompt()
            .user(extractionPrompt)
            .call()
            .content();
        
        try {
            KnowledgeGraphData graphData = parseGraphData(jsonResult);
            storeToNeo4j(graphData, chunk);
        } catch (Exception e) {
            log.warn("Failed to extract knowledge graph from chunk: {}", chunk.getId(), e);
        }
    }
    
    private void storeToNeo4j(KnowledgeGraphData data, DocumentChunk chunk) {
        // 批量创建实体节点
        neo4jClient.query("""
            UNWIND $entities AS entity
            MERGE (n {name: entity.name, type: entity.type})
            SET n += entity.properties
            SET n.updatedAt = datetime()
            """)
            .bindAll(Map.of("entities", data.getEntities()))
            .run();
        
        // 创建关系
        neo4jClient.query("""
            UNWIND $rels AS rel
            MATCH (from {name: rel.from})
            MATCH (to {name: rel.to})
            MERGE (from)-[r:RELATES {type: rel.type}]->(to)
            SET r.sourceDocId = $sourceDocId
            SET r.updatedAt = datetime()
            """)
            .bindAll(Map.of(
                "rels", data.getRelationships(),
                "sourceDocId", chunk.getSourceDocumentId()))
            .run();
    }
    
    /**
     * 基于知识图谱增强检索
     * 当RAG检索到"张总的系统"时，通过知识图谱找到相关联的实体
     */
    public List<String> expandQuery(String query) {
        // 在知识图谱中找到与查询相关的实体
        return neo4jClient.query("""
            MATCH (n)
            WHERE any(keyword IN $keywords WHERE n.name CONTAINS keyword)
            MATCH (n)-[r*1..2]-(related)
            RETURN DISTINCT related.name AS name
            LIMIT 10
            """)
            .bindAll(Map.of("keywords", extractKeywords(query)))
            .fetchAs(String.class)
            .mappedBy((typeSystem, record) -> record.get("name").asString())
            .all();
    }
}

十、使用分析：哪些知识被查询最多

10.1 知识使用统计

// KnowledgeUsageAnalyticsService.java
@Service
public class KnowledgeUsageAnalyticsService {

    private final KnowledgeQueryLogRepository queryLogRepo;
    private final DocumentMetadataRepository docMetaRepo;
    
    /**
     * 查询最频繁访问的知识点（用于优先维护）
     */
    public List<KnowledgeHotspot> getHotspots(Duration period) {
        Instant since = Instant.now().minus(period);
        
        return queryLogRepo.findTopAccessedDocuments(since, PageRequest.of(0, 20))
            .stream()
            .map(result -> {
                DocumentMetadata meta = docMetaRepo.findBySourceId(result.getDocumentId())
                    .orElse(null);
                
                return KnowledgeHotspot.builder()
                    .documentId(result.getDocumentId())
                    .title(meta != null ? meta.getTitle() : "Unknown")
                    .accessCount(result.getAccessCount())
                    .lastAccessed(result.getLastAccessed())
                    .avgUserSatisfaction(result.getAvgRating())
                    .lastUpdated(meta != null ? meta.getLastUpdatedAt() : null)
                    // 如果访问量大但最后更新时间超过90天，标记为需要维护
                    .needsReview(isStale(meta, 90))
                    .build();
            })
            .collect(Collectors.toList());
    }
    
    /**
     * 知识空白分析：哪些问题没有找到好的答案
     */
    public List<KnowledgeGap> getKnowledgeGaps(Duration period) {
        Instant since = Instant.now().minus(period);
        
        // 找出平均相似度分数低于阈值的查询（说明知识库里没有好答案）
        return queryLogRepo.findLowConfidenceQueries(since, 0.6, PageRequest.of(0, 50))
            .stream()
            .map(log -> KnowledgeGap.builder()
                .queryText(log.getQueryText())
                .frequency(log.getFrequency())
                .avgConfidence(log.getAvgConfidence())
                .suggestedAction("建议补充相关文档")
                .build())
            .collect(Collectors.toList());
    }
    
    /**
     * 生成知识库健康度报告
     */
    public KnowledgeHealthReport generateHealthReport() {
        return KnowledgeHealthReport.builder()
            .totalDocuments(docMetaRepo.count())
            .documentsUpdatedLast30Days(docMetaRepo.countUpdatedSince(
                Instant.now().minus(Duration.ofDays(30))))
            .staleDocuments(docMetaRepo.countNotUpdatedSince(
                Instant.now().minus(Duration.ofDays(90))))
            .avgQuerySatisfaction(queryLogRepo.avgRatingLast30Days())
            .knowledgeGapCount(getKnowledgeGaps(Duration.ofDays(7)).size())
            .hotspots(getHotspots(Duration.ofDays(7)))
            .build();
    }
}

十一、部署方案：本地化企业知识库（Docker Compose）

11.1 生产级Docker Compose

# docker-compose.yml - 企业知识库完整部署
version: '3.8'

services:
  # 知识库API服务
  knowledge-api:
    image: your-registry/knowledge-api:latest
    ports:
      - "8080:8080"
    environment:
      SPRING_DATASOURCE_URL: jdbc:postgresql://postgres:5432/knowledge_db
      SPRING_DATA_REDIS_HOST: redis
      NEO4J_URI: bolt://neo4j:7687
      ELASTICSEARCH_HOST: elasticsearch:9200
      # 使用本地部署的Ollama（离线场景）或OpenAI
      SPRING_AI_OPENAI_BASE_URL: http://ollama:11434/v1
      SPRING_AI_OPENAI_API_KEY: ollama
      SPRING_AI_OPENAI_CHAT_OPTIONS_MODEL: qwen2.5:14b
    depends_on:
      postgres:
        condition: service_healthy
      redis:
        condition: service_healthy
      neo4j:
        condition: service_healthy
    volumes:
      - ./logs:/app/logs
    restart: unless-stopped

  # PostgreSQL + pgvector
  postgres:
    image: pgvector/pgvector:pg16
    environment:
      POSTGRES_DB: knowledge_db
      POSTGRES_USER: knowledge_user
      POSTGRES_PASSWORD: ${POSTGRES_PASSWORD}
    volumes:
      - postgres_data:/var/lib/postgresql/data
      - ./init-db.sql:/docker-entrypoint-initdb.d/init.sql
    healthcheck:
      test: ["CMD-SHELL", "pg_isready -U knowledge_user -d knowledge_db"]
      interval: 10s
      timeout: 5s
      retries: 5

  # Redis（缓存热点知识）
  redis:
    image: redis:7-alpine
    command: redis-server --requirepass ${REDIS_PASSWORD}
    volumes:
      - redis_data:/data
    healthcheck:
      test: ["CMD", "redis-cli", "ping"]
      interval: 10s

  # Neo4j（知识图谱）
  neo4j:
    image: neo4j:5.13
    environment:
      NEO4J_AUTH: neo4j/${NEO4J_PASSWORD}
      NEO4J_PLUGINS: '["apoc"]'
    volumes:
      - neo4j_data:/data
    ports:
      - "7474:7474"  # 浏览器界面
    healthcheck:
      test: ["CMD", "wget", "-O", "-", "http://localhost:7474"]
      interval: 30s

  # Elasticsearch（BM25全文检索）
  elasticsearch:
    image: elasticsearch:8.11.0
    environment:
      discovery.type: single-node
      xpack.security.enabled: "false"
      ES_JAVA_OPTS: "-Xms2g -Xmx2g"
    volumes:
      - es_data:/usr/share/elasticsearch/data

  # Ollama（本地LLM，离线场景）
  ollama:
    image: ollama/ollama:latest
    volumes:
      - ollama_data:/root/.ollama
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  # MinIO（文档原始文件存储）
  minio:
    image: minio/minio:latest
    command: server /data --console-address ":9001"
    environment:
      MINIO_ROOT_USER: ${MINIO_ACCESS_KEY}
      MINIO_ROOT_PASSWORD: ${MINIO_SECRET_KEY}
    volumes:
      - minio_data:/data
    ports:
      - "9001:9001"  # 管理界面

volumes:
  postgres_data:
  redis_data:
  neo4j_data:
  es_data:
  ollama_data:
  minio_data:

-- init-db.sql - 数据库初始化
CREATE EXTENSION IF NOT EXISTS vector;
CREATE EXTENSION IF NOT EXISTS "uuid-ossp";

-- 向量存储表
CREATE TABLE IF NOT EXISTS vector_store (
    id UUID DEFAULT uuid_generate_v4() PRIMARY KEY,
    content TEXT NOT NULL,
    metadata JSONB,
    embedding vector(1536),  -- text-embedding-ada-002维度
    created_at TIMESTAMP DEFAULT NOW()
);

-- 创建向量索引（IVFFlat，适合百万级文档）
CREATE INDEX IF NOT EXISTS vector_store_embedding_idx 
    ON vector_store USING ivfflat (embedding vector_cosine_ops) 
    WITH (lists = 100);

-- 文档元数据表
CREATE TABLE IF NOT EXISTS document_metadata (
    id UUID DEFAULT uuid_generate_v4() PRIMARY KEY,
    source_id VARCHAR(500) UNIQUE NOT NULL,
    source_type VARCHAR(50),
    title TEXT,
    source_url TEXT,
    content_hash VARCHAR(64),
    last_content TEXT,
    last_indexed_at TIMESTAMP,
    created_at TIMESTAMP DEFAULT NOW(),
    updated_at TIMESTAMP DEFAULT NOW()
);

-- 查询日志表（用于使用分析）
CREATE TABLE IF NOT EXISTS query_log (
    id UUID DEFAULT uuid_generate_v4() PRIMARY KEY,
    user_id VARCHAR(100),
    query_text TEXT,
    retrieved_doc_ids TEXT[],
    avg_similarity FLOAT,
    user_rating SMALLINT,
    response_time_ms INT,
    created_at TIMESTAMP DEFAULT NOW()
);

十二、性能数据：张宇团队的实测结果

12.1 关键指标

指标	数据
文档总量	8,200个文档片段（来自1,247个源文档）
向量化耗时	约4小时（首次全量，使用text-embedding-ada-002）
增量同步延迟	平均45分钟（Confluence更新→知识库可查询）
检索延迟P99	380ms（包含向量检索+BM25+重排序+LLM生成）
知识问答准确率	87%（人工抽样评估，100个问题）
权限误露率	0%（二次权限验证确保）
系统可用性	99.7%（3个月运营数据）

12.2 优化前后对比

混合检索 vs 纯向量检索（企业私有知识场景）：

测试集：200个企业内部问题
评估指标：前5结果中是否包含正确答案（Recall@5）

纯向量检索（text-embedding-ada-002）：
  Recall@5: 71.5%
  问题：专有名词（产品代号、系统名称）召回率低

混合检索（向量 + BM25 + RRF）：
  Recall@5: 83.2%
  提升：+11.7%

混合检索 + 重排序：
  Recall@5: 87.4%
  提升：vs纯向量 +15.9%

结论：企业知识库必须使用混合检索+重排序，纯向量检索不够

十三、FAQ

Q1：企业知识库的数据安全怎么保障？

数据安全需要分层保障：数据传输加密（TLS）、数据存储加密（磁盘加密）、访问控制（权限过滤）、操作审计（所有查询记录）。对于高敏感数据，可以选择本地化部署（Ollama + PgVector），所有数据不出内网。

Q2：知识更新不及时怎么办？

建议在源系统（Confluence/钉钉）添加Webhook，文档更新时主动推送到知识库触发增量同步，把延迟从小时级降到分钟级。重要文档可以配置实时同步。

Q3：如何处理图片中的文字（扫描件）？

文章中的PdfDocumentParser实现了OCR检测，自动识别扫描件并调用OCR（推荐使用阿里云OCR或Tesseract）。对于包含重要图表的文档，还可以用多模态模型（如GPT-4V）提取图表信息。

Q4：知识库的回答质量如何持续提升？

三个核心抓手：①每周分析低置信度查询，针对性补充文档；②定期人工评估抽样，发现系统性问题；③收集用户反馈（点赞/踩），用于微调Prompt和检索策略。

Q5：多语言知识库怎么处理？

对于中英双语知识库，推荐：①向量检索使用多语言Embedding模型（如multilingual-e5-large）；②对英文文档在入库时自动翻译中文摘要，提升中文检索召回；③BM25检索使用支持中文分词的ES配置（ik_max_word分词器）。

十四、总结

张宇团队的企业知识库项目证明了一个重要结论：RAG的最大挑战不是技术，而是数据治理。

90%的工作量在于：

理解企业各系统的数据结构和权限模型
处理各种格式（PDF、Excel、钉钉消息）的文档解析
建立可持续的增量同步机制
确保权限控制不泄露敏感信息

技术选型本身（Spring AI + PgVector + Elasticsearch + Neo4j）相对简单，难点在于把这些技术组合成一个符合企业实际需求的完整系统。

新员工培训时间从92天到14天，这个数字背后是无数次调优迭代和对企业知识结构的深度理解。