第1746篇：数据血缘追踪——AI系统中的数据来源可解释性

老张2026/4/30大约 10 分钟

第1746篇：数据血缘追踪——AI系统中的数据来源可解释性

去年有个做医疗 AI 的朋友跟我说了一件事，让我印象很深。他们的诊断辅助模型给出了一个异常建议，主治医生质疑这个结果，要求解释"这个判断的依据是什么数据"。结果团队翻了半天，愣是说不清楚这个预测结果依赖了哪批训练数据、那些训练数据来自哪家医院、经过了什么处理。

最后这个项目差点因为"无法解释数据来源"被叫停。

这就是数据血缘（Data Lineage）没做好的代价。在医疗、金融、法律这类高监管领域，数据来源的可追溯性不是加分项，是必选项。即使在普通的商业 AI 项目里，当模型出了问题，快速定位"是哪批脏数据导致的"也需要数据血缘支撑。

这篇文章我们把数据血缘追踪在 AI 系统里的落地方案完整讲一遍。

一、数据血缘的本质是什么

数据血缘（Data Lineage）回答的是三个问题：

这条数据从哪来的？（数据源追溯）
经过了什么处理变成现在这样？（变换过程追溯）
影响了哪些下游产物？（影响范围分析）

在 AI 系统里，这个链条特别长：

原始数据来源（数据库/API/文件）
    ↓
ETL 清洗（去重、格式化、脱敏）
    ↓
特征工程（统计聚合、归一化）
    ↓
训练样本构造（正负样本采样、标注）
    ↓
模型训练（Batch 参数更新）
    ↓
模型预测（推理结果）
    ↓
业务决策（贷款审批、内容推荐）

任何一个环节的数据问题都可以通过血缘链条追溯到源头，这才是完整的血缘追踪。

二、AI 系统数据血缘的架构设计

2.1 血缘图的数据模型

数据血缘本质上是一个有向无环图（DAG）：节点是数据资产（表、文件、特征、模型），边是数据流转关系。

节点和边都需要携带丰富的元数据：

@Entity
@Table(name = "lineage_node")
public class LineageNode {

    @Id
    private String nodeId;           // 全局唯一 ID（UUID）

    private String nodeType;         // DATA_SOURCE, RAW_DATA, FEATURE, MODEL, PREDICTION

    private String assetName;        // 资产名称（如表名、文件名、模型名）
    private String assetVersion;     // 版本标识

    // 核心元数据（JSON 格式，根据节点类型不同）
    @Column(columnDefinition = "TEXT")
    private String metadata;

    private LocalDateTime createdAt;
    private String createdBy;        // 哪个服务/作业创建的

    // 对于数据节点：内容哈希（用于验证数据完整性）
    private String contentHash;

    // 对于模型节点：指标快照
    private Double modelAccuracy;
    private Double modelF1;
}

@Entity
@Table(name = "lineage_edge")
public class LineageEdge {

    @Id
    @GeneratedValue(strategy = GenerationType.IDENTITY)
    private Long id;

    private String sourceNodeId;
    private String targetNodeId;

    private String transformationType;  // EXTRACT, CLEAN, FEATURE_ENG, TRAIN, INFER

    // 变换描述（记录做了什么处理）
    @Column(columnDefinition = "TEXT")
    private String transformationDesc;

    // 执行上下文（Airflow DAG Run ID、Spark Job ID 等）
    private String executionId;
    private String executionSystem;   // AIRFLOW, SPARK, FLINK, JAVA_SERVICE

    private LocalDateTime executedAt;
    private String executedBy;

    // 变换参数快照（如清洗规则版本、特征工程配置）
    @Column(columnDefinition = "TEXT")
    private String transformationParamsJson;
}

2.2 血缘信息的采集时机

血缘信息的采集必须是自动的，不能依赖手工记录——手工记录迟早会有人忘。

采集时机：

数据写入时：任何往数据存储写数据的操作都应该同步记录血缘
模型训练前后：记录训练使用的数据集、代码版本、超参
在线推理时：记录每次推理使用的输入特征版本（可选，高频场景只记录统计信息）

三、Java 端的血缘追踪实现

3.1 核心血缘服务

@Service
public class DataLineageService {

    @Autowired
    private LineageNodeRepository nodeRepository;

    @Autowired
    private LineageEdgeRepository edgeRepository;

    /**
     * 注册数据节点
     */
    public LineageNode registerNode(String nodeType, String assetName,
                                     String assetVersion, Map<String, Object> metadata) {
        // 基于 assetName + assetVersion 生成稳定 ID（相同版本的资产只有一个节点）
        String nodeId = generateNodeId(nodeType, assetName, assetVersion);

        return nodeRepository.findById(nodeId).orElseGet(() -> {
            LineageNode node = new LineageNode();
            node.setNodeId(nodeId);
            node.setNodeType(nodeType);
            node.setAssetName(assetName);
            node.setAssetVersion(assetVersion);
            node.setMetadata(JsonUtils.toJson(metadata));
            node.setCreatedAt(LocalDateTime.now());
            node.setCreatedBy(getCurrentExecutor());
            return nodeRepository.save(node);
        });
    }

    /**
     * 记录数据变换关系（核心方法）
     */
    public LineageEdge recordTransformation(String sourceNodeId,
                                             String targetNodeId,
                                             String transformationType,
                                             String executionId,
                                             Map<String, Object> params) {
        LineageEdge edge = new LineageEdge();
        edge.setSourceNodeId(sourceNodeId);
        edge.setTargetNodeId(targetNodeId);
        edge.setTransformationType(transformationType);
        edge.setExecutionId(executionId);
        edge.setExecutionSystem(detectExecutionSystem());
        edge.setTransformationParamsJson(JsonUtils.toJson(params));
        edge.setExecutedAt(LocalDateTime.now());
        edge.setExecutedBy(getCurrentExecutor());

        return edgeRepository.save(edge);
    }

    /**
     * 向上追溯：给定一个数据节点，找出它的所有上游来源
     */
    public LineageTree traceUpstream(String nodeId, int maxDepth) {
        LineageTree tree = new LineageTree(nodeId);
        traceUpstreamRecursive(nodeId, tree, 0, maxDepth, new HashSet<>());
        return tree;
    }

    private void traceUpstreamRecursive(String nodeId, LineageTree tree,
                                         int depth, int maxDepth,
                                         Set<String> visited) {
        if (depth >= maxDepth || visited.contains(nodeId)) return;
        visited.add(nodeId);

        List<LineageEdge> incomingEdges = edgeRepository
            .findByTargetNodeId(nodeId);

        for (LineageEdge edge : incomingEdges) {
            LineageNode sourceNode = nodeRepository
                .findById(edge.getSourceNodeId()).orElse(null);
            if (sourceNode != null) {
                tree.addNode(sourceNode, edge);
                traceUpstreamRecursive(
                    edge.getSourceNodeId(), tree, depth + 1, maxDepth, visited);
            }
        }
    }

    /**
     * 向下追溯：给定一个数据节点，找出它影响了哪些下游产物
     */
    public LineageTree traceDownstream(String nodeId, int maxDepth) {
        LineageTree tree = new LineageTree(nodeId);
        traceDownstreamRecursive(nodeId, tree, 0, maxDepth, new HashSet<>());
        return tree;
    }

    private void traceDownstreamRecursive(String nodeId, LineageTree tree,
                                           int depth, int maxDepth,
                                           Set<String> visited) {
        if (depth >= maxDepth || visited.contains(nodeId)) return;
        visited.add(nodeId);

        List<LineageEdge> outgoingEdges = edgeRepository
            .findBySourceNodeId(nodeId);

        for (LineageEdge edge : outgoingEdges) {
            LineageNode targetNode = nodeRepository
                .findById(edge.getTargetNodeId()).orElse(null);
            if (targetNode != null) {
                tree.addNode(targetNode, edge);
                traceDownstreamRecursive(
                    edge.getTargetNodeId(), tree, depth + 1, maxDepth, visited);
            }
        }
    }

    /**
     * 影响分析：某个数据源发生了问题，找出所有可能受影响的下游模型
     */
    public List<LineageNode> findAffectedModels(String dataSourceNodeId) {
        LineageTree downstream = traceDownstream(dataSourceNodeId, 10);
        return downstream.getNodes().stream()
            .filter(n -> "MODEL".equals(n.getNodeType()))
            .collect(Collectors.toList());
    }

    private String generateNodeId(String nodeType, String assetName, String version) {
        return DigestUtils.md5Hex(nodeType + ":" + assetName + ":" + version);
    }

    private String detectExecutionSystem() {
        // 根据环境变量或上下文判断当前执行环境
        String airflowDagId = System.getenv("AIRFLOW_CTX_DAG_ID");
        if (airflowDagId != null) return "AIRFLOW";

        String sparkAppId = System.getenv("SPARK_APP_ID");
        if (sparkAppId != null) return "SPARK";

        return "JAVA_SERVICE";
    }
}

3.2 AOP 切面：自动记录数据读写血缘

手工在每个数据操作里调用血缘服务太繁琐，而且容易遗漏。用 AOP 切面自动拦截数据写入操作是更优雅的方案：

@Aspect
@Component
public class DataLineageAspect {

    @Autowired
    private DataLineageService lineageService;

    /**
     * 拦截所有标注了 @TrackedDataWrite 的方法，自动记录血缘
     */
    @Around("@annotation(trackedWrite)")
    public Object trackDataWrite(ProceedingJoinPoint pjp,
                                   TrackedDataWrite trackedWrite) throws Throwable {
        // 记录执行前的输入血缘节点
        String inputNodeId = LineageContextHolder.getInputNodeId();
        String executionId = UUID.randomUUID().toString();

        Object result = pjp.proceed();

        // 记录输出节点
        if (result instanceof HasLineageId) {
            String outputNodeId = ((HasLineageId) result).getLineageNodeId();

            if (inputNodeId != null && outputNodeId != null) {
                lineageService.recordTransformation(
                    inputNodeId,
                    outputNodeId,
                    trackedWrite.transformationType(),
                    executionId,
                    Collections.emptyMap()
                );
            }
        }

        return result;
    }
}

// 自定义注解
@Target(ElementType.METHOD)
@Retention(RetentionPolicy.RUNTIME)
public @interface TrackedDataWrite {
    String transformationType() default "UNKNOWN";
    String description() default "";
}

使用示例：

@Service
public class DataCleaningService {

    @TrackedDataWrite(transformationType = "CLEAN",
                      description = "数据清洗：去重+格式化+脱敏")
    public CleanedDataset clean(RawDataset rawData) {
        // ... 清洗逻辑

        CleanedDataset result = new CleanedDataset();
        // 设置血缘 ID（让 AOP 切面能找到它）
        result.setLineageNodeId(
            lineageService.registerNode(
                "CLEANED_DATA",
                "training_data_cleaned",
                batchDate,
                buildCleaningMetadata(rawData, result)
            ).getNodeId()
        );

        return result;
    }
}

3.3 模型训练的血缘记录

模型训练是血缘链条里最重要的节点：

@Service
public class ModelTrainingLineageRecorder {

    @Autowired
    private DataLineageService lineageService;

    /**
     * 在模型训练开始前调用，记录训练输入
     */
    public String recordTrainingStart(ModelTrainingConfig config) {
        // 注册训练集节点
        String datasetNodeId = lineageService.registerNode(
            "DATASET",
            config.getDatasetName(),
            config.getDatasetVersion(),
            Map.of(
                "recordCount", config.getRecordCount(),
                "labelDistribution", config.getLabelDistribution(),
                "contentHash", config.getDataContentHash()
            )
        ).getNodeId();

        // 注册代码版本节点
        String codeNodeId = lineageService.registerNode(
            "CODE",
            config.getRepositoryName(),
            config.getGitCommitHash(),
            Map.of("branch", config.getGitBranch())
        ).getNodeId();

        // 保存到 ThreadLocal，训练完成后使用
        LineageContextHolder.setTrainingInputs(
            Arrays.asList(datasetNodeId, codeNodeId));

        return datasetNodeId;
    }

    /**
     * 在模型训练完成后调用，记录训练输出
     */
    public void recordTrainingComplete(String modelName, String modelVersion,
                                        ModelEvalMetrics metrics,
                                        String hyperparametersJson) {
        // 注册模型节点
        String modelNodeId = lineageService.registerNode(
            "MODEL",
            modelName,
            modelVersion,
            Map.of(
                "accuracy", metrics.getAccuracy(),
                "f1", metrics.getF1(),
                "hyperparameters", hyperparametersJson,
                "trainingDurationMs", metrics.getTrainingDurationMs()
            )
        ).getNodeId();

        // 记录每个输入到模型的变换边
        List<String> inputNodeIds = LineageContextHolder.getTrainingInputs();
        for (String inputNodeId : inputNodeIds) {
            lineageService.recordTransformation(
                inputNodeId,
                modelNodeId,
                "TRAIN",
                LineageContextHolder.getExecutionId(),
                Map.of("hyperparameters", hyperparametersJson)
            );
        }

        LineageContextHolder.clear();
    }
}

四、血缘查询的实际应用场景

4.1 场景一：模型效果劣化的根因分析

模型某天效果突然下降，怎么快速定位？

@RestController
@RequestMapping("/api/lineage")
public class LineageQueryController {

    @Autowired
    private DataLineageService lineageService;

    /**
     * 查询模型的完整上游血缘（用于问题排查）
     */
    @GetMapping("/model/{modelId}/upstream")
    public LineageTreeResponse getModelUpstream(
            @PathVariable String modelId,
            @RequestParam(defaultValue = "5") int depth) {

        LineageTree upstream = lineageService.traceUpstream(modelId, depth);

        // 格式化为前端可视化友好的格式
        return LineageTreeResponse.fromTree(upstream);
    }

    /**
     * 数据问题影响范围：哪些模型用到了这个数据源
     */
    @GetMapping("/datasource/{dataSourceId}/impact")
    public ImpactAnalysisResponse analyzeImpact(
            @PathVariable String dataSourceId) {

        List<LineageNode> affectedModels =
            lineageService.findAffectedModels(dataSourceId);

        return ImpactAnalysisResponse.builder()
            .dataSourceId(dataSourceId)
            .affectedModelCount(affectedModels.size())
            .affectedModels(affectedModels.stream()
                .map(n -> n.getAssetName() + "@" + n.getAssetVersion())
                .collect(Collectors.toList()))
            .build();
    }
}

4.2 场景二：监管合规审计

金融、医疗场景经常需要向监管机构证明"这个模型的训练数据来源是合规的"：

@Service
public class ComplianceAuditService {

    @Autowired
    private DataLineageService lineageService;

    /**
     * 生成合规审计报告
     */
    public ComplianceReport generateAuditReport(String modelId) {
        LineageTree upstream = lineageService.traceUpstream(modelId, 10);

        ComplianceReport report = new ComplianceReport();
        report.setModelId(modelId);
        report.setGeneratedAt(LocalDateTime.now());

        // 找出所有数据源节点
        List<LineageNode> dataSources = upstream.getNodes().stream()
            .filter(n -> "DATA_SOURCE".equals(n.getNodeType()))
            .collect(Collectors.toList());

        report.setDataSourceCount(dataSources.size());

        // 检查每个数据源的合规状态
        List<DataSourceCompliance> complianceList = new ArrayList<>();
        for (LineageNode source : dataSources) {
            DataSourceCompliance compliance = checkDataSourceCompliance(source);
            complianceList.add(compliance);
        }

        report.setDataSourceCompliances(complianceList);

        // 判断整体合规性
        boolean allCompliant = complianceList.stream()
            .allMatch(DataSourceCompliance::isCompliant);
        report.setOverallCompliant(allCompliant);

        // 记录所有变换步骤（完整的处理链路）
        report.setTransformationChain(buildTransformationChain(upstream));

        return report;
    }

    private DataSourceCompliance checkDataSourceCompliance(LineageNode source) {
        Map<String, Object> metadata = JsonUtils.fromJson(
            source.getMetadata(), Map.class);

        DataSourceCompliance compliance = new DataSourceCompliance();
        compliance.setDataSourceId(source.getNodeId());
        compliance.setDataSourceName(source.getAssetName());

        // 检查数据授权协议
        boolean hasLicense = metadata.containsKey("dataLicense");
        // 检查数据采集时间（不能用过期授权的数据）
        boolean licenseValid = checkLicenseValidity(metadata);
        // 检查是否通过了隐私评审
        boolean privacyApproved = Boolean.TRUE.equals(metadata.get("privacyApproved"));

        compliance.setHasLicense(hasLicense);
        compliance.setLicenseValid(licenseValid);
        compliance.setPrivacyApproved(privacyApproved);
        compliance.setCompliant(hasLicense && licenseValid && privacyApproved);

        return compliance;
    }
}

五、血缘数据的存储方案选型

5.1 关系型数据库 vs 图数据库

数据血缘本质是图，用图数据库（Neo4j、Amazon Neptune）来存是理论上的最优选择。但大多数团队不想引入新的基础设施，用关系型数据库（MySQL/PostgreSQL）加合理的索引也完全可以胜任中小规模的血缘场景。

我们实际用的是 MySQL + 邻接表模式，在节点数不超过百万、边不超过千万的规模下，追溯查询的响应时间在 100ms 以内，完全够用。

超过这个规模，或者查询模式非常复杂（如多跳联合查询），才建议上图数据库。

-- 关键索引设计
CREATE INDEX idx_edge_source ON lineage_edge(source_node_id);
CREATE INDEX idx_edge_target ON lineage_edge(target_node_id);
CREATE INDEX idx_node_asset ON lineage_node(asset_name, asset_version);
CREATE INDEX idx_node_type ON lineage_node(node_type, created_at);

5.2 血缘数据的保留策略

血缘数据会持续增长，也需要有保留策略：

模型节点和关键数据集节点：永久保留
中间处理节点（清洗、特征工程）：保留 1 年
在线推理血缘（如果记录的话）：保留 3 个月
变换边：与对应节点同生命周期

六、踩坑经验

坑一：血缘采集是同步的，影响了主链路性能

最早实现时，每次数据写入都同步调用血缘服务写 MySQL，把主链路的延迟从 50ms 拖到了 200ms。后来改成异步写入：主链路只把血缘事件发到内存队列，由后台线程批量写入，主链路完全不感知。

坑二：血缘断链——中间有一个服务没接入

血缘链条只要断一环，溯源就失效了。我们用的解决方案是定期运行"血缘完整性检查"：扫描所有模型节点，对于没有追溯到数据源的，触发告警要求补充血缘。

坑三：相同名字的资产被重复注册为不同节点

不同服务用不同方式命名同一份数据（大小写、路径格式不一致），导致血缘图里出现了重复节点，血缘链条在这里"分叉"了。解决方案：统一资产命名规范，并在注册节点时做标准化处理（统一小写、统一路径分隔符）。

七、小结

数据血缘追踪是 AI 系统走向生产成熟度的重要标志。它解决的不只是"查问题时找到锅在哪里"，更深层的价值是：

面向监管的合规审计
数据质量问题的快速影响范围评估
数据资产的全局视图（哪些数据真正在被使用）

别等到出了问题再补，那时候代价是翻倍的。