第1750篇：AI数据管道的成本优化——冷热数据分层与计算资源调度

老张2026/4/30大约 12 分钟

第1750篇：AI数据管道的成本优化——冷热数据分层与计算资源调度

去年年底的时候，我们团队做了一次成本复盘，结果让大家都捏了一把汗：AI 数据管道每个月在云上烧掉的钱，差不多等于两个工程师的人力成本。其中最大的两块，一个是存储（大量中间数据和向量数据重复存储），一个是计算（Embedding 生成和特征计算的资源浪费）。

做了三个月的成本优化，把这个数字压下来了 40%。这篇文章把我们做的这些事情完整写出来。

一、先搞清楚钱花在哪里

优化之前必须先做成本分析，不然优化方向都不对。

我们的 AI 数据管道的成本构成大概是这样：

存储成本（约 45%）
  ├── 对象存储（S3）：中间数据、模型快照、历史版本
  ├── 向量数据库（Milvus on ECS）：索引数据 + 内存
  └── MySQL/Redis：特征和元数据

计算成本（约 38%）
  ├── Embedding 生成（OpenAI API / 自托管模型）
  ├── Flink 实时计算集群
  ├── Airflow Worker 节点
  └── 模型训练（GPU 实例）

网络成本（约 12%）
  └── 跨 AZ / 跨区域数据传输

其他（约 5%）
  └── 监控、日志、运维工具

每一类成本的优化手段不一样，必须分开来看。

二、冷热数据分层：存储成本的核心优化

2.1 为什么要分层

所有数据用同一种存储是最大的浪费。高性能的 SSD 存储每 GB 成本是对象存储的 10-20 倍，但大量数据根本不需要这么高的性能。

数据访问频率的分布通常是极度不均匀的：20% 的热数据占了 80% 的访问量，80% 的冷数据几乎没人访问。把冷数据从贵的存储迁移到便宜的存储，是性价比最高的成本优化手段。

2.2 分层策略设计

对应的成本比较（以 AWS 为例，数字仅供参考）：

热层（S3 Standard）：$0.023/GB/月
温层（S3 Standard-IA）：$0.0125/GB/月（降低 46%）
冷层（S3 Glacier Instant）：$0.004/GB/月（降低 83%）
归档层（S3 Glacier Deep Archive）：$0.00099/GB/月（降低 96%）

2.3 Java 实现冷热分层管理

@Service
public class DataTierManager {

    @Autowired
    private StorageAccessTracker accessTracker;

    @Autowired
    private S3Client s3Client;

    /**
     * 定时执行分层迁移（每天凌晨）
     */
    @Scheduled(cron = "0 0 1 * * ?")
    public void runTieringJob() {
        LocalDateTime now = LocalDateTime.now();

        // 1. 热 -> 温：7 天内未访问的对象迁移到 IA
        migrateToWarmTier(now.minusDays(7));

        // 2. 温 -> 冷：30 天内未访问的对象迁移到 Glacier Instant
        migrateToColdTier(now.minusDays(30));

        // 3. 冷 -> 归档：90 天内未访问的对象迁移到 Glacier Deep Archive
        migrateToArchiveTier(now.minusDays(90));

        // 4. 过期数据清理：超过 365 天的非必留数据删除
        deleteExpiredData(now.minusDays(365));
    }

    private void migrateToWarmTier(LocalDateTime threshold) {
        // 查找满足迁移条件的对象（最后访问时间早于阈值）
        List<StorageObject> candidates = accessTracker
            .findUnacccessedSince(StorageTier.HOT, threshold);

        for (StorageObject obj : candidates) {
            // 检查数据类型，某些数据必须保持在热层
            if (mustKeepHot(obj)) continue;

            try {
                // S3 通过修改存储类来实现分层（无需复制文件）
                s3Client.copyObject(CopyObjectRequest.builder()
                    .sourceBucket(obj.getBucket())
                    .sourceKey(obj.getKey())
                    .destinationBucket(obj.getBucket())
                    .destinationKey(obj.getKey())
                    .storageClass(StorageClass.STANDARD_IA)
                    .build());

                accessTracker.updateTier(obj.getKey(), StorageTier.WARM);
                log.debug("迁移到温层: {}", obj.getKey());

            } catch (Exception e) {
                log.error("分层迁移失败: {}", obj.getKey(), e);
            }
        }

        log.info("热->温迁移完成: {} 个对象", candidates.size());
    }

    private boolean mustKeepHot(StorageObject obj) {
        // 以下类型的数据始终保持在热层：
        // 1. 当前使用的模型版本
        // 2. 最近 7 天的特征快照
        // 3. 被标记为 permanent 的资产
        return obj.getTags().containsKey("keep-hot")
            || "CURRENT_MODEL".equals(obj.getTags().get("data-type"));
    }
}

2.4 向量数据库的冷热分层

Milvus 的索引数据放在内存里，成本很高。可以对不常用的向量集合做冷处理：

@Service
public class VectorDbTierService {

    @Autowired
    private MilvusClient milvusClient;

    /**
     * 将访问频率低的集合从内存卸载（降低内存占用）
     * 查询时重新加载（有延迟代价）
     */
    @Scheduled(cron = "0 30 2 * * ?")
    public void optimizeVectorMemory() {
        List<String> allCollections = listCollections();

        for (String collection : allCollections) {
            CollectionAccessStats stats = accessTracker.getStats(collection);

            // 过去 24 小时查询次数少于 10 次的集合，从内存卸载
            if (stats.getQueryCount24h() < 10) {
                releaseCollection(collection);
                log.info("集合从内存卸载: {}, 24h查询次数: {}",
                    collection, stats.getQueryCount24h());
            }
        }
    }

    /**
     * 查询时自动加载集合（按需加载）
     */
    public SearchResponse searchWithAutoLoad(String collection,
                                              float[] queryVector, int topK) {
        // 检查集合是否已加载
        LoadState state = getLoadState(collection);

        if (state == LoadState.NotLoad) {
            // 按需加载（有几秒延迟）
            log.info("按需加载集合: {}", collection);
            loadCollection(collection);
        }

        return doSearch(collection, queryVector, topK);
    }

    private void releaseCollection(String collection) {
        milvusClient.releaseCollection(
            ReleaseCollectionParam.newBuilder()
                .withCollectionName(collection)
                .build());
    }

    private void loadCollection(String collection) {
        milvusClient.loadCollection(
            LoadCollectionParam.newBuilder()
                .withCollectionName(collection)
                .withSyncLoad(true)
                .build());
    }
}

三、Embedding 成本的专项优化

Embedding 生成是 AI 数据管道里通常最贵的计算操作之一。

3.1 请求缓存

最简单的优化：相同的文本只 Embedding 一次。

@Service
public class EmbeddingService {

    @Autowired
    private RedisTemplate<String, float[]> redisCache;

    @Autowired
    private EmbeddingApiClient apiClient;

    @Autowired
    private MeterRegistry meterRegistry;

    private static final Duration CACHE_TTL = Duration.ofDays(30);

    /**
     * 批量 Embedding，优先从缓存取
     */
    public List<float[]> batchEmbed(List<String> texts) {
        List<float[]> results = new ArrayList<>(texts.size());
        List<Integer> uncachedIndices = new ArrayList<>();
        List<String> uncachedTexts = new ArrayList<>();

        // 先查缓存
        for (int i = 0; i < texts.size(); i++) {
            String cacheKey = "emb:" + DigestUtils.md5Hex(texts.get(i));
            float[] cached = redisCache.opsForValue().get(cacheKey);

            if (cached != null) {
                results.add(cached);
                meterRegistry.counter("embedding.cache.hit").increment();
            } else {
                results.add(null);  // 占位
                uncachedIndices.add(i);
                uncachedTexts.add(texts.get(i));
                meterRegistry.counter("embedding.cache.miss").increment();
            }
        }

        // 批量 API 调用（只处理未命中的）
        if (!uncachedTexts.isEmpty()) {
            List<float[]> apiResults = callEmbeddingApi(uncachedTexts);

            // 写缓存 + 填充结果
            for (int i = 0; i < uncachedIndices.size(); i++) {
                int originalIndex = uncachedIndices.get(i);
                float[] embedding = apiResults.get(i);
                results.set(originalIndex, embedding);

                // 异步写缓存
                String cacheKey = "emb:" + DigestUtils.md5Hex(uncachedTexts.get(i));
                redisCache.opsForValue().set(cacheKey, embedding, CACHE_TTL);
            }
        }

        double cacheHitRate = 1.0 - (double) uncachedTexts.size() / texts.size();
        log.debug("Embedding 缓存命中率: {:.1f}%", cacheHitRate * 100);

        return results;
    }
}

3.2 按需 Embedding vs 预计算

不是所有数据都需要预先 Embedding，按访问频率来决定：

@Service
public class EmbeddingScheduler {

    /**
     * 优先级队列：高频访问的文档优先 Embedding
     */
    private final PriorityBlockingQueue<EmbeddingTask> taskQueue =
        new PriorityBlockingQueue<>(1000,
            Comparator.comparingInt(EmbeddingTask::getPriority).reversed());

    @Scheduled(fixedDelay = 5000)
    public void processEmbeddingQueue() {
        if (taskQueue.isEmpty()) return;

        // 批量取出任务（最多 100 条）
        List<EmbeddingTask> batch = new ArrayList<>();
        taskQueue.drainTo(batch, 100);

        if (batch.isEmpty()) return;

        // 批量 Embedding（降低 API 调用次数）
        List<String> texts = batch.stream()
            .map(EmbeddingTask::getText)
            .collect(Collectors.toList());

        List<float[]> embeddings = embeddingService.batchEmbed(texts);

        // 存储结果
        for (int i = 0; i < batch.size(); i++) {
            vectorStoreService.upsert(
                batch.get(i).getDocumentId(), embeddings.get(i));
        }
    }

    /**
     * 提交 Embedding 任务，高频文档高优先级
     */
    public void submit(String documentId, String text,
                        boolean isHighPriority) {
        EmbeddingTask task = new EmbeddingTask();
        task.setDocumentId(documentId);
        task.setText(text);
        task.setPriority(isHighPriority ? 10 : 1);
        task.setSubmittedAt(System.currentTimeMillis());
        taskQueue.offer(task);
    }
}

3.3 使用更小的 Embedding 模型

text-embedding-ada-002（1536 维）的效果很好，但成本也高。对于很多内部场景，更小的模型（如 text-embedding-3-small 的 256 维）效果差不了多少，成本却低很多：

模型	维度	相对成本	适用场景
text-embedding-3-large	3072	很高	精度要求极高的生产场景
text-embedding-3-small（1536维）	1536	中	通用场景
text-embedding-3-small（256维）	256	低	内部检索、分类等精度要求中等的场景
自托管小模型（如 m3e-base）	768	极低（只有推理成本）	私有化部署、成本敏感场景

四、计算资源的弹性调度

4.1 Airflow 的动态 Worker 扩缩容

批量 Embedding 和特征计算通常集中在特定时间段（凌晨批跑），其他时间 Worker 节点大量空闲。用 Kubernetes 配合 Airflow KubernetesExecutor 实现按需扩缩容：

# Airflow DAG 里指定计算资源
embedding_task = PythonOperator(
    task_id='generate_embeddings',
    python_callable=generate_embeddings,
    executor_config={
        "KubernetesExecutor": {
            "request_memory": "2Gi",
            "request_cpu": "1",
            "limit_memory": "4Gi",
            "limit_cpu": "2",
            # 使用 Spot 实例降低成本（有被回收风险，需要任务支持重试）
            "tolerations": [{
                "key": "spot-instance",
                "operator": "Equal",
                "value": "true",
                "effect": "NoSchedule"
            }]
        }
    }
)

4.2 训练任务的 Spot 实例优化

GPU 训练任务是成本最高的单项，使用 Spot 实例（阿里云 Spot、AWS Spot Instance）可以降低 60-80% 的 GPU 成本，代价是实例可能被随时回收。

关键是让训练任务支持断点续训：

@Component
public class FaultTolerantTrainer {

    @Autowired
    private CheckpointManager checkpointManager;

    /**
     * 支持断点续训的训练循环
     */
    public void train(TrainingConfig config) {
        // 尝试恢复最近的 checkpoint
        TrainingCheckpoint checkpoint = checkpointManager
            .loadLatestCheckpoint(config.getRunId());

        int startEpoch = 0;
        if (checkpoint != null) {
            startEpoch = checkpoint.getEpoch() + 1;
            log.info("从 checkpoint 恢复训练: epoch={}", startEpoch);
            restoreModelState(checkpoint);
        }

        for (int epoch = startEpoch; epoch < config.getTotalEpochs(); epoch++) {
            runEpoch(epoch, config);

            // 每 N 个 epoch 保存一次 checkpoint
            if ((epoch + 1) % config.getCheckpointInterval() == 0) {
                checkpointManager.save(config.getRunId(), epoch,
                    getCurrentModelState());
                log.info("Checkpoint 保存成功: epoch={}", epoch);
            }

            // 检测 Spot 实例回收信号（AWS 会提前 2 分钟发送终止通知）
            if (isSpotTerminationPending()) {
                log.warn("检测到 Spot 实例回收信号，保存 checkpoint 并退出");
                checkpointManager.save(config.getRunId(), epoch,
                    getCurrentModelState());
                return;  // 让外部重新调度
            }
        }
    }

    private boolean isSpotTerminationPending() {
        try {
            // 查询 EC2 实例元数据服务，检查终止通知
            HttpResponse<String> response = httpClient.send(
                HttpRequest.newBuilder()
                    .uri(URI.create(
                        "http://169.254.169.254/latest/meta-data/" +
                        "spot/termination-time"))
                    .build(),
                HttpResponse.BodyHandlers.ofString());
            return response.statusCode() == 200;
        } catch (Exception e) {
            return false;
        }
    }
}

4.3 特征计算的增量化

从每次全量重算特征，改成增量计算，是减少计算量最直接的手段：

@Service
public class IncrementalFeatureService {

    @Autowired
    private FeatureVersionRepository featureVersionRepo;

    /**
     * 增量更新特征：只重算有变化的实体的特征
     */
    public void incrementalUpdate(LocalDateTime lastRunTime) {
        // 找出 lastRunTime 之后有数据变化的实体 ID
        Set<String> changedEntityIds = getChangedEntities(lastRunTime);

        log.info("增量特征更新：发现 {} 个实体有变化", changedEntityIds.size());

        if (changedEntityIds.isEmpty()) return;

        // 只对变化的实体重算特征
        int batchSize = 500;
        List<String> entityList = new ArrayList<>(changedEntityIds);

        for (int i = 0; i < entityList.size(); i += batchSize) {
            List<String> batch = entityList.subList(
                i, Math.min(i + batchSize, entityList.size()));

            List<FeatureRecord> features = computeFeatures(batch);
            featureVersionRepo.batchUpsert(features);

            log.debug("增量更新进度: {}/{}", Math.min(i + batchSize, entityList.size()),
                entityList.size());
        }
    }

    /**
     * 找出哪些实体在指定时间后发生了变化
     * 通过数据库的 updated_at 字段或 CDC binlog 来判断
     */
    private Set<String> getChangedEntities(LocalDateTime since) {
        Set<String> changed = new HashSet<>();

        // 从各数据源查询变更实体
        changed.addAll(orderService.getChangedUserIds(since));
        changed.addAll(behaviorService.getActiveUserIds(since));
        changed.addAll(profileService.getChangedUserIds(since));

        return changed;
    }
}

五、数据管道的成本监控

5.1 成本归因：搞清楚每个任务花了多少钱

不做成本归因，只是笼统地"这个月花了多少"，没有任何优化价值。需要精确到每个 DAG、每个 Task、每个数据集。

@Component
public class CostAttributionTracker {

    @Autowired
    private CloudCostService cloudCostService;

    @Autowired
    private MeterRegistry meterRegistry;

    /**
     * 记录任务的资源使用，用于成本归因
     */
    @Around("@annotation(CostTracked)")
    public Object trackCost(ProceedingJoinPoint pjp) throws Throwable {
        String taskName = pjp.getSignature().toShortString();
        long startTime = System.currentTimeMillis();
        long startMemory = getCurrentMemoryUsage();

        Object result = pjp.proceed();

        long duration = System.currentTimeMillis() - startTime;
        long memoryUsed = getCurrentMemoryUsage() - startMemory;

        // 记录到 Prometheus，Grafana 里可以按任务维度统计
        meterRegistry.timer("task.duration", "task", taskName)
            .record(duration, TimeUnit.MILLISECONDS);

        meterRegistry.gauge("task.memory_mb", Tags.of("task", taskName),
            memoryUsed / 1024 / 1024);

        // 估算成本（根据实例类型和资源使用量）
        double estimatedCost = estimateCost(duration, memoryUsed);
        meterRegistry.counter("task.estimated_cost_usd", "task", taskName)
            .increment(estimatedCost);

        log.debug("任务完成: {} 耗时 {}ms, 估算成本 ${:.4f}",
            taskName, duration, estimatedCost);

        return result;
    }

    private double estimateCost(long durationMs, long memoryBytes) {
        // 根据当前实例类型的按秒计费价格估算
        double instanceCostPerSecond = getCurrentInstanceCostPerSecond();
        return (durationMs / 1000.0) * instanceCostPerSecond;
    }

    private double getCurrentInstanceCostPerSecond() {
        String instanceType = System.getenv("INSTANCE_TYPE");
        // 这里维护一个实例类型 -> 每秒成本的映射
        Map<String, Double> costMap = Map.of(
            "c5.xlarge", 0.00006_0,
            "c5.2xlarge", 0.00012_0,
            "p3.2xlarge", 0.00208_3   // GPU 实例
        );
        return costMap.getOrDefault(instanceType, 0.0001);
    }
}

5.2 成本告警和预算控制

@Service
public class CostBudgetController {

    // 每月预算（美元）
    private static final double MONTHLY_BUDGET = 5000.0;

    @Scheduled(cron = "0 0 * * * ?")   // 每小时检查
    public void checkBudget() {
        LocalDate now = LocalDate.now();
        LocalDate monthStart = now.withDayOfMonth(1);

        double monthToDateCost = cloudCostService
            .getTotalCost(monthStart.atStartOfDay(), LocalDateTime.now());

        // 预测月底总花费
        int daysElapsed = now.getDayOfMonth();
        int totalDays = now.lengthOfMonth();
        double projectedCost = monthToDateCost / daysElapsed * totalDays;

        meterRegistry.gauge("cost.month_to_date_usd",
            monthToDateCost);
        meterRegistry.gauge("cost.projected_monthly_usd",
            projectedCost);

        // 预测超出预算 20%，告警
        if (projectedCost > MONTHLY_BUDGET * 1.2) {
            alertService.sendAlert(AlertLevel.WARNING,
                String.format("成本告警：本月预测花费 $%.2f，超出预算 $%.2f (%.1f%%)",
                    projectedCost, MONTHLY_BUDGET,
                    (projectedCost / MONTHLY_BUDGET - 1) * 100));
        }

        // 已用完预算的 80%，降级非紧急任务
        if (monthToDateCost > MONTHLY_BUDGET * 0.8) {
            enableCostSavingMode();
        }
    }

    /**
     * 成本节约模式：降低非核心任务的资源配置
     */
    private void enableCostSavingMode() {
        log.warn("进入成本节约模式：停止非必要 Embedding 预计算，降低 Flink 并行度");

        // 通过配置中心动态修改各服务的资源参数
        configCenterClient.setConfig("embedding.precompute.enabled", "false");
        configCenterClient.setConfig("flink.parallelism", "2");   // 从 8 降到 2
        configCenterClient.setConfig("airflow.max_active_tasks", "4");  // 从 20 降到 4
    }
}

六、几个实际有效的成本优化手段

总结几个我们实践后效果最明显的：

1. Embedding 去重缓存

通过分析，我们发现有大量重复文本被多次 Embedding（来自不同数据源的重复条目）。加了全局缓存后，Embedding API 调用量降低了 35%。

2. 向量维度压缩

把 text-embedding-3-small 从默认的 1536 维压缩到 512 维（通过 API 参数 dimensions=512），向量存储空间减少 67%，召回率下降不到 1%。

3. 冷集合释放

Milvus 里有 12 个集合，其中 5 个是历史版本，每天几乎没有查询。把它们从内存中释放后，Milvus 的 ECS 内存占用从 48GB 降到了 20GB，节省了一台 32GB 的节点。

4. Airflow 任务 Spot 化

把所有 CPU 密集型的数据处理任务迁移到 Spot 实例，节省了 60% 的计算成本。对于有重试逻辑的任务，Spot 回收不是大问题。

5. S3 生命周期策略

给所有 S3 Bucket 设置了生命周期规则：中间数据 7 天转 IA，30 天转 Glacier，90 天删除。数据存储成本降低了 45%。

// 通过 Java SDK 为 S3 Bucket 设置生命周期规则
public void setupS3LifecyclePolicy(String bucketName) {
    BucketLifecycleConfiguration config = BucketLifecycleConfiguration.builder()
        .rules(
            LifecycleRule.builder()
                .id("intermediate-data-tiering")
                .filter(LifecycleFilter.builder()
                    .prefix("intermediate/")  // 只对中间数据应用
                    .build())
                .status(ExpirationStatus.ENABLED)
                .transitions(
                    Transition.builder()
                        .days(7)
                        .storageClass(TransitionStorageClass.STANDARD_IA)
                        .build(),
                    Transition.builder()
                        .days(30)
                        .storageClass(TransitionStorageClass.GLACIER_IR)
                        .build()
                )
                .expiration(LifecycleExpiration.builder().days(90).build())
                .build()
        )
        .build();

    s3Client.putBucketLifecycleConfiguration(
        PutBucketLifecycleConfigurationRequest.builder()
            .bucket(bucketName)
            .lifecycleConfiguration(config)
            .build());

    log.info("S3 生命周期策略已设置: {}", bucketName);
}

七、成本优化的优先级建议

不是所有优化都值得做，有的优化工程量很大但节省很少。从我们的经验来看，按性价比排序：

优先级1（立竿见影，工作量小）：
  - S3 生命周期策略（配置一次，永久生效）
  - Embedding 缓存（几天工作量，降低 30-40% API 调用）
  - 向量维度压缩（改一行参数）

优先级2（效果明显，中等工作量）：
  - Milvus 冷集合释放（一周工作量）
  - 增量特征计算（一到两周，需要仔细设计）
  - Airflow Spot 化（需要确保任务幂等性）

优先级3（效果大但工程量重）：
  - 冷热数据分层管理系统（一两个月）
  - 训练任务断点续训（一个月）
  - 成本归因和预算控制（两到三周）

建议先把优先级 1 全部做了，通常能降低 20-30% 成本，然后再根据具体情况决定是否做更重的优化。

八、小结

AI 数据管道的成本优化不是一锤子买卖，而是需要持续关注的工程工作。搭建成本可见性（监控、归因）是前提，有了可见性才能找到优化点。

冷热分层解决存储成本，Embedding 缓存和增量计算解决计算成本，Spot 实例和弹性伸缩解决资源浪费。这几板斧结合起来，降低 30-50% 的总成本是完全可以实现的目标。