Spring Cloud Stream与Kafka：消息驱动微服务的背压与重试机制

老张2026/4/30大约 9 分钟

Spring Cloud Stream与Kafka：消息驱动微服务的背压与重试机制

适读人群：有微服务实战经验的后端工程师 | 阅读时长：约24分钟 | Spring Boot 3.2 / Spring Cloud Stream 4.x

开篇故事

有次大促期间，我们的订单服务把消息发到Kafka，下游的积分服务负责消费并给用户加积分。活动刚开始，消息量爆炸性增长，积分服务处理速度跟不上，消费者组的Lag（积压量）在十分钟内从0涨到了几十万。

更麻烦的是，积分服务里有些消息处理失败（下游数据库偶发超时），失败后直接throw Exception，Spring Cloud Stream默认行为是无限重试，这些失败的消息不停地被重新投递，把消费线程全占满了，导致后续正常的消息也处理不了。Lag继续涨，系统越来越慢，最后积分服务几乎完全停止消费。

那次事故给我上了一课：消息驱动架构里，背压控制和重试策略是两个绕不过去的核心问题，必须在设计阶段就考虑清楚，不能等到出了问题再处理。

一、核心问题分析

Spring Cloud Stream 4.x（基于函数式编程模型）与Kafka集成时，有两个高频踩坑领域：

背压控制：消费者处理速度 < 生产者发送速度，Lag持续增长。Kafka消费者的max.poll.records（每次拉取最大记录数）和fetch.max.bytes控制了每次拉取的数据量，配合消费者线程数，就构成了背压控制的核心参数。

重试机制：消费失败时，应该重试多少次？重试间隔是多少？重试全部失败后，消息去哪里（死信队列）？这些策略如果没有配置，默认行为往往会导致无限重试或消息丢失。

Spring Cloud Stream 4.x引入了响应式编程支持，背压可以通过Reactor的背压机制来处理，但对于大多数业务场景，命令式编程（Consumer<T>）配合合理的线程池和重试配置已经足够。

二、原理深度解析

2.1 Spring Cloud Stream消息处理架构

2.2 背压控制数据流

2.3 Kafka重试机制

三、完整代码实现

3.1 项目依赖

<dependencies>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-stream</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-stream-binder-kafka</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.kafka</groupId>
        <artifactId>spring-kafka</artifactId>
    </dependency>
</dependencies>

3.2 生产者（函数式模型）

package com.laozhang.stream.producer;

import com.laozhang.stream.dto.OrderEvent;
import lombok.extern.slf4j.Slf4j;
import org.springframework.cloud.stream.function.StreamBridge;
import org.springframework.stereotype.Service;

@Slf4j
@Service
public class OrderEventProducer {

    private final StreamBridge streamBridge;

    public OrderEventProducer(StreamBridge streamBridge) {
        this.streamBridge = streamBridge;
    }

    /**
     * 发送订单创建事件
     * binding名称：orderCreated-out-0
     * 对应application.yml里的spring.cloud.stream.bindings.orderCreated-out-0配置
     */
    public void sendOrderCreatedEvent(OrderEvent event) {
        boolean sent = streamBridge.send("orderCreated-out-0", event);
        if (sent) {
            log.info("订单事件发送成功，orderId={}", event.getOrderId());
        } else {
            log.error("订单事件发送失败，orderId={}", event.getOrderId());
            // 实际生产中应该有补偿机制（消息表+定时重发）
        }
    }

    /**
     * 发送带消息键的事件（同一订单的消息路由到同一分区）
     */
    public void sendOrderUpdatedEvent(OrderEvent event) {
        org.springframework.messaging.Message<OrderEvent> message =
            org.springframework.messaging.support.MessageBuilder
                .withPayload(event)
                // 设置消息键，同一orderId的消息路由到同一分区，保证顺序消费
                .setHeader(
                    org.springframework.kafka.support.KafkaHeaders.MESSAGE_KEY,
                    event.getOrderId().getBytes()
                )
                .build();
        streamBridge.send("orderUpdated-out-0", message);
    }
}

3.3 消费者（函数式模型）

package com.laozhang.stream.consumer;

import com.laozhang.stream.dto.OrderEvent;
import lombok.extern.slf4j.Slf4j;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.messaging.Message;

import java.util.function.Consumer;

@Slf4j
@Configuration
public class OrderEventConsumer {

    private final PointService pointService;

    public OrderEventConsumer(PointService pointService) {
        this.pointService = pointService;
    }

    /**
     * 消费订单创建事件，给用户加积分
     * Bean名称必须和application.yml中的function.definition匹配
     */
    @Bean
    public Consumer<Message<OrderEvent>> processOrderCreated() {
        return message -> {
            OrderEvent event = message.getPayload();
            log.info("收到订单创建事件，orderId={}", event.getOrderId());

            try {
                pointService.addPoints(event.getUserId(), event.getAmount());
                log.info("积分添加成功，userId={}，amount={}", event.getUserId(), event.getAmount());
            } catch (Exception e) {
                // 抛出异常，触发重试机制
                // 注意：如果是业务异常（比如用户不存在），不应该重试，应该直接发DLQ
                log.error("积分添加失败，orderId={}，准备重试", event.getOrderId(), e);
                throw new RuntimeException("积分添加失败，触发重试", e);
            }
        };
    }

    /**
     * 死信队列消费者：处理多次重试后仍然失败的消息
     */
    @Bean
    public Consumer<Message<OrderEvent>> processOrderCreatedDlt() {
        return message -> {
            OrderEvent event = message.getPayload();
            log.error("消息进入死信队列，orderId={}，需要人工处理", event.getOrderId());
            // 发告警通知、写数据库记录异常消息等
            saveDlqRecord(event, message);
        };
    }

    private void saveDlqRecord(OrderEvent event, Message<OrderEvent> message) {
        // 记录到数据库，人工排查
        log.error("DLQ记录：orderId={}，headers={}", event.getOrderId(), message.getHeaders());
    }
}

3.4 完整的application.yml配置

spring:
  cloud:
    stream:
      # 声明所有Function Bean
      function:
        definition: processOrderCreated;processOrderCreatedDlt

      # Binding配置
      bindings:
        # 生产者binding
        orderCreated-out-0:
          destination: order-created-events
          content-type: application/json
          producer:
            partition-count: 3
            partition-key-expression: headers['kafka_messageKey']

        orderUpdated-out-0:
          destination: order-updated-events
          content-type: application/json

        # 消费者binding
        processOrderCreated-in-0:
          destination: order-created-events
          group: points-service-group    # 消费者组，实现负载均衡
          content-type: application/json
          consumer:
            # 并发消费线程数（背压控制关键参数）
            concurrency: 5
            # 是否分区消费
            partitioned: false
            # 最大尝试次数（包括第一次，所以实际重试次数=maxAttempts-1）
            max-attempts: 4
            # 重试间隔配置（毫秒）
            back-off-initial-interval: 1000
            back-off-max-interval: 10000
            back-off-multiplier: 2.0   # 指数退避：1s, 2s, 4s

        # 死信队列binding（命名规则：原topic.DLT）
        processOrderCreatedDlt-in-0:
          destination: order-created-events.DLT
          group: points-service-dlt-group
          content-type: application/json

      # Kafka Binder特定配置
      kafka:
        binder:
          brokers: ${KAFKA_BROKERS:localhost:9092}
          auto-create-topics: true
          configuration:
            # 生产者配置
            acks: all              # 等待所有副本确认
            retries: 3
            enable.idempotence: true   # 幂等生产者
        bindings:
          processOrderCreated-in-0:
            consumer:
              # 每次拉取最大记录数（背压关键参数）
              max-poll-records: 50
              # 两次poll之间的最大间隔，超过则认为消费者失效
              # 必须大于单条消息的最大处理时间
              max-poll-interval-ms: 60000
              # 提交模式：RECORD（每条提交）或BATCH（批量提交）
              ack-mode: RECORD
              # 启用死信队列
              enable-dlq: true
              dlq-name: order-created-events.DLT
              # DLQ发送失败时的处理
              dlq-producer-properties:
                configuration:
                  acks: all

3.5 自定义背压控制：批量消费

对于高吞吐量场景，批量消费比单条消费效率更高：

package com.laozhang.stream.consumer;

import com.laozhang.stream.dto.OrderEvent;
import lombok.extern.slf4j.Slf4j;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

import java.util.List;
import java.util.function.Consumer;

@Slf4j
@Configuration
public class BatchOrderEventConsumer {

    private final PointService pointService;

    public BatchOrderEventConsumer(PointService pointService) {
        this.pointService = pointService;
    }

    /**
     * 批量消费模式
     * 需要在binding配置里设置batch-mode: true
     */
    @Bean
    public Consumer<List<OrderEvent>> processBatchOrders() {
        return events -> {
            log.info("批量处理订单事件，批次大小={}", events.size());
            try {
                // 批量处理，减少数据库往返次数
                pointService.batchAddPoints(events.stream()
                    .map(e -> new PointAddRequest(e.getUserId(), e.getAmount()))
                    .toList()
                );
                log.info("批量处理完成");
            } catch (Exception e) {
                log.error("批量处理失败，批次大小={}", events.size(), e);
                throw e;
            }
        };
    }
}

四、生产配置与调优

4.1 Kafka消费者背压参数矩阵

参数	含义	推荐值
concurrency	并发消费线程数	等于Partition数或其因子
max-poll-records	每次poll拉取记录数	50-200
max-poll-interval-ms	两次poll最大间隔	> 单条最大处理时间 * max-poll-records
max-attempts	最大尝试次数	3-5

4.2 消息幂等性设计

// 消费者在处理消息前检查幂等键
@Bean
public Consumer<Message<OrderEvent>> processOrderCreated() {
    return message -> {
        String idempotencyKey = "processed:order:" + event.getOrderId();
        if (Boolean.TRUE.equals(redisTemplate.hasKey(idempotencyKey))) {
            log.info("消息已处理，跳过，orderId={}", event.getOrderId());
            return;
        }
        // 业务处理
        pointService.addPoints(event.getUserId(), event.getAmount());
        // 标记已处理（TTL设为消息最大延迟时间+业务TTL）
        redisTemplate.opsForValue().set(idempotencyKey, "1", 24, TimeUnit.HOURS);
    };
}

五、踩坑实录

坑一：无限重试导致消费线程全部被阻塞。

这就是开篇故事的情况。Spring Cloud Stream 3.x之前默认是无限重试，一条处理失败的消息会永远占用消费线程重试，后续消息全部积压。

解决方案：配置max-attempts限制重试次数，配置enable-dlq: true让超出重试次数的消息进入死信队列，然后继续消费后续消息。

坑二：max-poll-interval-ms设置太小，消费者频繁被Kafka踢出。

如果单条消息处理时间超过max.poll.interval.ms，Kafka会认为这个消费者已经失活，把它踢出消费者组并触发Rebalance。Rebalance期间所有消费者暂停消费，会导致明显的处理延迟。

处理时间长的场景，max.poll.interval.ms要设成：单条消息最大处理时间 × max.poll.records，并留一定余量。

坑三：Function Bean名称和binding名称不匹配，消费者没有工作。

Spring Cloud Stream 4.x的函数式模型里，binding名称是{beanName}-in-{index}格式。如果Bean名称是processOrderCreated，对应的binding是processOrderCreated-in-0。如果yml里配置的是其他名称，Consumer Function就不会工作，也不报错，非常难排查。

坑四：死信队列消费者也用了相同的消费者组名，导致DLQ消息被循环发回DLQ。

主消费者的消费者组是points-service-group，死信队列消费者错误地也用了points-service-group，导致DLQ里的消息被主消费者再次消费，处理失败后又进DLQ，形成了消息死循环，DLQ里的消息越来越多。

死信队列消费者必须用单独的消费者组名，比如points-service-dlt-group。

六、总结

Spring Cloud Stream与Kafka集成时，背压控制靠concurrency和max-poll-records配合，重试机制靠max-attempts加指数退避加死信队列三件套。消息幂等性是消费者必须实现的兜底能力，防止因重试或Rebalance导致的重复消费。生产环境一定要开启死信队列，保证处理失败的消息有地方去，不影响正常消息流。