熔断器Resilience4j：状态机设计、滑动窗口统计、与Hystrix的差异

老张2026/4/30大约 9 分钟

熔断器Resilience4j：状态机设计、滑动窗口统计、与Hystrix的差异

适读人群：中高级Java工程师 | 阅读时长：约18分钟 | 技术栈：Spring Boot 3.x、Resilience4j 2.x、Micrometer

开篇故事

2020年初，我们把一套核心服务从 Hystrix 迁移到了 Resilience4j。迁移的直接原因是：Netflix 在 2018 年宣布 Hystrix 进入维护模式，不再开发新特性。但真正让我下定决心迁移的，是一次生产事故。

那次事故是这样的：我们的库存服务出现了偶发性超时，每 100 个请求里大概有 3 个会超时（超时率 3%）。我们的 Hystrix 熔断阈值配置的是错误率超过 50% 才触发熔断，于是 3% 的超时率远没达到阈值，熔断器一直处于关闭状态。

但这 3% 的超时请求是阻塞的，每个超时等待 5 秒，订单服务的线程池（隔离用的 Hystrix 独立线程池）慢慢被这些超时请求占满。Hystrix 的线程池队列也慢慢被填满，最终新请求开始被直接拒绝——此时错误率暴增，熔断器才触发。但为时已晚，订单服务已经堆积了大量超时请求，恢复需要额外的时间。

问题的根源是：3% 的超时率本应该触发降级，但 Hystrix 的计数器统计窗口太长、阈值太高，没有及时反应。Resilience4j 的慢调用率熔断（Slow Call Rate Circuit Breaker）可以很好地解决这个问题。

一、核心问题分析

Hystrix 的主要问题

线程池隔离模式的开销：Hystrix 的核心隔离机制是独立线程池，每次调用都需要线程切换，CPU 开销大，在高并发下性能下降明显。

计数器统计不够精准：Hystrix 使用固定时间窗口的桶式统计，时间分辨率不高，对短时间内的故障反应慢。

不再维护：Spring Cloud Netflix 已经进入维护模式，Spring Cloud 2022 开始默认不再包含 Hystrix。

Resilience4j 的核心优势

轻量级：只依赖 Vavr，不依赖 Archaius 等重量级配置框架。 函数式编程风格：装饰器模式，可以组合多种保护策略。 更精准的统计：基于滑动窗口（计数或时间），统计更及时。 慢调用率熔断：可以基于响应时间（而非只基于错误率）触发熔断，解决了开篇故事的问题。

二、原理深度解析

熔断器状态机

CLOSED（关闭）：正常状态，请求正常通过，统计成功/失败/慢调用。
OPEN（打开）：熔断状态，所有请求被直接拒绝，不发起实际调用。等待 waitDurationInOpenState 后进入 HALF_OPEN。
HALF_OPEN（半开）：允许 permittedNumberOfCallsInHalfOpenState 个探测请求通过，根据探测结果决定回到 CLOSED 还是回到 OPEN。

滑动窗口统计

Resilience4j 支持两种滑动窗口：

基于计数的滑动窗口（COUNT_BASED）：统计最近 N 次调用的成功/失败率。实现是一个环形数组，新调用覆盖最旧的调用，O(1) 空间复杂度。

基于时间的滑动窗口（TIME_BASED）：统计最近 N 秒内的调用情况。实现是按秒分桶，每秒一个桶，维护最近 N 个桶，类似 Hystrix 的实现但更精准。

与 Hystrix 的核心差异

维度	Hystrix	Resilience4j
隔离机制	线程池 / 信号量	信号量（推荐）
统计窗口	固定时间窗口（桶式）	滑动窗口（更精准）
慢调用熔断	不支持	支持（基于响应时间）
维护状态	停止维护	活跃维护
函数式支持	否	是（装饰器模式）
与 Spring Boot 集成	Spring Cloud Netflix	Spring Cloud Circuitbreaker
线程切换开销	高（线程池模式）	低（信号量模式）

三、完整代码实现

Maven 依赖

<dependency>
    <groupId>io.github.resilience4j</groupId>
    <artifactId>resilience4j-spring-boot3</artifactId>
    <version>2.1.0</version>
</dependency>
<dependency>
    <groupId>io.github.resilience4j</groupId>
    <artifactId>resilience4j-micrometer</artifactId>
    <version>2.1.0</version>
</dependency>
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-aop</artifactId>
</dependency>

熔断器配置

resilience4j:
  circuitbreaker:
    instances:
      inventory-service:
        # 滑动窗口类型（COUNT_BASED 或 TIME_BASED）
        sliding-window-type: COUNT_BASED
        # 滑动窗口大小（COUNT_BASED：最近N次调用；TIME_BASED：最近N秒）
        sliding-window-size: 100
        # 最小调用次数（达到此数量才开始计算失败率）
        minimum-number-of-calls: 20
        # 失败率阈值（%），超过则触发熔断
        failure-rate-threshold: 50
        # 慢调用率阈值（%），超过则触发熔断
        slow-call-rate-threshold: 80
        # 慢调用时间阈值（ms），超过此时间的调用算慢调用
        slow-call-duration-threshold: 2000ms
        # 熔断后等待时间（ms），之后进入 HALF_OPEN
        wait-duration-in-open-state: 30s
        # HALF_OPEN 状态允许的探测请求数
        permitted-number-of-calls-in-half-open-state: 10
        # 在HALF_OPEN时，成功率达到多少才关闭熔断
        # 不配置则复用 failure-rate-threshold
        # 记录哪些异常为失败（默认所有 Exception）
        record-exceptions:
          - java.lang.Exception
        # 哪些异常不记录为失败
        ignore-exceptions:
          - com.example.exception.BusinessException

  retry:
    instances:
      inventory-service:
        max-attempts: 3
        wait-duration: 500ms
        retry-exceptions:
          - java.net.ConnectException
          - java.net.SocketTimeoutException
        ignore-exceptions:
          - com.example.exception.BusinessException

  bulkhead:
    instances:
      inventory-service:
        max-concurrent-calls: 50    # 最大并发数
        max-wait-duration: 100ms    # 获取信号量最大等待时间

  timelimiter:
    instances:
      inventory-service:
        timeout-duration: 3s        # 调用超时时间
        cancel-running-future: true # 超时后取消 Future

服务调用实现

@Service
@Slf4j
public class InventoryServiceClient {

    @Autowired
    private CircuitBreakerRegistry circuitBreakerRegistry;

    @Autowired
    private RetryRegistry retryRegistry;

    @Autowired
    private BulkheadRegistry bulkheadRegistry;

    @Autowired
    private InventoryFeignClient inventoryFeignClient;

    /**
     * 查询库存（带完整保护：熔断 + 重试 + 舱壁隔离 + 降级）
     */
    public StockResult getStock(Long productId) {
        CircuitBreaker circuitBreaker = circuitBreakerRegistry.circuitBreaker("inventory-service");
        Retry retry = retryRegistry.retry("inventory-service");
        Bulkhead bulkhead = bulkheadRegistry.bulkhead("inventory-service");

        // 组合多种保护策略（注意顺序：舱壁 -> 熔断 -> 重试）
        Supplier<StockResult> decoratedSupplier = Decorators
            .ofSupplier(() -> inventoryFeignClient.getStock(productId))
            .withBulkhead(bulkhead)
            .withCircuitBreaker(circuitBreaker)
            .withRetry(retry)
            .withFallback(
                Arrays.asList(CallNotPermittedException.class,
                               BulkheadFullException.class,
                               Exception.class),
                e -> getFallbackStock(productId, e)
            )
            .decorate();

        return Try.ofSupplier(decoratedSupplier)
            .getOrElse(() -> getFallbackStock(productId, null));
    }

    private StockResult getFallbackStock(Long productId, Throwable t) {
        if (t instanceof CallNotPermittedException) {
            log.warn("熔断器开启，返回降级结果，productId={}", productId);
        } else if (t instanceof BulkheadFullException) {
            log.warn("并发限制，返回降级结果，productId={}", productId);
        } else {
            log.error("库存服务异常，返回降级结果，productId={}", productId, t);
        }
        // 返回降级结果：假设有货，让用户下单，然后异步确认
        return StockResult.unavailable(productId);
    }
}

注解式熔断（简洁版）

@Service
@Slf4j
public class OrderService {

    @CircuitBreaker(name = "inventory-service", fallbackMethod = "createOrderFallback")
    @Retry(name = "inventory-service")
    @TimeLimiter(name = "inventory-service")
    @Bulkhead(name = "inventory-service")
    public CompletableFuture<OrderResult> createOrder(CreateOrderRequest request) {
        return CompletableFuture.supplyAsync(() -> {
            // 调用库存服务
            StockResult stockResult = inventoryFeignClient.deductStock(
                request.getProductId(), request.getQuantity());
            if (!stockResult.isSuccess()) {
                throw new StockInsufficientException("库存不足");
            }
            // 创建订单
            return doCreateOrder(request);
        });
    }

    // 降级方法：方法签名必须与原方法相同，最后多一个 Throwable 参数
    public CompletableFuture<OrderResult> createOrderFallback(
            CreateOrderRequest request, Throwable t) {
        log.warn("创建订单降级，productId={}, cause={}",
            request.getProductId(), t.getClass().getSimpleName());
        return CompletableFuture.completedFuture(
            OrderResult.pendingForRetry(request));
    }

    private OrderResult doCreateOrder(CreateOrderRequest request) {
        // 订单创建逻辑
        return OrderResult.success();
    }
}

熔断器状态监控

@Component
@Slf4j
public class CircuitBreakerMonitor {

    @Autowired
    private CircuitBreakerRegistry circuitBreakerRegistry;

    @Autowired
    private MeterRegistry meterRegistry;

    @PostConstruct
    public void init() {
        // 为所有熔断器注册事件监听
        circuitBreakerRegistry.getAllCircuitBreakers()
            .forEach(this::registerEventListener);

        // 注册新熔断器时也注册监听
        circuitBreakerRegistry.getEventPublisher()
            .onEntryAdded(event -> registerEventListener(event.getAddedEntry()));
    }

    private void registerEventListener(CircuitBreaker cb) {
        cb.getEventPublisher()
            .onStateTransition(event -> {
                log.warn("熔断器状态变化：name={}, {} -> {}",
                    cb.getName(),
                    event.getStateTransition().getFromState(),
                    event.getStateTransition().getToState());

                // 向监控系统上报
                meterRegistry.counter("circuit.breaker.state.transition",
                    "name", cb.getName(),
                    "from", event.getStateTransition().getFromState().name(),
                    "to", event.getStateTransition().getToState().name()
                ).increment();
            })
            .onFailureRateExceeded(event ->
                log.warn("熔断器失败率超阈值：name={}, failureRate={}%",
                    cb.getName(), event.getFailureRate()))
            .onSlowCallRateExceeded(event ->
                log.warn("熔断器慢调用率超阈值：name={}, slowCallRate={}%",
                    cb.getName(), event.getSlowCallRate()));
    }

    /**
     * 定期打印熔断器状态（供 DEBUG 使用）
     */
    @Scheduled(fixedRate = 60_000)
    public void printStatus() {
        circuitBreakerRegistry.getAllCircuitBreakers().forEach(cb -> {
            CircuitBreaker.Metrics metrics = cb.getMetrics();
            log.info("熔断器状态：name={}, state={}, failureRate={}%, " +
                     "slowCallRate={}%, bufferedCalls={}",
                cb.getName(),
                cb.getState(),
                metrics.getFailureRate(),
                metrics.getSlowCallRate(),
                metrics.getNumberOfBufferedCalls());
        });
    }
}

四、生产调优与配置

关键参数调优

sliding-window-size：太小则统计样本不足，容易误触发；太大则对故障反应慢。建议 COUNT_BASED 模式下设 100-200，TIME_BASED 模式下设 10-60 秒。

minimum-number-of-calls：必须足够大，防止系统启动初期因为调用次数少就触发熔断。建议与 sliding-window-size 相同或为其一半。

failure-rate-threshold：根据服务的正常错误率设定。如果正常情况下有 1% 的业务失败，阈值不能低于 10%，否则会频繁误触发。

wait-duration-in-open-state：熔断打开后等待多久才尝试恢复。设太短，下游还没恢复就发探测请求，可能立刻再次触发熔断；设太长，恢复时间太久，影响用户体验。建议 30-60 秒。

五、踩坑实录

坑一：开篇故事的解决方案

迁移到 Resilience4j 后，配置了慢调用率熔断：slow-call-duration-threshold: 2000ms，slow-call-rate-threshold: 30。

当库存服务开始出现 3% 的超时（每个超时 5 秒 >> 慢调用阈值 2 秒），加上本来就有约 30% 的响应在 1-2 秒之间，慢调用率很快超过 30%，熔断器在感知到故障的 100 次调用内就触发了熔断。订单服务的线程不再被阻塞，降级逻辑立刻生效，整个服务的响应时间从平均 2 秒降回 50ms。

坑二：降级方法签名不匹配

@CircuitBreaker 的 fallbackMethod 方法签名必须与原方法相同（除了最后多一个 Throwable 参数）。签名不匹配时，Spring AOP 找不到降级方法，会直接抛出 NoSuchMethodException，比不配置降级还糟糕。

如果原方法是 CompletableFuture<T> 返回值，降级方法也必须是 CompletableFuture<T>，不能用同步的 T。

坑三：熔断器 name 与配置不匹配

Resilience4j 的实例名（@CircuitBreaker(name = "xxx")）必须与 YAML 里的 resilience4j.circuitbreaker.instances.xxx 完全一致，包括大小写。如果不一致，不会报错，而是使用默认配置（失败率阈值 50%，滑动窗口 100），可能不符合预期。

建议用常量类统一管理熔断器名称：

public class CircuitBreakerNames {
    public static final String INVENTORY_SERVICE = "inventory-service";
    public static final String PAYMENT_SERVICE = "payment-service";
}

六、总结

Resilience4j 相比 Hystrix 的核心改进：

一、慢调用率熔断，解决了超时导致的雪崩问题，这是 Hystrix 做不到的。二、信号量隔离，无线程切换开销，高并发下性能远优于 Hystrix 线程池模式。三、滑动窗口统计，对故障的感知更快更准。四、函数式组合，可以灵活叠加熔断、重试、舱壁、超时控制多种策略。

Spring Cloud 2022 以后，Hystrix 已从默认依赖中移除，新项目直接用 Resilience4j，这是大势所趋。