混沌工程实战入门——Chaos Monkey、故障注入、系统韧性测试

老张2026/4/30大约 14 分钟

混沌工程实战入门——Chaos Monkey、故障注入、系统韧性测试

适读人群：后端工程师、SRE、架构师 | 阅读时长：约 15 分钟 | 核心价值：理解混沌工程的核心原则，掌握故障注入的实践方法，构建具备真正韧性的系统

老严是一家做在线教育的公司的架构师，他们系统一直跑得很稳。某一天凌晨 3 点，他们的数据库主节点磁盘满了，触发了自动切换到从节点——这本来是设计好的高可用方案，但切换过程中，他们的支付服务因为没有做好重试，丢了 10 分钟内所有的支付请求。

事后复盘，老严说了一句让我印象深刻的话："我们的架构图上写着'高可用'，但我们从没测试过切换的时候业务层是不是真的 OK。"

这就是混沌工程要解决的问题——在受控环境里主动制造故障，提前发现系统的脆弱点，而不是等待真实故障来检验。

Netflix 是混沌工程的鼻祖，他们在生产环境随机关闭服务器实例（Chaos Monkey），倒逼团队把系统做得真正高可用。这个思想，现在已经成为 SRE 领域的标准实践。

1. 混沌工程核心原则

混沌工程不是"随机破坏"，而是有方法论的：

1. 建立稳态假设（Steady State Hypothesis）
   定义什么是"正常"：P99 < 100ms，错误率 < 0.1%，...

2. 引入现实世界的变量（Real World Events）
   服务器崩溃、网络分区、CPU 飙高、磁盘满...

3. 在生产环境运行（Run in Production）
   混沌工程的终极价值在生产环境，但初期从测试环境开始

4. 最小化爆炸半径（Minimize Blast Radius）
   从小规模开始，有熔断机制，随时可以停止

5. 自动化持续执行（Automate Experiments）
   不是一次性演练，是持续运行的实验

2. 工具选择

工具	适用场景	难度
Chaos Monkey（Netflix）	JVM 应用，随机终止实例	中
Chaos Toolkit	通用，Python，规则驱动	低
LitmusChaos	Kubernetes 原生	中高
Chaos Mesh	Kubernetes 原生，功能强	高
tc（Linux 网络工具）	网络延迟/丢包，代码级注入	低
`kill -9`	进程终止，最简单	极低

3. 用 tc 注入网络故障（最简实践）

不需要任何框架，Linux 自带的 tc（Traffic Control）工具就能注入网络延迟、丢包、带宽限制：

# 给 eth0 接口添加 200ms 网络延迟
sudo tc qdisc add dev eth0 root netem delay 200ms

# 添加延迟 + 20% 抖动
sudo tc qdisc add dev eth0 root netem delay 200ms 20ms

# 添加 10% 丢包
sudo tc qdisc add dev eth0 root netem loss 10%

# 添加延迟 + 丢包
sudo tc qdisc add dev eth0 root netem delay 100ms loss 5%

# 查看当前规则
tc qdisc show dev eth0

# 清除规则（恢复正常）
sudo tc qdisc del dev eth0 root

用 tc 测试服务降级：

# 模拟数据库慢查询（给数据库端口加延迟）
sudo tc qdisc add dev eth0 root handle 1: prio
sudo tc qdisc add dev eth0 parent 1:3 handle 30: netem delay 500ms
sudo tc filter add dev eth0 parent 1: protocol ip u32 match ip dport 5432 0xffff flowid 1:3

# 验证你的服务在 500ms DB 延迟下是否正确降级
curl -o /dev/null -s -w "%{time_total}s %{http_code}\n" http://localhost:8080/api/orders

# 恢复
sudo tc qdisc del dev eth0 root

4. Chaos Toolkit：代码驱动的混沌实验

pip install chaostoolkit chaostoolkit-kubernetes

定义实验文件：

{
  "version": "1.0.0",
  "title": "数据库不可用时订单服务的降级能力",
  "description": "验证数据库宕机后，订单查询走缓存降级，不返回 500",
  
  "steady-state-hypothesis": {
    "title": "订单服务正常响应",
    "probes": [
      {
        "type": "probe",
        "name": "check-order-api-health",
        "tolerance": 200,
        "provider": {
          "type": "http",
          "url": "http://localhost:8080/api/orders/latest",
          "timeout": 3
        }
      },
      {
        "type": "probe",
        "name": "check-error-rate",
        "tolerance": {
          "type": "jsonpath",
          "path": "$.error_rate",
          "expect": { "type": "lt", "value": 0.01 }
        },
        "provider": {
          "type": "http",
          "url": "http://localhost:9090/metrics/error_rate"
        }
      }
    ]
  },
  
  "method": [
    {
      "type": "action",
      "name": "pause-database",
      "provider": {
        "type": "process",
        "path": "docker",
        "arguments": "pause test-mysql"
      }
    },
    {
      "type": "probe",
      "name": "verify-degraded-mode",
      "provider": {
        "type": "http",
        "url": "http://localhost:8080/api/orders/latest",
        "timeout": 5
      },
      "tolerance": 200  // 期望返回 200（走缓存）而不是 500
    }
  ],
  
  "rollbacks": [
    {
      "type": "action",
      "name": "unpause-database",
      "provider": {
        "type": "process",
        "path": "docker",
        "arguments": "unpause test-mysql"
      }
    }
  ]
}

运行：

chaos run order-db-chaos.json

5. Go 服务：内置故障注入点

在代码里内置故障注入点，是开发阶段最便捷的混沌测试方式：

// chaos/injector.go
package chaos

import (
    "math/rand"
    "os"
    "time"
)

// ChaosEnabled 通过环境变量控制是否启用故障注入
// 永远不要在生产环境开启（除非你真的要做生产混沌测试）
var ChaosEnabled = os.Getenv("CHAOS_ENABLED") == "true"

// LatencyInjector 模拟随机延迟
type LatencyInjector struct {
    MinDelay   time.Duration
    MaxDelay   time.Duration
    Percentage int // 触发概率（0-100）
}

func (l *LatencyInjector) Inject() {
    if !ChaosEnabled {
        return
    }
    if rand.Intn(100) < l.Percentage {
        delay := l.MinDelay + time.Duration(rand.Int63n(int64(l.MaxDelay-l.MinDelay)))
        time.Sleep(delay)
    }
}

// ErrorInjector 模拟随机错误
type ErrorInjector struct {
    Percentage int
    Err        error
}

func (e *ErrorInjector) MaybeError() error {
    if !ChaosEnabled {
        return nil
    }
    if rand.Intn(100) < e.Percentage {
        return e.Err
    }
    return nil
}

// 在服务代码里使用
type OrderRepository struct {
    db          *sql.DB
    latency     *chaos.LatencyInjector
    errorInject *chaos.ErrorInjector
}

func NewOrderRepository(db *sql.DB) *OrderRepository {
    return &OrderRepository{
        db: db,
        latency: &chaos.LatencyInjector{
            MinDelay:   100 * time.Millisecond,
            MaxDelay:   500 * time.Millisecond,
            Percentage: 10, // 10% 请求加延迟
        },
        errorInject: &chaos.ErrorInjector{
            Percentage: 5, // 5% 请求返回错误
            Err:        errors.New("chaos: simulated database error"),
        },
    }
}

func (r *OrderRepository) FindByID(ctx context.Context, id string) (*Order, error) {
    r.latency.Inject()
    
    if err := r.errorInject.MaybeError(); err != nil {
        return nil, err
    }
    
    // 正常数据库查询
    // ...
}

6. 踩坑实录

踩坑记录 1：混沌实验 rollback 失败导致系统没有恢复

一次混沌实验里，我们关掉了一个服务的实例，但 rollback 脚本里的恢复命令写错了，服务没有拉起来，第二天早上才发现生产少了一个实例。

原则：rollback 脚本一定要在混沌实验开始前单独验证；任何故障注入都要有独立的自动恢复机制，不能只靠 rollback。

踩坑记录 2：用 tc 注入延迟但忘记清理

压测之后忘记删除 tc 规则，整个机器的网络都慢了，影响了其他服务。加了个清理脚本：

#!/bin/bash
# cleanup-chaos.sh：清除所有 tc 规则
for dev in $(ip link show | grep "^[0-9]" | awk -F: '{print $2}' | tr -d ' '); do
    sudo tc qdisc del dev $dev root 2>/dev/null || true
done
echo "All tc rules cleared"

踩坑记录 3：稳态假设定义不清楚

第一次做混沌实验时，稳态假设只定义了"服务可访问"，没有定义"P99 < 100ms"。注入延迟后，服务确实可访问，但 P99 从 20ms 变成了 800ms——实验"通过"了，但实际上系统已经严重退化。

混沌工程的稳态假设要包含：可用性 + 性能 + 业务指标（成功率、数据正确性）。

7. 混沌工程成熟度模型

不同阶段团队的实践重点不同：

Level 0：没有混沌工程
  → 靠运气 + 用户反馈发现问题

Level 1：手动故障演练
  → 定期关掉服务测试降级，人工验证恢复

Level 2：半自动化实验
  → Chaos Toolkit / tc 工具，有实验文档

Level 3：自动化混沌注入
  → CI/CD 集成，定期运行混沌实验，有报警

Level 4：生产混沌工程
  → Chaos Mesh / Chaos Monkey，生产持续运行，有完善监控

建议从 Level 1 开始——先做几次人工故障演练，验证自己的监控和告警是否真的有效，再逐步自动化。

8. 混沌工程在 Kubernetes 环境的实践

8.1 Chaos Mesh：云原生混沌工程平台

Chaos Mesh 是 PingCAP 开源的 Kubernetes 原生混沌工程平台，通过 CRD（Custom Resource Definition）来定义和执行混沌实验：

# chaos-mesh 实验：对 order-service 的 50% Pod 注入 200ms 延迟
apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: order-service-latency
  namespace: test
spec:
  action: delay
  mode: percent-fixed
  value: "50"     # 50% 的 Pod 受影响
  selector:
    namespaces:
      - production
    labelSelectors:
      app: order-service
  delay:
    latency: "200ms"
    correlation: "25"  # 25% 的延迟相关性
    jitter: "50ms"
  duration: "5m"  # 持续 5 分钟

# Pod 随机删除（模拟节点宕机）
apiVersion: chaos-mesh.org/v1alpha1
kind: PodChaos
metadata:
  name: order-pod-kill
spec:
  action: pod-kill
  mode: one
  selector:
    namespaces:
      - production
    labelSelectors:
      app: order-service
  scheduler:
    cron: "@every 10m"  # 每 10 分钟随机杀一个 Pod

8.2 稳态验证的自动化

混沌实验期间需要持续验证稳态指标是否在正常范围内。可以用 Prometheus + Alertmanager 做自动化验证：

# Prometheus 告警规则：检测混沌实验期间的服务降级
groups:
  - name: chaos-steady-state
    rules:
      - alert: OrderServiceHighErrorRate
        expr: |
          rate(http_requests_total{service="order-service",status=~"5.."}[1m])
          /
          rate(http_requests_total{service="order-service"}[1m]) > 0.01
        for: 2m
        annotations:
          summary: "混沌实验期间错误率超过 1%，稳态被破坏"

如果混沌实验触发了 Alertmanager 的告警，说明系统在当前故障模式下没有保持稳态，需要改进弹性设计。

9. 混沌工程的文化推广

混沌工程最大的阻力往往不是技术，而是文化——特别是在传统企业，"主动制造故障"这个想法会让很多人不安。

推广混沌工程文化的几个方法：

先从测试环境开始：不要一开始就说"我们要在生产环境搞混沌"，先在测试环境做成熟，让大家看到价值，再逐步推进到预发、生产。

用事故数据说话：收集最近一年的生产故障，分析哪些是混沌测试能提前发现的。有了数据，推广就容易多了。

让开发者参与实验设计：不是 SRE 单方面做混沌测试，而是让服务的开发工程师参与进来，一起设计实验假设、一起观察结果。这样他们会觉得这是帮助自己的工具，而不是针对自己的检验。

从小成功开始：第一次混沌实验，选一个你有把握的场景（比如单个 Redis 节点故障，你已经实现了降级）。让实验成功通过，给团队建立信心，再逐步挑战更难的场景。

混沌工程不是挑毛病，是建立对系统的真实信心。这个价值主张，才是推广的正确姿势。

10. 混沌工程的度量与效果验证

推行混沌工程，最难的不是技术实施，而是如何向管理层和团队证明"它是有价值的"。这需要建立可度量的指标体系。

混沌实验的成功率追踪

每次混沌实验都有一个明确的预期结果：系统在指定故障模式下维持稳态（实验通过）或者没有维持（实验失败）。把这个通过率作为系统弹性的核心指标追踪：

弹性指标（每季度回顾）：
- 混沌实验通过率（目标：>= 90%）
- 平均故障恢复时间（MTTR）
- 每季度发现的新弹性问题数量
- 通过混沌工程预防的潜在生产故障数量

最后一个指标——"通过混沌工程预防的潜在生产故障"——是说服管理层最有力的数据。每次混沌实验发现了一个系统没有正确降级的问题，就是一次"提前发现的生产事故"。把这些事故的潜在影响量化（多少用户受影响、多少收入损失），就能清楚地展示混沌工程的投资回报。

建立混沌工程知识库

每次混沌实验结束后，写一份简短的实验报告，记录：实验假设、注入的故障类型、观察到的系统行为、发现的问题、修复方案和验证结果。这些报告积累起来，就是团队对系统弹性的认知地图——哪些场景已经验证过、哪些场景还没测试、哪些弱点已经修复。

11. 混沌工程与 SRE 文化的结合

混沌工程不是一个孤立的工程实践，它和 SRE（Site Reliability Engineering）的很多核心实践是天然互补的。

SRE 强调用工程方法管理系统可靠性，通过 SLO（服务水平目标）量化可靠性要求，通过 Error Budget 管理可靠性预算。混沌工程正是验证 SLO 是否能在真实故障场景下实现的工具：

如果你的 SLO 是"订单服务的可用性 >= 99.9%"，那么混沌实验的稳态假设就可以是"在数据库主节点故障时，订单服务的错误率不超过 0.1%"。实验通过说明 SLO 有弹性保障，失败说明需要改进系统设计。

渐进式混沌实验

不同成熟度的团队适合不同规模的混沌实验。Netflix 的 Chaos Monkey 能在生产随机杀实例，是因为他们有多年的韧性工程积累。对于大多数团队，从单个组件、测试环境、小范围开始，逐步扩大实验范围，是更稳健的路径。

每完成一轮混沌实验，修复发现的问题，再设计更高挑战度的实验。这是一个正向循环：系统越弹性，混沌实验能测试的场景越极端，系统就越来越健壮。老严的团队从每季度一次手动 DB 切换演练开始，两年后建立了覆盖 15 种故障模式的自动化混沌测试套件。这种演进不是一蹴而就的，而是一步一步积累来的。

混沌工程的最终愿景，是让工程团队能自信地说："我们知道系统在各种故障场景下的行为，我们为这些故障有明确的预案，我们定期验证这些预案是有效的。"这种信心，是系统稳定运行的底气，也是工程团队专业性的体现。

12. 从"混沌"到"韧性"：文化的最终形态

混沌工程的最高境界，是让"主动验证韧性"成为团队的本能，而不是一个需要特别推动的实践。当工程师在设计新功能时，自然地问"如果这个依赖不可用，服务会怎么表现"；当架构师评审新设计时，自然地问"这个架构在什么故障模式下会失效"——这时候，混沌工程的思维已经内化进了工程文化。

老严用一句话概括了这种转变："以前我们问'系统稳定吗'，现在我们问'我们对系统的韧性有多少信心，基于什么证据'。"这种从感觉到证据的转变，是工程成熟度的体现。

混沌工程的终极价值，是把"系统韧性"从一个模糊的架构目标，变成一个有证据支撑的工程事实。知道你的系统在哪些故障模式下能保持稳态，知道它的弱点在哪里，并有计划地修复——这是对系统稳定性最诚实、最负责任的工程态度。

老严后来每当被问到"你们的系统高可用吗"，他的回答变成了："我们每个季度验证一次，上次验证是三个月前，结果是符合我们的 SLO 目标的。"这个回答，比"我们设计了高可用架构"要有分量得多，因为它有证据。混沌工程，就是产出这种有证据的可靠性承诺的方法论。

混沌工程的本质，是用工程方法把"希望系统稳定"变成"知道系统稳定，并且知道在什么条件下"。这种从希望到知晓的转变，需要实验的积累，需要时间的投入，但它带来的工程信心，是无法从架构图或 SLA 文档中获得的。从一个小实验开始，迈出这一步。

混沌工程最终教会我们的一件事：系统韧性不是设计出来的，是验证出来的。架构图上的"高可用"是意图，经过混沌实验验证的"高可用"是事实。这两者之间的差距，正是混沌工程存在的意义。

写在最后

混沌工程的本质是承认一个现实：分布式系统的故障是必然会发生的，而不是可以被避免的。你唯一能控制的，是在受控条件下提前发现脆弱点，还是等待真实灾难来暴露。

老严那次事故之后，他们开始定期做 DB 切换演练——每季度一次，在测试环境强制切换，验证业务层的重试逻辑是否生效。那种安全感，是"架构图上写着高可用"给不了的。

下一篇，我们聊测试左移——如何在需求阶段就开始测试分析，把问题消灭在源头。