Python 数据库连接池实战——SQLAlchemy 连接池调优，从频繁超时到稳定运行

老张大约 6 分钟

Python 数据库连接池实战——SQLAlchemy 连接池调优，从频繁超时到稳定运行

适读人群：使用 SQLAlchemy 的 Python 工程师、遇到数据库连接问题的后端开发者 | 阅读时长：约13分钟 | 核心价值：搞清楚 SQLAlchemy 连接池的工作机制，用真实案例说明每个参数的意义

那是一个让我印象深刻的下午。生产上的 Python 服务开始报大量 TimeoutError: QueuePool limit of size 5 overflow 10 reached, connection timed out。

5 + 10 = 15。最多15个并发连接，高峰时刻根本不够用。

我当时的第一反应是：这还不简单，把 pool_size 调大不就行了。

然后就改成了100，上线，问题更严重了。数据库那边开始报"too many connections"，整个服务直接不可用。

连接池不是越大越好。 这个道理很简单，但没有亲自踩过这个坑，很难真正理解。

连接池的工作原理

SQLAlchemy 的 QueuePool（默认连接池类型）工作方式：

pool_size = 稳定维护的连接数（持久连接）
max_overflow = 在 pool_size 基础上，允许额外创建的临时连接数
pool_timeout = 等待可用连接的超时时间
pool_recycle = 连接使用多久后强制重建

当一个请求需要数据库连接时：

先从池子里取一个空闲连接
如果没有空闲但总数 < pool_size + max_overflow，创建新连接
如果已经达到上限，等待 pool_timeout 秒
等待超时，抛出 TimeoutError

理解了这个，你就知道：

pool_size 太小 → 频繁创建/销毁临时连接，开销大
pool_size + max_overflow 太大 → 超过数据库最大连接数限制
pool_timeout 太短 → 连接紧张时大量请求超时失败
pool_recycle 太长 → 用到数据库主动断开的"死连接"

踩坑实录一：连接池大小和数据库最大连接数的关系

现象： 把 pool_size 从 5 改到 100，数据库报 "FATAL: remaining connection slots are reserved for non-replication superuser connections"，所有服务不可用。

原因： PostgreSQL 默认最大连接数是 100（max_connections=100），其中还有几个保留给超级用户。我有4个 worker 进程，每个连接池 pool_size=100，理论上最大需要 400 个连接，远超上限。

正确的计算方式：

# 先搞清楚数据库能接受多少连接
# PostgreSQL: SELECT current_setting('max_connections');
# MySQL: SHOW VARIABLES LIKE 'max_connections';

# 假设数据库 max_connections = 200，保留20个给管理员连接
# 可用连接 = 180

# 假设有 3 台应用服务器，每台 4 个 worker 进程
# 每个 worker 进程的最大连接数 = 180 / (3 * 4) = 15

# 配置
pool_size = 10      # 稳定连接数
max_overflow = 5    # 突发时额外允许5个，总计15个

踩坑实录二：pool_pre_ping 的重要性

现象： 服务运行几个小时后，开始出现 "SSL connection has been closed unexpectedly" 或 "server closed the connection unexpectedly" 错误，但重启服务后立刻恢复正常。

原因： PostgreSQL 默认会关闭空闲超过一定时间（tcp_keepalives_idle）的连接。连接池里的连接已经被数据库侧关闭了，但连接池还以为它是可用的。下次取出来用，一发数据就报错。

解法：

from sqlalchemy import create_engine, event
from sqlalchemy.pool import QueuePool

engine = create_engine(
    DATABASE_URL,
    pool_pre_ping=True,   # 取连接前先发 SELECT 1 探活，死连接自动重建
    pool_recycle=3600,    # 连接超过1小时也强制回收重建
)

pool_pre_ping=True 会在每次取连接时发一个轻量的 ping（对 PostgreSQL 是 SELECT 1），如果连接失效会自动重建。代价是每次取连接多一次往返，通常在1ms以内，完全值得。

踩坑实录三：asyncio 环境下的连接池陷阱

现象： 把同步 SQLAlchemy 换成 asyncpg + async SQLAlchemy 之后，压测时偶尔出现连接泄漏，连接数一直在涨。

原因： 异步环境下，如果事务没有正确关闭（比如 await 调用中间抛了异常但没被捕获），连接会一直被占着不归还。

解法：

# 错误写法：手动管理连接，容易泄漏
async def get_user(user_id: int):
    async with engine.connect() as conn:
        result = await conn.execute(...)
        # 如果这里抛异常，conn 有可能不被正确释放
        return result.fetchone()

# 正确写法：用 async with transaction，保证事务正确关闭
from sqlalchemy.ext.asyncio import AsyncSession, async_sessionmaker

async_session = async_sessionmaker(engine, expire_on_commit=False)

async def get_user(user_id: int):
    async with async_session() as session:
        async with session.begin():
            result = await session.execute(
                select(User).where(User.id == user_id)
            )
            return result.scalar_one_or_none()
    # session 和 transaction 在 with 块退出时自动关闭，即使抛异常也一样

在 FastAPI 里用依赖注入管理 session：

from fastapi import Depends
from sqlalchemy.ext.asyncio import AsyncSession

async def get_db_session() -> AsyncSession:
    async with async_session() as session:
        try:
            yield session
            await session.commit()
        except Exception:
            await session.rollback()
            raise
        finally:
            await session.close()

@app.get("/users/{user_id}")
async def get_user(
    user_id: int, 
    db: AsyncSession = Depends(get_db_session)
):
    result = await db.execute(select(User).where(User.id == user_id))
    return result.scalar_one_or_none()

完整的 SQLAlchemy 生产配置

# database.py
import os
from sqlalchemy import create_engine, event, text
from sqlalchemy.ext.asyncio import create_async_engine, AsyncSession, async_sessionmaker
from sqlalchemy.orm import DeclarativeBase, sessionmaker
from sqlalchemy.pool import QueuePool
import logging

logger = logging.getLogger(__name__)

DATABASE_URL = os.getenv("DATABASE_URL")
ASYNC_DATABASE_URL = DATABASE_URL.replace("postgresql://", "postgresql+asyncpg://")

# ---- 同步引擎（Celery task 等非异步场景用） ----
sync_engine = create_engine(
    DATABASE_URL,
    poolclass=QueuePool,
    pool_size=int(os.getenv("DB_POOL_SIZE", "10")),
    max_overflow=int(os.getenv("DB_MAX_OVERFLOW", "5")),
    pool_timeout=30,
    pool_recycle=3600,
    pool_pre_ping=True,
    echo=False,
    # 连接参数
    connect_args={
        "connect_timeout": 10,
        "options": "-c statement_timeout=30000",  # SQL 执行超时30秒
    },
)

# ---- 异步引擎（FastAPI 用） ----
async_engine = create_async_engine(
    ASYNC_DATABASE_URL,
    pool_size=int(os.getenv("DB_POOL_SIZE", "10")),
    max_overflow=int(os.getenv("DB_MAX_OVERFLOW", "5")),
    pool_timeout=30,
    pool_recycle=3600,
    pool_pre_ping=True,
    echo=False,
)

AsyncSessionLocal = async_sessionmaker(
    async_engine,
    expire_on_commit=False,
    class_=AsyncSession,
)

# ---- 监听连接池事件，用于监控 ----
@event.listens_for(sync_engine, "connect")
def on_connect(dbapi_connection, connection_record):
    logger.debug(f"New database connection established, pool size: {sync_engine.pool.size()}")

@event.listens_for(sync_engine, "checkout")
def on_checkout(dbapi_connection, connection_record, connection_proxy):
    # 每次从池里取连接时触发，可以在这里记录指标
    pass

@event.listens_for(sync_engine, "checkin")
def on_checkin(dbapi_connection, connection_record):
    # 每次归还连接时触发
    pass


class Base(DeclarativeBase):
    pass


# ---- 健康检查：连接池状态 ----
def get_pool_status() -> dict:
    pool = sync_engine.pool
    return {
        "size": pool.size(),
        "checked_in": pool.checkedin(),
        "checked_out": pool.checkedout(),
        "overflow": pool.overflow(),
        "invalid": pool.invalidated(),
    }

如何判断当前连接池配置是否合理

# 在 /health 接口里加入连接池状态
@app.get("/health/db")
async def db_health():
    status = get_pool_status()
    
    # 如果 checked_out > pool_size * 0.8，说明连接池快用满了，可能需要调大
    utilization = status['checked_out'] / (sync_engine.pool.size() + sync_engine.pool._max_overflow)
    
    return {
        "pool_status": status,
        "utilization": f"{utilization:.1%}",
        "warning": "Pool utilization high" if utilization > 0.8 else None,
    }

另外，配合 Prometheus 持续观察 checked_out 的趋势：

稳定在 pool_size 的 30%~60% → 配置合理
经常接近 pool_size + max_overflow → 需要调大，或者优化慢查询减少连接占用时间
一直很低 → pool_size 可以调小，节省数据库资源

快速参考：参数调整方向

症状	可能原因	调整方向
TimeoutError: QueuePool limit reached	pool_size + max_overflow 太小	调大（但别超数据库上限）
too many connections	pool_size * workers > db max_connections	调小 pool_size
SSL/connection closed unexpectedly	死连接	开启 pool_pre_ping，设置 pool_recycle
高并发下连接等待时间长	pool_timeout 太短，连接不够用	增大 pool_size 或优化慢查询
连接数一直增长不回收	连接泄漏，session 没正确关闭	检查 session 使用方式

数据库连接池这件事，没有一个通用的"最佳值"，只有根据你的数据库上限、服务实例数、并发量算出来的合理值。 调一次，观察一段时间，再调，反复迭代。