第2018篇：vLLM部署实战——生产级推理服务的性能调优

老张2026/4/30大约 8 分钟

第2018篇：vLLM部署实战——生产级推理服务的性能调优

适读人群：负责私有化LLM部署和运维的工程师 | 阅读时长：约19分钟 | 核心价值：从零到生产，掌握vLLM的核心配置和性能调优方法

第一次用vLLM部署模型，我以为直接vllm serve就完事了。

一个小时后，来了第一波压测请求，服务就开始出现OOM，三分之一的请求返回503。

那之后我才开始认真研究vLLM的原理和配置参数。这篇文章就是那次调优经验的完整整理。

vLLM为什么快

要做好配置，先得理解vLLM快在哪里。

传统部署方式（比如直接用HuggingFace的model.generate()）的问题是：每个请求都在GPU上开辟独立的KV Cache空间，请求结束后释放。多个请求同时进来时，显存分配是"各管各的"，浪费严重，而且无法批量化。

vLLM引入了两个关键技术：

PagedAttention的核心思路是把KV Cache切成固定大小的page（默认16 tokens/page），像操作系统管理内存页一样管理显存。好处是：不同请求共享相同的system prompt前缀（prefix caching），同一个prefix只计算和存储一次。

Continuous Batching解决的是"等待问题"——传统batch必须等所有请求都完成才能处理下一批，而vLLM可以在处理当前批次的同时，把新请求插入进来，极大提升了GPU的实际利用率。

基础部署配置

先看一个完整的生产级启动配置：

# 生产级vLLM启动命令（以Qwen2-7B为例）
python -m vllm.entrypoints.openai.api_server \
    --model /path/to/Qwen2-7B-Instruct \
    --host 0.0.0.0 \
    --port 8080 \
    --served-model-name qwen2-7b \
    \
    # 显存相关
    --gpu-memory-utilization 0.90 \    # 使用90%显存，留10%给系统
    --max-model-len 8192 \             # 最大支持的context长度
    --kv-cache-dtype auto \            # KV cache数据类型（auto=和模型一致）
    \
    # 并发相关
    --max-num-seqs 256 \               # 最大并发序列数
    --max-num-batched-tokens 32768 \   # 单次batch的最大token数
    \
    # Prefix Cache（关键优化！）
    --enable-prefix-caching \          # 开启前缀缓存，相同system prompt不重复计算
    \
    # 量化（如果显存不够）
    # --quantization awq \             # 使用AWQ量化，减少约50%显存
    \
    # 日志级别
    --log-level warning \
    \
    # 工作进程
    --uvicorn-log-level warning

这些参数里，--gpu-memory-utilization是最关键的一个，也是最容易踩坑的一个。

把它设为0.95时，vLLM会预分配95%的显存给KV Cache。问题是模型权重本身就要占一块显存，剩下的才是KV Cache。如果你的16GB显卡上跑一个14GB的模型，设0.95会因为没有足够空间建KV Cache而报错。一般经验是：

7B模型（FP16，约14GB）：0.90
7B模型（4-bit量化，约4GB）：0.95
13B模型（FP16，约26GB）：需要40GB以上显卡

多GPU部署配置

单卡跑70B级别的模型基本不现实，需要多卡张量并行：

# 双卡张量并行（70B模型需要2xA100 80GB）
python -m vllm.entrypoints.openai.api_server \
    --model /path/to/Qwen2-72B-Instruct \
    --tensor-parallel-size 2 \         # 使用2块GPU做张量并行
    --gpu-memory-utilization 0.90 \
    --max-model-len 4096 \
    --enable-prefix-caching \
    --port 8080

# 4卡流水线并行（超大模型或显存非常有限时）
# --pipeline-parallel-size 4 \         # 流水线并行（延迟更高，适合批量场景）

张量并行（tensor parallel）和流水线并行（pipeline parallel）的选择：张量并行适合延迟敏感的在线服务，所有GPU同时参与每个请求的计算；流水线并行适合吞吐量优先的批量场景，GPU按层分工，延迟高但吞吐量大。

Java集成层的设计

vLLM暴露OpenAI兼容的HTTP接口，Java集成相对简单，但要注意连接池和超时的配置：

@Configuration
public class VllmClientConfig {
    
    @Value("${vllm.base-url:http://localhost:8080}")
    private String vllmBaseUrl;
    
    @Value("${vllm.connection-timeout-ms:5000}")
    private int connectionTimeout;
    
    @Value("${vllm.read-timeout-ms:120000}")  // LLM生成需要时间，120秒
    private int readTimeout;
    
    @Value("${vllm.max-connections:50}")
    private int maxConnections;
    
    @Bean
    public RestTemplate vllmRestTemplate() {
        // 使用Apache HttpClient，支持连接池
        PoolingHttpClientConnectionManager connectionManager = 
            new PoolingHttpClientConnectionManager();
        connectionManager.setMaxTotal(maxConnections);
        connectionManager.setDefaultMaxPerRoute(maxConnections);
        
        RequestConfig requestConfig = RequestConfig.custom()
            .setConnectTimeout(connectionTimeout)
            .setConnectionRequestTimeout(connectionTimeout)
            .setSocketTimeout(readTimeout)
            .build();
        
        CloseableHttpClient httpClient = HttpClients.custom()
            .setConnectionManager(connectionManager)
            .setDefaultRequestConfig(requestConfig)
            .evictExpiredConnections()
            .evictIdleConnections(30, TimeUnit.SECONDS)
            .build();
        
        RestTemplate restTemplate = new RestTemplate(
            new HttpComponentsClientHttpRequestFactory(httpClient));
        
        // 添加请求/响应日志（仅debug模式，避免生产日志量过大）
        if (log.isDebugEnabled()) {
            restTemplate.getInterceptors().add(new LoggingInterceptor());
        }
        
        return restTemplate;
    }
}

@Service
@RequiredArgsConstructor
@Slf4j
public class VllmChatService {
    
    @Qualifier("vllmRestTemplate")
    private final RestTemplate restTemplate;
    
    @Value("${vllm.base-url}")
    private String baseUrl;
    
    @Value("${vllm.model-name:qwen2-7b}")
    private String modelName;
    
    /**
     * 标准Chat Completion请求
     */
    public String chat(String systemPrompt, String userMessage, ChatParams params) {
        Map<String, Object> requestBody = buildRequestBody(systemPrompt, userMessage, params);
        
        try {
            ResponseEntity<Map> response = restTemplate.postForEntity(
                baseUrl + "/v1/chat/completions",
                requestBody,
                Map.class
            );
            
            return extractContent(response.getBody());
            
        } catch (HttpServerErrorException e) {
            log.error("vLLM服务错误: status={}, body={}", 
                     e.getStatusCode(), e.getResponseBodyAsString());
            throw new LlmServiceException("模型服务暂时不可用", e);
        } catch (ResourceAccessException e) {
            // 超时或连接失败
            log.error("vLLM连接失败: {}", e.getMessage());
            throw new LlmServiceException("模型服务连接超时", e);
        }
    }
    
    private Map<String, Object> buildRequestBody(
            String systemPrompt, String userMessage, ChatParams params) {
        
        List<Map<String, String>> messages = new ArrayList<>();
        if (systemPrompt != null && !systemPrompt.isBlank()) {
            messages.add(Map.of("role", "system", "content", systemPrompt));
        }
        messages.add(Map.of("role", "user", "content", userMessage));
        
        Map<String, Object> body = new HashMap<>();
        body.put("model", modelName);
        body.put("messages", messages);
        body.put("max_tokens", params.getMaxTokens());
        body.put("temperature", params.getTemperature());
        
        // 控制输出格式（vLLM支持JSON mode）
        if (params.isJsonMode()) {
            body.put("response_format", Map.of("type", "json_object"));
        }
        
        return body;
    }
    
    private String extractContent(Map responseBody) {
        try {
            List<Map> choices = (List<Map>) responseBody.get("choices");
            Map message = (Map) choices.get(0).get("message");
            return (String) message.get("content");
        } catch (Exception e) {
            throw new LlmServiceException("解析响应失败: " + responseBody, e);
        }
    }
}

性能调优的关键参数

理解了基础之后，说几个影响性能最大的调优点：

1. Prefix Caching的实际效果

如果你的场景是大量请求共享相同的system prompt（比如客服系统），开启prefix caching效果非常显著。我测过的数据：400 tokens的system prompt，开启prefix caching后，TTFT（首token延迟）从650ms降到180ms——这个system prompt的计算直接被缓存命中了。

配置方式：--enable-prefix-caching，零配置开启，只要相同的消息前缀就会自动命中缓存。

2. max-num-seqs 和 max-num-batched-tokens 的关系

这两个参数共同决定并发能力：

实际并发上限 ≈ min(max-num-seqs, max-num-batched-tokens / avg_tokens_per_request)

如果你的平均请求是256 input tokens + 256 output tokens = 512 tokens，那么：

max-num-batched-tokens=32768：32768/512 = 64个并发请求
max-num-seqs=256：理论上限256，但batched tokens先到达限制

所以通常max-num-seqs设大一些（256-512），用max-num-batched-tokens来控制实际吞吐。

3. 量化的选择

# 测试不同量化方式对性能的影响（辅助决策）
quantization_comparison = {
    "fp16（无量化）": {
        "model_size_gb": 14.2,
        "tokens_per_second": 1850,
        "quality_loss": "无"
    },
    "awq（4-bit）": {
        "model_size_gb": 4.1,
        "tokens_per_second": 2100,  # 因为节省的显存可以放更大batch
        "quality_loss": "约1-3%（中文场景基本感知不到）"
    },
    "gptq（4-bit）": {
        "model_size_gb": 4.3,
        "tokens_per_second": 1950,
        "quality_loss": "约1-2%"
    }
}
# AWQ量化是目前在速度和质量上最好的选择
# --quantization awq 启动时指定，前提是模型有对应的量化版本

监控与告警

生产环境必须有监控，vLLM提供了Prometheus格式的指标：

@Component
@RequiredArgsConstructor
public class VllmHealthMonitor {
    
    private final RestTemplate restTemplate;
    private final AlertService alertService;
    
    @Value("${vllm.base-url}")
    private String vllmBaseUrl;
    
    // vLLM暴露的核心指标
    // GET /metrics 返回Prometheus格式
    
    /**
     * 定期检查vLLM服务健康状态
     * 关注几个关键指标
     */
    @Scheduled(fixedDelay = 30000)  // 每30秒检查一次
    public void checkHealth() {
        try {
            // 1. 检查服务是否存活
            restTemplate.getForEntity(vllmBaseUrl + "/health", Void.class);
            
            // 2. 获取指标（简化版，实际用Prometheus抓取）
            String metrics = restTemplate.getForObject(
                vllmBaseUrl + "/metrics", String.class);
            
            VllmMetrics parsed = parseMetrics(metrics);
            
            // 3. 告警规则
            if (parsed.getGpuMemoryUsagePercent() > 95) {
                alertService.warn("vLLM显存使用率超过95%，可能即将OOM");
            }
            
            if (parsed.getPendingRequestCount() > 100) {
                alertService.warn("vLLM等待队列超过100个请求，需要扩容");
            }
            
            if (parsed.getAvgRequestLatencyMs() > 30000) {
                alertService.error("vLLM平均请求延迟超过30秒，服务可能异常");
            }
            
            // 记录关键指标到日志
            log.info("vLLM状态: gpu_memory={}%, pending={}, avg_latency={}ms, tokens/s={}",
                    parsed.getGpuMemoryUsagePercent(),
                    parsed.getPendingRequestCount(),
                    parsed.getAvgRequestLatencyMs(),
                    parsed.getTokensPerSecond());
            
        } catch (Exception e) {
            alertService.critical("vLLM服务不可达: " + e.getMessage());
        }
    }
    
    /**
     * 解析Prometheus格式的指标文本
     * 实际生产中建议直接接入Prometheus+Grafana
     */
    private VllmMetrics parseMetrics(String metricsText) {
        // 关键指标名称：
        // vllm:gpu_cache_usage_perc - GPU KV Cache使用率
        // vllm:num_requests_waiting - 等待中的请求数
        // vllm:e2e_request_latency_seconds - 端到端延迟
        // vllm:request_success_total - 成功请求总数
        
        VllmMetrics metrics = new VllmMetrics();
        
        for (String line : metricsText.split("\n")) {
            if (line.startsWith("#")) continue;
            
            if (line.startsWith("vllm:gpu_cache_usage_perc")) {
                metrics.setGpuMemoryUsagePercent(parseValue(line) * 100);
            } else if (line.startsWith("vllm:num_requests_waiting")) {
                metrics.setPendingRequestCount((int) parseValue(line));
            }
            // 其他指标类似处理
        }
        
        return metrics;
    }
    
    private double parseValue(String line) {
        String[] parts = line.split("\\s+");
        return Double.parseDouble(parts[parts.length - 1]);
    }
}

踩过的坑

坑1：max-model-len设置过大

我第一次部署Qwen2-7B，把max-model-len设成了32768（模型的最大context长度）。结果vLLM在启动时就预分配了大量显存给KV Cache，模型直接启动失败——因为没有足够的显存同时放模型权重和这么大的KV Cache。

解决方法：根据实际业务需求设置max-model-len。大多数企业场景，4096到8192已经够用。

坑2：忘记关闭调试日志

vLLM的日志默认级别是INFO，会打印每个请求的详细信息。100 QPS的压力下，日志量大到磁盘I/O成为瓶颈。

解决方法：生产环境必须加--log-level warning。

坑3：Prefix Cache失效

开启了prefix caching，但测试发现TTFT没有改善。排查发现：我们的system prompt里包含了当前日期（"今天是2024年3月15日"），所以每天的system prompt都不同，导致缓存每天失效。

解决方法：把动态内容从system prompt移到user message，保持system prompt的稳定性。

vLLM的核心思路是"用好GPU，不浪费显存"。理解了PagedAttention和Continuous Batching之后，配置参数就有了直觉——所有配置都是在"显存用量"和"并发能力"之间找平衡。找到那个平衡点，服务就稳了。