Redis分片集群性能优化：从QPS提升86%到P99降低92%

誓死追随苏子敬

1. Redis分片集群性能测试全解析

Redis作为当前最流行的内存数据库之一，其性能表现直接影响着整个系统的响应能力。这次我们对一个3分片×2副本的Redis集群进行了全面的性能测试，重点考察了Predixy代理在不同配置下的表现。测试过程中，我们经历了从发现问题到逐步优化的完整历程，最终实现了QPS提升86%、P99延迟降低92%的显著效果。

2. 测试环境与架构设计

2.1 测试环境配置

测试集群部署在Kubernetes环境中，具体配置如下：

Redis集群：3个分片×2个副本，共6个Pod
Predixy代理：2个副本，初始配置WorkerThreads=1
客户端工具：使用redis-benchmark进行压测
测试规模：每次测试100,000次请求，并发连接从50到4000不等

环境配置的合理性直接影响测试结果的准确性。我们特别注意了以下几点：

确保所有Redis Pod都处于Running状态，避免因资源不足导致的Pending状态影响测试
为Predixy配置了合理的资源限制（CPU 1000m，内存2Gi）
测试网络环境稳定，排除网络波动对测试结果的干扰

2.2 测试架构详解

整个测试架构采用典型的三层设计：

code复制客户端(redis-benchmark) → Predixy代理(2副本) → Redis Server(6 Pod)

这种架构模拟了生产环境中常见的访问模式。Predixy作为代理层，负责将客户端请求路由到正确的Redis分片，同时提供连接池、读写分离等高级功能。

提示：在实际部署时，Predixy副本数的选择需要权衡资源消耗和性能需求。我们的测试从2个副本开始，后续会根据测试结果考虑是否扩容。

3. 性能测试方法论

3.1 测试指标定义

我们主要关注以下核心指标：

QPS（Queries Per Second）：每秒处理的请求数，衡量系统吞吐量
延迟（Latency）：包括P50、P95、P99等百分位延迟，反映系统响应速度
资源利用率：CPU、内存等资源的使用情况，帮助识别性能瓶颈

测试操作选择了最基础的SET和GET命令，因为这些操作最能反映Redis的核心性能。测试并发量从50逐步增加到4000，覆盖了从低负载到高并发的各种场景。

3.2 测试阶段划分

整个测试过程分为三个阶段：

初始测试：WorkerThreads=1，部分Redis Pod处于Pending状态
扩容后测试：WorkerThreads=1，所有Redis Pod都处于Running状态
优化后测试：WorkerThreads=4，观察线程数增加带来的性能变化

这种分阶段测试方法可以清晰看到每个优化措施的实际效果，避免一次性修改多个参数导致无法准确评估单个因素的影响。

4. 初始性能表现分析

4.1 WorkerThreads=1的基准测试

在初始配置下（WorkerThreads=1），测试结果如下：

并发数	SET QPS	SET P99	GET QPS	GET P99
50	24,655	45.0ms	27,670	39.4ms
100	29,308	40.8ms	28,703	46.8ms
1000	23,753	71.0ms	-	-
4000	23,855	191.1ms	-	-

从数据可以看出几个明显特征：

QPS在100并发左右达到峰值（约29k），之后随着并发增加反而下降
P99延迟随着并发增加而显著上升，在高并发时达到200ms左右
GET操作性能略优于SET操作，但差异不大

4.2 性能瓶颈诊断

分析初始测试结果，我们识别出以下主要瓶颈：

单线程处理限制：Predixy使用单线程处理所有客户端连接，无法充分利用多核CPU
CPU利用率低：监控显示单个CPU核心接近100%，但其他核心闲置
尾部延迟恶化：高并发时请求排队严重，导致P99延迟飙升

注意：在分析性能瓶颈时，我们使用了Kubernetes的监控工具观察Pod的资源使用情况，同时结合Redis的slowlog功能分析延迟较高的操作。

5. 优化措施与效果验证

5.1 第一阶段优化：确保所有Pod正常运行

在初始测试中，我们发现部分Redis Pod处于Pending状态，这显然会影响性能。解决资源分配问题后，所有Pod都进入Running状态，测试结果如下：

指标	初始测试	扩容后测试	提升幅度
峰值QPS	29,762	32,342	+8.6%
100并发P99	40.8ms	46.1ms	+13%
1000并发QPS	23,753	24,851	+5%

虽然QPS有小幅提升，但P99延迟反而有所增加，这说明单纯的Pod可用性改善并不能解决根本的性能问题。

5.2 第二阶段优化：调整WorkerThreads参数

基于对单线程瓶颈的分析，我们将Predixy的WorkerThreads从1增加到4，测试结果对比如下：

并发数	WT=1 QPS	WT=1 P99	WT=4 QPS	WT=4 P99	QPS提升	P99降低
50	28,106	38.3ms	51,573	2.01ms	+83%	-95%
100	31,348	46.1ms	50,352	3.26ms	+61%	-93%
1000	24,851	76.6ms	54,377	29.52ms	+119%	-61%

这一优化带来了显著改善：

低并发时QPS提升60-80%，P99延迟降低90%以上
高并发时QPS提升更为明显，达到100%以上
系统整体吞吐能力大幅提高，资源利用率更加均衡

5.3 优化效果总览

将所有测试数据汇总对比，可以清晰看到优化效果：

指标	初始(WT=1)	扩容后(WT=1)	WT=4优化	总提升
峰值QPS	29,762	32,342	55,432	+86%
100并发QPS	29,308	31,348	50,352	+72%
100并发P99	40.8ms	46.1ms	3.26ms	-92%
1000并发QPS	23,753	24,851	54,377	+129%

6. 深度性能分析

6.1 QPS与并发数的关系

通过绘制QPS随并发数变化的曲线，我们可以观察到：

WorkerThreads=1时，QPS在100并发左右达到峰值，之后基本稳定甚至略有下降
WorkerThreads=4时，QPS随并发增加持续上升，直到1000并发左右才趋于平缓
在高并发区域（2000+），WorkerThreads=4的配置仍能保持较高吞吐量

这种现象说明增加工作线程数确实提高了系统的并发处理能力，使系统能够在更高并发下维持较好的性能。

6.2 延迟分析

延迟表现是另一个关键指标：

WorkerThreads=1时，P99延迟随并发增加快速上升
WorkerThreads=4时，低并发下的延迟极低（2-3ms），高并发时上升较为平缓
在1250+并发时，即使WT=4，P99延迟也会突然上升到200ms+

这表明WorkerThreads=4已经解决了低并发下的延迟问题，但在极高并发下仍可能出现排队现象。

6.3 残留瓶颈识别

尽管WorkerThreads=4带来了显著改善，但我们仍发现了一些潜在问题：

高并发延迟波动：1250+并发时P99延迟突然上升，可能是Redis Server端瓶颈
CPU限制：当前CPU Limit为1000m，可能限制了性能发挥
Predixy副本数：只有2个副本，可能成为吞吐量上限

7. 进一步优化建议

基于测试结果和瓶颈分析，我们提出以下优化建议：

7.1 立即实施的优化（P0）

增加WorkerThreads到8：

预期效果：QPS再提升30-50%

实施命令：

bash复制kubectl edit configmap redis-2ffca4ed-predixy-conf -n qfusion-admin
# 修改WorkerThreads参数为8

提高CPU限制到2000m：

预期效果：支持更高并发，减少CPU竞争

实施命令：

bash复制kubectl edit qfr redis-2ffca4ed -n qfusion-admin
# 修改predixy.resources.limits.cpu: "2"
# 修改predixy.resources.requests.cpu: "1000m"

7.2 建议实施的优化（P1）

扩容Predixy副本到4个：
- 预期效果：QPS提升100%，提高系统整体容量
- 实施命令：
```
bash复制kubectl scale statefulset redis-2ffca4ed-predixy -n qfusion-admin --replicas=4
```
连接池优化：
- 调整连接池大小和超时参数
- 优化客户端连接管理策略

7.3 预期最终性能

如果实施全部推荐优化，预期性能如下：

指标	当前(WT=4)	预期优化后	提升幅度
峰值QPS	55,000	150,000+	+170%
2000并发P99	240ms	<50ms	-80%
系统容量	中等	大规模	显著提升

8. 测试经验与技巧分享

8.1 性能测试的注意事项

环境一致性：确保每次测试前环境状态一致，包括Pod分布、资源使用等
测试顺序：从低并发开始逐步增加，避免一开始就施加过大压力
数据预热：正式测试前先进行预热，消除冷启动影响
多次测量：每个测试点重复多次，取稳定值作为结果

8.2 常见问题排查技巧

高延迟问题：
- 检查Redis slowlog定位慢查询
- 监控CPU使用率，确认是否达到限制
- 检查网络延迟和带宽使用情况
QPS上不去：
- 确认客户端是否成为瓶颈（如redis-benchmark自身限制）
- 检查Predixy和Redis的CPU使用情况
- 分析请求是否均匀分布到所有分片
资源不足问题：
- 监控Pod的CPU、内存使用情况
- 检查Kubernetes事件日志，查看是否有调度失败事件
- 考虑调整资源请求和限制