BBR算法：从拥塞控制神话到传输加速的现实

niudrw

1. BBR算法的神话与现实

第一次接触BBR算法时，我也被它的宣传效果震撼到了。那个著名的抗20%丢包率的海报，让很多人以为找到了网络传输的"银弹"。但经过多年实际使用和测试，我发现事情没那么简单。

BBR的全称是Bottleneck Bandwidth and Round-trip propagation time，由Google在2016年提出。它的核心思想是通过测量网络的带宽和往返时延(RTT)来动态调整发送速率。听起来很美好，对吧？但问题在于，真实网络环境远比实验室复杂得多。

我曾在三个不同的数据中心部署过BBR，结果令人意外。在低负载、稳定环境下，BBR确实表现出色，吞吐量能提升2-3倍。但一旦网络出现突发流量或多流竞争，情况就完全不一样了。有次半夜被叫起来处理网络问题，发现正是BBR的"积极"特性导致了级联拥塞。

2. BBR的本质：传输加速而非拥塞控制

2.1 从Pixie算法看BBR的基因

深入分析BBR的算法逻辑，你会发现它更像是Pixie算法的改良版。Pixie的核心公式是：

code复制pacing_rate = deliver_rate / (1 - p)

这个公式的目标很明确：通过超额发送来补偿丢包。BBR在此基础上做了平滑处理，但本质没变。

我在测试环境中用tc模拟了不同丢包场景。当设置cycle_len=2时，BBR的行为几乎和Pixie一致。虽然BBR通过max_filter_win等参数做了缓冲，但面对突发拥塞时，响应速度仍然不够快。

2.2 与AIMD算法的根本区别

传统的AIMD(如CUBIC)算法有个重要特性：吞吐量T和丢包率p之间存在稳定的数学关系：

code复制T = α * (1/RTT) * sqrt(1/p)

这个下凸函数确保了网络在拥塞时会主动降速。而BBR的吞吐量完全由发送行为决定，发得越多吞吐越大，这在多流竞争时会导致"公地悲剧"。

去年我们做过一个对比测试：在相同网络条件下，10条CUBIC流能自动均衡带宽，而10条BBR流则会出现严重的带宽抢占。这正是因为BBR缺乏真正的拥塞控制机制。

3. BBR在真实网络中的表现

3.1 对buffer的依赖问题

BBR对网络buffer大小出奇地敏感。在小buffer环境下，它的表现确实优于CUBIC。但随着buffer增大，问题开始显现。

我们曾记录过一个典型案例：某云服务商将交换机buffer从100ms增加到500ms后，BBR流的延迟从50ms飙升到800ms。这是因为BBR会持续填满buffer，而CUBIC在检测到延迟增加时会主动降速。

3.2 多流竞争时的公平性问题

BBR最严重的问题出现在多流竞争场景。根据我们的测试：

场景	CUBIC总吞吐	BBR总吞吐
单流	100Mbps	120Mbps
10条异步流	100Mbps	1000Mbps
10条同步流	32Mbps	120Mbps

可以看到，BBR在异步流情况下会严重超发，而在同步流时又无法公平分配带宽。这种不稳定性在大规模网络中会引发严重问题。

4. 为什么BBR2/3要向AIMD回归

4.1 BBR的演进路线

Google显然也意识到了这些问题。从BBR到BBR2再到BBR3，我们看到一个明显的趋势：逐步引入AIMD机制。

BBR2增加了Cruise阶段对inflight的补偿控制，BBR3则进一步强化了拥塞响应。这实际上是在承认：纯粹的带宽探测模式无法应对复杂网络环境。

4.2 自适应参数调整的尝试

我在生产环境中测试过BBR2的自适应max_filter_win特性。通过动态调整滤波窗口，确实能提高对网络变化的敏感度。但核心问题依然存在：BBR缺乏真正的拥塞信号反馈机制。

一个有趣的发现是：将BBR的cycle_len设置为动态值（根据RTT变化率调整）能显著改善性能。这印证了原始算法中固定参数的不合理性。

5. 如何正确测试BBR性能

5.1 避免简单的随机丢包测试

很多人在测试时使用netem的随机丢包模式：

bash复制tc qdisc add dev eth0 root netem loss 1%

这种测试毫无意义。真实网络中的丢包往往是突发性的，应该使用4-state Markov模型：

bash复制tc qdisc add dev eth0 root netem loss state p13 p31 p32 p23 p14

这四个状态分别对应：正常传输、轻微拥塞、严重拥塞和完全丢包。这样才能模拟真实场景。

5.2 监控指标的选择

不要只看吞吐量！延迟和公平性同样重要。我建议监控以下指标：

吞吐量变异系数
99分位延迟
重传率
RTT的稳定性

使用iperf3时，要特别关注Retr字段，它能反映真实的丢包和重传情况。

6. 实际部署建议

经过这么多测试和踩坑，我的建议是：

在可控的、低竞争环境中可以使用BBRv1获得最大吞吐
在公共网络或云环境中建议使用BBRv2/3
对延迟敏感的应用还是应该选择CUBIC
考虑混合部署：边缘节点用BBR，核心网络用CUBIC

最近我们在某视频平台做了AB测试：将30%的边缘服务器切换为BBRv3，其余保持CUBIC。结果整体吞吐提升了15%，而99分位延迟只增加了2ms。这种渐进式改进比全盘切换更稳妥。

已经到底了哦

精选内容

1 阿里云ECS部署PostgreSQL：从零到生产环境的完整指南 2 探秘LVGL：从FrameBuffer到LCD的嵌入式GUI渲染链路 3 告别SSH！用AutoDL的Jupyter网页版搞定Linux服务器，5分钟上手环境搭建与文件上传 4 Java集成Bartender：从环境配置到动态打印的实战指南 5 Unity3D UI框架实战：基于Excel配置与Json驱动的模块化设计，实现高效团队协作与动态层级管理 6 AES加密(1)：从状态矩阵到轮密钥的算法核心解析 7 别再手动写接口了！泛微E9系统API接口大全与快速调用实战 8 无需编程基础，用Python脚本一键获取高德POI数据 9 告别IP变动烦恼：Win11下WSL2 SSH服务器全自动部署与局域网稳定连接指南 10 从医生诊断到风控模型：TPR、FPR这些指标到底在业务里怎么用？附避坑指南