上周刚给某数据中心做完核心网改造,用两台华为S7706搭建了CSS集群。这种集群卡方式的配置比业务口集群稳定得多,但细节上容易踩坑。今天就把完整配置流程和注意事项整理出来,特别适合需要高可用网络架构的运维同仁参考。
先解释下为什么选集群卡方案:相比业务口集群,专用集群卡采用独立的控制通道和数据通道,不仅带宽更大(单卡可达48Gbps),还能完全隔离业务流量。在实际压力测试中,集群卡方案的故障切换时间能控制在200ms以内,这对金融级网络至关重要。下面进入正题:
特别注意:集群卡必须安装在指定槽位(S7706是7/8号槽),错误安装会导致无法识别。我在第一次部署时就因为插错槽位浪费了两小时排查。
按照华为官方线序图(下图)连接时,必须严格遵循"交叉互联"原则:
code复制SwitchA的集群卡端口1 → SwitchB的集群卡端口2
SwitchA的集群卡端口2 → SwitchB的集群卡端口1
...
SwitchA的集群卡端口8 → SwitchB的集群卡端口7

血泪教训:线缆编号标签一定要用油性笔标记清楚。有次割接时光纤拔插次数多了,标签磨损导致线序混乱,最后不得不全部重接。
主备选举取决于三个因素(按优先级排序):
建议通过优先级强制指定主备角色:
bash复制# SwitchA配置(主)
<HUAWEI> system-view
[HUAWEI] sysname SwitchA
[SwitchA] set css priority 100 # 设置高优先级
# SwitchB配置(备)
<HUAWEI> system-view
[HUAWEI] sysname SwitchB
[SwitchB] set css id 2 # 必须修改集群ID
[SwitchB] set css priority 10 # 设置低优先级
必须遵循"先主后备"原则:
css enable并重启css enable并重启关键点:两台设备重启间隔建议5分钟以上。有次测试时连续重启导致脑裂,最后只能重置配置。
bash复制# 查看集群状态
display css status
正常输出应包含:
code复制CSS Enable: Yes
CSS Status: Master/Slave # 主备角色明确
Heartbeat Status: Normal # 心跳检测正常
建议用以下方法验证集群转发能力:
bash复制# 在主设备ping备设备业务IP
ping -a 192.168.1.1 192.168.1.2
# 通过Eth-Trunk跨设备ping测试
ping -a 10.1.1.1 10.2.2.2
测试技巧:配合
reset counters interface命令清除统计后,观察流量是否均匀分布。
配置上下行链路时,成员端口要跨设备分布:
bash复制# 配置上行链路(连接核心路由器)
interface Eth-Trunk10
mode lacp-static
trunkport xgigabitethernet 1/0/1 to 1/0/2
trunkport xgigabitethernet 2/0/1 to 2/0/2
#
# 配置下行链路(连接汇聚交换机)
interface Eth-Trunk20
mode lacp-static
trunkport xgigabitethernet 1/0/3 to 1/0/4
trunkport xgigabitethernet 2/0/3 to 2/0/4
防脑裂推荐使用代理检测方式:
bash复制# 在集群系统上配置
css multi-control enable
css multi-control proxy 192.168.100.100 # 指向第三方检测设备
固件升级流程:
startup system-software指定集群兼容版本配置保存技巧:
bash复制# 集群模式下保存配置会同步到备机
save all
常见故障处理:
display interface css-port)display css incompatible-versioncompare configuration最近一次割接中,我们发现当业务流量超过30Gbps时,集群控制平面会出现延迟。后来通过调整css heartbeat interval参数从100ms改为50ms解决了问题。这种实战经验在手册里可找不到。