MongoDB副本集权重调整原理与实战指南

张牛顿

1. MongoDB集群权重调整背景与原理

在MongoDB副本集架构中，节点权重（priority）是一个至关重要的配置参数，它直接决定了集群的选举行为和故障转移机制。作为一名长期维护金融级MongoDB集群的DBA，我经常需要根据业务需求调整节点权重配置。这个操作看似简单，但其中涉及的原理和注意事项往往被新手忽视。

副本集通过priority值来决定节点在选举中的优先级。这个参数的取值范围是0-1000（默认为1），当主节点不可用时，系统会自动选择priority值最高的节点作为新的主节点。值得注意的是：

priority为0的节点永远不能成为主节点（通常用于专用备份节点）
权重值只影响选举优先级，不影响数据路由和读写操作分配
修改权重会触发配置版本号（version）递增，可能导致集群重新选举

在实际生产环境中，调整权重的典型场景包括：

硬件升级后提升新节点的优先级
将性能较差的节点降级为次要节点
实现机房容灾的主备切换（比如将异地机房的节点权重临时调高）
维护窗口期手动切换主节点

重要提示：任何权重修改操作都会导致集群重新选举，选举期间集群将不可写（通常持续10-30秒），必须安排在业务低峰期执行。

2. 权重调整完整操作指南

2.1 前期检查与准备

在执行权重修改前，必须完成以下检查项：

集群健康状态验证：

bash复制rs.status().members.forEach(member => {
    print(`${member.name} - state: ${member.stateStr}, health: ${member.health}`);
});

确保所有节点状态为"PRIMARY"、"SECONDARY"且health为1

选举计时器检查：

bash复制cfg = rs.conf()
cfg.settings.electionTimeoutMillis  # 默认10000ms(10秒)

建议临时调大选举超时时间（维护结束后恢复）：

bash复制cfg.settings.electionTimeoutMillis = 30000
rs.reconfig(cfg)

业务连接缓冲：
通知应用团队：

启用重试写入机制（retryWrites=true）
检查驱动程序版本（建议3.6+）
临时降低事务操作频率

2.2 权重修改详细步骤

以下是经过数百次生产验证的标准操作流程：

获取当前配置（注意使用变量保存）：

javascript复制var cfg = rs.conf()  // 必须使用var避免shell会话断开导致配置丢失

确认节点ID与角色：

javascript复制cfg.members.forEach((member, index) => {
    print(`Index: ${index}, ID: ${member._id}, Host: ${member.host}, Priority: ${member.priority}`);
});

修改权重配置（建议使用递减式修改）：

javascript复制// 推荐先降低原主节点权重，再提升新主节点权重
cfg.members[0].priority = 50  // 原主节点降权
cfg.members[1].priority = 200  // 新主候选节点
cfg.members[2].priority = 200  

// 必须保留至少一个priority>0的节点

执行重配置（强制模式）：

javascript复制rs.reconfig(cfg, {force: true})  
// force选项在部分节点不可达时仍允许配置变更

验证选举结果：

bash复制for i in {1..30}; do rs.status() | grep -E '"name"|"stateStr"'; sleep 1; done
# 动态观察30秒内的状态变化

2.3 生产环境注意事项

根据我在多个万级QPS集群的操作经验，这些细节至关重要：

操作窗口选择：

避免业务高峰时段（建议凌晨2-4点）
避开批量任务执行周期
检查是否有备份任务运行（特别关注oplog备份）

网络稳定性保障：

bash复制# 在集群节点间执行持续ping测试
for host in "node1:27017" "node2:27017" "node3:27017"; do
    mongo --host $host --eval "printjson(db.adminCommand({ping:1}))"
done

回滚方案准备：
预先准备回滚配置脚本：

javascript复制// rollback_config.js
var oldCfg = {
    // 保存当前完整配置
}
rs.reconfig(oldCfg, {force: true});

3. 高级调优与问题排查

3.1 权重分配策略优化

对于不同硬件配置的集群，推荐采用以下权重模板：

场景1：同构集群（所有节点配置相同）

javascript复制cfg.members[0].priority = 100  // 主节点
cfg.members[1].priority = 100  // 备节点 
cfg.members[2].priority = 100  // 备节点

场景2：异构集群（主节点性能更强）

javascript复制cfg.members[0].priority = 200  // 高性能主节点
cfg.members[1].priority = 100  // 标准备节点
cfg.members[2].priority = 50   // 低配备节点

场景3：跨机房部署

javascript复制cfg.members[0].priority = 200  // 主机房节点
cfg.members[1].priority = 150  // 同城灾备
cfg.members[2].priority = 1    // 异地灾备（避免网络延迟影响）

3.2 典型故障排查案例

问题1：配置修改后选举失败
现象：执行reconfig后长时间没有新主节点
排查步骤：

检查多数节点是否存活：

bash复制rs.status().members.filter(m => m.health === 1).length >= rs.conf().members.length/2

验证节点间时钟同步：

bash复制db.runCommand({serverStatus:1}).localTime - db.runCommand({isMaster:1}).localTime

检查防火墙规则是否阻止了27019端口（选举通信端口）

问题2：权重修改不生效
现象：执行后priority值未变化
解决方案：

确认使用的是force模式：

javascript复制rs.reconfig(cfg, {force: true})

检查配置版本号是否递增：

bash复制rs.conf().version > originalVersion

确保没有其他管理进程在修改配置

4. 自动化运维实践

对于需要频繁调整权重的场景，我开发了这套自动化脚本模板：

javascript复制// adjust_priority.js
function adjustPriority(targetHost, newPriority) {
    const cfg = rs.conf();
    const targetMember = cfg.members.find(m => m.host === targetHost);
    
    if(!targetMember) throw Error(`Host ${targetHost} not found`);
    
    // 保留旧配置用于回滚
    const oldPriority = targetMember.priority;
    targetMember.priority = newPriority;
    
    try {
        print(`Changing priority of ${targetHost} from ${oldPriority} to ${newPriority}`);
        rs.reconfig(cfg, {force: true});
        
        // 验证变更
        assert.eq(rs.conf().members.find(m => m.host === targetHost).priority, newPriority);
        print("Priority change successful");
    } catch (e) {
        // 自动回滚
        targetMember.priority = oldPriority;
        rs.reconfig(cfg, {force: true});
        printErr(`Failed to change priority: ${e}`);
    }
}

// 使用示例：adjustPriority("node1:27017", 200)

这个脚本实现了：

自动识别目标节点
变更前配置备份
错误自动回滚
变更结果验证

我在实际运维中发现，配合MongoDB的tag功能可以实现更精细化的权重控制：

javascript复制// 基于标签的权重分配
cfg.members.forEach(member => {
    if(member.tags?.dc === "east") {
        member.priority = 300;  // 东部机房高权重
    } else if(member.tags?.dc === "west") {
        member.priority = 100;  // 西部机房标准权重
    }
});