Kubernetes节点swap问题排查与彻底解决方案

埃琳娜莱农

1. 问题背景与现象分析

第一次在物理服务器上部署Kubernetes集群时，我遇到了一个经典问题——节点重启后kubelet服务无法正常启动，日志中反复出现"Failed to start kubelet: misconfiguration: swap is enabled"的错误提示。这个问题看似简单，却让我花了整整一个下午的时间排查，因为涉及Linux系统层、Kubernetes安全策略以及服务启动顺序等多个维度的交互。

在典型的Kubernetes生产环境中，禁用swap交换分区是官方明确建议的做法。这主要出于两个考虑：首先，内存交换会显著降低性能，而Kubernetes调度器本身就需要精确计算内存资源；其次，开启swap可能导致内存压力检测失效，影响Pod的驱逐机制。但现实情况是，许多开发测试环境特别是资源受限的机器上，管理员往往会保留swap作为"安全网"。

2. 根本原因深度解析

2.1 Kubernetes对swap的限制机制

从Kubernetes 1.8版本开始，kubelet默认启用--fail-swap-on参数。这个安全特性会强制检查节点上的swap状态，如果发现任何swap分区或文件被激活（即使swappiness设置为0），kubelet就会拒绝启动。这个设计背后的逻辑很明确：避免调度器在资源计算时出现偏差。

通过systemctl status kubelet查看服务状态时，典型的错误输出如下：

code复制Condition: start condition failed: swap is enabled; the Kubernetes kubelet requires swap to be disabled

2.2 重启前后的配置差异

问题的诡异之处在于：明明在初始安装时已经通过swapoff -a禁用了swap，为什么重启后又会复现？这涉及到Linux系统的启动流程：

/etc/fstab中可能保留了swap分区配置项
某些发行版（如Ubuntu）的systemd会主动激活fstab中的swap
云厂商的定制镜像可能内置了swap管理服务

我曾遇到过一个典型案例：某节点的/etc/fstab中包含如下配置：

code复制/dev/mapper/ubuntu--vg-swap_1 none swap sw 0 0

即使手动执行了swapoff，重启后systemd仍会按照这个配置重新激活swap。

3. 彻底解决方案与实施步骤

3.1 临时应急处理

当生产环境出现该问题时，可以快速执行以下命令恢复kubelet服务：

bash复制sudo swapoff -a && sudo systemctl restart kubelet

但这种方法只是权宜之计，节点再次重启后问题依旧会出现。

3.2 永久禁用swap的完整流程

步骤一：检查当前swap状态

bash复制free -h
swapon --show

确认哪些设备/文件被用作swap空间，记录下它们的标识符（如/dev/sda2或/swapfile）

步骤二：禁用所有活跃swap

bash复制sudo swapoff -a

步骤三：注释掉fstab中的swap项
使用vim等编辑器打开/etc/fstab，在所有包含swap的行前添加#注释符。例如将：

code复制UUID=123456... none swap sw 0 0

改为：

code复制# UUID=123456... none swap sw 0 0

步骤四：禁用systemd的swap单元（仅限使用systemd的系统）

bash复制sudo systemctl mask dev-sdX.swap  # 替换为实际swap设备名

步骤五：验证配置

bash复制sudo reboot
free -h  # 确认Swap行显示为0B
systemctl status kubelet  # 确认服务正常启动

3.3 特殊场景处理方案

对于必须保留swap的环境（如开发测试机），可以通过修改kubelet配置绕过限制：

编辑/var/lib/kubelet/config.yaml或/etc/default/kubelet，添加：

yaml复制failSwapOn: false

对于kubeadm部署的集群，需要在kubeadm-config.yaml中添加：

yaml复制---
apiVersion: kubelet.config.k8s.io/v1beta1
kind: KubeletConfiguration
failSwapOn: false

重启kubelet服务：

bash复制sudo systemctl daemon-reload
sudo systemctl restart kubelet

重要提示：在生产环境关闭swap检查可能导致资源计算不准确，建议仅用于测试场景

4. 深度排查与进阶技巧

4.1 诊断工具链的使用

当问题表现不典型时，可以使用以下工具深入分析：

检查系统启动日志：

bash复制journalctl -b | grep -i swap

追踪服务依赖关系：

bash复制systemctl list-dependencies kubelet
systemctl list-dependencies swap.target

验证cgroup设置：

bash复制cat /proc/$(pgrep kubelet)/cgroup | grep memory

4.2 常见配置误区

误认为swappiness=0等同禁用swap：
实际上swappiness只是调整内核使用swap的倾向性，即使设为0，当内存耗尽时系统仍会使用swap。
忽略临时swap文件：
某些自动化脚本会创建/swapfile等临时交换文件，需要一并检查：

bash复制find / -type f -name "*swap*" -exec ls -lh {} \;

容器运行时的影响：
如果使用containerd，还需要检查它的配置文件（/etc/containerd/config.toml）中是否包含：

toml复制[plugins."io.containerd.grpc.v1.cri".containerd]
default_runtime_name = "runc"

4.3 性能优化建议

完全禁用swap后，建议采取以下措施保障系统稳定性：

合理设置内存限制：
在Pod的resources中明确设置requests和limits：

yaml复制resources:
  requests:
    memory: "256Mi"
  limits:
    memory: "512Mi"

配置OOM Killer策略：
调整kubelet的--eviction-hard参数：

bash复制--eviction-hard=memory.available<100Mi,nodefs.available<10%

监控内存压力：
部署Prometheus等监控工具，设置针对memory压力的告警规则。

5. 典型问题排查实录

案例一：重启后swap自动激活

现象：每次重启后swap自动启用，但fstab中已注释相关配置

排查：

bash复制systemctl list-unit-files | grep swap

发现存在swapfile.swap服务

解决：

bash复制sudo systemctl disable --now swapfile.swap

案例二：kubelet报错但swap显示已禁用

现象：free显示swap为0，但kubelet仍报错

排查：

bash复制cat /proc/swaps

发现存在未卸载的zram设备

解决：

bash复制sudo modprobe -r zram

案例三：容器大量被OOMKilled

现象：禁用swap后频繁出现容器被终止

分析：

bash复制kubectl describe pod | grep -A 10 "OOMKilled"

发现内存limits设置过低

优化：
调整Deployment资源配置并设置合理的HPA策略

6. 架构设计与最佳实践

6.1 生产环境推荐方案

对于关键业务集群，建议采用以下架构设计：

节点规划：
- 计算节点：完全禁用swap，内存容量按实际需求+30%冗余配置
- 存储节点：可保留少量swap（<2GB），设置vm.swappiness=1
内核参数调优：

bash复制# /etc/sysctl.d/10-kubernetes.conf
vm.overcommit_memory = 1
vm.panic_on_oom = 0
vm.swappiness = 0

Kubernetes配置：

yaml复制apiVersion: kubelet.config.k8s.io/v1beta1
kind: KubeletConfiguration
evictionHard:
  memory.available: "5%"
  nodefs.available: "10%"

6.2 自动化运维方案

通过Ansible实现批量配置管理：

yaml复制# playbooks/disable_swap.yaml
- hosts: k8s_nodes
  tasks:
    - name: Disable all swap
      command: swapoff -a
      register: swap_result
      
    - name: Comment swap in fstab
      replace:
        path: /etc/fstab
        regexp: '^([^#].*\sswap\s)'
        replace: '# \1'
        
    - name: Disable swap service
      systemd:
        name: "{{ item }}"
        masked: yes
        state: stopped
      loop:
        - swap.target
        - dev-sdX.swap

6.3 监控与告警配置

Prometheus告警规则示例：

yaml复制groups:
- name: node-alerts
  rules:
  - alert: NodeSwapEnabled
    expr: count(swapon{device!=""}) by (instance) > 0
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "Swap enabled on {{ $labels.instance }}"
      description: "Kubernetes node {{ $labels.instance }} has swap enabled"