Linux CPU时间片分配与CFS调度器详解-代码聚汇网

Linux CPU时间片分配与CFS调度器详解

RED韵

1. CPU时间片分配的基本概念

在Linux系统中，CPU时间片分配是操作系统调度器的核心功能之一。简单来说，时间片就是每个进程被允许在CPU上连续执行的时间长度。想象一下餐厅里多位顾客共享一个厨师的情况 - 厨师不会只为一位顾客做完所有菜品，而是轮流为每位顾客做一道菜，确保所有人都能及时得到服务。

Linux内核通过时间片轮转（Round Robin）的方式实现多任务处理。默认情况下，普通进程的时间片长度在5ms到800ms之间，具体值取决于内核版本和系统配置。这个时间片长度不是固定不变的，调度器会根据系统负载和进程优先级动态调整。

注意：现代Linux内核使用完全公平调度器（CFS），它采用更精细的时间分配策略，与传统的时间片概念有所不同，我们将在后面详细讨论。

2. Linux调度器的发展与演变

2.1 O(1)调度器时代

在Linux 2.6.23内核之前，系统使用O(1)调度器。这个调度器之所以得名，是因为它的调度算法时间复杂度为O(1)，即无论系统中有多少进程，做出调度决策的时间都是恒定的。

O(1)调度器使用固定长度的时间片，并维护两个进程队列：活动队列和过期队列。调度器从活动队列中选择最高优先级的进程执行，当进程用完时间片后，它会被移到过期队列。当活动队列为空时，两个队列交换角色。

这个调度器的主要特点是：

为交互式进程提供更好的响应性
使用启发式方法识别交互式进程
时间片长度与进程优先级相关

2.2 完全公平调度器(CFS)的引入

从Linux 2.6.23开始，内核引入了完全公平调度器(CFS)，这是当前大多数Linux发行版默认使用的调度器。CFS的设计理念完全不同 - 它不再使用传统的时间片概念，而是追求"完全公平"的CPU时间分配。

CFS的核心思想是：

维护一个红黑树来跟踪所有可运行进程
每个进程都有一个"虚拟运行时间"(vruntime)的概念
调度器总是选择vruntime最小的进程来运行
通过这种方式，所有进程都能公平地获得CPU时间

3. CFS调度器的工作原理详解

3.1 虚拟运行时间(vruntime)的概念

vruntime是CFS调度器的核心指标，它记录了进程在CPU上运行的"虚拟"时间。这个值不是简单的实际运行时间，而是经过进程优先级加权后的结果。

计算公式如下：

code复制vruntime += (实际运行时间) × (NICE_0_LOAD / 进程权重)

其中：

NICE_0_LOAD是优先级为0(nice值为0)的进程的权重
进程权重由进程的nice值决定

这个公式确保了高优先级进程(低nice值)的vruntime增长较慢，因此能获得更多的CPU时间；而低优先级进程的vruntime增长较快，获得的CPU时间相对较少。

3.2 调度周期与最小粒度

CFS引入了两个重要参数：

调度周期(sched_latency)：所有可运行进程都应该至少运行一次的时间间隔
最小粒度(min_granularity)：每个进程最少要运行的时间长度

默认值通常是：

sched_latency = 6ms
min_granularity = 0.75ms

这些参数可以通过/proc文件系统调整：

bash复制# 查看当前值
cat /proc/sys/kernel/sched_latency_ns
cat /proc/sys/kernel/sched_min_granularity_ns

# 修改值(单位为纳秒)
echo 10000000 > /proc/sys/kernel/sched_latency_ns

3.3 红黑树与进程选择

CFS使用红黑树(一种自平衡二叉查找树)来组织可运行进程，以vruntime作为键值。调度时，CFS总是选择vruntime最小的进程(最左边的节点)来运行。

这种设计有几个优点：

查找下一个要运行的进程非常高效(O(log n))
插入和删除操作也很快
自然地实现了公平性 - 等待时间长的进程vruntime较小

4. 进程优先级与时间分配

4.1 nice值与优先级

Linux使用nice值来表示进程的静态优先级，范围从-20(最高优先级)到19(最低优先级)。默认nice值为0。

nice值影响进程的权重，从而影响vruntime的增长速度。具体转换关系在内核的prio_to_weight数组中定义：

c复制static const int prio_to_weight[40] = {
 /* -20 */ 88761, 71755, 56483, 46273, 36291,
 /* -15 */ 29154, 23254, 18705, 14949, 11916,
 /* -10 */ 9548, 7620, 6100, 4904, 3906,
 /*  -5 */ 3121, 2501, 1991, 1586, 1277,
 /*   0 */ 1024, 820, 655, 526, 423,
 /*   5 */ 335, 272, 215, 172, 137,
 /*  10 */ 110, 87, 70, 56, 45,
 /*  15 */ 36, 29, 23, 18, 15,
};

可以看到，nice值为-20的进程权重是nice值为19的进程权重的约88761/15≈5917倍，意味着高优先级进程能获得更多的CPU时间。

4.2 实时优先级

除了普通进程外，Linux还支持实时进程，它们具有更高的调度优先级。实时进程有两种策略：

SCHED_FIFO：先入先出，没有时间片概念，会一直运行直到阻塞或主动让出CPU
SCHED_RR：轮转调度，有时间片概念

实时优先级范围从1(最低)到99(最高)，可以通过sched_setscheduler()系统调用设置。

5. 多核CPU下的时间片分配

在多核系统中，CFS为每个CPU核心维护一个独立的运行队列。这引入了新的复杂性：

5.1 负载均衡

为了充分利用所有CPU核心，内核需要将进程合理地分配到各个核心上。负载均衡器会定期检查各CPU的负载情况，并在必要时迁移进程。

负载均衡的几个关键点：

每1ms检查一次是否需要负载均衡
尽量保持进程在同一个CPU上运行(缓存亲和性)
避免频繁的进程迁移

5.2 CFS组调度

在具有大量进程的系统中，CFS引入了组调度功能，允许将进程分组，然后在组之间公平分配CPU时间。这在容器化环境中特别有用，可以确保每个容器获得公平的CPU份额。

组调度通过CPU cgroup实现，主要参数包括：

cpu.shares：相对权重
cpu.cfs_period_us：统计周期长度(微秒)
cpu.cfs_quota_us：在周期内允许运行的最大时间(微秒)

6. 实际案例分析

6.1 查看进程调度信息

我们可以使用以下命令查看进程的调度相关信息：

bash复制# 查看进程的优先级和调度策略
ps -eo pid,comm,ni,pri,policy

# 查看进程的CPU使用情况和时间片信息
top -p <PID>

6.2 调整进程优先级

临时调整运行中进程的nice值：

bash复制renice -n -5 -p <PID>

启动新进程时指定nice值：

bash复制nice -n -10 ./my_program

6.3 CFS调优示例

假设我们有一个CPU密集型的批处理任务，希望它不要影响系统的交互性能：

bash复制# 创建一个cgroup
mkdir /sys/fs/cgroup/cpu/batch_jobs
cd /sys/fs/cgroup/cpu/batch_jobs

# 限制该组最多使用50%的CPU
echo 100000 > cpu.cfs_period_us
echo 50000 > cpu.cfs_quota_us

# 将进程加入该组
echo <PID> > tasks

7. 常见问题与解决方案

7.1 为什么我的高优先级进程没有获得预期的CPU时间？

可能原因：

系统中有更高优先级的实时进程
进程经常阻塞在I/O操作上
CPU资源确实紧张

解决方案：

使用chrt命令将进程改为实时调度策略(需root权限)

bash复制chrt -f -p 99 <PID>

检查进程是否受cgroup限制
使用perf工具分析进程的瓶颈

7.2 如何避免进程饥饿？

在默认配置下，CFS已经很好地避免了进程饥饿。但如果确实需要确保某些进程获得最小CPU份额：

使用cgroup为关键进程组保留资源
提高进程的nice值(降低数值)
考虑使用实时优先级(但需谨慎)

7.3 多线程程序的调度问题

多线程程序需要注意：

所有线程共享相同的nice值和调度策略
线程可能被调度到不同CPU核心上
锁竞争可能导致性能下降

优化建议：

考虑使用线程亲和性(pthread_setaffinity_np)
避免过多的线程间同步
对关键线程使用实时优先级

8. 性能调优建议

8.1 交互式系统的优化

对于需要良好交互体验的系统：

bash复制# 减小调度周期
echo 4000000 > /proc/sys/kernel/sched_latency_ns

# 增加最小粒度
echo 1000000 > /proc/sys/kernel/sched_min_granularity_ns

8.2 服务器应用的优化

对于服务器负载：

bash复制# 增大调度周期
echo 24000000 > /proc/sys/kernel/sched_latency_ns

# 禁用NUMA平衡(在某些NUMA系统上)
echo 0 > /proc/sys/kernel/numa_balancing

8.3 虚拟机环境中的注意事项

在虚拟机中：

避免过度分配vCPU
考虑使用CPU亲和性
监控steal时间(在top中显示为st)

9. 监控与分析工具

9.1 基本监控工具

top/htop：查看整体CPU使用情况和进程列表
vmstat 1：查看系统范围的CPU统计
mpstat -P ALL 1：查看每个CPU核心的使用情况

9.2 高级分析工具

perf：性能分析工具

bash复制perf stat -e context-switches,cpu-migrations <command>
perf sched record <command>
perf sched latency

ftrace：内核跟踪工具

bash复制echo function_graph > /sys/kernel/debug/tracing/current_tracer
echo schedule >> /sys/kernel/debug/tracing/set_ftrace_filter
cat /sys/kernel/debug/tracing/trace_pipe

bpftrace：现代跟踪工具

bash复制bpftrace -e 'tracepoint:sched:sched_switch { @[kstack] = count(); }'

10. 内核参数调优

以下是一些可能影响CPU时间片分配的重要内核参数：

10.1 /proc/sys/kernel/参数

sched_latency_ns：目标调度周期
sched_min_granularity_ns：最小调度粒度
sched_wakeup_granularity_ns：唤醒粒度
sched_migration_cost_ns：迁移成本估计

10.2 /proc/sys/vm/参数

dirty_ratio：影响I/O密集型进程
swappiness：影响内存密集型进程

10.3 调整示例

bash复制# 为低延迟系统优化
echo 2000000 > /proc/sys/kernel/sched_latency_ns
echo 250000 > /proc/sys/kernel/sched_min_granularity_ns
echo 400000 > /proc/sys/kernel/sched_wakeup_granularity_ns

在实际生产环境中调整这些参数时，建议先在测试环境中验证效果，并监控系统性能指标的变化。