内存分配算法解析：从First-Fit到SLUB-代码聚汇网

内存分配算法解析：从First-Fit到SLUB

逍遥Eric

1. 内存分配算法概述

在计算机系统中，内存管理是操作系统最核心的功能之一。作为程序员和系统开发者，理解内存分配算法的工作原理至关重要。内存分配算法决定了系统如何将有限的物理内存资源分配给各个进程使用，直接影响着系统的性能和稳定性。

现代操作系统通常采用分页式内存管理机制，将物理内存划分为固定大小的页框（page frame），将进程的虚拟地址空间划分为相同大小的页面（page）。当进程需要内存时，操作系统负责将这些页面映射到物理页框上。页面分配算法就是决定如何选择和分配这些物理页框的策略。

2. 经典页面分配算法

2.1 First-Fit算法

First-Fit（首次适应）是最基础的内存分配算法之一。它的核心思想是从内存空间的起始位置开始查找，选择第一个足够大的空闲块来满足分配请求。

2.1.1 实现原理

First-Fit算法通常使用空闲块链表来管理可用内存。每个空闲块包含以下关键信息：

起始地址
块大小
前后指针（用于链表连接）

当收到内存分配请求时，算法执行以下步骤：

从链表头部开始遍历
检查当前空闲块大小是否满足请求
如果满足，则进行分配
如果不满足，继续检查下一个空闲块

2.1.2 分配过程详解

让我们通过一个具体例子来说明First-Fit的分配过程。假设我们有以下空闲块链表（按地址升序排列）：

块A：起始地址0x1000，大小4KB
块B：起始地址0x2000，大小8KB
块C：起始地址0x4000，大小16KB

当请求分配6KB内存时：

首先检查块A（4KB），不够
检查块B（8KB），满足要求
从块B分配6KB，剩余2KB形成新的空闲块

分配后的链表变为：

块A：4KB
块B'：2KB（原块B剩余部分）
块C：16KB

2.1.3 释放与合并机制

当内存被释放时，系统需要将其重新加入空闲链表，并尝试与相邻的空闲块合并。合并过程包括：

查找释放块在链表中的正确位置（按地址排序）
检查前一个块是否与释放块相邻
检查后一个块是否与释放块相邻
如果相邻则合并，更新块大小

2.1.4 优缺点分析

优点：

实现简单直观
分配速度较快（平均情况下只需遍历部分链表）
对小内存请求响应迅速

缺点：

容易产生外部碎片（小的空闲块累积在链表前端）
分配不均衡（前端内存频繁使用，后端长期闲置）
随着系统运行，分配效率会逐渐下降

提示：在实际系统中，First-Fit通常适用于内存分配模式比较均匀的场景，或者作为更复杂算法的后备策略。

2.2 Best-Fit算法

Best-Fit（最佳适应）算法试图解决First-Fit的外部碎片问题，其核心思想是选择能满足请求的最小空闲块进行分配。

2.2.1 算法实现

Best-Fit同样使用空闲块链表，但分配策略不同：

遍历整个空闲链表
记录满足条件的最小空闲块
分配该块

继续使用前面的例子（空闲块：4KB, 8KB, 16KB），请求6KB：

遍历所有块
跳过4KB（不够）
记录8KB
16KB比8KB大，不选
最终选择8KB块

2.2.2 性能特点

优点：

内存利用率较高
减少了大块内存被分割的情况
外部碎片相对较少

缺点：

每次分配都需要遍历整个链表，效率低
容易产生大量无法利用的小碎片
链表管理复杂，频繁拆分合并

2.2.3 优化策略

现代系统通常采用以下方法优化Best-Fit：

使用平衡树（如红黑树）替代链表，将查找时间从O(n)降到O(log n)
分级空闲链表：按大小范围将空闲块分组
延迟合并：不立即合并小块，减少操作开销

2.3 伙伴系统（Buddy System）

伙伴系统是Linux内核等现代操作系统广泛采用的内存分配算法，它通过限制块大小为2的幂次来简化合并操作。

2.3.1 核心概念

伙伴：两个大小相同、地址相邻的内存块，且它们的合并后地址是更大块的起始地址
分配粒度：所有块大小都是2的幂次（如4KB, 8KB, 16KB...）
空闲链表数组：每个2的幂次大小对应一个空闲链表

2.3.2 分配过程

将请求大小向上取整到最近的2的幂次
检查对应大小的空闲链表
- 如果有块，直接分配
- 如果没有，向更大的链表查找
如果找到更大的块，将其不断对半分割，直到得到所需大小
将分割产生的伙伴块加入相应链表

2.3.3 释放过程

检查被释放块的伙伴是否也空闲
如果伙伴空闲，合并两者
重复检查新合并块的伙伴，直到无法合并为止
将最终块加入对应链表

2.3.4 地址计算技巧

伙伴系统的精妙之处在于伙伴块的快速定位。对于大小为2^k的块，其伙伴地址可以通过简单的位运算得到：

伙伴地址 = 块地址 XOR (1 << k)

例如，一个8KB（2^13）块位于地址0x2000：

伙伴地址 = 0x2000 ^ 0x2000 = 0x0000
或
伙伴地址 = 0x2000 ^ 0x2000 = 0x4000

（具体取决于块在合并后的更大块中的位置）

2.3.5 优缺点分析

优点：

合并操作极其高效（O(1)时间复杂度）
有效控制外部碎片
实现相对简单

缺点：

内部碎片问题（特别是请求大小不是2的幂次时）
最大分配块受系统限制
不适合非常小的内存分配

3. SLUB分配器

3.1 设计背景

虽然伙伴系统解决了大块内存分配的问题，但对于内核中大量的小对象（几十到几百字节）分配仍然不够高效。这导致了SLAB分配器的诞生，而SLUB是其改进版本。

3.1.1 小对象分配的问题

内部碎片：伙伴系统最小分配单位是页（通常4KB），分配小对象浪费严重
初始化开销：每次分配都需要初始化对象
缓存局部性：频繁分配释放导致缓存抖动

3.1.2 SLUB的核心思想

对象缓存：预分配并缓存常用大小的对象
批量管理：以页为单位管理对象组
空闲链表：每个CPU维护本地空闲列表，减少锁竞争

3.2 数据结构

SLUB主要维护三种数据结构：

kmem_cache：描述特定大小对象的缓存
slab：从伙伴系统分配的内存页，被划分为多个对象
freelist：每个slab维护的空闲对象链表

3.3 分配流程

首先尝试从CPU本地freelist获取对象
如果本地freelist为空，从共享slab获取一批对象
如果共享slab也用尽，从伙伴系统分配新slab

3.4 释放流程

将对象返回到CPU本地freelist
如果本地freelist过满，将部分对象返还给共享slab
如果整个slab变为空闲，可考虑返还给伙伴系统

3.5 优势分析

极高的分配速度（大多数情况下无锁操作）
极低的内存开销（元数据最少化）
良好的缓存局部性（对象集中存放）
自动碎片控制（完全空闲slab可释放）

4. 碎片整理技术

4.1 内存碎片类型

外部碎片：空闲内存分散在不连续的小块中
内部碎片：已分配内存块中未使用的部分
页级碎片：物理页框分散导致无法分配连续大块

4.2 紧凑技术（Compaction）

4.2.1 基本原理

通过移动已分配的内存块，将空闲内存合并为连续的大块。在分页系统中，这通常通过页迁移实现。

4.2.2 实现挑战

移动内存需要更新所有指向它的指针
某些内存可能被锁定或不可移动
操作期间的系统性能影响

4.2.3 Linux的实现

Linux内核的compaction机制包括：

内存压缩守护进程（kcompactd）
按需压缩（当分配失败时触发）
可移动页面分类（提高迁移成功率）

4.3 交换技术（Swapping）

4.3.1 基本原理

将不活跃的页面移动到交换空间（磁盘），腾出物理内存。

4.3.2 实现策略

页面置换算法（如LRU）
交换缓存管理
交换优先级控制

4.3.3 现代改进

压缩交换（zswap）：先压缩再交换
前端交换缓存：减少磁盘I/O
智能预读：提前换入可能需要的页面

4.4 覆盖技术（历史背景）

虽然现代系统已不再使用覆盖技术，但它的设计思想影响了虚拟内存的发展：

按需加载：只在需要时加载代码/数据
模块化设计：程序划分为功能单元
执行流预测：预判下一步需要的模块

5. 实际应用建议

5.1 算法选择指南

嵌入式系统：考虑伙伴系统+简单分配器
通用操作系统：SLUB+伙伴系统组合
实时系统：可能需要定制分配器

5.2 性能调优技巧

监控碎片指标：

bash复制cat /proc/buddyinfo
cat /proc/slabinfo

调整SLUB参数：

bash复制echo "kmem_cache_size=512" > /etc/sysctl.conf

大页分配优化：

bash复制echo 20 > /proc/sys/vm/nr_hugepages

5.3 常见问题排查

分配失败：
- 检查/proc/meminfo中的碎片指标
- 分析OOM killer日志
性能下降：
- 使用slabtop查看SLUB使用情况
- 检查伙伴系统阶数分布
内存泄漏：
- 使用kmemleak检测内核泄漏
- 分析/proc/slabinfo的对象增长

6. 未来发展趋势

异构内存管理：处理DRAM+NVM+GPU内存的统一分配
机器学习优化：基于使用模式的智能预分配
安全增强：隔离和保护敏感内存区域
量子计算影响：新型内存架构下的分配算法

在实际系统开发中，理解这些内存分配算法的特性和适用场景，可以帮助我们做出更合理的设计决策。例如，在编写内核模块时，应该根据对象大小和生命周期选择合适的分配接口（kmalloc、vmalloc或专用缓存）。在用户空间编程时，了解malloc的实现原理也能帮助我们优化内存使用模式。