Linux内核内存管理：虚拟地址与伙伴系统详解-代码聚汇网

Linux内核内存管理：虚拟地址与伙伴系统详解

常姑娘

1. Linux内核内存管理概述

在Linux系统中，内存管理是内核最核心的功能之一。作为一个成熟的操作系统内核，Linux需要高效地管理物理内存，同时为每个进程提供独立的虚拟地址空间。这种管理涉及多个层次和机制，其中虚拟地址空间、伙伴系统和块分配器构成了基础架构的三大支柱。

现代计算机系统通常采用虚拟内存技术，这使得每个进程都拥有独立的地址空间，仿佛独占了整个系统的内存资源。Linux内核通过精巧的设计，将物理内存的管理与虚拟地址空间的映射分离，既保证了安全性，又提高了资源利用率。

内存管理子系统的主要职责包括：

物理内存的分配与回收
虚拟地址空间的映射与管理
内存碎片整理与优化
内存访问控制与保护

2. 虚拟地址空间详解

2.1 地址空间基本概念

在Linux中，每个进程都拥有自己独立的虚拟地址空间。这个空间通常被划分为用户空间和内核空间两部分。在x86架构的32位系统上，典型的划分是3GB用户空间和1GB内核空间；而在64位系统上，地址空间要大得多，划分也更加灵活。

虚拟地址空间通过页表(page table)映射到物理内存。页表由内核维护，处理器中的内存管理单元(MMU)负责地址转换。这种设计带来了几个关键优势：

进程隔离：一个进程无法直接访问另一个进程的内存
内存保护：可以设置只读、可写、可执行等权限标志
延迟分配：物理内存可以按需分配

2.2 地址空间布局

Linux进程的虚拟地址空间布局包含以下几个主要区域：

代码段(text segment)：存放可执行指令
数据段(data segment)：存放初始化过的全局变量
BSS段：存放未初始化的全局变量
堆(heap)：动态内存分配区域，向高地址增长
内存映射区域：用于文件映射和共享库
栈(stack)：用于函数调用和局部变量，向低地址增长

内核使用内存描述符(mm_struct)来管理每个进程的地址空间。这个结构体包含了指向各种内存区域的指针，以及管理页表所需的信息。

2.3 地址转换机制

从虚拟地址到物理地址的转换涉及多级页表。在x86架构中，通常采用四级页表结构：

页全局目录(PGD)
页上级目录(PUD)
页中间目录(PMD)
页表(PTE)

转换过程大致如下：

从CR3寄存器获取当前进程的PGD基地址
用虚拟地址的高位索引PGD，找到PUD条目
索引PUD找到PMD条目
索引PMD找到PTE条目
从PTE中获取物理页框号(PFN)
将PFN与页内偏移组合得到物理地址

为了提高转换效率，处理器使用TLB(Translation Lookaside Buffer)缓存最近使用的地址映射。当TLB未命中时，才会进行完整的页表遍历。

3. 伙伴系统深入解析

3.1 基本工作原理

伙伴系统是Linux内核中管理物理内存页的核心算法。它将所有空闲页框组织成11个链表，每个链表包含大小为2^n个连续页框的块，其中n从0到10（称为order，分配阶）。

关键数据结构定义如下：

c复制struct free_area {
    struct list_head free_list[MIGRATE_TYPES];
    unsigned long nr_free;
};

struct zone {
    /* ... */
    struct free_area free_area[MAX_ORDER];
    /* ... */
};

当需要分配内存时，伙伴系统会：

在请求大小的链表中查找空闲块
如果没找到，就在更大的块链表中查找
找到后，将大块分割成两部分（伙伴）
一部分用于分配，另一部分插入到相应大小的链表中

释放内存时，系统会检查是否存在伙伴块（大小相同、物理地址连续），如果存在就合并成更大的块，并递归尝试更高阶的合并。

3.2 避免内存碎片

长期运行的系统容易产生内存碎片，伙伴系统通过两种主要机制来缓解这个问题：

可移动页分类：
- 不可移动页：内核核心数据结构等
- 可回收页：可以重新生成的内容
- 可移动页：用户空间进程的页
虚拟可移动内存域(ZONE_MOVABLE)：
- 将物理内存划分为可移动和不可移动区域
- 通过kernelcore和movablecore参数控制划分比例
- 可移动分配从ZONE_MOVABLE获取内存

迁移类型定义如下：

c复制#define MIGRATE_UNMOVABLE 0
#define MIGRATE_RECLAIMABLE 1 
#define MIGRATE_MOVABLE 2
#define MIGRATE_RESERVE 3
#define MIGRATE_ISOLATE 4
#define MIGRATE_TYPES 5

3.3 分配流程详解

内存分配的核心函数是__alloc_pages()，其基本流程如下：

第一次尝试：严格条件分配
- 使用ALLOC_WMARK_LOW水印
- 限制在当前CPU关联的节点分配
第一次失败后：
- 唤醒kswapd进行页面回收
- 放宽条件再次尝试(ALLOC_WMARK_MIN)
如果仍然失败：
- 直接回收内存(try_to_free_pages)
- 如果允许，调用OOM killer
最后手段：
- 根据GFP标志决定重试或失败

关键分配标志：

c复制#define ALLOC_NO_WATERMARKS 0x01
#define ALLOC_WMARK_MIN 0x02
#define ALLOC_WMARK_LOW 0x04 
#define ALLOC_WMARK_HIGH 0x08
#define ALLOC_HARDER 0x10
#define ALLOC_HIGH 0x20
#define ALLOC_CPUSET 0x40

4. 块分配器机制

4.1 块分配器概述

伙伴系统适合分配大块内存，但对于内核中常见的小对象分配效率不高。为此，Linux提供了块分配器(slab allocator)机制，主要有三种实现：

SLAB：传统实现
SLUB：较新且简化的实现(默认)
SLOB：针对嵌入式系统的极简实现

块分配器建立在伙伴系统之上，主要解决两个问题：

减少小对象分配的内存浪费
缓存常用对象以提高性能

4.2 SLUB分配器详解

SLUB是当前Linux内核默认的块分配器，它的核心概念包括：

slab：由单个或多个连续页组成的内存块
object：slab中分配的实际对象
kmem_cache：特定类型对象的缓存

关键数据结构：

c复制struct kmem_cache {
    struct kmem_cache_cpu __percpu *cpu_slab;
    unsigned long flags;
    int size; /* 对象大小 */
    int object_size; /* 实际对象大小 */
    /* ... */
};

struct kmem_cache_cpu {
    void **freelist; /* 下一个可用对象 */
    struct page *page; /* 当前正在使用的slab */
    /* ... */
};

分配流程：

首先尝试从per-CPU的freelist获取对象
如果freelist为空，从当前slab获取
如果当前slab用完，从partial列表获取新slab
如果都没有，从伙伴系统分配新slab

4.3 使用场景对比

不同分配器适用于不同场景：

分配器类型	适用场景	特点
伙伴系统	大块内存分配(页级)	支持2^n页分配，可能产生碎片
SLAB	通用对象缓存	较复杂，调试功能丰富
SLUB	通用对象缓存(默认)	简化设计，更好性能
SLOB	嵌入式系统	极简实现，内存紧张时使用

5. 高级主题与性能优化

5.1 NUMA内存管理

在NUMA(Non-Uniform Memory Access)系统中，内存访问时间取决于内存位置。Linux内核通过以下机制优化NUMA性能：

节点划分：将系统划分为多个节点，每个节点有自己的内存
内存策略：
- 默认策略：在请求线程的节点分配
- 绑定策略：指定特定节点
- 交错策略：跨节点交替分配
自动NUMA平衡：内核线程定期优化内存位置

5.2 透明大页(THP)

透明大页(Transparent Huge Pages)是Linux的一项内存优化技术，它自动将普通页(4KB)合并为大页(通常2MB)，从而：

减少TLB缺失
降低页表遍历开销
提高内存访问效率

内核通过khugepaged守护进程自动管理大页的合并和拆分。管理员可以通过sysfs接口控制THP行为：

bash复制# 查看THP状态
cat /sys/kernel/mm/transparent_hugepage/enabled

# 禁用THP
echo never > /sys/kernel/mm/transparent_hugepage/enabled

5.3 内存压缩与回收

当系统内存紧张时，内核会触发内存回收机制：

直接回收(direct reclaim)：同步回收，可能导致进程阻塞
后台回收(kswapd)：异步回收，由守护进程执行
OOM killer：当回收无法满足需求时，选择进程终止

回收策略基于LRU(Least Recently Used)算法，将页面分为：

活跃链表(active list)
非活跃链表(inactive list)

内核参数/proc/sys/vm/包含多个控制回收行为的参数，如：

swappiness：控制换出到交换分区的倾向
vfs_cache_pressure：控制回收目录项和inode缓存的强度

6. 实战分析与性能调优

6.1 内存信息查看工具

/proc/meminfo：系统内存使用概况

bash复制cat /proc/meminfo

free：快速查看内存和交换空间使用

bash复制free -h

vmstat：虚拟内存统计

bash复制vmstat 1

slabtop：查看slab分配器使用情况

bash复制slabtop

numastat：NUMA内存分配统计

bash复制numastat

6.2 常见问题排查

问题1：内存泄漏诊断

步骤：

监控内存增长趋势
检查/proc/meminfo和/proc/slabinfo
使用kmemleak检测内核内存泄漏
使用valgrind检测用户空间泄漏

问题2：内存碎片分析

检查方法：

bash复制cat /proc/buddyinfo
cat /proc/pagetypeinfo

问题3：OOM killer触发

查看OOM killer日志：

bash复制dmesg | grep -i oom

调整OOM killer行为：

bash复制# 调整进程的oom_score_adj
echo -100 > /proc/[pid]/oom_score_adj

6.3 性能优化建议

调整swappiness：

bash复制# 降低交换倾向(0-100，默认60)
echo 10 > /proc/sys/vm/swappiness

优化NUMA策略：

bash复制# 对关键进程绑定NUMA节点
numactl --cpunodebind=0 --membind=0 command

控制透明大页：

bash复制# 对延迟敏感应用禁用THP
echo never > /sys/kernel/mm/transparent_hugepage/enabled

调整脏页比率：

bash复制# 加快脏页写回
echo 10 > /proc/sys/vm/dirty_ratio
echo 5 > /proc/sys/vm/dirty_background_ratio

限制cgroup内存使用：

bash复制# 设置内存限制
echo 1G > /sys/fs/cgroup/memory/group1/memory.limit_in_bytes