Linux内核引导内存分配器与Buddy系统解析-代码聚汇网

Linux内核引导内存分配器与Buddy系统解析

眠子子子

1. 引导内存分配器与Buddy分配器的关系解析

在Linux内核启动过程中，内存管理系统的初始化是一个典型的"先有鸡还是先有蛋"的问题。内核需要内存来存储管理内存所需的数据结构，但这些数据结构本身又需要内存来存放。这就好比你要建造一个仓库来存放建筑材料，但这些建筑材料本身也需要一个仓库来存放。

1.1 内核启动早期的内存困境

当内核刚开始启动时，面临几个关键挑战：

元数据缺失：struct page数组（mem_map）尚未建立，无法跟踪物理页面的状态
管理结构未就绪：内存区域(zone)和节点(node)等数据结构还未初始化
即时分配需求：内核启动过程中需要立即分配内存用于：
- 页表建立
- 设备树解析
- initramfs解压
- 各种子系统的初始化

此时，完整的Buddy分配器还无法工作，因为它依赖的这些基础设施都还不存在。这就需要一个临时的解决方案——引导内存分配器。

提示：引导内存分配器就像是建筑工地初期的临时材料堆放区，在正式仓库建成前提供基本的存储功能。

2. 引导内存分配器的演进与实现

Linux内核历史上使用过两种主要的引导内存分配器：早期的bootmem和现代的memblock。

2.1 bootmem分配器：初代解决方案

bootmem是Linux早期采用的引导内存分配器，其核心设计相当直接：

c复制struct bootmem_data {
    unsigned long node_boot_start;
    unsigned long node_low_pfn;
    void *node_bootmem_map;
    unsigned long last_offset;
    unsigned long last_pos;
};

工作原理：

使用位图(bitmap)管理内存，每个bit代表一个页面
分配时采用首次适应算法(first-fit)
维护一个指针记录最后分配位置，加速下次查找

实际使用示例：

c复制// 分配内存
void *bootmem_alloc(unsigned long size);

// 释放内存(实际上bootmem很少真正释放)
void bootmem_free(void *addr, unsigned long size);

bootmem的主要问题：

位图占用内存大（特别是大内存系统）
对NUMA架构支持有限
分配效率随内存增大而降低

2.2 memblock分配器：现代解决方案

memblock是当前主流架构(包括ARM64、x86_64)采用的引导内存分配器，它采用更智能的设计：

c复制struct memblock {
    bool bottom_up;
    phys_addr_t current_limit;
    struct memblock_type memory;   // 可用内存区域
    struct memblock_type reserved; // 已分配区域
};

关键改进：

用内存区域(region)数组替代位图
支持动态添加/删除内存区域
更好的NUMA支持
与设备树(DTS)无缝集成

常用API：

c复制// 添加内存区域
int memblock_add(phys_addr_t base, phys_addr_t size);

// 分配内存
void *memblock_alloc(phys_addr_t size, phys_addr_t align);

// 释放内存
int memblock_free(void *ptr, phys_addr_t size);

memblock的工作流程：

从设备树或BIOS获取内存布局
初始化memory和reserved数组
处理预留区域(如内核镜像、initrd等)
提供服务直到Buddy系统就绪

3. 从引导分配器到Buddy系统的过渡

引导内存分配器的最终使命是让位给Buddy系统，这个过程就像接力赛中的交接棒，需要精确协调。

3.1 交接过程详解

Buddy系统数据结构初始化
- 使用memblock分配struct page数组(mem_map)
- 初始化zone和free_area结构
- 建立页框与page结构的映射关系
内存移交关键步骤

c复制// 典型移交过程
void __init memblock_free_all(void)
{
    unsigned long pfn;
    
    // 扫描所有空闲页面
    for_each_free_mem_range(...) {
        // 将页面释放给Buddy系统
        __free_pages_core(pfn, order);
    }
    
    // 移交完成后统计信息
    totalram_pages_add(free_pages);
}

性能优化措施
- 大块内存批量移交而非单页
- 并行化初始化过程(多核系统)
- 延迟非关键区域的初始化

3.2 实际案例分析

以ARM64架构为例，看具体实现：

启动阶段：

c复制start_kernel()
    -> setup_arch()
        -> arm64_memblock_init()  // 初始化memblock
    -> mm_init()
        -> mem_init()            // 初始化Buddy系统

内存移交关键函数：

c复制void __init mem_init(void)
{
    // 1. 建立page结构
    memblock_free_all();
    
    // 2. 计算各种内存统计信息
    mem_init_print_info();
    
    // 3. 标记memblock为只读
    memblock_discard();
}

4. 引导分配器与Buddy系统对比

特性	引导分配器(memblock)	Buddy分配器
生命周期	内核启动早期	系统运行全程
管理粒度	物理地址范围	页框(page frame)
算法复杂度	O(n)线性扫描	O(1)链表操作
内存开销	较小(数组)	较大(多层结构)
主要功能	临时分配/移交内存	完整的内存管理
碎片处理	无	通过伙伴算法减少

5. 实践中的注意事项与技巧

5.1 调试引导内存问题

当遇到早期内存分配问题时，可以：

启用memblock调试：

c复制// 在内核命令行添加
memblock=debug

查看memblock信息：

sh复制# 通过sysfs查看
cat /sys/kernel/debug/memblock/memory
cat /sys/kernel/debug/memblock/reserved

常见问题处理：

内存重叠：检查设备树内存节点定义
分配失败：确认early_reserved区域设置
移交错误：检查page结构初始化

5.2 性能优化建议

减少早期内存分配：

压缩内核镜像(使用XZ或LZMA)
延迟非关键子系统初始化

优化移交过程：

使用CONFIG_HAVE_MEMBLOCK_NODE_MAP
启用并行化初始化

特殊配置处理：

大页内存预分配
DMA区域特殊处理

6. 进阶话题与扩展思考

6.1 与其它内存管理组件的关系

SLAB分配器：

依赖Buddy系统提供大块内存
自身初始化也需要引导分配器

CMA(连续内存分配器)：

需要在引导阶段预留区域
与memblock密切配合

虚拟内存管理：

页表分配依赖早期内存分配
后期与Buddy系统协同工作

6.2 嵌入式系统特殊考量

在资源受限的嵌入式环境中：

内存受限时的策略：

最小化early_reserved区域
精确计算mem_map大小
考虑DISCONTIGMEM配置

启动优化技巧：

使用压缩的initramfs
预计算内存布局
静态分配关键数据结构

实际案例：某IoT设备优化

原启动时间：2.1秒
优化memblock配置后：1.4秒
关键改动：精确设置reserved区域

7. 总结与最佳实践

引导内存分配器是Linux内核启动过程中不可或缺的过渡方案，它的设计体现了工程上的智慧——用简单可靠的方案解决复杂问题的最佳实践包括：

合理规划内存布局：

准确配置物理内存区域
明确预留区域需求
考虑NUMA拓扑结构

优化启动参数：

设置合适的memblock参数
控制调试信息级别
预留足够early内存

监控与调优：

跟踪启动阶段内存使用
分析移交过程耗时
优化大内存系统配置

在实际项目中，我曾遇到一个典型问题：某ARM64服务器平台启动时偶发内存分配失败。通过分析发现是memblock的reserved区域设置不足，导致后续Buddy系统初始化时缺少关键内存。解决方案是：

调整设备树中的内存预留区域
增加early_reserved内存大小
优化memblock分配策略

这个案例让我深刻理解到引导内存分配器在内核启动中的关键作用，以及合理配置的重要性。对于开发者来说，掌握这部分知识不仅能解决启动问题，还能优化系统性能，特别是在资源受限的嵌入式环境中。