PostgreSQL存储管理器与WAL机制解析-代码聚汇网

PostgreSQL存储管理器与WAL机制解析

脑袋被门夹得好痛

1. PostgreSQL存储管理器（SMGR）与WAL机制深度解析

PostgreSQL的存储管理器（Storage Manager，简称SMGR）是数据库系统中负责底层文件操作的核心组件。它抽象了物理文件操作，为上层提供统一的接口。在WAL（Write-Ahead Logging）机制中，SMGR相关的操作通过RM_SMGR_ID（资源管理器ID=2）进行记录和恢复。

1.1 SMGR在WAL中的角色定位

SMGR在WAL中主要处理两类操作：

文件创建（XLOG_SMGR_CREATE）
文件截断（XLOG_SMGR_TRUNCATE）

值得注意的是，SMGR intentionally不处理文件删除操作。这是因为文件删除必须与事务提交原子绑定——只有在事务成功提交后才能物理删除文件；如果事务回滚，文件必须保留。这种设计是PostgreSQL崩溃恢复安全性的关键保障。

关键设计原则：WAL机制需要"旧的基础页面+新的日志"才能正确恢复。如果页面比日志新（例如先truncate文件后写WAL），恢复过程将无法正常工作。

1.2 SMGR操作类型与幂等性

WAL类型	宏定义	值	redo核心动作	幂等性保证
CREATE	XLOG_SMGR_CREATE	0x10	`smgrcreate(reln, forkNum, true)`	第三个参数=true表示已存在则忽略
TRUNCATE	XLOG_SMGR_TRUNCATE	0x20	`smgrtruncate2()` + FSM/VM处理	先XLogFlush确保不可逆操作安全

2. SMGR相关数据结构详解

2.1 WAL记录结构定义

文件创建记录（xl_smgr_create）

c复制typedef struct xl_smgr_create {
    RelFileLocator rlocator;  // 关系文件定位器: spcOid/dbOid/relNumber
    ForkNumber  forkNum;      // fork编号: MAIN_FORKNUM=0, FSM=1, VM=2, INIT=3
} xl_smgr_create;

文件截断记录（xl_smgr_truncate）

c复制typedef struct xl_smgr_truncate {
    BlockNumber blkno;       // truncate目标: 保留前blkno个块
    RelFileLocator rlocator; // 关系文件定位器
    int         flags;       // truncate标志位: 哪些fork需要被truncate
} xl_smgr_truncate;

截断标志位定义

c复制#define SMGR_TRUNCATE_HEAP  0x0001  // truncate主数据fork
#define SMGR_TRUNCATE_VM    0x0002  // truncate可见性映射fork
#define SMGR_TRUNCATE_FSM   0x0004  // truncate空闲空间映射fork
#define SMGR_TRUNCATE_ALL   (SMGR_TRUNCATE_HEAP|SMGR_TRUNCATE_VM|SMGR_TRUNCATE_FSM)

2.2 文件定位器结构

c复制typedef struct RelFileLocator {
    Oid         spcOid;      // 表空间OID (如1663=pg_default)
    Oid         dbOid;       // 数据库OID
    RelFileNumber relNumber; // 关系文件编号(即pg_class.relfilenode)
} RelFileLocator;

3. SMGR操作触发场景与SQL示例

3.1 文件创建（XLOG_SMGR_CREATE）

文件创建记录通常在以下SQL操作中产生：

sql复制-- 创建表时，heap_create() -> RelationCreateStorage() -> log_smgrcreate()
CREATE TABLE test_smgr (id int, name text);

-- 创建索引时也会产生SMGR_CREATE
CREATE INDEX idx_smgr ON test_smgr(id);

底层调用栈：

heap_create() 创建表结构
RelationCreateStorage() 创建物理文件
log_smgrcreate() 写入WAL记录

3.2 文件截断（XLOG_SMGR_TRUNCATE）

文件截断记录通常在以下操作中产生：

sql复制-- TRUNCATE命令会直接截断关系文件
TRUNCATE test_smgr;

-- VACUUM FULL在重写表时可能产生truncate记录
VACUUM FULL test_smgr;

-- CLUSTER命令同样可能触发
CLUSTER test_smgr USING idx_smgr;

4. SMGR Redo核心实现解析

4.1 Redo入口函数

c复制void smgr_redo(XLogReaderState *record) {
    XLogRecPtr  lsn = record->EndRecPtr;
    uint8       info = XLogRecGetInfo(record) & ~XLR_INFO_MASK;
    
    Assert(!XLogRecHasAnyBlockRefs(record));  // SMGR记录不使用backup block
    
    if (info == XLOG_SMGR_CREATE) {
        // 处理CREATE操作
    } else if (info == XLOG_SMGR_TRUNCATE) {
        // 处理TRUNCATE操作
    } else {
        elog(PANIC, "smgr_redo: unknown op code %u", info);
    }
}

4.2 CREATE操作处理

c复制xl_smgr_create *xlrec = (xl_smgr_create *) XLogRecGetData(record);
SMgrRelation reln = smgropen(xlrec->rlocator, InvalidBackendId);
smgrcreate(reln, xlrec->forkNum, true);  // 第三个参数true表示存在则忽略

关键点：

使用smgropen打开SMgrRelation对象
smgrcreate的第三个参数确保操作幂等性

4.3 TRUNCATE操作处理

TRUNCATE处理的核心在于严格遵守WAL-first规则：

c复制/* 在执行truncate前必须先XLogFlush(lsn) */
XLogFlush(lsn);

/* 准备truncate MAIN fork */
if ((xlrec->flags & SMGR_TRUNCATE_HEAP) != 0) {
    forks[nforks] = MAIN_FORKNUM;
    old_blocks[nforks] = smgrnblocks(reln, MAIN_FORKNUM);
    blocks[nforks] = xlrec->blkno;
    nforks++;
    XLogTruncateRelation(xlrec->rlocator, MAIN_FORKNUM, xlrec->blkno);
}

/* 执行真正的truncate操作 */
if (nforks > 0) {
    START_CRIT_SECTION();
    smgrtruncate2(reln, forks, nforks, old_blocks, blocks);
    END_CRIT_SECTION();
}

为什么需要先XLogFlush？

TRUNCATE是不可逆操作——文件尾部的数据块一旦被截掉就永远找不回来。这与普通的页面修改不同（页面修改可以通过重放WAL来重做）。如果不先刷WAL可能导致以下崩溃场景：

备库回放到TRUNCATE WAL记录
执行了ftruncate()，文件被截短
对应的WAL记录还在内存中，尚未刷盘
系统崩溃
重启后，minRecoveryPoint停留在truncate之前
恢复时需要读取已被截掉的块来做redo
结果：恢复失败，数据损坏

5. 关键实现细节与调试信息

5.1 WAL记录写入端

c复制void log_smgrcreate(const RelFileLocator *rlocator, ForkNumber forkNum) {
    xl_smgr_create xlrec;
    xlrec.rlocator = *rlocator;
    xlrec.forkNum = forkNum;
    
    XLogBeginInsert();
    XLogRegisterData((char *) &xlrec, sizeof(xlrec));
    XLogInsert(RM_SMGR_ID, XLOG_SMGR_CREATE);
}

5.2 GDB调试示例

典型的XLOG_SMGR_CREATE记录内容：

code复制===== smgr_redo (info=0x10) =====
CREATE: spcOid=1663 dbOid=5 relNumber=74340 forkNum=0
ReadRecPtr=0x15a6cd80 EndRecPtr=0x15a6cdb0

字段解读：

spcOid=1663：pg_default表空间
dbOid=5：目标数据库OID
relNumber=74340：关系文件编号
forkNum=0：MAIN_FORKNUM（主数据fork）

6. 设计思考与最佳实践

6.1 为什么SMGR不处理文件删除？

官方文档明确说明：

Note: we log file creation and truncation here, but logging of deletion actions is handled by xact.c, because it is part of transaction commit.

关键原因：

文件删除必须与事务提交原子绑定
只有在事务成功提交后才能物理删除文件
如果事务回滚，文件必须保留以保证数据完整性

6.2 WAL-first规则的实现保障

源码注释明确指出：

Before we perform the truncation, update minimum recovery point to cover this WAL record. Once the relation is truncated, there's no going back.

实现要点：

TRUNCATE前必须确保WAL记录持久化
通过XLogFlush(lsn)显式刷盘
更新minRecoveryPoint到truncate之后的位置

6.3 性能优化考虑

对于新建的relfilenode，PostgreSQL做了特殊优化：

Database writes that skip WAL for new relfilenumbers are also safe. In these cases it's entirely possible for the data to reach disk before T1's commit, because T1 will fsync it down to disk without any sort of interlock.

这种优化基于以下事实：

新创建的关系文件在事务提交前对其他事务不可见
文件创建操作本身仍需记录WAL
数据写入可以跳过WAL以提高性能

7. 实践经验与故障排查

7.1 常见问题排查

问题1：恢复过程中遇到"could not read block XX of relation YY"错误

可能原因：

TRUNCATE操作未遵守WAL-first规则
系统在TRUNCATE后崩溃，但WAL未持久化

解决方案：

检查minRecoveryPoint位置
验证WAL文件完整性

问题2：磁盘空间未释放