CTF Pwn必备：汇编与内存模型实战解析

长沮

1. 为什么Pwn选手必须啃下汇编与内存模型这块硬骨头

第一次接触CTF Pwn的新手常有个误区：觉得只要会写Python脚本、会用现成工具就能打比赛。直到遇到第一道需要手写shellcode的题目时，看着满屏的mov eax, ebx和0x08048000才会意识到——不懂汇编和内存模型，连题目在干什么都看不懂。

我在带新人训练时发现，90%的Pwn题漏洞利用都需要以下基础能力：

准确预测寄存器状态变化（比如call指令后的esp值）
计算栈帧中局部变量的偏移量
理解全局变量在内存中的存储位置
识别函数调用约定对参数传递的影响

这些全都建立在扎实的汇编和内存知识上。去年DEF CON CTF中一道看似简单的栈溢出题，就因为选手没注意x86和x64调用约定差异，导致精心构造的ROP链全部失效。

2. 从CPU视角理解x86汇编核心语法

2.1 寄存器：CPU的临时工作台

x86架构有8个通用寄存器，就像厨师手边的调料盒：

数据寄存器：EAX（累加器）、EBX（基址）、ECX（计数器）、EDX（数据）
- EAX常存函数返回值，比如mov eax, 1表示系统调用exit
- ECX在循环中自动递减，loop指令依赖它
指针寄存器：ESP（栈指针）、EBP（基址指针）
- ESP永远指向栈顶，push eax等效于sub esp,4; mov [esp],eax
- EBP标记当前栈帧基址，通过mov ebp, esp建立
变址寄存器：ESI（源索引）、EDI（目的索引）
- 用于内存拷贝，如rep movsb指令会按ESI→EDI方向连续复制

实际解题时遇到32位和64位寄存器命名差异：

32位：EAX, EBX...

64位：RAX, RBX...
高位和低位关系：RAX包含EAX，EAX包含AX，AX又分AH和AL

2.2 指令集：CPU的操作手册

数据传输类

assembly复制mov eax, ebx        ; ebx值复制到eax
lea ecx, [eax+4]    ; 计算eax+4的地址存入ecx（不访问内存）
xchg edx, esi       ; 交换两个寄存器值

算术运算类

assembly复制add esp, 0x10       ; 栈指针下移16字节
sub ecx, 1          ; 计数器减1
imul eax, ebx       ; 有符号乘法

流程控制类

assembly复制cmp eax, 5          ; 比较eax与5
jz label1           ; 相等则跳转（ZF=1时）
call 0x08048400     ; 调用函数（压入返回地址）
ret                 ; 从栈弹出返回地址

实战技巧：识别关键指令

leave = mov esp, ebp; pop ebp （销毁当前栈帧）
nop = 0x90 （滑板指令，用于对齐payload）
int 0x80 = 触发系统调用（32位Linux）

3. Linux进程内存布局详解

3.1 经典内存分段模型

用cat /proc/[pid]/maps查看进程内存映射，典型布局如下：

code复制08048000-08049000 r-xp  /target      ; 代码段（.text）
08049000-0804a000 r--p  /target      ; 只读数据（.rodata）
0804a000-0804b000 rw-p  /target      ; 可写数据（.data/.bss）
f7de0000-f7fa0000 r-xp  /lib32/libc  ; libc代码段
ffb90000-ffbb0000 rw-p  [stack]      ; 主线程栈

关键区域特征

代码段：存放机器指令，属性r-x（不可写）
数据段：包含初始化/未初始化全局变量，属性rw-
堆：动态分配区域，通过brk/sbrk扩展
栈：自动管理，地址从高向低增长

3.2 栈帧结构与函数调用

以func(1,2,3)调用为例：

c复制push 3          ; 参数从右向左压栈
push 2
push 1
call func       ; 压入返回地址
; 进入func后:
push ebp        ; 保存旧基址
mov ebp, esp    ; 建立新栈帧
sub esp, 0x10   ; 分配局部变量空间

此时栈布局：

code复制+----------------+
| 局部变量       | ← ebp-0x10
+----------------+
| 旧ebp值        | ← ebp
+----------------+
| 返回地址       | ← ebp+4
+----------------+
| 参数1          | ← ebp+8
+----------------+
| 参数2          | ← ebp+12
+----------------+
| 参数3          | ← ebp+16
+----------------+

64位系统参数传递规则不同：前6个参数通过RDI,RSI,RDX,RCX,R8,R9传递

4. 实战：通过内存模型理解漏洞利用

4.1 栈溢出漏洞原理

观察存在漏洞的代码：

c复制void vuln() {
    char buf[16];
    gets(buf);  // 无长度检查
}

编译后对应的汇编：

assembly复制vuln:
    push ebp
    mov ebp, esp
    sub esp, 0x18    ; 分配24字节空间（16字节buf+对齐）
    lea eax, [ebp-0x10]
    push eax
    call gets
    add esp, 4
    leave
    ret

当输入超过16字节时，数据会覆盖：

栈帧中的旧EBP值（影响函数返回后的栈平衡）
返回地址（控制程序执行流的关键）

4.2 构造payload的黄金法则

计算偏移量的实用方法：

python复制from pwn import *

# 方法1：cyclic模式字符串
payload = cyclic(100)
send(payload)
# 崩溃时eip=0x6161616c → 计算得偏移为cyclic_find(0x6161616c)

# 方法2：手动计算
offset = 16(buf) + 4(旧ebp) = 20
payload = b'A'*20 + p32(0xdeadbeef)

4.3 对抗内存保护机制

现代系统常见防护：

ASLR：随机化内存地址（可通过泄露地址绕过）
NX：数据段不可执行（用ROP技术应对）
Stack Canary：栈保护值（需先泄露canary）

绕过示例（部分）：

python复制# 泄露canary值
send("%15$p")  # 通过格式化字符串漏洞
canary = int(recv(),16)

# 构造含canary的payload
payload = b'A'*16 + p32(canary) + b'B'*12 + p32(target)

5. 调试技巧与学习资源

5.1 GDB实用命令速查

bash复制gdb -q ./target      # 安静模式启动
b *0x08048400        # 下断点
r < input           # 重定向输入
x/10wx $esp          # 查看栈内存
info registers       # 显示寄存器状态
p system            # 打印函数地址