从零理解AES-128：用Verilog代码拆解加密算法的硬件实现原理

IT小魔王

从零理解AES-128：用Verilog代码拆解加密算法的硬件实现原理

在数字安全领域，AES（高级加密标准）算法如同一位沉默的守护者，默默保护着我们的数据隐私。当软件实现已经广为人知时，硬件实现的精妙之处却鲜有深入探讨。本文将带您从晶体管层面，逐行解析AES-128在FPGA中的实现奥秘。

1. AES-128算法核心架构解析

AES-128算法就像一座精密的钟表，由多个齿轮协同工作。在硬件实现中，每个齿轮对应着特定的功能模块：

轮密钥加(AddRoundKey)：相当于数据与密钥的第一次握手
字节代换(SubBytes)：通过S盒完成的非线性变换
行移位(ShiftRows)：数据行的循环位移操作
列混合(MixColumns)：基于有限域的线性变换

verilog复制// AES顶层模块接口示例
module aes_top(
    input clk,
    input rst_n,
    input start_i,
    input decrypt,
    input [127:0] data_in,
    input [127:0] key_in,
    output reg [127:0] data_o,
    output reg ready_o
);

硬件实现与软件实现的本质区别在于并行处理能力。在FPGA中，我们可以同时处理多个数据块，而CPU只能顺序执行。这种并行性使得硬件实现的吞吐量可以达到软件实现的数十倍。

2. 状态机：加密流程的指挥家

AES的加密过程需要精确的时序控制，就像交响乐团的指挥棒。我们采用四状态有限状态机(FSM)来协调整个加密流程：

IDLE状态：系统待命，等待启动信号
FIRST状态：处理初始轮密钥加
MIDDLE状态：执行9轮完整加密
FINALLY状态：完成最后一轮（不含列混合）

verilog复制localparam 
    IDLE = 4'b0001,
    FIRST = 4'b0010,
    MIDDLE = 4'b0100,
    FINALLY = 4'b1000;

reg [3:0] state;
reg [3:0] state_next;

always @(posedge clk or negedge rst_n) begin
    if(!rst_n) begin
        state <= IDLE;
    end else begin
        state <= state_next;
    end
end

状态转换的关键信号包括：

idle_first：从待机到初始轮的转换条件
first_middle：进入主加密轮的标志
middle_finally：切换到最终轮的判断
finally_idle：完成整个加密周期

3. 密钥扩展：动态生成轮密钥

密钥扩展模块如同密码本的自动生成器，它通过Rijndael密钥调度算法，从初始密钥派生出各轮所需的子密钥。硬件实现时有两种策略：

预计算模式：在加密开始前计算所有轮密钥
按需计算模式：在每轮加密时动态生成（更节省资源）

verilog复制module key_extend(
    input clk,
    input rst_n,
    input start_i,
    input [3:0] rd_num,
    input [127:0] key_in,
    output reg ready_o,
    output reg [127:0] key_out
);

// 轮常量生成
always @(rd_num) begin
    case(rd_num)
        0: rcon = 8'h01;
        1: rcon = 8'h02;
        // ...其他轮常量
        9: rcon = 8'h36;
        default: rcon = 0;
    endcase
end

密钥扩展的核心操作包括：

字循环(RotWord)
字节代换(SubWord)
轮常量异或(Rcon XOR)

提示：逆向解密时，密钥扩展需要反向进行，从最后一个轮密钥开始向前推导。

4. 字节代换：S盒的硬件实现艺术

S盒是AES中最神秘的黑盒子，在硬件中可以通过两种方式实现：

实现方式	优点	缺点
查找表(LUT)	速度快，单周期完成	占用较多存储资源
组合逻辑	节省存储空间	增加关键路径延迟

verilog复制// S盒查找表实现示例
module memory_S(
    input clk,
    input rst_n,
    input [7:0] addr,
    output reg [7:0] mem_out
);

(* ramstyle = "M9K" *) 
reg [7:0] int_mem_i [255:0];

always @(posedge clk or negedge rst_n) begin
    if(!rst_n) begin
        int_mem_i[8'h00] <= 8'h63;
        int_mem_i[8'h01] <= 8'h7c;
        // ...初始化全部256个值
    end else begin
        mem_out <= int_mem_i[addr];
    end
end

对于资源受限的应用，可以采用复合域算术实现S盒，将字节运算分解为多个GF(2^4)操作，显著减少逻辑门数量。

5. 行移位与列混合：数据重排的舞蹈

行移位操作在硬件中只需简单的连线重组，不消耗任何逻辑资源：

verilog复制// 行移位模块核心逻辑
assign a_r = decrypt_i ? 
    {a[31:24],b[23:16],c[15:8],d[7:0]} : 
    {a[31:24],d[23:16],c[15:8],b[7:0]};

列混合则是AES中最复杂的数学运算，在GF(2^8)有限域上进行矩阵乘法。硬件实现时，我们可以利用xtime优化：

verilog复制function [7:0] mul_02;
    input [7:0] in;
    begin
        mul_02 = (in << 1) ^ (in[7] ? 8'h1b : 0);
    end
endfunction

列混合的完整实现涉及：

字节乘02（通过左移和条件异或）
字节乘03（乘02结果再异或原值）
矩阵行的线性组合

6. 轮密钥加：异或操作的并行之美

轮密钥加是AES中最简单的操作，但硬件实现时需要考虑时序对齐：

verilog复制module addroundkey(
    input clk,
    input rst_n,
    input start_i,
    input [127:0] data,
    input [127:0] key,
    output [127:0] data_o,
    output reg ready_o
);

assign data_o = data ^ key;

always @(posedge clk or negedge rst_n) begin
    if(!rst_n) ready_o <= 0;
    else ready_o <= start_i;
end

在流水线设计中，需要确保数据和密钥在同一时钟周期到达异或单元。常见的同步策略包括：

密钥生成流水线
数据缓冲寄存器
握手信号协调

7. 性能优化与资源权衡

FPGA实现AES时，设计师需要在速度和面积间做出权衡：

吞吐量优化技术：

全展开流水线（每个轮操作独立流水段）
子模块并行计算
密钥预取机制

资源节省技术：

轮复用架构（10轮使用同一套计算单元）
时间复用S盒（4个字节共享1个S盒）
精简版GF运算单元

verilog复制// 精简版列混合实现
function [7:0] mbyte;
    input [7:0] in0,in1,in2,in3;
    begin
        w1 = in0 ^ in1;
        w2 = in0 ^ in2;
        w3 = in2 ^ in3;
        w4 = mul_02(w1);
        w5 = mul_02(w3);
        w6 = w2 ^ w4 ^ w5;
        w7 = mul_02(w6);
        w8 = mul_02(w7);
        outx_var = in1 ^ w3 ^ w4;
        mbyte = decrypt_i ? outx_var ^ w8 : outx_var;
    end
endfunction

实际项目中，AES-128的典型性能指标：

吞吐量：1-10 Gbps（取决于时钟频率和架构）
延迟：10-100个时钟周期
逻辑资源：1000-5000个LE（Altera）/ LUT（Xilinx）

8. 验证与调试：确保硬件行为正确

硬件加密模块的验证比软件更具挑战性，推荐采用分层验证策略：

单元测试：每个子模块独立验证
集成测试：状态机与数据通路协同验证
系统测试：与外部接口的完整交互

verilog复制// 简单的测试平台示例
initial begin
    // 初始化
    rst_n = 0; start_i = 0; decrypt = 0;
    data_in = 128'h00112233445566778899aabbccddeeff;
    key_in = 128'h000102030405060708090a0b0c0d0e0f;
    
    // 复位释放
    #100 rst_n = 1;
    
    // 启动加密
    #20 start_i = 1;
    #20 start_i = 0;
    
    // 等待完成
    wait(ready_o);
    $display("加密结果：%h", data_o);
    $finish;
end