DMA实战指南：从概念到STM32高效数据搬运

Michael Tu

1. DMA技术初探：为什么STM32开发者需要这个"数据搬运小助手"

第一次接触DMA这个概念时，我正被一个ADC多通道采集项目搞得焦头烂额。当时CPU要不停检查ADC转换状态，搬运数据，还要处理其他任务，系统效率低得令人发指。直到同事建议我试试DMA，才真正体会到什么叫做"解放CPU"的神器。

DMA（Direct Memory Access）直接存储器访问，就像它的名字一样直白——能够不经过CPU直接访问内存。想象一下，你正在厨房做饭（CPU处理核心任务），同时需要从冰箱拿食材（数据搬运）。传统方式是你自己一趟趟跑（CPU参与每次数据传输），而DMA就像请了个厨房助手，你只需要告诉它："把冰箱里的西红柿和鸡蛋拿到灶台"，剩下的搬运工作就完全不用操心了。

在STM32中，DMA控制器是一个独立的外设，主要承担三类数据传输任务：

外设到存储器：比如ADC采集数据存入内存数组
存储器到外设：比如从内存发送数据到串口
存储器到存储器：比如内部Flash数据复制到SRAM

我做过一个实测对比：用传统CPU搬运方式和DMA方式传输1024字节数据。前者需要CPU执行约5000条指令，耗时230μs；而DMA仅需85μs，且CPU可以完全处理其他任务。这种效率差距在实时性要求高的场合（如音频处理、高速数据采集）尤为明显。

2. STM32的DMA架构深度解析

2.1 DMA通道与仲裁机制

记得第一次配置DMA时，我被STM32F103的通道分配搞得一头雾水。为什么ADC1必须用通道1？为什么串口1发送只能用通道4？后来仔细研究手册才发现，这是STM32设计时固定的硬件映射关系。

以STM32F103为例，其DMA1控制器有7个独立通道，每个通道的硬件触发源是固定的：

通道1：ADC1、TIM2_CH3、TIM4_CH1
通道2：SPI1_RX、TIM1_CH1、TIM2_UP
通道3：SPI1_TX、TIM1_CH2、TIM3_CH3
...（其他通道映射详见参考手册）

这种设计意味着当你想用某个外设的DMA功能时，通道选择其实已经被限定了。我曾经在一个项目中同时需要ADC采集和SPI通信，就因为通道冲突不得不调整外设使用方案。

多个通道同时工作时，仲裁器会根据优先级决定谁先使用总线。优先级有两种配置方式：

软件优先级：通过寄存器设置（非常高/高/中/低）
硬件优先级：通道号越小优先级越高（默认）

2.2 双缓冲与循环模式实战技巧

在图像处理项目中，我深刻体会到了DMA双缓冲的妙处。传统单缓冲模式下，CPU处理当前帧时，DMA可能正在写入下一帧，导致数据撕裂。而双缓冲通过交替使用两个缓冲区完美解决了这个问题。

配置双缓冲的关键步骤：

c复制// 初始化双缓冲
DMA_InitStructure.DMA_Mode = DMA_Mode_Circular;  // 循环模式
DMA_InitStructure.DMA_Memory0BaseAddr = (uint32_t)Buffer0;
DMA_InitStructure.DMA_Memory1BaseAddr = (uint32_t)Buffer1;
DMA_InitStructure.DMA_BufferSize = BUF_SIZE;
DMA_DoubleBufferModeConfig(DMA1_Channel1, (uint32_t)Buffer0, DMA_Memory_0);
DMA_DoubleBufferModeCmd(DMA1_Channel1, ENABLE);

使用时通过检查当前活跃缓冲区来安全访问数据：

c复制if(DMA_GetCurrentMemoryTarget(DMA1_Channel1) == DMA_Memory_0) {
    // 处理Buffer1数据
} else {
    // 处理Buffer0数据
}

3. 存储器映像与DMA配置的深层关联

3.1 STM32的地址空间布局

刚开始使用DMA时，我曾犯过一个低级错误——试图用DMA向Flash写入数据，结果导致硬件错误中断。后来才明白这是因为Flash在STM32中属于只读存储器（ROM）。

STM32的存储器地址空间主要分为几个关键区域：

0x0800 0000：主Flash（存储程序代码）
0x2000 0000：SRAM（运行内存）
0x4000 0000：外设寄存器
0xE000 0000：内核外设

一个实用的技巧是：通过查看变量地址就能判断其存储位置。比如：

c复制uint8_t var;
printf("Address: 0x%08X", (uint32_t)&var);

如果输出是0x200xxxxx，说明在SRAM；如果是0x080xxxxx，则可能是const常量存储在Flash。

3.2 数据对齐的坑与解决方案

在一次跨平台项目移植中，我遇到了DMA传输数据错位的问题。根源在于ARM架构对数据访问有严格的对齐要求。例如：

32位访问必须4字节对齐（地址是4的倍数）
16位访问必须2字节对齐

不对齐访问虽然不会报错，但会导致性能下降甚至数据错误。解决方法有：

使用编译器属性强制对齐：

c复制__attribute__((aligned(4))) uint8_t buffer[128];

在DMA配置中统一数据宽度：

c复制DMA_InitStructure.DMA_PeripheralDataSize = DMA_PeripheralDataSize_Word;
DMA_InitStructure.DMA_MemoryDataSize = DMA_MemoryDataSize_Word;

4. 典型应用场景与实战代码

4.1 ADC多通道采集+DMA方案优化

在工业传感器采集系统中，我优化过的ADC+DMA配置流程如下：

初始化GPIO和ADC：

c复制// 配置ADC通道对应的GPIO为模拟输入
GPIO_InitStructure.GPIO_Mode = GPIO_Mode_AIN;
// ADC常规配置
ADC_InitStructure.ADC_ScanConvMode = ENABLE;
ADC_InitStructure.ADC_ContinuousConvMode = ENABLE;

DMA配置关键点：

c复制DMA_InitStructure.DMA_PeripheralBaseAddr = (uint32_t)&ADC1->DR;
DMA_InitStructure.DMA_MemoryBaseAddr = (uint32_t)adcValues;
DMA_InitStructure.DMA_DIR = DMA_DIR_PeripheralSRC;
DMA_InitStructure.DMA_BufferSize = ADC_CHANNEL_COUNT;
DMA_InitStructure.DMA_PeripheralInc = DMA_PeripheralInc_Disable;
DMA_InitStructure.DMA_MemoryInc = DMA_MemoryInc_Enable;

校准与启动技巧：

c复制// 必须的校准流程
ADC_ResetCalibration(ADC1);
while(ADC_GetResetCalibrationStatus(ADC1));
ADC_StartCalibration(ADC1);
while(ADC_GetCalibrationStatus(ADC1));

// 启动DMA后再开启ADC
DMA_Cmd(DMA1_Channel1, ENABLE);
ADC_DMACmd(ADC1, ENABLE);
ADC_Cmd(ADC1, ENABLE);
ADC_SoftwareStartConvCmd(ADC1, ENABLE);

这种配置下，ADC会持续采样并将数据自动存入指定数组，完全不需要CPU干预。我在处理8通道16位ADC数据时，CPU占用率从原来的35%降到了不足5%。

4.2 内存到外设的高效传输实例

在OLED显示屏刷新优化中，内存到外设的DMA传输大幅提升了刷新率。关键配置如下：

c复制// SPI发送DMA配置
DMA_InitStructure.DMA_PeripheralBaseAddr = (uint32_t)&SPI1->DR;
DMA_InitStructure.DMA_MemoryBaseAddr = (uint32_t)displayBuffer;
DMA_InitStructure.DMA_DIR = DMA_DIR_PeripheralDST;  // 内存到外设
DMA_InitStructure.DMA_BufferSize = DISPLAY_BUFFER_SIZE;

// 发送完成中断配置
DMA_ITConfig(DMA1_Channel3, DMA_IT_TC, ENABLE);
NVIC_EnableIRQ(DMA1_Channel3_IRQn);

使用时只需启动DMA传输：

c复制void OLED_Refresh() {
    while(SPI_I2S_GetFlagStatus(SPI1, SPI_I2S_FLAG_TXE) == RESET);
    DMA_Cmd(DMA1_Channel3, ENABLE);
    SPI_I2S_DMACmd(SPI1, SPI_I2S_DMAReq_Tx, ENABLE);
}

配合双缓冲技术，可以实现无闪烁的60fps刷新率，而CPU仅需在每帧开始时准备下一帧数据即可。

5. 高级技巧与性能优化

5.1 中断与DMA的协同工作

在串口高速通信项目中，单纯使用DMA会遇到缓冲区管理问题。我的解决方案是结合传输完成中断和半传输中断：

c复制// 启用DMA中断
DMA_ITConfig(DMA1_Channel4, DMA_IT_TC | DMA_IT_HT, ENABLE);

// 中断处理函数
void DMA1_Channel4_IRQHandler() {
    if(DMA_GetITStatus(DMA1_IT_TC4)) {
        // 处理下半部分数据
        ProcessData(&buffer[DMA_BUFFER_SIZE/2]);
        DMA_ClearITPendingBit(DMA1_IT_TC4);
    }
    if(DMA_GetITStatus(DMA1_IT_HT4)) {
        // 处理上半部分数据
        ProcessData(&buffer[0]);
        DMA_ClearITPendingBit(DMA1_IT_HT4);
    }
}

这种"乒乓缓冲"机制确保了数据处理的实时性，同时避免了缓冲区覆盖问题。

5.2 DMA与Cache一致性问题

在使用STM32H7系列时，我遇到了DMA传输数据异常的问题，最终发现是Cache一致性导致的。解决方案包括：

手动维护Cache一致性：

c复制// 写入数据后刷新Cache
SCB_CleanDCache_by_Addr((uint32_t*)buffer, sizeof(buffer));

使用MPU配置非缓存区域：

c复制MPU_Region_InitTypeDef MPU_InitStruct;
MPU_InitStruct.Enable = MPU_REGION_ENABLE;
MPU_InitStruct.BaseAddress = 0x20010000;
MPU_InitStruct.Size = MPU_REGION_SIZE_32KB;
MPU_InitStruct.IsCacheable = MPU_ACCESS_NOT_CACHEABLE;
MPU_InitStruct.IsBufferable = MPU_ACCESS_NOT_BUFFERABLE;
MPU_RegionInit(&MPU_InitStruct);

对于高性能应用，正确配置Cache策略可以提升DMA性能30%以上。

6. 常见问题排查指南

6.1 DMA传输不工作的检查清单

根据我踩过的坑，总结出以下排查步骤：

时钟检查：
- 确认RCC_AHBPeriphClockCmd已开启DMA时钟
- 相关外设时钟也已开启
通道选择验证：
- 检查是否使用了正确的DMA和通道组合
- 确认外设DMA输出已启用（如ADC_DMACmd）
地址配置检查：
- 外设地址是否正确（如&ADC1->DR）
- 内存地址是否有效（避免NULL或非法地址）
传输计数器状态：
- 检查DMA_GetCurrDataCounter的值
- 确保在DMA禁用状态下修改计数器
触发条件确认：
- 软件触发需确保M2M=1
- 硬件触发需确认触发事件已发生

6.2 性能优化检查点

当DMA性能不如预期时，可以检查：

总线矩阵冲突：
- 避免DMA和CPU频繁访问同一存储器bank
- 使用SRAM分块策略（如STM32F4的CCM RAM）

突发传输配置：

在支持DMA突发传输的型号上（如STM32H7）：

c复制DMA_InitStructure.DMA_SrcBurst = DMA_SrcBurst_INC4;
DMA_InitStructure.DMA_DestBurst = DMA_DestBurst_INC4;

数据宽度匹配：
- 确保外设和内存端数据宽度匹配外设特性
- 例如SPI通常8位，ADC通常16位

7. 扩展应用：DMA在复杂系统中的使用

7.1 多DMA控制器协同工作

在STM32F7/H7系列中，存在两个DMA控制器（DMA1/DMA2）甚至更多。我曾设计过一个音频处理系统，同时使用多个DMA通道：

DMA1通道5：I2S接收音频数据到输入缓冲区
DMA1通道6：处理后的数据通过I2S发送
DMA2通道3：实时将数据拷贝到SDIO存储

关键是要合理分配通道资源，避免总线带宽瓶颈。我的经验法则是：

高优先级任务使用低编号通道
大数据量传输分散在不同DMA控制器
使用DMA链接功能（仅限支持型号）

7.2 DMA与RTOS的配合技巧

在FreeRTOS环境中使用DMA时，需要注意：

内存保护：
- 确保DMA缓冲区不被任务意外修改
- 可以使用静态分配或内存池
任务同步：

c复制// 创建二进制信号量
xSemaphoreHandle dmaCompleteSemaphore;

// DMA完成中断中
void DMA1_Channel1_IRQHandler() {
    if(DMA_GetITStatus(DMA1_IT_TC1)) {
        xSemaphoreGiveFromISR(dmaCompleteSemaphore, NULL);
        DMA_ClearITPendingBit(DMA1_IT_TC1);
    }
}

// 任务中等待DMA完成
xSemaphoreTake(dmaCompleteSemaphore, portMAX_DELAY);

优先级配置：
- DMA中断优先级应高于使用它的任务
- 但低于关键系统任务（如调度器）

通过这些年在STM32项目中的实践，我越发体会到DMA作为"数据搬运小助手"的价值。从简单的内存拷贝到复杂的多外设联动，合理运用DMA不仅能提升系统性能，还能降低功耗，是嵌入式开发者必须掌握的核心技能之一。

已经到底了哦