内核性能调优实战：ktime_get与ktime_sub精准定位驱动耗时瓶颈

只为媛动心

1. 从XDMA驱动性能问题说起

最近在调试Xilinx XDMA驱动的PCIE数据传输时，遇到了一个棘手的问题：read buffer操作的耗时明显超出预期。具体表现为，当用户层通过read系统调用读取设备文件时，数据传输延迟高达80多毫秒，这对于需要实时处理数据的场景来说简直是灾难性的。

这个问题最让人头疼的地方在于，整个调用链路涉及多个函数和子系统，从用户空间的read()到内核的char_sgdma_read_write()，再到最终的xdma_xfer_submit()，每个环节都可能成为性能瓶颈。传统的printk调试虽然能确定问题的大致范围，但无法精确定位耗时最长的代码段。

这时候，内核提供的高精度时间测量工具就派上用场了。ktime_get()和ktime_sub()这对黄金组合，可以帮助我们以纳秒级精度测量代码执行时间。相比传统的jiffies计时，它们提供了更高的精度；而相比完整的profiling工具，它们又足够轻量，几乎不会引入额外的性能开销。

2. ktime_get()原理与使用技巧

ktime_get()是Linux内核中获取高精度时间戳的核心函数。它的默认时间参考是CLOCK_MONOTONIC，这个时钟从系统启动开始计时，但不会计算系统挂起的时间，因此特别适合用来测量代码执行时间。

在实际使用中，我发现ktime_get()有几个关键特性值得注意：

它返回的是ktime_t类型的数据，这是一个64位的整数，表示从系统启动开始的纳秒数
调用开销极小，适合在性能敏感的代码路径中使用
有多种变体可供选择，如ktime_get_real()获取墙上时间，ktime_get_boottime()包含系统挂起时间等

在XDMA驱动的调试中，我这样使用ktime_get()：

c复制#include <linux/ktime.h>
#include <linux/timekeeping.h>

ktime_t start_time = ktime_get();
// 要测量的代码
ktime_t end_time = ktime_get();

3. 精准计算时间差：ktime_sub详解

获取了两个时间戳后，下一步就是计算它们之间的差值。这就是ktime_sub()的用武之地。这个宏定义在linux/ktime.h中，实现非常简单：

c复制#define ktime_sub(lhs, rhs) ((lhs) - (rhs))

虽然实现简单，但使用时有几个关键点需要注意：

返回值仍然是ktime_t类型，表示两个时间点之间的纳秒数
如果要转换为更易读的单位，需要使用ktime_to_ns()、ktime_to_us()或ktime_to_ms()等转换函数
对于长时间测量（超过几分钟），需要考虑ktime_t的溢出问题

在XDMA驱动中，我是这样计算并打印执行时间的：

c复制ktime_t duration = ktime_sub(end_time, start_time);
unsigned long long us = (unsigned long long)ktime_to_ns(duration) / 1000;
printk("Function execution time: %lld us\n", us);

4. 实战：定位XDMA驱动耗时瓶颈

回到最初的XDMA驱动问题，通过ktime_get()和ktime_sub()的组合使用，我很快定位到了性能瓶颈所在。具体步骤如下：

在xdma_xfer_submit()函数的开始和结束处添加时间测量点
在关键的代码段（如DMA映射、等待中断等）添加额外的测量点
运行测试并收集内核日志
分析各阶段的耗时情况

测量结果非常具有启发性：

code复制xdma_xfer_submit xdma_xfer start...
[测量点1] DMA映射耗时: 1200 us
[测量点2] 等待中断耗时: 84300 us
xdma_xfer_submit xdma_xfer finished !!!
总执行时间: 85856 us

从数据可以明显看出，等待中断阶段消耗了绝大部分时间（超过98%）。这提示我们可能需要优化中断处理逻辑，或者考虑使用轮询模式来替代中断驱动。

5. 高级技巧与注意事项

在实际使用ktime_get()和ktime_sub()进行性能分析时，我总结出了一些进阶技巧：

多级测量策略：对于复杂的函数，可以采用多级测量策略。先在函数入口和出口处测量总时间，然后在内部关键路径添加更多测量点，逐步缩小问题范围。

统计分析方法：单次测量可能受系统负载影响，更好的做法是：

c复制#define NUM_SAMPLES 100
ktime_t durations[NUM_SAMPLES];

for (int i = 0; i < NUM_SAMPLES; i++) {
    ktime_t start = ktime_get();
    // 被测代码
    durations[i] = ktime_sub(ktime_get(), start);
}

// 计算平均值、最大值、最小值等统计信息

测量开销控制：虽然ktime_get()本身开销很小，但在高频调用的代码路径中，过多的测量点仍可能影响性能。可以考虑在调试完成后通过编译选项（如#ifdef DEBUG）来移除测量代码。

时间单位选择：根据被测代码的预期执行时间，选择合适的单位：

纳秒级：ktime_to_ns()
微秒级：ktime_to_ns()/1000
毫秒级：ktime_to_ms()

6. 与其他性能分析工具对比

虽然ktime_get()和ktime_sub()组合非常实用，但它们只是内核性能分析工具箱中的一部分。与其他工具相比，这套方案有几个显著特点：

优势：

零配置：不需要加载额外模块或设置复杂参数
低开销：适合在生产环境中临时启用
精准定位：可以精确到函数内部的特定代码段

局限性：

需要修改源代码，不适合分析第三方模块
缺乏可视化工具支持
对于系统级分析不够全面

对于更复杂的性能分析场景，可以考虑结合使用：

perf：系统级性能分析
ftrace：函数调用跟踪
BPF：动态追踪和高级分析

7. 实际项目中的优化案例

在定位到XDMA驱动的中断等待是主要瓶颈后，我们尝试了几种优化方案：

中断合并：通过调整硬件中断触发条件，减少中断频率

c复制// 修改前的等待中断
wait_event_interruptible(sgdma_wait, sgdma_int_flag);

// 修改后的批量处理
wait_event_interruptible(sgdma_wait, 
    (sgdma_int_flag >= BATCH_SIZE || sgdma_poll_flag));

轮询模式：在延迟敏感的场景下，改用轮询模式

c复制unsigned int timeout = 100; // 100ms
while (!sgdma_int_flag && timeout--) {
    udelay(1000);
    cond_resched();
}

DMA预分配：提前分配好DMA缓冲区，避免在关键路径中分配内存

经过这些优化后，同样的测试用例显示性能提升了近40%：

code复制优化前: 85856 us
优化后: 51234 us

这个案例充分展示了精准时间测量对于性能优化的重要性。没有ktime_get()和ktime_sub()提供的精确数据，我们很难如此高效地定位和解决性能问题。

已经到底了哦

精选内容

1 从硬件到固件：深入RISC-V PMP机制，看OpenSBI如何帮你管好内存安全 2 LaTeX文档版本对比实战：用latexdiff高效追踪与呈现修改痕迹 3 产品经理进阶实战（一）：从思维导图到高保真原型的工具链贯通 4 别再只会用Excel画图了！用MATLAB的polyfit函数做数据拟合，5分钟搞定线性回归 5 从Gradle异常到路径规范：根治Windows下Android项目非ASCII字符构建难题 6 从游戏开黑到项目分红：夏普利值(Shapley Value)教你如何科学“论功行赏”7 告别预制裂纹！用ABAQUS内聚力模型搞定复合材料分层仿真（附MATLAB批量插入脚本）8 JavaWeb - 巧用Filter与Wrapper，一劳永逸解决Request Body单次读取难题 9 告别盲发！5G NR随机接入Msg1全流程调试笔记：从RA-RNTI验算到功率爬坡实战 10 告别风扇狂转！在Ubuntu 20.04上手动给CPU“降频”省电的保姆级教程