从存储到内存：异构硬件下的ANN算法演进与系统设计

四散

1. 异构硬件时代下的ANN算法挑战

当我们在淘宝搜索"运动鞋"时，系统需要在毫秒内从上亿商品中找到最符合需求的推荐；当使用人脸解锁手机时，设备要瞬间从海量特征库中匹配你的生物信息。这些场景背后都依赖近似最近邻搜索（ANN）技术。但随着数据规模突破百亿级别，传统基于DRAM的算法已力不从心。

我参与过一个电商推荐系统项目，当用户特征库从千万级增长到十亿级时，单机内存成本从3万元飙升至300万元。这促使我们转向异构硬件架构，但随之而来的是三大技术挑战：

内存墙困境：在GPU加速的案例中，我们发现当向量维度达到1024时，HNSW算法的内存访问延迟占比高达78%。就像在大型图书馆找书，虽然知道书架位置（计算快），但来回取书（数据搬运）反而成了瓶颈。

存储计算失衡：测试SmartSSD设备时，NVMe SSD的4GB/s带宽看似充足，但实际ANN查询的随机访问特性使其有效带宽利用率不足15%。好比拥有八车道高速公路，但车辆都在频繁变道（随机IO）。

硬件异构鸿沟：在CXL内存池实验中，同一ANN算法在本地DRAM和CXL内存的性能差异可达5倍。这就像用跑车发动机（计算单元）配自行车链条（内存子系统）。

2. 存储优先的设计革命

2.1 从DiskANN到智能存储

DiskANN的出现犹如ANN领域的"MapReduce时刻"。我们团队复现其实验时，通过三个关键设计将SSD检索性能提升9倍：

数据耦合布局：将每个节点的原始向量与邻居列表连续存储。就像把菜谱和所需食材打包在一起，避免来回翻找。实测这种布局使4KB读取的有效数据量提升4.3倍。

python复制# DiskANN数据布局示例
struct DiskANNNode {
    float vector[128];  // 原始向量
    uint32_t neighbors[50]; // 邻居ID列表
    uint32_t padding[2]; // 4KB对齐
};

光束搜索优化：设置W=8的批量读取策略，相当于超市购物时按清单批量拿货，减少走动次数。这使IOPS需求从3000降至400。

缓存热点策略：保留入口点3跳内的节点在内存，类似快递网点缓存热销商品。测试显示该策略减少67%的SSD访问。

2.2 近存储计算的突破

参与某金融风控项目时，我们发现传统方案需要将200GB特征库全部加载到内存。采用Cognitive SSD方案后，通过三项创新实现in-storage处理：

闪存页优化：将相邻节点存入同一闪存页（16KB），使单次读取获取更多有效数据。实测读放大系数从4.7降至1.2。

计算下推：在存储设备内完成距离计算，仅返回结果。这如同在仓库直接验货，只把合格品运出。带宽需求降低82%。

流水线调度：使用io_uring实现异步IO，就像餐厅让厨师边做菜边接新订单。某支付系统延迟从23ms降至9ms。

3. 内存层级重构实践

3.1 CXL内存池的协同设计

在构建CXL-ANNS系统时，我们遇到扩展内存访问延迟高的问题。通过以下方案实现性能逆转：

预取流水线：当主机还在处理候选列表时，CXL设备已预取下一跳节点。就像助理提前准备老板可能需要的文件。测试显示该技术隐藏75%的内存延迟。

计算卸载：在CXL设备端完成距离计算，仅传回float结果而非整个向量。某推荐系统吞吐量因此提升3倍。

bash复制# CXL设备计算卸载示例
$ cxlannd --compute-distance \
          --query-vec query.bin \
          --target-vec target.bin \
          --return-type scalar