数字存内计算(DCIM)正在颠覆传统计算架构的格局。想象一下,你每天使用的电脑或手机,数据需要在处理器和内存之间来回搬运,就像一个人不停地在仓库和车间之间奔跑取货。这种"冯·诺依曼瓶颈"导致高达90%的能耗都消耗在数据搬运上,而非实际计算。而存内计算直接把"车间"搬进了"仓库",让数据在原地就能完成加工。
传统DCIM方案通常采用全加器树结构,就像用乐高积木搭建的加法器,虽然精度有保证,但搭建大规模计算网络时需要消耗太多"积木块"。清华大学团队提出的eDRAM-LUT架构,相当于用智能抽屉(查找表)替代了这些积木块——预先在抽屉里存放各种计算结果,需要时直接拉开对应抽屉取用。实测表明,这种架构的面积效率比传统方案提升近50%,相当于在同样大小的芯片上多塞进一倍的运算单元。
CS-DCA阵列就像个变形金刚,能在计算引擎和存储仓库两种形态间自由切换。当执行神经网络常见的乘加运算(MAC)时,16个bank就像16条并行流水线。每个eLAD单元内部的查找表,其实是个精心设计的"答案库"——预先存储了所有可能的4位输入(激活值)与8位权重相乘的结果。这相当于把乘法表提前背得滚瓜烂熟,遇到题目直接报答案。
分层解码器在这里扮演交通警察的角色,它能同时处理16路4:16的激活信号分发。举个例子,当处理卷积神经网络时,同一组权重需要与不同位置的激活值相乘。传统架构需要反复读取权重数据,而CS-DCA通过LUT的并行查询特性,就像同时翻开多本字典查单词,把吞吐量提升到惊人的10TOPS(每秒万亿次操作)。
切回存储模式时,整个阵列又变身为高效的内存仓库。这时解码器改用8:256的寻址方式,就像邮局的分拣系统,能精准定位到每个存储格子。特别值得一提的是其创新的IMREP电路,这个"内存管家"有两大绝活:
实测数据显示,在1V工作电压下,这套机制能在60℃高温环境维持0.5μs的刷新间隔,比常规eDRAM方案节省约30%的刷新能耗。
传统SRAM单元需要6个晶体管(6T),就像六人合住的宿舍。而采用的3T eDRAM单元仅需三人间,面积直接缩小一半。但小户型带来的挑战是更容易"漏水"(电荷泄漏),设计团队通过两项创新解决:
这种组合拳使得单元面积仅0.145μm²,在28nm工艺下实现0.017mm²的芯片面积,比同类SRAM方案节省近一半空间。
有人可能担心查找表会降低计算精度,实际上该设计通过三个措施确保8bit整数运算的完全精度:
测试表明,在ResNet18等典型神经网络中,其分类准确率与浮点运算结果的差异小于0.3%,完全满足工业级应用需求。
在0.9V电压下测试,该芯片展现出19.7TOPS/mm²的能效密度。这个数字是什么概念?相当于用1平方毫米的芯片面积(约铅笔尖大小),每秒钟完成近2万亿次运算,而功耗仅相当于LED小夜灯。横向对比三大优势尤为突出:
| 指标 | 本设计 | 模拟eDRAM方案 | SRAM方案 |
|---|---|---|---|
| 计算精度 | 8bit全精度 | 4-6bit | 8bit |
| 能效比(TOPS/W) | 19.7 | 32.1 | 8.2 |
| 面积效率 | 1.5倍 | 0.8倍 | 基准 |
特别值得关注的是其动态可配置特性。传统存内计算芯片就像固定座次的教室,而CS-DCA阵列更像可变形会议室:面对小模型时可以合并bank提升并行度,处理大模型时又能分割bank增加存储容量。测试显示,这种灵活性使得芯片利用率始终保持在85%以上,避免了40%以上的冗余能耗。
在实际图像识别任务中,该架构展现出惊人的适应性。当处理1080p视频流时,可以通过bank级联实现50fps的实时处理;而在处理4K医疗影像时,又能自动切换为高精度模式,保持诊断级的识别准确率。这种鱼与熊掌兼得的特性,正是源于eDRAM-LUT架构的本质优势——用存储的密度实现计算的弹性。