ISSCC34.7深度解读：基于eDRAM-LUT的存算一体芯片如何实现高密度计算与动态刷新

猫咪的室友

1. 存内计算与eDRAM-LUT架构的革新意义

数字存内计算（DCIM）正在颠覆传统计算架构的格局。想象一下，你每天使用的电脑或手机，数据需要在处理器和内存之间来回搬运，就像一个人不停地在仓库和车间之间奔跑取货。这种"冯·诺依曼瓶颈"导致高达90%的能耗都消耗在数据搬运上，而非实际计算。而存内计算直接把"车间"搬进了"仓库"，让数据在原地就能完成加工。

传统DCIM方案通常采用全加器树结构，就像用乐高积木搭建的加法器，虽然精度有保证，但搭建大规模计算网络时需要消耗太多"积木块"。清华大学团队提出的eDRAM-LUT架构，相当于用智能抽屉（查找表）替代了这些积木块——预先在抽屉里存放各种计算结果，需要时直接拉开对应抽屉取用。实测表明，这种架构的面积效率比传统方案提升近50%，相当于在同样大小的芯片上多塞进一倍的运算单元。

2. CS-DCA双模阵列的运作奥秘

2.1 计算模式下的MAC操作映射

CS-DCA阵列就像个变形金刚，能在计算引擎和存储仓库两种形态间自由切换。当执行神经网络常见的乘加运算（MAC）时，16个bank就像16条并行流水线。每个eLAD单元内部的查找表，其实是个精心设计的"答案库"——预先存储了所有可能的4位输入（激活值）与8位权重相乘的结果。这相当于把乘法表提前背得滚瓜烂熟，遇到题目直接报答案。

分层解码器在这里扮演交通警察的角色，它能同时处理16路4:16的激活信号分发。举个例子，当处理卷积神经网络时，同一组权重需要与不同位置的激活值相乘。传统架构需要反复读取权重数据，而CS-DCA通过LUT的并行查询特性，就像同时翻开多本字典查单词，把吞吐量提升到惊人的10TOPS（每秒万亿次操作）。

2.2 存储模式下的数据管理技巧

切回存储模式时，整个阵列又变身为高效的内存仓库。这时解码器改用8:256的寻址方式，就像邮局的分拣系统，能精准定位到每个存储格子。特别值得一提的是其创新的IMREP电路，这个"内存管家"有两大绝活：

动态锁存结构：像智能书架自动整理书籍，在刷新数据时减少操作步骤
双写回路径：类似高速公路的应急车道，确保关键数据优先通行

实测数据显示，在1V工作电压下，这套机制能在60℃高温环境维持0.5μs的刷新间隔，比常规eDRAM方案节省约30%的刷新能耗。

3. 芯片设计的精妙之处

3.1 3T eDRAM单元的面积优势

传统SRAM单元需要6个晶体管（6T），就像六人合住的宿舍。而采用的3T eDRAM单元仅需三人间，面积直接缩小一半。但小户型带来的挑战是更容易"漏水"（电荷泄漏），设计团队通过两项创新解决：

写字线选用eHVT晶体管：相当于给门窗加装密封条，减少漏电流
读端口采用LVT晶体管：像安装快速门禁，加快数据读取速度

这种组合拳使得单元面积仅0.145μm²，在28nm工艺下实现0.017mm²的芯片面积，比同类SRAM方案节省近一半空间。

3.2 LUT计算方案的精度保障

有人可能担心查找表会降低计算精度，实际上该设计通过三个措施确保8bit整数运算的完全精度：

分级存储：将160位存储拆分为16个10位子阵列，像把大仓库分隔成标准货架
权重编码：采用格雷码排序存储权重，使相邻数据的切换功耗最小化
动态补偿：通过IMREP电路实时校准存储电荷，将计算误差控制在0.1%以内

测试表明，在ResNet18等典型神经网络中，其分类准确率与浮点运算结果的差异小于0.3%，完全满足工业级应用需求。

4. 实测性能与行业对比

在0.9V电压下测试，该芯片展现出19.7TOPS/mm²的能效密度。这个数字是什么概念？相当于用1平方毫米的芯片面积（约铅笔尖大小），每秒钟完成近2万亿次运算，而功耗仅相当于LED小夜灯。横向对比三大优势尤为突出：

指标	本设计	模拟eDRAM方案	SRAM方案
计算精度	8bit全精度	4-6bit	8bit
能效比(TOPS/W)	19.7	32.1	8.2
面积效率	1.5倍	0.8倍	基准

特别值得关注的是其动态可配置特性。传统存内计算芯片就像固定座次的教室，而CS-DCA阵列更像可变形会议室：面对小模型时可以合并bank提升并行度，处理大模型时又能分割bank增加存储容量。测试显示，这种灵活性使得芯片利用率始终保持在85%以上，避免了40%以上的冗余能耗。

在实际图像识别任务中，该架构展现出惊人的适应性。当处理1080p视频流时，可以通过bank级联实现50fps的实时处理；而在处理4K医疗影像时，又能自动切换为高精度模式，保持诊断级的识别准确率。这种鱼与熊掌兼得的特性，正是源于eDRAM-LUT架构的本质优势——用存储的密度实现计算的弹性。

已经到底了哦

精选内容

1 别再只会if-else了！Matlab里这5个条件判断的‘骚操作’，让你的代码效率翻倍 2 遥感数据处理新手必看：别再傻傻分不清辐射校正、定标和大气校正了 3 从论文到PPT：用Emoji给你的LaTeX文档加点‘表情’（附常见平台兼容性测试）4 Ubuntu 22.04 LTS上保姆级安装EPICS Base 7.0.6.1全流程（含环境变量配置与IOC测试）5 uniapp实现多地图应用跳转导航的实战指南 6 不止于转换：深入理解Linux iconv库的隐藏功能和高级用法（音译、忽略与状态重置）7 Windows Defender安全中心打不开？别急着重装，先试试这5个修复方法（Win10家庭版适用）8 松下A6伺服调试避坑指南：从负载惯量比到陷波器，手把手调稳你的设备 9 [技术解析] TransBTS：如何用Transformer与3D CNN协同攻克脑肿瘤分割难题 10 uniapp: webview全屏适配与状态栏、底部安全区兼容方案