近期,台积电在ISSCC 2021会议上公布了一项突破性研究,其改良的SRAM存储器阵列采用了22nm工艺,实现了高达89TOPS/W的功率效率及16.3TOPS/mm的运算密度。
相较于传统的冯·诺依曼架构,此项技术显著提升了数据传输效率,有效降低了设备功耗,为未来AI边缘应用的需求提供了解决方案。
台积电通过改进常规SRAM阵列,开发出了一种新型的存内计算方法。这种方法支持可编程位宽、有符号或无符号输入,并且提供了四种不同位宽权重的输入激活功能。
根据相关论文链接:详情请点击这里
在ISSCC 2021会议上,存储器阵列技术成为了多个技术讨论的焦点,旨在支持机器学习算法的计算需求。
当前机器学习过程中,数据和权重的无谓传输增加了计算延迟和功耗。传统方法中,“无增值”的数据移动是能量消耗的大头,相比之下,数据和计算单元权重的实际能量消耗仅占一小部分。
在边缘应用机器学习的系统中,提高存内计算效率、降低能量损耗显得尤为重要。要提升机器学习存内计算效率,关键在于优化每个网络节点的向量乘法累加(MAC)操作。
台积电提出的新方法无需采用更新的存储技术,即可支持更大的网络计算。这一优势使其在解决现有存内计算技术如ReRAM所面临的耐用性问题方面迈出了重要一步。
具体而言,台积电的SRAM阵列能够加载数据输入与权重进行节点计算,并保存输出值以供后续层检索。这种方法减少了数据和权重传递过程中的能耗。
在技术细节上,该存内计算宏采用256个数据输入连接至“X”逻辑电路。每个slice存储了256个4-bit权重,并集成加树和部分累加逻辑。其基于数字逻辑的MAC操作在宽电源电压范围内均可使用。
实验结果表明,采用22nm工艺的SRAM阵列展现了卓越的功率效率和运算密度。虽然此次测试是基于较旧的工艺,但研究人员也给出了5nm节点的面积功率及功率效率的估算值,预示着更高的性能提升潜力。
从云端到边缘设备,AI和ML在图像分类、语音识别等领域发挥着重要作用。尤其是AI在边缘设备的优势——如隐私保护、低延迟及对网络带宽的有效利用等——使得AI边缘设备的研究变得日益重要。传统的计算架构面临能耗问题,难以满足未来AI边缘应用的需求。