
几十年来,电子工程师一直在努力开发越来越先进的设备,以更快地执行复杂的计算,消耗更少的能量。在人工智能(AI)和深度学习算法出现后,这一点变得更加突出,这些算法通常在数据存储和计算负载方面都有很大的要求。
运行这些算法的一种很有前途的方法被称为模拟内存计算(AIMC)。正如它的名字所暗示的那样,这种方法包括开发能够在单个芯片上执行计算和存储数据的电子设备。为了实际实现速度和能耗的改进,这种方法还应该理想地支持片上数字操作和通信。
IBM欧洲研究院的研究人员最近开发了一种新的64核混合信号内存计算芯片,该芯片基于相变存储设备,可以更好地支持深度神经网络的计算。他们的64核芯片在《自然电子》杂志上发表的一篇论文中,迄今为止取得了非常有希望的结果,保留了深度学习算法的准确性,同时减少了计算时间和能耗。
该论文的作者之一Manuel Le Gallo告诉Tech Xplore:“从我们第一次展示如何使用单个PCM设备实现神经元功能开始,我们已经研究如何使用相变存储器(PCM)设备进行计算超过7年。”
“从那时起,我们证明了许多应用可以从使用PCM设备作为计算元素中受益,例如科学计算和深度神经网络推理,我们证明了使用原型PCM芯片在硬件/软件实现中几乎没有精度损失。有了这个新芯片,我们希望向端到端模拟人工智能推理加速器芯片迈进一步。”
为了制造新的内存计算芯片,Le Gallo和他的同事将基于pcm的核心与数字计算处理器结合起来,通过芯片上的数字通信网络将所有核心和数字处理单元连接起来。他们的芯片由64个基于模拟pcm的核心组成,每个核心都包含一个256 × 256的交叉排列的突触单元细胞。
Le Gallo解释说:“我们在每个核心中集成了紧凑的、基于时间的模数转换器,以实现模拟和数字世界之间的转换。每个核心还集成了轻量级数字处理单元,执行整流线性单元(reLU)神经元激活功能和缩放操作。全球数字处理单元集成在芯片的中间,实现长短期记忆(LSTM)网络操作。”
该团队的芯片的一个独特之处在于其内部的存储核心和其全球处理单元通过数字通信网络连接。这使得它可以执行与片上神经网络各个层相关的所有计算,从而显着减少计算时间和功耗。
为了评估他们的芯片,Le Gallo和他的同事进行了一项非常全面的研究,在他们的芯片上运行深度学习算法并测试其性能。他们的评估结果非常有希望,因为当在芯片上运行并在CIFAR-10图像数据集上测试时,经过训练完成图像识别任务的深度神经网络达到了92.81%的显着准确率。
勒加洛说:“我们相信这是目前报道的使用类似技术的芯片中精确度最高的。”“在论文中,我们还展示了如何将模拟内存计算与多个数字处理单元和数字通信结构无缝结合。该芯片的8位输入输出矩阵乘法的测量吞吐量为400 GOPS/mm2,比以前基于电阻式存储器的多核内存计算芯片高出15倍以上,同时实现了相当的能效。”
IBM欧洲研究院最近的工作是开发AIMC芯片的又一步,可以支持深度学习算法的需求和要求。在未来,Le Gallo和他的同事们介绍的设计可以进一步更新,以实现更好的性能。
Le Gallo补充说:“利用我们从这个芯片和2021年在VLSI上展示的另一个34瓦芯片中学习到的知识,我们设计了一个端到端模拟人工智能推理加速器架构,该架构于今年早些时候发表在IEEE Transactions上。”“我们的愿景是将许多模拟内存计算块与专用数字计算核心相结合,这些核心与大规模并行的2D网格相连。结合我们近年来开发的复杂的硬件感知训练,我们希望这些加速器在未来几年能够在各种各样的模型上提供软件等效的神经网络精度。”
更多信息:Manuel Le Gallo等人,基于深度神经网络推理的相变存储器的64核混合信号内存计算芯片,Nature Electronics(2023)。DOI: 10.1038 / s41928 - 023 - 01010 - 1。期刊信息:自然电子
?2023 Science X Network
引用: IBM开发了一种新的64核混合信号内存计算芯片(2023年8月27日)
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。








