微电子技术的特征尺寸根据摩尔定律继续缩小,促使微处理器性能和复杂性持续提升,为几年前还无法想象的创新应用铺平道路。现今,我们被电子设备所包围,它们通过互联网互相交换数据,物联网(IoT)就此诞生。许多公司和分析师预测物联网及其产生的数据将大幅增长——预计到2020年,物联网连接的设备数量将达到200亿到到300亿之间。如何以可靠的方式存储如此巨量的数据将是一个重大挑战。
即使有新型存储器技术、结构以及能够提供更高速度和密度的体系结构,可靠性问题仍是关注重点。在制造过程中参数会发生变化,环境引起的故障会影响现场的可靠操作。由辐射粒子引起的瞬态故障(TF)会影响存储元件(如锁存器和触发器)或存储器阵列,破坏所存储的数据。
2017年8月“今日计算” 的文章和视频探讨了内存元件和阵列的可靠性挑战,以及解决这些问题的一些方法。
挑战与解决方案
设计人员必须对内存元件和阵列采用适当的方法,要么避免数据损坏,要么能够恢复正确的数据 。
为了保持存储元件中存储数据的正确性,可以对锁存器和触发器采用鲁棒设计。迄今为止,文献提出了大量方案,它们的鲁棒性级别及其性能、功耗和面积开销各有千秋。
为了恢复存储阵列中的正确数据,通常采用纠错码(ECC)。EEC的范围包括从简单的单错误纠正/双重错误检测码(SEC / DED)到能够纠正多个单错误的纠错码。后者对于特征尺度不断缩小的技术和高密度存储阵列很重要,其中瞬时故障(TF)可能同时影响到多个存储单元,从会造成多个位失真(MBU)。然而,采用这些更强大的ECC通常意味着高面积开销以及对性能不可忽视的影响。换言之, 主要是由于要存储更多校验位,编码和解码结构也更复杂。
存储器交织,即将物理上相邻的存储器单元逻辑映射到不同的存储器逻辑字中,可以与SEC/DED代码一起使用,以保护存储器阵列免受MBU的影响。通过存储器交织,影响两个或更多相邻物理单元的错误将表现为影响两个或多个不同存储器字的单个错误,这样,SEC/DED码就可以校正。然而,交织通常需要相当复杂且昂贵的解码电路,而且当两个错误影响相同的存储器字时,该方案不能保证纠错。
本期文章
本月主题的五篇文章可以说是针对数据可靠存储创新方法的理论和实践的全面参考。
在我和 Martin Omaña、 Daniele Rossi合作的《高性能鲁棒锁存器》 一文中,我们提出了一种新的高性能鲁棒锁存器,称为HIPER锁存器。不论辐射粒子的能量多大,该锁存器对影响其内部和输出节点的短暂故障都不敏感。另一个修改版本称为HiPeR-CG锁存器,该锁存器适用于通过时钟选通降低功耗。我们认为这两种锁存器比先前文献中提到的锁存器更快,并且它们在可比的或者更低的面积和功率成本情况下,提供了更好或可比较的鲁棒性,使得它们特别适合微处理器关键数据路径。
Wei wei 和他的同事针对SRAM中的SEU和MBU容错问题发表文章《在非易失性存储器中容忍单事件/多位错误(SEU / MBU)的新方案》。首先,他们回顾了以前发布的三种针对非易失性SRAM单元的设计,该设计通过具有良好SEU容限的单个电阻元件提供非易失性操作。然后,他们针对容忍MBU提出了一种利用非易失性存储的新方案,该方案依赖于用于检测的附加编码电路和从非易失性存储器检索正确数据的“恢复”操作。作者指出,与基于六晶体管(6T)的方案相比,所提出的方案显著减少了延迟并能够更好地检测和校正大量的SEU和MBU。
大型SRAM结构,例如最后一级缓存(LLC),往往密度很高,也更容易受过程变化的影响。Alexandra Ferreron及其同事在文章《Concertina:在高速缓存内容中压缩以在近阈值电压下工作》中提出了一种可允许在低电压下保证常规SRAM单元可靠运行的LLC。作者所提出LLC被称为Concertina。由于LLC通常包含大量的空数据,Concertina压缩缓存块并将其分配给具有故障单元的缓存条目。为了在缓存条目之间分配块,它实现了压缩和故障识别插入/替换技术,减少了LLC错失率。
文章《面向缓存中的瞬态故障引起的应用程序故障的准确模型》提出了一种评估缓存可靠性的方案,该方案采用单位时间内的故障数量(FIT)作为多位故障的度量标准。作者Mehrtash Manoochehri和Michel Dubois介绍了PARMA+模型,该模型能够以非常高的精度和低的模拟时间来实现对多位故障所有可能序列的FIT率估计。他们认为,PARMA+可以对配有主要可靠性特征的缓存进行FIT率建模,例如位交错、早期回写、擦除和各种常见的错误保护方案。而且,它可以利用任何一组模式和任何缓存配置来建模故障,包括低功耗技术,如动态电压和频率缩放(DVFS)。
针对目前的微处理器可能占用多达12.5%的ECC空间开销的问题,Jeongkyu Hong和Soontae Kim在文章《 利用缓存数据空间的智能ECC分配缓存 》中,通过SEA(智能ECC分配)缓存来降低开销。该文所提出的方法可以在缓存数据空间中定位ECC,并根据程序行为动态调节EEC的数目。实验结果表明,所提出的方案将LLC功耗降低了7%,并且在不明显降低可靠性和性能情况下,降低了常规ECC方案中的空间开销。
行业视角
本月的主题还包括两段视频,两位行业专家发表了他们对存储可靠性的深入技术见解(视频按字母排序)
- 来自ARM的Rob Aitken
- 来自Synopsys的Yervant Zorian
观点视频
来自ARM的Rob Aitken介绍了存储器的可靠性。
来自Synopsys的Yervant Zorian介绍了存储器的可靠性。
结论
物联网将推动电子对象交换巨量数据,如何以可靠方式存储这些数据将是一个挑战的问题。我们希望本期“今日计算” 突出了可靠数据存储中的主要挑战,并激发该领域的进一步研究。
相关资源
M. Omaña, D. Rossi, T. Edara, and C. Metra, “Impact of Aging Phenomena on Latches’ Robustness,” IEEE Transactions on Nanotechnology, volume 15, issue 2, March 2016, pp. 129-136.
客座编辑
塞西莉亚·梅特拉( Cecilia Metra )是IEEE计算机学会2018主席候选人(2019年主席)。她是IEEE Transactions on Emerging Topics in Computing主编,曾任 “今日计算”(2012-2016)主编。她是IEEE计算机学会“会员和地理活动”2017年度副会长,曾经是计算机学会“技术和会议活动”副会长。她是意大利博洛尼亚大学教授,并从该校获得电子工程与计算机科学博士学位。Metra曾在许多出版物的编辑委员会和咨询委员会任职,包括IEEE Transactions on Computers ,IEEE的 The Institute和IEEE Design & Test 。她为许多IEEE国际会议作出了贡献,发表了大量关于集成系统的测试和可靠性设计方面的文章。她是IEEE会士,IEEE CS黄金核心成员和IEEE荣誉学会IEEE-HKN会员。她的联系方式cecilia.metra@unibo.it 。