Agosto 2017 Theme: Confiabilidad en el Almacenamiento de datos en la Era de la IoT
Introducción del Editor Invitado: Cecilia Metra

Image of Data storage WheelEl escalado de la tecnología microelectrónica según la Ley de Moore permite incrementar el desempeño y la complejidad de los microprocesadores, allanando el camino para aplicaciones innovadoras que eran impensables solo algunos años atrás. Actualmente estamos rodeados por dispositivos electrónicos que intercambian datos entre ellos por medio de la Internet, generando la Internet de las cosas (IoT).

Muchas empresas y analistas predicen un enorme crecimiento en la IoT y en los datos que genera. -con predicciones en el rango de 20 a 30 mil millones de dispositivos conectados para el 2020. Almacenando tales enormes cantidades de datos en forma confiable será un desafío.

Aun con las nuevas tecnologías, estructuras y arquitecturas de memorias que proporcionan alta velocidad y densidad, la confiabilidad permanece como una preocupación mayor. Las variaciones de los parámetros que se producen durante el proceso de fabricación y los fallos inducidos por el ambiente pueden afectar la confiabilidad en la operación en el campo. Los fallos transitorios, (TFs) causados por las partículas de radiación pueden afectar los elementos de memoria, (tales como los latchs y los flips flops), o los arreglos de memoria, corrompiendo los datos almacenados

Los artículos y videos en el tema de Agosto de 2017 de Computing Now exploran los desafíos de confiabilidad de los elementos y arreglos de memorias, así como algunos enfoques que resuelven tales problemas.

Desafíos y Soluciones

Los diseñadores deben adoptar enfoques apropiados, tanto para evitar la corrupción de los datos como para restaurar o corregir los datos, en los elementos y arreglos de memoria.

Para preservar la corrección de los datos almacenados en los elementos de memoria, se puede adoptar un diseño robusto de los latches y los flip flops.en la literatura se han propuesto gran cantidad de tales esquemas, cada uno con diferente nivel de robustez y de costo requerido en función del desempeño, consumo de potencia y área cubierta.

Para restaurar los datos correctos en los arreglos de memoria, se emplean usualmente códigos correctores de errores, (ECCs). Los ECCs varían desde simples Detectores de Error Simple/Detectores de Doble Error (SEC/DED) a ECCS que son capaces de corregir más de un simple error. Los últimos son importantes para poder escalar hacia atrás las tecnologías en los arreglos de memoria de alta densidad, en los cuales los TFs sueles afectar simultáneamente a más de una simple celda de memoria, creando a bits múltiples con errores, (MBU Multiple Bit Upset). Sin embargo, la adopción de estos ECC más potentes, usualmente, implica una gran área cubierta y un impacto no despreciable sobre el desempeño, debido principalmente a la gran cantidad de bits de chequeo que deben ser almacenados y a la más compleja estructura de codificación y decodificación.

El entrelazado de memoria, el mapeo lógico de celdas físicas de memoria adyacentes en palabras lógicas de memoria diferentes se puede adoptar, junto con los códigos SEC/DED, para proteger los arreglos de memoria en contra de los MBUs. Con el entrelazado de memoria los errores que afectan a dos o más celdas adyacentes se manifiestan como errores simples afectan a dos o más palabras de memoria diferentes, y desde luego, los códigos SEC/DED los pueden corregir. Sin embargo, el entrelazado generalmente requiere circuitos, tanto complejos como onerosos para su decodificación, y no puede garantizar una corrección de errores cuando dos errores afectan la misma palabra de memoria.

Los Artículos

Los cinco artículos del tema de este mes proporcionan una referencia comprensiva de los aspectos teóricos y prácticos de los enfoques innovadores en el almacenamiento de datos confiable.

El artículo “Latches Robustos de Alto Desempeño” en el cual soy coautora junto con Martin Omaña y Daniel Rossi, propone un nuevo latch robusto de alto desempeño llamado HiPeR latch, el cual es insensible a los efectos de TFs que afectan los nodos internos y de salida, sin importar la energía de las partículas de radiación. Una versión modificada llamada el latch HiPeR-CG, es adecuada para el disparo por reloj para reducir el consumo de potencia. Exponemos que ambos latches son más rápidos que los latches previamente presentados en la literatura, y que con ello proporcionan una robustez mejor o comparable para un área menor y un costo de potencia comparable, haciéndolos particularmente adecuados para los caminos de datos críticos en los microprocesadores.

En el artículo “Un Novedoso Esquema para la Tolerancia del Error de Bit por Evento Simple/Múltiple (SEU/MBU) en las Memorias No Volátiles” Wei Wei y sus colegas tratan el problema de la tolerancia de SEUs y MBUs en las SRAMs. Primero revén tres diseños previamente publicados para celdas SRAM no volátiles que proporcionan una operación no volátil por medio de un elemento resistivo simple con una buena tolerancia SEU. Luego proponen un esquema novedoso para la tolerancia de MBUs por medio del almacenamiento no volátil. El esquema se asienta en un circuito que agrega codificación para la detección y las operaciones de “restauración” que recuperan los datos correctos desde el almacenamiento no volátil. Los autores establecen que el esquema propuesto reduce significativamente las demoras, mejora la detección y corrige grandes cantidades de SEUs y MBU comparados con los esquemas basados en6 transistores (6T).

Las estructuras SRAM amplias, tales como las del ultimo nivel de cache (LLC), son de tamaño agresivo con respecto a la alta densidad y consecuentemente venerables a las variaciones del proceso. Alexandra Ferreron y sus colegas proponen un LLC que permite la operación confiable a baja tensión con celdas SRAM convencionales en el artículo “Concertina: Exprimiendo el Contenido en Cache para Operar cerca del Potencial de Disparo”. Dado que los LLCs a menudo contiene grandes cantidades de datos nulos, los autores del LLC, lo llaman Concertina, ya que comprime bloques de cache y los asigna a entradas de cache con celdas con fallas. Para distribuir los bloques entre las entradas de cache, se implementa una compresión y una técnica de inserción y remplazo atenta a las celdas con fallas que redúcela tasa de pérdida de LLC.

En el artículo “Modelo Preciso para la Aplicación de Fallos Debidos Fallas en las Caches” se propone una solución para evaluar la confiabilidad de las caches, expresadas por la métrica del fallo en el tiempo (FIT), en presencia de bit múltiples de fallas. Los autores Mehrtash Manoochehri y Michael Dubois presentan el modelo PARMA+, el cual facilita la estimación de la tasa FIT bajo todas las posibles secuencias de fallos multi bit con muy alta precisión y bajos tiempos de simulación. Establecen que PARMA+ puede modelar la tasa FIT de una cache equipada con características existentes principales de confiabilidad, tales como entrelazado de bit, escritura de respaldo temprano, el borrado profundo, y varios esquemas usuales de protección ante errores. Además, puede modelar fallos con cualquier conjunto de patrones y cualquier configuración de cache, incluyendo las técnicas de baja potencia tales como de Tensión Dinámica y Escalado de Frecuencia (DVFS).

Los microprocesadores actuales pueden enfrentar tanto como 12,5 por ciento de sobre espacio para ECCs. En el artículo “Asignación ECC Inteligente de Cache Utilizando el Espacio de Datos de Cache”, Jeongkyu Hong y Soontae Kim reducen el sobre espacio con la cache SEA (Smart ECC Allocation), la cual localiza los ECCs en los espacios de datos del cache y dinámicamente modula la cantidad de bits de chequeo ECC en función del comportamiento del programa. Los resultados experimentales confirman que el esquema propuesto reduce el consumo de potencia LLC en un siete por ciento y reduce el sobre espacio en los esquemas convencionales ECC sin una degradación notable de la confiabilidad y el desempeño.

Video Perspectives

 

Rob Aitken, from ARM, on memory reliability.

 

Yervant Zorian, from Synopsys, on memory reliability.

 

La Perspectiva de la Industria

El tema de este mes incluye También dos videos, los cuales proporcionan visiones técnicas de detalle dedos expertos de la industria en confiabilidad de las memorias, (en orden alfabético).

  • Rob Aitken, de ARM
  • Yervant Zorian, de Synopsys

 

Conclusión

La IoT permitirá que los objetos electrónicos intercambien enormes cantidades de datos, almacenarlos en forma confiables será desafiante. Esperamos que esta edición de Computing Now resalte los desafíos principales en el almacenamiento confiable delos datos y estimule una investigación adicional en este campo.

Recursos Relacionados

M. Omaña, D. Rossi, T. Edara, and C. Metra, “Impact of Aging Phenomena on Latches’ Robustness,” IEEE Transactions on Nanotechnology, volume 15, issue 2, March 2016, pp. 129-136.

Editor Invitado

Cecilia Metra es candidato a Presidente Electo 2018 (Presidente 2019) de la IEEE Computer Society. Es la Editora entrante en jefe de los IEEE Transactions on Emerging Topics in Computing, y fue la Editora en Jefe de Computing Now (2012-2016). Es la Vicepresidente 2017 de Computer Society Member and Geographics Activities y fue la Vicepresidente de la Computer Society Technical and Conference Activities. Es Profesora de Tiempo Completo en la Universidad de Bologna, Italia, de la cual posee su Doctorado en Ingeniería Electrónica y Ciencias de la Computación. Metra ha servido en los cuerpos editoriales y de consejo de muchas publicaciones, incluyendo los IEEE Transactions on Computers, el IEEE The Institute, el IEEE Design & Test. Ha contribuido con numerosas Conferencias Internacionales del IEEE y ha publicado extensamente en diseño y testeo y confiabilidad de sistemas integrados. Es IEEE Fellow y IEEE CS GoldenCore Member, y es miembro de la IEEE honor society IEEE HKN. Se la puede contactar en cecilia.metra@unibo.it.