Caracterización de una estrategia de detección de fallos transitorios en HPC

Montezanti, Diego Miguel; Rexachs del Rosario, Dolores; Rucci, Enzo; Luque, Emilio; Naiouf, Marcelo; De Giusti, Armando Eduardo

Buscar material

Busque entre los 169024 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
CACIC
→
CACIC 2015

Caracterización de una estrategia de detección de fallos transitorios en HPC

2015

Tipo de documento: Objeto de conferencia

Resumen

El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.

Notas

XV Workshop de Procesamiento Distribuido y Paralelo (WPDP)

Información general

Fecha de exposición: octubre 2015

Fecha de publicación: 2015

Idioma del documento: Español

Evento: XXI Congreso Argentino de Ciencias de la Computación (Junín, 2015)

Institución de origen: Red de Universidades con Carreras en Informática (RedUNCI)

ISBN: 978-987-3806-05-6

Palabras claves: Fault tolerance ; corrupción silenciosa de datos ; Parallel ; HPC ; inyección de fallos ; Applications

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (581.5Kb) - PDF

BASE

GoogleScholar

Creado el: 14 de diciembre de 2015

Disponible en SEDICI desde: 14 de diciembre de 2015

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/50189

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

CACIC → CACIC 2015

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión

Buscar material

Subir material

Caracterización de una estrategia de detección de fallos transitorios en HPC

Resumen

Notas

Información general

Documentos relacionados

Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)