Web of Science: 10 cites, Scopus: 13 cites, Google Scholar: cites
Hybrid Message Pessimistic Logging : improving current pessimistic message logging protocols
Meyer, Hugo Daniel (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Muresano Cáceres, Ronal Roberto (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Castro León, Marcela (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Rexachs del Rosario, Dolores Isabel (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Luque, Emilio (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)

Data: 2017
Resum: With the growing scale of HPC applications, there has been an increase in the number of interruptions as a consequence of hardware failures. The remarkable decrease of Mean Time Between Failures (MTBF) in current systems encourages the research of suitable fault tolerance solutions. Message logging combined with uncoordinated checkpoint compose a scalable rollback-recovery solution. However, message logging techniques are usually responsible for most of the overhead during failure-free executions. Taking this into consideration, this paper proposes the Hybrid Message Pessimistic Logging (HMPL) which focuses on combining the fast recovery feature of pessimistic receiver-based message logging with the low failure-free overhead introduced by pessimistic sender-based message logging. The HMPL manages messages using a distributed controller and storage to avoid harming system's scalability. Experiments show that the HMPL is able to reduce overhead by 34% during failure-free executions and 20% in faulty executions when compared with a pessimistic receiver-based message logging.
Ajuts: Ministerio de Economía y Competitividad TIN2011-24384
Ministerio de Economía y Competitividad TIN2014-53172-P
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Document: Article ; recerca ; Versió acceptada per publicar
Matèria: Fault tolerance ; Availability ; Scalability ; Performance ; MPI ; Message logging
Publicat a: Journal of parallel and distributed computing, Vol. 104 (2017) , p. 206-222, ISSN 0743-7315

DOI: 10.1016/j.jpdc.2017.02.003


Post-print
45 p, 1.8 MB

El registre apareix a les col·leccions:
Documents de recerca > Documents dels grups de recerca de la UAB > Centres i grups de recerca (producció científica) > Enginyeries > HPC4EAS (High Performance Computing for Efficient Applications and Simulation Research Group)
Articles > Articles de recerca
Articles > Articles publicats

 Registre creat el 2017-03-13, darrera modificació el 2021-09-26



   Favorit i Compartir