Performability issues of fault tolerance solutions for message-passing systems: the case of RADIC

Performability issues of fault tolerance solutions for message-passing systems: the case of RADIC

Veure els fitxers associats amb aquesta Tesi

AutorSilva dos Santos, Guna Alexander
Adreça de correu electrònic guna@caos.uab.es
URLhttp://www.tdx.cat/TDX-0217110-130952
TítolPerformability issues of fault tolerance solutions for message-passing systems: the case of RADIC
Llengua Anglès
UniversitatUAB
Departament/Institut469 - DEPARTAMENT D'ARQUITECTURA DE COMPUTADORS I SISTEMES OPERATIUS
Àrea de coneixement Tecnologies
Matèries
  • 519.1 - Teoria general de l'anàlisi combinatòria. Teoria de grafs
  • Dipòsit legal/ISBN B-38543-2009 / 978-84-692-6056-2
    Direcció de la tesi
  • Rexachs del Rosario, Dolores Isabel. Director/a de la Tesi
  • Paraules clau
  • Arquitectura de ordenadores
  • Fiabilidad de los ordenadores
  • Ordenadores digitales
  • Data de defensa20-07-2009

    Resum

    ¿Es adecuado un sistema rápido pero poco robusto?¿Es adecuado un sistema disponible pero lento? Estas dos cuestiones representan la importancia de prestaciones y disponibilidad en clusters de computadores.

    Esta tesis se enmarca en el estudio de la relación entre prestaciones y disponibilidad cuando un cluster de computadores basado en el modelo de paso de mensajes, usa un protocolo de tolerancia a fallos basado en rollback-recovery con log de mensajes pesimista. Esta relación también es conocida como performability.

    Los principales factores que influyen en la performability cuando se usa la arquitectura de tolerancia a fallos RADIC son identificados y estudiados. Los factores fundamentales son la latencia de envío de mensajes que se incrementa cuando se usa el log pesimista, que implica una perdida de prestaciones, como también la replicación de los datos redundantes (checkpoint y log) necesaria para el incremento de la disponibilidad en RADIC y el cambio de la distribución de procesos por nodo causada por los fallos, que pueden causar degradación de las prestaciones así como las paradas por mantenimiento preventivo.

    Para tratar estos problemas se proponen alternativas de diseño basadas en análisis de la performability. La pérdida de prestaciones causada por el log y la replicación ha sido mitigada usando la técnica de pipeline. El cambio en la distribución de procesos por nodo puede ser evitado o restaurada usando un mecanismo flexible y transparente de redundancia dinámica que ha sido propuesto, que permite inserción dinámica de nodos spare o de repuesto.

    Los resultados obtenidos demuestran que las contribuciones presentadas son capaces de mejorar la performability de un cluster de computadores cuando se usa una solución de tolerancia a fallos como RADIC.

    ---------------------------------------------------------------

    Is a fast but fragile system good? Is an available but slow system good? These two questions demonstrate the importance of performance and availability in computer clusters.

    This thesis addresses issues correlated to performance and availability when a rollback- recovery pessimistic message log based fault tolerance protocol is applied into a computer cluster based on the message-passing model. Such a correlation is also known as performability.

    The root factors influencing the performability when using the RADIC (Redundant Array of Distributed Independent Fault Tolerance Controllers) fault tolerance architecture are raised and studied. Factors include the message delivery latency, which increases when using pessimistic logging causing performance overhead, as also in the redundant data (logs and checkpoints) replication needed to increase availability in RADIC and the process per node distribution changed by faults, which may cause performance degradation and preventive maintenance stops.

    In order to face these problems some alternatives are presented based on a performability analysis. Using a pipeline approach the performance overhead of message logging and the redundant data replication were mitigated. Changes in the process per node distribution can be avoided or restored using the flexible and transparent mechanism for dynamic redundancy proposed, or using a dynamic insertion of spare or replacement nodes.

    The obtained results show that the presented contributions could improve the performability of a computer cluster when using a fault tolerance solution such as RADIC.

    Documents ADVERTIMENT. La consulta d'aquesta tesi queda condicionada a l'acceptació de les següents condicions d'ús.

    La difusió d'aquesta tesi per mitjà del servei TDX ha estat autoritzada pels titulars dels drets de propietat intel.lectual únicament per a usos privats emmarcats en activitats d'investigació i docència. No s'autoritza la seva reproducció amb finalitats de lucre ni la seva difusió i posada a disposició des d'un lloc aliè al servei TDX. No s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing).

    Aquesta reserva de drets afecta tant al resum de presentació de la tesi com als seus continguts. En la utilització o cita de parts de la tesi és obligat indicar el nom de la persona autora.

  • gasd1de1.pdf
  • NOVA CERCA
    Organization:UAB Author:Silva,dos,Santos,Guna,Alexander URN:http://www.tdx.cat/TDX-0217110-130952 Title:Performability issues of fault tolerance solutions for message-passing systems: the case of RADIC Department:469 - DEPARTAMENT D'ARQUITECTURA DE COMPUTADORS I SISTEMES OPERATIUS Subject:CDU519.1 Advisor:Rexachs del Rosario, Dolores Isabel. Director/a de la Tesi Keywords:Arquitectura de ordenadores Keywords:Fiabilidad de los ordenadores Keywords:Ordenadores digitales DefenseDate:20-07-2009