Implementació d'un workflow d'execució paral·lela mitjançant el framework REANA
Martínez Acón, Oriol
César Galobardes, Eduardo, dir. (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Implementación de un workflow de ejecución paralela a través del framework REANA
Títol variant: Implementation of a parallel execution workflow using the REANA framework
Data: 2020
Resum: Els investigadors requereixen poder parametritzar i estructurar l'anàlisi de manera que puguin ser reproduïbles perquè la comunitat científica ho validi. És per això que institucions i diversos organismes estan fent grans esforços per a garantir la reproductibilitat dels seus estudis. El present treball explora el framework REANA i l'ús de contenidors computacionals com a eines de modelització, parametrització i preservació de workflows científics. Com a cas d'ús s'implementa un workflow de conversió de fitxers SuperStar a format DL3 aplicat al projecte MAGIC. A partir de la modelització del workflow es proposa una estratègia d'implementació de paral·lelisme a les etapes de major temps de còmput, millorant el rendiment amb un Speed-Up de 3. 14x en les etapes crítiques de menor ús de disc dur. L'accés a disc resulta un factor limitant que no permet la millora del rendiment d'altres etapes, es proposen solucions per a superar les limitacions de recursos.
Resum: Los investigadores requieren poder parametrizar y estructurar el análisis de manera que puedan ser reproducibles para que la comunidad científica pueda validarlo. Es por esta razón, que instituciones y diversos organismos están haciendo esfuerzos para garantizar la reproducibilidad de sus estudios. El presente trabajo explora el framework REANA y el uso de contenedores computacionales como herramientas de modelización, parametrización y preservación de workflows científicos. Como caso de uso se implementa un workflow de conversión de ficheros SuperStar a formato DL3 aplicado al proyecto MAGIC. A partir de la modelización del workflow se propone una estrategia de implementación de paralelismo a las etapas con mayor tiempo de cómputo, mejorando el rendimiento con un Speed-Up de 3. 14x en las etapas críticas de menor uso de disco duro. El acceso a disco resulta un factor limitante que no permite una mejora del rendimiento de otras etapas, se proponen soluciones para superar las limitaciones de recursos.
Resum: Researchers need to be able to parameterize and structure the analysis in ways that can be reproducible to be validated by the scientific community. This is why there are institutions and various bodies that make efforts to guarantee the reproducibility of their studies. Current work explores the REANA framework and the use of computational containers as tools for modeling, parameterizing and conserving scientific workflows. As a use case, it has been implemented a workflow for converting SuperStar files to DL3 format applied to the MAGIC project. Based on workflow modeling, a parallelism implementation strategy is proposed in the most important time stages of computing, improving performance with a speed of 3. 14x in the critical stages of lower hard disk usage. Access to disk is a limiting factor that does not allow the improvement of other stages, solutions are proposed to overcome resource limitations.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Enginyeria de Computadors
Matèria: Reproduible ; Anàlisis de dades ; ReAna ; Kubernetes ; Docker ; Contenidors ; Rancher ; Workflows ; Common Workflow Language ; DL3 ; MAGIC ; Paral·lelisme ; Reproducibilidad ; Análisis de datos ; Contenedores ; Paralelismo ; Reproducible ; Data analysis ; Containers ; Parallelism



10 p, 1.0 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2020-09-02, darrera modificació el 2023-07-22



   Favorit i Compartir