Desenvolupament de Micro-kernels per l'anàlisi i sintonització de rendiment sobre accel·leradores (GPGPUs)
Navarro Lorente, Laura
César Galobardes, Eduardo, dir. (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Microkernels development for analysis and performance tuning on accelerators (GPGPUs)
Títol variant: Desarrollo de Micro-kernels por el análisis y sintonización de rendimiento sobre aceleradoras (GPGPUs)
Data: 2021
Resum: Aquest article presenta l'estudi i paral·lelització en acceleradores GPU de patrons basats en els problemes computacionals més habitualment utilitzats en el marc de la Computació d'Alt Rendiment. La paral·lelització en GPU s'ha basat en l'aplicació de diferents tècniques d'optimització mitjançant OpenACC i CUDA, seguit d'un anàlisi de l'impacte que aquestes tècniques provoquen en el rendiment obtingut per diverses mides de problema. També s'ha estudiat la importància que prenen les transferències de dades entre Device i Host a l'hora d'aconseguir acceleracions elevades. Per últim, s'ha realitzat una comparació dels resultats de rendiment obtinguts entre CUDA i OpenACC, amb el que s'ha pogut concloure que tot i que OpenACC és molt més ràpid i senzill d'implementar té un clar desavantatge envers el rendiment obtingut amb CUDA en la major part dels casos; aquest queda accentuat quan es tenen en compte els temps de transferència, que en OpenACC són molt més lents.
Resum: This article presents the study of patterns based on computational problems most commonly used within High Performance Computing and their parallelization in GPU accelerators. Different optimization techniques via OpenACC and CUDA have been used for GPU parallelization, followed by an analysis of the impact these techniques caused on the performance obtained on several problem sizes. The importance of data transfers between Device and Host for achieving high speedups has also been studied. Finally, a performance comparison between CUDA and OpenACC has been made based on the obtained results, by which has been concluded that OpenACC, although, is much faster and easier to be implemented than CUDA, it has a clear disadvantage on performance compared to CUDA in most cases; this issue is accentuated when data transfer times are taken into account, which in OpenACC are much slower.
Resum: Este artículo presenta el estudio y paralelización en aceleradoras GPU de patrones basados en los problemas computacionales más habitualmente utilizados en el marco de la Computación de Alto Rendimiento. La paralelización en GPU se ha basado en la aplicación de diferentes técnicas de optimización mediante OpenACC y CUDA, seguido de un análisis del impacto que estas técnicas provocan en el rendimiento obtenido por varias medidas de problema. También se ha estudiado la importancia que toman las transferencias de datos entre Device y Host en la hora de conseguir aceleraciones elevadas. Por último, se ha realizado una comparación de los resultados de rendimiento obtenidos entre CUDA y OpenACC, con el que se ha podido concluir que a pesar de que OpenACC es mucho más rápido y sencillo de implementar tiene una clara desventaja hacia el rendimiento obtenido con CUDA en la mayor parte de los casos; este queda acentuado cuando se tienen en cuenta los tiempos de transferencia, que en OpenACC son mucho más lentos.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Enginyeria de Computadors
Matèria: Acceleració ; Comparativa ; Computació d'alt rendiment ; CUDA ; GPU ; OpenACC ; Paral·lelisme ; Patró computacional ; Aceleración ; Computación de alto rendimiento ; Paralelismo ; Patrón computacional ; Comparison ; High Performance Computing ; Kernels ; Parallelism ; Speed-Up



14 p, 1010.5 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2022-04-06, darrera modificació el 2023-07-22



   Favorit i Compartir