Parallel I/O analysis in distributed deep learning applications on high-performance computing

Parraga Pinzon, Edixon Alexander; León, Betzabeth; Méndez, Sandra Adriana; Rexachs, Dolores; Luque, Emilio

doi:10.1007/s11227-025-07986-1

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/323156

Google Scholar: cites

Parallel I/O analysis in distributed deep learning applications on high-performance computing
Parraga Pinzon, Edixon Alexander

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
León, Betzabeth

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Méndez, Sandra Adriana

(Barcelona Supercomputing Center)
Rexachs, Dolores

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Luque, Emilio

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)

Data:	2025
Resum:	Distributed deep learning (DDL) applications generate heavy input/output (I/O) workloads that can create bottlenecks in high-performance computing (HPC) systems. Their optimal I/O configuration depends on factors such as access patterns, storage hardware, dataset size, and execution scale. This study proposes a systematic methodology for characterizing and optimizing I/O behavior in DDL applications, represented through the deep learning I/O benchmark (DLIO), and validated with the real DeepGalaxy application. We evaluate access modes, file formats, and Lustre file system configurations, demonstrating that stripe counts optimized for the access pattern and application scale can reduce I/O and execution times, achieving up to 18 GiB/s of bandwidth and a 5X increase in IOPS. HDF5 provides balanced performance, while TFRecord stands out in bandwidth-intensive scenarios. Shared access minimizes contention and improves scalability in multi-node executions. The results are consolidated into configuration guidelines that offer practical recommendations for practitioners to tune DDL applications for efficient execution in HPC environments.
Ajuts:	Agencia Estatal de Investigación PID2023-147955NB-I00
Nota:	Altres ajuts: acords transformatius de la UAB
Nota:	Fundación Escuelas Universitarias Gimbernat; Centro Gallego de Supercomputación (CESGA) in the supercomputer FinisTerrae III to the project identified with RES-DATA-2022-1-0014
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Llengua:	Anglès
Document:	Article ; recerca ; Versió publicada
Matèria:	Distributed deep learning ; Parallel I/O ; HPC cluster ; I/O behavior pattern
Publicat a:	The journal of supercomputing, Vol. 81, Num. 16 (November 2025) , art. 1520, ISSN 1573-0484

DOI: 10.1007/s11227-025-07986-1

56 p, 8.4 MB

El registre apareix a les col·leccions:
Articles > Articles de recerca
Articles > Articles publicats

Registre creat el 2025-12-15, darrera modificació el 2026-03-15

Registres semblants

Afegeix-lo al cistell personal
Anomena i desa Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4