Parallel I/O analysis in distributed deep learning applications on high-performance computing

Parraga Pinzon, Edixon Alexander; León, Betzabeth; Méndez, Sandra Adriana; Rexachs, Dolores; Luque, Emilio

doi:10.1007/s11227-025-07986-1

Cita bibliográfica -- Enlace permanente: https://ddd.uab.cat/record/323156

Google Scholar: citas

Parallel I/O analysis in distributed deep learning applications on high-performance computing
Parraga Pinzon, Edixon Alexander

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
León, Betzabeth

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Méndez, Sandra Adriana

(Barcelona Supercomputing Center)
Rexachs, Dolores

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Luque, Emilio

(Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)

Fecha:	2025
Resumen:	Distributed deep learning (DDL) applications generate heavy input/output (I/O) workloads that can create bottlenecks in high-performance computing (HPC) systems. Their optimal I/O configuration depends on factors such as access patterns, storage hardware, dataset size, and execution scale. This study proposes a systematic methodology for characterizing and optimizing I/O behavior in DDL applications, represented through the deep learning I/O benchmark (DLIO), and validated with the real DeepGalaxy application. We evaluate access modes, file formats, and Lustre file system configurations, demonstrating that stripe counts optimized for the access pattern and application scale can reduce I/O and execution times, achieving up to 18 GiB/s of bandwidth and a 5X increase in IOPS. HDF5 provides balanced performance, while TFRecord stands out in bandwidth-intensive scenarios. Shared access minimizes contention and improves scalability in multi-node executions. The results are consolidated into configuration guidelines that offer practical recommendations for practitioners to tune DDL applications for efficient execution in HPC environments.
Ayudas:	Agencia Estatal de Investigación PID2023-147955NB-I00
Nota:	Altres ajuts: acords transformatius de la UAB
Nota:	Fundación Escuelas Universitarias Gimbernat; Centro Gallego de Supercomputación (CESGA) in the supercomputer FinisTerrae III to the project identified with RES-DATA-2022-1-0014
Derechos:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Lengua:	Anglès
Documento:	Article ; recerca ; Versió publicada
Materia:	Distributed deep learning ; Parallel I/O ; HPC cluster ; I/O behavior pattern
Publicado en:	The journal of supercomputing, Vol. 81, Num. 16 (November 2025) , art. 1520, ISSN 1573-0484

DOI: 10.1007/s11227-025-07986-1

56 p, 8.4 MB

El registro aparece en las colecciones:
Artículos > Artículos de investigación
Artículos > Artículos publicados

Registro creado el 2025-12-15, última modificación el 2026-03-15

Registros similares

Añadir a la cesta personal
Exportar como Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4