Disseny i implementació d'un mòdul de preprocessament automàtic per l'entrada d'un model de DL
Atienza Reig, Gerard
Serra Ruiz, Jordi tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Design and implementation of an automatic preprocessing module for the input of a DL model
Títol variant: Diseño e implementación de un módulo de preprocesamiento automático para la entrada de un modelo de DL
Data: 2025
Resum: Aquest treball presenta el disseny i la implementació del sistema PTTN (Pertorbació, Trun- cament, Transformació i Normalització) per automatitzar el preprocessament de variables d’entrada en models de deep learning. Es proposa un marc teòric basat en moments estadístics que formalitza criteris quasi-òptims de qualitat distribucional i defineix una mesura de bondat G(X) per seleccionar de manera automàtica paràmetres de truncament i transformació, mantenint la normalització com a pas final d’estandardització. El sistema combina inferència automàtica i intervenció manual, asse- gurant la coherència del pipeline mitjançant actualitzacions dinàmiques i una interfície d’escriptori que facilita l’exploració i la validació visual dels resultats, reduint els recursos humans emprats actualment. A més, es presenten experiments que mostren com la mètrica de bondat tendeix a afavorir distribucions centrades, simètriques i amb cues moderades, i una avaluació qualitativa que suggereix que el preprocessament no empitjora el rendiment i pot aportar millores lleugeres. Finalment, la vali- dació també inclou un rànquing de distribucions estadístiques i una avaluació preliminar amb xarxes neuronals (MLP), on s’ha demostrat que el sistema accelera la convergència, millora la generalitza- ció i redueix el temps d’entrenament. Tot i ser tests de caràcter qualitatiu, estableixen la base per a la validació a escala industrial ja acordada amb el departament d’Analítica de Negoci (AN) de GCO.
Resum: This work presents the design and implementation of the PTTN (Perturbation, Truncation, Transformation, and Normalization) system to automate the preprocessing of input variables in deep learning models. A theoretical framework based on statistical moments is proposed, formalizing quasi-optimal criteria for distributional quality and defining a goodness measure G(X) to automa- tically select truncation and transformation parameters, while preserving normalization as the final standardization step. The system combines automatic inference and manual intervention, ensuring pipeline consistency through dynamic updates and a desktop interface that facilitates visual explo- ration and validation of the results, reducing the human resources currently employed. Additionally, experiments are presented showing that the goodness metric tends to favor centered, symmetric distributions with moderate tails, along with a qualitative evaluation suggesting that the preprocessing does not degrade performance and may yield slight improvements. Finally, the validation also includes a ranking of statistical distributions and a preliminary evaluation using neural networks (MLP), where the system has been shown to accelerate convergence, improve generalization, and reduce training time. Although these tests are qualitative in nature, they establish the foundation for industrial-scale validation already agreed upon with the Business Analytics department (AN) at GCO.
Resum: Este trabajo presenta el diseño e implementación del sistema PTTN (Perturbación, Truncamiento, Transformación y Normalización) para automatizar el preprocesamiento de variables de entrada en modelos de deep learning. Se propone un marco teórico basado en momentos estadísticos que formaliza criterios cuasi-óptimos de calidad distribucional y define una medida de bondad G(X) para seleccionar de manera automática los parámetros de truncamiento y transformación, manteniendo la normalización como paso final de estandarización. El sistema combina inferencia automática e intervención manual, asegurando la coherencia del pipeline mediante actualizaciones dinámicas y una interfaz de escritorio que facilita la exploración y la validación visual de los resultados, reduciendo los recursos humanos empleados actualmente. Además, se presentan experimentos que muestran cómo la métrica de bondad tiende a favorecer distribuciones centradas, simétricas y con colas moderadas, y una evaluación cualitativa que sugiere que el preprocesamiento no empeora el rendimiento y puede aportar mejoras ligeras. Finalmente, la validación también incluye un ranking de distribuciones estadísticas y una evaluación preliminar con redes neuronales (MLP), donde se ha demostrado que el sistema acelera la convergencia, mejora la generalización y reduce el tiempo de entrenamiento. Aunque estas pruebas son de carácter cualitativo, establecen la base para la validación a escala industrial ya acordada con el departamento de Analítica de Negocio (AN) de GCO.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau
Matèria: Preprocessament de dades ; Deep learning ; Moments estadístics ; Truncament ; Transformacions ; Normalització ; Pertorbació ; Automatització ; Data preprocessing ; Statistical moments ; Truncation ; Transformati- ons ; Normalization ; Perturbation ; Automation ; Preprocesamiento de datos ; Momentos estadísticos ; Truncamiento ; Transformaciones ; Normalización ; Perturbación ; Automatización



13 p, 974.9 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de final de grau > Escola d'Enginyeria. TFG

 Registre creat el 2026-05-28, darrera modificació el 2026-05-29



   Favorit i Compartir