Anàlisi del comportament dels Transformersamb dades tabulars en l'àmbit clínic
Company Ramis, Francesca
Gil Resina, Debora, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Additional title: Análisis del comportamiento de los Transformers con datos tabulares en el ámbito clínico
Additional title: Analysis of Transformer Behavior with Tabular Data in the Clinical Domain
Date: 2025
Abstract: Aquest treball analitza el comportament dels models Transformers aplicats a dades tabulars en l'àmbit clínic, amb l'objectiu de predir la probabilitat de patir una malaltia. A partir de dos conjunts de dades (RadioLung i Diabetes), es proposen diverses arquitectures de Transformers i estratègies de tokenització per representar adequadament dades numèriques i categòriques. Els experiments mostren que els Transformers poden superar els models de machine learning clàssics quan es disposa de suficients dades, especialment amb arquitectures que respecten la semàntica de les característiques. Tanmateix, en contextos amb dades limitades, es detecta overfitting i baixa capacitat de generalització. Finalment, es proposen millores per treballs futurs.
Abstract: Este trabajo analiza el comportamiento de los modelos Transformers aplicados a datos tabulares en el ámbito clínico, con el objetivo de predecir la probabilidad de padecer una enfermedad. A partir de dos conjuntos de datos (RadioLung y Diabetes), se proponen diversas arquitecturas de Transformers y estrategias de tokenización para representar adecuadamente datos numéricos y categóricos. Los experimentos muestran que los Transformers pueden superar a los modelos clásicos de aprendizaje automático cuando se dispone de suficientes datos, especialmente con arquitecturas que respetan la semántica de las características. No obstante, en contextos con datos limitados, se detecta sobreajuste y baja capacidad de generalización. Finalmente, se proponen mejoras para trabajos futuros.
Abstract: This project analyzes the behavior of Transformer models applied to tabular data in the clinical domain, with the aim of predicting the likelihood of developing a disease. Based on two datasets (RadioLung and Diabetes), several Transformer architectures and tokenization strategies are proposed to adequately represent numerical and categorical data. The experiments show that Transformers can outperform classical machine learning models when sufficient data is available, especially with architectures that preserve the semantics of the features. However, in contexts with limited data, overfitting and poor generalization capacity are observed. Finally, improvements are suggested for future work.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Català
Studies: Grau en Enginyeria de Dades [2503758]
Study plan: Enginyeria de Dades [1394]
Document: Treball final de grau ; Text
Subject: Dades clíniques tabulars ; Deep learning ; Transformers ; Nòduls pulmonars ; Diabetis ; Data embeddings ; Tokenizers ; Datos clínicos tabulares ; Nódulos pulmonares ; Diabetes ; Tokenizadores ; Tabular clinical data ; Lung nodules



14 p, 1.1 MB

The record appears in these collections:
Research literature > Bachelor's degree final project > School of Engineering. TFG

 Record created 2025-07-15, last modified 2025-07-23



   Favorit i Compartir