Anàlisi del comportament dels Transformersamb dades tabulars en l'àmbit clínic
Company Ramis, Francesca
Gil Resina, Debora, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante: Análisis del comportamiento de los Transformers con datos tabulares en el ámbito clínico
Título variante: Analysis of Transformer Behavior with Tabular Data in the Clinical Domain
Fecha: 2025
Resumen: Aquest treball analitza el comportament dels models Transformers aplicats a dades tabulars en l'àmbit clínic, amb l'objectiu de predir la probabilitat de patir una malaltia. A partir de dos conjunts de dades (RadioLung i Diabetes), es proposen diverses arquitectures de Transformers i estratègies de tokenització per representar adequadament dades numèriques i categòriques. Els experiments mostren que els Transformers poden superar els models de machine learning clàssics quan es disposa de suficients dades, especialment amb arquitectures que respecten la semàntica de les característiques. Tanmateix, en contextos amb dades limitades, es detecta overfitting i baixa capacitat de generalització. Finalment, es proposen millores per treballs futurs.
Resumen: Este trabajo analiza el comportamiento de los modelos Transformers aplicados a datos tabulares en el ámbito clínico, con el objetivo de predecir la probabilidad de padecer una enfermedad. A partir de dos conjuntos de datos (RadioLung y Diabetes), se proponen diversas arquitecturas de Transformers y estrategias de tokenización para representar adecuadamente datos numéricos y categóricos. Los experimentos muestran que los Transformers pueden superar a los modelos clásicos de aprendizaje automático cuando se dispone de suficientes datos, especialmente con arquitecturas que respetan la semántica de las características. No obstante, en contextos con datos limitados, se detecta sobreajuste y baja capacidad de generalización. Finalmente, se proponen mejoras para trabajos futuros.
Resumen: This project analyzes the behavior of Transformer models applied to tabular data in the clinical domain, with the aim of predicting the likelihood of developing a disease. Based on two datasets (RadioLung and Diabetes), several Transformer architectures and tokenization strategies are proposed to adequately represent numerical and categorical data. The experiments show that Transformers can outperform classical machine learning models when sufficient data is available, especially with architectures that preserve the semantics of the features. However, in contexts with limited data, overfitting and poor generalization capacity are observed. Finally, improvements are suggested for future work.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Català
Titulación: Grau en Enginyeria de Dades [2503758]
Plan de estudios: Enginyeria de Dades [1394]
Documento: Treball final de grau ; Text
Materia: Dades clíniques tabulars ; Deep learning ; Transformers ; Nòduls pulmonars ; Diabetis ; Data embeddings ; Tokenizers ; Datos clínicos tabulares ; Nódulos pulmonares ; Diabetes ; Tokenizadores ; Tabular clinical data ; Lung nodules



14 p, 1.1 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

 Registro creado el 2025-07-15, última modificación el 2025-07-23



   Favorit i Compartir