Supervised machine learning : a theoretical study with applications
Núñez González, José David
Delgado de la Torre, Rosario, dir.

Fecha: 2022
Resumen: Aquesta Tesi s'emmarca en l'àmbit de l'Aprenentatge Automàtic Supervisat, en el qual presentem un estudi teòric amb aplicacions. En concret, hem realitzat aportacions als diferents moments del cicle de vida de l'Aprenentatge Automàtic des d'un punt de vista integral, centrant la nostra atenció a les tres etapes fonamentals del cicle: preprocessament del conjunt de dades, construcció del model predictiu (classificador), i validació del model utilitzant mètriques de comportament). El primer treball es centra en la fase de preprocessament. Hem proposat un nou mètode de sobremostreig que utilitza una xarxa Bayesiana construïda com a model probabilístic per a les relacions de dependència entre les característiques al contextde la classe minoritària, per a generar instàncies artificials de la classe minoritària a un conjunt de dades amb variables categòriques i/ o contínues. Es basa en el fet que la versemblança és una mesura de la bondat d'ajustament d'un model a un conjunt de casos, la qual cosa és un paradigma diferent d'aquell en què es basen els mètodes de sobremostreig existents: la idea de distància entre les característiques, que resulta ser incoherent quan s'aplica a conjunts de dades amb variables no contínues. El segon treball està relacionat amb la construcció d'un model predictiu, específicament, un classificador. Hem implementat un sistema expert basat en un conjunt de classificadors Bayesians per a ajudar en la presa de decisions a la Unitat de Cures Intensives de l'Hospital de Mataró. El sistema prediu el desenllaç vital del pacient ingressat a la UCI (viu/mort) així com el destí a l'alta de l'UCI, si la predicció és "viu", o la causa de la mort si és "mort". La regla de combinació per a decidir la predicció proporcionada pel conjunt, a partir de les prediccions donades pels classificadors base, és una mitjana ponderada amb pesos específics basats a l'àrea sota la corba de precisió-recuperació (AUPR), adient per a tractar amb conjunts de dades desequilibrades, compatible amb el criteri MAP. La darrera contribució atén la fase de validació. Hem introduït una millora a la definició original de la mètrica Confusion ENtropy (CEN), que es basa en l'entropia de Shannon del camp de la Teoria de la Informació, com a mesura de la incertesa que comporta el resultat d'un procés de classificació. Aquesta modificació permet evitar el comportament indesitjable que mostra CEN, que en alguns casos és "fora de rang", i en d'altres mostra manca de monotonicitat quan la situació passa monòtonament d'una classificació perfecta a una completament errònia.
Resumen: Esta Tesis se enmarca en el ámbito del Aprendizaje Automático Supervisado, en el que presentamos un estudio teórico con aplicaciones. En concreto, hemos realizado aportaciones a los distintos momentos del ciclo de vida del Aprendizaje Automático desde un punto de vista integral, centrando nuestra atención en las tres etapas fundamentales del ciclo: preprocesamiento del conjunto de datos, construcción del modelo predictivo (clasificador), y validación del modelo utilizando métricas de comportamiento. El primer trabajo se centra en la fase de preprocesamiento. Hemos propuesto un nuevo método de sobremuestreo que utiliza una red Bayesiana construida como el modelo probabilístico para las relaciones de dependencia entre las características en el contexto de la clase minoritaria, para generar instancias artificiales de la clase minoritaria en un conjunto de datos con variables categóricas y/o continuas. Se basa en que la verosimilitud es una medida de la bondad de ajuste de un modelo a un conjunto de casos, lo que es un paradigma diferente a aquél en el que se basan los métodos de sobremuestreo existentes: la idea de distancia entre las características, que resulta ser incoherente cuando se aplica a conjuntos de datos con variables no continuas. El segundo trabajo está relacionado con la construcción de un modelo predictivo, específicamente, un clasificador. Hemos implementado un sistema experto basado en un conjunto de clasificadores Bayesianos para ayudar en la toma de decisiones en la Unidad de Cuidados Intensivos del Hospital de Mataró. El sistema predice el desenlace vital del paciente ingresado en la UCI (vivo/muerto) así como el destino al alta de la UCI, si la predicción es "vivo'', o la causa de la muerte si es "muerto''. La regla de combinación para decidir la predicción proporcionada por el conjunto, a partir de las predicciones dadas por los clasificadores base, es un promedio ponderado con pesos específicos basados en el área bajo la curva de precisión-recuperación (AUPR), adecuado para tratar con conjuntos de datos desequilibrados, compatible con el criterio MAP. La última contribución atiende a la fase de validación. Hemos introducido una mejora en la definición original de la métrica Confusion ENtropy (CEN), que se basa en la entropía de Shannon del campo de la Teoría de la Información, como medida de la incertidumbre que conlleva el resultado de un proceso de clasificación. Esta modificación permite evitar el comportamiento indeseable que muestra CEN, que en algunos casos está "fuera de rango", y en otros muestra falta de monotonicidad cuando la situación pasa monótonamente de una clasificación perfecta a una completamente errónea.
Resumen: This Thesis is framed in the topic of Supervised Machine Learning, where we present a theoretical study with applications. Specifically, contributions have been made at the different moments of the Machine Learning life cycle from an integral point of view, focusing our attention on the three fundamental stages of the cycle: preprocessing of the dataset, construction of the predictive model (classifier), and validation of the model using performance metrics. The first work focuses on the preprocessing phase. We have proposed a novel oversampling method that uses a Bayesian network constructed as the probabilistic model for the relationships of dependence between the features in the minority class setting, to generate artificial instances of the minority class for a dataset with both categorical and/or continuous variables. It relies on the fact that the likelihood is a measure of the goodness of fit of a model to a set of instances, which is a paradigm different from that in which the existing oversampling methods are based: the idea of distance between the features, which turns out to be a weakness when applied to datasets with non-continuous variables. The second paper is related to the construction of a predictive model, specifically, a classifier. We have implemented an expert system based on an ensemble of Bayesian classifiers to help in decision making in the Intensive Care Unit of the Hospital of Mataró. The system predicts the vital outcome of the patient admitted to the ICU (live/die) as well as the destination upon discharge from the ICU, if the prediction is ''live'', or the cause of death if it is ''die''. The combination rule to decide the prediction provided by the ensemble, from the predictions given by the base classifiers, is a Weighted Average with specific weights based on the Area Under the Precision-Recall curve (AUPR), suitable for deal with unbalanced datasets, which is compatible with the MAP criterion. The last contribution attends to the validation phase. We have introduced an improvement of the original definition of the Confusion ENtropy (CEN) metric, which is based on the Shannon's entropy from the field of Information Theory, as a measure of the uncertainty entailed by the result of a classification process. This modification allows to avoid the undesired behaviour showed by CEN, which in some cases is "out-of-range'', and in some others shows a lack of monotonicity when the situation monotonically goes from perfect to completely wrong classification.
Nota: Universitat Autònoma de Barcelona. Programa de Doctorat en Matemàtiques
Derechos: L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: Creative Commons
Lengua: Anglès
Colección: Programa de Doctorat en Matemàtiques
Documento: Tesi doctoral ; Text ; Versió publicada
Materia: Aprenentatge automàtic supervisat ; Aprendizaje automático supervisado ; Supervised machine learning ; Sobremostreig ; Sobremuestreo ; Oversampling ; Mètrica de rendiment ; Métrica de rendimiento ; Performance metric ; Ciències Experimentals

Adreça alternativa: https://hdl.handle.net/10803/688321


7.7 MB

El registro aparece en las colecciones:
Documentos de investigación > Tesis doctorales

 Registro creado el 2023-05-22, última modificación el 2023-07-13



   Favorit i Compartir