Big Data : Análisis y predicción de datos en aerolíneas mediante MongoDB y MLlib
González Villanueva, Ivan
Casas Roma, Jordi, dir. (Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Additional title: Big Data : Analysis and prediction of airline data using MongoDB and MLlib
Additional title: Big Data : Anàlisi i predicció de dades en aerolínies mitjançant MongoDB i MLlib
Date: 2018-02-15
Abstract: El proyecto busca analizar la correlación entre los diversos factores que afectan a la puntualidad de los vuelos en lo Estados Unidos. Se llevará a cabo la implementación de un sistema de análisis y predicción, que utiliza las tecnologías de procesamiento no tradicionales como Spark, permitiendo analizar grandes conjuntos de datos de manera eficiente. Mediante este análisis, se podrá crear un modelo de predicción de los retrasos en los vuelos. Para dicha tarea se utilizará un algoritmo de aprendizaje automático conocido como GBT Regression, entrenándolo a partir de datos históricos y climáticos. A partir del modelo de predicción obtenido, se buscarán patrones que permitirán mejorar la eficiencia de los vuelos, así como prever futuros fallos o problemas.
Abstract: The project seeks to analyze the correlation among several factors which affect the puntuality of the flights in the USA. The implementation of an analysis and prediction system will be carried out. This system is using non-traditional processing technologias as Spark, which can analize large data sets in a very efficient way. Thanks to this analysis, a prediction model will be implemented to calculate future flight delays. An algoritm of automatic machine learning named GBT Regression will be used. Historical and climatic data will be used to train the model. With the resulting prediction model, some patterns will be searched in order to improved the flight efficiency as well as anticipate future problems.
Abstract: El projecte busca analitzar la correlació entre els diversos factors que afecten la puntualitat dels vols en el Estats Units. Es durà a terme la implementació d'un sistema d'anàlisi i predicció, que utilitza les tecnologies de processament no tradicionals com Spark, permetent analitzar grans conjunts de dades de manera eficient. Mitjançant aquesta anàlisi, es podrà crear un model de predicció dels retards en els vols. Per a aquesta tasca s'utilitzarà un algoritme d'aprenentatge automàtic conegut com GBT Regression, entrenant a partir de dades històriques i climàtics. A partir del model de predicció obtingut, es buscaran patrons que permetran millorar l'eficiència dels vols, així com preveure futurs errors o problemes.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Castellà
Studies: Grau en Enginyeria Informàtica [2502441]
Study plan: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Subject area: Menció Tecnologies de la Informació
Subject: Mineria de dades ; Dades obertes ; Spark ; Hadoop ; Hive ; HDFS ; MondoDB ; Aprenentatge automàtic ; Aerolínies ; Meteorologia ; Mineria de datos ; Datos abiertos ; Aprendizaje automático ; Aerolíneas ; Meteorología ; BigData ; OpenData ; Machine learning ; Airlines ; Weather



10 p, 1.8 MB

The record appears in these collections:
Research literature > Bachelor's degree final project > School of Engineering. TFG

 Record created 2018-04-09, last modified 2023-07-22



   Favorit i Compartir