Clasificación automática de textos y explotación BI
Buill Vilches, Javier
Grau Sala, Ramon
Vallbé, Joan Josep
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Data: 2014
Descripció: 89 p.
Resum: El presente proyecto tiene como objetivo desarrollar una tecnología que permita codificar grandes cantidades de texto de manera automática para posteriormente ser visualizada y analizada mediante una aplicación diseñada en Qlikview. El motor de la investigación e implementación de este proyecto se ha encontrado en la incipiente presencia de tecnologías informáticas en los procesos de codificación para ciencias políticas. De esta manera, el programa creado tiene como objetivo automatizar un proceso que se desarrolla comúnmente de manera manual y, por ende, las ventajas de introducir técnicas informáticas son notablemente valiosas. Estas automatizaciones permiten ahorrar tanto en tiempo de codificación, como en recursos económicos o humanos. Se ha elaborado una revisión teórica y metodológica que han servido como instrumentos de estudio y mejora, con el firme propósito de reducir al máximo el margen de error y ofrecer un instrumento de calidad con salida de mercado real. El método de clasificación utilizado ha sido Bayes, y se ha implementado utilizando Matlab. Los resultados de la clasificación han llegado a índices del 99. 2%. En la visualización y análisis mediante Qlikview se pueden modificar los parámetros referentes a partido político, año, categoría o región, con lo que se permite analizar numerosos aspectos relacionados con la distribución de las palabras repartidas entre las diferentes categorías y en el tiempo.
Resum: The aim of the present project is to develop a technology capable of codifying a huge amount of text automatically in order to be analysed through a Qlikview application. The main reason for the investigation and implementing of this project has been found due to the new presence of information technology in codifying processes for political science. Thus, the program created seeks to automate a usually hand-made process, and the advantages of introducing these techniques are remarkably valuable. This automates allow to save time both in time and in economic or human resources. In this point, there has been a theoretic and methodological revision that worked out as study and development instruments, with the aim to reduce the margin of error and offering a quality tool with access to real market. The classification method used has been Bayes, and it has been implemented by using Matlab. The classification results have reached 99. 2% success. In the visualization and analysis with Qlikview the values of political party, year, category or region can be modified allowing analyse numerous aspects related to the word distribution between the categories and through time.
Resum: El present projecte té com objectiu desenvolupar una tecnologia que permeti codificar grans quantitats de text de forma automàtica per a posteriorment ser visualitzada i analitzada mitjançant una aplicació dissenyada en Qlikview. El motor de la investigació i implementació d'aquest projecte s'ha trobat en la incipient presència de tecnologies informàtiques als processos de codificació per a ciències polítiques. D'aquesta forma, el programa creat té com a objectiu automatitzar un procés que es desenvolupa comunament de forma manual i, per tant, els avantatges d'introduir tècniques informàtiques són molt valuoses. Aquestes automatitzacions permeten tant estalviar temps de codificació, com en recursos econòmics o humans. S'ha preparat una revisió teòrica i metodològica que ha funcionat com a instrument d'estudi i de millora, amb el ferma propòsit de reduir al màxim el marge d'error i oferir un instrument de qualitat amb sortides al mercat real. El mètode de classificació utilitzat ha estat Bayes, i s'ha implementat mitjançant Matlab. Els resultats de la classificació han arribat a índexs del 99. 2%. A la visualització i anàlisis mitjançant Qlikview es poden modificar el paràmetres referents a partit polític, any, categoria o regió, amb el que es poden analitzar nombrosos aspectes relacionats amb la distribució de les paraules repartides entre les diferents categories i en el temps.
Nota: Aquest document conté originàriament altre material i/o programari només consultable a la Biblioteca de Ciència i Tecnologia.
Drets: L'accés als continguts d'aquest document queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: Creative Commons
Llengua: Castellà
Titulació: Enginyeria Informàtica / Computer Engineering [4314660]
Col·lecció: Escola d'Enginyeria. Projectes i treballs de final de carrera. Enginyeria Informàtica
Document: Treball final de grau
Matèria: Programari d'aplicació - Desenvolupament ; Processament de dades



Presentació
28 p, 1.4 MB

Memòria
89 p, 4.7 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de recerca i projectes de final de carrera > Enginyeria. TFM

 Registre creat el 2015-03-02, darrera modificació el 2022-07-09



   Favorit i Compartir