Extracción de información en documentos antiguos y manuscritos
Ortega García, Kevin
Ramos Terrades, Oriol, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Information extraction on old and handwritten documents
Títol variant: Extracció d'informació en documents Antics i manuscrits
Data: 2018-02-12
Resum: El objetivo de este proyecto es el de, partiendo de un set de imágenes de documentos como entrada, realizar una serie de procesos sobre las imágenes con el fin de poder generar un modelo de predicción basado en machine learning que sea capaz de clasificar si los elementos que aparecen en los documentos anteriormente mencionados se tratan de texto escrito a mano, impreso o si no son texto en absoluto. Para ello, se desarrollarán y utilizarán diversos programas, con los que se pretende, por un lado, aislar los elementos de texto de las imágenes y extraer información de dichos elementos, así como crear una matriz de adyacencia que los relacione, y por el otro, aplicar estos datos para entrenar un modelo de predicción que utilice Structured Support Vector Machine. Por último, para comprobar la eficacia de dicho modelo, se harán múltiples pruebas variando los distintos modos de funcionamiento que permite el algoritmo, con tal de observar en qué condiciones funciona mejor, y realizándose un estudio de los mismos.
Resum: This project's objective is, starting with a set of document images as input, to carry out a series of procedures on the images with the purpose of obtaining a prediction model based on machine learning able to classify if the elements that appear on the previously mentioned documents are either handwritten text, printed text or no text at all. In order to do that, several programs will be developed and utilized, with which it is intended, on the one hand, to isolate the text elements from the images, extract information of said elements, as well as the creation of an adjacency matrix that relates them, and on the other, to apply this data to train a prediction model that uses Structured Support Vector Machine. Lastly, in order to check the efficiency of said model, multiple tests will be done modifying the various functioning modes that the algorithm allows, with the goal of observing under which conditions does it perform better, and studying the results of those tests.
Resum: L'objectiu d'aquest projecte es el de, partint d'un set d'imatges de documents com a entrada, realitzar una sèrie de processos sobre les imatges amb el fi de poder generar un model de predicció basat en machine learning que sigui capaç de classificar si els elements que apareixen en els documents anteriorment esmentats es tracten de text escrit a ma, imprès, o si no son text escrit en absolut. Pera a això, es desenvoluparan i faran servir diversos programes, amb els que es pretén, d'una banda, aïllar els elements de text de les imatges i extreure informació de dits elements, així com crear una matriu d'adjacència que els relacioni, i de l'altre, aplicar aquestes dades per a entrenar un model de predicció que utilitzi Structured Support Vector Machine. Per últim, per comprovar l'eficàcia de dit model, es faran múltiples proves variant els diferents modes de funcionament que permet l'algoritme, amb l'objectiu d'observar en que condicions funciona millor, i fent-se un estudi d'aquests.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Castellà
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Texto manuscrito ; Texto impreso ; Componente conexa ; Modelo de predicción ; Centroide ; Text manuscrit ; Text imprès ; Text-graphic separation ; Region properties ; Handwritten text ; Printed text ; Centroid ; Connected component ; Prediction model ; Component connexa ; Machine learning ; Support vector machine (svm) ; Structured support vector machine (ssvm) ; Model de predicció ; Train ; Test



13 p, 1.3 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2018-04-09, darrera modificació el 2023-07-22



   Favorit i Compartir