Retrieval of Visually Similar Images for Handwritten Documents Through Agglomerative Hierarchical Clustering
Boukfal, Mohamed
Rusiñol Sanabra, Marçal, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Recuperació d'imatges visualment similars per a documents escrits a mà a través de clustering jeràrquica aglomeratiu
Títol variant: Recuperación de imágenes visualmente similares para documentos manuscritos a través de clustering jerárquico aglomerativo
Data: 2017-02-08
Resum: In tasks of handwritten words recognition from a collection of manuscripts, a possible approach consists on grouping images using a measure of similarity in order to get a cluster distribution, aiming to have all the same words in the same cluster. Keeping in mind this idea, agglomerative hierarchical clustering (AHC) techniques are used to implement retrieval by example methods by reducing the bag of word images in a few cluster representatives. Various linkage criteria, different distance metrics and representative obtainment methods are evaluated. A simple dataset is used to create and validate the algorithm and a subset of word images collection is used to get the final results. Modeling with the manuscript image words shows that AHC considerably reduces the amount of operation (decrease of request time) in offline handwriting recognition, giving the same (and even better) results than tradition approaches.
Resum: En les tasques de reconeixement de paraules escrites a mà a partir d'una col·lecció de manuscrits, un possible enfocament consisteix en l'agrupació d'imatges utilitzant una mesura de similitud amb la finalitat d'obtenir una distribució de clúster, amb l'objectiu de tenir tots les mateixes paraules en el mateix clúster. Tenint en compte aquesta idea, les tècniques de clustering aglomeratiu jeràrquic (AHC) s'utilitzen per implementar mètodes de «recuperació per exemple» mitjançant la reducció del sac d'imatges de paraules en uns pocs representants de cluster. S'avaluen diversos criteris de linkatge, diferents mesures de distància i mètodes d'obtenció de representant. Un conjunt de dades senzill s'utilitza per crear i validar l'algoritme i un subconjunt d'una col·lecció d'imatges de paraules s'utilitza per obtenir els resultats finals. El modelatge amb les imatges de paraules manuscrites mostra que AHC redueix considerablement la quantitat d'operacions (disminució del temps de petició) pel reconeixement d'escriptura offline, donant els mateixos resultats (i fins i tot millor) que els enfocaments tradicionals.
Resum: En las tareas de reconocimiento de palabras escritas a mano a partir de una colección de manuscritos, una posible aproximación consiste en agrupar imágenes usando una medida de similitud para obtener una distribución de clúster, con el fin de tener todas las mismas palabras en el mismo grupo. Teniendo en cuenta esta idea, se utilizan técnicas de clustering jerárquico aglomerado (AHC) para implementar la recuperación mediante métodos de ejemplo reduciendo el saco de imágenes de palabras en unos cuantos representantes de clúster. Se evalúan diversos criterios de linkage, diferentes métricas de distancia y métodos de obtención representativos. Un conjunto de datos simple es utilizado para crear y validar el algoritmo y un subconjunto de la colección de imágenes de palabras se utiliza para obtener los resultados finales. El modelage con imagenes de palabras manuscritas muestra que AHC reduce considerablemente la cantidad de operación (disminución del tiempo de solicitud) en el reconocimiento de escritura a mano sin conexión, dando los mismos resultados (e incluso mejores) que los enfoques tradicionales.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès.
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: bachelorThesis ; Text
Àrea temàtica: Menció Computació
Matèria: Clustering jeràrquic aglomeratiu ; Dendrograma ; Documents manuscrits ; Recuperació d'imatges ; Consulta per exemple ; Localització de paraules ; Clustering jerárquico aglomerativo ; Documentos manuscritos ; Recuperación de imagenes ; Consulta por ejemplo ; Localización de palabras ; Agglomerative hierarchical clustering ; Dendrogram ; Handwritten documents ; Image retrieval ; Query by example ; Word spotting



7 p, 697.2 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2017-04-19, darrera modificació el 2018-06-23



   Favorit i Compartir