Bridging Cross-Modal Alignment for OCR-Free Content Retrieval in Scanned Historical Documents

Molina Rodríguez, Adrià

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/284333

Bridging Cross-Modal Alignment for OCR-Free Content Retrieval in Scanned Historical Documents
Molina Rodríguez, Adrià

Ramos Terrades, Oriol,

dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Lladós, Josep,

dir. (Centre de Visió per Computador (Bellaterra, Catalunya))
Universitat Autònoma de Barcelona. Escola d'Enginyeria
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Data:	2023
Descripció:	27 pag.
Resum:	In this work, we address the limitations of current approaches to document retrieval by incorporating vision-based topic extraction. While previous methods have primarily focused on visual elements or relied on optical character recognition (OCR) for text extraction, we propose a paradigm shift by directly incorporating vision into the topic space. We demonstrate that recognizing all visual elements within a document is unnecessary for identifying its underlying topic. Visual cues such as icons, writing style, and font can serve as sufficient indicators. By leveraging ranking loss functions and convolutional neural networks (CNNs), we learn complex topological representations that mimic the behavior of text representations. Our approach aims to eliminate the need for OCR and its associated challenges, including efficiency, performance, data-hunger, and expensive annotation. Furthermore, we highlight the significance of incorporating vision in historical documentation, where visually antiquated documents contain valuable cues. Our research contributes to the understanding of topic extraction from a vision perspective and offers insights into annotation-cheap document retrieval systems.
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria.
Llengua:	Anglès
Titulació:	Visió per Computador / Computer Vision [4314099]
Pla d'estudis:	Màster Universitari en Visió per Computador/Computer Vision [1172]
Document:	Treball de fi de postgrau
Matèria:	Historical Document Analysis ; Cross-Modal Retrieval ; Topic Modeling

28 p, 18.5 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de recerca i projectes de final de carrera > Enginyeria. TFM

Registre creat el 2023-11-06, darrera modificació el 2023-11-23

Registres semblants

Afegeix-lo al cistell personal
Anomena i desa Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4