Google Scholar: citations
Fetch-a-set : a large-scale OCR-free benchmark for historical document retrieval
Molina Rodríguez, Adrià (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Ramos Terrades, Oriol (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Lladós, Josep (Centre de Visió per Computador)

Date: 2024
Abstract: This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.
Grants: Agencia Estatal de Investigación PRE2022-101575
Agencia Estatal de Investigación PID2021-126808OB-I00
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra, i la creació d'obres derivades, sempre que no sigui amb finalitats comercials i que es distribueixin sota la mateixa llicència que regula l'obra original. Cal que es reconegui l'autoria de l'obra original. Creative Commons
Language: Anglès
Document: Prepublicació ; recerca ; Versió de l'autor
Subject: Document Retrieval ; Information Extraction ; Historical documents ; Datasets ; Legislative Documents

DOI: 10.48550/arXiv.2406.07315


17 p, 8.5 MB

The record appears in these collections:
Research literature > Preprints

 Record created 2025-04-27, last modified 2025-12-10



   Favorit i Compartir