Google Scholar: cites
Fetch-a-set : a large-scale OCR-free benchmark for historical document retrieval
Molina Rodríguez, Adrià (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Ramos Terrades, Oriol (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Lladós, Josep (Centre de Visió per Computador)

Data: 2024
Resum: This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.
Ajuts: Agencia Estatal de Investigación PRE2022-101575
Agencia Estatal de Investigación PID2021-126808OB-I00
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra, i la creació d'obres derivades, sempre que no sigui amb finalitats comercials i que es distribueixin sota la mateixa llicència que regula l'obra original. Cal que es reconegui l'autoria de l'obra original. Creative Commons
Llengua: Anglès
Document: Prepublicació ; recerca ; Versió de l'autor
Matèria: Document Retrieval ; Information Extraction ; Historical documents ; Datasets ; Legislative Documents

DOI: 10.48550/arXiv.2406.07315


17 p, 8.5 MB

El registre apareix a les col·leccions:
Documents de recerca > Prepublicacions

 Registre creat el 2025-04-27, darrera modificació el 2025-12-10



   Favorit i Compartir