Fetch-a-set : a large-scale OCR-free benchmark for historical document retrieval
Molina Rodríguez, Adrià 
(Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Ramos Terrades, Oriol 
(Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Lladós, Josep 
(Centre de Visió per Computador)
| Data: |
2024 |
| Resum: |
This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum. |
| Ajuts: |
Agencia Estatal de Investigación PRE2022-101575 Agencia Estatal de Investigación PID2021-126808OB-I00
|
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra, i la creació d'obres derivades, sempre que no sigui amb finalitats comercials i que es distribueixin sota la mateixa llicència que regula l'obra original. Cal que es reconegui l'autoria de l'obra original.  |
| Llengua: |
Anglès |
| Document: |
Prepublicació ; recerca ; Versió de l'autor |
| Matèria: |
Document Retrieval ;
Information Extraction ;
Historical documents ;
Datasets ;
Legislative Documents |
DOI: 10.48550/arXiv.2406.07315
El registre apareix a les col·leccions:
Documents de recerca >
Prepublicacions
Registre creat el 2025-04-27, darrera modificació el 2025-12-10