Direct Decipherment and Transcription of Historical Handwritten Ciphered Document Images
Bermúdez Granados, Marina
Fornes Bisquerra, Alicia, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Additional title: Desxiframent Directe i Transcripció d'Imatges de Documents Històrics Manuscrits Xifrats
Additional title: Desencriptación Directa y Transcripción de Imágenes de Documentos Históricos Manuscritos Cifrados
Date: 2024
Abstract: Hi ha molts documents històrics xifrats conservats a biblioteques arreu del món amb continguts encara desconeguts pels investigadors. Com el desxifrat manual no és una opció viable, molts investigadors han acudit a mètodes d'aprenentatge automàtic. Les tècniques habituals utilitzen un enfocament de pipeline (primer transcripció, després desxifrat), provocant una alta dependència entre les tasques. L'objectiu d'aquest treball és proposar un model d'aprenentatge profund per transcriure i desxifrar directament imatges d'aquests documents. Primer es van formar diferents versions del mateix conjunt de dades, imatges de documents reals i rèpliques sintètiques. Després de la generació d'imatges, es va realitzar un total de 18 experiments entre tasques, conjunts de dades i configuracions. Entre altres descobriments, es va concloure que el nostre model obté resultats depenent de les tasques, malgrat treballar amb els mateixos conjunts de dades i paràmetres.
Abstract: Hay muchos documentos históricos cifrados conservados en bibliotecas alrededor del mundo con sus contenidos aún desconocidos para investigadores incluso tras todo este tiempo. Como el descifrado manual no es una opción viable, muchos investigadores han acudido a métodos de aprendizaje automático. Las técnicas habituales utilizan un enfoque de pipeline (primero transcribir, después descifrar), provocando un alto nivel de dependencia entre tareas. El objetivo de este trabajo es proponer un modelo de aprendizaje profundo para transcribir y descifrar directamente estas imágenes de documentos. Primero se formarán diferentes versiones del mismo conjunto de datos con imágenes manuscritas y réplicas sintéticas. Después de la generación de imágenes, se han realizado 18 experimentos entre tareas, conjuntos de datos y configuraciones. Entre otros descubrimientos, se concluyó que nuestro modelo obtiene resultados diferentes dependiendo de las tareas, aunque se trabajen con los mismos conjuntos de datos y parámetros.
Abstract: There are many historical ciphered documents that are still preserved in libraries worldwide, their content still unknown to researchers even after all this time. Since manual decryption is not viable, many researchers have resorted to machine learning practices. The usual techniques use a pipeline approach (first transcription, then decryption), causing a high level of dependance between tasks. The objective of this work is to propose a deep-learning model to transcribe and directly decipher these document images. First, we formed different versions of the same data set with real handwritten images and synthetic replicas. After the image generation, we performed a total of 18 experiments across tasks, data sets, and configurations. Among other findings, we concluded that our model obtains different results depending on the task at hand, despite working with the same data sets and parameters.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Anglès
Studies: Enginyeria Informàtica [2502441]
Study plan: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Subject area: Menció Computació
Subject: Desencriptació ; Generació d'imatges ; Manuscrits històrics ; Models sequence-to-sequence ; Transcripció ; Desencriptación ; Generación de imágenes ; Manuscritos históricos ; Modelos sequence-to-sequence ; Transcripción ; Decipherment ; Historical manuscripts ; Image generation ; Sequence-to-sequence model ; Transcription



9 p, 1.7 MB

The record appears in these collections:
Research literature > Bachelor's degree final project > School of Engineering. TFG

 Record created 2024-07-17, last modified 2025-07-20



   Favorit i Compartir