Synthetic handwritten text generation
Rico Blanes, Adrià
Fornés Bisquerra, Alicia, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Rusiñol Sanabra, Marçal, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante: Generación de texto manuscrito sintético
Título variante: Generació de text manuscrit sintètic
Fecha: 2018-07-02
Resumen: Handwritten text recognition requires a large quantity of labelled samples, which are costly to produce. In this project, we explore the possibility of synthetically generating human-like handwritten text, allowing for an effectively infinite amount of labelled samples. We perform text generation through font rendering and apply image processing techniques to give the text more variability and realism. We also perform an evaluation of our system by generating a fully synthetic clone of a real dataset and comparing the effect of using our samples combined with a portion of the real samples to train a handwritten text recognizer. We conclude that our system allows to obtain an accuracy close to the baseline using only a small portion of real samples.
Resumen: El reconocimiento de texto manuscrito requiere una gran cantidad de ejemplos etiquetados, los cuales son costosos de producir. En este proyecto, se explora la posibilidad de generar sintéticamente texto manuscrito similar al de un humano, permitiendo así obtener una cantidad ilimitada de ejemplos etiquetados. Se realiza generación de texto mediante fuentes de letra y se aplican técnicas de procesamiento de imagen para dar más variabilidad y realismo al texto. También se evalúa el sistema generando un clon completamente sintético de una base de datos real y comparando el efecto de usar los ejemplos sintéticos combinados con una porción de los reales para entrenar un modelo de reconocimiento de texto manuscrito. Finalmente, se concluye que el sistema permite obtener una precisión cercana a la línea base usando solamente una porción pequeña de ejemplos reales.
Resumen: El reconeixement de text manuscrit requereix una gran quantitat d'exemples etiquetats, els quals són costosos de produir. En aquest projecte, s'explora la possibilitat de generar sintèticament text manuscrit similar al d'un humà, permetent així obtindre una quantitat il·limitada d'exemples etiquetats. Es realitza generació de text mitjançant fonts de lletra i s'apliquen tècniques de processament d'imatge per a donar més variabilitat i realisme al text. També s'avalua el sistema generant un clon completament sintètic d'una base de dades real i comparant l'efecte d'utilitzar els exemples sintètics combinats amb una porció dels reals per a entrenar un model de reconeixement de text manuscrit. Finalment, es conclou que el sistema permet obtenir una precisió propera a la línia base utilitzant només una porció petita dels exemples reals.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Anglès.
Titulación: Enginyeria Informàtica [2502441]
Plan de estudios: Grau en Enginyeria Informàtica [958]
Documento: bachelorThesis ; Text
Área temática: Menció Computació
Materia: Anàlisi de documents ; Reconeixement òptic de caràcters ; Reconeixement de text manuscrit ; Generació de text manuscrit ; Aprenentatge computacional ; Deep learning ; Data augmentation ; Análisis de documentos ; Reconocimiento óptico de caracteres ; Reconocimiento de texto manuscrito ; Generación de texto manuscrito ; Aprendizaje computacional ; Document analysis ; Optical character recognition ; Handwritten text recognition ; Handwritten text generation ; Machine learning



14 p, 9.5 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

 Registro creado el 2018-10-24, última modificación el 2020-06-27



   Favorit i Compartir