Synthetic handwritten text generation
Rico Blanes, Adrià
Fornés Bisquerra, Alicia, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Rusiñol Sanabra, Marçal, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Generación de texto manuscrito sintético
Títol variant: Generació de text manuscrit sintètic
Data: 2018-07-02
Resum: Handwritten text recognition requires a large quantity of labelled samples, which are costly to produce. In this project, we explore the possibility of synthetically generating human-like handwritten text, allowing for an effectively infinite amount of labelled samples. We perform text generation through font rendering and apply image processing techniques to give the text more variability and realism. We also perform an evaluation of our system by generating a fully synthetic clone of a real dataset and comparing the effect of using our samples combined with a portion of the real samples to train a handwritten text recognizer. We conclude that our system allows to obtain an accuracy close to the baseline using only a small portion of real samples.
Resum: El reconocimiento de texto manuscrito requiere una gran cantidad de ejemplos etiquetados, los cuales son costosos de producir. En este proyecto, se explora la posibilidad de generar sintéticamente texto manuscrito similar al de un humano, permitiendo así obtener una cantidad ilimitada de ejemplos etiquetados. Se realiza generación de texto mediante fuentes de letra y se aplican técnicas de procesamiento de imagen para dar más variabilidad y realismo al texto. También se evalúa el sistema generando un clon completamente sintético de una base de datos real y comparando el efecto de usar los ejemplos sintéticos combinados con una porción de los reales para entrenar un modelo de reconocimiento de texto manuscrito. Finalmente, se concluye que el sistema permite obtener una precisión cercana a la línea base usando solamente una porción pequeña de ejemplos reales.
Resum: El reconeixement de text manuscrit requereix una gran quantitat d'exemples etiquetats, els quals són costosos de produir. En aquest projecte, s'explora la possibilitat de generar sintèticament text manuscrit similar al d'un humà, permetent així obtindre una quantitat il·limitada d'exemples etiquetats. Es realitza generació de text mitjançant fonts de lletra i s'apliquen tècniques de processament d'imatge per a donar més variabilitat i realisme al text. També s'avalua el sistema generant un clon completament sintètic d'una base de dades real i comparant l'efecte d'utilitzar els exemples sintètics combinats amb una porció dels reals per a entrenar un model de reconeixement de text manuscrit. Finalment, es conclou que el sistema permet obtenir una precisió propera a la línia base utilitzant només una porció petita dels exemples reals.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès.
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: bachelorThesis ; Text
Àrea temàtica: Menció Computació
Matèria: Anàlisi de documents ; Reconeixement òptic de caràcters ; Reconeixement de text manuscrit ; Generació de text manuscrit ; Aprenentatge computacional ; Deep learning ; Data augmentation ; Análisis de documentos ; Reconocimiento óptico de caracteres ; Reconocimiento de texto manuscrito ; Generación de texto manuscrito ; Aprendizaje computacional ; Document analysis ; Optical character recognition ; Handwritten text recognition ; Handwritten text generation ; Machine learning



14 p, 9.5 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2018-10-24, darrera modificació el 2019-10-03



   Favorit i Compartir