Robust Handwritten Text Recognition in Scarce Labeling Scenarios : Disentanglement, Adaptation and Generation
Kang, Lei
Fornes Bisquerra, Alicia, dir.
Rossinyol, Marçal, dir.
Villegas Santamaría, Mauricio, dir.
Lladós, Josep, dir.

Fecha: 2020
Resumen: Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s'utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l'auge de de l'anomenat aprenentatge profund (Deep Learning), s'ha aconseguit un bon rendiment en conjunts de dades específics per al reconeixement de text manuscrit. Tot i això, encara és difícil resoldre casos d'ús reals a causa de la variació entre estils d'escriptura de diferents escriptors i el fet de tenir dades etiquetades limitades. Per tant, es requereix explorar arquitectures de reconeixement d'escriptura més sòlides així com proposar mètodes per disminuir la bretxa entre conjunts de dades font i objectiu de manera no supervisada. En aquesta tesi, en primer lloc, explorem noves arquitectures per al reconeixement de text manuscrit, un mètode Sequence-to-Sequence amb mecanisme d'atenció i un mètode basat en transformadors no recurrents. En segon lloc, ens centrem en la disminució de la bretxa de rendiment entre les dades d'origen i les de destinació de manera no supervisada. Finalment, proposem un grup de mètodes generatius per a imatges de text manuscrits, que es poden utilitzar per augmentar el conjunt d'entrenament per obtenir un reconeixement més robust. A més, simplement modificant el mètode generatiu i unint-lo amb un reconeixedor, acabem amb un mètode de desenredament eficaç per destil·lar contingut textual d'estils d'escriptura a mà per aconseguir un rendiment de reconeixement generalitzat. Superem el rendiment dels reconeixedors de text manuscrit de l'estat de l'art en els resultats experimentals entre diferents conjunts de dades científics i industrials, que demostren l'eficàcia dels mètodes proposats. Tant ell reconeixement no recurrent com el mètode de desenredament són les primeres contribucions al camp del reconeixement d'escriptura a mà. A més, hem esbossat les línies de recerca potencials, que serien interessants explorar en el futur.
Resumen: Los documentos manuscritos no solo se conservan en archivos históricos, sino que también se usan ampliamente en documentos administrativos como cheques y reclamaciones. Con el auge de las redes neuronales profundas, muchas técnicas del estado del arte han obtenido un buen rendimiento en conjuntos de datos específicos para el reconocimiento de texto manuscrito (HTR). Sin embargo, los casos de uso reales todavía son un desafío debido a la variabilidad de estilos de escritura de diferentes escritores y la cantidad limitada de datos etiquetados. Por lo tanto, es necesario explorar tanto arquitecturas para reconocimiento de texto manuscrito más robustas como proponer métodos para disminuir la brecha entre los datos de origen y destino de una manera no supervisada. En esta tesis, en primer lugar, exploramos arquitecturas novedosas para el HTR, desde el método secuencia-a-secuencia (Seq2Seq) con mecanismo de atención, hasta el método no recurrente basado en Transformers. En segundo lugar, nos centramos en reducir la brecha de rendimiento entre los datos de origen y de destino mediante métodos no supervisados. Finalmente, proponemos un grupo de métodos generativos para imágenes de texto manuscrito, que pueden usarse para aumentar el conjunto de entrenamiento y obtener un reconocedor más robusto. Además, simplemente modificando el método generativo y uniéndolo con un reconocedor, obtenemos un método eficaz para destilar el contenido textual de los estilos de escritura para lograr un rendimiento de reconocimiento generalizado. En resultados experimentales obtenemos rendimientos en HTR que superan los del estado del arte en diferentes conjuntos de datos científicos e industriales, los cuales demuestran la efectividad de los métodos propuestos. Hasta donde sabemos, el reconocedor no recurrente y el método de para destilar son contribuciones originales en el campo de reconocimiento de texto manuscrito. Finalmente, hemos esbozado posibles líneas de investigación que sería interesante explorar en el futuro.
Resumen: Handwritten documents are not only preserved in historical archives but also widely used in administrative documents such as cheques and claims. With the rise of the deep learning era, many state-of-the-art approaches have achieved good performance on specific datasets for Handwritten Text Recognition (HTR). However, it is still challenging to solve real use cases because of the varied handwriting styles across different writers and the limited labeled data. Thus, both exploring a more robust handwriting recognition architectures and proposing methods to diminish the gap between the source and target data in an unsupervised way are demanded. In this thesis, firstly, we explore novel architectures for HTR, from Sequence-to-Sequence (Seq2Seq) method with attention mechanism to non-recurrent Transformer-based method. Secondly, we focus on diminishing the performance gap between source and target data in an unsupervised way. Finally, we propose a group of generative methods for handwritten text images, which could be utilized to increase the training set to obtain a more robust recognizer. In addition, by simply modifying the generative method and joining it with a recognizer, we end up with an effective disentanglement method to distill textual content from handwriting styles so as to achieve a generalized recognition performance. We outperform state-of-the-art HTR performances in the experimental results among different scientific and industrial datasets, which prove the effectiveness of the proposed methods. To the best of our knowledge, the non-recurrent recognizer and the disentanglement method are the first contributions in the handwriting recognition field. Furthermore, we have outlined the potential research lines, which would be interesting to explore in the future.
Nota: Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Anglès
Colección: Programa de Doctorat en Informàtica
Documento: Tesi doctoral ; Text ; Versió publicada
Materia: Visió per computador ; Visión por computadora ; Computer vision ; Reconeixement de patrons ; Reconocimiento de patrones ; Pattern recognition ; Reconeixement de text manuscrit ; Reconocimiento de texto manuscrito ; Handwritten text recognition ; Tecnologies

Adreça alternativa: https://hdl.handle.net/10803/672067


150 p, 5.7 MB

El registro aparece en las colecciones:
Documentos de investigación > Tesis doctorales

 Registro creado el 2021-07-03, última modificación el 2022-12-21



   Favorit i Compartir