Implementació d'un mòdul descodificador per un sistema OCR
López Guerra, Oriol
Valveny Llobet, Ernest, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Implementation of a decoder module for an OCR system
Títol variant: Implementación de un modulo decodificador para un sistema OCR
Data: 2021
Resum: En el reconeixement de text en escenes, avui en dia retallar la paraula amb el correcte significat segueix sent un fet complicat. En aquest treball veurem una de les xarxes que ha obtingut bons resultats. Utilitzarem la xarxa BI-STET que utilitza CNN i transformers encoder i decoder. Veurem com funciona i intentarem introduir-li una CNN diferent anomenada PHOCNet, aquesta a diferencia de la BI-STET està pensada per treballar amb imatges amb lletres escrites a mà. En aquest treball compararem les dos CNN esmentades i veurem les seves possibilitats, avantatges i diferencies.
Resum: Nowadays, In Scene Text Recognition (STR), crooping the words with the correct meaning is still complicated. In this work we will see one of the network that has obtained good results, we will use the BI-STET network that uses CNN and encoder and decoder transformers. We'll see how it Works and try to introduce a new diferent CNN called PHOCNet, unlike BI-STET is designed to work with images with handwritten letters. In this paper we will compare the two CNN mentioned and see their possibilities, advantages and differences.
Resum: En el reconocimiento de texto en escenas, hoy en dia tecortar la palabra con el significado correcto sigue siendo una tarea complicada. En este trabajo veremos una de las redes que ha obtenido buenos resultados. Utilizaremos la red BI-STET que utiliza una CNN i transformers encoder i decoder. Veremos como funciona i intentaremos introducir una CNN diferente llamada PFOCNet, esta a diferencia de la BI-STET esta pensada para trabajar con imagenes de letras escritas a mano. En este trabajo compararemos estas dos CNN comentadas.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Pytorch ; Python ; Xarxes neuronals ; Intel·ligència artificial ; Tensorflow ; Reconeixement de text ; BI-STET ; PHOCNet ; Resnet ; Transformer ; Neuronal Networks ; Machine learning ; Scene Text Recognition ; Redes neuronals ; Intel·ligencia artificial ; Reconocimiento de texto



10 p, 851.6 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2021-07-26, darrera modificació el 2025-07-20



   Favorit i Compartir