Experimentar con los elementos más importantes de Google Lens
Sanchez Gonzalez, David
Antens, Coen Jacobus, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Experimenting with the most importart elements of Google Lens
Títol variant: Experimentar amb els elements més importants de Google Lens
Data: 2021
Resum: Este proyecto se centrará en investigar sobre los elementos que hacen posible el funcionamiento de Google Lens. Dividiendo el contenido en tres apartados principales, como son la detección, extracción y traducción de texto. Haciendo una investigación para escoger al menos dos de los algoritmos o redes neuronales más adecuados para cada tarea, explicando brevemente el funcionamiento de los mismos. También se escogen un conjunto de datasets de imágenes especialmente pensado para escenas de detección de texto. Tres de ellos serán datasets públicos mencionados en artı́culos cientı́ficos similares, además de generar uno propio que contará con imágenes que diremos exteriores e interiores. Exteriores son principalmente carteles de restauran- tes, bares, tiendas y otros establecimientos y señalizado públicos. Mientras que las interiores serán imágenes que se pueden encontrar dentro de estos establecimientos, como menús de restaurantes, libros en una librerı́a u otros objetos que se puedan encontrar incluso dentro de casa que contengan texto. Estos datasets serán utilizados para comparar los algoritmos escogidos anteriormente y determinar cuál de ellos es el más adecuado para cada tarea.
Resum: This project will be focused around investigating the elements that make possible Google Lens. It will be divided in three main areas, text detection, extraction and translation. Researching to pick at least two algorithms or neural networks most adequate for each task, giving a brief explanation of each of them. There'll also be image datasets selected especially for text detection. Three of them will be public datasets previously mentioned in various scientific articles, in addition to those three, a fourth one will be made with my own images, both outdoors and indoors. To clarify, outdoors are, like the name specifies, images taken outside, consisting of images with different signs, like those of a restaurant, bar, other establishments and public road signs. Indoors are referring to images you can find inside those establishments, like a menu inside a restaurant, books on a library or other objects that contain text that can be found inside a house. These datasets will later be used to test and compare the selected algorithms and compare results between them to determine which of them provides better results.
Resum: Aquest projecte se centrarà a investigar sobre els elements que fan possible el funcionament de Google Lens. Dividint el contingut en tres apartats principals, com són la detecció, extracció i traducció de text. Fent una recerca per a triar almenys dos dels algorismes o xarxes neuronals més adequats per a cada tasca, explicant breument el funcionament d'aquests. També es trien un conjunt de datasets d'imatges especialment seleccionat per a escenes de detecció de text. Tres d'ells seran datasets públics esmentats en articles científics similars, a més de generar un propi que comptarà amb imatges d'exteriors i interiors. Exteriors són principalment cartells de restaurants, bars, botigues i altres establiments i senyalitzat públics. Mentre que les interiors seran imatges que es poden trobar dins d'aquests establiments, com a menús de restaurants, llibres en una llibreria o altres objectes que es puguin trobar fins i tot dins de casa que continguin text. Aquests datasets seran utilitzats per a comparar els algorismes triats anteriorment i determinar quin d'ells és el més adequat per a cada tasca.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Castellà
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Google Lens ; OCR ; Tesseract ; Keras ; EAST Detector ; DeepL ; GPT-3 ; OpenAI ; MSER ; Detecció de text ; Detección de texto ; Text detection



11 p, 615.2 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2022-04-06, darrera modificació el 2023-07-22



   Favorit i Compartir