Análisis de movimientos oculares para tareas de "image captioning"
Garcia Bordils, Sergi
Karatzas, Dimosthenis, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante: Analysis of eye movements for image captioning tasks
Título variante: Anàlisi de moviments oculars per a tasques de "image captioning"
Fecha: 2018-02-13
Resumen: Los numerosos avances en las técnicas de procesamiento automático del lenguaje, juntamente con las técnicas de reconocimiento de objetos, han dado lugar a nuevos algoritmos de captioning (descripciones textuales) de imágenes, logrando resultados sustanciales. Algunos de los avances más recientes han usado modelos de atención inspirados en la visión humana como herramientas de soporte a los algoritmos de captioning, aunque ninguno de ellos ha sido modelado directamente a partir de la visión humana. En este trabajo hemos explorado la relación entre el proceso de inspección visual de una imagen con su descripción textual. Para ello hemos diseñado un experimento en el que realizamos tareas de captioning con voluntarios, capturando el proceso de inspección de las imágenes con un eye tracker. Con los datos extraídos hemos creado una base de datos que pone en correspondencia lo que los sujetos han mirado en una imagen y la descripción que han dado de ella. Para poder comparar lo visto y lo descrito, hemos codificado las fijaciones y los captions de los sujetos en el espacio de embedding Word2vec y hemos realizado una serie de análisis estadísticos en los que hemos estudiado la eficacia de nuestra codificación y de su posible utilidad para crear modelos de atención.
Resumen: The many advances in the automatic language processing field, jointly with the recent object recognition models, have led to the appearance of new image captioning algorithms, achieveing impressive results. Many of the most recent advances have used attention models inspired in the human vision as tools to support the image caption algorithms, although none of them have been modeled directly from the human vision. In this work we have explored the relationship between the process of visually inspecting an image and its textual description. To do this, we have designed an experiment where the volunteers have to perform a series of captioning related tasks, capturing the visual scanpath of the subjects along the process with an eye tracker. With the data extracted we have created a database where we can match the eye fixations of the subjects in one image and the captionings they have provided. To be able to compare the eye fixations and the captionings, we have encoded them in the Word2vec embedding space and performed a series of statistical analysis where we have studied the effectiveness of our encoding and its possible utility to create attention models.
Resumen: Els nombrosos avenços en les tècniques de processament automàtic del llenguatge, juntament amb les tècniques de reconeixement d'objectes, han donat lloc a nous algoritmes de captioning (descripcions textuals) d'imatges, aconseguint resultats substancials. Alguns dels avenços més recents han fet servir models d'atenció inspirats en la visió humana com a eines de suport als algoritmes de captioning, encara que cap d'ells ha estat modelat directament a partir de la visió humana. En aquest treball hem explorat la relació entre el procés d'inspecció visual d'una imatge amb la seva descripció textual. Per a això, hem dissenyat un experiment en el qual vam realitzar tasques de captioning amb voluntaris, capturant el procés d'inspecció de les imatges amb un eye tracker. Amb les dades extretes hem creat una base de dades que posa en correspondència el que els subjectes han mirat en una imatge i la descripció que han donat d'ella. Per poder comparar el vist i el descrit, hem codificat les fixacions i els captions dels subjectes en l'espai d'embedding Word2vec i hem realitzat una sèrie d'anàlisis estadístics en els quals hem estudiat l'eficàcia de la nostra codificació i de la seva possible utilitat per a crear models d'atenció.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Castellà
Titulación: Grau en Enginyeria Informàtica [2502441]
Plan de estudios: Enginyeria Informàtica [958]
Documento: Treball final de grau ; Text
Área temática: Menció Computació
Materia: Captioning d'imatges ; Word embedding ; Eye tracking ; Models d'atenció ; Modelat de llenguatge ; Captioning de imágenes ; Modelos de atención ; Modelado de lenguaje ; Image captioning ; Attention models ; Language modeling



10 p, 1.8 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

 Registro creado el 2018-04-09, última modificación el 2023-07-22



   Favorit i Compartir