Fixation-Guided Visual Attention Modelwith Transformers
Lafuente Baeza, Joan
Karatzas, Dimosthenis, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Models d'atenció visual guiada per fixacions amb transformers
Títol variant: Modelos de atención visual guiada por fijaciones con transformers
Data: 2025
Resum: Els models basats en transformers han aconseguit un èxit notable en àmbits com el processament del llenguatge natural i la visió per computador, principalment gràcies al seu mecanisme de "self-attention". Però també presenten inconvenients importants, com ara la necessitat de grans quantitats de dades i els alts costos computacionals. Aquest treball té com a objectiu reduir el cost computacional en el camp de la visió per computador mitjançant la introducció d'un model d'atenció visual inspirat en el sistema visual humà. L'arquitectura proposada, de principi a fi, processa les imatges de manera seqüencial, centrant-se en petites regions (fixacions) predites pel model. A diferència dels mètodes anteriors, introduïm una nova acció de generació de fixacions basada en moviments relatius. Mostrem que aquest mètode permet al model atendre selectivament les regions rellevants de la imatge, reduint els recursos computacionals dedicats a zones no informatives.
Resum: Los modelos basados en transformers han logrado un éxito notable en campos como el Procesamiento del Lenguaje Natural y la Visión por Computador, en gran parte gracias a su mecanismo de "self-attention". Sin embargo, también presentan desventajas significativas, como la necesidad de grandes cantidades de datos y los altos costes computacionales. Este trabajo tiene como objetivo reducir su coste computacional en el ámbito de la Visión por Computador mediante la introducción de un modelo de atención visual inspirado en el sistema visual humano. La arquitectura propuesta, de extremo a extremo, procesa las imágenes de forma secuencial, centrándose en pequeñas regiones (fijaciones) predichas por el modelo. A diferencia de los métodos anteriores, introducimos una nueva acción de generación de fijaciones basada en movimientos relativos. Mostramos que este método permite al modelo atender selectivamente a las regiones relevantes de la imagen, reduciendo los recursos computacionales empleados en áreas no informativas.
Resum: Transformer-based models have achieved remarkable success in fields such as Natural Language Processing and Computer Vision, largely because of their self-attention mechanism. However, they also come with significant drawbacks, including substantial data requirements and high computational costs. This work aims to reduce their computational cost in the Computer Vision domain by introducing a visual attention model inspired by the human visual system. The proposed end-to-end architecture processes images sequentially, focusing on small, model-predicted regions (fixations). In contrast to previous approaches, we introduce a new fixation-generation action based on relative movements. We show that this method enables the model to selectively attend to relevant regions of the image, reducing the computational resources spent in the non-informative areas.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Grau en Intel·ligència Artificial [2504392]
Pla d'estudis: Intel·ligència Artificial [1497]
Document: Treball final de grau ; Text
Matèria: Visió per computador ; Aprenentatge per reforç ; Atenció visual ; Visión por computador ; Aprendizaje por refuerzo ; Atención visual ; Computer Vision ; Reinforcement Learning ; Visual Attention



19 p, 3.9 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2025-07-21, darrera modificació el 2025-07-23



   Favorit i Compartir