Human Eye-Tracking for Driving Explainability in DocVQA
Llopart Enajas, Marta
Barsky, Andrey, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Seguiment ocular per a l'explicabilitat en la conducció en preguntes visuals sobre documents (DocVQA)
Títol variant: Seguimiento ocular para la explicabilidad en la conducción en Preguntas Visuales sobre Documentos (DocVQA)
Data: 2025
Resum: Aquest projecte aborda la manca de transparència en els models de Document Visual Question Answering (DocVQA) comparant l'atenció generada per la intel·ligència artificial amb els processos cognitius humans capturats mitjançant seguiment ocular (eye-tracking). Es van enregistrar dades de la mirada de 30 participants i es van dur a terme experiments d'oclusió causal en un model multimodal per avaluar la seva dependència de la informació observada pels humans. Els experiments van revelar que la informació prioritzada pels humans és tant suficient perquè el model mantingui una precisió del 70, 7 % com necessària per al seu alt rendiment. Aquests resultats posen en relleu una "bretxa d'explicabilitat" crítica, i validen l'ús de dades cognitives humanes com a veritat de base per desenvolupar sistemes d'intel·ligència artificial més transparents i fiables.
Resum: Este proyecto aborda la falta de transparencia en los modelos de Document Visual Question Answering (DocVQA) comparando la atención generada por la inteligencia artificial con los procesos cognitivos humanos capturados mediante seguimiento ocular (eye-tracking). Registramos los datos de mirada de 30 participantes y realizamos experimentos de oclusión causal sobre un modelo multimodal para evaluar su dependencia de la información a la que prestan atención los humanos. Los experimentos revelaron que la información priorizada por los humanos es tanto suficiente para que el modelo mantenga su precisión del 70, 7 % como necesaria para su alto rendimiento. Estos hallazgos ponen de manifiesto una importante "brecha de explicabilidad", validando el uso de datos cognitivos humanos como referencia para el desarrollo de sistemas de inteligencia artificial más transparentes y confiables.
Resum: This project addresses the lack of transparency in Document Visual Question Answering (DocVQA) models by comparing AI-generated attention with human cognitive processes captured via eye-tracking. It was recorded gaze data from 30 participants and performed causal occlusion experiments on a multimodal model to test its reliance on human-attended information. The experiments revealed that information prioritized by humans is both sufficient for the model to maintain its 70. 7% accuracy and necessary for its high performance. These findings expose a critical "explainability gap", validating the use of human cognitive data as a ground truth for developing more transparent and trustworthy AI systems.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria. Creative Commons
Llengua: Anglès
Titulació: Grau en Intel·ligència Artificial [2504392]
Pla d'estudis: Intel·ligència Artificial [1497]
Document: Treball final de grau ; Text
Matèria: Document Visual Question Answering (DocVQA) ; Explainable AI (XAI) ; Human Eye-Tracking ; Attention



12 p, 7.9 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2025-07-21, darrera modificació el 2025-07-23



   Favorit i Compartir