A Vehicle-Centric Surveillance Benchmark for Testing Spatial Perception in Multimodal LLMs
Mendoza Kareaga, Nora
Gonzalez Sabaté, Jordi, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Referent de vigilància centrat en vehicles per avaluar la percepció espacial en LLM multimodals
Títol variant: Referente de vigilancia centrado en vehículos para evaluar la percepción espacial en LLM multimodales
Data: 2025
Resum: Aquest treball presenta un conjunt de dades de referència derivat dels vídeos de vigilància terrestre VIRAT per avaluar Grans Models de Llenguatge Multimodals (MLLM). A partir de 12 hores de metratge, s'aïlla un subconjunt centrat en vehicles, tot conservant aquests esdeveniments i generant parelles imatge-pregunta sobre la direcció del moviment, girades i canvis de sentit, amb un total de 1 568 prompts. Diverses configuracions visuals afegeixen o eliminen context temporal, retallades, desenfocament i superposicions de trajectòries. S'avaluen dos MLLM de codi obert amb 2 000 bilions de paràmetres (Qwen2-VL-2B i InternVL-2B) en el conjunt complet. Els humans resolen totes les tasques amb facilitat, mentre que els models presenten dificultats; aquesta anàlisi posa de manifest mancances en tasques bàsiques d'orientació i seqüenciació temporal, característiques crucials per als models de vigilància per vídeo.
Resum: Este trabajo presenta un conjunto de datos de referencia derivado de los vídeos de vigilancia terrestre VIRAT para evaluar Grandes Modelos de Lenguaje Multimodales (MLLM). A partir de 12 horas de metraje, se aísla un subconjunto centrado en vehículos, conservando dichos eventos y generando pares imagen-pregunta sobre dirección del movimiento, giros y cambios de sentido, con un total de 1 568 prompts. Varias configuraciones visuales añaden o eliminan contexto temporal, recortes, desenfoque y superposiciones de trayectorias. Se evalúan dos MLLM de código abierto con 2 000 billones de parámetros (Qwen2-VL-2B e InternVL-2B) en el conjunto completo. Los humanos resuelven todas las tareas con facilidad, mientras que los modelos presentan dificultades; este análisis pone de manifiesto carencias en tareas básicas de orientación y secuenciación temporal, características cruciales para los modelos de vigilancia por vídeo.
Resum: This work introduces a benchmark dataset derived from the VIRAT Ground surveillance videos for evaluating Multimodal Large Language Models (MLLMs). From 12h of video footage, a vehicle-centred subset is isolated, keeping such events and creating image-question pairs about motion direction, turning and U-turns, a total of 1, 568 prompts. Multiple visual configurations add or remove temporal context, cropping, blur and trajectory overlays. Two open-source 2B parameter MLLMs (Qwen2-VL-2B, InternVL-2B) are evaluated on the full set. Humans solve all tasks easily, while models had trouble, this analysis shows the deficiencies in basic orientation and temporal sequencing tasks, crutial char- acteristic of video surveillance models.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Grau en Intel·ligència Artificial [2504392]
Pla d'estudis: Intel·ligència Artificial [1497]
Document: Treball final de grau ; Text
Matèria: Models de llenguatge visual ; Vigilància per vídeo ; Reconeixement d'activitat de vehicles ; Model de llenguatge multimodal ; Raonament espai-temporal ; Conjunt de dades de referència ; VIRAT ; Modelos de lenguaje visual ; Vigilancia por vídeo ; Reconocimiento de actividad de vehículos ; Modelo de lenguaje multimodal ; Razonamiento espacio-temporal ; Conjunto de datos de referencia ; Visual-Language Models ; Video-Surveillance ; Vehicle-Activity Recognition ; Multimodal Language Model ; Spatio-Temporal Reasoning ; Benchmark Dataset



20 p, 9.2 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2025-07-21, darrera modificació el 2025-07-23



   Favorit i Compartir