tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
| Títol variant: |
Referent de vigilància centrat en vehicles per avaluar la percepció espacial en LLM multimodals |
| Títol variant: |
Referente de vigilancia centrado en vehículos para evaluar la percepción espacial en LLM multimodales |
| Data: |
2025 |
| Resum: |
Aquest treball presenta un conjunt de dades de referència derivat dels vídeos de vigilància terrestre VIRAT per avaluar Grans Models de Llenguatge Multimodals (MLLM). A partir de 12 hores de metratge, s'aïlla un subconjunt centrat en vehicles, tot conservant aquests esdeveniments i generant parelles imatge-pregunta sobre la direcció del moviment, girades i canvis de sentit, amb un total de 1 568 prompts. Diverses configuracions visuals afegeixen o eliminen context temporal, retallades, desenfocament i superposicions de trajectòries. S'avaluen dos MLLM de codi obert amb 2 000 bilions de paràmetres (Qwen2-VL-2B i InternVL-2B) en el conjunt complet. Els humans resolen totes les tasques amb facilitat, mentre que els models presenten dificultats; aquesta anàlisi posa de manifest mancances en tasques bàsiques d'orientació i seqüenciació temporal, característiques crucials per als models de vigilància per vídeo. |
| Resum: |
Este trabajo presenta un conjunto de datos de referencia derivado de los vídeos de vigilancia terrestre VIRAT para evaluar Grandes Modelos de Lenguaje Multimodales (MLLM). A partir de 12 horas de metraje, se aísla un subconjunto centrado en vehículos, conservando dichos eventos y generando pares imagen-pregunta sobre dirección del movimiento, giros y cambios de sentido, con un total de 1 568 prompts. Varias configuraciones visuales añaden o eliminan contexto temporal, recortes, desenfoque y superposiciones de trayectorias. Se evalúan dos MLLM de código abierto con 2 000 billones de parámetros (Qwen2-VL-2B e InternVL-2B) en el conjunto completo. Los humanos resuelven todas las tareas con facilidad, mientras que los modelos presentan dificultades; este análisis pone de manifiesto carencias en tareas básicas de orientación y secuenciación temporal, características cruciales para los modelos de vigilancia por vídeo. |
| Resum: |
This work introduces a benchmark dataset derived from the VIRAT Ground surveillance videos for evaluating Multimodal Large Language Models (MLLMs). From 12h of video footage, a vehicle-centred subset is isolated, keeping such events and creating image-question pairs about motion direction, turning and U-turns, a total of 1, 568 prompts. Multiple visual configurations add or remove temporal context, cropping, blur and trajectory overlays. Two open-source 2B parameter MLLMs (Qwen2-VL-2B, InternVL-2B) are evaluated on the full set. Humans solve all tasks easily, while models had trouble, this analysis shows the deficiencies in basic orientation and temporal sequencing tasks, crutial char- acteristic of video surveillance models. |
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.  |
| Llengua: |
Anglès |
| Titulació: |
Grau en Intel·ligència Artificial [2504392] |
| Pla d'estudis: |
Intel·ligència Artificial [1497] |
| Document: |
Treball final de grau ; Text |
| Matèria: |
Models de llenguatge visual ;
Vigilància per vídeo ;
Reconeixement d'activitat de vehicles ;
Model de llenguatge multimodal ;
Raonament espai-temporal ;
Conjunt de dades de referència ;
VIRAT ;
Modelos de lenguaje visual ;
Vigilancia por vídeo ;
Reconocimiento de actividad de vehículos ;
Modelo de lenguaje multimodal ;
Razonamiento espacio-temporal ;
Conjunto de datos de referencia ;
Visual-Language Models ;
Video-Surveillance ;
Vehicle-Activity Recognition ;
Multimodal Language Model ;
Spatio-Temporal Reasoning ;
Benchmark Dataset |