Aprofitant models fundacionals per a la Conducció Autònoma
Meca Moñino, Oscar
Serrat, Joan tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona.
Escola d'Enginyeria
| Títol variant: |
Taking advantage of foundational models for Autonomous Driving |
| Títol variant: |
Aprovechando modelos fundacionales para la Conducción Autónoma |
| Data: |
2026 |
| Resum: |
La conducció autònoma end-to-end ha guanyat rellevància per la seva simplicitat estructural, tot i que sovint presenta limitacions en la generalització davant entorns variats. Aquest projecte explora la integració de models fundacionals (Foundational Models), concretament Theia i Vision Transformers (ViT), dins de l'arquitectura de conducció CIL++ per millorar la percepció visual del vehicle. S'ha desenvolupat un sistema modular que permet intercanviar el backbone perceptiu i s'han avaluat diverses estratègies d'aprenentatge: entrenament complet, backbones congelats i tècniques de regularització de representacions. Mitjançant experiments al simulador CARLA, es compara el rendiment de les xarxes convolucionals tradicionals (ResNet) amb les representacions semàntiques riques dels models fundacionals. Els resultats obtinguts validen la viabilitat de la integració i estableixen les bases per a sistemes de control més robustos i adaptables. |
| Resum: |
End-to-end autonomous driving has gained relevance due to its structural simplicity, although it often faces generalization challenges in diverse environments. This project explores the integration of Foundation Models, specifically Theia and Vision Transformers (ViT), into the CIL++ driving architecture to enhance the vehicle's visual perception. A modular system has been developed to allow swapping the perceptual backbone, and several learning strategies have been evaluated: full end-to-end training, frozen backbones, and representation regularization techniques. Through experiments in the CARLA simulator, the performance of traditional convolutional networks (ResNet) is compared against the rich semantic representations of foundation models. The results validate the feasibility of this integration and establish a foundation for more robust and adaptable autonomous control systems. |
| Resum: |
La conducción autónoma end-to-end ha ganado relevancia por su simplicidad estructural, aunque a menudo presenta limitaciones en la generalización frente a entornos variados. Este proyecto explora la integración de modelos fundacionales (Foundational Models), concretamente Theia y Vision Transformers (ViT), dentro de la arquitectura de conducción CIL++ para mejorar la percepción visual del vehículo. Se ha desarrollado un sistema modular que permite intercambiar el backbone perceptivo y se han evaluado diversas estrategias de aprendizaje: entrenamiento completo, backbones congelados y técnicas de regularización de representaciones. Mediante experimentos en el simulador CARLA, se compara el rendimiento de las redes convolucionales tradicionales (ResNet) con las representaciones semánticas ricas de los modelos fundacionales. Los resultados obtenidos validan la viabilidad de la integración y sientan las bases para sistemas de control más robustos y adaptables. |
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.  |
| Llengua: |
Català |
| Titulació: |
Enginyeria Informàtica [2502441] |
| Pla d'estudis: |
Enginyeria Informàtica [958] |
| Document: |
Treball final de grau |
| Àrea temàtica: |
Menció Computació |
| Matèria: |
Conducció autònoma ;
Models fundacionals ;
End-to-end ;
Aprenentatge per imitació ;
Backbone ;
CIL++ ;
Vision Transformers ;
Bench2Drive ;
CARLA ;
Autonomous driving ;
Foundation models ;
Imitation learning ;
Conducción autónoma ;
Modelos fundacionales ;
Aprendizaje por imitación |
El registre apareix a les col·leccions:
Documents de recerca >
Treballs de Fi de Grau >
Escola d'Enginyeria. TFG
Registre creat el 2026-03-09, darrera modificació el 2026-03-22