Planificación global para sistemas de conducción autónoma utilizando LLMs

Plana Joya, Andreu

Cita bibliográfica -- Enlace permanente: https://ddd.uab.cat/record/326560

Planificación global para sistemas de conducción autónoma utilizando LLMs
Plana Joya, Andreu
Villalonga, Gabriel tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante:	Global planning for autonomous driving systems using LLMs
Título variante:	Planificació global per a sistemes de conducció autònoma utilitzant LLMs
Fecha:	2026
Resumen:	Los recientes avances en visión artificial han impulsado notablemente el desarrollo de sistemas de conducción autónoma basados en sensores de percepción. Aunque estos sistemas interpretan con precisión el entorno inmediato, su capacidad de planificar globalmente -como decidir la acción adecuada para alcanzar un destino concreto en intersecciones o glorietas- sigue siendo limitada y poco escalable. Este trabajo investiga la capacidad de los modelos de lenguaje a gran escala (LLMs) con capacidades visuales (VLMs) para abordar tareas de planificación global en conducción autónoma, analizando cómo diferentes estrategias de adaptación influyen en su rendimiento. Se evalúa el impacto de fine-tuning mediante DoRA, así como la efectividad de técnicas de ingeniería de prompts, como Chain-of-Thought y Few-Shot Learning, en la toma de decisiones en escenarios realistas generados sintéticamente por el simulador CARLA. Los resultados demuestran que, mientras que las estrategias de ingeniería de prompts son ineficaces, la adaptación de pesos mediante fine-tuning permite a estos modelos obtener rendimientos sobresalientes.
Resumen:	Recent advances in computer vision have notably driven the development of autonomous driving systems based on perception sensors. Although these systems accurately interpret the immediate environment, their ability to plan globally-such as deciding the appropriate action to reach a specific destination at intersections or roundabouts-remains limited and poorly scalable. This work investigates the capability of Large Language Models (LLMs) with visual capabilities (VLMs) to address global planning tasks in autonomous driving, analyzing how different adaptation strategies influence their performance. The impact of fine-tuning via DoRA is evaluated, as well as the effectiveness of prompt engineering techniques, such as Chain-of-Thought and Few-Shot Learning, in decision-making within realistic scenarios synthetically generated by the CARLA simulator. The results demonstrate that, while prompt engineering strategies are ineffective, weight adaptation through fine-tuning enables these models to achieve outstanding performance.
Resumen:	Els recents avenços en visió artificial han impulsat notablement el desenvolupament de sistemes de conducció autònoma basats en sensors de percepció. Tot i que aquests sistemes interpreten amb precisió l'entorn immediat, la seva capacitat de planificar globalment -com ara decidir l'acció adequada per arribar a una destinació concreta en interseccions o rotondes- continua sent limitada i poc escalable. Aquest treball investiga la capacitat dels models de llenguatge a gran escala (LLMs) amb capacitats visuals (VLMs) per abordar tasques de planificació global en conducció autònoma, analitzant com diferents estratègies d'adaptació influeixen en el seu rendiment. S'avalua l'impacte del fine-tuning mitjançant DoRA, així com l'efectivitat de tècniques d'enginyeria de prompts, com Chain-of-Thought i Few-Shot Learning, en la presa de decisions en escenaris realistes generats sintèticament pel simulador CARLA. Els resultats demostren que, mentre que les estratègies d'enginyeria de prompts són ineficaces, l'adaptació de pesos mitjançant fine-tuning permet a aquests models obtenir rendiments excel·lents.
Derechos:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.
Lengua:	Castellà
Titulación:	Enginyeria Informàtica [2502441]
Plan de estudios:	Enginyeria Informàtica [958]
Documento:	Treball final de grau
Área temática:	Menció Computació
Materia:	Conducció autònoma ; LLM ; VLM ; Visual Instruction Tuning ; In-Context Learning ; Raonament multimodal ; CARLA ; Enginyeria de prompts ; Few-Shot Learning ; Chain-of-Thought ; Autonomous driving ; Multimodal reasoning ; Prompt engineering ; Conducción autónoma ; Razonamiento multimodal ; Ingeniería de prompts ; Few-Shot learning

14 p, 7.0 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

Registro creado el 2026-03-05, última modificación el 2026-03-22

Registros similares

Añadir a la cesta personal
Exportar como Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4