Informe final - AI Clip Generator
Fornés Mas, Carles
Torres, Guillermo, 
tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona.
Escola d'Enginyeria
| Data: |
2025 |
| Resum: |
El present projecte desenvolupa una eina basada en intel·ligència artificial per automatitzar la generació de clips curts a partir de vídeos llargs, com ara podcasts o conferències. El sistema és capaç de descarregar el vídeo original, transcriure'n l'àudio, identificar-ne les parts més rellevants mitjançant LLMs, aplicar reenquadrament adaptatiu amb detecció de cares i afegir subtítols personalitzables. El resultat són clips optimitzats per a xarxes socials en format vertical, amb alta qualitat visual i amb criteris definits per l'usuari. L'arquitectura modular i l'ús de paral·lelisme i GPU al núvol permeten una execució eficient i escalable. Els experiments realitzats demostren una millora significativa en el temps de processament i una alta precisió en tasques com la detecció d'idioma i la qualitat del subtitulat. |
| Resum: |
El presente proyecto desarrolla una herramienta basada en inteligencia artificial para automatizar la generación de clips cortos a partir de vídeos largos, como podcasts o conferencias. El sistema es capaz de descargar el vídeo original, transcribir el audio, identificar las partes más relevantes mediante LLMs, aplicar reencuadre adaptativo con detección de rostros y añadir subtítulos personalizables. El resultado son clips optimizados para redes sociales en formato vertical, con alta calidad visual y con criterios definidos por el usuario. La arquitectura modular y el uso de paralelismo y GPU en la nube permiten una ejecución eficiente y escalable. Los experimentos realizados demuestran una mejora significativa en el tiempo de procesamiento y una alta precisión en tareas como la detección de idioma y la calidad del subtitulado. |
| Resum: |
This project presents an AI-based tool designed to automatically generate short-form clips from long-form video content, such as podcasts or conferences. The system handles video download, audio transcription, relevant segment detection using LLMs, face-based adaptive reframing, and custom subtitle insertion. The output consists of high-quality, social-media-optimized clips in vertical format, tailored to the user's content preferences. Built with a modular architecture and supported by parallel processing and GPU acceleration in the cloud, the system achieves scalable and efficient performance. Experimental results show significant improvements in processing time and high accuracy in language detection and subtitle quality. |
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.  |
| Llengua: |
Català |
| Titulació: |
Enginyeria Informàtica [2502441] |
| Pla d'estudis: |
Enginyeria Informàtica [958] |
| Document: |
Treball final de grau ; Text |
| Àrea temàtica: |
Menció Computació |
| Matèria: |
Clips automàtics ;
Edició de vídeo ;
IA generativa ;
Subtítols dinàmics ;
Xarxes socials ;
Clips automáticos ;
Edición de video ;
Subtítulos dinámicos ;
Redes sociales ;
Automatic clips ;
Video editing ;
Generative ai ;
Dynamic subtitles ;
Social media |
El registre apareix a les col·leccions:
Documents de recerca >
Treballs de Fi de Grau >
Escola d'Enginyeria. TFG
Registre creat el 2025-07-17, darrera modificació el 2025-07-26