Generative AI Framework for Creating a Music Dataset with Quantifiable Acoustic and Cognitive Features
Vierge Meseguer, Pol
Cerdà Company, Xim, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona.
Escola d'Enginyeria
| Título variante: |
Sistema de IA generativa per a crear una base de dades musical amb característiques acústiques i cognitives quantificables |
| Título variante: |
Sistema de IA generativa para crear una base de datos musical con características acústicas y cognitivas cuantificables |
| Fecha: |
2025 |
| Resumen: |
Un obstacle important en la recerca de la cognició musical és l'escassetat d'estímuls musicals controlats i desconeguts, essencials per als experiments en els quals la familiaritat de l'oient pot ser un factor determinant. Aquest projecte aborda aquest problema desenvolupant una base de dades de música generada per IA anotada amb característiques acústiques i emocionals. Explorem dos enfocaments: (1) crear un model de difusió latent (LDM) i (2) avaluar cinc models comercials de conversió de text en música mitjançant anàlisis subjectives i objectives. Encara que el nostre LDM no va aconseguir produir àudio utilitzable, va permetre comprendre els reptes arquitectònics dels sistemes generatius moderns. L'estudi comparatiu, en el qual es van combinar els comentaris dels oients i l'anàlisi MIR (Music Information Retrieval), va identificar a Suno com el model òptim, ja que oferia un gran equilibri entre complexitat musical i atractiu per a l'usuari. Aquest projecte estableix un procés de generació de música escalable i estableix les bases per a una base de dades anotada que serveixi de suport a la recerca experimental sobre percepció musical. |
| Resumen: |
Un obstáculo importante en la investigación de la cognición musical es la escasez de estímulos musicales controlados y desconocidos, esenciales para los experimentos en los que la familiaridad del oyente puede ser un factor determinante. Este proyecto aborda este problema desarrollando una base de datos de música generada por IA anotada con características acústicas y emocionales. Exploramos dos enfoques: (1) crear un modelo de difusión latente (LDM) y (2) evaluar cinco modelos comerciales de conversión de texto en música mediante análisis subjetivos y objetivos. Aunque nuestro LDM no consiguió producir audio utilizable, permitió comprender los retos arquitectónicos de los sistemas generativos modernos. El estudio comparativo, en el que se combinaron los comentarios de los oyentes y el análisis MIR (Music Information Retrieval), identificó a Suno como el modelo óptimo, ya que ofrecía un gran equilibrio entre complejidad musical y atractivo para el usuario. Este proyecto establece un proceso de generación de música escalable y sienta las bases para una base de datos anotada que sirva de apoyo a la investigación experimental sobre percepción musical. |
| Resumen: |
A significant challenge in music cognition research is the scarcity of controlled, unfamiliar musical stimuli, which are essential for experiments where listener familiarity can be a confounding variable. This project addresses this issue by developing a dataset of AI-generated music annotated with acoustic and emotional features. We explored two approaches: (1) building a custom Latent Diffusion Model (LDM), and (2) evaluating five commercial text-to-music systems through subjective and objective analysis. Although our LDM failed to produce usable audio, it provided insight into architectural challenges in modern generative systems. The comparative study-combining listener feedback and Music Information Retrieval (MIR) analysis-identified Suno as the optimal model, offering a strong balance between musical complexity and user appeal. This project establishes a scalable music generation pipeline, laying the groundwork for an annotated dataset that supports experimental research in music perception. |
| Derechos: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.  |
| Lengua: |
Anglès |
| Titulación: |
Grau en Intel·ligència Artificial [2504392] |
| Plan de estudios: |
Intel·ligència Artificial [1497] |
| Documento: |
Treball final de grau ; Text |
| Materia: |
IA Generativa ;
Cognició Musical ;
Text a Música ;
Base de Dades Musical ;
Model de Difusió Latent ;
Extracció d'Informació musical ;
Cognición Musical ;
Texto a Música ;
Base de Datos Musical ;
Modelo de Difusión Latente ;
Extracción de Información musical ;
Generative AI ;
Music Cognition ;
Text-to-Music ;
Music Dataset ;
Latent Diffusion Model ;
Music Information Retrieval |
El registro aparece en las colecciones:
Documentos de investigación >
Trabajos de Fin de Grado >
Escuela de Ingeniería. TFG
Registro creado el 2025-07-21, última modificación el 2025-07-23