tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
tut. (Centre de Visió per Computador)
| Títol variant: |
Generación de Símbolos Musicales Manuscritos Condicionada por Contenido mediante arquitectura GAN |
| Data: |
2025 |
| Resum: |
L'Optical Music Recognition (OMR) és un camp amb un greu problema pel que fa a la manca de dades anotades reals. Volem abordar aquest problema intentant generar dades musicals sintètiques que siguin semblants a les partitures musicals reals tant en l'aspecte visual, com en el valor que poden aportar a l'entrenament de models d'aprenentatge profund. Les Generative Adversarial Networks (GAN) s'han aplicat amb èxit en diversos dominis, tanmateix, l'OMR continua sent una àrea amb una exploració limitada en l'àmbit de la generació de dades. I tot i que hi ha hagut alguns estudis que relacionen les GANs amb l'OMR, encara no poden generar imatges realistes però diverses de símbols musicals escrits a mà. En aquest estudi, pretenem avançar en l'estat de l'art de les GANs relacionades amb l'OMR recopilant un conjunt de dades divers i d'alta qualitat de símbols musicals reals escrits a mà, aplicant tècniques d'augment de dades per abordar l'escassetat de dades d'entrenament, dissenyant i entrenant una arquitectura GAN adaptada a la generació de símbols musicals manuscrits sintètics, combinant aquests símbols generats en pentagrames musicals i, finalment, avaluant la qualitat visual i el valor de recerca d'aquests pentagrames completament sintètics. |
| Resum: |
Optical Music Recognition (OMR) es un campo con un grave problema en cuanto a la falta de datos anotados reales. Queremos abordar este problema intentando generar datos musicales sintéticos que sean similares a las partituras musicales reales, tanto en el aspecto visual como en el valor que pueden aportar al entrenamiento de modelos de aprendizaje profundo. Las Generative Adversarial Networks (GAN) se han aplicado con éxito en varios dominios, sin embargo, la OMR sigue siendo un área con una exploración limitada en el ámbito de la generación de datos. Y aunque ha habido algunos estudios que relacionan las GANs con la OMR, todavía no pueden generar imágenes realistas y con variedad de símbolos musicales escritos a mano. En este estudio, pretendemos avanzar en el estado del arte de las GANs relacionadas con la OMR recopilando un conjunto de datos diverso y de alta calidad de símbolos musicales reales escritos a mano, aplicando técnicas de aumento de datos para abordar la escasez de datos de entrenamiento, diseñando y entrenando una arquitectura GAN adaptada a la generación de símbolos musicales manuscritos sintéticos, combinando estos símbolos en pentagramas musicales y, por último, evaluando la calidad visual y el valor investigativo de estos pentagramas completamente sintéticos. |
| Resum: |
Optical Music Recognition (OMR) is a field with a serious problem regarding the lack of real annotated data. We want to address this problem by trying to generate synthetic musical data that is as close in visual resemblance and in training value for deep learning models as real musical scores. Generative Adversarial Networks (GANs) have been successfully applied in various domains, however, OMR still remains an area with limited exploration in the field of data generation. And even though there have been some studies relating GANs with OMR, they are still unable to generate realistic yet diverse images of handwritten musical symbols. In this study, we aim to advance the state of the art on OMR-related GANs by gathering a diverse and high-quality dataset of real handwritten musical symbols, applying data augmentation techniques to address the scarcity of training data, designing and training a GAN architecture tailored to the generation of synthetic handwritten musical symbols, combining these generated symbols into musical staves, and finally, evaluating the visual quality and the research value of these completely synthetic staves. |
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria.  |
| Llengua: |
Anglès |
| Titulació: |
Enginyeria Informàtica [2502441] |
| Pla d'estudis: |
Enginyeria Informàtica [958] |
| Document: |
Treball final de grau ; Text |
| Àrea temàtica: |
Menció Computació |
| Matèria: |
Generative Adversarial Networks ;
Símbols musicals manuscrits ;
Content conditioning ;
Optical Music Recognition ;
Generació de partitures ;
Automated model saving ;
Símbolos musicales manuscritos ;
Generación de partituras ;
Handwritten musical symbols ;
Partiture generation |