Generació automàtica de diàlegs de còmic
Masip Cabeza, Sergi
Valveny Llobet, Ernest, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Automatic generation of comic dialogues
Títol variant: Generación automática de diálogos de cómics
Data: 2022
Resum: En els últims anys, els models de generació de llenguatge han estat millorant a un ritme accelerat. Aquestes millores han arribat també als models multimodals que treballen amb text i imatges, amb els quals se solen dur a terme tasques de descriure imatges o respondre preguntes sobre elles. En aquest projecte, però, s'han fet servir models d'aquest tipus amb l'objectiu últim de generar diàlegs de còmic. Per a aconseguir-ho, s'ha fet servir la base de dades proporcionada a COMICS. Primer s'ha plantejat la tasca de predir el següent diàleg d'entre un conjunt de candidats (Text cloze) donat un context de 3 panells i avaluar l'eficàcia d'aquests models comparant-los amb els resultats assolits a COMICS. Llavors, s'ha entrenat el millor d'aquests models per a la generació de diàlegs. Els resultats quantitatius mostren que els models de Text cloze superen al model hi-LSTM de COMICS. A més, es proposa un model generatiu en aquesta tasca el qual és capaç de generar següents diàlegs amb una adequació al context limitada, tot i obtenir uns valors baixos a les mètriques i contenir errors induïts per la qualitat de la base de dades.
Resum: Recently, language generation models have improved at an accelerated pace. Along with them, multimodal models that work with text and images have also improved. These models are usually used to perform tasks such as image captioning or visual question answering. However, in this project, we are using these models to generate comic dialogues. To do this, we used the dataset provided in COMICS. First, we proposed predicting the following dialogue from a set of candidates given the 3 previous panels as a context (Text cloze) as the first task and evaluating the effectiveness of these models by comparing them with the results achieved in COMICS. Then, we trained another based on the previous one for generating dialogues. The quantitative results show that the Text cloze models outperform the hi-LSTM model used in COMICS. In addition, we propose a generative model in this task, which is able to generate subsequent dialogues that fit the context to a certain extent, despite obtaining low values in the metrics and containing errors induced by the quality of the text transcriptions.
Resum: En los últimos años, los modelos de generación de lenguaje han mejorado a un ritmo acelerado. Estas mejoras han llegado también a los modelos multimodales que trabajan con texto e imágenes, con los que suelen llevarse a cabo tareas de describir imágenes o responder a preguntas sobre ellas. Sin embargo, en este proyecto se han utilizado modelos de este tipo con el objetivo último de generar diálogos de cómic. Para ello, se ha utilizado la base de datos proporcionada en COMICS. Primero se ha planteado la tarea de predecir el siguiente diálogo a partir de un conjunto de candidatos (Text cloze) dado un contexto de 3 paneles y evaluar la eficacia de estos modelos comparándolos con los resultados alcanzados en COMICS. Entonces, se ha entrenado el mejor de estos modelos para la generación de diálogos. Los resultados cuantitativos muestran que los modelos de Text cloze superan al modelo hi-LSTM de COMICS. Además, se propone un modelo generativo en esta tarea que es capaz de generar siguientes diálogos con una adecuación al contexto limitada, a pesar de obtener unos valores bajos en las métricas y contener errores inducidos por la calidad de la base de datos.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original. Creative Commons
Llengua: Català
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Còmics ; Visual storytelling ; Generació de llenguatge ; Transformer ; T5 ; Vl-t5 ; Cómics ; Generación de lenguaje ; Comics ; Language modeling



15 p, 10.5 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2022-07-21, darrera modificació el 2023-07-22



   Favorit i Compartir