CoSMo : A Multimodal Transformer for Page Stream Segmentation in Comic Books
Serra Ortega, Marc
Karatzas, Dimosthenis, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: CoSMo : Un Transformer Multimodal per a la Segmentació de Flux de Pàgines en Còmics
Títol variant: CoSMo : Un Transformer Multimodal para la Segmentación de Flujo de Páginas en cómics
Data: 2025
Resum: Aquest article presenta CoSMo, un nou transformador multimodal per a la segmentació del flux de pàgines (PSS) en còmics, una tasca crítica per a la comprensió automatitzada del contingut, ja que és una primera etapa necessària per a moltes tasques posteriors com l'anàlisi de personatges, la indexació d'històries o l'enriquiment de metadades. Formalitzem PSS per a aquest medi únic i elaborem un nou conjunt de dades anotades de 20. 800 pàgines. CoSMo, desenvolupat en variants només de visió i multimodals, supera consistentment les línies de base tradicionals i models de visió-llenguatge de propòsit general significativament més grans en F1-Macro, qualitat panòptica i mètriques a nivell de flux. Les nostres troballes destaquen el domini de les característiques visuals per a la macroestructura PSS del còmic, però demostren els beneficis multimodals en la resolució d'ambigüitats desafiants. CoSMo estableix un nou estat de l'art, obrint el camí per a l'anàlisi escalable de còmics.
Resum: Este artículo presenta CoSMo, un novedoso transformador multimodal para la segmentación del flujo de páginas (PSS) en cómics, una tarea crítica para la comprensión automatizada del contenido, ya que es una primera etapa necesaria para muchas tareas posteriores como el análisis de personajes, la indexación de historias o el enriquecimiento de metadatos. Formalizamos PSS para este medio único y curamos un nuevo conjunto de datos anotados de 20. 800 páginas. CoSMo, desarrollado en variantes solo de visión y multimodales, supera consistentemente a las líneas de base tradicionales y a modelos de visión-lenguaje de propósito general significativamente más grandes en F1-Macro, calidad panóptica y métricas a nivel de flujo. Nuestros hallazgos destacan el dominio de las características visuales para la macroestructura PSS del cómic, pero demuestran los beneficios multimodales en la resolución de ambigüedades desafiantes. CoSMo establece un nuevo estado del arte, allanando el camino para el análisis escalable de cómics.
Resum: This paper introduces CoSMo, a novel multimodal Transformer for Page Stream Segmentation (PSS) in comic books, a critical task for automated content understanding, as it is a necessary first stage for many downstream tasks like character analysis, story indexing, or metadata enrichment. We formalize PSS for this unique medium and curate a new 20, 800-page annotated dataset. CoSMo, developed in vision-only and multimodal variants, consistently outperforms traditional baselines and significantly larger general-purpose vision-language models across F1-Macro, Panoptic Quality, and stream-level metrics. Our findings highlight the dominance of visual features for comic PSS macro-structure, yet demonstrate multimodal benefits in resolving challenging ambiguities. CoSMo establishes a new state-of-the-art, paving the way for scalable comic book analysis.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució i la comunicació pública de l'obra, sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Segmentació de Flux de Pàgines ; Còmics / Llibres de Còmic ; Transformador Multimodal ; Aprenentatge Profund ; Anàlisi de Documents ; Visió per Computador ; CoSMo ; Segmentación de Flujo de Páginas ; Cómics / Libros de Cómics ; Aprendizaje Profundo ; Análisis de Documentos ; Visión por Computadora ; Page Stream Segmentation ; Comic Books ; Multimodal Transformer ; Deep Learning ; Document Analysis ; Computer Vision



13 p, 21.9 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2025-07-17, darrera modificació el 2025-07-31



   Favorit i Compartir