Scopus: 0 cites, Google Scholar: cites
The Moderniſa Project : orthographic modernization of Spanish golden age dramas with language models
De la Rosa, Javier (Nasjonalbiblioteket i Norge)
Cuéllar, Álvaro (Universitat Autònoma de Barcelona)
Lehmann, Jörg (Staatsbibliothek zu Berlin)

Títol variant: El proyecto Moderniſa : modernización ortográfica del teatro del Siglo de Oro con modelos de lenguaje
Data: 2024
Resum: The increasing application of computational methods to the literature of the Spanish Golden Age has revealed the necessity of automating the modernization of its texts to facilitate seamless comparison and analysis. This study pioneers the employment of Natural Language Processing (NLP) techniques for the transformation of Spanish Golden Age texts (circa 1590-1680) into modern, normalized Spanish (RAE 2010). The research employs the transformer architecture to train and evaluate models using a corpus of Golden Age dramas. The models show promise in handling tricky typographical marks and context-sensitive words, but also struggle with proper nouns and orthographic variations. Evaluated using different metrics common in the specialized literature, the tool demonstrates potential as a valuable resource for historians, philologists, and digital humanists. Limitations include the specificity of the training corpus and observed inconsistencies in punctuation and spelling even in modernized texts. This research offers a novel, scalable solution to the manual modernization of Golden Age Spanish literature, enabling further computational studies in the field.
Resum: La creciente aplicación de métodos computacionales a la literatura española del Siglo de Oro ha revelado la necesidad de automatizar la modernización de los textos para facilitar su comparación y análisis. Este estudio es el primero en el uso de técnicas del Procesamiento del Lenguaje Natural (PNL) para adaptar los textos del Siglo de Oro (ca. 1590-1680) a un español moderno y normalizado (RAE 2010). La investigación emplea la arquitectura de transformadores para entrenar y evaluar modelos usando un corpus de comedias del Siglo de Oro. Dichos modelos son prometedores a la hora de encargarse de marcas tipográficas complicadas, así como palabras dependientes del contexto, pero se ven comprometidos al tratar los nombres propios y las variaciones ortográficas. Evaluada usando diferentes métricas comunes en la literatura especializada, nuestra herramienta demuestra tener potencial como recurso valioso para historiadores, filólogos y humanistas digitales. Las limitaciones incluyen la especificidad del corpus de entrenamiento y algunas inconsistencias observadas en la puntuación y la ortografía incluso en textos modernizados. Esta investigación ofrece una solución novedosa y escalable a la modernización manual de la literatura del Siglo de Oro, abriendo la puerta a más estudios computacionales en el ámbito de conocimiento.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original. Creative Commons
Llengua: Anglès
Document: Article ; recerca ; Versió publicada
Matèria: Transformers ; Automatic modernization ; Orthography ; Artificial intelligence ; Digital humanities ; Spanish Golden Age ; Transformadores ; Modernización automática ; Ortografía ; Inteligencia artificial ; Humanidades digitales ; Siglo de oro
Publicat a: Anuario Lope de Vega, Vol. 30 (2024) , p. 410-425 (Artículos. Sección miscelánea) , ISSN 2014-8860

Adreça original: https://revistes.uab.cat/anuariolopedevega/article/view/v30-de-la-rosa-cuellar-lehmann
DOI: 10.5565/rev/anuariolopedevega.530


16 p, 272.4 KB

El registre apareix a les col·leccions:
Articles > Articles publicats > Anuario Lope de Vega
Articles > Articles de recerca

 Registre creat el 2024-01-31, darrera modificació el 2024-04-22



   Favorit i Compartir