Web of Science: 1 cites, Scopus: 4 cites, Google Scholar: cites
La Inteligencia Artificial al rescate del Siglo de Oro : transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales
Cuéllar, Álvaro (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)

Títol variant: Artificial Intelligence to the rescue of the Spanish Golden Age : automatic transcription and modernization of one thousand three hundred theatrical prints and manuscripts
Data: 2023
Descripció: 15 pàg.
Resum: Un elevado porcentaje de impresos y manuscritos teatrales del periodo aurisecular no ha sido nunca transcrito en un formato analógico ni, por supuesto, digital. Es imposible, por tanto, emplear estos documentos para realizar búsquedas de nuestro interés o para los valiosos análisis informáticos (estilometría, topic modelling, detección de sentimientos, etc. ) que se están desarrollando en los últimos años. Gracias a la Inteligencia Artificial (Transkribus) y técnicas de HTR (Handwritten Text Recognition) he entrenado tres modelos, públicos ya para la comunidad investigadora, capaces de transcribir y modernizar ortográficamente estos documentos de forma automática con un alto grado de precisión: alrededor del 97% de acierto en impresos y 91% en manuscritos. A través de estos modelos he podido procesar unas 1. 300 obras teatrales contenidas en impresos y manuscritos procedentes de numerosas bibliotecas, archivos y otras fuentes digitalizadas. Las transcripciones resultantes forman ahora parte del proyecto ETSO, del buscador TEXORO y, además de suponer un avanzado punto de partida para la edición cuidada de los textos, cuentan por sí mismas con la calidad suficiente para ser sometidas a análisis estilométricos, los cuales están arrojando atribuciones autoriales de interés.
Resum: A high percentage of theatrical prints and manuscripts from the aurisecular period have never been transcribed in an analogical or, of course, digital format. It is therefore impossible to use these documents to carry out searches of our interest or for the valuable computer analyses (stylometry, topic modelling, sentiment analysis, etc. ) that have been developed in recent years. Thanks to Artificial Intelligence (Transkribus) and HTR (Handwritten Text Recognition) techniques, I have trained three models, already public for the research community, capable of transcribing and orthographically modernizing these documents automatically with a high degree of precision: around 97% of success in prints and 91% in manuscripts. Through these models I have been able to process some 1,300 theatrical plays contained in prints and manuscripts from numerous libraries, archives, and other digitized sources. The resulting transcripts are now part of the ETSO project, of the TEXORO search engine and, in addition to being an advanced starting point for careful editing of the texts, they themselves have sufficient quality to be subjected to stylometric analysis, which is yielding authorship attributions of interest.
Ajuts: Agencia Estatal de Investigación PID2019-104045GA-C55
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Castellà
Document: Article ; recerca ; Versió publicada
Matèria: Transcripción automática ; Teatro ; Siglo de Oro ; Impresos ; Manuscritos ; Modernización ortográfica ; Automatic transcription ; Spanish Golden Age Theatre ; Prints ; Manuscripts ; Orthographic modernization

DOI: 10.13035/H.2023.11.01.08


15 p, 2.1 MB

El registre apareix a les col·leccions:
Articles > Articles de recerca
Articles > Articles publicats

 Registre creat el 2024-02-16, darrera modificació el 2024-02-26



   Favorit i Compartir