Web of Science: 1 citations, Scopus: 4 citations, Google Scholar: citations
La Inteligencia Artificial al rescate del Siglo de Oro : transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales
Cuéllar, Álvaro (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)

Additional title: Artificial Intelligence to the rescue of the Spanish Golden Age : automatic transcription and modernization of one thousand three hundred theatrical prints and manuscripts
Date: 2023
Description: 15 pàg.
Abstract: Un elevado porcentaje de impresos y manuscritos teatrales del periodo aurisecular no ha sido nunca transcrito en un formato analógico ni, por supuesto, digital. Es imposible, por tanto, emplear estos documentos para realizar búsquedas de nuestro interés o para los valiosos análisis informáticos (estilometría, topic modelling, detección de sentimientos, etc. ) que se están desarrollando en los últimos años. Gracias a la Inteligencia Artificial (Transkribus) y técnicas de HTR (Handwritten Text Recognition) he entrenado tres modelos, públicos ya para la comunidad investigadora, capaces de transcribir y modernizar ortográficamente estos documentos de forma automática con un alto grado de precisión: alrededor del 97% de acierto en impresos y 91% en manuscritos. A través de estos modelos he podido procesar unas 1. 300 obras teatrales contenidas en impresos y manuscritos procedentes de numerosas bibliotecas, archivos y otras fuentes digitalizadas. Las transcripciones resultantes forman ahora parte del proyecto ETSO, del buscador TEXORO y, además de suponer un avanzado punto de partida para la edición cuidada de los textos, cuentan por sí mismas con la calidad suficiente para ser sometidas a análisis estilométricos, los cuales están arrojando atribuciones autoriales de interés.
Abstract: A high percentage of theatrical prints and manuscripts from the aurisecular period have never been transcribed in an analogical or, of course, digital format. It is therefore impossible to use these documents to carry out searches of our interest or for the valuable computer analyses (stylometry, topic modelling, sentiment analysis, etc. ) that have been developed in recent years. Thanks to Artificial Intelligence (Transkribus) and HTR (Handwritten Text Recognition) techniques, I have trained three models, already public for the research community, capable of transcribing and orthographically modernizing these documents automatically with a high degree of precision: around 97% of success in prints and 91% in manuscripts. Through these models I have been able to process some 1,300 theatrical plays contained in prints and manuscripts from numerous libraries, archives, and other digitized sources. The resulting transcripts are now part of the ETSO project, of the TEXORO search engine and, in addition to being an advanced starting point for careful editing of the texts, they themselves have sufficient quality to be subjected to stylometric analysis, which is yielding authorship attributions of interest.
Grants: Agencia Estatal de Investigación PID2019-104045GA-C55
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Castellà
Document: Article ; recerca ; Versió publicada
Subject: Transcripción automática ; Teatro ; Siglo de Oro ; Impresos ; Manuscritos ; Modernización ortográfica ; Automatic transcription ; Spanish Golden Age Theatre ; Prints ; Manuscripts ; Orthographic modernization

DOI: 10.13035/H.2023.11.01.08


15 p, 2.1 MB

The record appears in these collections:
Articles > Research articles
Articles > Published articles

 Record created 2024-02-16, last modified 2024-05-18



   Favorit i Compartir