| Título variante: |
Process automation for the development of historic corpus : a proposal from CHARTA and EGPA |
| Título variante: |
Automatització de processos en el desenvolupament de corpus històrics : una proposta des de les xarxes XARTA i EGPA |
| Título variante: |
Automatização de processos no desenvolvimento de corpora históricos : uma proposta das redes CHARTA e EGPA |
| Fecha: |
2025 |
| Resumen: |
En la creación y el desarrollo de corpus, algunas tareas pueden ejecutarse parcialmente de manera automática. La primera de ellas, en el caso de los corpus de textos manuscritos, es la propia transcripción de los testimonios. Del mismo modo, pueden automatizarse procesos como la conversión de los textos a XML, su normalización o su anotación. En este trabajo presentamos los desarrollos acometidos para automatizar algunas de estas tareas en los corpus que emplean los criterios de la Red CHARTA (Corpus hispánico y americano en la red: textos antiguos), en particular el Escritorio Galego-Portugués Antigo (EGPA), sometiéndolos a análisis y evaluando su mayor o menor grado de efectividad. |
| Resumen: |
En la creació i el desenvolupament de corpus, algunes tasques es poden executar parcialment de manera automàtica. La primera, en el cas dels corpus de textos manuscrits, és la pròpia transcripció dels testimonis. De la mateixa manera, es poden automatitzar processos com la conversió dels textos a XML, la seva normalització o la seva anotació. En aquest treball presentem els desenvolupaments empresos per automatitzar algunes d'aquestes tasques en els corpus que utilitzen els criteris de la Xarxa CHARTA (Corpus hispànic i americà a la xarxa: textos antics), en particular l'Escriptori Gallec-Portuguès Antic (EGPA), sotmetent-los a anàlisi i avaluant-ne l'efectivitat més gran o més petita. |
| Resumen: |
Some tasks in corpus creation and development can be performed automatically. The first such task, in the case of corpora of handwritten texts, is the actual transcription of the testimony. In the same way, processes such as the conversion of texts into XML, their normalisation or their annotation can be automated. The aim of this paper is, firstly, to present the developments that have been made to automate these tasks in the corpora that follow the CHARTA (Corpus hispánico y americano en la red: textos antiguos) network criteria -in particular, the Escritorio Galego-Portugués Antigo (EGPA)-, and, secondly, to analyse these processes and evaluate their effectiveness to a greater or lesser extent. |
| Resumen: |
Na criação e desenvolvimento de corpora, algumas tarefas podem ser parcialmente automatizadas. A primeira delas, no caso de corpora de textos manuscritos, é a transcrição dos próprios textos. Da mesma forma, processos como a conversão de textos para XML, a normalização e a anotação podem ser automatizados. Neste artigo, apresentamos os desenvolvimentos realizados para automatizar algumas destas tarefas em corpora que utilizam os critérios da Rede CHARTA (Corpus Hispânico e Americano na Web: Textos Antigos), em particular o Arquivo Galiciano-Português Antigo (EGPA), submetendo-os a análise e avaliando o seu grau de eficácia. |
| Ayudas: |
Agencia Estatal de Investigación PID2021-126557NB-I00 Agencia Estatal de Investigación RED2024-154111-T Agencia Estatal de Investigación PRE2022-105550
|
| Nota: |
Altres ajuts: HERES: patrimonio textual panibérico. Recuperación y memoria» (CM/2018-T1/HUM-10230 ; CM/2022-5A/HUM-24226) |
| Derechos: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.  |
| Lengua: |
Castellà |
| Documento: |
Article ; recerca ; Versió publicada |
| Materia: |
Edición digital ;
Anotación de corpus ;
Lingüística de corpus ;
Interoperabilidad ;
Datos abiertos ;
Digital edition ;
Corpus annotation ;
Corpus linguistic ;
Interoperability ;
Open data ;
Edició digital ;
Anotació de corpus ;
Interoperabilitat ;
Dades obertes ;
Edição digital ;
Anotação de corpus ;
Linguística de corpus ;
Interoperabilidade ;
Dados abertos |
| Publicado en: |
Scriptum digital, Vol. 14 (2025) , p. 7-36 (Artículos) , ISSN 2014-640X |