El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical
Gago Jover, Francisco (College of the Holy Cross (Estats Units d'Amèrica))
Pueyo Mena, Francisco Javier (College of the Holy Cross (Estats Units d'Amèrica))
Títol variant: |
The Old Spanish Textual Archive, design and development of a corpus of medieval texts : lemmatization and pos tagging |
Data: |
2018 |
Resum: |
Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto. |
Resum: |
This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project. |
Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. |
Llengua: |
Castellà |
Document: |
Article ; recerca ; Versió publicada |
Matèria: |
Diseño de corpus electrónicos ;
Anotación de corpus ;
Corpus digitalizado del castellano antiguo ;
Español medieval ;
Electronic corpus design ;
Corpus annotation ;
Digital medieval Spanish corpus ;
Medieval Spanish |
Publicat a: |
Scriptum digital, Núm. 7 (2018) , p. 25-35 (Articles) , ISSN 2014-640X |
Adreça alternativa: https://raco.cat/index.php/scriptumdigital/article/view/343462
Adreça original: https://scriptum.uab.cat/scriptum/scriptum/article/view/v7-gago-pueyo
DOI: 10.5565/rev/scriptum.88
El registre apareix a les col·leccions:
Articles >
Articles publicats >
Scriptum digitalArticles >
Articles de recerca
Registre creat el 2018-12-20, darrera modificació el 2024-02-17