CoDiAJe - the Annotated Diachronic Corpus of Judeo-spanish : Description of a Multi-alphabetic Corpus and its Textual and Linguistic Annotations
Quintana, Aldina (The Hebrew University of Jerusalem)

Títol variant: CoDiAJe - corpus diacrónico anotado del judeoespañol : descripción de un corpus multialfabético y de su anotación textual y lingüística
Data: 2020
Resum: Judeo-Spanish differs from late 15th-century Spanish and modern Spanish in several respects, such as its morphology, syntax, and semantics, but the most visible difference is in the alphabet. From the end of the 19th century, Judeo-Spanish has been written in various alphabets -Greek, Cyrillic, and especially Latin-. However, the Hebrew alphabet had been used since ancient times, before it was abandoned finally only in the 1940s. This means that the majority of Judeo-Spanish texts are written in Hebrew characters. CoDiAJe is an annotated diachronic corpus that includes documents produced from the 16th century up to the present day, developed in TEITOK. The significance of its development is that this tool processes linguistic data in the alphabets mentioned above, allowing users to visualize each text in five orthographic forms (the original version in which it was written, its transcription in Latin characters, an expanded form to complete abbreviations or to correct defective writing, a version in modern Judeo-Spanish, and a version in orthographic modern Spanish). CoDiAJe enables the user to conduct searches not only for a specific word, but also for all its linguistic and orthographic variants in the different alphabets. During the annotation process, tags from the EAGLES tagset for Spanish were modified, and others were created: these are simply steps towards the creation of an accurate tagset for Judeo-Spanish. The digitized texts are also enriched with semantic-conceptual information and information on the affiliation of all non-Romance elements.
Resum: El judeoespañol se diferencia del español de finales del siglo XV y del español moderno en varios aspectos que afectan a la fonética y fonología, morfología, sintaxis y semántica. Sin embargo, la diferencia más fácilmente apreciable está en el alfabeto. A finales del siglo XIX se comenzó a escribir con diferentes alfabetos: griego, cirílico y, sobre todo, latino en diferentes versiones. Sin embargo, desde tiempos remotos se utilizó el alfabeto hebreo, y su abandono definitivo solo ocurrió en la década de los cuarenta del siglo pasado, por lo que la mayor parte de los textos escritos en esta lengua están en caracteres hebreos. CoDiAJe es un corpus diacrónico anotado que incluye documentos creados desde el siglo XVI hasta nuestros días, desarrollado en TEITOK. La importancia de su desarrollo está en que procesa datos lingüísticos en los alfabetos mencionados anteriormente, da al usuario la opción de visualizar cada texto en cinco formas gráficas (la versión original independientemente del alfabeto en el que fue escrita, su transcripción en caracteres latinos, una forma expandida para completar las abreviaturas o corregir la escritura defectuosa, una versión en judeoespañol moderno y una versión en la ortografía del español moderno), y permite realizar búsquedas no solo de una palabra específica sino de todas sus variantes lingüísticas y ortográficas en textos escritos en los diferentes alfabetos. Durante el proceso de anotación se fueron modificando las etiquetas de EAGLES para el español y se crearon algunas nuevas. Significa que, a medida que se van anotando los textos, vamos creando un etiquetador para el judeoespañol. Los textos digitalizados también se enriquecen con información semántico-conceptual e información sobre la filiación de todos los elementos no románicos que se detectan en los textos.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Document: article ; recerca ; publishedVersion
Publicat a: Scriptum digital, Núm. 9 (2020) , p. 209-236 (Articles) , ISSN 2014-640X

Adreça alternativa: https://www.raco.cat/index.php/scriptumdigital/article/view/377295


28 p, 1.6 MB

El registre apareix a les col·leccions:
Articles > Articles publicats > Scriptum digital
Articles > Articles de recerca

 Registre creat el 2020-12-08, darrera modificació el 2020-12-09



   Favorit i Compartir