Un módulo de desambiguación morfosintáctica para el castellano basado en conocimiento lingüístico
Aguilar, Lourdes (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)
Avilés, Ana Belén (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)
Fontseca, Jordi (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)
De la Mota Gorriz, Carme (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)
Rodríguez Sellés, Yolanda (Universitat Autònoma de Barcelona. Departament de Filologia Espanyola)
Caymes Scutari, Paola Guadalupe (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Balari, Sergio (Universitat Autònoma de Barcelona. Departament de Filologia Catalana)

Data: 2004
Resum: En el presente artículo describimos una herramienta informática de desambiguación morfológica para el español, diseñada para ser integrada en un sistema de corrección gramatical avanzada para el castellano y el catalán basado en la combinación de dos tipos de herramientas, a saber: a) Un analizador morfosintáctico de bajo nivel y b) Un analizador sintáctico/semántico de alto nivel. Actualmente, el proyecto se halla en la fase de desarrollo de las herramientas de bajo nivel que, a medio plazo, deberían ser la base de un módulo de corrección gramatical capaz de capturar errores simples en texto irrestricto. El archivo de reglas contiene 743 reglas sobre ambigüedad morfológica, que en el corpus de desarrollo se aplican un total de 130. 751 veces. El corpus de desarrollo recién etiquetado presenta un grado de ambigüedad del 4'78%, incluyendo aquí cualquier tipo de ambigüedad, tanto de categorías mayores, como de categorías menores. Después del proceso, el grado de ambigüedad se reduce a un 13'86%.
Resum: In this paper we describe a computational tool for morphological disambiguation for the Spanish language, designed to be eventually part of a larger gramar checking system for both Spanish and Catalan. This system is based on two different types of tools, namely, a) a low-level morphological parser, and b) a high-level syntactic-semantic parser. At present, we are developing all low-level tools, which, in the mid term, should constitute the basis for a grammar-checking module capable of capturing simple errors in unrestricted text. The rule file contains some 743 rules for morphological ambiguity, which are applied 130. 751 times over our development corpus. This corpus, once performed the morphological tagging, has a degree of ambiguity of 64'78% including both major and minor category ambiguities. After going through the disambiguation process, remaining ambiguities in the corpus amount to just a 13'86%.
Drets: Tots els drets reservats.
Llengua: Castellà
Document: Article ; Versió publicada
Matèria: Procesamiento del lenguaje natural ; Desambiguación morfológica ; Gramáticas de estados finitos ; Natural language processing ; Morphological disambiguation ; Finite-state grammars
Publicat a: Revista española de lingüística aplicada, Vol. 17-18 (2004) , p. 7-17, ISSN 0213-2028



11 p, 65.6 KB

El registre apareix a les col·leccions:
Articles > Articles publicats

 Registre creat el 2013-12-04, darrera modificació el 2022-11-09



   Favorit i Compartir