Knowledge-poor approach to constructing word frequency lists, with examples from romance languages
Makagonov, Pavel (Mixteca University of Technology (México))
Gelbukh, Alexander F. (National Polytechnic Institute (México). Center for Computing Research)
Alexandrow, Mikhail (National Polytechnic Institute (México). Center for Computing Research)
Blanco Escoda, Xavier (Universitat Autònoma de Barcelona. Departament de Filologia Francesa i Romànica)

Data: 2004
Resum: Las listas de palabras con sus frecuencias se usan ampliamente en muchos procedimientos de agrupamiento y categorización de textos. Usualmente para la compilación de tales listas se usan las aproximaciones basadas en morfología (como el stemmer de Porter) para unir las palabras con el mismo significado. Desafortunadamente, tales aproximaciones requieren de muchos recursos lingüísticos dependientes de lenguaje cuando se trabaja con datos multilingües y colecciones multitemáticas de documentos. En este artículo se proponen dos procedimientos basados en formulas empíricas de similitud entre palabras. Un simple ajuste de los parámetros de las fórmulas permita su adecuación a diferentes lenguajes europeos. Se demuestra la aplicación de las fórmulas con ejemplos reales del francés, italiano, portugués y español.
Resum: Word frequency lists extracted from documents are widely used in many procedures of text clustering and categorization. Usually for compilation of such lists morphological-based approaches (such as the Porter stemmer) to join the words having the same base meaning are used. However such an approach needs many language-dependent linguistic resources or knowledge when working with multilingual data and multithematic document collections. We suggest two procedures based on empirical formulae of word similarity. Simple adjustment of the parameters of the formulae allows tuning them to different European languages. We demonstrate the application of our formulae on real examples from French, Italian, Portuguese, and Spanish.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original. Creative Commons
Llengua: Anglès
Document: Article ; altres ; Versió publicada
Matèria: Stemming ; Indexación ; Métodos independientes de lenguaje ; Métodos estadísticos ; Indexing ; Language-independent methods ; Statistical methods
Publicat a: Procesamiento del Lenguaje Natural, Núm. 33 (2004) , p. 127-132, ISSN 1135-5948

Adreça alternativa: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3067


6 p, 123.0 KB

El registre apareix a les col·leccions:
Articles > Articles publicats

 Registre creat el 2021-03-24, darrera modificació el 2025-04-07



   Favorit i Compartir