ISSN: 1139-8736
Depósito Legal: B-35510-2000

1. Introducción

El presente trabajo se enmarca en el campo de investigación de la lexicografía computacional, disciplina que se encarga de la construcción de los denominados lexicones computacionales. Con este término nos referimos a aquellos repositorios de información léxica elaborados con el objeto de servir de soporte representacional a diversas aplicaciones en el ámbito de las tecnologías del lenguaje humano (HLT: Human Language Technologies), así como al trabajo lexicográfico tradicional, es decir, a la elaboración de diccionarios destinados a la consulta por un usuario humano.

La idea básica que subyace al mismo es la de que cualquier tarea relativa al lenguaje natural que se pretenda llevar a cabo con el ánimo de conseguir resultados aceptables habrá de basarse y hacer uso extenso, indefectiblemente, de un lexicón correctamente diseñado, estructurado e implementado, que contenga una gran riqueza de información léxica y que permita un fácil y rápido acceso a dicha información, tanto de forma directa por el usuario en el caso de las aplicaciones lexicográficas, como de forma interna, por una aplicación de traducción automática (TA).

Al mismo tiempo, y dada la enorme cantidad y complejidad de información léxica que dicho lexicón habrá de contener y ser capaz de manipular, nuestra labor consistirá también en encontrar el sistema informático más adecuado para su implementación computacional. Ambas vertientes del trabajo, la descripción del lexicón por una parte, y su correcta implementación por otra, son tratadas con el mismo nivel de profundidad.

En principio, un lexicón computacional es cualquier repositorio de información estructurado y almacenado en soporte magnético. Sin embargo, de la definición que acabamos de aportar se desprende una característica que consideramos fundamental y que definitivamente lo distingue de los diccionarios tradicionales: la multifuncionalidad, es decir, su capacidad para ser aplicado a distintos fines sin que se haga necesario modificar su estructura o contenido. Para conseguir este objetivo, en este trabajo abogaremos por la utilización de técnicas comúnmente empleadas en el campo del modelado de datos y defenderemos una separación entre representación y proceso con el fin de alcanzar el mayor grado posible de independencia de los datos.

Como veremos, esta concepción se aparta de lo que en los últimos años se viene realizando de forma habitual en este ámbito, ya que la ambición por no hacer distinción entre gramática y léxico ha llevado a los implementadores de muchos formalismos gramaticales modernos a trasladar este mismo concepto a los sistemas computacionales correspondientes, de modo que representación y proceso tienden a fusionarse en un mismo programa/base de datos. Sin duda, la evolución de las técnicas de programación ha influido en esta situación, pues ésta es precisamente la tendencia general en los modernos lenguajes orientados al objeto y cuya motivación encontramos en el concepto de encapsulación.

En este sentido, nuestra propuesta puede ser calificada de "tradicional", ya que defendemos la utilización de técnicas computacionales clásicas que mantienen una estricta separación entre representación y proceso. Pensamos que no es necesario proyectar una concepción del léxico determinada sobre una implementación concreta. Es decir, es perfectamente compatible la consideración del lexicón como elemento fundamental y regidor de una gramática y al mismo tiempo mantener una prudente separación entre representación y proceso. Dicha separación es "prudente" porque, al contrario de lo que ocurre con los nuevos sistemas de información, los tradicionales, basados en el concepto que nosotros defendemos, han demostrado su valía durante décadas, contando con unos márgenes de fiabilidad que los modernos tardarán en igualar.

Con esto ya dejamos patente un espíritu eminentemente práctico en cuanto al desarrollo del sistema de información. Sin embargo, no sería éste un trabajo de investigación si no aportásemos más que un informe sobre el sistema implementado y la evidencia de que el mismo funciona. De hecho, nuestro trabajo no es "tradicional" en muchos aspectos.

Como se desprende del título de este trabajo, nuestro ambicioso objetivo es la implementación de un repositorio de información léxica cuya naturaleza multifuncional será demostrada en dos frentes. Por una parte, mediante la creación de un marco de trabajo computacional que permita el trabajo lexicográfico común, enormemente facilitado mediante la utilización de diversas técnicas restrictivas y de interacción con el lexicógrafo. En este terreno sí hemos preferido salvaguardar la integridad de los datos mediante la utilización de técnicas tradicionales. Por otra parte, sin embargo, mostraremos cómo el repositorio de información adquirido de este modo es susceptible de ser empleado por un sistema nada "tradicional" de traducción automática: la TA basada en el conocimiento.

Esta vertiente del trabajo nos permitirá investigar las posibilidades reales de nuestro lexicón en un tipo de sistema que hace uso de las técnicas computacionales más novedosas. En concreto, implementaremos una ontología de conceptos en forma de base de conocimiento. Este repositorio, por no ser de vital importancia para el proyecto en el que el presente trabajo se enmarca y que describimos más adelante, sí nos ha servido como campo de experimentación en el que poner a prueba la aplicación de nuestro lexicón a tareas complejas de procesamiento de lenguaje natural. Esto nos permitirá, además, profundizar en las características representacionales del modelo lexicológico que ha servido de base para la compilación de la información léxica que pretendemos representar.

Por lo que respecta a la demarcación concreta del ámbito del presente trabajo, diremos que, evidentemente, no pretendemos diseñar e implementar un sistema completo de TA. Un trabajo de tal magnitud y complejidad puede ser sólo el resultado de una prolongada labor de equipo con la financiación y medios técnicos apropiados. Nuestra intención es más bien, dentro de nuestras posibilidades, hacer un balance de los enfoques más significativos a la TA y, mediante el diseño de un segmento muy concreto del sistema, el lexicón, ofrecer nuestra visión de lo que debería ser un sistema de TA.

Con el objeto de delimitar aun más nuestro campo, nos concentraremos en la representación más adecuada para los lexemas verbales que, como veremos más adelante en este capítulo introductorio, conforman la base de representación léxica del modelo funcional de análisis léxico que hemos tomado como base para nuestra implementación. Durante nuestra exposición analizaremos la forma en que tal lexicón puede ser explotado por diversas herramientas para producir traducción automática, así como su adecuación al trabajo lexicográfico computacional.

Evidentemente, la mayor dificultad que presenta la creación de un lexicón de este tipo se refiere a la representación del contenido semántico de sus entradas verbales. Por esto, nuestro mayor reto consistirá en dar una respuesta válida en este sentido, aunque, como veremos, una implementación coherente de un lexicón computacional requiere la consideración del sistema de forma global.

La importancia y centralidad del lexicón computacional en las aplicaciones de procesamiento de lenguaje natural (NLP: Natural Language Processing) en general es un hecho admitido por los más relevantes exponentes en el campo de la lingüística y lexicografía computacionales. La lista de referencias en este sentido sería inacabable; baste citar a modo de ejemplo representativo las palabras de la investigadora italiana Nicoletta Calzolari(1994:267) cuando afirma:

It is almost a tautology to affirm that a good computational lexicon is an essential component of any linguistic application within the so-called ‘language industry’, ranging from NLP systems to lexicographic enterprises.

En el mismo sentido se manifiesta Levin (1991:205)

... [the lexicon] has often proved to be a bottleneck in the design of large-scale natural language systems, given the tremendous number of words in the English lexicon, coupled with the constant coinage of new words and shifts in the meaning of existing words.

La importancia e influencia que esta concepción del lexicón ha tenido y tiene en el campo del procesamiento del lenguaje natural será discutida ampliamente en el Capítulo 2, dedicado a este tema casi exclusivamente.

Cuando se habla de "sistemas de NLP" se suele hacer referencia a diversos tipos de sistemas que son capaces de procesar de forma automática o semi-automática expresiones en lenguaje natural, por ejemplo, un interfaz de base de datos o base de conocimiento en lenguaje natural. Las aplicaciones de TA son sin duda donde los avances en NLP se manifiestan en toda su importancia.

En el caso de la traducción automática basada en el conocimiento (KBMT: Knowledge Based Machine Translation), no existe diferencia real entre los conceptos de sistema de NLP y sistema de TA, ya que los mismos recursos de información son susceptibles de ser compartidos por las distintas aplicaciones. Este paradigma es, sin duda alguna, el que pone mayor énfasis en la necesidad de un lexicón altamente estructurado, que permita su utilización en conjunción con otros repositorios de conocimiento con el objeto de crear representaciones independientes de las lenguas origen y meta. Por estas y otras razones que expondremos en sucesivos capítulos, nos decantamos por este novedoso enfoque a la TA, aunque ello suponga la necesidad de construir repositorios de información al margen de los lexicones monolingües propiamente dichos, y cuya implementación ha supuesto un considerable aumento del volumen de trabajo inicialmente contemplado para el presente trabajo.

Esta implementación ha de ser considerada como marginal con respecto a la de los lexicones monolingües, nuestro objetivo fundamental. Esta empresa es por sí misma demasiado vasta para un trabajo de estas características. Ya hemos mencionado que nos hemos concentrado en el lexicón verbal y especialmente en la representación de los rasgos sintácticos y semánticos de las entradas verbales. Sin embargo, hemos querido trazar el bosquejo de lo que podría ser una representación valida de las descripciones fonológicas y morfológicas de los mismos. La elección de esta sección concreta de la implementación del lexicón obedece a criterios prácticos que tienen que ver con el proyecto de investigación en el cual el presente trabajo se enmarca, pero también a nuestra convicción personal de que en este terreno se concentran los mayores problemas del procesamiento del lenguaje natural. Esta idea es compartida por muchos investigadores relevantes en el campo de investigación que nos ocupa:

While the lexicon has been considered the domain of the idiosyncratic, there is much evidence that the relationship between the meaning of verbs and their syntactic behavior is governed by quite general principles, evidence coming from studies in both lexical semantics and syntax.

(Levin 1991: 208) A central concern of linguistic research is the study of the meanings of verbs and the elaboration of a theory of the representation of lexical entries in which the meaning of verbs is properly associated with the syntactic expressions of its arguments.

(Levin 1991: 209)

Efectivamente, creemos que el léxico, lejos de ser dominio exclusivo de lo idiosincrásico en el lenguaje, está dotado de una gran sistematicidad, susceptible de ser estudiada con el objeto de obtener una representación compacta y no redundante. Esta aseveración justifica en parte la metodología que hemos seguido para el estudio del léxico, la cual describiremos más detalladamente tras haber comentado otros aspectos más generales. Por el momento baste decir que si bien es cierto que existen aspectos idiosincrásicos en el léxico de una lengua (sería muy poco realista afirmar lo contrario), no es menos cierto que las lenguas naturales, por ser tales, son idiosincrásicas a todos los niveles, ofreciendo un número mayor o menor de excepciones a casi cualquier regla de cualquier índole, incluso en las relativas a los niveles inferiores del análisis lingüístico: fonología, morfología. Por supuesto, esto no nos lleva a concluir que debamos abandonar toda esperanza de describir estos fenómenos lingüísticos.

También compartimos con Levin la idea de que en numerosas ocasiones el léxico ha demostrado ser un "cuello de botella" en el desarrollo de diversas aplicaciones de NLP. Este problema es bien conocido en el entorno de la lexicografía y lingüística computacionales y ha sido reconocido por otros muchos investigadores relevantes (Pustejovsky 1991; Boguraev & Briscoe 1989). Sin embargo, consideramos que las soluciones ofrecidas hasta ahora al respecto no resultan todo lo efectivas que desearíamos. Nos da la sensación de que en muchas ocasiones la construcción de lexicones para su uso en NLP ha sido realizada un tanto a la ligera, llegando en algunos casos a ser poco más que "apéndices" de las gramáticas, y que de este modo no presentan grandes innovaciones con respecto a concepciones clásicas de más de seis décadas. En otros casos, una enorme cantidad de recursos económicos y humanos han sido puestos al servicio de la creación de lexicones computacionales creados a partir de diccionarios existentes, de los cuales se extrae la información léxica de un modo semi-automático. Aunque tales esfuerzos no dejan de tener un gran valor, pensamos que se hubiesen conseguido resultados mucho más aceptables si dichos esfuerzos se hubiesen orientado de otro modo, es decir, siguiendo una teoría lexicológica más apropiada, ya que en la mayoría de los casos ni siquiera se ha planteado la necesidad de recurrir a una teoría lexicológica. En el Capítulo 2 expondremos algunos de estos proyectos de construcción (semi-) automatizada de lexicones a partir de MRDs (Machine Readable Dictionaries).

No ofreceríamos una visión completa si no dijésemos que en la actualidad, existen algunos proyectos de creación de lexicones computacionales que, con una planificación a largo plazo, responden de forma más realista a las necesidades planteadas. Analizaremos algunos de los proyectos de este tipo más destacados en los capítulos siguientes.

Nuestro trabajo se encuadra, precisamente, en un proyecto de estas características. El Lexicon Research Project fue iniciado por el Profesor Leocadio Martín Mingorance en 1991 con el objeto de crear "una base de datos multifuncional y reutilizable" para los idiomas inglés, español y alemán. Nuestra aportación concreta a este proyecto se materializa en el sistema de información que presentamos en este trabajo. Partiendo del marco teórico de representación léxica que sirve como base al proyecto y que a continuación describiremos brevemente, nuestra implementación computacional ha sufrido numerosas variaciones y modificaciones a lo largo de los cinco años en los que se ha desarrollado el presente trabajo. Es un hecho bien conocido que la ciencia computacional avanza a pasos agigantados, por lo que además hemos tenido que hacer grandes esfuerzos para que nuestro diseño sea adaptable a los sistemas de información y lenguajes de programación modernos.

Nuestros esfuerzos no son más que la consecuencia lógica de nuestro intento de desarrollar un sistema que cumpla los dos requisitos que, con una acertada visión de futuro, fueron expuestos originalmente por el investigador principal del proyecto: la multifuncionalidad y la reutilización. Los términos, "multifuncional" y "reutilizable" han sido utilizados de forma abusiva en la literatura sobre NLP en los últimos años. En capítulos sucesivos veremos cómo estos términos han sido formalmente definidos en el marco de las iniciativas europeas, así como algunos intentos de llevarlos a la práctica, con mayor o menor fortuna. Así mismo, concretaremos nuestra visión de los mismos y veremos el alcance e influencia que han tenido en el diseño conceptual de nuestra base de datos.

Otros dos términos que se han usado en los últimos años con gran profusión son los de "base de datos" y "base de conocimiento". Analizaremos con detalle las convergencias y divergencias que existen entre ambos sistemas de información, ya que de hecho, además de la base de datos léxica contemplada en el proyecto original, en este trabajo proponemos la integración de ésta con una base de conocimiento (ontología), acorde con el enfoque a la traducción automática basada en el conocimiento, que defenderemos a lo largo del trabajo frente a otras técnicas más tradicionales, tales como TA basada en transferencia. La posibilidad de conectar nuestra base de datos léxica con una base de conocimiento es, en sí misma, un claro indicador del éxito en el propósito inicial de reutilización.

Podemos distinguir, por tanto, dos áreas de investigación bien diferenciadas en este trabajo, pero a la vez complementarias: por un lado, el desarrollo de técnicas lexicográficas enfocadas a la construcción de lexicones computacionales de propósito general; por otro, la utilización de tal repositorio de información léxica en una disciplina que tan sólo recientemente ha empezado a hacer uso extensivo de tales recursos: la traducción automática.

De este modo, trataremos de mostrar cómo un lexicón rico, estructurado de forma homogénea, es condición indispensable para solucionar problemas comunes en la TA. Uno de los problemas que presentan mayor dificultad es sin duda alguna la ambigüedad en general, y sobre todo, la ambigüedad léxica.

La ambigüedad surge en el lenguaje natural cuando más de una interpretación es posible para una determinada oración. Tradicionalmente se han venido distinguiendo tres tipos fundamentales: ambigüedad léxica, estructural (sintáctica) y semántica (cf. Hirst 1987):

Ambigüedad léxica: la ambigüedad léxica se da cuando en un lexicón una entrada permite más de una lectura para una palabra (polisemia, homonimia o ambigüedad categorial).
Ambigüedad estructural: ésta ocurre cuando una oración da lugar a más de un análisis sintáctico.
Ambigüedad semántica: ocurre cuando es posible proyectar un análisis sintáctico sobre más de una interpretación semántica.

Nuestro interés se centra en torno a la semántica léxica y en aquellas técnicas orientadas a la resolución de los problemas de ambigüedad que la polisemia léxica plantea. En cualquier caso, resulta muy difícil en la práctica distinguir entre estos tipos de ambigüedad (Pustejovsky 1995), debido a las numerosas interacciones entre los distintos tipos de información que corresponden a los niveles clásicos de análisis lingüístico. A lo largo de este trabajo estudiaremos esta interacción, centrando nuestra atención en aquellas teorías lingüísticas y técnicas de representación que dan cuenta de las regularidades sintáctico-semánticas del léxico. En este sentido, es muy importante resaltar desde el principio que la teoría lexicológica que subyace al proyecto lexicográfico de cuyo soporte informático nos hemos encargado se encuadra dentro de este tipo de teorías.

Una de las principales fuentes de motivación para la realización de este trabajo ha sido la comprobación de cómo sistemas de TA comerciales muestran las mismas deficiencias y errores repetidamente, estando la gran mayoría de ellos motivados por un sistema de representación léxica muy deficiente, carente de toda información léxica que no sea la parte la oración y la traducción en la lengua meta (Corpas Pastor & Moreno Ortiz, en prensa). Es nuestra opinión que tales sistemas se podrían beneficiar enormemente de un lexicón como el que proponemos. Somos conscientes de que la elaboración e implementación de dicho lexicón es una ardua tarea, que conlleva el trabajo de muchos investigadores durante un largo periodo de tiempo, aunque es indudable que a largo plazo los beneficios obtenidos compensan los esfuerzos invertidos en su elaboración.

Con este preciso objetivo, los integrantes del Lexicon Research Centre se han dedicado durante largos años a estudiar el léxico inglés, español y alemán, siguiendo el Modelo Lexemático-Funcional (FLM: Functional-Lexematic Model) postulado por Martín Mingorance en diversas publicaciones (Martín Mingorance 1984, 1985a, 1985b, 1987, 1990, 1995), y desarrollado por varios miembros del grupo en diferentes trabajos de investigación dirigidos por él mismo. La realización de nuestro trabajo no hubiese sido posible sin tales aportaciones. El resultado de estas investigaciones conforma el contenido lexicográfico de nuestra implementación computacional.

Siguiente I Índice capítulo 1 I Índice General