Buscadores especializados. Entrevista a José Ramón Pérez Agüera profesor de la UCM

Autora: Mari Carmen Marcos
Citación recomendada: Mari Carmen Marcos. Entrevista a José Ramón Pérez Agüera profesor de la UCM [en linea]. "Hipertext.net", núm. 6, 2008. <http://www.hipertext.net>

Este apartado está formado por entrevistas a expertos en buscadores, posicionamiento y márqueting online realizadas para el Master en Buscadores (Universidad Pompeu Fabra)

José Ramón Pérez Agüera
http://grasia.fdi.ucm.es/jose

José Ramón Pérez Agüera es Profesor Ayudante en el Departamento de Ingeniería del Software e Inteligencia Artificial de la Universidad Complutense de Madrid.

Doctor en Documentación por la Universidad Complutense de Madrid y DEA en Ingeniería Informática por la misma universidad. Ha realizado estancias de investigación en Yahoo! Research Barcelona y en la oficina del W3c del Rutherford-Appleton Laboratory en Oxford.

Ha publicado en varios congresos y revistas internacionales y nacionales sobre temas relacionados con Recuperación de Información y Web Semántica.

Es miembro del consejo asesor de la lista de distribución IWETEL y del grupo de trabajo Thinkepi.

Hola José Ramón, y bienvenido al Máster Online en Buscadores. Comenzamos esta entrevista con una pregunta comparativa ¿qué diferencias hay entre un buscador especializado y un buscador como Google o Yahoo!?

Un buscador especializado debe ser capaz de ofrecer unos resultados al usuario mucho más precisos y relevantes de lo que son capaces de ofrecer Google o Yahoo! ya que el ámbito en el que trabaja es más restringido y por lo tanto lo tienen más fácil que los grandes buscadores generalistas.

En los utlimos años, el auge de los buscadores especializados, también conocidos como buscadores verticales, ha ido en aumento debido a la necesidad de delimitar las áreas de búsqueda.

Una analogía interesante que nos puede ayudar a entender las diferencias sería la siguiente, Google o Yahoo! son a la recuperación de información en la web lo que la wikipedia al conocimiento del mundo, es decir, son útiles cuando buscamos información generalista o cuando necesitamos un rango amplio de cobertura, pero su utilidad se difumina cuanto mayor sea el nivel de especialización del usuario. Es decir, para mi que no soy médico, la wikipedia supone una valiosa fuente de información sobre medicina, pero para un investigador médico se queda muy corta. De la misma forma debemos hacer uso de buscadores especializados cuando necesitamos un grado de relevancia que los grandes buscadores generalistas no son capaces de ofrecer.

En el último módulo del Máster Online en Buscadores hemos visto muchos buscadores especializados. A tu parecer ¿podríamos decir que existen diferentes tipos de buscadores especializados? En ese caso ¿cuáles son?

No existe una tipología definida de buscadores verticales, pero desde mi punto de vista podríamos distinguir dos tipos fundamentales en base a sus caracterísitcas técnicas. Por un lado aquellos que trabajan sobre bases de datos estructuradas, como por ejemplo los buscadores de productos, los de viajes o los de patentes, y aquellos que trabajan sobre información desestructurada, normalmente información textual, por ejemplo buscadores de blogs o buscadores de artículos científicos.

El modo de funcionamiento de estos dos tipos de buscadores es muy distinto. En buscadores de información estructurada el concepto de relevancia apenas tiene importancia, ya que si por ejemplo buscamos un vuelo a París, no nos sirven aquellos que van a Lyon o a Bruselas, por muy cerca que estén estos destinos del nuestro. En este tipo de buscadores, el modelo booleano es más que suficiente para devolver resultados relevantes al usuario, ya que no existen grados de relevancia, sino un enfoque bivaluado, donde sólo son relevantes los vuelos a París, y no son relevantes todos los demás. En función de consultas booleanas más complejas podemos restringir nuestro ámbito de búsqueda a vuelos a París que salgan el 3 de junio del 2008 desde Madrid Barajas.

Por el contrario los buscadores especializados sobre información desestructurada, es decir sobre texto, imágenes, audio o video, necesitan implementar algoritmos que permitan decidir qué documentos son los más adecuados para cubrir la necesidad de información del usuario, dentro de un conjunto de documentos que en base al modelo booleano ya son relevantes para el usuario. En este caso la frecuencia de los términos en el documento, su distribución a los largo de la colección o la longitud de los documentos son factores esenciales que nos ayudarán a tomar una decisión sobre la capacidad de cada documento de cubrir la necesidad de información del usuario.

¿Qué técnicas de recuperación de información se utilizan en los buscadores especializados?¿Son las mismas que aplican otros tipos de buscadores?

Las diferencias a nivel algorítmico entre estos tipos de buscadores son muy importantes, ya que el ámbito y objetivo de ambos es muy distinto. Los buscadores especializados sobre información desestructurada están más cercanos al paradigma clásico de la recuperación de información, donde los algoritmos de tipo estadístico/probabilístico como TF-IDF ó BM25 suponen el nucleo central del sistema de recuperación, en detrimento de algoritmos basados en popularidad como Pagerank o HITS los cuales sólo son útiles cuando trabajamos con un gran volumen de documentos hipertextuales.

Por otra lado, aquellos buscadores que sólo trabajan sobre información estructurada utilizan normalmente consultas SQL a bases de datos, prescidiendo de enfoques estadísitcos típicos de la recuperación de documentos.

¿Cuáles son las principales tendencias en buscadores especializados en la actualidad?

Las tendencias principales que yo he podido observar son la utilización cada vez más intensiva de técnicas relacionadas con el Procesamiento de Lenguaje Natural y la Web Semántica. Aunque está probado que estas técnicas no son útiles en sistemas de recuperación de propósito general, sí parace posible representar de forma más o menos precisa conjuntos de documentos orientados a un dominio concreto de forma que se minimice el grado de ambigüedad semántica y podamos optimizar la capa booleana de los motores de búsqueda de propósito restringido.

Otra de las principales tendencias es el uso cada vez más extendido de soluciones de búsqueda open source como base para la implementación de este tipo de buscadores, especialmente Lucene http://lucene.apache.org/java/docs/index.html lo cual indica que parece ser más importante la adaptación del buscador a las caracterísitcas concretas del dominio al que se dedica, que la tecnología de búsqueda en sí.

¿Qué papel juega la Web Semántica en los buscadores especializados?

Desde mi punto de vsta, la Web Semántica constituye una importante base organizativa y consensuada para la definición de esquemas de conocimiento en dominios concretos. Esto implica que la utopía de una Web Semántica está muy lejos de la realidad, pero que sin embargo en áreas concretas de conocimiento este concepto puede ser muy útil.

El paradigma de Web Semántica tiene poca utilidad para buscadores generalistas como Google o Yahoo! ya que modelar y consensuar todo el conocimiento humano en base a una o varias ontologías es absolutamente imposible. Sin embargo, para buscadores especializados, donde el dominio es más restringido, alcanzar un consenso no es tan complicado de forma que en estos casos herramientas como las ontologías y los razonadores si pueden ayudar a disminuir el grado de ambigüedad de los procesos de recuperación.

Pese a esto, no debemos olvidar que el uso de información de carácter lingüístico como la que proporciona una ontología, en combinación con los algoritmos estadísticos clásicos, suponen un problema teórico en Recuperación de Información que aún está por resolver, ya que hipótesis como el principio de independencia entre términos -imperante en practicamente todas las funciones de ranking- chocan frontalmente con la idea de que dos palabras en una misma consulta puedan tener algún tipo de relación semántica o de otro tipo.

Teniendo en cuenta las limitaciones mencionadas, existen varios ensayos y aplicaciones reales que utilizan el paradigma de la Web Semántica en recuperación de información con cierto éxito. Los ejemplos más interesantes son el buscador Hakia http://www.hakia.com o los productos de empresas como ISOCO http://www.isoco.com o la empresa francesa ARISEM http://www.arisem.com , propiedad del grupo Thales http://www.thalesgroup.com/.

¿Qué papel juega el Procesamiento de Lenguaje Natural en los buscadores especializados?

Procesamiento de Lenguaje Natural PLN y Web Semántica, como ya hemos visto antes, juegan un papel clave en el desarrollo de este tipo de sistemas. La utilidad principal reside en la disminución de la ambigüedad de forma que podamos aumentar el grado de precisión de nuestra respuesta.

Durante muchos años se han intentado utilizar técnicas de procesamiento de lenguaje natural en Recuperación de Información, normalmente sin éxito debido a la propia naturaleza estadistica de los algorimtos de búsqueda. Herramientas como Wordnet http://wordnet.princeton.edu/ han demostrado una y otra vez que no están diseñadas para modelizar el proceso de recuperación de información aunque éste utilice consultas en lenguaje natural, ya que el grado de ambigüedad no es resoluble mediante técnicas lingüísitcas.

Ahora bien, de la misma forma que en entornos restringidos la definición de redes de conceptos u ontologías sí es posible y puede tener cierta utilidad, la aplicación de cierto grado de procesamiento lingüístico en entornos controlados, como son las colecciones de documentos orientadas a dominio, también puede ser de utilidad.

Un ejemplo interesante es el reconocimiento de entidades nombradas, donde se aplican técnicas lingüísticas para identificar nombres de personas, lugares, acrónimos, instituciones etc. Toda esta información puede ser utilizada en la capa booleana de los buscadores de forma que los algoritmos de caracter estadístico se ejecuten únicamente sobre un subconjunto de documentos que cumplen una serie de restricciones que van más allá de la mera presencia o ausencia de una serie de palabras clave.

Realmente se trata de una especie de sobreadaptación de los algoritmos a un entorno concreto, únicamente posible cuando trabajamos sobre un dominio muy restringido y sin aplicación en sistemas de recuperación más heterogéneos donde todo este tipo de técnicas deterioran seriamente los procesos de recuperación.

¿Qué requisitos debe cumplir un buen buscador especializado?

En mi opinión, un buscador especializado debe ofrecer resultados mucho más relevantes que los que pueda ofrecer un buscador generalista. O lo que es lo mismo, para qué buscar en Technorati (http://www.technorati.com) si podemos encontrar lo mismo en Google.

Para conseguir este grado de relevancia un buscador especializado debe implementar una función de ranking muy precisa cuyos parámetros estén ajustados al máximo para la colección que estamos manejando.

Por otro lado deberemos eliminar el ruido específico de nuestra colección, por ejemplo eliminando palabras vacías específicas de nuestro dominio. Pongamos un ejemplo de esto. Si tenemos un buscador de informática, palabras como “informática” u “ordenador” serán tan frecuentes en nuestra colección de documentos que su valor como discriminantes de documentos relevantes será muy pequeño, de forma que podremos eliminarlas en tiempo de indexación o forzar a que se recuperen unicamente cuando aparecen junto a otra palabra contenida en la consulta del usuario, donde cuyo valor como discriminante será mucho mayor.

Otra característica interesante que deben cumplir este tipo de buscadores es la implementación de operadores booleanos OR por defecto, a diferencia de los buscadores Web que implementan el operador AND.

Por último, los buscadores especializados deben tener un ritmo de actualización mayor que el de un buscador generalista, de forma que el componente de novedad en los resultados sea mayor que el de los grandes buscadores.

Para terminar esta entrevista, queremos pedirle que nos oriente en cuanto a fuentes de información para consultar. Los recursos donde aprender sobre buscadores especializados no son tan numerosos, o al menos tan conocidos como los que hay para estar al día sobre buscadores generalistas. ¿Qué sitios web nos recomendarías?

Esta es la pregunta más dificil de todas. En mi opinión existen una serie de herramientas, tanto de software libre como de carácter empresarial, que nos pueden indicar cuales son las caracterísitcas más importantes de este tipo de sistemas:

Omnifind http://omnifind.ibm.yahoo.net/

Lucene http://lucene.apache.org/java/docs/index.html

Solr http://lucene.apache.org/solr/

FAST http://www.fastsearch.com/

José Ramón, muchas gracias por respondernos.

Universitat Pompeu Fabra. Departament de Comunicació. Grup de Recerca DigiDoc
Campus de la Comunicació. Roc Boronat, 138, despatx 53804. Barcelona 08018
Tels: 93 542 13 11. Correu electrònic: cristofol.rovira@upf.edu
Depòsit Legal B-49106-2002 - ISSN 1695-5498