Recuperación de la Información. Entrevista a Ricardo Baeza-Yates de Yahoo! Investigación

Autora: Mari Carmen Marcos
Citación recomendada: Mari Carmen Marcos. Entrevista a Ricardo Baeza-Yates de Yahoo! Investigación [en linea]. "Hipertext.net", núm. 6, 2008. <http://www.hipertext.net>

Este apartado está formado por entrevistas a expertos en buscadores, posicionamiento y márqueting online realizadas para el Master en Buscadores (Universidad Pompeu Fabra)

Ricardo Baeza-Yates
http://research.yahoo.com/bouncer_user/70

Ricardo Baeza-Yates es el Vicepresidente de Yahoo! Investigación para Europa y Latinoamérica y lidera los laboratorios de Yahoo! Research en Barcelona (España) y Santiago (Chile).

Hasta 2005 fue director del Centro de Investigación de la Web en el Departamento de Ciencias de la Computación de la Escuela de Ingeniería de la Universidad de Chile y catedrático ICREA en el Departamento de Tecnología de la Universitat Pompeu Fabra en Barcelona. Mantiene vínculos con ambas universidades como profesor a jornada parcial.

Sus intereses de investigación incluyen algoritmos y estructuras de datos, recuperación de información, minería de la Web, bases de datos de texto e imágenes, y visualización de software y bases de datos.

¿Qué tienen Google, Yahoo y Live que no tengan los demás buscadores para llevarse entre los tres casi el 100% de las búsquedas?

Aparte de tener buenas respuestas en un tiempo razonable, estos tres buscadores tienen distintos mecanismos para llevar trafico al buscador, ya sea a traves de toolbars, una gran variedad de sitios (Yahoo!) o directamente desde Windows (Live).

Vamos a ser algo indiscretos con esta pregunta... ¿qué tiene Yahoo! que no tengan los demás buscadores?

Hay muchas formas de responder esta pregunta, pero hay dos temas importantes: acceso a información de sitios propios como Yahoo! Respuestas, Flickr, Del.ic.ious, Yahoo! Finance, etc; y elementos técnicos novedosos como Yahoo! Suggest. Aunque los sitios propios son públicos, el hecho de controlarlos nos da mejor acceso a la información.

Que estos tres se lleven (casi) todas las búsquedas no significa que sean perfectos. En su opinión ¿cuál es la asignatura pendiente de los buscadores? ¿Qué mejoras podemos esperar a corto y medio plazo?

El objetivo actual es tratar de entender la intencion tras la búsqueda. Es decir, qué quiere realizar la persona y personalizar su búsqueda a esa tarea. Esto implica predecir la intención y adaptar la interfaz a la tarea completa, por ejemplo, planificar un viaje. Debido a esto comenzarán a aparecer interfaces específicas que entienden la estructura de la consulta y ayudan a facilitar la misma.

¿Es cierto que la actividad de los spiders u otros agentes que hacen búsquedas automáticas en los buscadores es superior a la actividad de usuarios reales?

No, esto en general no es cierto. Incluso si fuera cierto, los buscadores tienen mecanismos para evitar el abuso de agentes de software limiytando el numero de consultas diarias. Finalmente, la respuesta también depende de la definición de spider , pues podría ser cualquier agente automático de software o sólo los agentes de busqueda.

¿Por qué los números que dan Yahoo! y Google son tan diferentes, por ejemplo en cuanto a enlaces entrantes (backlinks)? ¿Son diferencias debidas a que usan dos órdenes de magnitud distintos?

No, las diferencias no son tan grandes. La razón principal es que los algoritmos que usan los spiders son distintos y por ende lo que cada buscador cree que son las mejores páginas es bien distinto. Es como si cada buscador buscara en una Web distinta. Para algunas preguntas la respuesta será mas grande en un buscador y para otras preguntas al revés. Por ejemplo si buscamos la palabra Santiago en Google.com, encontramos casi 100 millones de respuestas. En cambio en Yahoo!.com encontramos más de 180 millones.

¿Son fiables los datos numéricos de resultados que obtenemos en Yahoo! para hacer estudios cibermétricos?

Los datos de número de respuestas son aproximados pues ningún buscador calcula la respuesta completa a una consulta. Por esto no es bueno hacer estudios cibermétricos muy serios con estos números. Si los numeros fueran exactos sería fácil estimar el número de páginas en el índice de un buscador y en general esa es información confidencial a partir de Octubre del 2005 cuando los buscadores dejaron de competir en tamaño considerando que es más importante la calidad de las respuestas.

¿Cree que la web semántica, tal como la planteó Tim Berners-Lee, será realidad algún día? En ese caso ¿qué papel deberán jugar los buscadores en la web semántica?

Espero que sea realidad algún día. Sin embargo el problema actual es más social que tecnológico, pues implica que las personas deben ser consistentes en las metodologías y herramientas de creación de páginas Web, lo que es difícil de asegurar. También todavía no existen los estándares que permitan determinar si un sitio Web tiene información semántica válida o no. Por supuesto que si esto ocurre buscar será mucho más fácil, ya que no habrá que adivinar la semántica, obteniendo resultados mucho mejores.

Google ha anunciado que está experimentando con un nuevo sistema para indexar la Web Invisible lanzando preguntas de forma automática en los formularios ¿qué opina al respecto?

Referencia:

http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html

No conozco la tecnología que se usa así que no puedo opinar con propiedad. En todo caso es posible extraer información de manera sencilla en algunos sitios, mientras que en otros es muy difícil. Sin embargo la pregunta filosófica es la siguiente: ¿tiene sentido generar todas las preguntas posibles a una base de datos (un número exponencial) cuando la mayoría de ellas nunca será hecha por una persona? Yo creo que no.

Aunque todavía de forma muy poco generalizada, algunos buscadores se han atrevido con el clustering como forma de presentación de los resultados. Nos referimos a casos como Clusty , Kartoo o Grokker ¿lo ve viable para los grandes buscadores?

Es viable parcialmente. El problema principal de agrupar documentos no es hacer los grupos, sino poner un nombre adecuado a cada grupo. Si podemos predecir la intención de la consulta esto no es tan relevante. Otra alternativa es aumentar la diversidad de resultados cuando las preguntas son polisémicas y no sólo responder con el siginificado más probable dependiendo de la ubicación y/o idioma del navegador.

Uno de los fenómenos más interesantes de la web es la llamada la Web Social o 2.0, con herramientas que tienen un impacto tan grande como los buscadores en el día a día de los internautas (sobre todo entre los más jóvenes). ¿Qué papel puede llegar a jugar la Web 2.0 en los buscadores? ¿Podrían tener estas herramientas la hegemonía de los primeros puestos en los resultados? ¿Puede representar este hecho una amenaza para sedes web de contenidos comerciales y/o institucionales?

La Web 2.0 aporta la experiencia de la gente a la Web. Esto es muy importante para preguntas subjetivas como la diversidad de gustos y tendencias en la moda o el cine. Para este tipo de temas, si el contenido es bueno, pasaran en forma natural a formar parte de los primeros resultados, pues los algoritmos de jerarquización de páginas usan distintas evidencias para saber qué es lo mas importante para las personas. Esto además genera incentivos para que los sitios Web comerciales tengan mejor contenido, asi que yo creo que es una amenaza bienvenida.

Ricardo, muchas gracias por respondernos.

Universitat Pompeu Fabra. Departament de Comunicació. Grup de Recerca DigiDoc
Campus de la Comunicació. Roc Boronat, 138, despatx 53804. Barcelona 08018
Tels: 93 542 13 11. Correu electrònic: cristofol.rovira@upf.edu
Depòsit Legal B-49106-2002 - ISSN 1695-5498