congreso OJObuscador 2006 :: Entrevistas
Congreso OJObuscador 2006
Entrevista a Julio Gonzalo
Julio tiene un perfil académico y de investigación y forma parte de un grupo de la UNED dedicado a la investigación en sistemas de búsqueda y al descubrimiento de información en textos. Es doctor en Ingeniería Informática por la Universidad Autónoma de Madrid y Licenciado en Ciencias Físicas por la Universidad Complutense de Madrid. Algunas de sus actividades más recientes son:
- Presidente del comité de programa de la European Conference on Digital Libraries 2006
- Co-organizador del Cross-Language Evaluation Forum, una competición científica de sistemas de búsqueda multilingües.
- Pertenece al comité de programa del congreso mundial de Information Retrieval más relevante del área, el ACM SIGIR, desde 2002.
- Es director de un curso de verano de la UNED sobre "Posicionamiento en Internet de contenidos culturales, científicos y educativos", que se ha impartido en 2005 y tendrá una nueva edición en 2006.
1. Julio, qué queda en limpio de un congreso de ACM SIGIR cuando luego las ideas presentadas se registran como patentes para hacer negocios millonarios?
Los resultados que se presentan en el ACM SIGIR y otros congresos científicos no suelen ser objeto de patentes "instantáneas"; en ese caso, no se presentarían con todo lujo de detalles a la comunidad investigadora antes de su explotación. Suelen ser trabajos hechos con espíritu académico, y en ese espíritu se incluye el afán de compartir conocimiento.
De vez en cuando, una idea presentada en ámbitos científicos puede llegar a tener un gran impacto en el mundo real. En el caso de Brin y Page y su Pagerank, efectivamente se presentó en congresos [1], y con posterioridad ha sido adoptado por todos los principales motores de búsqueda en la red. Seguramente, además, han aprovechado los análisis y mejoras propuestas por otros investigadores sobre Pagerank para mejorar el rendimiento de Google (aunque ya no nos lo cuentan para no dar pistas a los spammers).
2. Mucha gente dice que dentro de unos años ya no buscaremos, sino que la información nos buscará a nosotros. Puedes imaginar un ejemplo que ayude por ejemplo a tu hijo a desarrollarse como ciudadano?
Personalmente me disgusta esa idea de que la información nos busque a nosotros; de hecho, me parece una posible definición de spam: los correos electrónicos no deseados o las llamadas telefónicas de agentes comerciales es información que nos busca a nosotros sin esperar a que declaremos necesitarla. Respecto al filtrado automático de información por perfiles de usuario, también me genera dudas: en general, la información que más nos aporta es la que está fuera del ámbito en que somos expertos, porque es la que amplia nuestros horizontes. Y esa información tiende a desaparecer si pasamos a ser meros consumidores de contenidos que se ajustan a nuestro perfil.
Un pariente mío leia un periódico claramente radical y tendencioso (que ya no se publica). Cuando le haciamos ver que estaba lleno de mentiras, respondía "Sí, pero son las mentiras que a mí me gustan". Un encasillamiento dentro de un perfil, por muy inteligente que sea la máquina que lo administra, reforzaría ese tipo de situaciones.
3. Quién crees que es más relevante, un resultado o una respuesta?
¿Quién tiene más autoridad, una persona o una maquina? En los buscadores la relevancia no siempre es el principal criterio. Una pregunta como "ojobuscador" no implica que el usuario busque información relevante sobre ojobuscador; lo más probable es que quiera, simplemente, navegar hacia el sitio web ojobuscador.com.
Si se trata de consultas complejas, como "¿Qué factores pueden decidir el voto en las próximas elecciones nacionales?", diría que lo más relevante sería un conjunto de respuestas elaboradas por expertos, que hayan utilizado sus conocimientos previos, que hayan recopilado resultados de la web y otros repositorios especializados, que hayan analizado y sintetizado esos resultados aportando su visión crítica, y que finalmente hayan elaborado una respuesta a partir de todo ese trabajo de recopilación y análisis [2].
¿Quién tiene más autoridad? La autoridad se atribuye a las personas, no a las máquinas. Los buscadores tratan de usar la información de la red (¡colocada por personas!) para encontrar de forma automática las fuentes con más autoridad, pero si sus resultados difieren de la opinión mayoritaria de los usuarios, entonces (casi por definición) son los buscadores los que se equivocan, y no los usuarios.
4. Para posicionar contenidos culturales, cientificos y educativos, alcanza con que sean fáciles de indexar o hay que hacerlos ser los primeros 10 siempre?
Para posicionar contenidos en Internet es necesario 1) que sean de calidad 2) que no sean difíciles de indexar, es decir, que no se pongan obstáculos innecesarios a los robots de los buscadores. 3) tiempo para que funcione el círculo virtuoso en el que los usuarios valoran los contenidos, generan recomendaciones (hipervínculos), esos hipervínculos mejoran el posicionamiento, y por tanto son más visibles, y llegan más usuarios, y...
En el caso de los contenidos culturales en España, la segunda condición (que no sean difíciles de indexar) no suele cumplirse, así que observarla ya concede una situación de ventaja. Por poner un ejemplo, en el crawling de sitios gubernamentales europeos hecho por CLEF [3], los contenidos de España eran, con diferencia, los más escasos, y una de las causas es lo mal diseñados que están los sitios web oficiales con vistas a su indexación.
Muchas gracias Julio!!
[1] http://www-static.cc.gatech.edu/~mihail/D.8802readings/google.pdf
[2] http://nlp.uned.es/pergamus/pubs/articuloACL2004.pdf
[3] http://www.clef-campaign.org




