Problemática sobre el impacto de la expansión automática de consultas y desambiguación semántica en la evaluación de los sistemas de recuperación de información

  1. Pinto, Francisco João
Supervised by:
  1. Carme Fernández Pérez-Sanjulián Director
  2. Antonio Fariña Director

Defence university: Universidade da Coruña

Fecha de defensa: 31 July 2008

Committee:
  1. Nieves R. Brisaboa Chair
  2. Ángeles Saavedra Places Secretary
  3. José Ramón Ríos Viqueira Committee member
  4. Eva Lorenzo Iglesias Committee member
  5. Angélica Urrutia Sepulveda Committee member

Type: Thesis

Teseo: 150322 DIALNET lock_openRUC editor

Abstract

En los últimos años, se está produciendo un enorme incremento de la cantidad de información disponible en formato digital, Las bases de datos textuales no son una excepción. El aumento de bibliotecas digitales, bases de datos documentales, y sobre todo el gran crecimiento de Web, hacen que las colecciones de texto crezcan en tamaño y número de forma exponencial. Sin embargo, disponer de grandes cantidades de documentos no resulta de especial interés si no existen medios que permitan obtener la información deseada en un contexto determinado. Es por ello que surge con fuerza el problema de la Recuperación de Información que debe contemplar no sólo cómo ha de ser estructurada la información para facilitar el acceso a la misma, sino también la forma en que dicho acceso se realiza. Entre otros aspectos, una parte fundamental del proceso de recuperación de información es el modo en el que un usuario realiza la formulación de una consulta que deberá plasmar adecuadamente su necesidad de información, y cómo dicha consulta es interpretada por el sistema de recuperación para posteriormente obtener aquellos documentos que contengan información relevante. Para que el proceso de recuperación sea efectivo, y por tanto se recuperen el mayor número de documentos relevantes posibles, dada una consulta, es esencial ser capaz de determinar el conjunto de palabras que expresan semánticamente la necesidad de información del usuario. De este modo, en lugar de recuperar simplemente los documentos que contienen las palabras incluidas por un usuario en su consulta, es posible recuperar documentos que contengan términos relacionados con aquéllos (expandidos). Por otra parte, la existencia de palabras que pueden tener un significado ambiguo (p.ej. polisemia) hacen interesante el proceso de desambiguación semántica; esto es, seleccionar el sentido más apropiado de una palabra ambigua, en un contexto determinado. Generalmente para esta tarea es necesario contar con una fuente de información semántica, es decir, recursos lingüísticos como diccionarios, tesauros, etc. En esta tesis doctoral se explora el uso del recurso lingüístico WordNet como medio para realizar expansión automática de consultas, y se estudia cómo el proceso de desambiguación permite mejorar la efectividad del proceso de recuperación de información. Basándonos en el sistema Lemur, se ha llevado a cabo la implementación de un sistema de recuperación que incluye la posibilidad de utilizar diversas técnicas de expansión de consultas en nuestros experimentos. Los resultados empíricos obtenidos sobre grandes colecciones de textos de referencia (TREC) demuestran que la desambiguación de palabras permite sacar más partido a la expansión de consultas con WordNet.