Evaluación de Sistemas de Recuperación de Información: Técnicas y Métricas

Enviado por Programa Chuletas y clasificado en Matemáticas

Escrito el en español con un tamaño de 8,49 KB

Técnicas de Recuperación

  • Coincidencia exacta (exact matching): En un sistema booleano, solo se recupera un documento si coincide exactamente con la pregunta.
  • Coincidencia parcial (partial matching): Se recupera el documento siempre que se parezca en algo a la pregunta realizada. Se muestran los resultados en orden de relevancia, como en los sistemas vectoriales o probabilísticos.

Ejemplos de Evaluación

Ejemplo de Partial Matching

Método del promedio de precisión en intervalos fijos de exhaustividad (Salton y McGill):

  • Se genera un ranking de documentos ordenados, donde los más relevantes están al principio.
  • Se calcula un par (P, E), precisión y exhaustividad, por cada documento del ranking.
  • La solución es la interpolación.
  • Se comienza por el par de mayor exhaustividad.
  • Se dibuja en horizontal hacia la izquierda hasta donde sube la precisión.

Existen discontinuidades, por ejemplo:

  • E = 0,4 --- P = 1
  • E = 0,401 --- P = 0,75

Ambigüedad

La interpolación elimina la ambigüedad:

  • Se pueden hacer cálculos a intervalos fijos de exhaustividad.
  • Se procesan varias preguntas para obtener el funcionamiento medio del sistema.

Promedios de Varias Preguntas

Se pueden calcular los promedios:

  • Donde Pi es la precisión obtenida por la pregunta i, y NUM es el número de preguntas.

Problemas

  • No es continua.
  • No es monótona decreciente.
  • Más de una exhaustividad para algún valor de precisión (1).
  • Tiene más de una precisión para algún valor de exhaustividad (0,4): Problemas para hallar el promedio.

El porcentaje de mejora se ha calculado de esta manera:

La diferencia es más grande a mitad de exhaustividad. Es muy raro que la exhaustividad alcance el valor máximo o el valor mínimo.

Podemos decir que B es mejor que A, ya que el sistema que se queda por la parte de fuera es mejor que el otro.

Evaluación de SRI Mejorado

Se pueden incluir mejoras a los SRI como, por ejemplo, un módulo de retroalimentación por relevancia (relevance feedback).

Retroalimentación por Relevancia

Es una técnica de modificación automática de consultas. Se identifican ciertos documentos previamente recuperados como relevantes o irrelevantes por el usuario, y se utiliza la información que proporcionan para adaptar la pregunta (proceso iterativo).

Objetivo: Recuperar más documentos relevantes y menos no relevantes.

El efecto de este proceso de alteración de la pregunta es el "mover" la consulta en la dirección de los documentos relevantes y alejarla de los no relevantes, con la esperanza de recuperar así más documentos deseados y menos documentos no deseados en una búsqueda posterior.

Evaluación de la Retroalimentación

Otro problema de la evaluación. Normalmente el Ri se calcula con el rendimiento de la primera búsqueda, pero algunos sistemas incorporan retroalimentación.

En estos casos es necesario llevar a cabo una forma de evaluar la retroalimentación: método de la colección residual.

Colección Residual

  • Elimina los efectos de un ranking artificial.
  • Evalúa la habilidad de recuperar documentos nuevos.
  • Todos los documentos previamente examinados por el usuario se extraen de la colección, y las consultas son evaluadas sobre esta colección residual.

Tests de Diferencias de Medias

¿Estas diferencias de promedios son realmente diferencias significativas o son cosas del azar? ¿Cómo nos aseguramos de que no sea por azar?

  • Si sale significativa, se puede descartar el azar. Se puede afirmar con total certeza.
  • Si sale no significativa, no se puede descartar el azar, porque hay una duda por la cual no se puede descartar.

Certeza

Tenemos que comprobarlo estadísticamente con los tests de diferencias de medias.

La probabilidad de que la diferencia de medias se dé por azar es menor al 5% -> Se concluye que es una diferencia significativa.

Si sale mayor del 15%, no significa lo contrario, sino que no se puede asegurar con certeza. Tendríamos que hacer otras pruebas para asegurarnos.

Tests de Diferencias de Medias

Existen tres tests que se pueden llevar a cabo, todas ellas ordenadas de mayor a menor eficacia:

T de Student

Tengamos un conjunto de valores, con los parámetros (media), o (desviación típica).

Se distribuyen siguiendo la campana de Gauss (distribución normal).

Curva normal tipificada: media = 0 y a = 1

Todas las curvas se pueden convertir en la curva normal tipificada:

Si la media de las rectas que haya es que las dos rectas se están comportando igual.

Si al comparar nos sale muy cerca de la 0 (media = 0) no podemos asegurar. Es una diferencia no significativa.

La ley de los grandes números indica:

  • Para muestra de tamaño pequeño las medias se distribuyen según la t de Student.
  • Es distinta según el tamaño de la muestra (grados de libertad).
  • En general tiene colas con mayor densidad y un pico más afilado.
  • Para muestras grandes (> 30) se puede aproximar por la función de distribución normalizada.

Gráfica Curva Normal Tipificada y t de Student

En cada prueba, para cada nivel de exhaustividad, hallamos las diferencias de las precisiones obtenidas para cada una de las preguntas.

Hallamos las diferencias entre los dos sistemas: A - B. Siempre de la que mayor tiene los números.

Comparamos con el valor correspondiente a:

  • Distribución t de N-1 grados de libertad por una cola, al 5% de probabilidad.
  • Si es menor no se puede asegurar al 95% que la diferencia no sea por azar: DIFERENCIA NO SIGNIFICATIVA.

Test de Wilcoxon

Se hallan las diferencias con signo.

No se toman en consideración aquellas que sean cero.

Se ordenan de menor a mayor las diferencias fijándonos solo en la cantidad (sin tener en cuenta los signos).

Se les asigna como rango el número de orden. Si hay más de una diferencia iguales se les asigna como rango el promedio de los números de orden que les corresponderían.

Se suman por separados los rangos de las diferencias positivas (Tp) y los rangos de las diferencias negativas (Tn).

Comprobación:

El más pequeño se compara con las tablas de Wilcoxon en contraste unilateral. Si es igual o menor que el valor de la tabla: DIFERENCIAS SIGNIFICATIVA.

Se mira N, menos las diferencias que sean 0.

Test de Signos

Tenemos que hallar el signo de la diferencia de cada pareja de datos (las diferencias cero no se tienen en cuenta).

Calcular la probabilidad (p) de obtener:

  • Tantos o más signos que el más frecuente.
  • Tantos o menos signos que el menos frecuente.

Si la probabilidad es menor del 5% (p < 5%), la DIFERENCIA SIGNIFICATIVA.

Para ellos se utiliza la distribución de probabilidad binomial.

Aclaración de la Fórmula

Si al hacer un experimento hay una probabilidad “p” de que se verifique un suceso, ¿Cuál será la probabilidad de que en N experimentos, ese suceso ocurra X veces?

Es la probabilidad que N signos, X sean de un tipo y el resto contrarios. p es la probabilidad de que se dé un signo u otro, en este caso p=0,5

La multiplicación de dos exponentes con la misma base, es igual a la misma base, elevado a la suma de los exponentes.

En nuestro caso, necesitamos saber:

  • La probabilidad de obtener tantos o más signos que el más frecuente (probabilidad de que gane un sistema).
  • O la probabilidad de obtener tantos o menos signos que el menos frecuente (probabilidad de que pierda el otro sistema).

Para calcular que haya X o más (por la vía del más frecuente).

Para calcular que hay X o menos (vía del menos frecuente).

El cálculo devuelve la probabilidad de que se haya dado por azar.

Por convenio, si es menor del 5% puede considerar diferencia significativa. Un sistema es mejor que otro claramente.

Eficiencia de los Test

Normalmente la T de Student es capaz de dar más confianza, porque utiliza más información y el Test de Wilcoxon más que el de signos.

Entradas relacionadas: