Logo Studenta

En cualquier caso, el modelo mixto actúa de la siguiente forma, los documentos y las preguntas se representan como vectores, pero en vez de calcula...

En cualquier caso, el modelo mixto actúa de la siguiente forma, los documentos y las preguntas se representan como vectores, pero en vez de calcular su similitud en base a clusters y espacios vectoriales, se calculan estimando cuántos elementos en común presentan los vectores respectivos de preguntas y documentos (Frakes y Baeza-Yates, 1992). Por ejemplo, dada la pregunta P1, puede calcularse que el documento D1 exhibe un mayor grado de semejanza que D2 si, por ejemplo, el vector P1 (vector de la pregunta) tiene la siguiente composición (1, 1, 1, 1, 1, 1, 1); el vector D1 (documento 1) tiene la siguiente: (1, 1, 1, 1, 0, 1) y el vector D2 (documento 2) la siguiente: (1, 0, 1, 1, 0, 1). Es fácil ver que D1 tiene cinco elementos en común (todos menos el quinto), mientras que D2 tiene solo cuatro. El aspecto booleano de este sistema radica en que la selección de documentos se realiza de acuerdo con el álgebra de Boole, pero una vez creado el subconjunto de documentos, éstos se ordenan mediante el método anterior. Otras formas de ordenación pueden incluir ponderación de cada elemento del vector, de manera que cada vector puede multiplicarse por el peso del término en cada documento. Por ejemplo, supongamos que un usuario desea obtener documentos sobre los ordenadores aplicados a la gestión de documentación periodística. La pregunta se podría representar mediante los conceptos: ordenadores, documentación, periodismo. Combinados tales conceptos con un OR booleano, el sistema podría recuperar n documentos, cada uno de los cuales tendría uno o más de los términos de la pregunta. Supongamos que el documento D1 posee los tres términos y el documento D2 posee sólo dos de ellos. En el sistema no ponderado, el documento D1 es el más relevante, pero en un sistema ponderado podría no ser así. Veamos: supongamos que el documento D1 presenta el siguiente vector (2, 1, 1), que se debe leer así: el término primero aparece dos veces en el documento (2*1=2), el término segundo y tercero aparece una vez (1*1=1). Mientras que el segundo vector obtendría un valor de 1.0, ya que, 0+0.6+0.4=1.0.

Esta pregunta también está en el material:

Bases de Dados Documentais
179 pag.

Processos de Desenvolvimento de Software Universidad Distrital-Francisco Jose De CaldasUniversidad Distrital-Francisco Jose De Caldas

Todavía no tenemos respuestas

Todavía no tenemos respuestas aquí, ¡sé el primero!

Haz preguntas y ayuda a otros estudiantes

✏️ Responder

FlechasNegritoItálicoSubrayadaTachadoCitaCódigoLista numeradaLista con viñetasSuscritoSobreDisminuir la sangríaAumentar la sangríaColor de fuenteColor de fondoAlineaciónLimpiarInsertar el linkImagenFórmula

Para escribir su respuesta aquí, Ingresar o Crear una cuenta

User badge image

Más contenidos de este tema