Logo Studenta

Las entradas de un índice no son lo mismo que los registros de una base de datos documental (al menos, no en el mismo sentido). Ahora bien, en info...

Las entradas de un índice no son lo mismo que los registros de una base de datos documental (al menos, no en el mismo sentido). Ahora bien, en informática, cosas muy diversas reciben a menudo los mismos nombres. Por ejemplo, las posiciones de datos en los chips de memoria RAM de un ordenador se denominan también registros. Por tanto, el conjunto de registros de la memoria RAM se puede considerar una base de datos. Por esta razón, a la larga, se ha establecido la convención de hablar de base de datos también para referirse al conjunto de entradas del índice más los punteros a los documentos que genera un sistema de indización. La siguiente tabla intenta ilustrar estos conceptos. Tabla 3.4. Diversos significados del término base de datos Sentido estricto (Contexto de la teoría de SGBD) Conjunto de registros (es decir, de representaciones de entidades) creados y/o administrados por un sistema de gestión de bases de datos. Sentido amplio (Contexto de los sistemas de información) Conjunto de datos, de cualquier tipo, gestionados por un sistema de información. Ejemplo: el conjunto de las entradas del índice de un motor de búsqueda. Sentido metafórico (Diversos contextos) Cualquier colección de datos o informaciones, incluso en contextos extra informáticos. Ejemplo: colecciones de fichas de papel. Para describir el funcionamiento de este tipo de programa partiremos de los módulos básicos que se han descrito anteriormente para los SGBDD (véase 3.2), es decir, administración de la base de datos, mantenimiento, indización, recuperación, y salida e intercambio de información. 3.3.1 Administración del fondo documental El primer paso que hay que dar es la definición de la base de datos o de la colección de documentos (un término que también se utiliza en este contexto). La colección ha de tener un nombre y una ubicación que indica en qué directorio del servidor se almacenan los datos, y puede estar formada por diversos tipos de documento y en diversos formatos. Los documentos que forman parte de la colección o del fondo documental se mantienen en la máquina original (bien sea un ordenador local o remoto). El programa de indización genera unos índices a partir de los cuales se puede acceder a los documentos de forma selectiva a partir del contenido del texto completo de la colección. De este modo, la colección está formada por dos tipos de datos. Por un lado, los ficheros con los documentos y por otro, los índices que remiten a estos documentos. Los documentos pueden estar localizados en diversas unidades de almacenaje o en servidores externos, y lo único que hay que tener en cuenta es su ubicación precisa en el momento de definir la colección (en qué unidades de disco y/o cuáles son las direcciones de los servidores remotos en los que se encuentran los ficheros con los documentos) que hay que indizar. Cuando ejecutemos el programa utilizaremos los índices y, con el apuntador del documento, podremos visualizarlo a través de la aplicación original con la que fueron creados. Por ejemplo, si el documento encontrado es una página web, podremos verla en un navegador, pero si se trata de un documento de texto, podremos verlo en Word o en WordPerfect, etc. Aunque esta clase de aplicaciones no acostumbra a estructurar los documentos, es cada vez más frecuente el uso de campos o de etiquetas que permiten dar una apariencia de estructura de campos a la colección y facilitan el acceso a partes concretas del documento, habitualmente el título, la fecha de creación o el autor. Esta estructuración pueden realizarla, pese a no utilizar una auténtica estructura de registros, por derivación de los metadatos que suelen generar cada vez más aplicaciones. Por ejemplo, los documentos Word creados con las últimas versiones suelen retener como parte de su contenido la fecha de creación, el nombre del autor y otros datos, incluyendo un resumen (generado automáticamente) y datos estadísticos sobre el documento (el lector puede comprobar la clase de metadatos que una aplicación como Word guarda de cada documento haciendo clic en Archivo > Propiedades). También es el caso de los documentos web que incorporan etiquetas de metadatos. 3.3.2 Mantenimiento (Entrada de datos) Tal y como se deduce de lo que se ha descrito en el anterior apartado, la entrada de datos al sistema no se acostumbra a hacer desde el teclado (si es así, son pocos los datos que se introducen de esta forma) porque normalmente se dispone ya de ficheros informáticos con la información que se ha de procesar (documentos html, documentos de texto, de hojas de cálculo, gráficos, etc.). Por tanto, la introducción de los datos se realiza mediante operaciones de tratamiento de archivos (con o sin importaciones de los mismos). Estas operaciones pueden ser interactivas, mediante elecciones de menú, o totalmente automáticas, mediante la indicación al sistema de las unidades o directorios que el sistema debe explorar en busca de los archivos a tratar y/o importar. El problema puede provenir de la diversidad de formatos en los que pueden estar los documentos que han de formar parte de la base de datos (o colección), que pueden ser de todo tipo (doc, rtf, html, xlc, pdf, eds, tiff, etc.). En cualquier caso, estos programas están preparados para indexar el texto completo de documentos creados al menos con los formatos más habituales. Los documentos indizados suelen mantenerse en su formato original y lo único que necesita el sistema es saber dónde se encuentran y con qué aplicación están generados para así poder facilitar la visualización cuando sea necesario después de una operación de recuperación. 3.3.3 Indización El motor de indización crea unos índices invertidos (véanse las tablas 3.1 y 3.2) que son la base de su sistema de recuperación, y a los que van a parar todos los términos de los documentos excepto los que figuran en el fichero de palabras vacías. El programa indiza el texto completo de los documentos que forman parte de la base de datos o colección y también, si los hubiera, los indicadores, marcas de campo o metadatos. De esta manera se pueden acotar las consultas a un campo determinado del registro. Como es habitual en todo SGD, cuando se actualiza la colección (se añaden o se retiran documentos) hay que reindizar de nuevo para actualizar los índices. También hay que disponer de algún mecanismo que sirva para limitar de alguna manera las tareas de indización y así evitar que se indizen, por ejemplo, todas las carpetas de una unidad (si no desea que se haga así) o que ciertas extensiones de archivo no sean consideradas (p.e. archivos con extensión .bak, etc.) o, en el caso de páginas web, que solamente se indizen algunos niveles del sitio web, etc. En el caso de sitios web, lo que a veces se hace es indicar el directorio en el que se encuentran los ficheros que han de formar parte de la base de datos y no permitir que la indización se haga a ficheros que no estén dentro de la raíz indicada. Ejemplo: queremos crear una base de datos con los artículos de una revista digital que se llama BiD y que se encuentra en . Dado que sus artículos contienen enlaces a muchas otras páginas que no están en la dirección antes apuntada, tal vez haya que limitar la indización a las páginas que están bajo la raíz antes apuntada, de lo contrario nos encontraremos con la sorpresa que estamos indexando todo el web. 3.3.4 Recuperación En general, el proceso de consulta en sistemas de indización se realiza de manera similar a la consulta de bases de datos de tipo referencial, es decir, se usa el álgebra booleana, y se dispone de una serie de operadores complementarios (truncamiento, proximidad, etc.). Ahora bien, además de este tipo de consulta, que es la tradicional en todos los programas de recuperación de la información, los motores de búsqueda están experimentando con otros tipos de prestaciones, fundamentalmente, las búsquedas semánticas y las búsquedas por patrones. En este apartado nos dedicaremos a describirlas de forma teórica y práctica, en tanto que constituyen un camino que puede servir para superar las limitaciones de los sistemas actuales RI. Estos dos tipos de búsqueda han seguido dos caminos totalmente diferentes: la primera de ellas realizado un análisis que tiene en cuenta la morfología, la sintaxis y la semántica de los términos; la segunda, en cambio, prescinde totalmente de estas características y parte de la estructura binaria de los términos. Este binomio profundidad-superficie (Ellis, 1998) respecto a la forma de representar la información nos va a servir de línea argumental para este subapartado. 3.3.4.1 Búsquedas semánticas Al usuario no especializado, el que viaja por el web y busca información de cualquier tipo, le resulta mucho más fácil expresar una necesidad de información (p.e. “estoy buscando colaboraciones en prensa de Umberto Eco”) que formular una ecuación de búsqueda (p.e. “AU=Eco, Umberto AND TD=prensa”). Los usuarios vienen de contextos muy diferentes y utilizan su propio vocabulario, sus propias palabras que, con frecuencia, no coinciden con las empleadas por el sistema de información. Por ello ha de ser el sistema

Esta pregunta también está en el material:

Bases de Dados Documentais
179 pag.

Processos de Desenvolvimento de Software Universidad Distrital-Francisco Jose De CaldasUniversidad Distrital-Francisco Jose De Caldas

Todavía no tenemos respuestas

Todavía no tenemos respuestas aquí, ¡sé el primero!

Haz preguntas y ayuda a otros estudiantes

✏️ Responder

FlechasNegritoItálicoSubrayadaTachadoCitaCódigoLista numeradaLista con viñetasSuscritoSobreDisminuir la sangríaAumentar la sangríaColor de fuenteColor de fondoAlineaciónLimpiarInsertar el linkImagenFórmula

Para escribir su respuesta aquí, Ingresar o Crear una cuenta

User badge image

Más contenidos de este tema