Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Sistemas de Archivos Distribuidos Se encarga de administrar los diferentes procesos para el almacenamiento persistente en sistemas distribuidos. Al igual que los sistemas de archivos clásicos, son una interfaz intermediaria para administrar el almacenamiento. Tipos De acuerdo al objetivo del sistemas de archivos distribuido, puede estar conformado con una arquitectura distinta, como pueden ser: Cliente-Servidor Se basa en computadoras capaces de atender peticiones de clientes en el menor tiempo posible. Se especializan en servicios, Pueden basarse en un modelo de carga y descarga o acceso remoto. Características Tolerantes a fallos Manejar gran cantidad de datos Compartición de recursos. Escalabilidad. Arquitectura Simétrica Aunque no son explícitamente un sistema de archivos distribuido, se pueden adaptar a uno. En ellas, los nodos son idénticos y todas las unidades trabajan como iguales dentro de ella. Los sistemas de archivos distribuidos como AFS proporcionan un espacio de nombres uniforme y transparente, permitiendo la colaboración y el acceso a archivos desde múltiples estaciones de trabajo. La replicación de lectura-escritura y los protocolos de bloqueo distribuido son técnicas clave utilizadas para mantener la integridad y el control de los flujos de información en sistemas distribuidos de archivos, evitando su corrupción. Los sistemas de archivos distribuidos desempeñan un papel fundamental en la escalabilidad y tolerancia a fallos, y así mismo, desempeñan un papel vital para la Ingeniería de Datos, ya que representan el punto vital de su flujo. DBs como Cassandra resultan especialmente adecuados para ese papel. Basado en clúster Se especializan en análisis y procesamiento de grandes volúmenes de información en unión con otros equipos. Se especializan para el manejo de datos matemáticos o científicos. Emplean técnicas de distribución de archivos para dividirlos entre varios nodos Características GFS Almacenamiento de datos en bloques. Bloques de datos distribuidos. Servidores de datos maestros y secundarios. Alto rendimiento y tolerancia a fallos. Funcionamiento Replicación de datos: almacenar copias en múltiples nodos. Particionamiento: dividir archivos en partes pequeñas. Manejo de conflictos: mecanismos de bloqueo concurrente. Los archivos se almacenan en múltiples nodos, los cuales no se garantiza que siempre estén activos ni el usuario podrá ver en donde están ubicados. Para eso emplea: Sincronización Replicación lectura-escritura: garantiza que las operaciones de lectura puedan realizarse en cualquier nodo, pero las operaciones de escritura solo se permiten en un nodo a la vez. Bloqueo distribuido: coloca un bloqueo en el archivo para evitar que otros usuarios lo modifiquen simultáneamente. Para que los datos puedan mantener integridad, se emplean 2 técnicas de sincronización: Ventajas Alta disponibilidad. Manejo de grandes cantidades de datos en redes robustas. Recursos compartidos en red. Excesiva complejidad para mantener integridad. Alto costo de mantenimiento y diseño. Desventajas Sistema NFS Es un protocolo para el acceso a archivos y directorios de forma remota en una red, desarrollado por Sun Microsystems y usando un modelo cliente-servidor Aplicaciones Compartir archivos entre múltiples sistemas. Copias de seguridad. Almacenamiento Cloud. Virtualización Computación de alto rendimiento. AFS Desarrollado por investigadores liderados por Tanenbaum, con el objetivo de crear una vista uniforme de datos almacenados en múltiples equipos. Fue adquirido por IBM y su uso continúa hasta la actualidad en aplicaciones científicas, de investigación y empresariales. Características Proporciona un espacio de nombres homogéneo. Utiliza servidores confiables llamados Vice. Se utiliza el sistema operativo Unix, Los archivos solicitados se almacenan en la memoria caché local. El kernel se modifica para enrutar solicitudes de archivos a los procesos de cliente Venus. Ventajas y desventajas Gran espacio en cachè. Funcionamiento asíncrono. Alto rendimiento de red. Autenticación de usuario con Kerberos. Permisos modulares de archivos. No admite semántica Unix. Renovación anual. Demasiado restrictivo a nivel de seguridad. Cassandra Sistema gestor de BD NoSQL que emplea un CFS interno para la gestión distribuida de los datos en la base. Admite tanto datos estructurados como no estructurados y su arquitectura es distribuida.
Compartir