SD1-23-2-TéllezGonzálezJorgeLuis-Sintesis7

Sistemas Distribuidos

•

UNAM

Jorge Luis Tellez

4/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sistemas Distribuidos

3511 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

¿Qu
é
prop
ieda
des
tiene
?
Es
un
a m
ejo
ra
de
Ha
do
op
Analítica de datos en redes
sociales (FB o Tweets).
Análisis de registros de
servidores web.
Análisis de datos con
sensores a nivel industrial.
Análisis de datos de
mercados y productos
financieros.
Procesamiento de
imagenes.
Se
im
pl
em
en
ta
em
pr
es
ar
ia
lm
en
te
de
la
fo
rm
a
¿Cuál es su
arquitectura?
Hadoop
Marco de procesamiento
distribuido de grandes
conjuntos de datos con
modelos de
programación simples.
Hadoop es un marco de trabajo de código abierto diseñado para procesar y analizar datos distribuidos de
manera eficiente y escalable, utilizando el modelo de programación MapReduce. Sus capacidades de
almacenamiento en Big Data lo hace una robusta opción de bajo costo, aunque en aplicaciones de nube e
IA su uso resulta limitado.
Con MapReduce, las tareas se dividen en dos fases principales: la fase de mapeo, donde se procesan los
datos de forma paralela y se generan pares clave-valor, y la fase de reducción, donde se combinan y
agrupan los pares clave-valor para obtener los resultados finales. Este enfoque permite procesar
eficientemente grandes grupos de datos en clústeres.
Lustre es un sistema de archivos distribuido de código abierto utilizado en clústeres a gran escala, diseñado
para ofrecer almacenamiento seguro y rápido para grandes volúmenes de datos. Es ampliamente
adoptado en superordenadores de alto rendimiento y garantiza acceso concurrente y una semántica POSIX
estándar, junto con opciones de seguridad básica y criptográfica.
NFS: Lustre lo supera en computación
de alto rendimiento y Big Data, pero
NFS es más fácil de implementar y
usar.
HDSF: usa un enfoque de
almacenamiento replicado donde se
almacenan datos en varios nodos. y se
enfoca en datos por lotes secuenciales.
CEPH: se centra en la eficiencia del
almacenamiento de objetos y se
orienta más a aplicaciones de Big Data
en la nube.
Spark: se concentra más en IA, velocidad y
rendimiento, mientras que Hadoop se enfoca
más en el almacenamiento.
Cassandra: es una base datos no relacional de
alta velocidad de escritura, no una sistema de
procesamiento propiamente.
Flink: se enfoca en el procesamiento de datos en
tiempo real y con baja latencia, mientras que
Hadoop se enfoca en procesamiento por lotes.
Amazon Redshift: es un servicio de
almacenamiento y análisis de datos que emplea
una base SQL para almacenar y analizar datos en
tiempo real en la nube.
Herramientas de implementación: Cloudera
Manager, Pig, Hortonworks Ambari y EMR.
¿P
ar
a
qu
é
si
rv
e?
Detección y manejo de
fallas en capa de
aplicación en la parte
superior de un grupo
de computadoras.
Consta de un nodo
principal y nodos
secundarios en los que se
reparten los datos. Su base
es el Hadoop Common
que proporciona acceso a
los sistemas de archivos
soportados.
¿C
u
ál
e
s
su
ar
q
u
it
ec
tu
ra
?
Emplea TCP-IP
Comunicación Cliente
RPC.
Puede trabajar con
cualquier sistema de
archivos distribuido,
pero a costa de la
pérdida de localidad.
¿Cóm
o
funciona su
sistem
a de
archivos?
Altamente escalable.
Tolerante a fallos en los
nodos por
redistribución y
replicación.
Flexible y de código
abierto.
Solución de bajo costo
para Big Data.
Sistema de procesamiento
distribuido para
aplicaciones de Big Data
que involucren
procesamiento por lotes,
aprendizajes automático,
visualización de bases de
datos y consultas ad hoc.
Apache Spark
Otras
aplicaciones
Hadoop son:
Presto: motor de consulta SQL
distribuido, admite Hadoop HDFS
y Amazon S3.
Hive: permita usar MapReduce
empleando SQL para el análisis a
gran escala.
Hbase: base de datos no
relacional ejecutada sobre
Amazon S3.
Zepellin: cuaderno interactivo
para la exploración de datos.
¿E
n
qu
é
se
d
ife
re
nc
ía
H
ad
oo
p
de
o
tr
as
te
cn
ol
og
ía
s?
¿En qué consiste el
MapReduce usado
por Hadoop? MapReduce
Map: toma datos de entrada y lo
transforma en pares clase valor.
Reduce: combina la salida Map en
un conjunto de menor tamaño.
Modelo de programación y marco de
procesamiento de datos distribuido
para el procesamiento de grandes
conjuntos de datos de clúster de
computadoras desarrollado por
Google. Su modelo se basa en 2
operaciones básicas:
¿Cuál es su
arquitectura?
Pasos
División de datos
Fase Map
Ordenaimiento y particionamiento
Fase Reduce
Combinación de resultados
Almacenamiento de resultados
Distribuye el procesamiento de
datos en un clúster mediante la
división de los datos en bloques, la
ejecución paralela de Map y Reduce
y la combinación para el resultado
final.
Son ejem
plos de
im
plem
entación
Aplicaciones
Mejoras notables de
rendimiento y
escalabilidad.
Tolerancia muy alta a fallos
en el procesamiento
paralelo.
Alta disponibilidad y
minimizado de
comunicación entre
nodos.
P
ro
p
or
ci
on
a
la
si
g
ui
en
te
s
ve
n
ta
ja
s
Paso 1: identificar los datos a
procesar y analizar.
Paso 2: seleccionar la aplicación
MapReduce que se ajuste a los
objetivos.
Paso 3: configurar la plataforma
y el equipo.
Paso 4: Desarrollar los
programas Map Reduce (Java,
Python, Spark...).
Paso 5: implementación en
ambiente productivo.
Lustre
Sistema de archivos
distribuido de alto
rendimiento para grandes
volúmenes de datos en
sistemas Linux ejecutados
en HPC. Admite acceso
paralelo a los archivos.
Elementos de Lustre
MGS: servidor de administración para
almacenar y gestionar la configuración
de Lustre.
MGT: Destinos de administración y
config.
MDS: servidor de metadatos con MDT
siendo su destino. Gestionan el acceso
de clientes y los metadatos de acceso.
OSS: servidores de almacenamiento de
objetos, y OST siendo el destino de
almacenamiento.
Clients: intermediario entre los usuarios
y Lustre para el acceso de archivos.
Computación de alto
rendimiento.
Procesamiento de
Big Data.
Almacenamiento de
datos empresariales.
¿Qué caso
s de uso
tiene?
¿Q
u
é
of
re
ce
Lu
st
re
e
n
se
g
u
ri
d
ad
?
Control de acceso a los archivos.
Cifrado de archivos en reposo y
tránsito, evitando ataques MiM.
Cuenta con herramientas de
auditoría y logs para detectar
violaciones de seguridad y
cambios.
Cuenta con backups de los
datos.
Gran gestión y migración de
datos para optimizar
almacenamiento.
Comparado con
otros sistemas de
archivos