Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
¿Qu é prop ieda des tiene ? Es un a m ejo ra de Ha do op Analítica de datos en redes sociales (FB o Tweets). Análisis de registros de servidores web. Análisis de datos con sensores a nivel industrial. Análisis de datos de mercados y productos financieros. Procesamiento de imagenes. Se im pl em en ta em pr es ar ia lm en te de la fo rm a ¿Cuál es su arquitectura? Hadoop Marco de procesamiento distribuido de grandes conjuntos de datos con modelos de programación simples. Hadoop es un marco de trabajo de código abierto diseñado para procesar y analizar datos distribuidos de manera eficiente y escalable, utilizando el modelo de programación MapReduce. Sus capacidades de almacenamiento en Big Data lo hace una robusta opción de bajo costo, aunque en aplicaciones de nube e IA su uso resulta limitado. Con MapReduce, las tareas se dividen en dos fases principales: la fase de mapeo, donde se procesan los datos de forma paralela y se generan pares clave-valor, y la fase de reducción, donde se combinan y agrupan los pares clave-valor para obtener los resultados finales. Este enfoque permite procesar eficientemente grandes grupos de datos en clústeres. Lustre es un sistema de archivos distribuido de código abierto utilizado en clústeres a gran escala, diseñado para ofrecer almacenamiento seguro y rápido para grandes volúmenes de datos. Es ampliamente adoptado en superordenadores de alto rendimiento y garantiza acceso concurrente y una semántica POSIX estándar, junto con opciones de seguridad básica y criptográfica. NFS: Lustre lo supera en computación de alto rendimiento y Big Data, pero NFS es más fácil de implementar y usar. HDSF: usa un enfoque de almacenamiento replicado donde se almacenan datos en varios nodos. y se enfoca en datos por lotes secuenciales. CEPH: se centra en la eficiencia del almacenamiento de objetos y se orienta más a aplicaciones de Big Data en la nube. Spark: se concentra más en IA, velocidad y rendimiento, mientras que Hadoop se enfoca más en el almacenamiento. Cassandra: es una base datos no relacional de alta velocidad de escritura, no una sistema de procesamiento propiamente. Flink: se enfoca en el procesamiento de datos en tiempo real y con baja latencia, mientras que Hadoop se enfoca en procesamiento por lotes. Amazon Redshift: es un servicio de almacenamiento y análisis de datos que emplea una base SQL para almacenar y analizar datos en tiempo real en la nube. Herramientas de implementación: Cloudera Manager, Pig, Hortonworks Ambari y EMR. ¿P ar a qu é si rv e? Detección y manejo de fallas en capa de aplicación en la parte superior de un grupo de computadoras. Consta de un nodo principal y nodos secundarios en los que se reparten los datos. Su base es el Hadoop Common que proporciona acceso a los sistemas de archivos soportados. ¿C u ál e s su ar q u it ec tu ra ? Emplea TCP-IP Comunicación Cliente RPC. Puede trabajar con cualquier sistema de archivos distribuido, pero a costa de la pérdida de localidad. ¿Cóm o funciona su sistem a de archivos? Altamente escalable. Tolerante a fallos en los nodos por redistribución y replicación. Flexible y de código abierto. Solución de bajo costo para Big Data. Sistema de procesamiento distribuido para aplicaciones de Big Data que involucren procesamiento por lotes, aprendizajes automático, visualización de bases de datos y consultas ad hoc. Apache Spark Otras aplicaciones Hadoop son: Presto: motor de consulta SQL distribuido, admite Hadoop HDFS y Amazon S3. Hive: permita usar MapReduce empleando SQL para el análisis a gran escala. Hbase: base de datos no relacional ejecutada sobre Amazon S3. Zepellin: cuaderno interactivo para la exploración de datos. ¿E n qu é se d ife re nc ía H ad oo p de o tr as te cn ol og ía s? ¿En qué consiste el MapReduce usado por Hadoop? MapReduce Map: toma datos de entrada y lo transforma en pares clase valor. Reduce: combina la salida Map en un conjunto de menor tamaño. Modelo de programación y marco de procesamiento de datos distribuido para el procesamiento de grandes conjuntos de datos de clúster de computadoras desarrollado por Google. Su modelo se basa en 2 operaciones básicas: ¿Cuál es su arquitectura? Pasos División de datos Fase Map Ordenaimiento y particionamiento Fase Reduce Combinación de resultados Almacenamiento de resultados Distribuye el procesamiento de datos en un clúster mediante la división de los datos en bloques, la ejecución paralela de Map y Reduce y la combinación para el resultado final. Son ejem plos de im plem entación Aplicaciones Mejoras notables de rendimiento y escalabilidad. Tolerancia muy alta a fallos en el procesamiento paralelo. Alta disponibilidad y minimizado de comunicación entre nodos. P ro p or ci on a la si g ui en te s ve n ta ja s Paso 1: identificar los datos a procesar y analizar. Paso 2: seleccionar la aplicación MapReduce que se ajuste a los objetivos. Paso 3: configurar la plataforma y el equipo. Paso 4: Desarrollar los programas Map Reduce (Java, Python, Spark...). Paso 5: implementación en ambiente productivo. Lustre Sistema de archivos distribuido de alto rendimiento para grandes volúmenes de datos en sistemas Linux ejecutados en HPC. Admite acceso paralelo a los archivos. Elementos de Lustre MGS: servidor de administración para almacenar y gestionar la configuración de Lustre. MGT: Destinos de administración y config. MDS: servidor de metadatos con MDT siendo su destino. Gestionan el acceso de clientes y los metadatos de acceso. OSS: servidores de almacenamiento de objetos, y OST siendo el destino de almacenamiento. Clients: intermediario entre los usuarios y Lustre para el acceso de archivos. Computación de alto rendimiento. Procesamiento de Big Data. Almacenamiento de datos empresariales. ¿Qué caso s de uso tiene? ¿Q u é of re ce Lu st re e n se g u ri d ad ? Control de acceso a los archivos. Cifrado de archivos en reposo y tránsito, evitando ataques MiM. Cuenta con herramientas de auditoría y logs para detectar violaciones de seguridad y cambios. Cuenta con backups de los datos. Gran gestión y migración de datos para optimizar almacenamiento. Comparado con otros sistemas de archivos
Compartir