Creación del clúster DataProc

•

SIN SIGLA

Kaholy Dalis

21/3/2024

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Big Data

5904 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Nombre: 
Kaholy Alexandra 
Apellido: 
Dalis Peña 
Matricula: 
2021-0687 
Asignatura: 
Electiva 1 
Maestro: 
Michael Grullón 
Tema: 
 Enunciado de alcance 
 
Fecha de entrega: 
17/11/2023 
 
 
 
1. Creación del clúster DataProc: Comparte tus experiencias y 
consejos sobre cómo crear un clúster de Google Cloud DataProc. 
¿Encontraste alguna dificultad? ¿Tienes algún consejo para los 
principiantes? 
1. Elije el Tamaño Adecuado del Clúster: Ajusta el número de nodos 
maestros y trabajadores según la carga de trabajo. Un clúster más 
grande puede procesar grandes volúmenes de datos, pero también 
puede aumentar los costos. 
2. Configuración Personalizada: Personaliza la configuración del 
clúster según tus necesidades específicas. Puedes especificar el tipo de 
máquina, la cantidad de nodos, el tamaño del disco, entre otros. 
3. Utiliza scripts de inicialización personalizados para personalizar el 
entorno del clúster según tus necesidades. Esto puede incluir 
instalación de bibliotecas, configuración de variables de entorno, etc. 
 
Consejos: 
1. Aprovecha el almacenamiento en Google Cloud Storage (GCS) 
junto con Hadoop Distributed File System (HDFS). GCS es escalable 
y duradero, y puedes acceder a él desde otros servicios de Google 
Cloud. 
2. Habilita la monitorización y el registro para tener una visión clara 
del rendimiento del clúster. Puedes utilizar Stackdriver para monitoreo 
y Cloud Logging para registros. 
3. Implementa prácticas de seguridad recomendadas, como configurar 
reglas de firewall, usar IAM para controlar el acceso y encriptar datos 
en reposo y en tránsito. 
4. Establece políticas de respaldo y practica la recuperación ante 
desastres. Esto es especialmente importante para entornos de 
producción. 
Consejo para principiante: 
Aprovecha la Documentación Oficial: La documentación oficial de 
Google Cloud es una excelente fuente de información. Utilízala como 
referencia mientras aprendes y trabajas con los servicios. 
2. Trabajo con el sistema de archivos HDFS: ¿Cómo has estado 
trabajando con HDFS? ¿Cuáles son las tareas que has llevado a cabo 
en HDFS? ¿Alguna dificultad que superaste? 
Puedes utilizar comandos como hadoop fs -ls para listar los archivos 
y directorios en HDFS. Esto es similar a usar ls en sistemas de archivos 
locales. 
HDFS se utiliza para almacenar grandes cantidades de datos 
distribuidos en clústeres de servidores, Copia de datos hacia y desde 
HDFS, ya sea desde sistemas locales o desde otros sistemas de 
almacenamiento, Configuración y gestión de nodos maestros y 
esclavos, y mantenimiento de la salud del clúster y acceso a datos en 
HDFS y gestión de la estructura de archivos y directorios. 
3. Transferencia de archivos: Comparte tus conocimientos sobre cómo 
transferir archivos entre el entorno local y HDFS. ¿Has probado con 
archivos grandes? ¿Tienes consejos para una transferencia efectiva? 
Para cargar archivos desde el sistema local a HDFS, puedes utilizar el 
comando hadoop fs -copyFromLocal en la línea de comandos, sin 
embargo para descargar archivos desde HDFS a tu sistema local, 
utiliza el comando hadoop fs -copyToLocal 
El modelo de envío es el modelo más simple porque el clúster de 
origen puede enviar los datos directamente a Cloud Storage y no 
necesitas crear recursos de procesamiento adicionales para realizar la 
copia. Sin embargo, si pretendes usar el clúster de fuente durante la 
migración para otros trabajos de procesamiento de datos regulares, 
debes asegurarte de que hay suficientes recursos, como CPU, RAM y 
ancho de banda de red, disponibles en el clúster de fuente para también 
realizar los trabajos de copia. 
Si el clúster de fuente ya se ejecuta a la capacidad de procesamiento y 
no puedes aumentar los recursos en el clúster de fuente para realizar 
la copia, deberías considerar usar el método de extracción. 
4. Casos de uso de big data: ¿Has aplicado este conocimiento en 
proyectos o trabajos específicos? ¿Tienes ejemplos o casos de uso 
interesantes que quieras compartir? 
Caso de Uso: Optimización de la Experiencia del Cliente en una 
Compañía de Telecomunicaciones 
Descripción del Proyecto: 
Una compañía de telecomunicaciones desea mejorar la experiencia del 
cliente y reducir la tasa de churn (clientes que abandonan el servicio) 
mediante el análisis de big data. 
Pasos del Proyecto: 
Recopilación de Datos: 
Se recopilan grandes cantidades de datos, que incluyen registros de 
llamadas, datos de uso de servicios móviles, interacciones en el sitio 
web, historial de pagos y comentarios de atención al cliente. 
Análisis de Sentimientos: 
Utilizando técnicas de procesamiento de lenguaje natural (NLP), se 
analizan los comentarios de los clientes en redes sociales, correos 
electrónicos y encuestas para evaluar el sentimiento y comprender las 
preocupaciones comunes. 
 
 
Segmentación de Clientes: 
Se aplica análisis de clustering para segmentar a los clientes en grupos 
según su comportamiento, preferencias y nivel de satisfacción. 
Análisis de Patrones de Uso: 
Se utilizan técnicas de análisis de patrones para identificar 
comportamientos de uso de servicios, como horarios pico, tipos de 
servicios más utilizados y áreas geográficas con alta demanda. 
Modelos Predictivos: 
Se desarrollan modelos predictivos utilizando algoritmos de machine 
learning para prever la probabilidad de churn de cada cliente. Esto se 
basa en factores como la frecuencia de quejas, la duración de la 
relación con la empresa y cambios en el patrón de uso. 
Personalización de Ofertas: 
Con la información recopilada, se personalizan las ofertas y 
promociones para cada segmento de clientes, con el objetivo de 
retener a aquellos con mayor riesgo de churn. 
Monitorización en Tiempo Real: 
Se implementa un sistema de monitorización en tiempo real para 
detectar cambios inmediatos en el comportamiento del cliente y tomar 
medidas preventivas, como ofrecer descuentos personalizados o 
servicios adicionales. 
Evaluación Continua: 
El sistema se actualiza continuamente en función de los nuevos datos 
y los resultados obtenidos, permitiendo ajustes y mejoras constantes 
en la estrategia de retención de clientes. 
Este ejemplo ilustra cómo el big data puede utilizarse para transformar 
datos complejos en información accionable, permitiendo a la empresa 
tomar decisiones más informadas para mejorar la experiencia del 
cliente y reducir la pérdida de clientes. 
 
 
5. Consejos y trucos: ¿Tienes algún consejo o truco para trabajar de 
manera más eficiente con DataProc y HDFS? ¡Comparte tus secretos! 
❖ Explora la documentación oficial de Google Cloud y participa en la 
comunidad. La documentación puede ofrecer soluciones a problemas 
comunes, y la comunidad puede proporcionar insights valiosos. 
❖ Personaliza la configuración del clúster Dataproc según tus 
necesidades específicas. Ajusta la cantidad de nodos, el tipo de 
máquina, el tamaño del disco y otras configuraciones para optimizar 
el rendimiento y los costos.