Logo Studenta

Big Data y Bases de Datos Distribuidas

¡Estudia con miles de materiales!

Vista previa del material en texto

Instituo Politécnico Nacional
Escuela Superior de Ingeniería Mecánica y Eléctrica
Alumno: Daniel Morales Ortega
Grupo: 2CM2
Materia: Arquitectura de Computadoras
ACTIVIDAD: Cuestionario
Big Data y Bases de Datos Distribuidas
1. ¿Qué es Big Data y cuál es su relación con las bases de datos distribuidas?
Respuesta: Big Data se refiere a conjuntos de datos extremadamente grandes y
complejos que superan la capacidad de las herramientas de procesamiento de
datos tradicionales. Las bases de datos distribuidas son una solución común para
gestionar y procesar Big Data al distribuir los datos en múltiples nodos o servidores.
2. ¿Cuáles son las características clave del Big Data en términos de los "3 V"
(Volumen, Velocidad y Variedad)?
Respuesta: Las características clave son:
- **Volumen:** Refiere a la cantidad masiva de datos que deben ser gestionados y
procesados.
- **Velocidad:** Hace referencia a la rapidez con la que los datos se generan, se
recopilan y se deben analizar.
- **Variedad:** Significa que los datos pueden ser de diferentes tipos y formatos,
como texto, imágenes, videos, datos estructurados y no estructurados.
3. ¿Qué es una base de datos distribuida y cómo se diferencia de una base de
datos centralizada?
Respuesta: Una base de datos distribuida se compone de múltiples nodos de
almacenamiento que pueden estar ubicados en diferentes ubicaciones físicas. Se
diferencia de una base de datos centralizada, que almacena todos los datos en un
solo lugar, en su capacidad para escalar y distribuir la carga de trabajo.
4. ¿Cuál es el propósito de una base de datos distribuida en el contexto del Big
Data?
Respuesta: El propósito es permitir el almacenamiento y procesamiento de
grandes volúmenes de datos de manera eficiente al dividirlos y distribuirlos en
múltiples servidores o nodos.
5. ¿Cuáles son algunos ejemplos de bases de datos distribuidas populares
utilizadas en el procesamiento de Big Data?
Respuesta: Ejemplos populares incluyen Apache Hadoop, Apache Spark,
MongoDB (para escenarios distribuidos) y sistemas de gestión de bases de datos
NoSQL escalables horizontalmente.
Instituo Politécnico Nacional
Escuela Superior de Ingeniería Mecánica y Eléctrica
Alumno: Daniel Morales Ortega
Grupo: 2CM2
Materia: Arquitectura de Computadoras
ACTIVIDAD: Cuestionario
6. ¿Qué es la escalabilidad horizontal y por qué es importante en el contexto del Big
Data?
Respuesta: La escalabilidad horizontal se refiere a la capacidad de agregar más
servidores o nodos a una infraestructura para manejar cargas de trabajo crecientes.
Es importante en el Big Data porque permite crecer la capacidad de
almacenamiento y procesamiento de datos de manera flexible.
7. ¿Qué es la fragmentación de datos en una base de datos distribuida?
Respuesta: La fragmentación de datos implica dividir los datos en partes más
pequeñas que se almacenan en diferentes nodos de la base de datos distribuida.
Cada fragmento puede contener una parte específica de los datos.
8. ¿Cómo se asegura la coherencia de los datos en una base de datos distribuida?
Respuesta: La coherencia se asegura mediante la implementación de protocolos y
algoritmos de sincronización, como el teorema CAP (Consistency, Availability,
Partition tolerance), para garantizar que todos los nodos de la base de datos tengan
una visión coherente de los datos.
9. ¿Cuáles son los desafíos comunes asociados con el procesamiento de Big Data
en bases de datos distribuidas?
Respuesta: Algunos desafíos comunes incluyen la complejidad de administrar
múltiples nodos, la seguridad de los datos distribuidos, la escalabilidad efectiva y el
rendimiento en la transferencia de datos entre nodos.
10. ¿Cuáles son los beneficios clave de utilizar bases de datos distribuidas para el
procesamiento de Big Data?
Respuesta: Los beneficios incluyen escalabilidad para manejar grandes
volúmenes de datos, alta disponibilidad, tolerancia a fallos, capacidad de
procesamiento paralelo y la capacidad de distribuir el procesamiento en varios
nodos para acelerar el análisis de datos.

Continuar navegando