Logo Studenta

BIG DATA

¡Estudia con miles de materiales!

Vista previa del material en texto

Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad 
Big Data es un término que describe el gran volumen de datos, tanto estructurados como no 
estructurados, que inundan los negocios cada día. Pero no es la cantidad de datos lo que es 
importante. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos. Big Data 
se puede analizar para obtener ideas que conduzcan a mejores decisiones y movimientos de negocios 
estratégicos. 
Índice de contenidos 
1. ¿Qué es Big Data? 
2. ¿Por qué el Big Data es tan importante? 
3. Desafíos de la calidad de datos en Big Data 
4. Cómo construir un plan de Data Governance en Big data 
1. ¿Qué es Big Data? 
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de 
datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) 
dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas 
convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de 
visualización, dentro del tiempo necesario para que sean útiles. 
Descárgate nuestra Guía sobre Big Data 
Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se considera Big 
Data no está firmemente definido y sigue cambiando con el tiempo, la mayoría de los analistas y 
profesionales actualmente se refieren a conjuntos de datos que van desde 30-50 Terabytes a varios 
Petabytes. 
La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de gran 
parte de los datos generados por las tecnologías modernas, como los web logs, la identificación por 
radiofrecuencia (RFID), los sensores incorporados en dispositivos, la maquinaria, los vehículos, las 
búsquedas en Internet, las redes sociales como Facebook, computadoras portátiles, teléfonos 
inteligentes y otros teléfonos móviles, dispositivos GPS y registros de centros de llamadas. 
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos 
estructurados (normalmente de una base de datos relacional) de una aplicación comercial más 
convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship 
Management). 
2. ¿Por qué el Big Data es tan importante? 
Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona 
respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. En otras palabras, 
proporciona un punto de referencia. Con una cantidad tan grande de información, los datos pueden 
https://www.powerdata.es/el-valor-de-la-gestion-de-datos/bid/397467/Data-Integration-Hub-herramientas-de-migraci-n-de-bases-de-datos
https://www.powerdata.es/cs/c/?cta_guid=972f4f66-4421-401a-9ad7-8ab18672a551&placement_guid=9930c929-2eb7-4303-8596-b9d3a7746f02&portal_id=239039&canon=https%3A%2F%2Fwww.powerdata.es%2Fbig-data&redirect_url=APefjpHyoLLxxaoW44A_UOYN9gpk7kqEH1T7xVFuCx7IAB4PdkzRLmLdFNp-IBzK4Fjifz2G9JjZP-sK46wkS9l3d0Z1VD-YLYg4Eg-0P423__buJrt-f1ITv2Lqn7xZm-udLy8LngVouoUVCOf602NNHtv0AiRA12Y3rddZARbNMxM2WbycR_te3jXx8hl79SrtFYcURk_bIXerEXBSCCTlurq-8ugJJda98F_V-41FMxEvOOXE2VD9JX7reqr7Ym6GxMp0JTbP3XJCAnQlzqncIN0xPDjwYg&click=6326b368-9adc-4320-b631-e66df1aa31b7&hsutk=7c9a53d4597a0263d8ea847d04fd3c79&signature=AAH58kH9A4OJEljZIXHYpyyFWh--puiC-A&utm_referrer=https%3A%2F%2Fwww.google.co.ve%2F&pageId=4994121222
ser moldeados o probados de cualquier manera que la empresa considere adecuada. Al hacerlo, las 
organizaciones son capaces de identificar los problemas de una forma más comprensible. 
La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los datos 
permiten que las empresas se muevan mucho más rápidamente, sin problemas y de manera eficiente. 
También les permite eliminar las áreas problemáticas antes de que los problemas acaben con sus 
beneficios o su reputación. 
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar 
nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más inteligentes, 
operaciones más eficientes, mayores ganancias y clientes más felices. Las empresas con más éxito 
con Big Data consiguen valor de las siguientes formas: 
 Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la 
nube, aportan importantes ventajas en términos de costes cuando se trata de almacenar grandes 
cantidades de datos, además de identificar maneras más eficientes de hacer negocios. 
 Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, 
combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la 
información inmediatamente y tomar decisiones basadas en lo que han aprendido. 
 Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la 
satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica 
de Big Data, más empresas están creando nuevos productos para satisfacer las necesidades de los 
clientes. 
Consulta a un experto cómo implementar un proyecto de Gobierno de datos y garantizar el 
cumplimiento de las normativas 
Por ejemplo: 
 Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la satisfacción 
del cliente puede ser difícil de medir, especialmente en el momento oportuno. Resorts y casinos, por 
ejemplo, sólo tienen una pequeña oportunidad de dar la vuelta a una mala experiencia de cliente. El 
análisis de Big data ofrece a estas empresas la capacidad de recopilar datos de los clientes, aplicar 
análisis e identificar inmediatamente posibles problemas antes de que sea demasiado tarde. 
 Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria. Los 
registros de pacientes, planes de salud, información de seguros y otros tipos de información pueden 
ser difíciles de manejar, pero están llenos de información clave una vez que se aplican las analíticas. 
Es por eso que la tecnología de análisis de datos es tan importante para el cuidado de la salud. Al 
analizar grandes cantidades de información - tanto estructurada como no estructurada - 
rápidamente, se pueden proporcionar diagnósticos u opciones de tratamiento casi de inmediato. 
 Administración: La administración se encuentra ante un gran desafío: mantener la calidad y la 
productividad con unos presupuestos ajustados. Esto es particularmente problemático con lo 
relacionado con la justicia. La tecnología agiliza las operaciones mientras que da a la administración 
una visión más holística de la actividad. 
 Retail: El servicio al cliente ha evolucionado en los últimos años, ya que los compradores más 
inteligentes esperan que los minoristas comprendan exactamente lo que necesitan, cuando lo 
necesitan. El Big Data ayuda a los minoristas a satisfacer esas demandas. Armados con cantidades 
interminables de datos de programas de fidelización de clientes, hábitos de compra y otras fuentes, 
los minoristas no sólo tienen una comprensión profunda de sus clientes, sino que también pueden 
predecir tendencias, recomendar nuevos productos y aumentar la rentabilidad. 
 Empresas manufactureras: Estas despliegan sensores en sus productos para recibir datos de 
telemetría. A veces esto se utiliza para ofrecer servicios de comunicaciones, seguridad y 
https://www.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas-de-la-arquitectura-de-Hadoop
https://www.powerdata.es/cs/c/?cta_guid=d280ada4-7f09-4a65-a884-ceb9fdfd7da2&placement_guid=86fed0bf-49ab-4743-a270-aff8e5706334&portal_id=239039&canon=https%3A%2F%2Fwww.powerdata.es%2Fbig-data&redirect_url=APefjpED6D9HjWD66sfr6LItbuzkfxLKGwhatzXssP04h8hV6gSnSfW-5JulHJx-3HP1zwrR2--MXb8odBQWy_L59nHZyrATfoeNhTqc8dxP8pCFz0lmBjHZeKDsrSj_zh6SmaIyuAVX9CKMU-7z4mTNEJ8jbeHV5iFD5Y1th3dm_ZPcWnIV4jNlw6twx6fh8JPQyAfE2hE8svibVu8ouGPzPk2GFat_-8YdyPMEpgumQz_yNo6ejQ2s7lloIiCjVbp1LvVeCddDhc_atbHBxvHVmq-JiCWLgI45wn7W7YgTx69Jg9ArXg0&click=310901d5-0f9b-44d5-b01d-4d8b39438f62&hsutk=7c9a53d4597a0263d8ea847d04fd3c79&signature=AAH58kF1kukNNQSLEK7IBAY70yKjSwfFzA&utm_referrer=https%3A%2F%2Fwww.google.co.ve%2F&pageId=4994121222https://www.powerdata.es/cs/c/?cta_guid=d280ada4-7f09-4a65-a884-ceb9fdfd7da2&placement_guid=86fed0bf-49ab-4743-a270-aff8e5706334&portal_id=239039&canon=https%3A%2F%2Fwww.powerdata.es%2Fbig-data&redirect_url=APefjpED6D9HjWD66sfr6LItbuzkfxLKGwhatzXssP04h8hV6gSnSfW-5JulHJx-3HP1zwrR2--MXb8odBQWy_L59nHZyrATfoeNhTqc8dxP8pCFz0lmBjHZeKDsrSj_zh6SmaIyuAVX9CKMU-7z4mTNEJ8jbeHV5iFD5Y1th3dm_ZPcWnIV4jNlw6twx6fh8JPQyAfE2hE8svibVu8ouGPzPk2GFat_-8YdyPMEpgumQz_yNo6ejQ2s7lloIiCjVbp1LvVeCddDhc_atbHBxvHVmq-JiCWLgI45wn7W7YgTx69Jg9ArXg0&click=310901d5-0f9b-44d5-b01d-4d8b39438f62&hsutk=7c9a53d4597a0263d8ea847d04fd3c79&signature=AAH58kF1kukNNQSLEK7IBAY70yKjSwfFzA&utm_referrer=https%3A%2F%2Fwww.google.co.ve%2F&pageId=4994121222
navegación. Ésta telemetría también revela patrones de uso, tasas de fracaso y otras oportunidades 
de mejora de productos que pueden reducir los costos de desarrollo y montaje. 
 Publicidad: La proliferación de teléfonos inteligentes y otros dispositivos GPS ofrece a los 
anunciantes la oportunidad de dirigirse a los consumidores cuando están cerca de una tienda, una 
cafetería o un restaurante. Esto abre nuevos ingresos para los proveedores de servicios y ofrece a 
muchas empresas la oportunidad de conseguir nuevos prospectos. 
 Otros ejemplos del uso efectivo de Big Data existen en las siguientes áreas: 
o Uso de registros de logs de TI para mejorar la resolución de problemas de TI, así como la 
detección de infracciones de seguridad, velocidad, eficacia y prevención de sucesos futuros. 
o Uso de la voluminosa información histórica de un Call Center de forma rápida, con el fin de mejorar 
la interacción con el cliente y aumentar su satisfacción. 
o Uso de contenido de medios sociales para mejorar y comprender más rápidamente el sentimiento 
del cliente y mejorar los productos, los servicios y la interacción con el cliente. 
o Detección y prevención de fraudes en cualquier industria que procese transacciones financieras 
online, tales como compras, actividades bancarias, inversiones, seguros y atención médica. 
o Uso de información de transacciones de mercados financieros para evaluar más rápidamente el 
riesgo y tomar medidas correctivas. 
 
3. Desafíos de la calidad de datos en Big Data 
Las especiales características del Big Data hacen que su calidad de datos se enfrente a múltiples 
desafíos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad, Variedad, Veracidad y Valor, que 
definen la problemática del Big Data. 
Estas 5 características del big data provocan que las empresas tengan problemas para extraer datos 
reales y de alta calidad, de conjuntos de datos tan masivos, cambiantes y complicados. 
Accede GRATIS al Webinar sobre calidad de datos en el mundo Big Data 
Hasta la llegada del Big Data, mediante ETL podíamos cargar la información estructurada que 
teníamos almacenada en nuestro sistema ERP y CRM, por ejemplo. Pero ahora, podemos cargar 
información adicional que ya no se encuentra dentro de los dominios de la empresa: comentarios o 
likes en redes sociales, resultados de campañas de marketing, datos estadísticos de terceros, 
etc. Todos estos datos nos ofrecen información que nos ayuda a saber si nuestros productos o 
servicios están funcionando bien o por el contrario están teniendo problemas. 
Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son: 
1. Muchas fuentes y tipos de datos 
Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integración de datos 
aumenta. 
Las fuentes de datos de big data son muy amplias: 
 Datos de internet y móviles. 
 Datos de Internet de las Cosas. 
 Datos sectoriales recopilados por empresas especializadas. 
 Datos experimentales. 
https://www.powerdata.es/calidad-de-datos
https://www.powerdata.es/cs/c/?cta_guid=8822cc45-ef3d-4f93-8c90-0a397f554869&placement_guid=e3479b19-8160-4c78-bc0e-1bccf3db54ab&portal_id=239039&canon=https%3A%2F%2Fwww.powerdata.es%2Fbig-data&redirect_url=APefjpGZYG8KkOslmzEcV34iOsnbdHyakkLjsWEu3YnN4LLw2tuzpDaimxC7jL94VLD6qqLFZokQCO8sYLHSCpTBQbWdJeTHggOhui4IxHaD4oVqrii0M44-_gGo8GVdWxgMLIQ2-fZAsI7FcbCuOdKbzs2gcXhlqbZKW5OCRUQaczMdR0fUtteafpwqybhIiY5BbLXz_M0vgQBTdSVVx2MyHDS76ENeNrZvVyqSXSEYRVLIMR1Ce8ghYQYzpFPHOmqxiBC1fG1o1Xu7ihr7F1VNeov_i-qUlw&click=c55e5c9d-8bff-45eb-b96b-cb9048a00575&hsutk=7c9a53d4597a0263d8ea847d04fd3c79&signature=AAH58kG3RIx_SOKBMVyHVWLMegPXRv9A-g&utm_referrer=https%3A%2F%2Fwww.google.co.ve%2F&pageId=4994121222
Y los tipos de datos también lo son: 
1. Tipos de datos no estructurados: documentos, vídeos, audios, etc. 
2. Tipos de datos semi-estructurados: software, hojas de cálculo, informes. 
3. Tipos de datos estructurados 
Solo el 20% de información es estructurada y eso puede provocar muchos errores si no acometemos 
un proyecto de calidad de datos. 
2. Tremendo volumen de datos 
Como ya hemos visto, el volumen de datos es enorme, y eso complica la ejecución de un proceso de 
calidad de datos dentro de un tiempo razonable. 
Es difícil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rápida. Se necesita 
mucho tiempo para transformar los tipos no estructurados en tipos estructurados y procesar esos 
datos. 
3. Mucha volatilidad 
Los datos cambian rápidamente y eso hace que tengan una validez muy corta. Para solucionarlo 
necesitamos un poder de procesamiento muy alto. 
 
Si no lo hacemos bien, el procesamiento y análisis basado en estos datos puede producir conclusiones 
erróneas, que pueden llevar a cometer errores en la toma de decisiones. 
4. No existen estándares de calidad de datos unificados 
En 1987 la Organización Internacional de Normalización (ISO) publicó las normas ISO 9000 para 
garantizar la calidad de productos y servicios. Sin embargo, el estudio de los estándares de calidad de 
los datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando ISO publicó las normas de 
calidad de datos ISO 8000. 
Estas normas necesitan madurar y perfeccionarse. Además, la investigación sobre la calidad de datos 
de big data ha comenzado hace poco y no hay apenas resultados. 
La calidad de datos de big data es clave, no solo para poder obtener ventajas competitivas sino 
también impedir que incurramos en graves errores estratégicos y operacionales basándonos en datos 
erróneos con consecuencias que pueden llegar a ser muy graves. 
¿No sabes cómo empezar tu proyecto de Big Data? Resuelve tus dudas con un experto 
4. Cómo construir un plan de Data Governance en Big data 
Gobernabilidad significa asegurarse de que los datos estén autorizados, organizados y con los 
permisos de usuario necesarios en una base de datos, con el menor número posible de errores, 
manteniendo al mismo tiempo la privacidad y la seguridad. 
Esto no parece un equilibrio fácil de conseguir, sobre todo cuando la realidad de dónde y cómo los 
datos se alojan y procesan está en constante movimiento. 
https://www.powerdata.es/cs/c/?cta_guid=489db2d8-41c6-4087-87f6-ce2028bb3c95&placement_guid=e38d631a-b512-40d8-b625-fcf132a6c7ee&portal_id=239039&canon=https%3A%2F%2Fwww.powerdata.es%2Fbig-data&redirect_url=APefjpHc96YAf3Sp8MlClw5HmbHmdXpH3ElmYy43U4E00AdFwKtsUUCfl5GRa7E8Ry4hqQKuPlMLjnVMLAEnmtnpMCwL4wMXQ4EumK108Ys8Nb6WXZtFtlVz-aov0lb00DwbJ8fhHEeBJm_Qp7vKNFe8j7q5c374vpkpPQAI3TXwTMD29xGdtmglip7G-zX5plbhSV4jHjiO3NhlckbLJP9cntDOEQEoUVWuBcoI4KWenpLzOhTRd1S95drPxGzuxcFu5jdf0T9rGi8CnQnbuTKwUwcEyKOww3YxCRVAEodw0wJzLRiViiUfj9hQ38yvlyyvFrG9Zp3f&click=6343b136-69b8-4dcd-b436-7bf5579e89f0&hsutk=7c9a53d4597a0263d8ea847d04fd3c79&signature=AAH58kFoy33UAopjaGJSBdRNl0VKjWJHiA&utm_referrer=https%3A%2F%2Fwww.google.co.ve%2F&pageId=4994121222
A continuación veremos algunos pasos recomendados al crear un plan de Data Governance en Big 
Data. 
1. Acceso y Autorización Granular a Datos 
No se puede tener un gobierno de datos efectivo sin controles granulares. 
Se pueden lograr estos controles granulares a través de las expresiones de control de acceso. Estas 
expresiones usan agrupación y lógica booleana para controlar el acceso y autorizaciónde datos 
flexibles, con permisos basados en roles y configuraciones de visibilidad. 
En el nivel más bajo, se protegen los datos confidenciales, ocultándolos, y en la parte superior, se 
tienen contratos confidenciales para científicos de datos y analistas de BI. Esto se puede hacer con 
capacidades de enmascaramiento de datos y diferentes vistas donde se bloquean los datos en bruto 
tanto como sea posible y gradualmente se proporciona más acceso hasta que, en la parte superior, se 
da a los administradores una mayor visibilidad. 
Se pueden tener diferentes niveles de acceso, lo que da una seguridad más integrada. 
2. Seguridad perimetral, protección de datos y autenticación integrada 
La gobernabilidad no ocurre sin una seguridad en el punto final de la cadena. Es importante construir 
un buen perímetro y colocar un cortafuegos alrededor de los datos, integrados con los sistemas y 
estándares de autenticación existentes. Cuando se trata de autenticación, es importante que las 
empresas se sincronicen con sistemas probados. 
 
Con la autenticación, se trata de ver cómo integrarse con LDAP [Lightweight Directory Access 
Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a herramientas 
como Kerberos para soporte de autenticación. Pero lo importante es no crear una infraestructura 
separada, sino integrarla en la estructura existente. 
3. Encriptación y Tokenización de Datos 
El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de datos que 
se está otorgando es asegúrese de que los archivos y la información personalmente identificable (PII) 
estén encriptados y tokenizados de extremo a extremo del pipeline de datos. 
Una vez superado el perímetro y con acceso al sistema, proteger los datos de PII es extremadamente 
importante. Es necesario encriptar esos datos de forma que, independientemente de quién tenga 
acceso a él, puedan ejecutar los análisis que necesiten sin exponer ninguno de esos datos. 
4. Constante Auditoría y Análisis 
La estrategia no funciona sin una auditoría. Ese nivel de visibilidad y responsabilidad en cada paso del 
proceso es lo que permite a la TI "gobernar" los datos en lugar de simplemente establecer políticas y 
controles de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus 
estrategias actualizadas en un entorno en el que la forma en que vemos los datos y las tecnologías 
que utilizamos para administrarlos y analizarlos están cambiando cada día. 
https://www.powerdata.es/enmascaramientode-datos
Estamos en la infancia de Big Data e IoT (Internet de Cosas), y es fundamental poder rastrear el 
acceso y reconocer patrones en los datos. 
La auditoría y el análisis pueden ser tan simples como el seguimiento de los archivos de JavaScript 
Object Notation (JSON). 
5. Una arquitectura de datos unificada 
En última instancia, el responsable de TI que supervisar la estrategia de administración de datos 
empresariales, debe pensar en los detalles del acceso granular, la autenticación, la seguridad, el 
cifrado y la auditoría. Pero no debe detenerse ahí. Más bien debe pensar en cómo cada uno de estos 
componentes se integra en su arquitectura de datos global. También debe pensar en cómo esa 
infraestructura va a necesitar ser escalable y segura, desde la recolección de datos y almacenamiento 
hasta BI, analítica y otros servicios de terceros. La gobernanza de los datos es tanto acerca de 
repensar la estrategia y la ejecución como sobre la propia tecnología. 
Va más allá de un conjunto de reglas de seguridad. Es una arquitectura única en la que se crean estos 
roles y se sincronizan a través de toda la plataforma y todas las herramientas que se aportan a ella.

Continuar navegando

Materiales relacionados

35 pag.
2

San Francisco De Uco

User badge image

ancrve03

31 pag.
Clase_6_Data_Mining

UNAM

User badge image

sanchezdavalos229

64 pag.
Clase_6_Data_Warehouse

UNAM

User badge image

sanchezdavalos229