Logo Studenta

M1_Big_Data

¡Este material tiene más páginas!

Vista previa del material en texto

Página 1 de 15 
 
Introducción al Big Data 
 
 
 
 
 
Página 2 de 15 
ÍNDICE 
 
MÓDULO 1: LA CULTURA DEL DATO ................................................ 3 
SECCIÓN 1: CONCEPTOS BÁSICOS ................................................ 3 
Introducción ............................................................................... 3 
Objetivos ..................................................................................... 3 
Tema 1: ¿Qué es el Big Data? .................................................. 3 
Tema 2: Big Data frente al análisis de datos tradicional ...... 6 
Resumen ..................................................................................... 7 
SECCIÓN 2: LOS DATOS Y LA TOMA DE DECISIONES ..................... 8 
Introducción ............................................................................... 8 
Objetivos ..................................................................................... 8 
Tema 1: La Inteligencia de Negocio ....................................... 8 
Tema 2: Empresas y AAPP data driven ................................. 11 
Tema 3: ¿Qué aportan los datos masivos a la toma de 
decisiones? ............................................................................... 13 
Resumen ................................................................................... 14 
 
 
 
 
Página 3 de 15 
Módulo 1: LA CULTURA DEL DATO 
Sección 1: CONCEPTOS BÁSICOS 
Introducción 
Vivimos inmersos en una sociedad de datos. Tan solo piensa en toda la 
información que se busca por Internet, en las transacciones bancarias on 
line que se realizan a diario, las canciones reproducidas en plataformas de 
pago, los mensajes instantáneos, etc... 
 
Todos estos grandes volúmenes de datos que permiten la toma de 
decisiones a las empresas y Administraciones Públicas se resumen en el 
término Big Data o datos masivos. 
Objetivos 
 Comprender la terminología relacionada con el Big Data. 
 Distinguir Big Data frente a otras opciones de tratamiento de datos. 
 Conocer ejemplos de Big Data. 
 
Tema 1: ¿Qué es el Big Data? 
El término Big Data es un concepto vinculado a la digitalización de la 
sociedad. Vivimos una era de la información donde gran parte de la 
población mundial accede a su banco por Internet, compra libros 
electrónicos, consulta webs a través de navegadores, etc.…. Entre otras 
acciones, con cada movimiento en la Red vamos dejando un rastro digital. 
Algunos expertos consideran que el Big Data es ese conjunto de datos 
masivos que requieren de tecnologías concretas para la captura, 
procesamiento y análisis de la información en un tiempo razonable. 
Esta definición, acuñada en los inicios del Big Data, también consideraba 
que el volumen de información había aumentado tanto y tan deprisa que 
su procesamiento exigía nuevas tecnologías. 
Hoy en día, se piensa que los Big Data, los datos masivos, se refieren a cosas 
que se pueden hacer a gran escala, pero no a una escala inferior, para 
extraer nuevas percepciones o crear nuevas formas de valor, de tal forma 
 
Página 4 de 15 
que transforman los mercados, las organizaciones y las relaciones entre 
los ciudadanos y los gobiernos. 1 
 
¿Qué empresas desarrollaron la tecnología necesaria para impulsar el Big 
Data? 
Las empresas capaces de desarrollar nuevas tecnologías de procesamiento 
fueron las compañías del mundo de Internet. Entre otras, Google o Yahoo 
porque contaban con una gran cantidad de datos, el conocimiento y los 
incentivos económicos para hacerlo. 
1. Ejemplo de datos masivos para combatir una pandemia: H1N1 
En marzo de 2009, un nuevo virus de la gripe, conocido H1N1, se expandió 
rápidamente por todo EEUU. 
El temor a una pandemia creció por todo el mundo porque en aquel 
momento no existía una vacuna contra el nuevo virus. 
Para ralentizar su propagación, los centros de control y prevención de 
enfermedades (CDC) en EEUU solicitaron a los médicos el aviso de todos los 
nuevos casos de gripe. 
La situación era de máxima preocupación porque la transmisión de la 
información llegaba con varias semanas de retraso a los CDC mientras la 
enfermedad se extendía a grandes capas de la población. 
En paralelo y sin relación alguna con el problema el virus H1N1, un equipo 
de ingenieros de Google publicó un estudio en la revista Nature. En este 
artículo, se explicaba la posibilidad de predecir la propagación de la gripe 
invernal, analizando la búsqueda de palabras relacionadas. 
Los datos procedían de más de tres mil millones de consultas archivadas, lo 
que les permitía estimar la extensión de la enfermedad con todo detalle. 
 
1 Fuente: Big Data - La Revolución De Los Datos Masivos de Viktor Mayer-Schönberger y Kenneth 
Cukier 
 
 
Página 5 de 15 
Para frenar las secuelas de la gripe H1N1 entre la población, Google puso a 
disposición de las autoridades médicos toda su capacidad para sacar 
partido de los datos masivos. 
El objetivo de Google era identificar a los enfermos de gripe por las 
búsquedas hechas en internet. Para ello, recurrió a los cincuenta millones 
de búsquedas más comunes sobre esta enfermedad y los cruzó con los 
datos de los afectados por la gripe entre 2007 y 2008. De esta manera, 
fueron capaces de dar con modelos matemáticos de predicción de esta 
enfermedad casi en tiempo real. 
 
 
2. ¿Cuándo se empieza a generar este gran volumen de información? 
La generación de grandes volúmenes de datos se produce cuando parte de 
la población mundial puede acceder a Internet. A mediados de los noventa, 
navegadores como Netscape, Explorer o Firefox; desarrollaron los recursos 
de búsqueda para que los usuarios pudieran encontrar contenido de interés 
en la Red. 
En este nuevo escenario, Internet también se convirtió en una fuente de 
información para muchas organizaciones. Los datos corporativos dejan de 
ser la única fuente de conocimiento para la toma de decisiones. 
En la actualidad, podemos obtener diversos datos de personas, lugares y 
objetos en tiempo real. Se comparten datos entre diversos dispositivos a 
través de tecnologías de conexión inalámbrica, se obtienen datos de 
sensores biométricos, de transacciones de e-commerce o financieras, etc. 
Este volumen masivo de datos permite generar conocimiento para abordar 
problemas de salud, búsqueda de nuevos servicios o soluciones a retos 
medioambientales. 
La inteligencia de datos se ha convertido en un medio para abordar 
problemas que antes no era posible resolver en un corto período de tiempo. 
 
 
Página 6 de 15 
Tema 2: Big Data frente al análisis de datos 
tradicional 
La metodología tradicional de análisis de datos se centra principalmente 
en la capacidad para extraer patrones de datos históricos de diversos 
sistemas de información dentro de la empresa. 
Estos datos consolidados se almacenan en grandes repositorios 
denominados data warehouse o almacenes de datos. La interacción con 
herramientas de inteligencia de negocio permite tratar la información 
procedente de base de datos relacionales u otras fuentes. 
1. Características del análisis tradicional de datos: 
 El proceso de agrupamiento de la información es regular pero no 
admite flujos continuos de datos. 
 Estos datos no se modifican en tiempo real. 
 Los informes y herramientas de cuadro de mando se analizan 
generalmente en modo off-line. 
 
2. Ejemplo de uso de data warehouse: 
Los sectores que han destacado por contar con dataware house 
corporativos a nivel mundial son: 
 Fabricantes de bienes de consumo masivo, entre otras, empresas de 
producción de electrodomésticos, multinacionales de bebidas 
gaseosas, de productos cosméticos o cuidado del cuerpo. 
 Transporte de mercancías y pasajeros. Tanto las líneas aéreas como 
las empresas de entrega de mercancías acumulan series históricas de 
datos de transportede mercancía, de clientes frecuentes, de costes, 
ventas y márgenes comerciales. 
 Telecomunicaciones: Las empresas de este sector utilizan sus data 
warehouse para almacenar datos de todos sus clientes: facturación, 
duración y destino de las llamadas o servicios de telefonía más 
utilizados. 
 Organismos públicos vinculados a la recaudación de impuestos y a la 
distribución de energía, gas o agua. 
 
 
Página 7 de 15 
3. ¿Qué aporta el Big Data frente al análisis tradicional de datos? 
El Big Data permite analizar muchos más datos, de fuentes diversas y casi 
en tiempo real. Actualmente, además de los datos estructurados 
capturados en los sistemas de información propios de las organizaciones, 
se generan millones de datos en dispositivos y máquinas que utilizamos a 
diario. 
4. Ejemplos: 
 Los libros electrónicos informan sobre nuestras pautas de lectura y 
nuestros gustos literarios. Lo qué hemos leído, lo que hemos dejado 
a medias y los libros de la misma categoría que hemos comprado más 
tarde. 
Suele ser información anónima, pero de gran valor económico. 
Cualquier editorial está dispuesta a pagar por conocer con antelación 
las posibilidades de éxito de un determinado libro electrónico. 
 Otro dispositivo que ofrece un gran caudal de datos es el teléfono 
móvil. Consultamos el tiempo, pagamos la compra en el 
supermercado, subimos una foto a una red social, etc. Nos acompaña 
prácticamente las 24 horas y lo utilizamos para muchas actividades 
diarias. 
 
Resumen 
El cambio en la forma de consumo de bienes y servicios permite recoger y 
clasificar información de forma permanente. Los datos se han convertido 
en un recurso abundante y valioso del que se extraen beneficios 
económicos y sociales. 
Generamos y consumimos información durante las 24 horas, en unas 
cantidades nunca antes vistas. Nuestra operativa diaria está basada en la 
cultura del dato. 
 
 
Página 8 de 15 
Sección 2: LOS DATOS Y LA TOMA DE DECISIONES 
Introducción 
Actualmente, todas las organizaciones grandes o pequeñas necesitan tomar 
decisiones más rápidas y mejores con la información recogida a través de 
sus procesos de captura de información. El concepto que abarca todo este 
proceso se denomina Inteligencia de Negocio o Business Intelligence (BI). 
Objetivos 
 Realizar un acercamiento el concepto de inteligencia de negocios o 
Business Intelligence. 
 Conocer cómo funcionan las organizaciones data driven (impulsadas 
por datos). 
 Saber diferenciar lo que es Big Data y lo que es Business 
Intelligence. 
 
Tema 1: La Inteligencia de Negocio 
Definición: 
El término Inteligencia de Negocio o Business Intelligence se refiere a 
“conceptos y métodos para mejorar las decisiones de negocio mediante el 
uso de sistemas de soporte basados en hechos” según la definición 
realizada en los años 80 por Howard Dresden (analista de la consultora de 
negocios Gartner). 
Cómo funciona: 
La inteligencia de negocios abarca gran cantidad de tecnologías, 
metodologías, procesos y estrategia que sirven de apoyo a la toma de 
decisiones de negocio. 
Se trata de un análisis interno, donde se consultan datos agregados de 
ventas, evolución del mercado o situación financiera, facilitados por los 
diferentes repositorios de información de una compañía (software de 
gestión de relaciones con clientes, de planificación de recursos 
empresariales o de Recursos Humanos) 
 
 
Página 9 de 15 
Para qué sirve: 
La inteligencia de negocio (BI) permite configurar y modelar situaciones 
futuras. La representación de estas tendencias se suele organizar en 
diferentes formatos: cuadros de mando, paneles de indicadores 
comerciales, etc. 
El objetivo de todo proceso de inteligencia de negocio es generar 
conocimiento interno que sirva de apoyo en la planificación estratégica de 
la organización 
Etapas de un proceso de Inteligencia 
 
Ejemplo: 
A mediados de los 90, Tesco, una cadena de supermercado en Reino Unido, 
fue una de las primeras compañías en implantar un método propio de 
inteligencia de negocio. Como otras empresas del sector, contaba con su 
propio programa de fidelización llamado Clubcard. 
El proceso de análisis comenzaba cuando un cliente hacía su compra y 
entregaba su tarjeta para acumular puntos. Con la información obtenida, 
clasificaba a los clientes por el tipo de compra para ofrecerles descuentos 
personalizados. 
Situación actual: 
Las técnicas y herramientas de BI y la tecnología Big Data son 
complementarias. El Big Data permite el almacenamiento, procesamiento y 
visualización de grandes volúmenes de datos. Las herramientas de BI 
Extracción de 
datos
Análisis de 
datos en 
bruto 
Conversión 
de los datos 
en ideas
Cuadro de 
mando 
 
Página 10 de 15 
utilizarán estos datos reales para realizar análisis predictivos que ayudarán 
a la toma de decisiones estratégicas. 
 
Comparativa BIG DATA y BI: 
 
Business Intelligence 
 
 
Big Data 
 
Extrae información de datos 
propios de la organización. Se trata 
de información estructurada, 
 
 
No distingue entre tipos de datos. 
Solo los clasifica en información 
estructurada (Datos internos) o no 
estructurada (internet, redes 
sociales, portales de datos abiertos, 
etc.) 
 
Aprovecha sistemas de información 
propios para recopilar, almacenar y 
analizar datos 
Los datos obtenidos por el Big Data 
pueden ser históricos o recogerse 
de otras fuentes en tiempo real 
(máquinas, móviles, redes sociales, 
sensores, etc.) 
 
 
Permite contestar de forma rápida 
a las preguntas habituales de 
cualquier negocio, analizando los 
datos del pasado, pero sin poder 
influir en lo sucedido. 
 
Permite descubrir patrones ocultos 
de información y tendencias de 
comportamiento de los usuarios 
para detectar áreas de negocio de 
futuro 
Contribuye a que una organización 
se pueda plantear preguntas que 
no conoce de antemano. Hablamos 
de una gestión predictiva. 
 
 
 
Página 11 de 15 
 
Tema 2: Empresas y AAPP data driven 
Una organización pública o empresa es data driven cuando la gestión de sus 
procesos está impulsada por datos, es decir, cuando examina y organiza su 
información con el fin de dar un mejor servicio a sus clientes o ciudadanos. 
Cómo funciona una organización data driven: 
 Las decisiones estratégicas se basan en datos verificables. 
 Los datos se convierten en elementos decisivos en los procesos de 
toma de decisiones. 
 Las herramientas data driven permiten tratar la información en 
tiempo real. 
 
Beneficios: 
Cuando una organización se apoya en los datos para tomar decisiones, 
consigue personalizar los servicios que ofrece y ajustar sus predicciones. 
Una cultura data driven permite llegar a un conocimiento preciso de las 
necesidades del usuario porque el análisis de su comportamiento ya no se 
basa en el muestreo. No necesitamos coger tan solo una representación 
cuando podemos a toda la población que la representa. 
¿Por qué sucede esto? 
Con la capacidad de procesamiento de los ordenadores podemos recoger 
toda la información que ofrecen los sensores, los GPS de los teléfonos 
móviles, los clics en la red o en las redes sociales. 
Según se señala en el libro Big Data - La Revolución De Los Datos Masivos: 
“El concepto del muestreo no tiene ya el mismo sentido cuando resulta 
posible explotar grandes cantidades de datos” 
Ejemplos: 
Las empresas data driven más conocidas son aquellas vinculadas a Internet, 
entre otras, Google, Amazon, Facebook y LinkedIn pero la mayoría de 
 
Página 12 de 15 
expertos coinciden señalar en que fue Wallmart la pionera en el uso de los 
datos. 
Wallmart 
En los años setenta, esta empresa de origen norteamericano de venta 
minorista, fue una de las primeras compañías en enfocar su estrategia de 
negocio en la recogida y tratamiento de los datos en grandes data 
warehouse. Desde entonces ha sido un referente por su capacidad de 
extraer valorde los datos. 
En los años ochenta, incorporó el lector de códigos de barra en las cajas 
registradoras. Su objetivo era conocer las ventas y como la ubicación del 
producto en los lineales impactaba en la venta. También entendió que 
necesitaba conocer los factores que influían en las ventas estacionales y las 
diferencias en la demanda dependiendo de la región geográfica. A medida 
que el número de tiendas y el volumen de productos crecían, la gestión del 
inventario se complicaba. Gracias a los datos históricos acumulados en 
combinación con modelos predictivos, la compañía pudo gestionar este 
pico de crecimiento. Para rebajar los tiempos en toma de decisiones, 
invirtió en RFID, tecnología de identificación por radiofrecuencia que 
permite la identificación de la mercancía. 
Google 
Esta compañía tecnológica estadounidense cuenta con miles de servidores 
y centros de datos distribuidos por todo el mundo. A través de su navegador 
web procesa millones de peticiones de búsqueda diarias. 
Pero además de buscador, también es una plataforma de publicidad donde 
los anunciantes pagan por los clics de búsqueda de los usuarios. 
Google ofrece un modelo de datos con las búsquedas o clics de cada usuario 
lo que facilita la toma de decisiones a las empresas anunciantes. La 
atribución basada en datos informa del modo en que los usuarios realizan 
una determinada búsqueda de un producto, de una web o empresa. 
 
 
Página 13 de 15 
Tema 3: ¿Qué aportan los datos masivos a la toma 
de decisiones? 
 
Los macro datos o Big Data permiten acumular información con el objetivo 
de predecir decisiones o necesidades de clientes o ciudadanos. Los datos 
masivos son útiles porque predicen hechos futuros. Esto se consigue por la 
aplicación de modelos matemáticos a grandes cantidades de datos con los 
que poder inferir determinadas probabilidades de que algo ocurra. 
 
Ventajas del Big Data: 
 Conocimiento del mercado: Las decisiones empresariales se toman 
con un conjunto amplio de datos. Se elimina el riesgo de error de una 
muestra aleatoria. 
 Disminución de costes: Permite ajustar la demanda en tiempo real. 
 Rapidez en la toma de decisiones: Los datos se reciben y procesan en 
tiempo real. 
 
Ejemplo de la aportación de datos masivos a las decisiones: 
La ciudad de Nueva York debía enfrentarse cada año a la explosión de 
múltiples tapas de registro eléctrico por incendios provocados en el interior 
de la red subterránea. En ocasiones, estas tapas al explotar, saltaban por 
los aires generando un gran riesgo para la población. 
La empresa proveedora de servicios de electricidad, gas y calefacción 
Consolidated Edison Company of New York, Inc. se ocupaba del 
mantenimiento, pero no tenía un criterio definido para inspeccionar las 
tapas más peligrosas. 
En el año 2007, la empresa decidió dirigirse a la Universidad de Columbia 
para que le diseñara un modelo de predicción. 
• Se trataba de analizar los resultados de 150.000 Km de cables (el 5% 
anterior a 1930) y más de 50.000 acometidas. 
• Contaban con los datos sobre los cables y las inspecciones desde 
1880. 
• Los investigadores utilizaron toda la información disponible y no 
partieron de un modelo previo. 
 
Página 14 de 15 
• Elaboraron 106 indicadores para identificar las más problemáticas. 
• Al final, identificaron dos factores fundamentales: antigüedad del 
cable y tapas a las que ya se habían detectado problemas. 
• Los resultados permitieron a la empresa elaborar un ranking con las 
tapas con más probabilidades de explosión. 
 
¿Qué interesa extraer de este ejemplo? 
• La presencia de datos masivos. 
• Datos no obtenidos con un fin para el que se utilizan. 
• Es la población, no son muestras. 
• Los datos se ofrecen “en bruto”, no hay intermediarios. 
• Necesidad de gran capacidad de proceso y de personal altamente 
cualificado. 
• La posibilidad de encontrar lo que “no sabemos que no sabemos”. 
 
 
Resumen 
El término Inteligencia de Negocios o Business Intelligence aúna dos 
conceptos claves para cualquier organización: análisis de datos e 
información interna. Con estas dos variables y técnicas de análisis 
predictivo, cualquier compañía está en condiciones de tomar decisiones 
comerciales, logísticas e incluso estratégicas. 
Tanto la inteligencia de negocios como el Big Data se ocupan de transformar 
datos en decisiones, pero lo hacen con fuentes de información distintas. 
Los datos masivos del Big Data proceden de fuentes diversas: redes sociales 
como Facebook, Twitter, blogs, de sensores, dispositivos GPS, etc... Por el 
contrario, BI suele recoger conjuntos de datos propios de la organización. 
 
 
 
 
Página 15 de 15

Continuar navegando