Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Página 1 de 15 Introducción al Big Data Página 2 de 15 ÍNDICE MÓDULO 1: LA CULTURA DEL DATO ................................................ 3 SECCIÓN 1: CONCEPTOS BÁSICOS ................................................ 3 Introducción ............................................................................... 3 Objetivos ..................................................................................... 3 Tema 1: ¿Qué es el Big Data? .................................................. 3 Tema 2: Big Data frente al análisis de datos tradicional ...... 6 Resumen ..................................................................................... 7 SECCIÓN 2: LOS DATOS Y LA TOMA DE DECISIONES ..................... 8 Introducción ............................................................................... 8 Objetivos ..................................................................................... 8 Tema 1: La Inteligencia de Negocio ....................................... 8 Tema 2: Empresas y AAPP data driven ................................. 11 Tema 3: ¿Qué aportan los datos masivos a la toma de decisiones? ............................................................................... 13 Resumen ................................................................................... 14 Página 3 de 15 Módulo 1: LA CULTURA DEL DATO Sección 1: CONCEPTOS BÁSICOS Introducción Vivimos inmersos en una sociedad de datos. Tan solo piensa en toda la información que se busca por Internet, en las transacciones bancarias on line que se realizan a diario, las canciones reproducidas en plataformas de pago, los mensajes instantáneos, etc... Todos estos grandes volúmenes de datos que permiten la toma de decisiones a las empresas y Administraciones Públicas se resumen en el término Big Data o datos masivos. Objetivos Comprender la terminología relacionada con el Big Data. Distinguir Big Data frente a otras opciones de tratamiento de datos. Conocer ejemplos de Big Data. Tema 1: ¿Qué es el Big Data? El término Big Data es un concepto vinculado a la digitalización de la sociedad. Vivimos una era de la información donde gran parte de la población mundial accede a su banco por Internet, compra libros electrónicos, consulta webs a través de navegadores, etc.…. Entre otras acciones, con cada movimiento en la Red vamos dejando un rastro digital. Algunos expertos consideran que el Big Data es ese conjunto de datos masivos que requieren de tecnologías concretas para la captura, procesamiento y análisis de la información en un tiempo razonable. Esta definición, acuñada en los inicios del Big Data, también consideraba que el volumen de información había aumentado tanto y tan deprisa que su procesamiento exigía nuevas tecnologías. Hoy en día, se piensa que los Big Data, los datos masivos, se refieren a cosas que se pueden hacer a gran escala, pero no a una escala inferior, para extraer nuevas percepciones o crear nuevas formas de valor, de tal forma Página 4 de 15 que transforman los mercados, las organizaciones y las relaciones entre los ciudadanos y los gobiernos. 1 ¿Qué empresas desarrollaron la tecnología necesaria para impulsar el Big Data? Las empresas capaces de desarrollar nuevas tecnologías de procesamiento fueron las compañías del mundo de Internet. Entre otras, Google o Yahoo porque contaban con una gran cantidad de datos, el conocimiento y los incentivos económicos para hacerlo. 1. Ejemplo de datos masivos para combatir una pandemia: H1N1 En marzo de 2009, un nuevo virus de la gripe, conocido H1N1, se expandió rápidamente por todo EEUU. El temor a una pandemia creció por todo el mundo porque en aquel momento no existía una vacuna contra el nuevo virus. Para ralentizar su propagación, los centros de control y prevención de enfermedades (CDC) en EEUU solicitaron a los médicos el aviso de todos los nuevos casos de gripe. La situación era de máxima preocupación porque la transmisión de la información llegaba con varias semanas de retraso a los CDC mientras la enfermedad se extendía a grandes capas de la población. En paralelo y sin relación alguna con el problema el virus H1N1, un equipo de ingenieros de Google publicó un estudio en la revista Nature. En este artículo, se explicaba la posibilidad de predecir la propagación de la gripe invernal, analizando la búsqueda de palabras relacionadas. Los datos procedían de más de tres mil millones de consultas archivadas, lo que les permitía estimar la extensión de la enfermedad con todo detalle. 1 Fuente: Big Data - La Revolución De Los Datos Masivos de Viktor Mayer-Schönberger y Kenneth Cukier Página 5 de 15 Para frenar las secuelas de la gripe H1N1 entre la población, Google puso a disposición de las autoridades médicos toda su capacidad para sacar partido de los datos masivos. El objetivo de Google era identificar a los enfermos de gripe por las búsquedas hechas en internet. Para ello, recurrió a los cincuenta millones de búsquedas más comunes sobre esta enfermedad y los cruzó con los datos de los afectados por la gripe entre 2007 y 2008. De esta manera, fueron capaces de dar con modelos matemáticos de predicción de esta enfermedad casi en tiempo real. 2. ¿Cuándo se empieza a generar este gran volumen de información? La generación de grandes volúmenes de datos se produce cuando parte de la población mundial puede acceder a Internet. A mediados de los noventa, navegadores como Netscape, Explorer o Firefox; desarrollaron los recursos de búsqueda para que los usuarios pudieran encontrar contenido de interés en la Red. En este nuevo escenario, Internet también se convirtió en una fuente de información para muchas organizaciones. Los datos corporativos dejan de ser la única fuente de conocimiento para la toma de decisiones. En la actualidad, podemos obtener diversos datos de personas, lugares y objetos en tiempo real. Se comparten datos entre diversos dispositivos a través de tecnologías de conexión inalámbrica, se obtienen datos de sensores biométricos, de transacciones de e-commerce o financieras, etc. Este volumen masivo de datos permite generar conocimiento para abordar problemas de salud, búsqueda de nuevos servicios o soluciones a retos medioambientales. La inteligencia de datos se ha convertido en un medio para abordar problemas que antes no era posible resolver en un corto período de tiempo. Página 6 de 15 Tema 2: Big Data frente al análisis de datos tradicional La metodología tradicional de análisis de datos se centra principalmente en la capacidad para extraer patrones de datos históricos de diversos sistemas de información dentro de la empresa. Estos datos consolidados se almacenan en grandes repositorios denominados data warehouse o almacenes de datos. La interacción con herramientas de inteligencia de negocio permite tratar la información procedente de base de datos relacionales u otras fuentes. 1. Características del análisis tradicional de datos: El proceso de agrupamiento de la información es regular pero no admite flujos continuos de datos. Estos datos no se modifican en tiempo real. Los informes y herramientas de cuadro de mando se analizan generalmente en modo off-line. 2. Ejemplo de uso de data warehouse: Los sectores que han destacado por contar con dataware house corporativos a nivel mundial son: Fabricantes de bienes de consumo masivo, entre otras, empresas de producción de electrodomésticos, multinacionales de bebidas gaseosas, de productos cosméticos o cuidado del cuerpo. Transporte de mercancías y pasajeros. Tanto las líneas aéreas como las empresas de entrega de mercancías acumulan series históricas de datos de transportede mercancía, de clientes frecuentes, de costes, ventas y márgenes comerciales. Telecomunicaciones: Las empresas de este sector utilizan sus data warehouse para almacenar datos de todos sus clientes: facturación, duración y destino de las llamadas o servicios de telefonía más utilizados. Organismos públicos vinculados a la recaudación de impuestos y a la distribución de energía, gas o agua. Página 7 de 15 3. ¿Qué aporta el Big Data frente al análisis tradicional de datos? El Big Data permite analizar muchos más datos, de fuentes diversas y casi en tiempo real. Actualmente, además de los datos estructurados capturados en los sistemas de información propios de las organizaciones, se generan millones de datos en dispositivos y máquinas que utilizamos a diario. 4. Ejemplos: Los libros electrónicos informan sobre nuestras pautas de lectura y nuestros gustos literarios. Lo qué hemos leído, lo que hemos dejado a medias y los libros de la misma categoría que hemos comprado más tarde. Suele ser información anónima, pero de gran valor económico. Cualquier editorial está dispuesta a pagar por conocer con antelación las posibilidades de éxito de un determinado libro electrónico. Otro dispositivo que ofrece un gran caudal de datos es el teléfono móvil. Consultamos el tiempo, pagamos la compra en el supermercado, subimos una foto a una red social, etc. Nos acompaña prácticamente las 24 horas y lo utilizamos para muchas actividades diarias. Resumen El cambio en la forma de consumo de bienes y servicios permite recoger y clasificar información de forma permanente. Los datos se han convertido en un recurso abundante y valioso del que se extraen beneficios económicos y sociales. Generamos y consumimos información durante las 24 horas, en unas cantidades nunca antes vistas. Nuestra operativa diaria está basada en la cultura del dato. Página 8 de 15 Sección 2: LOS DATOS Y LA TOMA DE DECISIONES Introducción Actualmente, todas las organizaciones grandes o pequeñas necesitan tomar decisiones más rápidas y mejores con la información recogida a través de sus procesos de captura de información. El concepto que abarca todo este proceso se denomina Inteligencia de Negocio o Business Intelligence (BI). Objetivos Realizar un acercamiento el concepto de inteligencia de negocios o Business Intelligence. Conocer cómo funcionan las organizaciones data driven (impulsadas por datos). Saber diferenciar lo que es Big Data y lo que es Business Intelligence. Tema 1: La Inteligencia de Negocio Definición: El término Inteligencia de Negocio o Business Intelligence se refiere a “conceptos y métodos para mejorar las decisiones de negocio mediante el uso de sistemas de soporte basados en hechos” según la definición realizada en los años 80 por Howard Dresden (analista de la consultora de negocios Gartner). Cómo funciona: La inteligencia de negocios abarca gran cantidad de tecnologías, metodologías, procesos y estrategia que sirven de apoyo a la toma de decisiones de negocio. Se trata de un análisis interno, donde se consultan datos agregados de ventas, evolución del mercado o situación financiera, facilitados por los diferentes repositorios de información de una compañía (software de gestión de relaciones con clientes, de planificación de recursos empresariales o de Recursos Humanos) Página 9 de 15 Para qué sirve: La inteligencia de negocio (BI) permite configurar y modelar situaciones futuras. La representación de estas tendencias se suele organizar en diferentes formatos: cuadros de mando, paneles de indicadores comerciales, etc. El objetivo de todo proceso de inteligencia de negocio es generar conocimiento interno que sirva de apoyo en la planificación estratégica de la organización Etapas de un proceso de Inteligencia Ejemplo: A mediados de los 90, Tesco, una cadena de supermercado en Reino Unido, fue una de las primeras compañías en implantar un método propio de inteligencia de negocio. Como otras empresas del sector, contaba con su propio programa de fidelización llamado Clubcard. El proceso de análisis comenzaba cuando un cliente hacía su compra y entregaba su tarjeta para acumular puntos. Con la información obtenida, clasificaba a los clientes por el tipo de compra para ofrecerles descuentos personalizados. Situación actual: Las técnicas y herramientas de BI y la tecnología Big Data son complementarias. El Big Data permite el almacenamiento, procesamiento y visualización de grandes volúmenes de datos. Las herramientas de BI Extracción de datos Análisis de datos en bruto Conversión de los datos en ideas Cuadro de mando Página 10 de 15 utilizarán estos datos reales para realizar análisis predictivos que ayudarán a la toma de decisiones estratégicas. Comparativa BIG DATA y BI: Business Intelligence Big Data Extrae información de datos propios de la organización. Se trata de información estructurada, No distingue entre tipos de datos. Solo los clasifica en información estructurada (Datos internos) o no estructurada (internet, redes sociales, portales de datos abiertos, etc.) Aprovecha sistemas de información propios para recopilar, almacenar y analizar datos Los datos obtenidos por el Big Data pueden ser históricos o recogerse de otras fuentes en tiempo real (máquinas, móviles, redes sociales, sensores, etc.) Permite contestar de forma rápida a las preguntas habituales de cualquier negocio, analizando los datos del pasado, pero sin poder influir en lo sucedido. Permite descubrir patrones ocultos de información y tendencias de comportamiento de los usuarios para detectar áreas de negocio de futuro Contribuye a que una organización se pueda plantear preguntas que no conoce de antemano. Hablamos de una gestión predictiva. Página 11 de 15 Tema 2: Empresas y AAPP data driven Una organización pública o empresa es data driven cuando la gestión de sus procesos está impulsada por datos, es decir, cuando examina y organiza su información con el fin de dar un mejor servicio a sus clientes o ciudadanos. Cómo funciona una organización data driven: Las decisiones estratégicas se basan en datos verificables. Los datos se convierten en elementos decisivos en los procesos de toma de decisiones. Las herramientas data driven permiten tratar la información en tiempo real. Beneficios: Cuando una organización se apoya en los datos para tomar decisiones, consigue personalizar los servicios que ofrece y ajustar sus predicciones. Una cultura data driven permite llegar a un conocimiento preciso de las necesidades del usuario porque el análisis de su comportamiento ya no se basa en el muestreo. No necesitamos coger tan solo una representación cuando podemos a toda la población que la representa. ¿Por qué sucede esto? Con la capacidad de procesamiento de los ordenadores podemos recoger toda la información que ofrecen los sensores, los GPS de los teléfonos móviles, los clics en la red o en las redes sociales. Según se señala en el libro Big Data - La Revolución De Los Datos Masivos: “El concepto del muestreo no tiene ya el mismo sentido cuando resulta posible explotar grandes cantidades de datos” Ejemplos: Las empresas data driven más conocidas son aquellas vinculadas a Internet, entre otras, Google, Amazon, Facebook y LinkedIn pero la mayoría de Página 12 de 15 expertos coinciden señalar en que fue Wallmart la pionera en el uso de los datos. Wallmart En los años setenta, esta empresa de origen norteamericano de venta minorista, fue una de las primeras compañías en enfocar su estrategia de negocio en la recogida y tratamiento de los datos en grandes data warehouse. Desde entonces ha sido un referente por su capacidad de extraer valorde los datos. En los años ochenta, incorporó el lector de códigos de barra en las cajas registradoras. Su objetivo era conocer las ventas y como la ubicación del producto en los lineales impactaba en la venta. También entendió que necesitaba conocer los factores que influían en las ventas estacionales y las diferencias en la demanda dependiendo de la región geográfica. A medida que el número de tiendas y el volumen de productos crecían, la gestión del inventario se complicaba. Gracias a los datos históricos acumulados en combinación con modelos predictivos, la compañía pudo gestionar este pico de crecimiento. Para rebajar los tiempos en toma de decisiones, invirtió en RFID, tecnología de identificación por radiofrecuencia que permite la identificación de la mercancía. Google Esta compañía tecnológica estadounidense cuenta con miles de servidores y centros de datos distribuidos por todo el mundo. A través de su navegador web procesa millones de peticiones de búsqueda diarias. Pero además de buscador, también es una plataforma de publicidad donde los anunciantes pagan por los clics de búsqueda de los usuarios. Google ofrece un modelo de datos con las búsquedas o clics de cada usuario lo que facilita la toma de decisiones a las empresas anunciantes. La atribución basada en datos informa del modo en que los usuarios realizan una determinada búsqueda de un producto, de una web o empresa. Página 13 de 15 Tema 3: ¿Qué aportan los datos masivos a la toma de decisiones? Los macro datos o Big Data permiten acumular información con el objetivo de predecir decisiones o necesidades de clientes o ciudadanos. Los datos masivos son útiles porque predicen hechos futuros. Esto se consigue por la aplicación de modelos matemáticos a grandes cantidades de datos con los que poder inferir determinadas probabilidades de que algo ocurra. Ventajas del Big Data: Conocimiento del mercado: Las decisiones empresariales se toman con un conjunto amplio de datos. Se elimina el riesgo de error de una muestra aleatoria. Disminución de costes: Permite ajustar la demanda en tiempo real. Rapidez en la toma de decisiones: Los datos se reciben y procesan en tiempo real. Ejemplo de la aportación de datos masivos a las decisiones: La ciudad de Nueva York debía enfrentarse cada año a la explosión de múltiples tapas de registro eléctrico por incendios provocados en el interior de la red subterránea. En ocasiones, estas tapas al explotar, saltaban por los aires generando un gran riesgo para la población. La empresa proveedora de servicios de electricidad, gas y calefacción Consolidated Edison Company of New York, Inc. se ocupaba del mantenimiento, pero no tenía un criterio definido para inspeccionar las tapas más peligrosas. En el año 2007, la empresa decidió dirigirse a la Universidad de Columbia para que le diseñara un modelo de predicción. • Se trataba de analizar los resultados de 150.000 Km de cables (el 5% anterior a 1930) y más de 50.000 acometidas. • Contaban con los datos sobre los cables y las inspecciones desde 1880. • Los investigadores utilizaron toda la información disponible y no partieron de un modelo previo. Página 14 de 15 • Elaboraron 106 indicadores para identificar las más problemáticas. • Al final, identificaron dos factores fundamentales: antigüedad del cable y tapas a las que ya se habían detectado problemas. • Los resultados permitieron a la empresa elaborar un ranking con las tapas con más probabilidades de explosión. ¿Qué interesa extraer de este ejemplo? • La presencia de datos masivos. • Datos no obtenidos con un fin para el que se utilizan. • Es la población, no son muestras. • Los datos se ofrecen “en bruto”, no hay intermediarios. • Necesidad de gran capacidad de proceso y de personal altamente cualificado. • La posibilidad de encontrar lo que “no sabemos que no sabemos”. Resumen El término Inteligencia de Negocios o Business Intelligence aúna dos conceptos claves para cualquier organización: análisis de datos e información interna. Con estas dos variables y técnicas de análisis predictivo, cualquier compañía está en condiciones de tomar decisiones comerciales, logísticas e incluso estratégicas. Tanto la inteligencia de negocios como el Big Data se ocupan de transformar datos en decisiones, pero lo hacen con fuentes de información distintas. Los datos masivos del Big Data proceden de fuentes diversas: redes sociales como Facebook, Twitter, blogs, de sensores, dispositivos GPS, etc... Por el contrario, BI suele recoger conjuntos de datos propios de la organización. Página 15 de 15
Compartir