Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Que es la Ciencia de Datos, el aprendizaje automático (ML), el Big Data y cuales son sus usos? Juan Pablo Mora Director – Programa MBA, Universidad Javeriana MS in Urban Data Science – NYU CUSP Qué es la Ciencia de Datos? La ciencia de los datos es un paso evolutivo en campos interdisciplinarios como el análisis de negocios que incorpora la informática, el modelado, las estadísticas, la analítica y las matemáticas en uno solo proceso (NYU center for Data Science). Matemática y estadística Ciencias de la computación Conocimiento de dominio Unicornio Machine Learning InvestigaciónIngeniería Scripting, SQL Python, R Scala Data Pipelines Big Data/ Apache Spark, Hadoop NoSQL Conocimiento de dominio Supply Chain CRM Finanzas Costos Recursos humanos Matemáticas computacionales Algebra Líneal Cálculo multivariado … Pero la ciencia de datos tiene varias definiciones “El científico de Datos es aquel “que puede crear puentes entre los datos crudos y el análisis – haciéndolos accesibles . Es un rol democratizarte en la medida que lleva los datos a la gente común, hacienda el mundo un poco mejor paso a paso.” “Hay un chiste en twitter que dice que la definición mas perfecta de un científico de datos es la de un analista de datos que vive en Silicon valley en California,” “Los científicos de datos están involucrados con el agrupamiento de datos desde distintas fuentes, su edición en formas mas tratables y entendibles de forma que cuenten una historia que pueda ser presentada por ellos para ser entendida por todos” … Y una de ellas es como contar historias con los datos … Y una de ellas es como contar historias con los datos Machine Learning Vs Big data Vs Inteligencia Artificial Set de herramientas Herramienta Campo Machine Learning Vs Big data Vs Inteligencia Artificial Qué es Inteligencia artificial “La inteligencia artificial (IA) es el área de la ciencia de la computación que se enfoca en la creación de máquinas inteligentes que actuan y reaccionan como los humanos. Algunas de las actividades que las computadoras diseñadas con IA hacen son: • Reconocimiento del habla • Aprendizaje • Planeación • Resolución de problemas” Techopedia, 2019. Qué es Big data “El concepto de big data se puede definir como las múltiples fuentes de información de alto volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas para ser procesadas con el fin de generar descubrimientos, procesos de desición y automatización de procesos” Gartner, 2018 Qué es Big data “El concepto de big data se puede definir como las múltiples fuentes de información de alto volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas para ser procesadas con el fin de generar descubrimientos, procesos de desición y automatización de procesos” Gartner, 2018 11 11 Big Data = Volumen, Variedad, Velocidad y Veracidad Escalable de terabytes a zettabytes Datos de tipo relacional y no-relacional de diferentes fuentes Data en tiempo real y con alto factor de movimiento Contenidos dispares o que con calidad variada Volumen: Variedad: Velocidad: Veracidad: Sistemas que aprenden ser programados explicitamente Sin Machine Learning – Cuál es el alboroto y por qué debería importarnos? Machine learning es el subcampo de la ciencias de la información que busca la posibilidad de que las maquinas aprendan de su entorno sin necesidad de ser explícitamente programadas (Arthur Samuel, 1959). Producir nuevos modelos de manera rápida y automatizada que permitan analizar una mayor cantidad de datos en un tiempo mas corto, entregando resultados mas exactos – aun a gran escala. Mediante la estos modelos las organizaciones pueden tener un mejor entendimiento e identificación de oportunidades mas rentables, reduciendo sus riesgos operativos. Sistema Datos Programa Resultado Sistema Datos Resultado Programa Programación tradicional Machine Learning Esquema sistemático base del machine learning Origen de la ciencia de datos & machine learning 1642 Maquina aritmética Pascal 1649 Calculadora Autónoma Leibniz 1890 Maquina tabuladora Hollerith 1945 Mark I 1952 Checkers program 1957 Mark I - Perceptron 1967 Recon. patrones 1990 Aplic. Mach Learning 2000’s Aplic. AI IBM, Apple, Amazon.. 2010’s Redes Neurales y Deep Learning FB – Google – IBM ¿Magia? No, es más como jardinería. Semillas = Algoritmos Nutrientes = Datos Jardinero = Tú Plantas = Modelo/Programa Tipos de aprendizaje automático 17 Acción rat maze Recompensa chee se brain Observación dogcat catdog ID Positivo: Pug Desconocido Desconocido ID Positivo: Pug dog dog dog dog Aprendizaje supervisado Aprendizaje no supervisado Aprendizaje por refuerzo Aprendizaje profundo Algoritmos y lenguajes de programación 18 Bayesianos Clustering Arboles de desición Reducción de dimensionalidad Algoritmos basados en instancias Regresión lineal Regularización Principales algoritmos de ML por tipo de uso Campos de desarrollo en Machine learning y tendencias Aprendizaje por Refuerzo Deep Learning (FNN, CNN, RNN, Autoencoders, LSTMNN, GAN) Deep Text Campos de desarrollo en Machine learning y tendencias Generative adversarial networks (GAN) Convolutional Neural Networks (CNN) Tendencias de tecnología en la ciencia de datos… SPSS SAS Python R Scala Trends in Google Searches (September 2nd 2016) La ciencia de datos está encausando la evolución del concepto de base de datos a big data…. Bases de datos Big Data Source: Google Trends Hadoop Spark Aplicaciones mas conocidas del Machine Learning y la ciencia de datos en el mundo real Visión de computadores Procesamiento de lenguaje natural Reconocimiento de habla y audio Modelamiento predictivo Aplicaciones del Machine Learning y la ciencia de datos en el mundo corporativo Salud Internet de las cosas Marketing y Ventas Transporte Servicios Financieros Metodología CRISP-DM (Cross Industry standard Process for data mining) Siete pasos de la metodología: •Entendimiento de la necesidad de negocio •Entendimiento de los datos •Preparación de los datos •Validación de datos •Modelamiento •Evaluación •Despliegue de los modelos Herramientas e Infraestructura • Necesidad de un ambiente que permita “fallos rápidos” • Herramientas que no permiten colaboración Gobierno • Si la data no está segura, el auto servicio no es una realidad • Retos para entender la historia de los datos para tener una vista única Conocimiento • Los conocimientos de ciencia de datos tienen poca oferta y mucha demanda • Alto riesgo de fuga de conocimiento y capital intelectual Datos • Los datos residen en silos y son difíciles de acceder • Datos externos y no estructurados no son considerados 27 ¿Por qué las organizaciones están sufriendo para capturar el valor real de la Información? Ecosistema de aplicaciones y productos en la Ciencia de Datos Ejemplos de aplicación de la Ciencia de datos – Uso de características socio económicas de los usuarios de la línea 311 en la Ciudad de Nueva York para predecir tipos de llamadas Ejemplos de aplicación de la Ciencia de datos – Creación de un índice de inequidad en el acceso al transporte en la ciudad de Nueva York Ejemplos de aplicación de la Ciencia de datos – Análisis de sentimientos sobre el proceso de paz en Colombia usando Twitter http://juanmorads.blogspot.com.co/ http://juanmorads.blogspot.com.co/
Compartir