Logo Studenta

Qué es la ciencia de datos

¡Este material tiene más páginas!

Vista previa del material en texto

Que es la Ciencia de Datos, el 
aprendizaje automático (ML), el Big 
Data y cuales son sus usos?
Juan Pablo Mora
Director – Programa MBA, Universidad Javeriana
MS in Urban Data Science – NYU CUSP
Qué es la Ciencia de Datos? 
La ciencia de los datos es un paso evolutivo en campos interdisciplinarios como el análisis de 
negocios que incorpora la informática, el modelado, las estadísticas, la analítica y las 
matemáticas en uno solo proceso (NYU center for Data Science).
Matemática y 
estadística
Ciencias de la 
computación
Conocimiento de 
dominio
Unicornio
Machine
Learning
InvestigaciónIngeniería
Scripting, SQL 
Python, R Scala
Data Pipelines
Big Data/ Apache 
Spark, Hadoop
NoSQL
Conocimiento de dominio
Supply Chain
CRM
Finanzas
Costos
Recursos humanos
Matemáticas
computacionales
Algebra Líneal
Cálculo multivariado
… Pero la ciencia de datos tiene varias 
definiciones
“El científico de Datos es aquel “que puede crear 
puentes entre los datos crudos y el análisis –
haciéndolos accesibles . Es un rol democratizarte en la 
medida que lleva los datos a la gente común, hacienda 
el mundo un poco mejor paso a paso.”
“Hay un chiste en twitter que dice que la definición mas perfecta 
de un científico de datos es la de un analista de datos que vive 
en Silicon valley en California,”
“Los científicos de datos están involucrados con el agrupamiento de 
datos desde distintas fuentes, su edición en formas mas tratables y 
entendibles de forma que cuenten una historia que pueda ser 
presentada por ellos para ser entendida por todos”
… Y una de ellas es como contar 
historias con los datos
… Y una de ellas es como contar 
historias con los datos
Machine Learning Vs Big data Vs 
Inteligencia Artificial 
Set de herramientas
Herramienta
Campo
Machine Learning Vs Big data Vs 
Inteligencia Artificial 
Qué es Inteligencia artificial
“La inteligencia artificial (IA) es el área de la ciencia de la computación que se enfoca
en la creación de máquinas inteligentes que actuan y reaccionan como los humanos. 
Algunas de las actividades que las computadoras diseñadas con IA hacen son:
• Reconocimiento del habla
• Aprendizaje
• Planeación
• Resolución de problemas”
Techopedia, 2019.
Qué es Big data
“El concepto de big data se puede definir como las múltiples fuentes de información de alto 
volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas
para ser procesadas con el fin de generar descubrimientos, procesos de desición y 
automatización de procesos”
Gartner, 2018
Qué es Big data
“El concepto de big data se puede definir como las múltiples fuentes de información de alto 
volúmen, alta velocidad y alta variedad que exigen de formas innovadoras y costo efectivas
para ser procesadas con el fin de generar descubrimientos, procesos de desición y 
automatización de procesos”
Gartner, 2018
11
11
Big Data = Volumen, Variedad, Velocidad y Veracidad
Escalable de terabytes a 
zettabytes
Datos de tipo relacional y 
no-relacional de 
diferentes fuentes
Data en tiempo real y con 
alto factor de movimiento
Contenidos dispares o 
que con calidad variada
Volumen:
Variedad:
Velocidad:
Veracidad: 
Sistemas que 
aprenden
ser programados
explicitamente
Sin
Machine Learning – Cuál es el alboroto y 
por qué debería importarnos? 
Machine learning es el subcampo de la ciencias de la información que busca la posibilidad de que 
las maquinas aprendan de su entorno sin necesidad de ser explícitamente programadas (Arthur 
Samuel, 1959).
Producir nuevos modelos de manera rápida y automatizada que permitan analizar una mayor cantidad de 
datos en un tiempo mas corto, entregando resultados mas exactos – aun a gran escala. Mediante la estos 
modelos las organizaciones pueden tener un mejor entendimiento e identificación de oportunidades mas 
rentables, reduciendo sus riesgos operativos.
Sistema
Datos
Programa
Resultado
Sistema
Datos
Resultado
Programa
Programación tradicional
Machine Learning
Esquema sistemático base del 
machine learning 
Origen de la ciencia de datos & 
machine learning
1642
Maquina aritmética 
Pascal
1649
Calculadora 
Autónoma 
Leibniz
1890
Maquina tabuladora 
Hollerith
1945
Mark I 
1952
Checkers program
1957
Mark I - Perceptron
1967
Recon. patrones
1990
Aplic. Mach 
Learning
2000’s
Aplic. AI
IBM, Apple, 
Amazon..
2010’s
Redes Neurales y 
Deep Learning
FB – Google – IBM
¿Magia?
No, es más como jardinería.
 Semillas = Algoritmos
 Nutrientes = Datos
 Jardinero = Tú
 Plantas = Modelo/Programa
Tipos de aprendizaje automático
17
 Acción
rat maze
Recompensa
chee
se
brain
Observación
dogcat
catdog
ID Positivo: Pug Desconocido
Desconocido ID Positivo: Pug
dog
dog
dog
dog
Aprendizaje
supervisado
Aprendizaje no 
supervisado
Aprendizaje
por refuerzo
Aprendizaje
profundo
Algoritmos y lenguajes de programación
18
Bayesianos Clustering Arboles de desición Reducción de 
dimensionalidad
Algoritmos basados
en instancias
Regresión lineal Regularización
Principales algoritmos de ML por tipo 
de uso
Campos de desarrollo en Machine 
learning y tendencias 
Aprendizaje por Refuerzo Deep Learning (FNN, CNN,
RNN, Autoencoders, LSTMNN, GAN) 
Deep Text
Campos de desarrollo en Machine 
learning y tendencias 
Generative adversarial networks (GAN)
Convolutional Neural Networks (CNN)
Tendencias de tecnología en la ciencia de datos…
SPSS SAS
Python R Scala
Trends in Google Searches (September 2nd 2016)
La ciencia de datos está encausando la evolución del 
concepto de base de datos a big data….
Bases de datos
Big Data
Source: Google Trends
Hadoop
Spark
Aplicaciones mas conocidas del Machine 
Learning y la ciencia de datos en el 
mundo real 
Visión de 
computadores
Procesamiento de lenguaje natural
Reconocimiento de habla y audio Modelamiento predictivo
Aplicaciones del Machine Learning y la 
ciencia de datos en el mundo corporativo
Salud Internet de 
las cosas
Marketing y Ventas Transporte
Servicios Financieros
Metodología CRISP-DM (Cross Industry standard 
Process for data mining)
Siete pasos de la metodología:
•Entendimiento de la necesidad de 
negocio
•Entendimiento de los datos
•Preparación de los datos
•Validación de datos
•Modelamiento
•Evaluación
•Despliegue de los modelos
Herramientas e 
Infraestructura
• Necesidad de un 
ambiente que 
permita “fallos 
rápidos”
• Herramientas que no 
permiten 
colaboración
Gobierno
• Si la data no está 
segura, el auto 
servicio no es una 
realidad
• Retos para entender 
la historia de los datos 
para tener una vista 
única
Conocimiento
• Los conocimientos de 
ciencia de datos 
tienen poca oferta y 
mucha demanda
• Alto riesgo de fuga de 
conocimiento y capital 
intelectual
Datos
• Los datos residen 
en silos y son 
difíciles de acceder
• Datos externos y no 
estructurados no 
son considerados
27
¿Por qué las organizaciones están sufriendo 
para capturar el valor real de la Información?
Ecosistema de aplicaciones y productos en la 
Ciencia de Datos 
Ejemplos de aplicación de la Ciencia de datos – Uso de características 
socio económicas de los usuarios de la línea 311 en la Ciudad de 
Nueva York para predecir tipos de llamadas
Ejemplos de aplicación de la Ciencia de datos – Creación de un índice 
de inequidad en el acceso al transporte en la ciudad de Nueva York
Ejemplos de aplicación de la Ciencia de datos – Análisis de 
sentimientos sobre el proceso de paz en Colombia usando Twitter 
http://juanmorads.blogspot.com.co/
http://juanmorads.blogspot.com.co/

Continuar navegando