Logo Studenta

ANÁLISIS EXPLORATORIO DE DATOS - ALINE CARRILLO

¡Este material tiene más páginas!

Vista previa del material en texto

ANÁLISIS EXPLORATORIO DE DATOS 
¿QUÉ ES UN ANÁLISIS EXPLORATORIO DE DATOS?
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas.
¿por qué es importante?
Estudiar datos antes de supuestos
Identificar errores obvios
Comprender mejor los patrones 
Detectar valores atípicos 
Encontrar relaciones interesantes de variables
HERRAMIENTAS que brindan las eda
Técnicas de agrupación en y reducción de dimensiones 
Estadísticas de resumen
Evaluación de la relación entre cada variable y la variable de destino que desea
Modelos predictivos
Tipos de análisis exploratorios
Gráfico univariante
No gráfico univariante
No gráfico multivariante
Gráfico multivariante
gráficos
DIAGRAMA DE DISPERSIÓN 
1
MULTIVARIANTE
2
DIAGRAMAS DE TALLO Y HOJA
3
HISTOGRAMAS 
4
DIAGRAMA DE BARRA 
5
DIAGRAMA DE CAJA 
6
Herramientas de análisis exploratorio de datos 
Algunas de las herramientas de ciencia de datos más comunes utilizadas para crear un EDA son:
Python: un lenguaje de programación interpretado y orientado a objetos con semántica dinámica. Python y EDA se pueden utilizar conjuntamente para identificar valores perdidos en un conjunto de datos, lo que es importante para poder decidir cómo gestionar los valores perdidos para el machine learning.
R: un lenguaje de programación de código abierto y un entorno de software libre para la estadística informática y los gráficos admitidos por R Foundation for Statistical Computing. El lenguaje R es ampliamente utilizado entre los estadísticos de la ciencia de datos para el desarrollo de observaciones estadísticas y análisis de datos.
Pasos para la realización de un análisis exploratorio de datos
Tener clara la pregunta que queremos responder;
Tener una idea general de nuestro dataset;
Definir los tipos de datos que tenemos;
Elegir el tipo de estadística descriptiva
Visualizar los datos;
Analizar las posibles interacciones entre las variables del dataset; y finalmente
Extraer algunas conclusiones de todo este análisis.
El hundimiento del Titanic es uno de los naufragios más infames de la historia.
El 15 de abril de 1912, durante su viaje inaugural, el RMS Titanic, ampliamente considerado como "insumergible", se hundió después de chocar con un iceberg. Desafortunadamente, no había suficientes botes salvavidas para todos a bordo, lo que resultó en la muerte de 1502 de los 2224 pasajeros y tripulantes.
Si bien hubo algún elemento de suerte involucrado en la supervivencia, parece que algunos grupos de personas tenían más probabilidades de sobrevivir que otros.
3. Tipos de datos 
DATOS NUMÉRICOS: Pueden ser discretos o continuos.
CATEGÓRICOS: Pueden ser nominales, binarios u ordinales
Los datos numéricos pueden ser discretos cuando toman sólo valores enteros (como por ejemplo la edad de cada pasajero) o continuos cuando pueden tomar cualquier valor dentro de un intervalo (como por ejemplo la tarifa del tiquete):
Los datos categóricos pueden ser nominales, binarios u ordinales. Los nominales se usan para etiquetar el dato pero no pueden ser ordenados ni medidos, como por ejemplo el género de los pasajeros: hombre o mujer
Los datos binarios indican una de dos posibles categorías
Y finalmente están los datos ordinales
4. Descripción estadística de los datos
El cuarto paso es iniciar con la descripción estadística que depende precisamente del tipo de datos que tengamos en cada variable. Para esto usamos dos grandes tipos de medidas: las de tendencia central y las de variabilidad.
Medidas de tendencia central: Las medidas de tendencia central nos dan una idea general del valor típico que pueden tener nuestros datos, y las principales son la media y la mediana.
La desventaja de la media es que es muy sensible a valores atípicos: si por ejemplo la mayor parte de los tiquetes está alrededor de precios bajos, pero unos pocos tienen valores muy altos, al calcular la media daría la impresión de que en promedio los pasajeros compraron tiquetes un poco más costosos.
Medidas de variabilidad
La desviación estándar se puede calcular para cualquier tipo de dato numérico: entre más bajo sea su valor tendremos datos más agrupados, y viceversa. La desventaja de la desviación estándar es la misma de la media: es muy sensible a los valores atípicos:
Al igual que la mediana, esta diferencia intercuartiles también es menos sensible a valores atípicos en comparación con la desviación estándar:
El percentil 75 es 38 años y el 25 es 20 años, y por tanto el rango intercuartiles será de 18 años. Y entre más grande sea este rango más dispersos estarán los datos:
Los percentiles 25, 50 (es decir la mediana) y 75 dividen la distribución exactamente en cuatro partes llamadas cuartiles: el primer cuartil cubre del 0 al 25% de la distribución; el segundo del 25 al 50%; el tercero del 50 al 75% y el cuarto del 75 al 100%.
5. Visualizar los datos
La limitación de las medidas centrales y de las de variabilidad es que son sólo un número, que nos puede dar apenas una idea general del comportamiento de nuestros datos. Así que el quinto paso del análisis exploratorio es visualizar la distribución de los datos para tener una idea más detallada de su comportamiento.
Por ejemplo, el gráfico de barras para la variable “supervivencia” nos muestra que fueron más los “no sobrevivientes” que los “sobrevivientes”. 
Para datos continuos y discretos podemos calcular y dibujar el histograma, que se obtiene tras organizar los datos en diferentes subgrupos (o bins) y realizar el conteo del número de datos en cada uno. Con el histograma podemos verificar que la distribución es normal (es decir que tiene forma como de campana, como por ejemplo la edad) o si está sesgada (como una campana pero asimétrica, como por ejemplo la tarifa):
6. Análisis bivariado 
El propósito del análisis bivariado es comprender la relación entre dos variables. 
Diagramas de dispersión. 
Coeficientes de correlación. 
Regresión lineal simple. 
Por ejemplo, si queremos comparar dos variables numéricas (como la tarifa y la edad del pasajero) podemos usar una gráfica de dispersión, donde cada punto es representado por un dato, y podemos verificar si existe alguna tendencia lineal: es decir si el aumento de una variable genera un aumento o disminución de la otra:
O podemos calcular el índice de correlación entre estas dos variables, donde un valor cercano a 1 nos indica una relación lineal, uno cercano a -1 una relación lineal inversa y un valor cercano a cero indica que no hay correlación lineal entre los datos
ANÁLISIS MULTIVARIADO
Reúne métodos estadísticos que se enfocan en observar y procesar simultáneamente diferentes variables estadísticas para obtener información relevante. 
Sumarización 
Consiste en sumarizar nuestras observaciones, es decir extraer las conclusiones más importantes del análisis que hemos venido realizando. 
Esto nos servirá para identificar por ejemplo qué variables están correlacionadas, o cuáles de ellas resultan de pronto más relevantes. 
 
.MsftOfcThm_Accent1_Fill_v2 {
 fill:#E4650E; 
}
.MsftOfcThm_Accent1_Stroke_v2 {
 stroke:#E4650E; 
}

Otros materiales