Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ANÁLISIS EXPLORATORIO DE DATOS ¿QUÉ ES UN ANÁLISIS EXPLORATORIO DE DATOS? El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. ¿por qué es importante? Estudiar datos antes de supuestos Identificar errores obvios Comprender mejor los patrones Detectar valores atípicos Encontrar relaciones interesantes de variables HERRAMIENTAS que brindan las eda Técnicas de agrupación en y reducción de dimensiones Estadísticas de resumen Evaluación de la relación entre cada variable y la variable de destino que desea Modelos predictivos Tipos de análisis exploratorios Gráfico univariante No gráfico univariante No gráfico multivariante Gráfico multivariante gráficos DIAGRAMA DE DISPERSIÓN 1 MULTIVARIANTE 2 DIAGRAMAS DE TALLO Y HOJA 3 HISTOGRAMAS 4 DIAGRAMA DE BARRA 5 DIAGRAMA DE CAJA 6 Herramientas de análisis exploratorio de datos Algunas de las herramientas de ciencia de datos más comunes utilizadas para crear un EDA son: Python: un lenguaje de programación interpretado y orientado a objetos con semántica dinámica. Python y EDA se pueden utilizar conjuntamente para identificar valores perdidos en un conjunto de datos, lo que es importante para poder decidir cómo gestionar los valores perdidos para el machine learning. R: un lenguaje de programación de código abierto y un entorno de software libre para la estadística informática y los gráficos admitidos por R Foundation for Statistical Computing. El lenguaje R es ampliamente utilizado entre los estadísticos de la ciencia de datos para el desarrollo de observaciones estadísticas y análisis de datos. Pasos para la realización de un análisis exploratorio de datos Tener clara la pregunta que queremos responder; Tener una idea general de nuestro dataset; Definir los tipos de datos que tenemos; Elegir el tipo de estadística descriptiva Visualizar los datos; Analizar las posibles interacciones entre las variables del dataset; y finalmente Extraer algunas conclusiones de todo este análisis. El hundimiento del Titanic es uno de los naufragios más infames de la historia. El 15 de abril de 1912, durante su viaje inaugural, el RMS Titanic, ampliamente considerado como "insumergible", se hundió después de chocar con un iceberg. Desafortunadamente, no había suficientes botes salvavidas para todos a bordo, lo que resultó en la muerte de 1502 de los 2224 pasajeros y tripulantes. Si bien hubo algún elemento de suerte involucrado en la supervivencia, parece que algunos grupos de personas tenían más probabilidades de sobrevivir que otros. 3. Tipos de datos DATOS NUMÉRICOS: Pueden ser discretos o continuos. CATEGÓRICOS: Pueden ser nominales, binarios u ordinales Los datos numéricos pueden ser discretos cuando toman sólo valores enteros (como por ejemplo la edad de cada pasajero) o continuos cuando pueden tomar cualquier valor dentro de un intervalo (como por ejemplo la tarifa del tiquete): Los datos categóricos pueden ser nominales, binarios u ordinales. Los nominales se usan para etiquetar el dato pero no pueden ser ordenados ni medidos, como por ejemplo el género de los pasajeros: hombre o mujer Los datos binarios indican una de dos posibles categorías Y finalmente están los datos ordinales 4. Descripción estadística de los datos El cuarto paso es iniciar con la descripción estadística que depende precisamente del tipo de datos que tengamos en cada variable. Para esto usamos dos grandes tipos de medidas: las de tendencia central y las de variabilidad. Medidas de tendencia central: Las medidas de tendencia central nos dan una idea general del valor típico que pueden tener nuestros datos, y las principales son la media y la mediana. La desventaja de la media es que es muy sensible a valores atípicos: si por ejemplo la mayor parte de los tiquetes está alrededor de precios bajos, pero unos pocos tienen valores muy altos, al calcular la media daría la impresión de que en promedio los pasajeros compraron tiquetes un poco más costosos. Medidas de variabilidad La desviación estándar se puede calcular para cualquier tipo de dato numérico: entre más bajo sea su valor tendremos datos más agrupados, y viceversa. La desventaja de la desviación estándar es la misma de la media: es muy sensible a los valores atípicos: Al igual que la mediana, esta diferencia intercuartiles también es menos sensible a valores atípicos en comparación con la desviación estándar: El percentil 75 es 38 años y el 25 es 20 años, y por tanto el rango intercuartiles será de 18 años. Y entre más grande sea este rango más dispersos estarán los datos: Los percentiles 25, 50 (es decir la mediana) y 75 dividen la distribución exactamente en cuatro partes llamadas cuartiles: el primer cuartil cubre del 0 al 25% de la distribución; el segundo del 25 al 50%; el tercero del 50 al 75% y el cuarto del 75 al 100%. 5. Visualizar los datos La limitación de las medidas centrales y de las de variabilidad es que son sólo un número, que nos puede dar apenas una idea general del comportamiento de nuestros datos. Así que el quinto paso del análisis exploratorio es visualizar la distribución de los datos para tener una idea más detallada de su comportamiento. Por ejemplo, el gráfico de barras para la variable “supervivencia” nos muestra que fueron más los “no sobrevivientes” que los “sobrevivientes”. Para datos continuos y discretos podemos calcular y dibujar el histograma, que se obtiene tras organizar los datos en diferentes subgrupos (o bins) y realizar el conteo del número de datos en cada uno. Con el histograma podemos verificar que la distribución es normal (es decir que tiene forma como de campana, como por ejemplo la edad) o si está sesgada (como una campana pero asimétrica, como por ejemplo la tarifa): 6. Análisis bivariado El propósito del análisis bivariado es comprender la relación entre dos variables. Diagramas de dispersión. Coeficientes de correlación. Regresión lineal simple. Por ejemplo, si queremos comparar dos variables numéricas (como la tarifa y la edad del pasajero) podemos usar una gráfica de dispersión, donde cada punto es representado por un dato, y podemos verificar si existe alguna tendencia lineal: es decir si el aumento de una variable genera un aumento o disminución de la otra: O podemos calcular el índice de correlación entre estas dos variables, donde un valor cercano a 1 nos indica una relación lineal, uno cercano a -1 una relación lineal inversa y un valor cercano a cero indica que no hay correlación lineal entre los datos ANÁLISIS MULTIVARIADO Reúne métodos estadísticos que se enfocan en observar y procesar simultáneamente diferentes variables estadísticas para obtener información relevante. Sumarización Consiste en sumarizar nuestras observaciones, es decir extraer las conclusiones más importantes del análisis que hemos venido realizando. Esto nos servirá para identificar por ejemplo qué variables están correlacionadas, o cuáles de ellas resultan de pronto más relevantes. .MsftOfcThm_Accent1_Fill_v2 { fill:#E4650E; } .MsftOfcThm_Accent1_Stroke_v2 { stroke:#E4650E; }
Compartir