Clase 30 Exploratory Data Analysis (EDA)

Emprendimiento

•

SIN SIGLA

Sergio de los Santos

26/7/2023

¡Este material tiene más páginas!

Vista previa del material en texto

Exploratory Data Analysis (EDA)
Clase 30. Data Science
Obligatoria siempre
RECUERDA PONER A GRABAR LA CLASE
Identificar utilidades del EDA.
Realizar un EDA en Python.
OBJETIVOS DE LA CLASE
Obligatoria siempre. Es lo que queremos alcanzar una vez finalizada la clase. Recordá que se enuncian en principio con el verbo delante (por ejemplo: “Comprender…”, “Analizar…”, “conocer…”, etc).
MAPA DE CONCEPTOS
MAPA DE CONCEPTOS CLASE 30
UTILIDADES
ANÁLISIS EXPLORATORIO DE DATOS
CONCEPTOS
ETAPAS
Clase 30
Exploratory Data Analysis
ANÁLISIS EXPLORATORIO DE DATOS
Clase 29
PRÁCTICA DE EDA EN NOTEBOOK
CRONOGRAMA DEL CURSO
Data Wrangling III
DATA ACQUISITION Y DATA WRANGLING
INVESTIGACIÓN SOBRE VISUALIZACIONES DE DATOS
Gramática de los gráficos I
Clase 31
Recurso: Cronograma del curso
- Se muestra al inicio de cada clase
- Tiene un aspecto similar a un calendario.
- Resume rápidamente: título de la clase, número y contenidos que abarca
- Guía rápida tanto para docentes, como para estudiantes.
- Para mayor ubicación en el curso, también muestra en un tamaño más pequeño lo sucedido la clase anterior y la siguiente.
-Ubicar en el interior de cada clase aquellas cuestiones destacadas con las cuales se encontrará el alumno y con su respectivo nombre: desafíos, entregables de proyecto, actividades colaborativas o ejemplos en vivo.
ANÁLISIS EXPLORATORIO DE DATOS
Usar para los subtemas de un módulo.
El Análisis Exploratorio de Datos o Exploratory Data Analysis, tiene como finalidad examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta forma el Científico de Datos, consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas.
¿QUÉ ES UN EDA?
¿Qué hace el EDA?
El EDA, proporciona métodos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y mucho más.
Resulta importante destacar, que el examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico.
UTILIDADES del EDA
Algunas de las preguntas que podemos responder gracias a realizar un EDA, son las siguientes:
¿Existe algún sesgo en los datos recogidos?
¿Hay errores en la codificación de los datos?
¿Cómo se sintetiza y presenta la información contenida en un conjunto de datos?
¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos?
¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático? ¿Cómo tratarlos?
ETAPAS DEL EDA
Usar para los subtemas de un módulo.
1
2
3
Etapas del EDA
Para realizar un EDA conviene seguir las siguientes etapas o fases:
Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un análisis estadístico que permita cuantificar algunos aspectos gráficos de los datos.
Analizar correlaciones entre las variables y dependencias.
Usar para slides de texto con gráfico de etapas/pasos.
4
5
6
Etapas del EDA
En una segunda etapa, podemos encontrar estas fases:
Evaluar, si fuera necesario, algunos supuestos sobre la distribución de las variables, asimetrías, formas, etc.
Identificar los posibles casos atípicos (outliers) y determinar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.
Establecer si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
Entendamos juntos un poco más, en qué consiste cada fase 🤓
Usar para slides de texto con gráfico de etapas/pasos.
PREPARACIÓN DE DATOS
Usar para los subtemas de un módulo.
Preparación de datos
1
Como bien comentamos, el primer paso de un EDA es hacer accesible los datos a cualquier técnica estadística. Para ello, tendremos que realizar un input de los datos, los cuales recordemos pueden provenir de diferentes orígenes como ser por ejemplo: Excel, csv, Bases de Datos, etc.
Preparación de datos
1
Luego tendremos que elegir el software de analítica de datos que utilizaremos para la manipulación y el procesamiento del dataset. En nuestro caso utilizaremos Python.
OPERACIONES POSIBLES
Usar para los subtemas de un módulo.
La gran mayoría de los softwares orientados al análisis de datos, permiten realizar manipulaciones de los datos previas a un análisis de los mismos. Algunas operaciones útiles para realizar son las siguientes:
Combinar conjuntos de datos de dos o más archivos distintos.
Seleccionar subconjuntos de los datos.
Dividir el archivo de los datos en varias partes.
Transformar variables.
Operaciones posibles
1
Filtrar y ordenar el dataset.
Agregar nuevos datos y/o variables.
Eliminar datos y/o variables.
Guardar datos y/o resultados.
Operaciones posibles
1
ANÁLISIS ESTADÍSTICO
Usar para los subtemas de un módulo.
Una vez organizados los datos, el segundo paso dentro de un EDA consiste en realizar un análisis estadístico gráfico y numérico de las variables del dataset, con el fin de tener una idea inicial de la información que se encuentra contenida en el conjunto de datos, así como detectar también en el caso de que existan posibles errores de codificación.
Análisis Estadístico
3
Es importante entender que el tipo de análisis que deberemos realizar va a depender de la escala de medida de la variable analizada.
👉
CORRELACIONES Y DEPENDENCIAS
Usar para los subtemas de un módulo.
Correlaciones y dependencias
3
La correlación es la covarianza pero dividida por los desvíos estándares de las dos variables. Presenta la siguiente fórmula matemática:
Correlaciones y dependencias
3
La correlación siempre va a darnos un número entre -1 y 1
Mientras más cerca nos de del valor 1, más fuerte es la relación lineal directa entre las variables.
Mientras más cerca nos de del valor -1, más fuerte es la relación lineal inversa entre las variables.
Si nos da 0 entonces no hay relación lineal entre las variables.
Correlaciones y dependencias
3
En lo que respecta a la fuerza de la correlación, hablamos siempre de una correlación:

Correlaciones y dependencias
3
Nula
Débil
Fuerte
También es importante tener en cuenta 2 aspectos relevantes de destacar:
La ausencia de correlación significa que no hay una relación lineal, pero no que no hay relación.
Correlación no es, ni implica, causalidad.
Correlaciones y dependencias
3
Correlaciones
3
Correlaciones
3
La variable dependiente es aquella cuyo valor depende del valor numérico que adopta la variable independiente dentro en la función matemática.
Dependencias
3
DISTRIBUCIÓN DE VARIABLES
Usar para los subtemas de un módulo.
En este paso resulta importante estudiar por ejemplo, las “Medidas de Forma” dentro del ámbito de la Estadística.
Pero ¿Qué son las medidas de forma? Son aquellas que estudian las características de la distribución de probabilidades observada. Podemos destacar:
Simetría.
Curtosis.
Distribución de las variables
4
Una variable es simétrica, si los valores que equidistan de la media son iguales. Para una mayor comprensión observemos la siguiente imagen:
Simetría
4
La curtosis mide el grado de apuntamiento o achatamiento de la distribución de frecuencia. Es decir, nos ayuda a entender “cuán empinada está la curva”. Adicionalmente, existen diferentes tipos de curtosis:
Curtosis
4
IDENTIFICACIÓN DE OUTLIERS
Usar para los subtemas de un módulo.
Como ya hemos estudiado en otras unidades del curso, tenemos que prestar especial atención a los outliers, dado que pueden tener un potencial negativo dentro de nuestro EDA.Identificación de Outliers
5
También, es muy importante aclarar que no debemos eliminar los outliers por el sólo hecho de serlo. A menos que estemos 100% seguros que ese valor extremo se debe a un error de registro, una falla en el instrumento de medición o algún problema externo que sea verificable, los outliers son observaciones tan válidas como cualquier otra y forman parte de la realidad de nuestros datos. 😀
Identificación de Outliers
5
☕
BREAK
¡5/10 MINUTOS Y VOLVEMOS!
Obligatoria siempre. A la hora del Break, entre 5 y 10 minutos. Considerar ubicar este espacio en un momento adecuado de la clase. Al volver, mostrar los resultados de la pregunta del anterior slide y generar un breve intercambio.
VALORES PERDIDOS
Usar para los subtemas de un módulo.
Una situación a la que se enfrenta frecuentemente cualquier científico de datos es el tratamiento de los valores perdidos. Los valores faltantes son aquellos que para una variable determinada no constan en algunas filas o patrones.
Valores Perdidos
6
Los 3 motivos principales por los que se suelen tratar los valores perdidos son:
Pueden introducir un sesgo considerable (una diferencia notable entre los datos observados y los no observados).
Hacen el análisis y el manejo de los datos más complicado.
Generalmente ocasionan pérdidas de información.
¿Por qué se pierden?
6
¿Qué hacer?
6
Existen multitud de procedimientos para aplicar cuando tenemos valores perdidos. Aunque básicamente existen dos aproximaciones posibles:
Eliminar muestras o variables que tienen datos faltantes.
Imputar los valores perdidos, es decir, sustituirlos por estimaciones.
EJEMPLO EN VIVO
Trabajaremos con los ejercicios del Notebook
¿PREGUNTAS?
¡MUCHAS GRACIAS!
Resumen de lo visto en clase hoy:
-Análisis exploratorio de datos
- Análisis estadístico
- Correlaciones y variables
- identificación de outliers
- Valores perdidos
Obligatoria siempre. En caso de cerrar con el “mapa de conceptos” se puede dejar solo “muchas gracias”. Completar el resumen con palabras claves de lo visto.
OPINA Y VALORA ESTA CLASE
#DEMOCRATIZANDOLAEDUCACIÓN