Logo Studenta

Clase 29 - Data Wrangling III

¡Este material tiene más páginas!

Vista previa del material en texto

Data Wrangling III
 Clase 29. Data Science
Obligatoria siempre
¿DUDAS DEL ON-BOARDING?
MIRALO AQUI
Obligatoria siempre.
RECUERDA PONER A GRABAR LA CLASE
Colocar todas las clases
Identificar algunas buenas prácticas de Data Wrangling
OBJETIVOS DE LA CLASE
Obligatoria siempre. Es lo que queremos alcanzar una vez finalizada la clase. Recordá que se enuncian en principio con el verbo delante (por ejemplo: “Comprender…”, “Analizar…”, “conocer…”, etc).
MAPA DE CONCEPTOS
MAPA DE CONCEPTOS CLASE 26
Modelado
Despliegue
Entendimiento del caso de Negocio
ITERAR
Evaluación
Preparación de los Datos (Data Wrangling)
Comprensión y Adquisición de Datos
Se puede usar para comenzar o finalizar la clase, según sea más conveniente. La información de este slide es de relleno. 
Recurso: Mapa de conceptos
Muestra rápidamente los contenidos de la clase y cómo se relacionan. Ayuda a los estudiantes a evitar “perderse” durante la clase, al avanzar en un sentido lineal una diapositiva tras otra. El ejemplo pertenece a la primera clase del curso UX/UI.
Sugerencia: 
-También se pueden mostrar con un menor énfasis o colores apagados, aquellos contenidos de clases anteriores y que se vinculen con la actual. 
-Resaltar con color los temas que se abordan en la clase.
Clase 26
Data Wrangling III
Clase 25
Data Wrangling II
Clase 27
CRONOGRAMA DEL CURSO
DATA WRANGLING
DATA ACQUISITION Y DATA WRANGLING
Exploratory Data Analysis
ANÁLISIS EXPLORATORIO DE DATOS
DEFINICIÓN DE LA FUENTE DE INFORMACIÓN
Recurso: Cronograma del curso
- Se muestra al inicio de cada clase 
- Tiene un aspecto similar a un calendario.
- Resume rápidamente: título de la clase, número y contenidos que abarca
- Guía rápida tanto para docentes, como para estudiantes.
- Para mayor ubicación en el curso, también muestra en un tamaño más pequeño lo sucedido la clase anterior y la siguiente.
-Ubicar en el interior de cada clase aquellas cuestiones destacadas con las cuales se encontrará el alumno y con su respectivo nombre: desafíos, entregables de proyecto, actividades colaborativas o ejemplos en vivo.
Repaso de Data wrangling
Usar para los subtemas de un módulo.
REPASO
¿Cuál es el objetivo de Data Wrangling?¿Qué implica la transformación de datos?¿Qué funciones de manipulación de datos conoces?¿Qué diferencias hay entre ellas?
¡ESCRIBELO EN EL CHAT!
“Para pensar”.
¿Como crear encuestas de zoom? Disponible en este video.
El docente generará una encuesta de zoom para que los estudiantes respondan. Esto es una actividad de comprobación.
Sugerimos:
Utilizarlo antes del break para que los estudiantes puedan votar en la encuesta antes de ir al mismo.
Al regresar, mostrar los resultados a los estudiantes.
Si hay buena respuesta de este recurso, se recomienda utilizarlo de forma orgánica en más instancias de la clase.
El objetivo de hacer data wrangling es a partir de un set de datos crudo, comprender sus características y manipularlo para luego poder extraer la información que tiene.
Repaso
La transformación de Datos puede incluir:
Fusiones de DataFrames
Eliminación de duplicados
Agrupamiento de las tablas
Tratamientos de valores nulos
Operaciones con los distintos tipos de datos
No va, es para guiar el uso del template.
No va, es para guiar el uso del template.
Recomendaciones para hacer Data wrangling
Usar para los módulos más importantes de la clase, donde se introducen conceptos que se ven en varios slides. No hay que usarla para todos los módulos.
Recomendaciones
Filtra tus datos para aligerar la carga
Considera el resultado deseado a lo largo de la manipulación del dato
Mantener siempre la capacidad de retroceder a una versión anterior de los datos.
Entender dónde y cómo están guardados los datos
Hacer un diccionario de datos
Incluir un experto en la materia siempre que sea posible
No va, es para guiar el uso del template.
Filtrar los datos que necesites hará el proceso de data wrangling más simple y rápido
Asegura no gastar recursos extra en tareas innecesarias.
Incrementa la eficiencia de cálculos de de fusión de datos 
Filtrar datos
No va, es para guiar el uso del template.
Es importante tener una idea clara de cuál es el resultado final deseado luego del proceso de data wrangling. Por ejemplo definir los niveles de granularidad.
Por ejemplo cómo sería la forma con un conjunto específico de observaciones
Esto ayuda a saber que tareas realizar para obtener dicho resultado mientras uno cura el set de datos
Tener en cuenta el output deseado
No va, es para guiar el uso del template.
La idea detrás de esto es si uno toma una decisión equivocada poder volver atrás de forma sencilla 
Por ejemplo cuando uno trabaja con un Excel, si comienza a eliminar columnas y reformatear celdas, es posible querer versión anterior y hacer diferentes elecciones de preparación de datos.
Poder volver a una versión anterior de los datos
No va, es para guiar el uso del template.
Tienen acceso a datos en vivo o es una captura diaria?
Acceso directo al raw data o son datos ya previamente procesados?
Esto ayuda a establecer expectativas Siempre incluir un experto en la materia siempre que sea posible
Esta información debería ser transversal a todos los miembros que utilicen el mismo set de datos
Con un entendimiento claro y buena comunicación se puede tener una mayor confianza en los datos 
Entender cómo y dónde están guardados los datos
No va, es para guiar el uso del template.
Cuando se trabaja con datos poco familiares, unos se hace muchas preguntas (tipos, fuentes)
Utilizar un diccionario para explicar que contiene cada fuente que se utiliza y que son cada variable es una buena práctica para orientarse uno y a otros acerca del set de datos
Hacer un diccionario de datos
No va, es para guiar el uso del template.
Trabajar con expertos en la materia no es solo una oportunidad para asegurarse de que está limpiando los datos de acuerdo con su significado. También es una oportunidad para mejorar los resultados. Escuchar el conocimiento experto de las personas que mejor conocen los datos le brinda la oportunidad de infundir su experiencia técnica con contexto, lo que lleva a mediciones más creativas de sus resultados clave, formas innovadoras de predecir sus resultados y una capacidad mejorada para comunicar resultados.
Trabajar con expertos
No va, es para guiar el uso del template.
¿Otras recomendaciones?
¿En qué situaciones han tenido que hacer manipulación de datos y con qué herramientas?
¿Qué sugerencias se les ocurre?
ESCRIBE EN EL CHAT
“Para pensar”
¿Cómo crear encuestas de zoom? Disponible en este video.
El docente generará una encuesta de zoom para que los estudiantes respondan. Esto es una actividad de comprobación.
Sugerimos:
Utilizarlo antes del break para que los estudiantes puedan votar en la encuesta antes de ir al mismo.
Al regresar, mostrar los resultados a los estudiantes.
Si hay buena respuesta de este recurso, se recomienda utilizarlo de forma orgánica en más instancias de la clase.
☕ 
BREAK
¡5/10 MINUTOS Y VOLVEMOS!
Obligatoria siempre. A la hora del Break, entre 5 y 10 minutos. Considerar ubicar este espacio en un momento adecuado de la clase. Al volver, mostrar los resultados de la pregunta del anterior slide y generar un breve intercambio.
Actividad grupal
Usar para los módulos más importantes de la clase, donde se introducen conceptos que se ven en varios slides. No hay que usarla para todos los módulos.
Data acquisition y data wrangling
En este ejercicio aplicaremos los conocimientos aprendidos hasta el momento de adquisición de datos y de data wrangling
Data acquisition y data wrangling
En este desafío les proponemos leer una base sql y realizar un ejercicio de data wrangling para extraer la información
Trabajaremos en los grupos conformados. 
Tiempo estimado: 20 a 30 minutos.
Data wrangling
Ejercicio 1:
Leer los datos de la base nba_salary.sqlite. Extraer ambas tablas.Ejercicio 2:
	Ver cuántos datos nulos tiene cada tabla. Analizar que columnas y filas eliminaria
Ejercicio 3: 
	De la tabla de Seasons_Stats, seleccionar solo el año 2017. Analizar porque hay varios jugadores que aparecen varias veces en un año. Lo mismo para la tabla From NBA_season1718_salary.
Ejercicio 4: Hacer un inner join entre las dos tablas en base al jugador y al equipo que juega con la tabla From NBA_season1718_salary. 
Agrupar por jugador y calcular el salario total y la cantidad de puntos por año.
DEFINICIÓN DE LA FUENTE DE INFORMACIÓN 
Seleccionar el dataset que usaremos en el Proyecto Final. 
El trabajo en equipo nos permite conocer diferentes fuentes de información. Si tu equipo cuenta con un set de datos y tú no ¡Es momento de aprender de una nueva temática! 
3
	DEFINICIÓN DE LA FUENTE DE INFORMACIÓN 		
	Formato: 
Base de datos almacenada en formato de archivo plano (xls, csv, txt). 
NOTA: Las entregas son individuales. En base a esta entrega y las devoluciones del tutor, se definirá la base a trabajar en los grupos.		
	
>> Consigna: 
Presentar (máximo) tres sets de datos que puedan ser usados como fuente de información para sus proyectos finales. 
>> Recomendaciones: 
Resulta conveniente orientar el desarrollo del proyecto final a problemas de clasificación, por lo tanto los datasets a presentar deben contar con una variable target “y”. 
Lo ideal es que los archivos que serán tu fuente de información, no posean en caso de ser posible valores missings.
Tampoco se recomienda trabajar con un dataset muy grande, dado que en las etapas posteriores del proyecto puede resultar complicado su manipulación.		
	DEFINICIÓN DE LA FUENTE DE INFORMACIÓN 		
	Formato: 
Base de datos almacenada en formato de archivo plano (xls, csv, txt).		
	>>Aspectos a incluir en el entregable: 
Cada set de datos debe contener al menos una variable target para poder aplicar y resolver un problema de clasificación. 
Si no cuentas con un set de datos, propio o conocido, algunas bases de datos públicas:
https://www.ncdc.noaa.gov/cdo-web/datatools/lcd
https://data.buenosaires.gob.ar/dataset/estaciones-bicicletas-publicas 
https://data.worldbank.org/
https://www.imf.org/en/Data
http://data.europa.eu/euodp/en/data/
https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0
https://www.aeaweb.org/resources/data/us-macro-regional
https://www.kaggle.com/datasets		
¿PREGUNTAS?
Obligatoria. Se sugiere ubicar al finalizar la explicación de algún tema, para abrir formalmente el espacio de preguntas y ordenar la interacción.
¡MUCHAS GRACIAS!
Resumen de lo visto en clase hoy: 
-
-
-
Obligatoria siempre. En caso de cerrar con el “mapa de conceptos” se puede dejar solo “muchas gracias”. Completar el resumen con palabras claves de lo visto.
OPINA Y VALORA ESTA CLASE
Obligatoria siempre.
#DEMOCRATIZANDOLAEDUCACIÓN
Todas las clases
¡GRACIAS POR ESTUDIAR CON NOSOTROS!
Sólo la última clase

Continuar navegando