Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
MEDIDAS DE TENDENCIA CENTRAL Clase 20. Data Analytics Reconocer conceptos de estadística descriptiva. Implementar medidas de tendencia central en análisis de datos. OBJETIVOS DE LA CLASE ¡PARA RECORDAR! Antes de iniciar la clase abrir Power BI. ESTADÍSTICA CONCEPTO Es la ciencia dedicada a la sistematización, recolección, ordenamiento y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre. OBJETIVOS Extraer conocimiento a partir de información principalmente numérica. Describir, deducir e inferir sobre la información. Tomar decisiones y hacer conclusiones. POBLACIÓN Y MUESTRA La población es el conjunto de todos los elementos de interés (personas, cuentas, clientes...) en determinado análisis. La muestra es un subconjunto de la población al cual tenemos acceso, sobre el cual se aplican las mediciones. Este debería ser representativo. Importante: seleccionar “subtítulos” -- “traducción automática” -- “español”. ESTADÍSTICA DESCRIPTIVA CONCEPTO Es la rama de la estadística que tiene por objetivo identificar las principales características de un conjunto de datos mediante un grupo reducido de gráficos y/o números. IMPLEMENTACIÓN Para describir un conjunto de datos se suele comenzar con un análisis individual de cada variable y posteriormente se estudian las relaciones entre variables. Usualmente se comienza con representaciones gráficas y posteriormente se calculan resúmenes numéricos. MEDIDAS DE TENDENCIA CENTRAL CONCEPTO Son medidas estadísticas que pretenden resumir a un conjunto de valores en un único valor. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos en una distribución. Distribuciones con medidas de tendencia central. MEDIA También llamada media aritmética o promedio, representa el reparto equitativo o el equilibrio. Es el valor que tendrían los datos, si todos ellos fueran iguales. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual. Se calcula sumando todos los valores y dividiendo el total sobre la cantidad de valores. MEDIANA Es la estadística que representa el valor de la variable de posición central en un conjunto de datos ordenados. Se representa con el símbolo Me. Para calcularla se ordenan los valores de menor a mayor y se toma el valor del medio. Si la cantidad de valores es par, se toman los dos valores y se promedian. MODA La moda es el valor donde la distribución de frecuencia alcanza un máximo, o sea se repite más. Se representa con la expresión Mo. Se puede hallar la moda para variables cualitativas y cuantitativas. Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. REPRODUCCIÓN DEL VIDEO DESDE MINUTO 5:22 HASTA 7:29. (reproducción entre 5.22 y 7.29) Importante: seleccionar “subtítulos” -- “traducción automática” -- “español”. MEDIDAS DE POSICIÓN CONCEPTO También llamadas estadísticas de posición, son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. Las medidas de posición más usuales son los cuartiles, deciles y los percentiles. IMPLEMENTACIÓN Los CUANTILES, como se denomina al grupo de medidas de posición, permiten dividir la variable analizada en grupos con distribución equitativa. Los cuartiles en 4, los quintiles en 5, los deciles en 10, y los percentiles en 100. De esta forma se puede obtener un análisis de distribución equitativo. VEAMOS UN EJEMPLO Dada la altura (en centímetros) de 7 miembros de una empresa, encontrar los cuartiles de las estaturas tomadas: Para encontrar los cuartiles, primero se ordenan los datos de menor a mayor: Luego se encuentra el número que está en el centro y este será el segundo cuartil, que a la vez es la mediana: Luego de esto se encuentra el número que está entre el primer número y el segundo cuartil. Ese será el primer cuartil: Luego se encuentra el número que esté entre el segundo cuartil y el último número. Ese será el tercer cuartil: Finalmente, el valor más alto corresponderá al cuarto cuartil: 175 160 177 182 173 168 171 160 168 171 173 175 177 182 160 168 171 173 175 177 182 160 168 171 173 175 177 182 160 168 171 173 175 177 182 160 168 171 173 175 177 182 GRÁFICO DE CAJA También llamado box-plot o gráfico de bigotes, permite analizar con medidas de tendencia central y de posición una variable cuantitativa de forma detallada. En la imagen se observan los componentes del gráfico. GRÁFICOS PARA MEDIDAS DE POSICIÓN GRÁFICO DE CAJA También llamado box-plot o gráfico de bigotes, permite analizar con medidas de tendencia central y de posición una variable cuantitativa de forma detallada. En la imagen se observan los componentes del gráfico. HISTOGRAMA El histograma es una representación gráfica de datos agrupados mediante intervalos. Proporciona una idea rápida de la distribución por frecuencia de los datos o muestra. BARRAS El gráfico de barras es ideal para la representación de los cuantiles. Una vez identificado a qué cuantil pertenece cada variable, es muy útil la visualización porque se puede identificar donde está posicionado cada dato. Rango etario por deciles. 18 - 70 ¡VAMOS A PRACTICAR LO VISTO! Practicaremos juntos la generación de medidas de tendencia central en Power BI y las implementaremos en visualizaciones. Tiempo aproximado: 15 minutos Usar para los subtemas de un módulo. ☕ BREAK ¡5/10 MINUTOS Y VOLVEMOS! ¡Ya estás llegando al fin de la cursada! Recordá que luego de la corrección de tu proyecto final, se notificará por Slack y email si quedaste en el TOP10 No cuelgues, que tenés hasta 2 semanas desde que te nofificamos para solicitar los beneficios. ¡5/10 MINUTOS Y VOLVEMOS! MEDIDAS DE TENDENCIA CENTRAL Implementarán las medidas de tendencia central en Power BI. Tiempo aproximado: 35 minutos Con el archivo de Power BI (.pbix) utilizado en las clases anteriores, realizar las siguientes agregaciones, utilizando una misma medida para todas. Implementar una medida calculada con la función Media y usarla en un KPI. Implementar una medida calculada con la función Mediana y usarla en un KPI. Representar la Moda en un histograma. Implementar un gráfico de caja. SEGUNDA ENTREGA DEL PROYECTO FINAL Deberás entregar el archivo Power BI (.pbix) de tu tablero de control y el documento pdf con la documentación final, correspondiente a la segunda entrega de tu proyecto final. 2 SEGUNDA ENTREGA DEL PROYECTO FINAL Formato: Tablero en archivo ejecutable de Power BI, .pbix. La documentación debe ser formato pdf. Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento. >>Objetivos Generales: Desarrollar un tablero de control. Documentar la iniciativa de análisis de datos. >>Objetivos Específicos: Implementar transformación de datos. Diseñar el modelo relacional en Power BI. Desarrollar medidas y columnas calculadas. Implementar storytelling. Crear gráficos eficientes. SEGUNDA ENTREGA DEL PROYECTO FINAL Formato: Tablero en archivo ejecutable de Power BI, .pbix. La documentación debe ser formato pdf. Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento. >>Se debe entregar: Cada archivo debe llevar por título el nombre del proyecto y los nombres de los integrantes. En el caso del tablero, debe estar en la solapa de portada. En el archivo pdf: Debe incluir la documentación presentada en la primera entrega de proyecto final. Objetivo del proyecto. Alcance Usuario final y nivel de aplicación del análisis. Transformaciones realizadas. Medidas calculadas generadas y sus fórmulas. Segmentacioneselegidas. SEGUNDA ENTREGA DEL PROYECTO FINAL Formato: Tablero en archivo ejecutable de Power BI: .pbix. La documentación debe ser formato pdf. Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento. En el archivo .pbix: Al menos tres solapas definidas. Modelo de datos relacional. Tabla de calendario. Indicadores generados como medidas calculadas. Segmentaciones definidas. Gráficos específicos de acuerdo al tipo de variables. Diseño que permita una comunicación efectiva (orden de lectura de los objetos). Tipografía uniforme. Paleta de colores uniforme. Logos e imágenes. ¿QUIERES SABER MÁS? TE DEJAMOS MATERIAL AMPLIADO DE LA CLASE Charla TED: Por qué hay que adorar la estadística | Alan Smith Artículo : Las 10 mejores herramientas de data analytics en 2020. | Bernard Marr ¿PREGUNTAS? ¡MUCHAS GRACIAS! Resumen de lo visto en clase hoy. Estadística descriptiva Medidas de tendencia central OPINA Y VALORA ESTA CLASE #DEMOCRATIZANDOLAEDUCACIÓN
Compartir