Logo Studenta

Clase 20 - Medidas de tendencia central

¡Este material tiene más páginas!

Vista previa del material en texto

MEDIDAS DE TENDENCIA CENTRAL
 Clase 20. Data Analytics 
Reconocer conceptos de estadística descriptiva.
Implementar medidas de tendencia central en análisis de datos.
OBJETIVOS DE LA CLASE
¡PARA RECORDAR!
Antes de iniciar la clase abrir Power BI.
ESTADÍSTICA
CONCEPTO
Es la ciencia dedicada a la sistematización, recolección, ordenamiento y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre.
OBJETIVOS
Extraer conocimiento a partir de información principalmente numérica.
Describir, deducir e inferir sobre la información. 
Tomar decisiones y hacer conclusiones. 
POBLACIÓN Y MUESTRA
La población es el conjunto de todos los elementos de interés (personas, cuentas, clientes...) en determinado análisis. 
La muestra es un subconjunto de la población al cual tenemos acceso, sobre el cual se aplican las mediciones. Este debería ser representativo.
Importante: seleccionar “subtítulos” -- “traducción automática” -- “español”.
ESTADÍSTICA DESCRIPTIVA
CONCEPTO
Es la rama de la estadística que tiene por objetivo identificar las principales características de un conjunto de datos mediante un grupo reducido de gráficos y/o números.
IMPLEMENTACIÓN
Para describir un conjunto de datos se suele comenzar con un análisis individual de cada variable y posteriormente se estudian las relaciones entre variables. 
Usualmente se comienza con representaciones gráficas y posteriormente se calculan resúmenes numéricos. 
MEDIDAS DE TENDENCIA CENTRAL
CONCEPTO
Son medidas estadísticas que pretenden resumir a un conjunto de valores en un único valor. 
Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos en una distribución.
Distribuciones con medidas de tendencia central.
MEDIA
También llamada media aritmética o promedio, representa el reparto equitativo o el equilibrio.
Es el valor que tendrían los datos, si todos ellos fueran iguales. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual.
Se calcula sumando todos los valores y dividiendo el total sobre la cantidad de valores. 
MEDIANA
Es la estadística que representa el valor de la variable de posición central en un conjunto de datos ordenados. Se representa con el símbolo Me.
Para calcularla se ordenan los valores de menor a mayor y se toma el valor del medio. Si la cantidad de valores es par, se toman los dos valores y se promedian. 
MODA
La moda es el valor donde la distribución de frecuencia alcanza un máximo, o sea se repite más. Se representa con la expresión Mo. 
Se puede hallar la moda para variables cualitativas y cuantitativas.
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.
REPRODUCCIÓN DEL VIDEO DESDE MINUTO 5:22 HASTA 7:29.
(reproducción entre 5.22 y 7.29)
Importante: seleccionar “subtítulos” -- “traducción automática” -- “español”.
MEDIDAS DE POSICIÓN
CONCEPTO
También llamadas estadísticas de posición, son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. 
Las medidas de posición más usuales son los cuartiles, deciles y los percentiles.
IMPLEMENTACIÓN
Los CUANTILES, como se denomina al grupo de medidas de posición, permiten dividir la variable analizada en grupos con distribución equitativa. 
Los cuartiles en 4, los quintiles en 5, los deciles en 10, y los percentiles en 100. De esta forma se puede obtener un análisis de distribución equitativo.
VEAMOS UN EJEMPLO
Dada la altura (en centímetros) de 7 miembros de una empresa, encontrar los cuartiles de las estaturas tomadas:
Para encontrar los cuartiles, primero se ordenan los datos de menor a mayor:
Luego se encuentra el número que está en el centro y este será el segundo cuartil, que a la vez es la mediana: 
Luego de esto se encuentra el número que está entre el primer número y el segundo cuartil. Ese será el primer cuartil: 
Luego se encuentra el número que esté entre el segundo cuartil y el último número. Ese será el tercer cuartil: 
Finalmente, el valor más alto corresponderá al cuarto cuartil: 
	175 	160 	177 	182 	173 	168 	171
	160	168	171	173	175	177	182
	160	168	171	173	175	177	182
	160	168	171	173	175	177	182
	160	168	171	173	175	177	182
	160	168	171	173	175	177	182
GRÁFICO DE CAJA
También llamado box-plot o gráfico de bigotes, permite analizar con medidas de tendencia central y de posición una variable cuantitativa de forma detallada.
En la imagen se observan los componentes del gráfico.
GRÁFICOS PARA MEDIDAS DE POSICIÓN
GRÁFICO DE CAJA
También llamado box-plot o gráfico de bigotes, permite analizar con medidas de tendencia central y de posición una variable cuantitativa de forma detallada.
En la imagen se observan los componentes del gráfico.
HISTOGRAMA
El histograma es una representación gráfica de datos agrupados mediante intervalos. Proporciona una idea rápida de la distribución por frecuencia de los datos o muestra.
BARRAS
El gráfico de barras es ideal para la representación de los cuantiles. Una vez identificado a qué cuantil pertenece cada variable, es muy útil la visualización porque se puede identificar donde está posicionado cada dato. 
Rango etario por deciles. 18 - 70
¡VAMOS A PRACTICAR LO VISTO!
Practicaremos juntos la generación de medidas de tendencia central en Power BI y las implementaremos en visualizaciones.
Tiempo aproximado: 15 minutos
Usar para los subtemas de un módulo.
☕ 
BREAK
¡5/10 MINUTOS Y VOLVEMOS!
¡Ya estás llegando al fin de la cursada! 
Recordá que luego de la corrección de tu proyecto final, se notificará por Slack y email si quedaste en el TOP10
No cuelgues, que tenés hasta 2 semanas desde que te nofificamos para solicitar los beneficios. 
¡5/10 MINUTOS Y VOLVEMOS!
MEDIDAS DE TENDENCIA CENTRAL
Implementarán las medidas de tendencia central en Power BI.
Tiempo aproximado: 35 minutos
Con el archivo de Power BI (.pbix) utilizado en las clases anteriores, realizar las siguientes agregaciones, utilizando una misma medida para todas. 
Implementar una medida calculada con la función Media y usarla en un KPI. 
Implementar una medida calculada con la función Mediana y usarla en un KPI. 
Representar la Moda en un histograma.
Implementar un gráfico de caja. 
SEGUNDA ENTREGA DEL PROYECTO FINAL 
Deberás entregar el archivo Power BI (.pbix) de tu tablero de control y el documento pdf con la documentación final, correspondiente a la segunda entrega de tu proyecto final.
2
	SEGUNDA ENTREGA DEL PROYECTO FINAL		
	Formato: Tablero en archivo ejecutable de Power BI, .pbix. La documentación debe ser formato pdf. 
Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento.		
	>>Objetivos Generales:
Desarrollar un tablero de control.
Documentar la iniciativa de análisis de datos.
 
>>Objetivos Específicos:
Implementar transformación de datos.
Diseñar el modelo relacional en Power BI. 
Desarrollar medidas y columnas calculadas.
Implementar storytelling.
Crear gráficos eficientes.
		
	SEGUNDA ENTREGA DEL PROYECTO FINAL		
	Formato: Tablero en archivo ejecutable de Power BI, .pbix. La documentación debe ser formato pdf. 
Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento.		
	>>Se debe entregar:
Cada archivo debe llevar por título el nombre del proyecto y los nombres de los integrantes. En el caso del tablero, debe estar en la solapa de portada. 
En el archivo pdf:
Debe incluir la documentación presentada en la primera entrega de proyecto final.
Objetivo del proyecto.
Alcance
Usuario final y nivel de aplicación del análisis. 
Transformaciones realizadas.
Medidas calculadas generadas y sus fórmulas.
Segmentacioneselegidas.		
	SEGUNDA ENTREGA DEL PROYECTO FINAL		
	Formato: Tablero en archivo ejecutable de Power BI: .pbix. La documentación debe ser formato pdf. 
Sugerencia: Adjuntar la fuente de datos del tablero, archivo plano xls, csv o txt. En caso de ser formato google slide, hacer público el documento.		
	En el archivo .pbix:
Al menos tres solapas definidas.
Modelo de datos relacional. 
Tabla de calendario.
Indicadores generados como medidas calculadas.
Segmentaciones definidas.
Gráficos específicos de acuerdo al tipo de variables. 
Diseño que permita una comunicación efectiva (orden de lectura de los objetos).
Tipografía uniforme.
Paleta de colores uniforme.
Logos e imágenes.
		
¿QUIERES SABER MÁS? TE DEJAMOS MATERIAL AMPLIADO DE LA CLASE
Charla TED: Por qué hay que adorar la estadística | Alan Smith
Artículo : Las 10 mejores herramientas de data analytics en 2020. | Bernard Marr
¿PREGUNTAS?
¡MUCHAS GRACIAS!
Resumen de lo visto en clase hoy.
Estadística descriptiva
Medidas de tendencia central
OPINA Y VALORA ESTA CLASE
#DEMOCRATIZANDOLAEDUCACIÓN

Continuar navegando