Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Medidas de dispersión Rango, desviación media, varianza y desviación estándar Medidas de tendencia central, dispersión y posición Medidas de Tendencia Central Media Mediana Moda Medidas de dispersión El rango Desviación media Varianza Desviación estándar Medidas de posición Cuartiles Rango Intercuartil Deciles PercentilesP P P Distribución simétrica Media Moda Mediana En distribuciones totalmente simétricas la media , la mediana y la moda coinciden localizándose en un mismo valor. Distribuciones asimétricas En cambio en distribuciones moderadamente asimétricas se tiene la siguiente relación aproximada: 𝑀𝑒𝑑𝑖𝑎 −𝑀𝑜𝑑𝑎 = 3(𝑀𝑒𝑑𝑖𝑎 −𝑀𝑒𝑑𝑖𝑎𝑛𝑎) ഥ𝑥 > 𝑀𝑒 > 𝑀𝑜ഥ𝑥 < 𝑀𝑒 < 𝑀𝑜 Las distribuciones según la moda Normal Bimodal Rectangular Medidas de Dispersión Son las que indican la diferencia en la intensidad con que se dispersan o concentran los valores observados con respecto a una medida de tendencia central Medidas de dispersión Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir en términos de variación. Entre las medidas de dispersión, tenemos: - Rango. - Desviación media. - Varianza. - Desviación estándar o típica. - Coeficiente de variación. Rango La dispersión puede medirse en términos de la diferencia entre los dos valores extremos del conjunto de datos. De esta forma, el rango (amplitud) se define como la diferencia entre el máximo y el mínimo valor de la distribución. Observación: Esta medida de dispersión tiene como inconveniente ser poco representativa, cuando existen valores extremos atípicos . Depende sensiblemente del número de datos. Se usa cuando se desea una medida simple de la variabilidad. 𝑅 = 𝑥 𝑚á𝑥 – 𝑥𝑚í𝑛 Para el caso de datos no agrupados El siguiente conjunto de datos forma una población: 2, 4, 6, 8 y 10 calcular el rango 𝑅 = 𝑥 𝑚á𝑥 – 𝑥𝑚í𝑛 = 10 − 2 = 8 𝑥 𝑚á𝑥 = 10 𝑥 𝑚í𝑛 = 2 Ejercicio Las ganancias de la primera mitad del año pasado de una empresa que vende ositos de peluche en lata se muestran en la tabla. Calcular el rango de las ganancias. Mes Enero Febrero Marzo Abril Mayo Junio Ganancias $16800 $34500 $17300 $12500 $14000 $18600 Rango para datos agrupados en intervalos Los sueldos mensuales en $ de 60 empleados de la empresa Píramide A.A se da en la siguiente tabla: Edad xi fi Fi 321 – 371 5 371 – 421 8 421 – 471 14 471 – 521 9 521 – 571 11 571 – 621 8 621 - 671 5 60 5 13 27 36 47 55 60 346 396 446 496 546 596 646 𝐿𝑚 ⟶ 𝐿𝑜 ⟶ 𝑅 = 𝐿𝑚 − 𝐿𝑜 = 671 − 321 = 350 Límite superior del ultimo intervalo Límite extremo inferior del primer intervalo La diferencia entre el sueldo mayor y el sueldo menor es 350 Desviación media Es una medida de dispersión que tiene en cuenta para su cálculo todos los datos y no esta estrictamente ligada al número de ellos. Desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable y la media aritmética. Es el promedio de las desviaciones respecto a la media. El valor || se refiere al valor absoluto. 𝐷 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 𝑛 𝐷 ҧ𝑥 = 𝑥1 − ҧ𝑥 + 𝑥2 − ҧ𝑥 + 𝑥3 − ҧ𝑥 + ⋯+ 𝑥𝑛−1 − ҧ𝑥 𝑛 Ejercicio Calcule la desviación media de: 3, 10, 2, 8, 7 𝐷 ҧ𝑥 = 3 − 6 + 10 − 6 + 2 − 6 + 8 − 6 + 7 − 6 5 𝐷 ҧ𝑥 = 3 + 4 + 4 + 2 + 1 5 = 14 5 = 2,8 ҧ𝑥 = 3 + 10 + 2 + 8 + 7 5 = 30 5 = 6 Ejercicio Se tienen un número de hermanos 3 0 1 0 2 0 1 Calcule el promedio de los datos. Calcule la desviación media correspondiente. Desviación media de un conjunto de datos agrupados puntualmente xi fi xifi 𝒙𝒊 − ഥ𝒙 𝒙 − ഥ𝒙 𝒇𝒊 13 3 14 14 15 23 16 10 17 5 18 4 19 1 𝐷 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 𝑓𝑖 𝑛 = 61,2 60 = 1,02 ≈ 1 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖𝑓𝑖 𝑛 = 916 60 = 15,26 2,26 1,26 0,26 0,74 1,74 2,74 3,74 91660 61,2 39 196 345 160 85 72 19 6,78 17,64 5,98 7,4 8,7 10,96 3,74 Ejercicio xi fi xifi 𝒙𝒊 − ഥ𝒙 𝒙 − ഥ𝒙 𝒇𝒊 5 3 6 4 7 8 8 2 Encontrar la desviación media de: Desviación media de datos agrupados en clases Edad xi fi xifi 𝒙𝒊 − ഥ𝒙 𝒙 − ഥ𝒙 𝒇𝒊 30 – 35 2 35 – 40 4 40 – 45 8 45 – 50 5 50 - 55 1 𝐷 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 𝑓𝑖 𝑛 = 77 20 = 3,85 ≈ 4 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖𝑓𝑖 𝑛 = 845 20 = 42,25 9,75 4,75 0,25 5,25 10,25 84520 77 65 150 340 237,5 52,5 19,5 19 2 26,25 10,25 32,5 37,5 42,5 47,5 52,5 Ejercicio Edad xi fi xifi 𝒙𝒊 − ഥ𝒙 𝒙 − ഥ𝒙 𝒇𝒊 0 – 10 1 10 – 20 3 20 – 30 9 30 – 40 6 40 - 50 1 Encontrara la desviación media correspondiente al siguiente conjunto de datos Medidas de dispersión Varianza La varianza se define como el promedio de las desviaciones (distancias) cuadráticas de las observaciones respecto del promedio. Mide el grado de dispersión de los valores de la variable respecto a la media aritmética. Observación: Esta medida de dispersión tiene como inconveniente que las unidades de la variable están al cuadrado. 22 2 2 XX n xxi 1 2 2 n xx S i Varianza poblacional: Varianza muestral: Medidas de dispersión Desviación estándar La desviación estándar se define como la raíz cuadrada de la varianza. Como la varianza tiene las unidades de medidas elevadas al cuadrado, estas unidades no son intuitivamente claras y fáciles de interpretar. Por lo que la desviación estándar es un estadígrafo de dispersión que no presenta problema con las unidades de medidas, es decir, las unidades quedan igual que los datos de origen. Desviación estándar poblacional: Las siguientes fórmulas se utilizan para calcular la desviación estándar, pero nosotros utilizaremos la planilla de cálculo Excel para obtener este valor. Nota: Desviación estándar muestral: 22 2 2 XX n xxi 1 2 2 n xx SS i Medidas de dispersión Propiedad importante de la desviación estándar El uso de la desviación estándar nos permite determinar, con un buen grado de precisión, la ubicación de los valores de una distribución de frecuencias en relación a la media. Por lo cual si la distribución de los datos se acerca al modelo normal, aproximadamente el 68% de los datos están dentro de ±1 desviación estándar a partir de la media de la distribución. Aproximadamente el 96% de los valores caen dentro de ±2 desviaciones estándar a partir de la media y aproximadamente el 100% caen dentro de ±3 desviaciones estándar a partir de la media . Observación: Todas las medidas de dispersión vistas anteriormente tiene como inconveniente que no sirven para comparar la variabilidad entre variables con unidades de medidas distintas. Por ejemplo si deseamos comparar la variabilidad del peso medido en kilógramos y la estatura medida en centímetros de un conjunto de personas. Medidas de dispersión Coeficiente de variación El coeficiente de variación se define como la razón entre la desviación estándar y la media aritmética, el cual se puede expresar en porcentaje al ser multiplicado por 100. Observación: Esta medida de dispersión tiene como ventaja que no depende de las unidades de medidas de la variable, lo cual permite comparar la variabilidad de datos de variables con distintas unidades. Coeficiente de variación: X S X CV → Desviación estándar → Media aritmética Coeficiente de Variación 0 1 Datos menos dispersos (más homogéneos) Datos más dispersos (más heterogéneos) Medidas de dispersión Homogéneo: Uniforme, semejante, similar, idéntico. Heterogéneo: Diverso, variado, mezclado, distinto. Observación: En la mayoría de las distribuciones de datos el coeficiente de variación toma valores desde 0% al 100%. Grupo 1 Grupo 2 19 – 20 – 20 – 19 – 22 28 – 32 – 30 – 4 – 6Los siguientes datos representan las edades en años de dos grupos diferentes de personas, en las cuales se calculó el promedio. Determine el grupo de personas que presenta un comportamiento más homogéneo en sus edades. Media: 20 Media: 20 Ejemplo 1 Respuesta: Como se puede observar en la gráfica de cada grupo de personas, las medidas de tendencia central (en este caso la media) no reflejan la variabilidad o dispersión del grupo de datos. Es por esto que debemos utilizar otro indicador para medir la variabilidad de los datos. Este indicador puede ser el coeficiente de variación. 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 E d a d Persona Edades Grupo 1 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 E d a d Persona Edades grupo 2 El coeficiente de variación de la edad del primer y segundo grupo, son respectivamente 6,1% y 68,9%, por lo que el primer grupo presenta un comportamiento más homogéneo con respecto a la edad, ya que su coeficiente de variación es menor. Se tienen los registros del sueldo en miles de pesos y los años de antigüedad de 30 operarios de una fábrica. Determine con respecto a qué variable los operarios presentan menor variabilidad. Justifique su respuesta. Ejemplo 2 Sueldos en m$ Años de antigüedad 396 351 427 12 5 6 296 360 338 11 5 3 385 400 317 9 7 4 348 367 346 6 5 6 405 361 392 8 7 8 367 411 492 7 8 1 496 359 292 5 10 7 372 455 400 9 12 10 483 433 362 8 8 3 309 435 378 5 8 5 Para el caso de un conjunto de datos agrupados puntualmente xi fi xifi 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐𝒇𝒊 13 3 14 15 15 23 16 10 17 5 18 4 𝜎2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2𝑓𝑖 𝑛 = 90,98 60 = 1,52 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖𝑓𝑖 𝑛 = 911 60 = 15,18 4,75 1,39 0,03 0,67 3,31 7,95 91160 90,98 39 210 345 160 85 72 14,25 20,89 0,74 6,72 16,56 31,80 En el caso de ser una muestra 𝑆2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2𝑓𝑖 𝑛 − 1 = 90,98 60 − 1 = 1,54 Esto se específica en el enunciado o en el problema. La desviación estándar correspondiente será 𝜎 = 𝜎2 = 1,52 = 1,23 𝑆 = 𝑠2 = 1,54 = 1,24 Como se tratan de años entonces tenemos 𝜎 = 1,23 𝑎ñ𝑜𝑠 𝑆 = 1,24 𝑎ñ𝑜𝑠 𝜎2 = 1,52 𝑎ñ𝑜𝑠2 𝑆2 = 1,54 𝑎ñ𝑜𝑠2 ҧ𝑥 = 15,18 años Población Muestra Coeficiente de variación 𝐶𝑉 = 𝜎 ҧ𝑥 × 100 𝐶𝑉 = 1,23 15,18 × 100 = 8,1% Esto me indica si los datos varían mucho o poco. Un criterio para decidir es si el porcentaje da mayor o igual al 25%. Ejercicio Encontrar el promedio, la varianza, la desviación estándar y el coeficiente de variación correspondiente: xi fi xifi 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐𝒇𝒊 10 5 11 6 12 3 Para el caso de un conjunto de datos en intervalos EDAD xi fi xifi 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐𝒇𝒊 10 - 15 5 15 - 20 9 20 - 25 12 25 - 30 15 30 - 35 11 35 - 40 8 𝜎2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2𝑓𝑖 𝑛 = 3265 60 = 54,42 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖𝑓𝑖 𝑛 = 1560 60 = 26 182,25 72,25 12,25 2,25 42,25 132,25 156060 3265 62,5 157,5 270 412,5 357,5 300 911,25 650,25 147 33,75 464,75 1058 12,5 17,5 22,5 27,5 32,5 37,5 En el caso de ser una muestra 𝑆2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2𝑓𝑖 𝑛 − 1 = 3265 60 − 1 = 55,34 Esto se específica en el enunciado o en el problema. La desviación estándar correspondiente será 𝜎 = 𝜎2 = 54,42 = 7,38 𝑆 = 𝑠2 = 55,34 = 7,43 Como se tratan de edad entonces tenemos 𝜎 = 7,38 𝑎ñ𝑜𝑠 𝑆 = 7,43 𝑎ñ𝑜𝑠 𝜎2 = 54,42 𝑎ñ𝑜𝑠2 𝑆2 = 55,34 𝑎ñ𝑜𝑠2 ҧ𝑥 = 26 años Población Muestra Coeficiente de variación 𝐶𝑉 = 𝜎 ҧ𝑥 × 100 𝐶𝑉 = 7,38 26 × 100 = 28,38% Esto me indica si los datos varían significativamente, debido a que el porcentaje es mayor o igual al 25%. Otra forma de decirlo es que los datos son heterogéneos. Ejercicio EDAD xi fi xifi 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐𝒇𝒊 40 – 50 3 50 – 60 10 60 - 70 2 Determinar el promedio, la varianza y la desviación estándar considerando los datos como una población y como una muestra Medidas de tendencia central, dispersión y posición Medidas de Tendencia Central Media Mediana Moda Medidas de dispersión El rango Desviación media Varianza Desviación estándar Medidas de posición Cuartiles Rango Intercuartil Deciles PercentilesP P P P P P P ¡Gracias por su atención!
Compartir