Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Lic. Manuel Tuesta Moreno Mgr. 1 UNIVERSIDAD NACIONAL DE LA AMAZONÍA PERUANA FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA ESTADÍSTICA Y PROBABILIDAD 1 MEDIDAS DE DISPERSIÓN MANUEL TUESTA MORENO DOCENTE 1. MEDIDAS DE DISPERSIÓN Las medidas de dispersión o variabilidad son número que miden el grado de separación de los datos con respecto a un valor central, que generalmente es la media aritmética. Las principales medidas de dispersión son: o El rango, El rango intercuartil, Desviación media o promedio, La varianza y la desviación estándar El coeficiente de variación. 2 3 1.1. RANGO O RECORRIDO DE UNA VARIABLE El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable, ya que depende únicamente de los dos valores extremos. Su valor puede cambiar grandemente si se añade o se elimina un solo dato. Por tanto su uso es muy limitado. El empleo del rango como medida de comparación puede estar justificado cuando se precisa rápidamente de una medida de dispersión y no haya tiempo de calcular algunas de las otras. 4 1.2. RANGO INTERCUARTIL O RANGO SEMIINTERCUARTIL i) Rango intercuartil: El rango intercuartil es una medida que excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se encuentra el 50% central de los datos observados y a diferencia del rango total no se encuentra afectada por los valores extremos. Si el rango intercuartil es muy pequeño entonces describe alta uniformidad o pequeña variabilidad de los valores centrales. El rango intercuartil se aplica a variables medidas en escala por lo menos ordinal. 5 ii) Rango semiintercuartil: El rango semiintercuartil se puede asociar con la mediana y se puede expresar en función de ella. Si una distribución es normal los cuartiles y son equidistantes de la mediana. Se deduce entonces, que el rango intercuartil y la , son la misma distancia. Además, como exactamente el 50% de los datos se encuentran en el rango intercuartil, entonces, el intervalo contiene también exactamente el 50% de los datos. Si la distribución es asimétrica, el intervalo contendrá aproximadamente el 50% de los datos. 6 1.2. RANGO INTERCUARTIL O RANGO SEMIINTERCUARTIL OJO: Si la distribución es muy asimétrica, el rango intercuartil (o el semiintercuartil) es preferible a la desviación estándar como medida de la dispersión. Lic. Manuel Tuesta Moreno Mgr. 2 7 1.3. DESVIACIÓN MEDIA O PROMEDIO Sea , , … , valores de la variable , con frecuencias absolutas , , … , , respectivamente. La desviación media de X respecto a un promedio es dado por: ∑ ; 8 1.3. DESVIACIÓN MEDIA O PROMEDIO Con respecto a la media aritmética: ∑ ; Con respecto a la mediana: ∑ ; 9 1.3. DESVIACIÓN MEDIA O PROMEDIO Propiedades: 1)Como medida de dispersión, la desviación media es superior al recorrido y la desviación cuartílica, pues toma en cuenta cada elemento, y es más simple y se ve menos afectada por la presencia de valores extremos. Por lo tanto, se usa a menudo en muestras pequeñas que incluyen valores extremos. 10 1.3. DESVIACIÓN MEDIA O PROMEDIO Propiedades: 2)La principal deficiencia de la desviación promedio surge del hecho de que promedia los valores absolutos de las desviaciones, esto es, que no reconoce el signo de las desviaciones. Esto hace que sea menos conveniente que la desviación estándar cuando se requiere una medida de dispersión para ser usada en cálculo posteriores. 11 1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR 1.4.1. Varianza La varianza es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa con respecto a su media aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será grande. 12 1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR i) Calculo de la varianza muestral 1) Varianza de datos no tabulados ∑ 2) Varianza de datos tabulados Dato - frecuencia o por intervalos ∑ Lic. Manuel Tuesta Moreno Mgr. 3 13 2) Varianza de datos tabulados Dato - frecuencia o por intervalos Métodos abreviados i) ∑ ii) ∑ ; donde ; , , … ; iii) ∑ ; donde ; , , … ; 14 NOTA Si el denominador fuera en lugar de , se obtendría el promedio de los cuadrados de las diferencias con respecto a la media. Si embargo, se utiliza debido a ciertas propiedades matemáticas deseadas que tiene el estadístico , las cuales lo hacen apropiado para hacer inferencias estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre y disminuye cada vez más. 15 NOTA Dicho de otro modo, utilizar , en la varianza muestral, proporciona la mejor estimación de la varianza poblacional de la que se ha extraido la muestra. Una fórmula alternativa para la varianza muestral es No tabulados: ∑ Tabulados: ∑ que mide la dispersión de la muestra pero tiende a sobreestimar la dispersión de la población. 16 ii) Varianza poblacional La varianza poblacional se define en términos de la media poblacional , esto es: ∑ Donde: ∑ es el tamaño de la población. 17 1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR 1.4.2. La desviación estándar La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza, y se denota por: El valor numérico de S cuantifica el grado de dispersión de los valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones con respecto a la media y por ende, más alto el valor numérico de la desviación estándar. 18 1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR 1.4.3. Propiedades de la varianza y desviación estándar i) ; la varianza de una variable X es siempre positiva y es igual a cero cuando la variable X toma el valor constante c, esto es, ii) iii) , iv) , Lic. Manuel Tuesta Moreno Mgr. 4 19 v) Sean , , … las medias de submestras de tamaño , , … respectivamente y sean , , … las varianzas correspondientes. La varianza de la muestra de tamaño ⋯ es dado por: ∑ ∑ , , … El primer término del segundo miembro se llama intravarianza, este estadigrafo representa la variabilidad de los estratos o submuestras. El segundo término se llama intervarianza, estadigrafo que representa la variabilidad entre los estratos. 20 vi) El hecho de que la desvación estándar es matemáticamente lógica significa que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta caracteristica es la que da a la desviación estándar su gran superioridad sobre las demás medidas de dispersión. vii) La desviación estándar es de la misma naturaleza que la variable X y depende de su magnitud. viii) Para distribuciones simétricas resulta: a , b , c , 21 1.5. COEFICIENTE DE VARIACIÓN El C.V. es una medida de dispersión relativa (libre de unidades de medida), que se define como la desviación estándar dividido por la media aritmética. . . , ó % El C.V. se utiliza para comparar la variabilidad de dos o más series de datos que tengan medias iguales o diferentes o que tengan unidades medidas iguales o diferentes. 22 1.6. USOS DE LAS MEDIDAS DE DISPERSIÓN i) Si dos o más series de datos (observados en el mismo tipo de medición) tienen medias aritméticas iguales (o casi iguales) es más dispersa la serie que tiene mayor medida de variabilidad: , , , . . ii)Si dos o más series de datos, no tienen medias iguales (o casi iguales), o no tienen las mismas unidades de medición, entonces, es más dispersa la serie que tenga mayor coeficiente de variación. 23 2. ÍNDICES DE ASIMETRÍA Definición: Se dice que una distribución de frecuencias es simétrica, si los intervalos equidistantes del intervalo central tienen iguales frecuencias. También se dice que una distribución es simétrica si su curva de frecuencias es simétrica con respecto al centro de los datos. Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero pueden diferir en el grado de asimetría. Si la distribución es simétrica, entonces, lamedia, la mediana y la moda coinciden. Caso contrario, si estos 3 promedios no coinciden, la distribución es asimétrica. 24 2. ÍNDICES DE ASIMETRÍA Índice de asimetría de Pearson: Como en distribuciones asimétricas se verifica ≅ , entonces, otra forma de expresar el índice de asimetría es: Lic. Manuel Tuesta Moreno Mgr. 5 25 2.1. INTERPRETACIÓN DE LOS ÍNDICES DE ASIMETRÍA i) Distribución ii) Asimetría iii) Asimetría simétrica positiva o negativa o sesgada a sesgada a la derecha la izquierda 26 3. CURTOSIS La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se mide en comparación a la curva simétrica normal o mesocúrtica (Fig. (a)). Curtosis de curvas simétricas 27 3. CURTOSIS , Interpretación: Si la distribución es normal, tiende a . Si tiende a , , la distribución es leptocúrtica. Si tiende a , , la distribución es platicúrtica. 28 NOTA: OJIVAS ASIMÉTRICAS Ojivas asimétricas relativas La curva de frecuencia acumulada A es de una distribución con asimetría extrema negativa. La ojiva C es de asimetría extrema positiva. La ojiva B es de una distribución simétrica. 29 La diagonal D es la ojiva de una distribución normal. La curva F es la ojiva de una distribución simétrica leptocúrtica y la E de una platicúrtica NOTA: OJIVAS SIMÉTRICAS Ojivas simétricas relativas 30 4. Diagrama de caja y extensiones «box plots» Lic. Manuel Tuesta Moreno Mgr. 6 31 4. DIAGRAMA DE CAJA Y EXTENSIONES «BOX PLOTS» De un gráfico de cajas, se obtiene información de los datos acerca de: La centralización de la mediana (observando la ubicación de la mediana). La dispersión o variabilidad (mediante el rango intercuartil: . La asimetría comparando con . Las colas (por la longitud de los segmentos que salen de los lados de la caja). 32 4. DIAGRAMA DE CAJA Y EXTENSIONES «BOX PLOTS» Los datos atípicos o discordantes o raros llamados outlier (aislados) son aquellos que se ubican fuera del intervalo . ; . , , donde es el rango intercuartil. 33 MEDIDAS DE DISPERSIÓN EJERCICIOS PROPUESTOS
Compartir