Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 1 ESTADISTICA DESCRIPTIVA PROPIEDADES DE LOS DATOS NUMERICOS - 16 DE ABRIL DE 2010- Las tres propiedades principales que describen un conjunto de datos numéricos son: Tendencia central Dispersión Forma En todo análisis se pueden utilizar diversas medidas descriptivas de tendencia central, dispersión y forma para extraer y resumir las principales características de los datos. Si se calculan a partir de una muestra se las denomina estadísticos, si se calculan a partir de una población se las denomina parámetros. Como los especialistas en estadística suelen tomar muestras en vez de poblaciones, el énfasis de este curso estará más orientado hacia los estadísticos que a los parámetros. MEDIDAS DE TENDENCIA CENTRAL La mayor parte de un conjunto de datos muestran una tendencia a agruparse alrededor de un punto “central” y, por lo general, es posible elegir algún valor promedio, que describa todo el conjunto de datos. Aunque la palabra promedio se refiere a cualquier medida de resumen de tendencia central, se utiliza con mayor frecuencia como sinónimo de media. Con frecuencia se utilizan cuatro tipos de promedio como medidas de tendencia central, que son: Media Aritmética, Mediana, Moda y Rango Medio MEDIA ARITMÉTICA La Media Aritmética (o Media como se la llama comúnmente) es la medida de tendencia central que se usa con más frecuencia. Se calcula sumando todas las observaciones de un conjunto y dividiendo después ese resultado entre el número total de elementos involucrados. O sea dado un conjunto de n datos numéricos : x1, x2,..., xn se define la media aritmética como : n x n 1i i x (1) El cálculo de la media se basa en todas las observaciones del conjunto de datos. Ninguna otra medida de posición posee esta característica. Ejemplo 1 : Los siguientes datos corresponden a las temperaturas diarias (en grados centígrados) registradas durante una semana del mes de julio en San Salvador de Jujuy : 3, 2, 1, 2, 1, 0, -1 En este caso la media aritmética resulta x =( 3 + 2 + 1 + 2 + 1 + 0 - 1 ) / 7 = 8 / 7, luego x 1,14. Se concluye que la “temperatura promedio en esa semana fue de 1, 14°C aproximadamente” Una representación de la distribución de frecuencias mediante un diagrama de puntos sería Se puede tener una representación física de la media x si se piensa en una regla numérica equilibrada sobre un punto de apoyo, sobre la cual se coloca una pesa en el número correspondiente a cada observación. La media actúa como punto de equilibrio. Como el cálculo de la media aritmética de un conjunto de datos se basa en todas las observaciones resulta muy afectada por valores extremos. En tales casos la media aritmética representa una imagen distorsionada de la información que contienen los datos realmente y no resultará la mejor medida de tendencia central para describir o resumir ese conjunto de datos .Para ilustrar esa situación se presenta el siguiente ejemplo. Ejemplo 2: Tomemos dos muestras de una misma población y calculemos sendas medias aritméticas. Muestra 1 : 14, 42, 13, 14, 16, 21 n = 6 En este caso x = 20 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 2 Muestra 2 : 20, 22, 17, 20, 23, 18 n = 6 También en este caso x = 20 Estas dos figuras ilustran diagramas de puntos de las dos muestras. Si bien el promedio en ambas es 20, las dos muestras tienen características muy distintas. Por ejemplo para la muestra 1, cuatro de las seis observaciones son muy distintas de la observación tomada en segundo término. Para esta muestra la media aritmética da una imagen distorsionada de la información que contienen los datos y no es la mejor medida de tendencia central que se pueda utilizar. Por otro lado, para la muestra 2 la media es la medida descriptiva apropiada para resumir y caracterizar ese conjunto de datos puesto que no se dan observaciones muy diferentes. Ejemplo 3: Los siguientes datos representan el período de vida, en segundos, de 50 moscas que están sujetas a un nuevo insecticida en un nuevo experimento controlado de laboratorio: El tiempo promedio de vida de los 50 datos es x = 12, 32 segundos. MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS NO AGRUPADOS Se puede obtener también x a partir de la distribución de frecuencias de los valores posibles de la variable x. Obviamente es para el caso que el número de valores posibles de la variable sea pequeño. En este caso n 1i i n 1i ii f fx x (2) x : media aritmética, n: número de valores distintos de la variable x, f i: frecuencia (número de observaciones iguales a xi) Ejemplo 4 : Se ha realizado un estudio del número de hijos de mujeres de un lugar de España. Para ello ha tomado una muestra de 100 mujeres mayores de 15 años y se ha registrado el número de hijos de las mismas. El resultado ha sido: Xi número de hijos fi número de mujeres 0 13 1 20 2 25 3 20 4 11 5 7 6 4 Total 100 Se pide calcular el número promedio de hijos de las mujeres de la muestra. 12 4 5 18 6 7 15 6 13 7 32 7 9 8 8 7 14 9 24 10 16 19 10 13 10 11 12 3 13 10 13 7 13 14 9 7 15 16 10 17 18 6 18 19 10 20 23 9 27 7 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 3 100 4675114203252201130 x = 2,33 Con frecuencia es necesario obtener medidas descriptivas de resumen para datos agrupados en distribuciones de frecuencia. En muchos casos, los analistas obtienen esas distribuciones en forma directa de artículos publicados en revistas, periódicos, publicaciones especializadas, etc. En esas situaciones, simplemente no están disponibles los datos originales. En otros casos en que si están disponibles los datos originales, pero no una computadora, es muy laborioso obtener las características sobresalientes de los datos conforme aumenta el número de observaciones, a menos que se agrupen primero los datos en tablas y gráficas. En tanto que las medidas descriptivas que se calculan de datos no agrupados (datos en su forma original o en un arreglo ordenado) ofrecen resultados reales, se pueden obtener aproximaciones de estas medidas descriptivas a partir de los datos agrupados. MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS AGRUPADOS Como en la distribución de frecuencias de datos agrupados se utiliza el punto medio de cada clase para representar todas las observaciones que caen dentro de cada clase, se puede aproximar la media aritmética de una muestra de la siguiente manera: n fm k 1i ii x (3) en donde x : media aritmética, n: número de observaciones en la muestra (tamaño de la muestra), mi: marca de clase (centro del intervalo), f i: frecuencia de la clase (número de observaciones clasificadas en la i-ésima clase, k: número de clases Ejemplo 5: Se presenta la distribución de frecuencias de las duraciones de 40 baterías de auto similares. Las baterías estaban garantizadas para durar 3 años. A fin de opinar al respecto se desea calcular aproximadamente el tiempo promedio de duración de las 40 baterías, usando solo la tabla de distribución de frecuencias pues no se disponen de los datos individuales. DURACIONES DE BATERIAS DE AUTOMOVILES Duraciones de las baterías Marcas de Clase Nº de baterías (en años) m i f i m i f i [ 1,5 , 2,0) 1,75 2 3,50 [ 2,0 , 2,5) 2,25 1 2,25 [ 2,5 , 3,0) 2,75 4 11,00 [ 3,0 , 3,5) 3,25 15 48,75 [ 3,5 , 4,0) 3,75 10 37,50 [ 4,0 , 4,5) 4,25 5 21,25 [ 4,5 , 5,0) 4,75 3 14,25 Total 40 138,5 Luego el tiempo promedio de duración de las 40 baterías es x = 138,5/40 = 3,4625 años. LA MEDIANA La mediana de un conjunto de números se define como el valor a partir del cual la mitad de los elementostiene un valor igual o superior al de la mediana y la otra mitad tiene un valor inferior o igual al de la mediana. La mediana de una muestra se denota a veces por x~ . La mediana es el valor que se encuentra en el centro de un LOTE ORDENADO; es decir, la mediana divide el lote ordenado en dos partes iguales. Los datos de una parte son menores o iguales que la mediana y los de la otra parte son mayores o iguales que la mediana. Para calcular la mediana a partir de un conjunto de datos recolectados en su forma natural: CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 4 x1, x2, ... , xn Primero se debe ordenar el conjunto, obteniéndose los estadísticos de orden x(1), x(2), ... , x(n), (4) donde x(1) denota la observación más pequeña, x(2) la segunda observación más pequeña, ..., y x(n) denota la observación más grande, es decir x(1) x(2) ... x(n), A este conjunto se le denomina un arreglo ordenado (o lote ordenado). Después se utiliza la fórmula de posicionamiento de la mediana 2 1n (5) para localizar el lugar que ocupa la mediana en el lote ordenado. Regla 1: Si el tamaño del lote es un número impar, la mediana está representada por el valor numérico correspondiente a la posición (n + 1)/2 de las observaciones ordenadas. Regla 2: Si el tamaño del lote es un número par, entonces la posición de la mediana estará entre las dos observaciones centrales. Por ello, la mediana es el promedio de los valores numéricos correspondientes a estas dos observaciones centrales. En términos matemáticos, parn, 2 xx imparn ,x x~ )12/n()2/n( )2/1n( (6) Ejemplo 6: Para hallar la mediana en el ejemplo 1, primero se obtiene la muestra ordenada: -1, 0, 1, 1, 2, 2, 3 Observación ordenada 1ª 2ª 3ª 4ª 5ª 6ª 7ª Para estos datos la posición de la mediana es: (7 + 1)/2 = 4. Por lo tanto, la mediana es el valor de la muestra ordenada que ocupa la posición 4ª , o sea 1. x~ = 1. Es decir que la “temperatura mediana en esa semana fue de 1°C” Marque en el gráfico la media y la mediana y compare. Ejemplo 7: En la muestra 1 del ejemplo 2, para hallar la mediana, ordenamos previamente la muestra, resultando: Muestra 1 ordenada 13, 14, 14, 16, 21, 42 n = 6 La posición de la mediana será (6+1)/2 = 3,5. Luego la mediana es el promedio de los dos datos centrales marcados, x~ = (14+16)/2 = 15 En el gráfico de puntos se indican la media y la mediana. Compare y cite conclusiones. La mediana no se ve afectada por las observaciones extremas en un conjunto de datos. Por ello cuando se presenta alguna observación extrema resulta apropiado utilizar la mediana y no la media para representar el conjunto de datos. Esta situación se ilustra en el último ejemplo. Ejemplo 8: Para los datos del ejemplo 3 calculamos la mediana del tiempo de vida, en segundos, de las 50 moscas sujetas a un nuevo insecticida. En primer lugar ordenamos los datos y obtenemos el siguiente arreglo. 3 4 5 6 6 6 7 7 7 7 7 7 7 8 8 9 9 9 9 10 10 10 10 10 10 11 12 12 13 13 13 13 13 14 14 15 15 16 16 17 18 18 18 19 19 20 23 24 27 32 La posición de la mediana será (50 + 1 )/2 = 25,5. Esto indica que la mediana será el promedio de los dos datos centrales, los que ocupan la posición 25º y 26º. Es decir: CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 5 Mediana = 5,10 2 1110 2 xx )26()25( Conclusión: El tiempo mediano de vida de las 50 moscas sometidas al nuevo insecticida es de 10,5 segundos. Estadísticamente hablando esto significa que la mitad de los tiempos de vida de las 50 moscas son menores o iguales a 10,5 segundos y la otra mitad mayores a ese valor ( en este caso no ponemos el “=” pues aquí la mediana no es un dato). Ahora bien, puesto que cada tiempo está asociado a una mosca (la unidad experimental), podemos citar nuestras conclusiones diciendo “la mitad de las moscas vivió menos de 10,5 segundos y la otra mitad vivió un tiempo mayor”. Ejemplo 9: Para determinar la mediana de los n = 100 datos del ejemplo 4, podríamos agregar a la tabla otra columna con las frecuencias acumuladas. Xi número de hijos fi número de mujeres frecuencias acumuladas 0 13 13 1 20 33 2 25 58 3 20 78 4 11 89 5 7 96 6 4 100 Total 100 En este caso la posición de la mediana será (100 + 1 )/2 = 50,5. Esto indica que la mediana será el promedio de los dos datos centrales, los que ocupan la posición 50º y 51º. En la tabla observamos que los datos x(50) y x(51) son iguales a “2”. Luego “el número mediano de hijos es 2”. Como cada dato está asociada a una mujer, expresamos nuestras conclusiones diciendo que ” la mitad de las mujeres de ese lugar de España tienen como máximo 2 hijos y la otra mitad de mujeres tienen por lo menos 2 hijos”. MEDIANA DE DATOS AGRUPADOS Para datos agrupados, la mediana se obtiene mediante interpolación y viene dada por Mediana = L1 + c f f 2 n mediana 1 (7) donde L1 = límite real inferior de la clase mediana ( es decir, la clase que contiene la mediana) n = número de datos ( f)1 = suma de las frecuencias de todas las clases por debajo de la clase mediana. (O sea número de observaciones de todas las clases por debajo de la clase mediana) fmediana = frecuencia de la clase mediana (clase que contiene a la mediana) c = tamaño del intervalo de la clase mediana (amplitud del intervalo) Ejemplo 10: Para hallar la mediana de los datos que representan las duraciones de 40 baterías de auto similares, a partir de la distribución de frecuencias indicadas en ejemplo 5, procedemos como sigue: En primer lugar ubicamos el intervalo de clase que contiene la mediana. La fórmula de posicionamiento de la mediana nos indica que la mediana ocupa la posición (40 + 1)/ 2 = 20,5 de la muestra ordenada. Esto es, veinte datos son menores o iguales que la mediana y 20 son mayores o iguales. Puesto que la suma de las frecuencias de las tres y cuatro primeras clases son respectivamente 2 + 1 + 4 = 7 y 2 + 1 + 4 + 15 = 22, está claro que la mediana se encuentra en la cuarta clase. Luego la clase mediana será [ 3,0 , 3,5) . Entonces L1 = 3,0; n = 40; ( f)1 = 2 + 1 + 4 = 7 ; fmediana = 15; c = 3,5 – 3,0 = 0,5; así se tiene años43,35,0 15 7 2 40 0,3c f f 2 n LMediana mediana 1 1 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 6 Geométricamente, la mediana es el valor de la variable (abscisa) que corresponde a la vertical que divide un histograma en dos partes de igual área. Luego, la mediana puede estimarse a partir de un histograma. Analizaremos como obtener la mediana a partir de una ojiva porcentual (polígono de frecuencias relativas porcentuales acumuladas). Ejemplo 11: Se muestra a continuación la ojiva porcentual correspondiente a los datos de tiempos de duración de 40 baterías de automóviles. La mediana es la abscisa del punto P sobre la ojiva, cuya ordenada es el 50%. Puede obtenerse aproximadamente del gráfico buscando simplemente la abscisa del punto P. En nuestro caso observamos que es aproximadamente 3,43 o 3,44. Para calcular su valor nos basamos en los triángulos semejantes PQR y TSR 30 13 RQqueasí 15 13 %5,17%55 %5,17%50 5,0 RQ o ST PQ RS RQ Entonces Mediana = 3,0 + RQ = 3,0 + 13/30 = 3,433333... 3,43 x~ = 3,43 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 7 LA MEDIA RECORTADA De la misma manera que la mediana, la media recortada es una medida de tendencia central que se diseñó para que no esté afectadapor datos atípicos. La media recortada se calcula a partir del arreglo ordenado, “recortando” un número igual de datos a partir de cada extremo y calculando la media de los restantes. Si se ”recorta” el p% de los datos de cada extremo, la media recortada resultante se denomina “media recortada un p%”. No existe fórmula ni fácil ni difícil para saber cuántos valores se deben recortar. Las más comunes son las medias recortadas al 5, 10 y 20%. Debido a que el número de datos recortados debe ser un número entero, en muchos casos es imposible recortar los porcentajes exactos que se piden de los datos. Si el tamaño muestral se denota por n y se desea recortar un p%, el número de datos a ser recortados es np/100. Si este no es un número entero, lo más sencillo que se debe hacer cuando se calcula manualmente es redondear al entero más cercano y recortar esa cantidad. LA MODA En ocasiones, cuando se describe o se resume un conjunto de datos, se utiliza la moda como medida de tendencia central. La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia en la muestra. Se obtiene fácilmente a partir de un arreglo ordenado. A diferencia de la media aritmética, la moda no se afecta ante la ocurrencia de valores extremos. Sin embargo solo se utiliza la moda para propósitos descriptivos porque es más variable para distintas muestras, que las demás medidas de tendencia central. Puede no existir y en caso de existir puede no ser única. Ejemplos 12: En el ejemplo 1 hay dos modas 1°C y 2°C. En el ejemplo 2 la moda es 14 para la muestra 1 y para la muestra 2 la moda es 20. La siguiente muestra 5, 1, 6, 9, 2, 3 no tiene moda. La muestra 2, 8, 9, 6, 2, 8, 6, 2, 8, 7, 3 presenta dos modas 2 y 8. Estos datos se describen como bimodales. Una distribución de datos que presenta una sola moda se llama unimodal. Si presenta dos modas, bimodal y una distribución es multimodal si presenta más de dos modas. En ocasiones, cuando el tamaño de la muestra lo permite, conviene ordenar los datos para poder obtener más fácilmente la/s moda/s, si es que existen. Ejemplo 13: En el ejemplo 3 el tiempo modal de vida es de 7 segundos (pues 7 segundos es el dato que presenta la mayor frecuencia) Ejemplo 14: En el ejemplo 4 observando la segunda columna de la tabla concluimos que el número modal de hijos de las 100 mujeres de ese lugar de España es 2 ( pues es el número de hijos que presenta la mayor frecuencia). MODA DE DATOS AGRUPADOS En el caso de datos agrupados donde se ha construido una curva de frecuencias para ajustar los datos, la moda será el valor (o valores) de la variable de interés correspondiente al máximo (o máximos) de la curva. Es decir cada máximo local es una moda. De una distribución de frecuencias o un histograma, la moda puede obtenerse de la siguiente fórmula cLModa 21 1 1 (8) donde L1 = límite real inferior de la clase modal ( es decir, la clase que contiene la moda) Δ1 = Frecuencia del intervalo modal menos frecuencia del intervalo anterior Δ2 = Frecuencia del intervalo modal menos frecuencia del intervalo posterior c = tamaño del intervalo de clase modal. Ejemplo 15: Para hallar la moda de la distribución de frecuencias de los tiempos de duración de las 40 baterías de auto similares indicadas en ejemplo 5, procedemos como sigue: En primer lugar ubicamos el intervalo de clase modal, en este caso es [ 3,0 , 3,5) – el que presenta la mayor frecuencia- CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 8 luego L1 = 3,0 = 15 – 4 = 11 = 15 – 10 = 5 c = 3,5 – 3,0 = 0,5; así se tiene 34375,35,0 511 11 0,3Moda 3,34 años En el histograma del ejemplo 5 se grafican la media, la mediana y la moda. RANGO MEDIO Es el promedio de las observaciones mayor y menor de un conjunto de datos. 2 xx MedioRango mínimomáximo (9) A pesar de su sencillez, el rango medio se debe usar con cautela, ya que sólo involucra las observaciones mayor y menor de un conjunto de datos, si hay observaciones extremas se distorsiona como medida de tendencia central. (Por esta razón, podría ser preferible usar el eje medio) CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 9 No obstante, con frecuencia se utiliza en forma exitosa el rango medio como parámetro de medición tanto para análisis financieros como para informes sobre el clima, puesto que ofrece un valor adecuado “rápido y sencillo” para resumir todo un conjunto de datos, ya sea una serie de precios diarios de cierre de una acción para todo un año, o un conjunto de lecturas de temperaturas registradas cada hora durante todo un día. En tales situaciones no es posible que ocurra un valor extremo (también llamada observación atípica). Ejemplos 16: En el ejemplo 1, el rango medio = (-1+3)/2 = 1 En el ejemplo2 para la muestra 1, el rango medio = (13+42)/2 = 27,5 y para la muestra 2, el rango medio = (17+23)/2 = 20 A continuación se presentan diagramas de puntos en donde se indican todas las medidas de tendencia central estudiadas. MEDIDAS DE DISPERSIÓN Una segunda propiedad importante que describe a un conjunto de datos es la dispersión. La dispersión es el grado de variación o diseminación de los datos. Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersión; o como se muestra en los siguientes ejemplos, dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir mucho en términos de dispersión. Este último caso se ejemplifica en los siguientes conjuntos de datos. Ejemplo 17: Los datos de la muestra A señalan el tiempo de funcionamiento (en días) hasta que se presenta la primera falla de n = 6 radiotransmisores-receptores de marca A y los datos de la muestra B corresponden a n = 6 radiotransmisores-receptores de marca B CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 10 Los datos de la muestra B son mucho menos variables que los de la muestra A. Observemos que ambos tienen la misma media. Las medidas de dispersión que analizaremos en primera instancia son: el rango, la varianza, la desviación estándar y el coeficiente de variación EL RANGO El rango es la diferencia entre las observaciones Máxima y mínima de un conjunto de datos: Es decir RANGO = xMAXIMO - x MINIMO (10) Ejemplo 18: En el ejemplo 17, para los datos de la muestra A: Rango = 280 - 114 = 166 días y para los datos de la muestra B: Rango = 180 - 150 = 30 días Conclusiones: En un rango de 166 días se presentó la primera falla en los n=6 radiotransmisores-receptores de marca A, mientras que para los seis de la marca B, la primera falla se presentó en un rango de 30 días. El rango mide la dispersión total del conjunto de datos. Aunque el rango es una medida de dispersión simple y se calcula con facilidad, su debilidad preponderante es que no toma en consideración la forma en que se distribuyen los datos entre los valores más pequeños y los más grandes. Esto se puede observar en los siguientes gráficos que se presentan tres conjuntos de puntos con el mismo rango. Rango = 13 – 5, Rango = 8 Rango = 8 Rango = 8 En el último caso x MINIMO = 13 es una observación atípica No es apropiado utilizar el rango como medida de dispersión cuando una o ambas de xMAXIMO e yMAXIMO son observaciones extremas. VARIANZA Y DESVIACIÓN ESTÁNDAR: Dos medidas de dispersión que se utilizan con frecuencia y que toman en consideración la forma en que se distribuyen todos los valores son la varianza y su raíz cuadrada, la desviación estándar. Estas medidas establecen la forma en que los valores fluctúan con respecto a la media. CATEDRA PROBABILIDADY ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 11 Para una muestra que contiene n observaciones x1 , x 2, . . . , x n , la varianza muestral (representada por S 2 ), se define de la siguiente manera : 1n )xx()xx()xx( 2n 2 2 2 1 2S ; es decir 1n )xx( S n 1i 2 i 2 (11) donde x = media aritmética, n = número de observaciones en la muestra (tamaño de la muestra), n 1i 2 i )xx( sumatoria de todos los cuadrados de las diferencias entre los valores de xi y x La Varianza Muestral es casi el promedio de los cuadrados de las diferencias entre cada una de las observaciones de un conjunto de datos y la media. Si el denominador hubiera sido n en lugar de n - 1, se hubiera obtenido el promedio de las diferencias al cuadrado en torno a la media. Sin embargo, se utiliza n - 1 , debido a ciertas propiedades matemáticas que tiene el estadístico S 2 y que lo hacen apropiado para realizar inferencias estadísticas. Evidentemente, si el tamaño de la muestra es grande , la diferencia entre dividir por “n” o por “n – 1” no es significativa. También puede emplearse la siguiente fórmula simplificada en la que no interviene la media : 1n x S n 1i n x 2 i 2 2 n 1i i (12) DEFINICION DE DESVIACION ESTANDAR MUESTRAL La desviación estándar muestral (cuya notación es el símbolo S) es simplemente la raíz cuadrada positiva de la varianza muestral. Es decir: 1n )xx( SS n 1i 2 i 2 (13) Como las diferencias (xi - x ) 2 se elevan al cuadrado, ni la varianza ni la desviación estándar pueden ser nunca negativas. En el único caso en que S 2 y S pudieran ser cero es cuando no hay variación en los datos -si todas las observaciones de la muestra tuvieran exactamente el mismo valor- En este caso, muy poco común, el rango también sería cero. Si embargo, los datos son variables por naturaleza, no constantes. Cualquier fenómeno aleatorio de interés que se pudiera pensar asume diversos valores. Debido a que los datos son inherentemente variables , es tan importante estudiar no sólo medidas (de tendencia central) que resuman los datos, sino también medidas (de dispersión) que reflejan la forma en que varían los datos. Ejemplo 19: Calculamos la varianza muestral y la desviación estándar muestral de los datos del ejemplo 1. 48,3 6 )6364836( S 7 362222222 2 2 86,1 6 )6364836( S 7 362222222 2 ¿Por qué cree UD. que se utilizó, en este caso, la fórmula 12 para hallar la varianza muestral y no la fórmula 11? Analice cuidadosamente su respuesta. Ejemplo 20: La varianza y la desviación estándar muestral de los datos del ejemplo 1 serán respectivamente S 2 = 37,00 segundos al cuadrado y S = 6,08 segundos (se han tomado dos cifras decimales, redondeando al valor más próximo). Ejemplos 21: La desviación estándar muestral de cada muestra del ejemplo 17 será: Para la muestra A, s = 61,00 días y para la muestra B, s = 12,20 días CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 12 Qué indican la varianza y la desviación estándar? La varianza y la desviación estándar miden la dispersión “promedio” en torno a la media; es decir, cómo fluctúan las observaciones mayores por encima de la media y cómo se distribuyen las observaciones menores por debajo de ella. La varianza tiene ciertas propiedades matemáticas útiles. Sin embargo, al calcularla se obtienen unidades al cuadrado ( segundos al cuadrado, pesos al cuadrado , centímetros al cuadrado, años al cuadrado, etc. ). Por ello en la práctica la principal medida de dispersión que se utiliza es la desviación estándar, cuyo valor está dado en las unidades originales de los datos: segundos, pesos, centímetros, años, etc. En el ejemplo 20 del tiempo de vida de las moscas, la desviación estándar es aproximadamente 6,08 segundos. Esto indica que la mayor parte de los tiempos de vida se agrupan dentro de 6,08 segundos por encima y por debajo de la media, es decir en el intervalo cuyos extremos son 5,14 – 6,08 = -0,94 y 5,14 – 6,08 = 11,22 segundos., este es (-0,94 , 11,22). Como los tiempos no pueden ser negativos concluimos que la mayor parte de las moscas vivió entre 0 y 11,22 segundos. Por qué se elevan al cuadrado las desviaciones? Las fórmulas para la varianza y la desviación estándar no podrían utilizar tan solo n 1i i )xx( como numerador, porque se debe recordar que la media actúa como “punto de equilibrio” para las observaciones que son mayores y menores que ella. Por lo tanto la suma de las desviaciones de los x i con respecto a la media siempre es igual a cero. Es decir n 1i i 0)xx( En efecto, usando las propiedades de la sumatoria resulta: n 1i n 1i n 1i n 1i n 1i iii n 1i ii 0xxxnxxx)xx( Generalizaciones: Cuando más “separados” o dispersos estén los datos, tanto mayores serán el rango, la varianza y la desviación estándar. Si los datos están más concentrados” o son homogéneos, menores serán el rango, la varianza y la desviación estándar. Si todas las observaciones son iguales (de manera que no haya variaciones en los datos), el rango, la varianza y la desviación estándar serán iguales a cero. VARIANZA Y DESVIACION ESTANDAR MUESTRAL OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS NO AGRUPADOS Si los datos x1, x2,..., xk ocurren con frecuencias f1 , f2, ... , fk respectivamente, la varianza muestral puede expresarse 1f )xx(f S k 1i i k 1i 2 ii 2 (14) y la fórmula abreviada equivalente resulta : 1f xf S k 1i i f xfk 1i 2 ii 2 k 1i i 2 k 1i ii (15) y la desviación estándar muestral S será la raíz cuadrada positiva de S 2 . CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 13 Ejemplo 22: Para la distribución de frecuencias del número de hijos de las 100 mujeres españolas, utilizamos la fórmula (14) pues x es un número exacto. Xi número de hijos fi número de mujeres (xi - x ) (xi - x ) 2 (xi - x ) 2 *fi 0 13 -2,33 5,4289 70,5757 1 20 -1,33 1,7689 35,3780 2 25 -0,33 0,1089 2,7225 3 20 0,67 0,4489 8,9780 4 11 1,67 2,7889 30,6779 5 7 2,67 7,1289 49,9023 6 4 3,67 13,4689 53,8756 Total 100 252,1100 cuadradoalhijos55,2 1100 1100,252 S2 y hijos60,1 1100 1100,252 S APROXIMACION DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR MUESTRAL PARA DATOS AGRUPADOS Las fórmulas (14) y (15) también son adecuadas para datos agrupados. En ese caso x i representa las marcas de clase, f i las correspondientes frecuencias de cada clase y “k” es el número de intervalos de clase. Esto es razonable pues para datos agrupados no se conocen los valores individuales de los datos. En este caso, se considera que el punto medio de la clase es un valor representativo de cada dato que se encuentra en esa clase. Ejemplo 23: Hallamos la varianza y la desviación estándar muestral a partir de la distribución de frecuencias de los tiempos de duración de las 40 baterías de auto similares indicadas en ejemplo 5. Duraciones de las baterías Marcas de Clase Nº de baterías (en años) xi f i xifi xi 2*fi [ 1,5 , 2,0) 1,75 2 3,50 6,125 [ 2,0 , 2,5) 2,25 1 2,25 5,063 [ 2,5 , 3,0) 2,75 4 11,00 30,250 [ 3,0 , 3,5) 3,25 15 48,75 158,438 [ 3,5 , 4,0) 3,75 10 37,50 140,625 [ 4,0 , 4,5) 4,25 5 21,25 90,313 [ 4,5 , 5,0) 4,75 3 14,25 67,688 Suma 40 138,50 498,500 697,0 140 5,498 Syaños4857,0 140 5,498 S 40 5,138 40 5,138 2 22 COEFICIENTE DE VARIACIÓN A diferencia de las medidas que ya se han estudiado, el coeficiente de variación es una medida relativa de dispersión. Se expresa enporcentaje y no en términos de unidades de los datos manejados. Es independiente de las unidades utilizadas. El coeficiente de variación, representado con el símbolo CV, mide la dispersión de los datos con respecto a la media. Se lo puede calcular mediante %100 x S CV (16) Donde S = desviación estándar del conjunto de datos x = media del conjunto de datos CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 14 Como medida relativa, el coeficiente de variación es útil sobre todo cuando se compara la variabilidad de dos o más conjuntos de datos expresados en diferentes unidades de medición. Por ejemplo el dueño de una inmobiliaria tiene una muestra de los precios de 25 casas. Para cada casa tiene registrado además el tamaño del lote que ocupa. Se está interesado en determinar si los precios de las casas tienen mayor variabilidad (en términos relativos) que los respectivos tamaños de los lotes que ocupan. Como el precio de la casa (en miles de pesos) es una cantidad monetaria y el tamaño del lote está dado en metros cuadrados, resulta imposible comparar en forma directa las dos desviaciones estándar o los dos rangos para estas variables. Aquí, sin embargo, se pueden utilizar los dos coeficientes de variación para obtener la respuesta deseada. El CV mide la dispersión de los datos respecto a la media. A medida que el coeficiente de variación disminuye, se observa una mayor homogeneidad en los datos o, lo que es lo mismo, los datos están más concentrados alrededor de la media. El CV es también muy útil cuando se comparan dos o más conjuntos de datos que se miden en las mismas unidades, pero que difieren en tal medida que una comparación directa de las respectivas desviaciones estándar no resulta muy útil. Por ejemplo, suponga que un inversionista potencial está evaluando la posible adquisición de acciones de una de dos compañías A o B, que se cotizan en la Bolsa de Valores Americana. Si ninguna de las dos compañías ofreciera dividendos a sus accionistas y ambas compañías tuvieran una evaluación igualmente alta en términos de capacidad de crecimiento, el inversionista potencial podría considerar la volatilidad (variabilidad) de las dos emisiones para apoyar su decisión de inversión. Ahora suponga que cada una de las acciones del capital de la compañía A ha tenido un precio promedio de $50 en los últimos meses, con una desviación estándar de $10. Además, suponga que en ese mismo período el precio por acción de la compañía B tuvo un promedio de $12 con desviación estándar de $4. De acuerdo con las desviaciones estándar actuales parece que el precio de las acciones de la compañía A es más volátil que el de la compañía B. Sin embargo, como los precios promedio por acción de las dos emisiones son tan diferentes, sería más apropiado para el inversionista potencial considerar la variabilidad en el precio con relación al precio promedio, a fin de examinar la volatibilidad o estabilidad de las dos emisiones. Para la compañía A, el coeficiente de variación es CVA = ($10 / $50) 100% = 20,0%; para la compañía B, el coeficiente de variación es CVB = ($4 / $12) 100% = 33,3%. Por ello, en relación a la media el precio de la acción B es mucho menos variable que el precio de la acción A. MEDIDAS DESCRIPTIVAS PARA UNA POBLACION Se presentan a continuación un conjunto de medidas descriptivas que caracterizan a una población de tamaño N. Media Poblacional: = N x N 1i i (17) Rango Medio: 2 xx MedioRango mínimomáximo (18) Rango: RANGO = xMAX - x MIN (19) Varianza poblacional N )μx( σ N 1i 2 i 2 (20) Desviación estándar: N )μx( σσ N 1i 2 i 2 (21) Coeficiente de variación: %100 μ σ CV LPOBLACIONA (22) La mediana y la moda de una población de tamaño N se obtienen, respectivamente, tal como se describió antes para una muestra. CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 15 FORMA Hasta ahora se han estudiado los parámetros de centralización y de dispersión que son las medidas más frecuentes que se calculan en cualquier estudio estadístico. Una distribución es simétrica si una mitad es aproximadamente una imagen de espejo de la otra. En caso contrario se dice que la distribución es asimétrica. Ejemplo 24: Se presenta a continuación un histograma que muestra la distribución de las alturas de 1.100 estudiantes universitarios. Esta distribución as aproximadamente simétrica. Al final se presenta un resumen de estadísticos descriptivos generado por el SPSS. alturas de estudiantes (en cm) 204 202 200 198 196 194 192 190 188 186 184 182 180 178 176 174 172 170 168 166 164 162 160 158 156 154 152 His tograma: Alturas Es tudiantes Universitarios F re q u e n ci a s 140 120 100 80 60 40 20 0 Figura AS1 SESGO Se conoce como sesgo el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría. Una distribución asimétrica se dice sesgada a la derecha si tiene una cola más larga a la derecha que a la izquierda; es decir si la distribución está más extendida hacia los valores mayores. Como ejemplo se presenta la distribución de los tiempos de vida de las moscas expuestas a un insecticida – ejemplo 3- Figura AS2 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 16 Una distribución asimétrica se dice sesgada a la izquierda si tiene una cola más larga a la izquierda que a la derecha; es decir si la distribución está más extendida hacia los valores menores. Para describir la forma, lo que se requiere es comparar la media y la mediana. Si estas dos medidas son iguales, en general, decimos que los datos son simétricos (o con sesgo cero) Si la media es mayor que la mediana, en general, se dice que los datos tienen sesgo positivo o hacia la derecha. Si la media es menor que la mediana, en general se dice que los datos tienen sesgo negativo o hacia la izquierda. Ejemplo 25: Se presenta un histograma que muestra la distribución de las calificaciones obtenidas en el Primer Parcial que abarcó los temas de Estadística Descriptiva y Probabilidad, rendido el 27 de Mayo de 2006. Rindieron N = 136 alumnos en esa primera fecha. Al final se presenta un resumen descriptivo generado por el SPSS. Figura AS3 Se observa que esta distribución es sesgada a la izquierda. En este caso la media es menor que la mediana. La mejor manera de examinar las posiciones relativas de las diversas medidas de tendencia central (la media, la mediana, la moda, el rango medio y el eje medio) en las distribuciones sesgadas, es a través de las figuran AS4 y AS5. Figura AS4 CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 17 Figura AS5 En las distribuciones con sesgo a la izquierda (figura AS5), las pocas observaciones, extremadamente pequeñas, distorsionan el rango medio y la media hacia la cola izquierda. Por ello se esperaría que la moda fuera el valor más alto y que el rango medio fuera el menor. Es decir, rango medio < media < eje medio < mediana < moda (23) Sin embargo, en las distribuciones con sesgo a la derecha (figura AS4) se aplica lo contrario. Pocas observaciones de gran magnitud distorsionan el rango medio y la media hacia la cola derecha. Por ello se espera que el rango medio exceda (es decir, esté a la derecha de) todas las otras medidas. Es decir, moda < mediana < eje medio < media < rango medio (24) Por otro lado, en distribuciones perfectamente simétricas, la media, la mediana, el rango medio y el eje medio serán idénticos. Tal como se ilustra en las figuras AS6, la forma de la curva, hacia el lado izquierdo de estas medidas de tendencia central es la imagen de espejo de la forma dela curva hacia la derecha. FIGURAS AS6 Curva en forma triangular Curva en forma rectangular x mediana moda rango medio eje medio x mediana rango medio eje medio no existe moda CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 18 MEDIDAS DE ASIMETRIA Si bien es fácil tener una idea de si la distribución es simétrica o no tras ver la representación gráfica (p.ej. un histograma o un diagrama de caja), es importante cuantificar la posible asimetría de una distribución. Recordemos que cuando la distribución de los datos es simétrica, la media, la mediana y la moda coinciden (y la distribución tiene la misma forma a la izquierda y la derecha del centro). Si bien muchas distribuciones psicológicas se asume que tienden a ser simétricas y unimodales, en muchos casos la distribución que encontramos es asimétrica (p.e. ejemplo las distribuciones de los Tiempos de Reacción en casi cualquier tarea es asimétrica positivo). 1. INDICE DE ASIMETRÍA DE PEARSON Para distribuciones sesgadas, la media tiende a estar del mismo lado de la moda en la cola más larga. Luego una medida de asimetría viene dada por la diferencia: media – moda, que puede hacerse adimensional dividiéndola por una medida de dispersión, tal como la desviación estándar, lo que lleva a la definición s amodx estándardesviación amodmedia Sesgo (25)Si la distribución es simétrica el Sesgo será 0. Si la distribución es sesgada a la derecha (asimétrica positiva), el sesgo será mayor que 0. Si la distribución es sesgada a la izquierda (asimétrica negativa), el sesgo será menor que 0 Para evitar el uso de la moda, podemos recurrir al siguiente índice 2. INDICE DE ASIMETRÍA DE FISHER Está basado en la diferencia entre los datos y la media, como la varianza, si bien esta vez se elevan las diferencias al cubo. 3 1 3)( 1 s xx n As n i i (26) Si la distribución es simétrica As será 0 (curva B del gráfico). Si la distribución es asimétrica positiva, As será mayor que 0 (curva A del gráfico). Si la distribución es asimétrica negativa, As será menor que 0 (curva C del gráfico).Desventaja: Muy influida por puntuaciones atípicas Algunos programas de estadística (por ejemplo Excel) utilizan una versión que difiere ligeramente de la anterior en una constante: primera moda segunda moda x mediana rango medio eje medio CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 19 n 1i 3 3 i s )xx( 2)-1)(n-(n n (27) Una asimetría positiva indica una distribución asimétrica con sesgo a la derecha. Una asimetría negativa indica una distribución asimétrica con sesgo a la izquierda. Para los tiempos de vida de las moscas -gráfico AS1- este último coeficiente de asimetría arroja un valor de 1,084. Para los datos de las calificaciones -gráfico AS2- el coeficiente de asimetría tomó un valor igual a − 0,378. Para la distribución de las alturas de los estudiantes universitarios la asimetría es 0,068 aproximadamente igual a 0, por cuanto la distribución es aproximadamente simétrica. PARA DATOS AGRUPADOS, si x1, x2, …, xk se presentan con frecuencias f1, f2, …, fk , respectivamente, el índice de Asimetría de Fisher está dado por: 3 1 3)( 1 s xxf n As k i ii , (28)donde k i ifn 1 y s es la desviación estándar para datos agrupados, ecuación (14) CURTOSIS La curtosis representa la elevación o achatamiento de una distribución, normalmente se toma en relación a la distribución normal. Una distribución que presenta una elevación (o apuntamiento) relativo alto, tal como la de la curva de la figura (A), se llama leptocúrtica, mientras que la curva de la figura (C), que es más achatada, se llama platicúrtica. La distribución normal, figura (B), que no es muy puntiaguda ni achatada, se llama mesocúrtica. Figura A Figura B Figura C Para una distribución normal (mesocúrtica) vale la relación: n 1i 4 4 i 3 s n/)xx( La relación anterior será la referencia para el índice de curtosis que vamos a emplear: n i i s nxx Cr 1 4 4 3 /)( (29)Si la distribución es normal (mesocúrtica), el índice vale 0. Si la distribución es leptocúrtica, el índice es superior a 0. Si la distribución es platicúrtica, el índice es inferior a 0. CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 20 Cr > 0 Cr < 0 FIGURA D :Las líneas de puntos muestran distribuciones normales, mientras que las líneas sólidas muestran distribuciones con curtosis positiva (figura izquierda) y curtosis negativa (figura derecha).Ref: “On the Meaning and Use of Kurtosis” Lawrence T. DeCarlo Algunos programas de estadística (por ejemplo Excel) utilizan una versión que difiere ligeramente de la anterior. Cr = 3)-2)(n-(n 1)-3(n 3)-2)(n-1)(n-(n 1)n(n 2 4n 1i i s xx (30) donde: s es la desviación estándar de la muestra. Si este coeficiente es nulo, la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica. Si el coeficiente es positivo, la distribución se llama leptocúrtica, más puntiaguda que la anterior. Hay una mayor concentración de los datos en torno a la media; es decir indica una distribución relativamente elevada Si el coeficiente es negativo, la distribución se llama platicúrtica y hay una menor concentración de datos en torno a la media. sería más achatada que la primera; es decir indica una distribución relativamente plana. Para los tiempos de vida de las moscas -gráfico AS1- este último coeficiente de curtosis vale 1,30 y para los datos de las calificaciones -gráfico AS2- el coeficiente de curtosis toma un valor igual a − 0,824. Para la distribución de las alturas de los estudiantes universitarios la curtosis es -0,053, aproximadamente igual a 0, por cuanto los datos provienen de una distribución normal. Para datos agrupados, si x1, x2, …, xk se presentan con frecuencias f1, f2, …, fk , respectivamente, el índice de Curtosis Cr está dado por k i ii s nxxf Cr 1 4 4 3 /)( , (31) donde k i ifn 1 y s es la desviación estándar para datos agrupados, ecuación (14) IMPORTANTE: Curtosis es independiente de la variabilidad (en el sentido de “varianza”). Es decir, no es que una distribución leptocúrtica tenga menos varianza y por eso es más apuntada. Una distribución leptocúrtica es muy apuntada en el centro (más que la normal), decae muy rápidamente en un primer momento, pero en los extremos es algo más alta que la distribución normal. Ver figuras D. Eso quiere decir que una distribución leptocúrtica es más probable que ofrezca más valores extremos que la distribución normal. Se presenta a continuación una síntesis de los estadísticos descriptivos de algunos de los ejemplos estudiados suministrados por el Excel o SPSS. Ejemplo 3: Tiempos de vida de n = 50 moscas sujetas a un insecticida- Síntesis generada por el Excel CATEDRA PROBABILIDAD Y ESTADISTICA – FAC. DE INGENIERIA – UNJu – LIC. MARTA CORRO- 21 Media 12,32 Error típico 0,86020406 Mediana 10,5 Moda 7 Desviación estándar 6,08256122 Varianza de la muestra 36,997551 Curtosis 1,29961382 Coeficiente de asimetría 1,08389683 Rango 29 Mínimo 3 Máximo 32 Suma 616 Cuenta 50 Ejemplo 24: Alturas de n = 1.100 alumnos universitarios Estadísticos Descriptivos 174,8612 ,2079 174,8420 174,8491 47,549 6,8956 152,49 203,17 50,68 9,6286,068 ,074 -,053 ,147 Media Media recortada 5% Mediana Varianza Desviación estándar Mínimo Máximo Rango Rango Intercuartílico Simetría Curtosis Alturas (cm) Stat ist ic Std. Error Ejemplo 25: calificaciones obtenidas en el Primer Parcial del año 2006; n = 136 alumnos. Resumen de los estadísticos descriptivos generado por el SPSS. Descriptives 74,64 1,90 75,07 79,00 489,017 22,11 26 115 89 36,50 -,378 ,208 -,824 ,413 Media Media recortada 5% Mediana Varianza Desv. Estándar Mínimo Máximo Rango Rango Intercurtí lico Asimetría Curtosis Notas 1er Parcial -27 may o 2006 Stat ist ic Std. Error BIBLIOGRAFÍA “Estadística Básica en Administración. Conceptos y Aplicaciones” Berenson y Levine. Prentice-Hall. Cuarta Edición 1992. “Probabilidad y Estadística aplicadas a la Ingeniería”. Douglas C. Montgomery y George C. Runger. Ed. Mc Graw-Hill. 1996. “Probabilidad y Estadística para Ingeniería y Ciencias” William Mendenhall y Terry Sincih. Cuarta Edición 1997. Estadística. Murray R. Spiegel. Serie Schaum. Ed. Mc Graw-Hill. 1991. PROGRAMAS: SPSS, MINITAB y EXCEL.
Compartir