Vista previa del material en texto
UNIDAD 2 Segunda Parte Medidas de Dispersión o de Variabilidad Asimetría y Curtosis Puntajes Típicos Escalas Derivadas Rango Percentilar Baremo Es la diferencia entre el mayor y el menor de los valores observado. 𝑅 = 𝑋𝑚Á𝑥 − 𝑋𝑚𝑖𝑛 Representa la distancia entre el mayor y el menor valor observado. Como involucra el concepto de distancia es para nivel intervalar o proporcional. La principal desventaja es que es muy sensible a los valores extremos y nada a los intermedios. Otro inconveniente es que está ligado al tamaño de la muestra utilizada. Es probable que las muestras de mayor tamaño presente mayor amplitud aunque las poblaciones de referencia tengan igual variabilidad. Ejemplos: A: 3,5,5,6,7,8,9 𝑅 = 6 B: 3,5,5,6,7,8,15 𝑅 =12 C: 3,9,9,9,9,9,15 𝑅 =12 La Amplitud (o rango) Intercuartílica/o es la distancia entre los cuartiles tercero y primero. AIQ = 𝑄3 − 𝑄1 Tiene ventaja sobre el recorrido porque deja de lado los valores extremos, aquellos que pertenecen al veinticinco por ciento más bajo o al veinticinco por ciento más alto de la distribución, por lo que resulta más estable en el muestreo. También se utiliza la amplitud (o rango) semi-intercuartílica o semi-recorrido intercuartilar Es la semi-distancia entre los cuartiles tercero y primero: 𝑆𝑅𝐼𝐶 = (𝑄3 − 𝑄1)/2. Es indistinto utilizar una u otra, ya que dan información equivalente; dividir por 2 no es relevante pero es tradicional porque así la introdujo Galton. En el esquema de la izquierda la distancia semi-intercuartílica es mayor que en el de la derecha lo que se debe al hecho de que hay mayor variabilidad. 𝑄3𝑄1 𝑄2 𝑄2𝑄1𝑄3 − 𝑄1 𝑄3 𝑄3 − 𝑄1 Es el promedio del cuadrado de las distancias de los valores a la media. Se simboliza con 𝑠𝑋 2. 𝑠𝑋 2= σ𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 𝑛−1 * La razón por la que se divide por 𝑛 −1 es que la expresión resultante tiene mejores propiedades estadísticas que si se divide por 𝑛. La varianza permite comparar la variabilidad de dos o más conjuntos de valores en una misma variable en un nivel intervalar. Notar que σ𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) = 0 ¿Por qué? * Algunos autores la llaman cuasivarianza o peudovarianza. Ejemplo Sean los siguientes conjuntos de puntuaciones E: 1,2,5,9,13 ҧ𝑥𝐸= 6 F: 4,5,6,7,8 ҧ𝑥𝐹= 6 Reemplazando en la fórmula 𝑠𝑋 2= σ𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 / (𝑛 −1), la varianza para el conjunto E resulta: 𝑠𝑥 2= (−5)2+(−4)2+(−1)2+(3)2+(7)2 / 4 = 100 4 = 25 y para el conjunto F: 𝑠𝑥 2= (−2)2+(−1)2+(0)2+(1)2+(2)2 / 4 = 10 4 = 2,5 La serie E presenta mayor variabilidad en las puntuaciones que el conjunto F, es decir, el conjunto de puntuaciones E es más heterogéneo. 1- La varianza es un valor no negativo. 2- La varianza de una constante (llamémosla k) es cero: V(k) = 0. 3- Si se suma una constante a un conjunto de puntuaciones, la varianza no se modifica. Es decir: Si 𝑦𝑖= 𝑥𝑖 + 𝑘 entonces 𝑠𝑌 2= 𝑠𝑋 2 4- Si se multiplica por una constante a un conjunto de puntuaciones, la varianza de las nuevas puntuaciones es igual al producto de las originales por el cuadrado de la constante. Es decir: Si 𝑦𝑖= 𝑘 𝑥𝑖 entonces 𝑠𝑌 2= 𝑘2 𝑠𝑋 2 En el ejemplo anterior, se ve a simple vista que el conjunto E es más variable que el F y esto se refleja en la varianza. Sin embargo la diferencia entre los valores 25 y 2,5 parece muy exagerada; no se ve que E sea 10 veces más variable que F. Esa “distorsión” se debe al efecto del cuadrado, ya que la va varianza está en los cuadrados de las unidades de la variable. Por ejemplo, si la variable se mide en metros, la varianza se mide en metros al cuadrado. Para corregir esta distorsión y tener una medida de dispersión en las mismas unidades de la variable, a la varianza se le saca la raíz cuadrada y se obtiene la desviación estándar o típica (o desvío típico): 𝑠𝑋 = σ𝑖=1 𝑛 (𝑥𝑖− ҧ𝑥) 2 /(n−1) Para el conjunto E la desviación estándar es 25 = 5 Para el conjunto F la desviación estándar es 2,5 ≅ 1,58 Estos valores sí parecen dar cuenta de la “separación promedio” con menos distorsión que en la varianza. Propiedades de la desviación estándar 1- Es un valor no negativo 2- Si 𝑦𝑖= 𝑥𝑖 + 𝑘 entonces 𝑠𝑌 = 𝑠𝑋 3- Si 𝑦𝑖= 𝑘 𝑥𝑖 entonces 𝑠𝑌 = |𝑘| 𝑠𝑋 Se define como 𝐶𝑉𝑋= 𝑠𝑋 ത𝑥 100 Por tanto, expresa la desviación estándar relativa a la media en porcentaje. Este coeficiente permite comparar la variabilidad de grupos cuando las variables están en un nivel proporcional. Puede considerarse como un índice de representatividad de la media. Cuanto mayor es el coeficiente de variación menos representativa es la media. Este coeficiente no tiene significación en un nivel intervalar porque si el cero no es absoluto, se puede hacer una transformación sumándole a todos los valores de X una constante. Entonces la media quedaría incrementada en esa constante pero la desviación estándar seguiría siendo la misma, con lo que el CV se alteraría y, por tanto, no tendría sentido interpretarlo ya que variaría con las distintas escalas. Por ejemplo: Supongamos que se mide la temperatura y se obtienen los datos: xi : 15, 20 y 25 entonces ҧ𝑥 = 20, sx = 5; por lo que CVX = 25%, es decir, que la desviación estándar represente una cuarta parte, un 25% de la media. Pero como el cero de esta escala es arbitrario, los mismos tres valores podrían haber sido, por ejemplo, 115, 120 y 125 (equivale a haber ubicado el origen de la escala 100 unidades más abajo). En ese caso la media es 120 pero la desviación estándar es la misma (recordar las propiedades cuando se suma una constante). Por tanto, el CVX = (5/120)x100 = 4,17%. Vemos que se altera totalmente la relación entre la desviación estándar y la media al hacer un cambio admisible en la escala intervalar. Entonces no tiene sentido interpretar este coeficiente porque varía con la escala. Si, en cambio, los valores corresponden a un nivel proporcional, las únicas transformaciones válidas son las que multiplican por una constante. Como la desviación estándar y la media quedan multiplicadas por la misma constante, ésta se simplifica al hacer el cociente y el CV no se altera. Ésa es la razón por la que este coeficiente solamente tiene sentido en el nivel proporcional, porque es invariante ante las distintas transformaciones admisibles en el nivel de razón. Ejemplo: Sea X la variable peso, por ser medida sobre cien bebés recién nacidos y sobre cien adultos. Se dispone de los resúmenes estadísticos para ambos grupos, los cuales se exhiben a continuación: Bebés Adultos ҧ𝑥𝐵 = 3 𝑘𝑔 ҧ𝑥𝐴 = 60 𝑘𝑔 𝑠𝑋𝐵 2 = 0,25 𝑘𝑔2 𝑠𝑥𝐴 2 = 1𝑘𝑔2 𝑠𝑋𝐵 = 0,5 𝑘𝑔 𝑠𝑋𝐴 = 1𝑘𝑔 𝐶𝑉𝐵 = 0,5 𝑘𝑔 3 𝑘𝑔 ∗ 100 ≅ 16,7 % 𝐶𝑉𝐴 = 1 𝑘𝑔 60 𝑘𝑔 ∗ 100 ≅ 1,6 % A pesar que de que la desviación estándar para los bebés es menor que para los adultos (0,5 kg < 1 kg), se observa que la variación del peso de los bebés de 0,5 kg en relación a un peso medio de 3kg es mucho más significativa que la variación del peso de los adultos de 1 kg sobre un peso medio de 60 kg. Esta situación es puesta de manifiesto por el coeficiente de variación, pues 𝐶𝑉𝐵 > 𝐶𝑉𝐴 ( 16,7% > 1,6%). Para variables cualitativas/cuasi-cuantitativas el concepto de variabilidad está vinculado a la noción de concentración-dispersión. La entropía cuantifica el nivel de incertidumbre acerca de la clase a la que pertenece el dato y se calcula mediante la siguiente expresión: 𝐻 = −𝑓′𝑖 ∗ 𝑙𝑜𝑔 𝑓′𝑖 A mayor entropía, mayor dispersión de los datos y mayor incertidumbre. La entropía aumenta en la medida en que más equitativamente se distribuyen las frecuencias entre las clases y con el número de clases. Ejemplo: Si hubiera que arriesgarse a adivinar qué color eligió cualquiera de los sujetos para representar la palabra paz en la serie de datos siguientes diríamos blanco, tanto parala serie 1 como para la 2, ya que fue el más elegido, pero tenemos más certidumbre en la predicción en la serie 1 que en la 2. Color blanco verde amarillo celeste rosa Serie 1: Nro. de sujetos 16 8 5 7 4 Serie 2: Nro. de sujetos 10 8 6 9 7 ¿Pero qué contestaríamos si la distribución de datos fuera como se muestra a continuación? Color blanco verde amarillo celeste rosa Serie 3: Nro. de sujetos 8 8 8 8 8 CONCLUSIÓN La entropía va en aumento Hserie 1 < Hserie 2 < Hserie 3 , siendo la serie 3 de datos la que posee mayor entropía ya que todos los valores se reparten con la misma frecuencia. Esto puede comprobarse mediante el cálculo de la entropía según la fórmula presentada. Color f´ - f´log f´ Serie 1 f´ - f´log f´ Serie 2 f´ - f´log f´ Serie 3 BLANCO 0,400 0,1592 0,250 0,1505 0,2 0,1398 VERDE 0,200 0,1398 0,200 0,1398 0,2 0,1398 AMARILLO 0,125 0,1129 0,150 0,1236 0,2 0,1398 CELESTE 0,175 0,1325 0,225 0,1458 0,2 0,1398 ROSA 0,100 0,1000 0,175 0,1325 0,2 0,1398 H = 0,6444 H = 0,6922 H = 0,699 El grado de asimetría de una distribución hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Ejemplo: Las siguientes distribuciones de frecuencias representan las notas de un examen fácil (A) medio (B) y difícil (C). 𝑥𝑖 0 1 2 3 4 5 6 7 8 9 10 A 1 2 3 6 8 12 16 22 15 10 5 B 2 5 8 10 15 20 15 10 8 5 2 C 5 10 15 22 16 12 8 6 3 2 1 ത𝑋ത𝑋ത𝑋 𝑀𝑜 𝑀𝑜 𝑀𝑜 𝐴 𝐵 𝐶 𝑀𝑑𝑛 𝑀𝑑𝑛 ÍNDICES DE ASIMETRÍA 𝐴𝑆= 𝑖=1 𝑛 (𝑥𝑖 − ҧ𝑥) 3∗ 𝑓𝑖 n 𝑆𝑋 3 𝐴𝑆= 𝑖=1 𝑛 𝑧𝑖 3 ∗ 𝑓𝑖 𝑛 Índice de asimetría de Pearson A 𝐴𝑆= -0,5449 B 𝐴𝑆= 0 C 𝐴𝑆= 0,5449 𝐴𝑆 = (𝑄3−𝑄2) − (𝑄2−𝑄1) / (𝑄3−𝑄1) Índice de asimetría intercuartílico. Está comprendido entre -1 y 1 con lo que se facilita su interpretación. Este índice sólo se puede calcular en distribuciones unimodales 𝐴𝑆 = ( ҧ𝑥 − 𝑀𝑜)/𝑠𝑋 Es un gráfico útil para visualizar la simetría o tipo de asimetría de la distribución, además de detectar datos atípicos (outliers). Muestra sobre el eje vertical los valores de la variable y muestra una “caja” delimitada por los cuartiles primero y tercero. También se muestra la mediana (cuartil segundo) y la media. Las líneas que se extienden hacia los valores extremos muestran el recorrido de la variable, así como la distribución de las observaciones y su simetría. 8=P95 Max=10 Min=0 5=Q3 3=Mdn ത𝑋=3,72 25% extremo superior 25% extremo inferior 50% central Concentración de Colesterol en sangre de 30 mujeres Cumulative Value Freq Percent Freq Percent 112 1 3.3 1 3.3 121 1 3.3 2 6.7 137 1 3.3 3 10.0 140 1 3.3 4 13.3 159 1 3.3 5 16.7 173 1 3.3 6 20.0 177 1 3.3 7 23.3 181 1 3.3 8 26.7 182 1 3.3 9 30.0 189 2 6.7 11 36.7 190 1 3.3 12 40.0 191 1 3.3 13 43.3 196 1 3.3 14 46.7 197 1 3.3 15 50.0 201 1 3.3 16 53.3 214 1 3.3 17 56.7 223 1 3.3 18 60.0 224 1 3.3 19 63.3 225 1 3.3 20 66.7 228 1 3.3 21 70.0 241 1 3.3 22 73.3 249 1 3.3 23 76.7 257 1 3.3 24 80.0 259 1 3.3 25 83.3 261 1 3.3 26 86.7 262 1 3.3 27 90.0 337 1 3.3 28 93.3 339 1 3.3 29 96.7 356 1 3.3 30 100.0 Total 30 100.0 Mediana:199 Q1 Q3 La mitad tiene menos de199 y la otra mitad más. P50 = 199 A lo sumo 25% tienen menos de 181 y a lo sumo 75% más de 181. P25 = 181 A lo sumo 75% tienen menos de 249 y 25% más. P75 = 249 112 Q1=181 Q2=199 Q3=249 339 249-181= 68 1.5 x 68 = 102 1.5 x 68 = 102 BOX AND WHISKER PLOT Expresa el grado de apuntamiento de la curva que representa a la distribución de frecuencias. Mayor curtosis significa mayor apuntamiento. 𝐶𝑟 = σ𝑖=1 𝑛 𝑥𝑖− ҧ𝑥 4∗𝑓𝑖 n 𝑠𝑋4 − 3 = σ𝑖=1 𝑛 𝑍𝑖 4∗𝑓𝑖 n − 3 𝐶𝑟> 0 LEPTOCÚRTICA 𝐶𝑟= 0 MESOCÚRTICA 𝐶𝑟< 0 PLATICÚRTICA Las puntuaciones típicas zi ubican la posición de un sujeto i en relación a un grupo de referencia. Partiendo del puntaje bruto o directo 𝑥𝑖 se puede definir 𝑥𝑖 = 𝑥𝑖 − ҧ𝑥 la puntuación diferencial. Indica a cuántas unidades por encima o por debajo de la media se encuentra un puntaje directo 𝑥𝑖, sin que tengamos información acerca de la variabilidad de las observaciones 𝑥𝑖 . A los puntajes brutos x se los puede estandarizar o tipificar a través de la siguiente transformación, por la que se obtiene la puntuación típica o puntaje típico z que se define como 𝑧𝑖 = 𝑥𝑖− ҧ𝑥 𝑠 𝑋 para una muestra o bien como 𝑧𝑖 = 𝑥𝑖−𝜇 𝜎 para una población. La puntuación típica 𝑧𝑖 indica a cuántas desviaciones estándar por encima o por debajo de la media está el puntaje 𝑥𝑖; de este modo se estandariza el alejamiento que tiene una observación particular con respecto a la media, por lo cual se dice que se ha expresado la posición de un sujeto relativa al grupo de pertenencia, en términos de desviaciones estándar. Es tomar como unidad de medida la desviación estándar. Sobre la base de las propiedades mencionadas para la media y la varianza de una variable X en secciones anteriores se puede deducir que la puntuación típica Z tiene media igual a cero y varianza y desviación estándar iguales a uno. Las puntuaciones típicas permiten hacer comparaciones, llevando los resultados a una escala común. Son útiles en los siguientes casos: - Hacer comparaciones entre unidades de distintos grupos; es decir, comparar Z de distintas observaciones de un mismo sujeto o de sujetos diferentes. - Hacer comparaciones entre variables medidas en distintas unidades (p.ej. metros y centímetros) o de diferente naturaleza (como peso y estatura), ya que los puntajes Z son adimensionales. Comparación entre distintas variables Ejemplo: Malena obtuvo 13 puntos en una prueba de razonamiento lógico (RL), 12 puntos en una de razonamiento verbal (RV) y 10 puntos en una de memoria visual (MV). Se sabe que las medias y desviaciones típicas de los puntajes de cada prueba son (12,2), (14,2) y (8,1) respectivamente. ¿En qué prueba tuvo el peor rendimiento relativo? ZRL = (13-12)/2 = 0,5 ZRV = (12-14)/2 = -1 ZMV = (10-8)/1 = 2 ZRV ZRL ZMV ------|----------|-----|---------------|-- -1 0 0,5 2 El peor desempeño lo tuvo en razonamiento verbal, pues su puntaje típico es el más alejado por debajo de la media. Las puntuaciones típicas tienen indudables ventajas pero el inconveniente de que algunas son negativas y casi todas tienen decimales. Por esta razón se han buscado otras puntuaciones que permitan resolver estas dificultades. Algunos puntajes derivados a partir del puntaje Z son: Puntaje T definido por la transformación afín: T = 50 + 10. Z La media es 50 y la desviación típica es 10. La ventaja que ofrece es la de trabajar con números no negativos y redondear las cifras decimales. Puntaje CI (cociente intelectual) con media 100 y desviación típica 15, definido por la transformación afín: CI = 100 + 15. Z Existe una equivalencia entre las puntuaciones en las escalas derivadas X ҧ𝑥 -3s ҧ𝑥 -2s ҧ𝑥 - s ҧ𝑥 ҧ𝑥 + s ҧ𝑥 +2s ҧ𝑥 +3s Z -3 -2 -1 0 1 2 3 |-----------|-------------|------------|-------------|--------------|--------------| T 20 30 40 50 60 70 80 |-----------|-------------|------------|-------------|--------------|--------------| CI 55 70 85 100 115130 145 |-----------|-------------|------------|-------------|--------------|--------------| Indica la posición relativa de un sujeto según el porcentaje de las puntuaciones del grupo de pertenencia que se encuentran debajo de su puntuación. Muestra la posición del sujeto en el grupo según el porcentaje de puntuaciones que supera. Ejemplo: un sujeto con rango percentilar 70 es el que obtuvo una puntuación que supera al 70% de las puntuaciones de sus pares y que es superado por el 30% de los casos. Para su obtención es necesario conocer la distribución de la variable. Es una tabla de valores transformados que permiten ubicar a un sujeto en relación a su grupo de referencia. Ejemplo xi fi Fi F’i 20-29 0 0 0,00 30-39 10 10 0,03 40-49 30 40 0,13 50-59 50 90 0,29 60-69 70 160 0,52 70-79 90 250 0,81 80-89 40 290 0,94 90-99 10 300 0,97 100-109 5 305 0,98 110-119 5 310 1,00 Total 310 Se presenta una distribución de frecuencias para los puntajes obtenidos en una prueba psicológica administrada a 310 personas. Con los datos agrupados se construye la ojiva de Galton y a través de interpolaciones se obtienen los percentiles (y por consiguiente los rangos percentilares) correspondientes a estas puntuaciones brutas que permiten establecer la correspondencia entre percentiles y puntajes brutos como se muestra en la tabla. Tabla 1 Percentil xi 10 47,0 20 54,4 30 60,4 40 64,9 50 69,3 60 72,9 70 76,3 80 79,8 90 87,3 También se pueden asignar a las puntuaciones brutas las puntuaciones típicas correspondientes como se muestra en la Tabla 2. Con esta información (Tabla 1) sabemos que si una persona obtuvo 60 puntos tiene un puntaje bajo dado que no supera el 30 por ciento del grupo, mientras que si alguien obtuvo 77 puntos tiene un puntaje alto ya que supera por lo menos a un 70 por ciento de las observaciones. Tabla 2 xi Puntaje z 20-29 - 2,8 30-39 - 2,1 40-49 - 1,5 50-59 - 0,9 60-69 - 0,2 70-79 0,4 80-89 1,1 90-99 1,7 100-109 2,3 110-119 3,0 Tanto la Tabla 1 como la Tabla 2 constituyen baremos, ya que posibilitan decidir cómo se posiciona un sujeto dado con respecto a su grupo de referencia, ya sea a partir de los percentiles o bien de los puntajes típicos. El baremo provee la transformación de puntajes absolutos en puntajes relativos.