Logo Studenta

CLASE 4 - Unidad 2-Segunda Parte-14 04 21

¡Este material tiene más páginas!

Vista previa del material en texto

UNIDAD 2
Segunda Parte
Medidas de Dispersión o de Variabilidad 
Asimetría y Curtosis
Puntajes Típicos
Escalas Derivadas
Rango Percentilar
Baremo
Es la diferencia entre el mayor y el menor de los valores observado.
𝑅 = 𝑋𝑚Á𝑥 − 𝑋𝑚𝑖𝑛
Representa la distancia entre el mayor y el menor valor observado. Como
involucra el concepto de distancia es para nivel intervalar o proporcional.
La principal desventaja es que es muy sensible a los valores extremos y
nada a los intermedios.
Otro inconveniente es que está ligado al tamaño de la muestra utilizada. Es
probable que las muestras de mayor tamaño presente mayor amplitud aunque las
poblaciones de referencia tengan igual variabilidad.
Ejemplos:
A: 3,5,5,6,7,8,9 𝑅 = 6 
B: 3,5,5,6,7,8,15 𝑅 =12 
C: 3,9,9,9,9,9,15 𝑅 =12 
La Amplitud (o rango) Intercuartílica/o es la distancia entre los cuartiles tercero y primero.
AIQ = 𝑄3 − 𝑄1
Tiene ventaja sobre el recorrido porque deja de lado los valores extremos, aquellos que
pertenecen al veinticinco por ciento más bajo o al veinticinco por ciento más alto de la
distribución, por lo que resulta más estable en el muestreo.
También se utiliza la amplitud (o rango) semi-intercuartílica o semi-recorrido intercuartilar
Es la semi-distancia entre los cuartiles tercero y primero: 𝑆𝑅𝐼𝐶 = (𝑄3 − 𝑄1)/2.
Es indistinto utilizar una u otra, ya que dan información equivalente; dividir por 2 no es
relevante pero es tradicional porque así la introdujo Galton.
En el esquema de la izquierda la distancia semi-intercuartílica es mayor que
en el de la derecha lo que se debe al hecho de que hay mayor variabilidad.
𝑄3𝑄1 𝑄2
𝑄2𝑄1𝑄3 − 𝑄1
𝑄3
𝑄3 − 𝑄1
Es el promedio del cuadrado de las distancias de los valores a la 
media. Se simboliza con 𝑠𝑋
2. 𝑠𝑋
2= σ𝑖=1
𝑛 (𝑥𝑖− ҧ𝑥)
2
𝑛−1
*
La razón por la que se divide por 𝑛 −1 es que la expresión resultante 
tiene mejores propiedades estadísticas que si se divide por 𝑛. 
La varianza permite comparar la variabilidad de dos o más conjuntos 
de valores en una misma variable en un nivel intervalar.
Notar que σ𝑖=1
𝑛 (𝑥𝑖 − ҧ𝑥) = 0 ¿Por qué?
* Algunos autores la llaman cuasivarianza o peudovarianza.
Ejemplo
Sean los siguientes conjuntos de puntuaciones
E: 1,2,5,9,13 ҧ𝑥𝐸= 6
F: 4,5,6,7,8 ҧ𝑥𝐹= 6
Reemplazando en la fórmula 𝑠𝑋
2= σ𝑖=1
𝑛 (𝑥𝑖− ҧ𝑥)
2 / (𝑛 −1), la varianza para el conjunto E 
resulta:
𝑠𝑥
2= (−5)2+(−4)2+(−1)2+(3)2+(7)2 / 4 =
100
4
= 25
y para el conjunto F:
𝑠𝑥
2= (−2)2+(−1)2+(0)2+(1)2+(2)2 / 4 =
10
4
= 2,5
La serie E presenta mayor variabilidad en las puntuaciones que el conjunto F, es 
decir, el conjunto de puntuaciones E es más heterogéneo.
1- La varianza es un valor no negativo.
2- La varianza de una constante (llamémosla k) es cero: V(k) = 0.
3- Si se suma una constante a un conjunto de puntuaciones, la varianza no 
se modifica. Es decir:
Si 𝑦𝑖= 𝑥𝑖 + 𝑘
entonces 𝑠𝑌
2= 𝑠𝑋
2
4- Si se multiplica por una constante a un conjunto de puntuaciones, la
varianza de las nuevas puntuaciones es igual al producto de las originales
por el cuadrado de la constante. Es decir:
Si 𝑦𝑖= 𝑘 𝑥𝑖
entonces 𝑠𝑌
2= 𝑘2 𝑠𝑋
2
En el ejemplo anterior, se ve a simple vista que el conjunto E es más variable que el F y esto
se refleja en la varianza. Sin embargo la diferencia entre los valores 25 y 2,5 parece muy exagerada;
no se ve que E sea 10 veces más variable que F. Esa “distorsión” se debe al efecto del cuadrado, ya
que la va varianza está en los cuadrados de las unidades de la variable. Por ejemplo, si la variable
se mide en metros, la varianza se mide en metros al cuadrado. Para corregir esta distorsión y tener
una medida de dispersión en las mismas unidades de la variable, a la varianza se le saca la raíz
cuadrada y se obtiene la desviación estándar o típica (o desvío típico): 𝑠𝑋 = σ𝑖=1
𝑛 (𝑥𝑖− ҧ𝑥)
2 /(n−1)
Para el conjunto E la desviación estándar es 25 = 5
Para el conjunto F la desviación estándar es 2,5 ≅ 1,58
Estos valores sí parecen dar cuenta de la “separación promedio” con menos distorsión que
en la varianza.
Propiedades de la desviación estándar
1- Es un valor no negativo
2- Si 𝑦𝑖= 𝑥𝑖 + 𝑘 entonces 𝑠𝑌 = 𝑠𝑋
3- Si 𝑦𝑖= 𝑘 𝑥𝑖 entonces 𝑠𝑌 = |𝑘| 𝑠𝑋
Se define como 𝐶𝑉𝑋=
𝑠𝑋
 ത𝑥
100
Por tanto, expresa la desviación estándar relativa a la media en porcentaje.
 Este coeficiente permite comparar la variabilidad de grupos cuando las variables están
en un nivel proporcional.
 Puede considerarse como un índice de representatividad de la media. Cuanto mayor
es el coeficiente de variación menos representativa es la media.
 Este coeficiente no tiene significación en un nivel intervalar porque si el cero no es
absoluto, se puede hacer una transformación sumándole a todos los valores de X una
constante. Entonces la media quedaría incrementada en esa constante pero la
desviación estándar seguiría siendo la misma, con lo que el CV se alteraría y, por
tanto, no tendría sentido interpretarlo ya que variaría con las distintas escalas.
Por ejemplo:
Supongamos que se mide la temperatura y se obtienen los datos:
xi : 15, 20 y 25 entonces ҧ𝑥 = 20, sx = 5; por lo que CVX = 25%, es decir, que la
desviación estándar represente una cuarta parte, un 25% de la media.
Pero como el cero de esta escala es arbitrario, los mismos tres valores
podrían haber sido, por ejemplo, 115, 120 y 125 (equivale a haber ubicado el origen
de la escala 100 unidades más abajo). En ese caso la media es 120 pero la
desviación estándar es la misma (recordar las propiedades cuando se suma una
constante). Por tanto, el CVX = (5/120)x100 = 4,17%. Vemos que se altera
totalmente la relación entre la desviación estándar y la media al hacer un cambio
admisible en la escala intervalar. Entonces no tiene sentido interpretar este
coeficiente porque varía con la escala.
Si, en cambio, los valores corresponden a un nivel proporcional, las únicas
transformaciones válidas son las que multiplican por una constante. Como la
desviación estándar y la media quedan multiplicadas por la misma constante, ésta
se simplifica al hacer el cociente y el CV no se altera. Ésa es la razón por la que
este coeficiente solamente tiene sentido en el nivel proporcional, porque es
invariante ante las distintas transformaciones admisibles en el nivel de razón.
Ejemplo:
Sea X la variable peso, por ser medida sobre cien bebés recién nacidos y sobre
cien adultos. Se dispone de los resúmenes estadísticos para ambos grupos, los cuales
se exhiben a continuación:
Bebés Adultos
ҧ𝑥𝐵 = 3 𝑘𝑔 ҧ𝑥𝐴 = 60 𝑘𝑔
𝑠𝑋𝐵
2 = 0,25 𝑘𝑔2 𝑠𝑥𝐴
2 = 1𝑘𝑔2
𝑠𝑋𝐵 = 0,5 𝑘𝑔 𝑠𝑋𝐴 = 1𝑘𝑔
𝐶𝑉𝐵 =
0,5 𝑘𝑔
3 𝑘𝑔
∗ 100 ≅ 16,7 % 𝐶𝑉𝐴 =
1 𝑘𝑔
60 𝑘𝑔
∗ 100 ≅ 1,6 %
A pesar que de que la desviación estándar para los bebés es menor que para
los adultos (0,5 kg < 1 kg), se observa que la variación del peso de los bebés de 0,5 kg
en relación a un peso medio de 3kg es mucho más significativa que la variación del
peso de los adultos de 1 kg sobre un peso medio de 60 kg. Esta situación es puesta de
manifiesto por el coeficiente de variación, pues 𝐶𝑉𝐵 > 𝐶𝑉𝐴 ( 16,7% > 1,6%).
Para variables cualitativas/cuasi-cuantitativas el concepto de variabilidad está
vinculado a la noción de concentración-dispersión.
La entropía cuantifica el nivel de incertidumbre acerca de la clase a la que
pertenece el dato y se calcula mediante la siguiente expresión:
𝐻 = −෍𝑓′𝑖 ∗ 𝑙𝑜𝑔 𝑓′𝑖
 A mayor entropía, mayor dispersión de los datos y mayor incertidumbre.
 La entropía aumenta en la medida en que más equitativamente se distribuyen las
frecuencias entre las clases y con el número de clases.
Ejemplo:
Si hubiera que arriesgarse a adivinar qué color eligió cualquiera de los
sujetos para representar la palabra paz en la serie de datos siguientes diríamos
blanco, tanto parala serie 1 como para la 2, ya que fue el más elegido, pero
tenemos más certidumbre en la predicción en la serie 1 que en la 2.
Color blanco verde amarillo celeste rosa
Serie 1: Nro. de sujetos 16 8 5 7 4
Serie 2: Nro. de sujetos 10 8 6 9 7
¿Pero qué contestaríamos si la distribución de datos fuera como se muestra a
continuación?
Color blanco verde amarillo celeste rosa
Serie 3: Nro. de sujetos 8 8 8 8 8
CONCLUSIÓN
La entropía va en aumento Hserie 1 < Hserie 2 < Hserie 3 , siendo la serie 3 de
datos la que posee mayor entropía ya que todos los valores se reparten con la misma
frecuencia.
Esto puede comprobarse mediante el cálculo de la entropía según la fórmula
presentada.
Color f´
- f´log f´
Serie 1
f´ - f´log f´
Serie 2
f´ - f´log f´
Serie 3
BLANCO 0,400 0,1592 0,250 0,1505 0,2 0,1398
VERDE 0,200 0,1398 0,200 0,1398 0,2 0,1398
AMARILLO 0,125 0,1129 0,150 0,1236 0,2 0,1398
CELESTE 0,175 0,1325 0,225 0,1458 0,2 0,1398
ROSA 0,100 0,1000 0,175 0,1325 0,2 0,1398
H = 0,6444 H = 0,6922 H = 0,699
El grado de asimetría de una distribución hace referencia al grado en que los
datos se reparten equilibradamente por encima y por debajo de la tendencia central.
Ejemplo:
Las siguientes distribuciones de frecuencias representan las notas de un examen
fácil (A) medio (B) y difícil (C).
𝑥𝑖 0 1 2 3 4 5 6 7 8 9 10
A 1 2 3 6 8 12 16 22 15 10 5
B 2 5 8 10 15 20 15 10 8 5 2
C 5 10 15 22 16 12 8 6 3 2 1
ത𝑋ത𝑋ത𝑋
𝑀𝑜
𝑀𝑜 𝑀𝑜
𝐴 𝐵 𝐶
𝑀𝑑𝑛 𝑀𝑑𝑛
ÍNDICES DE ASIMETRÍA
𝐴𝑆=෍
𝑖=1
𝑛
(𝑥𝑖 − ҧ𝑥)
3∗ 𝑓𝑖
n 𝑆𝑋
3
𝐴𝑆=෍
𝑖=1
𝑛
𝑧𝑖
3 ∗ 𝑓𝑖
𝑛
Índice de asimetría de 
Pearson
A 𝐴𝑆= -0,5449
B 𝐴𝑆= 0
C 𝐴𝑆= 0,5449
𝐴𝑆 = (𝑄3−𝑄2) − (𝑄2−𝑄1) / (𝑄3−𝑄1)
Índice de asimetría intercuartílico.
Está comprendido entre -1 y 1 con lo
que se facilita su interpretación.
Este índice sólo se puede 
calcular en
distribuciones unimodales
𝐴𝑆 = ( ҧ𝑥 − 𝑀𝑜)/𝑠𝑋
Es un gráfico útil para visualizar la simetría o tipo de asimetría de la distribución, además de
detectar datos atípicos (outliers). Muestra sobre el eje vertical los valores de la variable y muestra
una “caja” delimitada por los cuartiles primero y tercero. También se muestra la mediana (cuartil
segundo) y la media. Las líneas que se extienden hacia los valores extremos muestran el recorrido
de la variable, así como la distribución de las observaciones y su simetría.
8=P95
Max=10
Min=0
5=Q3
3=Mdn
ത𝑋=3,72
25% extremo superior
25% extremo inferior
50% central
Concentración de Colesterol en sangre de 30 mujeres
Cumulative
Value Freq Percent Freq Percent
112 1 3.3 1 3.3
121 1 3.3 2 6.7
137 1 3.3 3 10.0
140 1 3.3 4 13.3
159 1 3.3 5 16.7
173 1 3.3 6 20.0
177 1 3.3 7 23.3
181 1 3.3 8 26.7
182 1 3.3 9 30.0
189 2 6.7 11 36.7
190 1 3.3 12 40.0
191 1 3.3 13 43.3
196 1 3.3 14 46.7
197 1 3.3 15 50.0
201 1 3.3 16 53.3
214 1 3.3 17 56.7
223 1 3.3 18 60.0
224 1 3.3 19 63.3
225 1 3.3 20 66.7
228 1 3.3 21 70.0
241 1 3.3 22 73.3
249 1 3.3 23 76.7
257 1 3.3 24 80.0
259 1 3.3 25 83.3
261 1 3.3 26 86.7
262 1 3.3 27 90.0
337 1 3.3 28 93.3
339 1 3.3 29 96.7
356 1 3.3 30 100.0
Total 30 100.0
Mediana:199
Q1
Q3
La mitad tiene menos de199 y la otra mitad más.
P50 = 199
A lo sumo 25% tienen menos de 181 y a lo sumo 75% 
más de 181.
P25 = 181
A lo sumo 75% tienen menos de 249 y 25% más.
P75 = 249
112
Q1=181
Q2=199
Q3=249
339
249-181= 68
 1.5 x 68 = 102
 1.5 x 68 = 102
BOX AND WHISKER PLOT
Expresa el grado de apuntamiento de la curva que representa a la distribución de
frecuencias. Mayor curtosis significa mayor apuntamiento.
𝐶𝑟 = σ𝑖=1
𝑛 𝑥𝑖− ҧ𝑥
4∗𝑓𝑖
n 𝑠𝑋4
− 3 = σ𝑖=1
𝑛 𝑍𝑖
4∗𝑓𝑖
n
− 3
𝐶𝑟> 0 LEPTOCÚRTICA 𝐶𝑟= 0 MESOCÚRTICA 𝐶𝑟< 0 PLATICÚRTICA
Las puntuaciones típicas zi ubican la posición de un sujeto i en relación a un
grupo de referencia. Partiendo del puntaje bruto o directo 𝑥𝑖 se puede definir
𝑥𝑖 = 𝑥𝑖 − ҧ𝑥 la puntuación diferencial. 
Indica a cuántas unidades por encima o por debajo de la media se encuentra un
puntaje directo 𝑥𝑖, sin que tengamos información acerca de la variabilidad de las
observaciones 𝑥𝑖 .
A los puntajes brutos x se los puede estandarizar o tipificar a través de la
siguiente transformación, por la que se obtiene la puntuación típica o puntaje
típico z que se define como
𝑧𝑖 =
𝑥𝑖− ҧ𝑥
𝑠
𝑋
para una muestra o bien como
𝑧𝑖 =
𝑥𝑖−𝜇
𝜎
para una población.
 La puntuación típica 𝑧𝑖 indica a cuántas desviaciones estándar por encima o por debajo
de la media está el puntaje 𝑥𝑖; de este modo se estandariza el alejamiento que tiene una
observación particular con respecto a la media, por lo cual se dice que se ha expresado
la posición de un sujeto relativa al grupo de pertenencia, en términos de desviaciones
estándar. Es tomar como unidad de medida la desviación estándar.
 Sobre la base de las propiedades mencionadas para la media y la varianza de una
variable X en secciones anteriores se puede deducir que la puntuación típica Z tiene
media igual a cero y varianza y desviación estándar iguales a uno.
 Las puntuaciones típicas permiten hacer comparaciones, llevando los resultados a una
escala común. Son útiles en los siguientes casos:
- Hacer comparaciones entre unidades de distintos grupos; es decir, comparar Z de
distintas observaciones de un mismo sujeto o de sujetos diferentes.
- Hacer comparaciones entre variables medidas en distintas unidades (p.ej. metros y
centímetros) o de diferente naturaleza (como peso y estatura), ya que los puntajes Z son
adimensionales.
Comparación entre distintas variables
Ejemplo:
Malena obtuvo 13 puntos en una prueba de razonamiento lógico (RL), 12
puntos en una de razonamiento verbal (RV) y 10 puntos en una de memoria
visual (MV). Se sabe que las medias y desviaciones típicas de los puntajes
de cada prueba son (12,2), (14,2) y (8,1) respectivamente. ¿En qué prueba
tuvo el peor rendimiento relativo?
ZRL = (13-12)/2 = 0,5
ZRV = (12-14)/2 = -1 
ZMV = (10-8)/1 = 2
ZRV ZRL ZMV
------|----------|-----|---------------|--
-1 0 0,5 2
El peor desempeño lo tuvo en razonamiento verbal, pues su puntaje típico es
el más alejado por debajo de la media.
Las puntuaciones típicas tienen indudables ventajas pero el inconveniente
de que algunas son negativas y casi todas tienen decimales. Por esta razón se
han buscado otras puntuaciones que permitan resolver estas dificultades.
Algunos puntajes derivados a partir del puntaje Z son:
Puntaje T definido por la transformación afín: T = 50 + 10. Z
La media es 50 y la desviación típica es 10. La ventaja que ofrece es la de
trabajar con números no negativos y redondear las cifras decimales.
Puntaje CI (cociente intelectual) con media 100 y desviación típica 15, definido
por la transformación afín: CI = 100 + 15. Z
Existe una equivalencia entre las puntuaciones en las escalas derivadas
X ҧ𝑥 -3s ҧ𝑥 -2s ҧ𝑥 - s ҧ𝑥 ҧ𝑥 + s ҧ𝑥 +2s ҧ𝑥 +3s
Z -3 -2 -1 0 1 2 3
|-----------|-------------|------------|-------------|--------------|--------------|
T 20 30 40 50 60 70 80
|-----------|-------------|------------|-------------|--------------|--------------|
CI 55 70 85 100 115130 145
|-----------|-------------|------------|-------------|--------------|--------------|
 Indica la posición relativa de un sujeto según el porcentaje de las
puntuaciones del grupo de pertenencia que se encuentran debajo de su
puntuación.
 Muestra la posición del sujeto en el grupo según el porcentaje de
puntuaciones que supera.
Ejemplo: un sujeto con rango percentilar 70 es el que obtuvo una
puntuación que supera al 70% de las puntuaciones de sus pares y que es
superado por el 30% de los casos.
Para su obtención es necesario conocer la distribución de la variable.
Es una tabla de valores transformados que permiten ubicar a un sujeto en relación a su 
grupo de referencia.
Ejemplo
xi fi Fi F’i
20-29 0 0 0,00
30-39 10 10 0,03
40-49 30 40 0,13
50-59 50 90 0,29
60-69 70 160 0,52
70-79 90 250 0,81
80-89 40 290 0,94
90-99 10 300 0,97
100-109 5 305 0,98
110-119 5 310 1,00
Total 310
Se presenta una distribución de frecuencias para los
puntajes obtenidos en una prueba psicológica administrada a
310 personas. Con los datos agrupados se construye la ojiva
de Galton y a través de interpolaciones se obtienen los
percentiles (y por consiguiente los rangos percentilares)
correspondientes a estas puntuaciones brutas que permiten
establecer la correspondencia entre percentiles y puntajes
brutos como se muestra en la tabla.
Tabla 1
Percentil xi
10 47,0
20 54,4
30 60,4
40 64,9
50 69,3
60 72,9
70 76,3
80 79,8
90 87,3
También se pueden asignar a las
puntuaciones brutas las puntuaciones
típicas correspondientes como se
muestra en la Tabla 2.
Con esta información (Tabla 1)
sabemos que si una persona obtuvo 60
puntos tiene un puntaje bajo dado que
no supera el 30 por ciento del grupo,
mientras que si alguien obtuvo 77
puntos tiene un puntaje alto ya que
supera por lo menos a un 70 por ciento
de las observaciones.
Tabla 2 
xi Puntaje z
20-29 - 2,8 
30-39 - 2,1
40-49 - 1,5
50-59 - 0,9
60-69 - 0,2
70-79 0,4
80-89 1,1
90-99 1,7
100-109 2,3 
110-119 3,0
Tanto la Tabla 1 como la Tabla 2 constituyen baremos, ya que posibilitan decidir cómo se
posiciona un sujeto dado con respecto a su grupo de referencia, ya sea a partir de los
percentiles o bien de los puntajes típicos. El baremo provee la transformación de puntajes
absolutos en puntajes relativos.

Más contenidos de este tema