Logo Studenta

4 - Medidas de dispersión

¡Este material tiene más páginas!

Vista previa del material en texto

Estadística para las 
Ciencias Sociales
Unidad 4: Medidas de dispersión
M.C.M. Rodrigo Hidalgo Linares
Orden del día
● Objetivos
● Introducción
● Medidas de dispersión
● Análisis de Caso II
● Pregunta de investigación
● Conclusión(es)
● Preguntas
• Resaltar la importancia de la estadística pero
sobre todo de las matemáticas, así como del
buen manejo de la información.
• Calcular medidas de dispersión para datos no
agrupados y agrupados.
• Interpretar el significado de la desviación
estándar, así como identificar las aplicaciones
de la desviación estándar y el coeficiente de
variación.
Objetivos
Introducción
Reader’s
Digest
vs el 
Tabaco 
(1952 –
Medición 
de 
tóxicos)
Aprovechando la 
Estadística
La conclusión a la que llegó la revista,
publicada con cifras detalladas, fue que
todas las marcas eran virtualmente
idénticas y que no había ninguna
diferencia fuera cual fuera la que se
fumase.
Pero alguien se fijo en un cosa: en las
listas donde se detallaban las cantidades
casi idénticas de los distintos venenos,
algún cigarrillo debía figurar al final, y
éste era el Old Gold.
Le 
preguntaron 
a 113 597 
médicos de 
todas las 
especialidades
Los titulares y el texto decían
simplemente que de todos los
cigarrillos examinados por la
gran revista nacional, el Old Gold
era el que contenía menor
cantidad de estas cosas
indeseables. Se excluyeron todas
las cifras, así como cualquier
indicación de que la diferencia
fuera de tan escaso valor.
¿Diferencia 
significativa?
Un efecto significativo es aquel
en el que el valor obtenido se
encuentra a una distancia
considerable, en términos de
desviaciones típicas, de la
media aritmética.
Una desviación típica de la
media no es un efecto
significativo.
Para algunas áreas de
investigación en ciencias se
considera algo realmente
extraordinario cuando el
resultado que se obtiene se
encuentra a cinco desviaciones
típicas de la media.
Si queremos evaluar qué tan
significativo es el hecho de que Old
Gold esté por debajo de la media,
debemos saber que tan dispersos
están los datos. Resultó que los Old
Gold se desvían de la media en sólo
poco más de una desviación
estándar (nicotina) y se desvían de la
media en 2.2 desviaciones
estándares (alquitranes), pero las
diferencias no son significativas.
Desafortunadamente esto sería el 
principio de las mentiras del 
marketing
Medidas de dispersión
Desarrollo del tema
Aunque dos 
diferentes 
conjuntos de 
datos tengan la 
misma media, es 
importante saber 
cómo se 
dispersan éstos.
1 32
Rango Varianza Desviación 
Estándar
Principales 
medidas 
de 
dispersión 4 65
Coeficiente 
de variación
Índice de 
Asimetría
Índice de 
Curtosis
Rango (Range)
Generalidades
Es la medida de 
dispersión más fácil 
de calcular.
Es especialmente 
útil cuando sólo 
queremos analizar el 
alcance de las 
variaciones.
También se conoce 
como amplitud o 
recorrido.
Es la diferencia 
entre el valor 
máximo y mínimo de 
un conjunto de 
datos.
Rango
Seguros de “vida” Una compañía de seguros desea conocerla variación que existe en las ventas de
sus 8 vendedores y de esa manera
determinar la productividad de cada uno
de ellos. Ventas en un mes: 8, 11, 5, 14,
11, 8, 11, 16.
𝑹𝒂𝒏𝒈𝒐 = 𝑽𝒂𝒍𝒐𝒓 𝒎á𝒙𝒊𝒎𝒐 – 𝑽𝒂𝒍𝒐𝒓𝒎í𝒏𝒊𝒎𝒐
= 𝟏𝟔 – 𝟓 = 𝟏𝟏
El rango es 11, lo cual indica una gran
dispersión o variabilidad, ya que sería
ilógico que si un vendedor logra vender
16 seguros, el otro sólo venda 5 si se
trata de los mismos seguros. Lo anterior
puede atribuirse a la experiencia, a la
capacitación o a la cartera de clientes
que cada vendedor tiene.
El ejemplo de la Bolsa de 
Valores
El desempeño del precio de las
acciones en el mercado bursátil se
suele reconocer por los rangos (al
citar los precios máximos y mínimos
de cada sesión) y así interpretar qué
tanta volatilidad manifestó la acción
en una jornada o periodo. Si se
comparan dos acciones, se puede
interpretar que la acción que tiene
mayor variación es aquella que tiene
mayor rango.
Ventajas y desventajas
Es especialmente 
útil cuando se 
desea saber que 
tan extremos son 
los límites 
máximos y 
mínimos de una 
variable.
Se ve afectada 
por valores 
extremos o 
atípicos (muy 
grandes o muy 
pequeños).
V
en
ta
ja
s D
esven
tajas
Características:
• Es la medida de 
dispersión más 
fácil de calcular.
• Se obtiene 
mediante la 
resta de los 
valores máximos 
y mínimos de un 
conjunto de 
datos.
Varianza (Variance)
Generalidades
Toma en cuenta la 
dispersión que 
tienen los datos 
respecto de su 
media.
Su resultado se 
expresa en 
unidades al 
cuadrado.
Se representa 
mediante 𝜎2
(poblacional) y 𝑠2
(muestral).
Para obtenerla hay 
que distinguir 
cuando los datos 
están (o no) 
agrupados.
Varianza
Varianza poblacional para datos no agrupados
La varianza poblacional para una serie
de datos no agrupada:
𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑁
se calcula de la siguiente manera:
𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖−𝜇
2
𝑁
Las diferencias se toman al cuadrado
para evitar que la suma entre positivos
y negativos sea cero.
La varianza es igual a cero si y sólo si
los datos son iguales entre sí.
0
2
4
6
8
10
12
14
A B C
Varianza muestral para datos no agrupados
La varianza muestral para una
serie de datos no agrupada:
𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑛
se calcula de la siguiente manera:
𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖− ҧ𝑥
2
𝑛−1
La diferencia con la varianza
poblacional es que el denominador
no es igual al tamaño de la
muestra, sino que el denominador
es 𝑛 − 1.
Método corto de la Varianza 
(no agrupados)
Las ecuaciones anteriores se pueden
transformar en las siguientes:
𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖
2
𝑁
− 𝜇2
𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖
2 − 𝑛 ҧ𝑥
𝑛 − 1
Cabe señalar que éstas fórmulas nos
conducen al mismo resultado que si se
hubieran empleado las fórmulas
anteriores, siempre y cuando no se hayan
omitido algunos dígitos en las distintas
operaciones.
Ejemplo: Venta de seguros
Regresemos al caso de la venta de seguros, los datos son: 
8, 11, 5, 14, 11, 8, 11, 16 y 𝛍 = 𝟏𝟎. 𝟓
𝝈𝟐 =
σ𝒊=𝟏
𝑵 𝒙𝒊 − 𝝁
𝟐
𝑵
=
𝟖𝟔
𝟖
= 𝟏𝟎. 𝟕𝟓
𝝈𝟐 =
σ𝒊=𝟏
𝑵 𝒙𝒊
𝟐
𝑵
− 𝝁𝟐 =
𝟗𝟔𝟖
𝟖
− 𝟏𝟎. 𝟓 𝟐 = 𝟏𝟐𝟏 − 𝟏𝟏𝟎. 𝟐𝟓 = 𝟏𝟎. 𝟕𝟓
Ejemplo: Venta de seguros
Esta medida de variación no tiene un
significado práctico debido a que el
resultado obtenido está expresado en
términos cuadrados, es decir, la variabilidad
de seguros vendidos es de 10.75 seguros
cuadrados.
Por esa razón, la varianza sólo tiene sentido 
lógico cuando comparamos diferentes 
conjuntos de datos con la misma unidad de 
medida, es decir, su interpretación es una 
medida relativa en el sentido de que aquel 
conjunto que tenga la mayor varianza será el 
de mayor grado de dispersión.
Tipo de cambio entre el peso mexicano y el dólar 
estadounidense en los años 1995 y 2000
Tipo de cambio entre el peso mexicano y el dólar 
estadounidense en los años 1995 y 2000
𝒔𝟏
𝟐 =
𝟓. 𝟏𝟓𝟖𝟒
𝟏𝟏
= 𝟎. 𝟒𝟔𝟖𝟗 𝒔𝟐
𝟐 =
𝟎. 𝟐𝟎𝟐𝟑
𝟏𝟏
= 𝟎. 𝟎𝟏𝟖𝟑
Varianza, contraste y comparaciones
Este contraste se debe a la diferencia en los escenarios
macroeconómicos que se vivieron durante esos años.
Al ser mayor la varianza del año 1995, se refleja una gran volatilidad
y nerviosismo en el mercado cambiario producido por una fuerte
crisis económica que se vivía en ese año.
En el año 2000 podemos observar que el peso mexicano gozó de una
gran fortaleza, pues su cotización se mantuvo muy estable en el
transcurso de los 12 meses, incluso en el mes de junio, cuando se
presentaba la recta final de un proceso electoral en el país.
Varianza para datos agrupados
La varianza poblacional para una serie de datos agrupada se calcula así:
𝜎2 =
σ𝑖=1
𝑁 [𝑓𝑖 𝑚𝑖−𝜇
2]
𝑁
La varianza muestral para una serie de datos agrupada se calcula así:
𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖− ҧ𝑥
2]
𝑛−1
Ventas telefónicas (muestral)
Una gran empresa de ventas por teléfono quiere
conocer la variación existente en las ventas
realizadas (en miles de pesos) por sus operadores.Ventas telefónicas (muestral)
𝜇 = 15.635
𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
=
693.76
24
= 28.9066
La varianza es de 28.9 miles de pesos al cuadrado
Ventajas y Desventajas
Se utiliza para 
comparar la 
dispersión de dos o 
mas conjuntos de 
datos que se 
encuentren 
expresados en la 
misma unidad.
Las unidades en las 
que se expresa 
normalmente no 
tienen sentido 
lógico.
No puede comparar 
la dispersión de 
conjuntos de datos 
que no estén 
expresados en las 
mismas unidades.
V
en
ta
ja
s
D
esven
tajas
Características:
• Mide la variabilidad 
tomando en cuenta 
el cuadrado de la 
“dispersión” de los 
datos respecto de 
su media.
• Siempre adquiere 
valores mayores o 
iguales a cero.
Desviación estándar
Generalidades
Es una medida de 
variabilidad de los 
datos respecto de 
su media.
Su resultado se 
expresa en las 
mismas unidades 
que los datos.
Se representa 
mediante 𝜎
(poblacional) y 𝑠
(muestral).
Para obtenerla hay 
que distinguir 
cuando los datos 
están (o no) 
agrupados.
Desviación 
estándar
Desviación Estándar
Datos no agrupados
Poblacional: 
𝜎 = 𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
2
𝑁
Muestral:
𝑠 = 𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛 − 1
Datos agrupados
Poblacional: 
𝜎 = 𝜎2 =
σ𝑖=1
𝑁 [𝑓𝑖 𝑚𝑖 − 𝜇
2]
𝑁
Muestral:
𝑠 = 𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
Ventas telefónicas (muestral)
𝑠 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
=
693.76
24
= 28.9066 = 5.3764
La desviación típica de las ventas por teléfono es de 5.3764 miles de pesos
Ventajas y Desventajas
Indica la desviación 
o variabilidad que 
tienen los datos 
respecto de su 
media en las 
mismas unidades 
que las de la 
variable analizada.
No puede comparar 
la dispersión de 
conjuntos de datos 
que no estén 
expresados en las 
mismas unidades.
V
en
ta
ja
s D
esven
tajas
Características:
• Siempre 
adquiere valores 
mayores o 
iguales a cero.
• Se puede utilizar 
para comparar 
dispersión entre 
distintos 
conjuntos de 
datos (con las 
mismas 
unidades).
Coeficiente de 
variación
Generalidades
Señala que tan 
grande es la 
magnitud de la 
desviación estándar.
Se representa 
mediante las siglas 
CV.
Mide la dispersión 
en términos de 
porcentajes y no en 
las unidades de la 
variable.
Se utiliza para 
comparar la 
dispersión entre 
conjuntos con 
distintas unidades de 
medida.
Coeficiente 
de variación
Coeficiente de variación
Poblaciones
𝐶𝑉 =
𝜎
𝜇
× 100%
Muestras
𝐶𝑉 =
𝑠
ҧ𝑥
× 100%
En el caso de que nuestros datos se representen con números
negativos, entonces deberemos tomar como denominador el
valor absoluto de la media poblacional o el valor absoluto de la
media muestral.
Si el CV es menor o igual al 30%, significa que la media aritmética
es representativa del conjunto de datos, por ende el conjunto de
datos es "Homogéneo". Por el contrario, si el CV supera al 30%, el
promedio no será representativo del conjunto de datos (por lo que
resultará "Heterogéneo").
Los analistas de un centro financiero desean comparar el 
desempeño del tipo de cambio y el porcentaje de la participación 
extranjera en el mercado accionario de la Bolsa Mexicana de 
Valores durante el año 2000.
𝐶𝑉1 =
𝑠
ҧ𝑥
× 100% =
0.0183
9.44
× 100%
=
0.1352
9.44
× 100% = 0.0143 × 100% = 𝟏. 𝟒𝟑𝟐𝟐%
𝐶𝑉2 =
𝑠
ҧ𝑥
× 100% =
2.6662
44.75
× 100%
=
1.6328
44.75
× 100% = 0.0364 × 100% = 𝟑. 𝟔𝟒𝟖𝟕%
Los analistas de este centro
financiero pueden concluir que el
mercado cambiario durante el año
2000 tuvo mayor estabilidad que
la participación extranjera en el
mercado accionario, pues el
coeficiente de variación del
primero fue de 1.43%, mientras
que el del segundo fue de 3.64%.
De esta forma, los analistas
comparan la variación de dos
mercados que tienen distintas
unidades de medición.
Ventajas y Desventajas
Se utiliza para 
comparar 
conjuntos de 
datos que se 
expresan en las 
mismas o en 
distintas 
unidades de 
medida.
Afecta si en uno 
de los 
conjuntos de 
mediciones sólo 
existen datos 
negativos y en 
el otro conjunto 
de datos 
únicamente hay 
datos positivos.
V
en
ta
ja
s D
esven
tajas
Características:
• Debemos tener 
cuidado cuando 
la media 
aritmética se 
aproxima a 0.
• Podemos arreglar 
la desventaja 
tomando el valor 
absoluto del 
denominador.
Índice de Asimetría
Generalidades
El posicionamiento 
de las medidas de 
tendencia central 
está en función del 
sesgo (+ o -).
El sesgo positivo es 
cuando la media es 
mayor que la 
mediana y que la 
moda.
El sesgo negativo es 
cuando la media es 
menor que la moda.
Cualquier tipo de 
sesgo refleja una 
“cola” alargada a la 
izquierda (-) o a la 
derecha (+).
Índice de 
Asimetría
Índice de Asimetría
El índice de 
asimetría es una 
medida de 
dispersión 
mediante la cual 
se conoce el tipo y 
la magnitud de 
sesgo en una 
distribución de 
frecuencias. Se 
representa 
mediante la 
expresión 𝛼3.
Poblacional (no 
agrupados): 𝛼3 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
3
𝑁
𝜎3
Muestral (no 
agrupados): 𝛼3 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
Poblacional 
(agrupados): 𝛼3 =
σ𝑖=1
𝑁 𝑓𝑖 𝑚𝑖 − 𝜇
3
𝑁
𝜎3
Muestral 
(agrupados): 𝛼3 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
Ín
d
ic
e
 d
e
 
a
s
im
e
tr
ía
𝛼3 = 0
Distribución 
simétrica o 
insesgada.
𝛼3 < 0
Asimétricamente 
sesgada a la izquierda 
(negativa): cola hacia la 
izquierda y valor más 
alto hacia la derecha.
𝛼3 > 0
Asimétricamente 
sesgada a la derecha 
(positiva): cola hacia la 
derecha y valor más 
alto hacia la izquierda.
De vuelta a las ventas por teléfono:
𝛼3 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
=
453.4272
24
5.3764 3
=
18.8928
155.4084
= 0.1215
Con el resultado se puede observar que el coeficiente es 
cercano a cero, así la distribución se caracteriza por ser 
insesgada, es decir, que la curva tiene una forma simétrica 
tal que las colas tienden a ser iguales. 
Índice de Curtosis
Kurtosis
Generalidades
Es una medida de 
dispersión que mide la 
concentración o 
dispersión de los datos 
alrededor de la media.
Representa el grado 
de apuntamiento de 
la gráfica 
(puntiaguda o 
aplanada).
Si es puntiaguda 
entonces los datos 
se acumulan cerca 
de la media.
Si es muy chata, 
entonces hay una 
gran dispersión 
entre los datos.
Índice de 
Curtosis
Índice de Curtosis
Índice 
de 
Curtosis
Poblacional (no 
agrupados): 𝛼4 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
4
𝑁
𝜎4
Muestral (no 
agrupados): 𝛼4 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
Poblacional 
(agrupados): 𝛼4 =
σ𝑖=1
𝑁 𝑓𝑖 𝑚𝑖 − 𝜇
4
𝑁
𝜎4
Muestral 
(agrupados): 𝛼4 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
Ín
d
ic
e 
d
e 
C
u
rt
o
si
s
𝛼4 = 3
Distribución 
mesocúrtica (ni tan 
puntiaguda ni tan 
aplanada).
𝛼4 < 3
Distribución 
platicúrtica (muy 
plana = mayor 
dispersión de los 
datos).
𝛼4 > 3
Distribución 
leptocúrtica (muy 
puntiaguda = menor 
dispersión de los 
datos).
De vuelta a las ventas por teléfono:
𝛼4 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
=
45 258.7992
24
5.3764 4
=
1885.7833
835.5381
= 2.2569
Con el resultado se puede observar que el coeficiente es
menor a tres, por lo que la distribución se caracteriza por ser
platicúrtica, es decir, que la curva tiene una forma tal que su
apuntamiento es achatado, tal y como se muestra a
continuación:
Análisis de Caso II
Medidas de dispersión
Análisis de Caso II
Instrucciones: Para la resolución del análisis de
caso, es necesario asistir a la Open Class de
Semana 4 y resolver el análisis abriendo el
micrófono en la sesión.
De ser aprobada la participación por el docente,
debes entregar este formato en el espacio de
Trabajo Final semana 4 para obtener la calificación
correspondiente.
¿De qué manera las medidas de dispersión te dan 
los elementos suficientes para afirmar o rechazar 
una suposición?
Una pequeña empresa a realizado encuestas a una
muestra de 100 personas respecto a sus
preferencias sobre uno de sus productos. Para
facilitar su análisis de datos han organizado las
edadesde los encuestados en datos agrupados.
Obtén la media, la varianza y la desviación
estándar.
Edades fi mi 𝒎𝒊 ⋅ 𝒇𝒊 𝒎𝒊 − ഥ𝒙 𝒎𝒊 − ഥ𝒙
𝟐 𝒇𝒊 ⋅ 𝒎𝒊 − ഥ𝒙
𝟐
60 - 64 12
55 - 59 26
50 - 54 34
45 - 49 20
40 - 44 8
Sumatoria
• Media:
• Varianza:
• Desviación Estándar:
• ¿Cómo podemos interpretar los resultados de
la varianza y la media?
Una empresa realizó una encuesta a 100 personas sobre la preferencia de
uno de sus productos, dichas personas tienen una edad media de _____
años. Con base en ello se realizó un análisis estadístico y se obtuvieron
medidas de dispersión que permiten describir lo siguiente:
“Se obtuvo una desviación estándar de _____ años respecto a la media de
_____ años, ello nos indica que la edad de las personas que prefieren
dicho producto oscila entre _____ y _____ años.”
Pregunta de 
investigación
Existen diferentes conceptos 
de medias de variabilidad en 
matemáticas, como la 
desviación media (desviación 
absoluta promedio).
¿Estas variaciones del 
concepto tienen una 
aplicación en la estadística?
Pregunta de investigación
σ𝑖=1
𝑁 |𝑥𝑖 − 𝜇|
𝑁
Conclusión
Conclusiones
• La estadística es una herramienta para la
descripción de datos que nos pueden ayudar a
tomar decisiones.
• Las diferentes medidas de dispersión son un
auxiliar para averiguar cómo están distribuidos
los datos alrededor de la media.
• Existen ciertos índices que también me
puntualizan si la gráfica de distribuciones tiene
una forma alargada o achatada o una inclinación
hacia la derecha o a la izquierda.
Preguntas
Referencias y material 
extra
Referencias
• Denuncian a Tik Tok por publicidad engañosa.
• Curiosidades sobre los cigarros.
• Donde se vive el sabor.
• Emulador de Calculadora Casio.
https://www.xataka.com/legislacion-y-derechos/denuncian-a-tiktok-comision-europea-publicidad-enganosa-menores-recoleccion-datos-practicas-abusivas
https://mercado.com.ar/management-marketing/5-cosas-que-no-sabias-de-marlboro/
https://www.milenio.com/cultura/laberinto/donde-se-vive-el-sabor
https://maralboran.eu/matematicas/2016/05/25/emuladores-de-calculadoras-casio/
Recomendaciones
Sólo la Constancia y la Decisión lo 
consiguen todo

Continuar navegando