4 - Medidas de dispersión

Criminología

•

Humanas / Sociais

Fabricio Byron Hurtado Freire

26/7/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Criminología

22.443 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Estadística para las
Ciencias Sociales
Unidad 4: Medidas de dispersión
M.C.M. Rodrigo Hidalgo Linares
Orden del día
● Objetivos
● Introducción
● Medidas de dispersión
● Análisis de Caso II
● Pregunta de investigación
● Conclusión(es)
● Preguntas
• Resaltar la importancia de la estadística pero
sobre todo de las matemáticas, así como del
buen manejo de la información.
• Calcular medidas de dispersión para datos no
agrupados y agrupados.
• Interpretar el significado de la desviación
estándar, así como identificar las aplicaciones
de la desviación estándar y el coeficiente de
variación.
Objetivos
Introducción
Reader’s
Digest
vs el
Tabaco
(1952 –
Medición
de
tóxicos)
Aprovechando la
Estadística
La conclusión a la que llegó la revista,
publicada con cifras detalladas, fue que
todas las marcas eran virtualmente
idénticas y que no había ninguna
diferencia fuera cual fuera la que se
fumase.
Pero alguien se fijo en un cosa: en las
listas donde se detallaban las cantidades
casi idénticas de los distintos venenos,
algún cigarrillo debía figurar al final, y
éste era el Old Gold.
Le
preguntaron
a 113 597
médicos de
todas las
especialidades
Los titulares y el texto decían
simplemente que de todos los
cigarrillos examinados por la
gran revista nacional, el Old Gold
era el que contenía menor
cantidad de estas cosas
indeseables. Se excluyeron todas
las cifras, así como cualquier
indicación de que la diferencia
fuera de tan escaso valor.
¿Diferencia
significativa?
Un efecto significativo es aquel
en el que el valor obtenido se
encuentra a una distancia
considerable, en términos de
desviaciones típicas, de la
media aritmética.
Una desviación típica de la
media no es un efecto
significativo.
Para algunas áreas de
investigación en ciencias se
considera algo realmente
extraordinario cuando el
resultado que se obtiene se
encuentra a cinco desviaciones
típicas de la media.
Si queremos evaluar qué tan
significativo es el hecho de que Old
Gold esté por debajo de la media,
debemos saber que tan dispersos
están los datos. Resultó que los Old
Gold se desvían de la media en sólo
poco más de una desviación
estándar (nicotina) y se desvían de la
media en 2.2 desviaciones
estándares (alquitranes), pero las
diferencias no son significativas.
Desafortunadamente esto sería el
principio de las mentiras del
marketing
Medidas de dispersión
Desarrollo del tema
Aunque dos
diferentes
conjuntos de
datos tengan la
misma media, es
importante saber
cómo se
dispersan éstos.
1 32
Rango Varianza Desviación
Estándar
Principales
medidas
de
dispersión 4 65
Coeficiente
de variación
Índice de
Asimetría
Índice de
Curtosis
Rango (Range)
Generalidades
Es la medida de
dispersión más fácil
de calcular.
Es especialmente
útil cuando sólo
queremos analizar el
alcance de las
variaciones.
También se conoce
como amplitud o
recorrido.
Es la diferencia
entre el valor
máximo y mínimo de
un conjunto de
datos.
Rango
Seguros de “vida” Una compañía de seguros desea conocerla variación que existe en las ventas de
sus 8 vendedores y de esa manera
determinar la productividad de cada uno
de ellos. Ventas en un mes: 8, 11, 5, 14,
11, 8, 11, 16.
𝑹𝒂𝒏𝒈𝒐 = 𝑽𝒂𝒍𝒐𝒓 𝒎á𝒙𝒊𝒎𝒐 – 𝑽𝒂𝒍𝒐𝒓𝒎í𝒏𝒊𝒎𝒐
= 𝟏𝟔 – 𝟓 = 𝟏𝟏
El rango es 11, lo cual indica una gran
dispersión o variabilidad, ya que sería
ilógico que si un vendedor logra vender
16 seguros, el otro sólo venda 5 si se
trata de los mismos seguros. Lo anterior
puede atribuirse a la experiencia, a la
capacitación o a la cartera de clientes
que cada vendedor tiene.
El ejemplo de la Bolsa de
Valores
El desempeño del precio de las
acciones en el mercado bursátil se
suele reconocer por los rangos (al
citar los precios máximos y mínimos
de cada sesión) y así interpretar qué
tanta volatilidad manifestó la acción
en una jornada o periodo. Si se
comparan dos acciones, se puede
interpretar que la acción que tiene
mayor variación es aquella que tiene
mayor rango.
Ventajas y desventajas
Es especialmente
útil cuando se
desea saber que
tan extremos son
los límites
máximos y
mínimos de una
variable.
Se ve afectada
por valores
extremos o
atípicos (muy
grandes o muy
pequeños).
V
en
ta
ja
s D
esven
tajas
Características:
• Es la medida de
dispersión más
fácil de calcular.
• Se obtiene
mediante la
resta de los
valores máximos
y mínimos de un
conjunto de
datos.
Varianza (Variance)
Generalidades
Toma en cuenta la
dispersión que
tienen los datos
respecto de su
media.
Su resultado se
expresa en
unidades al
cuadrado.
Se representa
mediante 𝜎2
(poblacional) y 𝑠2
(muestral).
Para obtenerla hay
que distinguir
cuando los datos
están (o no)
agrupados.
Varianza
Varianza poblacional para datos no agrupados
La varianza poblacional para una serie
de datos no agrupada:
𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑁
se calcula de la siguiente manera:
𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖−𝜇
2
𝑁
Las diferencias se toman al cuadrado
para evitar que la suma entre positivos
y negativos sea cero.
La varianza es igual a cero si y sólo si
los datos son iguales entre sí.
0
2
4
6
8
10
12
14
A B C
Varianza muestral para datos no agrupados
La varianza muestral para una
serie de datos no agrupada:
𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑛
se calcula de la siguiente manera:
𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖− ҧ𝑥
2
𝑛−1
La diferencia con la varianza
poblacional es que el denominador
no es igual al tamaño de la
muestra, sino que el denominador
es 𝑛 − 1.
Método corto de la Varianza
(no agrupados)
Las ecuaciones anteriores se pueden
transformar en las siguientes:
𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖
2
𝑁
− 𝜇2
𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖
2 − 𝑛 ҧ𝑥
𝑛 − 1
Cabe señalar que éstas fórmulas nos
conducen al mismo resultado que si se
hubieran empleado las fórmulas
anteriores, siempre y cuando no se hayan
omitido algunos dígitos en las distintas
operaciones.
Ejemplo: Venta de seguros
Regresemos al caso de la venta de seguros, los datos son:
8, 11, 5, 14, 11, 8, 11, 16 y 𝛍 = 𝟏𝟎. 𝟓
𝝈𝟐 =
σ𝒊=𝟏
𝑵 𝒙𝒊 − 𝝁
𝟐
𝑵
=
𝟖𝟔
𝟖
= 𝟏𝟎. 𝟕𝟓
𝝈𝟐 =
σ𝒊=𝟏
𝑵 𝒙𝒊
𝟐
𝑵
− 𝝁𝟐 =
𝟗𝟔𝟖
𝟖
− 𝟏𝟎. 𝟓 𝟐 = 𝟏𝟐𝟏 − 𝟏𝟏𝟎. 𝟐𝟓 = 𝟏𝟎. 𝟕𝟓
Ejemplo: Venta de seguros
Esta medida de variación no tiene un
significado práctico debido a que el
resultado obtenido está expresado en
términos cuadrados, es decir, la variabilidad
de seguros vendidos es de 10.75 seguros
cuadrados.
Por esa razón, la varianza sólo tiene sentido
lógico cuando comparamos diferentes
conjuntos de datos con la misma unidad de
medida, es decir, su interpretación es una
medida relativa en el sentido de que aquel
conjunto que tenga la mayor varianza será el
de mayor grado de dispersión.
Tipo de cambio entre el peso mexicano y el dólar
estadounidense en los años 1995 y 2000
Tipo de cambio entre el peso mexicano y el dólar
estadounidense en los años 1995 y 2000
𝒔𝟏
𝟐 =
𝟓. 𝟏𝟓𝟖𝟒
𝟏𝟏
= 𝟎. 𝟒𝟔𝟖𝟗 𝒔𝟐
𝟐 =
𝟎. 𝟐𝟎𝟐𝟑
𝟏𝟏
= 𝟎. 𝟎𝟏𝟖𝟑
Varianza, contraste y comparaciones
Este contraste se debe a la diferencia en los escenarios
macroeconómicos que se vivieron durante esos años.
Al ser mayor la varianza del año 1995, se refleja una gran volatilidad
y nerviosismo en el mercado cambiario producido por una fuerte
crisis económica que se vivía en ese año.
En el año 2000 podemos observar que el peso mexicano gozó de una
gran fortaleza, pues su cotización se mantuvo muy estable en el
transcurso de los 12 meses, incluso en el mes de junio, cuando se
presentaba la recta final de un proceso electoral en el país.
Varianza para datos agrupados
La varianza poblacional para una serie de datos agrupada se calcula así:
𝜎2 =
σ𝑖=1
𝑁 [𝑓𝑖 𝑚𝑖−𝜇
2]
𝑁
La varianza muestral para una serie de datos agrupada se calcula así:
𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖− ҧ𝑥
2]
𝑛−1
Ventas telefónicas (muestral)
Una gran empresa de ventas por teléfono quiere
conocer la variación existente en las ventas
realizadas (en miles de pesos) por sus operadores.Ventas telefónicas (muestral)
𝜇 = 15.635
𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
=
693.76
24
= 28.9066
La varianza es de 28.9 miles de pesos al cuadrado
Ventajas y Desventajas
Se utiliza para
comparar la
dispersión de dos o
mas conjuntos de
datos que se
encuentren
expresados en la
misma unidad.
Las unidades en las
que se expresa
normalmente no
tienen sentido
lógico.
No puede comparar
la dispersión de
conjuntos de datos
que no estén
expresados en las
mismas unidades.
V
en
ta
ja
s
D
esven
tajas
Características:
• Mide la variabilidad
tomando en cuenta
el cuadrado de la
“dispersión” de los
datos respecto de
su media.
• Siempre adquiere
valores mayores o
iguales a cero.
Desviación estándar
Generalidades
Es una medida de
variabilidad de los
datos respecto de
su media.
Su resultado se
expresa en las
mismas unidades
que los datos.
Se representa
mediante 𝜎
(poblacional) y 𝑠
(muestral).
Para obtenerla hay
que distinguir
cuando los datos
están (o no)
agrupados.
Desviación
estándar
Desviación Estándar
Datos no agrupados
Poblacional:
𝜎 = 𝜎2 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
2
𝑁
Muestral:
𝑠 = 𝑠2 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
2
𝑛 − 1
Datos agrupados
Poblacional:
𝜎 = 𝜎2 =
σ𝑖=1
𝑁 [𝑓𝑖 𝑚𝑖 − 𝜇
2]
𝑁
Muestral:
𝑠 = 𝑠2 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
Ventas telefónicas (muestral)
𝑠 =
σ𝑖=1
𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥
2]
𝑛 − 1
=
693.76
24
= 28.9066 = 5.3764
La desviación típica de las ventas por teléfono es de 5.3764 miles de pesos
Ventajas y Desventajas
Indica la desviación
o variabilidad que
tienen los datos
respecto de su
media en las
mismas unidades
que las de la
variable analizada.
No puede comparar
la dispersión de
conjuntos de datos
que no estén
expresados en las
mismas unidades.
V
en
ta
ja
s D
esven
tajas
Características:
• Siempre
adquiere valores
mayores o
iguales a cero.
• Se puede utilizar
para comparar
dispersión entre
distintos
conjuntos de
datos (con las
mismas
unidades).
Coeficiente de
variación
Generalidades
Señala que tan
grande es la
magnitud de la
desviación estándar.
Se representa
mediante las siglas
CV.
Mide la dispersión
en términos de
porcentajes y no en
las unidades de la
variable.
Se utiliza para
comparar la
dispersión entre
conjuntos con
distintas unidades de
medida.
Coeficiente
de variación
Coeficiente de variación
Poblaciones
𝐶𝑉 =
𝜎
𝜇
× 100%
Muestras
𝐶𝑉 =
𝑠
ҧ𝑥
× 100%
En el caso de que nuestros datos se representen con números
negativos, entonces deberemos tomar como denominador el
valor absoluto de la media poblacional o el valor absoluto de la
media muestral.
Si el CV es menor o igual al 30%, significa que la media aritmética
es representativa del conjunto de datos, por ende el conjunto de
datos es "Homogéneo". Por el contrario, si el CV supera al 30%, el
promedio no será representativo del conjunto de datos (por lo que
resultará "Heterogéneo").
Los analistas de un centro financiero desean comparar el
desempeño del tipo de cambio y el porcentaje de la participación
extranjera en el mercado accionario de la Bolsa Mexicana de
Valores durante el año 2000.
𝐶𝑉1 =
𝑠
ҧ𝑥
× 100% =
0.0183
9.44
× 100%
=
0.1352
9.44
× 100% = 0.0143 × 100% = 𝟏. 𝟒𝟑𝟐𝟐%
𝐶𝑉2 =
𝑠
ҧ𝑥
× 100% =
2.6662
44.75
× 100%
=
1.6328
44.75
× 100% = 0.0364 × 100% = 𝟑. 𝟔𝟒𝟖𝟕%
Los analistas de este centro
financiero pueden concluir que el
mercado cambiario durante el año
2000 tuvo mayor estabilidad que
la participación extranjera en el
mercado accionario, pues el
coeficiente de variación del
primero fue de 1.43%, mientras
que el del segundo fue de 3.64%.
De esta forma, los analistas
comparan la variación de dos
mercados que tienen distintas
unidades de medición.
Ventajas y Desventajas
Se utiliza para
comparar
conjuntos de
datos que se
expresan en las
mismas o en
distintas
unidades de
medida.
Afecta si en uno
de los
conjuntos de
mediciones sólo
existen datos
negativos y en
el otro conjunto
de datos
únicamente hay
datos positivos.
V
en
ta
ja
s D
esven
tajas
Características:
• Debemos tener
cuidado cuando
la media
aritmética se
aproxima a 0.
• Podemos arreglar
la desventaja
tomando el valor
absoluto del
denominador.
Índice de Asimetría
Generalidades
El posicionamiento
de las medidas de
tendencia central
está en función del
sesgo (+ o -).
El sesgo positivo es
cuando la media es
mayor que la
mediana y que la
moda.
El sesgo negativo es
cuando la media es
menor que la moda.
Cualquier tipo de
sesgo refleja una
“cola” alargada a la
izquierda (-) o a la
derecha (+).
Índice de
Asimetría
Índice de Asimetría
El índice de
asimetría es una
medida de
dispersión
mediante la cual
se conoce el tipo y
la magnitud de
sesgo en una
distribución de
frecuencias. Se
representa
mediante la
expresión 𝛼3.
Poblacional (no
agrupados): 𝛼3 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
3
𝑁
𝜎3
Muestral (no
agrupados): 𝛼3 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
Poblacional
(agrupados): 𝛼3 =
σ𝑖=1
𝑁 𝑓𝑖 𝑚𝑖 − 𝜇
3
𝑁
𝜎3
Muestral
(agrupados): 𝛼3 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
Ín
d
ic
e
d
e

a
s
im
e
tr
ía
𝛼3 = 0
Distribución
simétrica o
insesgada.
𝛼3 < 0
Asimétricamente
sesgada a la izquierda
(negativa): cola hacia la
izquierda y valor más
alto hacia la derecha.
𝛼3 > 0
Asimétricamente
sesgada a la derecha
(positiva): cola hacia la
derecha y valor más
alto hacia la izquierda.
De vuelta a las ventas por teléfono:
𝛼3 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
3
𝑛 − 1
𝑠3
=
453.4272
24
5.3764 3
=
18.8928
155.4084
= 0.1215
Con el resultado se puede observar que el coeficiente es
cercano a cero, así la distribución se caracteriza por ser
insesgada, es decir, que la curva tiene una forma simétrica
tal que las colas tienden a ser iguales.
Índice de Curtosis
Kurtosis
Generalidades
Es una medida de
dispersión que mide la
concentración o
dispersión de los datos
alrededor de la media.
Representa el grado
de apuntamiento de
la gráfica
(puntiaguda o
aplanada).
Si es puntiaguda
entonces los datos
se acumulan cerca
de la media.
Si es muy chata,
entonces hay una
gran dispersión
entre los datos.
Índice de
Curtosis
Índice de Curtosis
Índice
de
Curtosis
Poblacional (no
agrupados): 𝛼4 =
σ𝑖=1
𝑁 𝑥𝑖 − 𝜇
4
𝑁
𝜎4
Muestral (no
agrupados): 𝛼4 =
σ𝑖=1
𝑛 𝑥𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
Poblacional
(agrupados): 𝛼4 =
σ𝑖=1
𝑁 𝑓𝑖 𝑚𝑖 − 𝜇
4
𝑁
𝜎4
Muestral
(agrupados): 𝛼4 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
Ín
d
ic
e
d
e
C
u
rt
o
si
s
𝛼4 = 3
Distribución
mesocúrtica (ni tan
puntiaguda ni tan
aplanada).
𝛼4 < 3
Distribución
platicúrtica (muy
plana = mayor
dispersión de los
datos).
𝛼4 > 3
Distribución
leptocúrtica (muy
puntiaguda = menor
dispersión de los
datos).
De vuelta a las ventas por teléfono:
𝛼4 =
σ𝑖=1
𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥
4
𝑛 − 1
𝑠4
=
45 258.7992
24
5.3764 4
=
1885.7833
835.5381
= 2.2569
Con el resultado se puede observar que el coeficiente es
menor a tres, por lo que la distribución se caracteriza por ser
platicúrtica, es decir, que la curva tiene una forma tal que su
apuntamiento es achatado, tal y como se muestra a
continuación:
Análisis de Caso II
Medidas de dispersión
Análisis de Caso II
Instrucciones: Para la resolución del análisis de
caso, es necesario asistir a la Open Class de
Semana 4 y resolver el análisis abriendo el
micrófono en la sesión.
De ser aprobada la participación por el docente,
debes entregar este formato en el espacio de
Trabajo Final semana 4 para obtener la calificación
correspondiente.
¿De qué manera las medidas de dispersión te dan
los elementos suficientes para afirmar o rechazar
una suposición?
Una pequeña empresa a realizado encuestas a una
muestra de 100 personas respecto a sus
preferencias sobre uno de sus productos. Para
facilitar su análisis de datos han organizado las
edadesde los encuestados en datos agrupados.
Obtén la media, la varianza y la desviación
estándar.
Edades fi mi 𝒎𝒊 ⋅ 𝒇𝒊 𝒎𝒊 − ഥ𝒙 𝒎𝒊 − ഥ𝒙
𝟐 𝒇𝒊 ⋅ 𝒎𝒊 − ഥ𝒙
𝟐
60 - 64 12
55 - 59 26
50 - 54 34
45 - 49 20
40 - 44 8
Sumatoria
• Media:
• Varianza:
• Desviación Estándar:
• ¿Cómo podemos interpretar los resultados de
la varianza y la media?
Una empresa realizó una encuesta a 100 personas sobre la preferencia de
uno de sus productos, dichas personas tienen una edad media de _____
años. Con base en ello se realizó un análisis estadístico y se obtuvieron
medidas de dispersión que permiten describir lo siguiente:
“Se obtuvo una desviación estándar de _____ años respecto a la media de
_____ años, ello nos indica que la edad de las personas que prefieren
dicho producto oscila entre _____ y _____ años.”
Pregunta de
investigación
Existen diferentes conceptos
de medias de variabilidad en
matemáticas, como la
desviación media (desviación
absoluta promedio).
¿Estas variaciones del
concepto tienen una
aplicación en la estadística?
Pregunta de investigación
σ𝑖=1
𝑁 |𝑥𝑖 − 𝜇|
𝑁
Conclusión
Conclusiones
• La estadística es una herramienta para la
descripción de datos que nos pueden ayudar a
tomar decisiones.
• Las diferentes medidas de dispersión son un
auxiliar para averiguar cómo están distribuidos
los datos alrededor de la media.
• Existen ciertos índices que también me
puntualizan si la gráfica de distribuciones tiene
una forma alargada o achatada o una inclinación
hacia la derecha o a la izquierda.
Preguntas
Referencias y material
extra
Referencias
• Denuncian a Tik Tok por publicidad engañosa.
• Curiosidades sobre los cigarros.
• Donde se vive el sabor.
• Emulador de Calculadora Casio.
https://www.xataka.com/legislacion-y-derechos/denuncian-a-tiktok-comision-europea-publicidad-enganosa-menores-recoleccion-datos-practicas-abusivas
https://mercado.com.ar/management-marketing/5-cosas-que-no-sabias-de-marlboro/
https://www.milenio.com/cultura/laberinto/donde-se-vive-el-sabor
https://maralboran.eu/matematicas/2016/05/25/emuladores-de-calculadoras-casio/
Recomendaciones
Sólo la Constancia y la Decisión lo
consiguen todo