Logo Studenta

Medidas de dispersión (Resumen)

¡Este material tiene más páginas!

Vista previa del material en texto

Medidas de dispersión
No es suficiente disponer de una medida de la posición de los datos, si no que es
preciso también cuantificar de alguna forma el grado de dispersión existente en los
mismos.
Ejemplo: A un fondo de inversión se le ha aplicado un estudios sobre la estabilidad en
sus portafolios de inversión. La autoridad les exige que la variabilidad en las tasas no
difieran en más de un 10%.
Ejemplo: Una compañía armadora de aeronaves+ selecciona al proveedor de asientos
mediante dos criterios, que la media en la dureza del asiento sea 250N, pero que la
variabilidad no exceda el 10%.
En la siguiente gráfica observaremos que ambos casos los proveedores cumplen las
especificaciones de la empresa, consiguiendo en las 2 variables consideradas la misma
media deseada de 250N. y entre 225 y 275.
Proveedor 1 Proveedor 2
242 227
262 264
246 274
253 229
245 258
250 246
257 240
258 229
251 268
236 265
Medidas de dispersión
1. ¿Puede considerarse que la elección entre ambos proveedores es por tanto
irrelevante?
2. ¿Compraríamos del primer proveedor porque su proceso tiene una menor dispersión?
3. ¿En qué difieren las pautas de variabilidad de las longitudes entre ambos
proveedores?
4. ¿Cuál resulta preferible? ¿por qué?
250 250Media
262/236 274/227Max/min
Medidas de dispersión
Amplitud
Se denomina amplitud a la medida de variabilidad que surge de la diferencia entre el valor
máximo y mínimo del conjunto de datos.
minmax xxA −=
Aunque útil en muestras pequeñas, el recorrido presenta el inconveniente de que ignora
gran parte de la información existente en la muestra. El problema se presenta cuando
hay demasiados datos o cuando alguno de ellos es muy extremo aunque en general es
un parámetro pobre.
Proveedor 1 Proveedor 2
Media 250.0 250.0
Amplitud 26.0 47.0
¿Con esta información puedes resolver las preguntas de la
empresa aeronáutica?
Medidas de dispersión
Amplitud intercuartil
Se denomina amplitud intercuartil a la diferencia entre los valores del tercer y primer
cuartil.
13 QQAI −=
Este indicador de dispersión, de la misma forma que la media es un indicador robusto de
posición, puesto que ambos parámetros resultan poco influidos por la presencia de
algún valor anormal.
En aquellos casos en que la media no es un indicador adecuado de posición (como
en sucede en distribuciones muy asimétricas) tampoco resultará la desviación estándar
(basada en las desviaciones respecto a la media) un parámetro adecuado de dispersión.
En estos casos se utiliza a veces con dicho fin la amplitud intercuartil.
Medidas de dispersión
Varianza y desviación estándar
Dado que la media es en la mayor parte de los casos un buen parámetro de posición,
parece lógico tomar como medida de dispersión algún parámetro relacionado con la
magnitud de las desviaciones de los datos observados respecto a su media.
0
)(
1 =
−
=

=
N
mx
Desviación
N
i
i
El valor medio de estas desviaciones será siempre 0 (al anularse las desviaciones
positivas con las negativas) por lo que no puede utilizarse como media de dispersión.
A comprobar la afirmación anterior sobre una cualquier de las variables de la encuesta.
La medida de dispersión más utilizada en Estadística es la varianza o, alternativamente,
su raíz cuadrada q se llama Desviación estándar.
La varianza " el promedio de los cuadrados de las desviaciones de los datos respecto a
su media.
Varianza y desviación estándar
Varianza de una población: Varianza de una muestra:
Desviación Estándar de una población: Desviación Estándar de una muestra:
N
mx
N
i
i
=
−
= 1
2
2
)(

En general se prefiere utilizar como medida descriptiva de la dispersión la desviación
estándar, que resulta más fácil de interpretar al venir expresada en las mismas unidades
que los datos estadísticos.
Sin embargo las propiedades estadísticas son más sencillas con las varianzas. Así
cuando dos variables aleatorias son independientes, la varianza de su suma es la suma
de las varianzas, cosa que no sucede si se considera la desviación estándar.
Medidas de dispersión
N
mx
N
i
i
=
−
= 1
2)(

1
)(
1
2
2
−
−
=

=
n
xx
S
N
i
i
1
)(
1
2
−
−
=

=
n
xx
S
N
i
i
Propiedades de la varianza
Varianza y desviación estándar
Medidas de dispersión
•La varianza y desviación estándar de una variable es siempre igual o mayor a cero
•La varianza y desviación estándar de una constante es siempre igual a cero
•Si una variable es una combinación lineal de otra variable, las varianzas son iguales
0;2 YY 
0;2 =AA 
XaY +=
22
XY  =
bXaY +=
222
XY b  =
Propiedades de la varianza
Varianza y desviación estándar
Medidas de dispersión
•La varianza de la suma o resta de dos variables que son independientes es la suma de 
las varianzas
2121 XXYoXXY −=+=
2
2
2
1
2
XXY  +=

==
=
N
i
xi
N
i
ix
1
2
1
2 
Frecuentemente las variables aleatorias reales siguen pautas de variabilidad que se
caracterizan por histogramas que se asemejan a campanas aproximadamente simétricas.
La Estadística ha establecido un modelo matemático de este tipo de variables aleatorias, la
denominada distribución normal o de Gauss. En datos que siguen una distribución
normal se cumplen aproximadamente las siguientes propiedades:
1.Las 2/3 partes de los datos (" 68.25%) difieren de la media menos de S
2.El 95% de los datos difiere de la media menos de 2S
3.La práctica totalidad de los datos (En teoría más de un 99,7%) difieren de la media
en menos de 3S.
La desviación estándar viene medida en las mismas unidades que los datos
primitivos. En algunos casos interesa disponer de algún indicador de dispersión que sea
adimensional.
Coeficiente de desviación
Medidas de dispersión
Si pretendemos comparar la dispersión de dos sistemas de medida de cierta
característica que dan las determinaciones en escalas diferentes. En estas situaciones
puede usarse el coeficiente de variación, que no es más que el coeficiente entre la
desviación estándar y la media.
100*
x
S
CV =
Medidas de simetría y curtosis
Las variables aleatorias continuas presentan frecuentemente una pauta de variabilidad
que se caracteriza por el hecho de que los datos tienden a acumularse alrededor de un
valor central, decreciendo su frecuencia de forma aproximadamente simétrica a medida
que se alejan por ambos lados de dicho valor.
Para estudiar este tipo de pauta de variabilidad se ha establecido un modelo matemático,
la distribución normal, de extraordinaria importancia en la Inferencia Estadística. Toda
distribución normal viene completamente caracterizada por su media y su desviación
estándar, es decir por sus parámetros de posición y de dispersión.
Sin embargo, un problema frecuente al estudiar datos reales es precisamente analizar
hasta qué punto la distribución normal resulta un modelo adecuado, puesto que pautas
de variabilidad que se alejen sensiblemente de la normal pueden exigir el recurso a
tratamientos estadísticos especiales o ser el síntoma de anomalía de los datos. Con este
fin se utilizan los coeficientes de asimetría y de curtosis.
Posición de la media con respecto a la mediana.
Simetría
Medidas de simetría y curtosis
Media  Mediana = asimétrica positiva o con sesgo a la derecha.
Media  Mediana = simétrica o con sesgo cero.
Media  Mediana = asimétrica negativa o con sesgo a la izquierda. 
Coeficiente Parsoniano
Simetría
Medidas de simetría y curtosis

Medx
CP
−
=
Valores positivos significan una distribución asimétrica positiva o con sesgo a la derecha.
Valores aproximados a cero significan una distribución simétrica o con sesgo cero.
Valores negativos significan una distribución asimétrica negativa o con sesgo a la
izquierda.
 = −
n
i i
xx
1
3)(
será nula.
Por el contrario, dicha suma será positiva si los datos representan una cola alargada
hacia la derecha y negativa si la presentan hacia la izquierda.
Si unos datos son simétricos, lo son respecto a su media,y la suma de los cubos de las
desviaciones de los datos respecto a dicha media
Coeficiente de asimetría. (“skewness”)
Coeficiente de asimetría CA
Simetría
Medidas de simetría y curtosis
Coeficiente de asimetría estandarizado CAEST
Una medida cuantitativa de hasta qué punto una muestra es simétrica, respecto a la
media, o no.
3
1
3
1
)(
S
n
xx
CA
n
i i
−
−
=
 =
(La división por “S3” tiene por objeto obtener un coeficiente adimensional, o sea, que no
dependa de la escala en que vengan los datos.)
)(nf
CA
CAEST =
Entre -2 y +2 => CAEST razonable => la población se dice que es simétrica (si no, se
toma como asimétrica).
El CA dividido por una función del tamaño de la muestra que cumple que, cuando los
datos proceden de una población simétrica, oscila entre ±2
Un conjunto de datos se dice que es leptocúrtico (agudos) si presenta valores
concentrados alrededor de la media con mayor frecuencia de la que cabría esperar para
unos datos normales que tuvieran la misma desviación estándar. Eso significa que hay
valores extremos de peso muy importante.
Se llama Planicúrticos (planos) si valores alejados de la media aparecen con una
frecuencia mayor de la que cabría esperar si los datos siguieran una distribución normal con
la misma desviación estándar.
Así como la leptocurtosis estaba asociada a la presencia de datos anómalos, una
planicurtosis excesiva puede revelar que los datos han sido artificialmente censurados para
eliminar los valores considerados extremos. Una distribución normal, es mesocúrtica.
Curtosis
Medidas de simetría y curtosis
Coeficiente de curtosis
Curtosis
Medidas de simetría y curtosis
Es el coeficiente entre el promedio (dividiendo por N-1) de las cuartas potencias de las
desviaciones respecto a la media y la desviación típica elevada a 4.
4
1
4
1
)(
S
n
xx
CC
n
i i
−
−
=
 =
En datos que siguen exactamente una distribución normal el CC resulta igual a 3.
Por tanto un conjunto de datos será
1.leptocúrtico si CC>3
2.planicúrtico si CC<3
3.mesocúrtico si CC= 3
Obviamente, cuanto más difiere de 3 el coeficiente CC, más acusada es la característica
de curtosis correspondiente.
Coeficiente de curtosis estandarizado
Curtosis
Medidas de simetría y curtosis
Se utiliza para cuantificar si un conjunto de datos presenta mucho o poco grado de
curtosis.
)(nf
CC
CCEST =
El CC dividido por un coeficiente tal que, para un conjunto de datos que presenten una
curtosis razonable (que no se consideren lepto o planicúrticos), CCEST está entre -2 y
+2.
Un diagrama (traducido literalmente “caja-bigote” ) es una representación gráfica
sencilla de un conjunto de datos. Representa, frente a un histograma, la ventaja de no
exigir un número elevado de datos para su construcción, además de resultar más
sencillo su manejo cuando el objetivo es comparar distintos grupos de datos.
1. La “caja” comprende el 50% de los valores centrales de los datos,
extendiéndose entre el primer cuartil y el tercer cuartel. La limitan los
cuartiles.
2. La línea central corresponde a la mediana.
3. Los “bigotes” se extienden desde el mínimo al máximo de los valores
observados y considerados “normales”.
4. Aquellos valores extremos que difieren del cuartil más próximo en más
de 1.5 veces el intervalo intercuartílico, se grafican como puntos aislados
por considerar que pueden corresponder a datos anómalos. Tales puntos
se toman como sospechosos.
Diagrama
Diagramas de Box-Whisker
Diagrama
Diagramas de Box-Whisker
Valor 
anormal
Valor 
mínimo
Valor Q1 Valor 
Mediana
Valor 
anormal
Valor 
máximo
Valor Q3
VER EXCEL

Continuar navegando