Logo Studenta

Tema11_AjusteDistribuciones_EDB_2016-II

¡Este material tiene más páginas!

Vista previa del material en texto

1ESTADÍSTICA BÁSICA
2ESTADÍSTICA BÁSICA
11. Ajuste de Distribuciones
360340320300280260240220
100
80
60
40
20
0
BC547B
P
o
rc
e
n
ta
je
Media 285,1
Desv.Est. 26,83
N 91
CDF empírica de BC547B
Normal 
3ESTADÍSTICA BÁSICA
Tema 11: Ajuste de Distribuciones
1. Introducción.
2. Métodos gráficos de bondad de ajuste.
3. Test ji-cuadrado de bondad de ajuste. 
4. Transformaciones que mejoran la normalidad (Box-Cox).
4ESTADÍSTICA BÁSICA
Dada una muestra de 
datos reales...
Seleccionamos el modelo cuya función de densidad 
se parezca mucho a esos datos
¿cuál es la población que los ha generado?
1. Introducción
5ESTADÍSTICA BÁSICA
¿Cómo podemos concluir que el modelo de probabilidad es 
adecuado?
Haciendo un contraste de hipótesis que valore cómo de probable es que 
cierta población haya generado unos datos como los nuestros
A simple vista…
Obtener esos datos sería muy improbable bajo el 
supuesto de que ésta es la población. NO se 
‘ajusta’ bien
Obtener esos datos no es improbable bajo 
el supuesto de que ésta es la población. 
Tiene buen ‘ajuste’
1. Introducción
6ESTADÍSTICA BÁSICA
Tema 11: Ajuste de Distribuciones
1. Introducción.
2. Métodos gráficos de bondad de ajuste.
3. Test ji-cuadrado de bondad de ajuste. 
4. Transformaciones que mejoran la normalidad (Box-Cox).
7ESTADÍSTICA BÁSICA
Vemos en primer lugar una herramienta gráfica (con ordenador)
Usemos un ejemplo:
¿Podríamos ‘ajustar’ la variable a una normal?
Ejemplo: Estamos interesados en medir la llamada ‘Ganancia en 
corriente’ (current gain) del transistor del tipo BC547B. Se 
ha tomado una muestra de 91 transistores (variable 
transistorNPN.txt).
Busca un modelo de probabilidad para esta variable.
340320300280260240
18
16
14
12
10
8
6
4
2
0
BC547B
Fr
e
c
u
e
n
c
ia
Media 285,1
Desv.Est. 26,83
N 91
Histograma (con curva normal) de BC547B
2. Métodos gráficos de bondad de ajuste
8ESTADÍSTICA BÁSICA
340320300280260240
18
16
14
12
10
8
6
4
2
0
BC547B
Fr
e
c
u
e
n
c
ia
Media 285,1
Desv.Est. 26,83
N 91
Histograma (con curva normal) de BC547B
• Si comparamos el histograma con la curva con parámetros estimados con los 
datos podemos hacernos una idea de si el modelo es adecuado. 
• Tiene la dificultad de que el aspecto del histograma cambia con el número de 
clases.
13 clases
362338314290266242218
12
10
8
6
4
2
0
BC547B
Fr
e
c
u
e
n
c
ia
Media 285,1
Desv.Est. 26,83
N 91
Histograma (con curva normal) de BC547B
20 clases
360330300270240
20
15
10
5
0
BC547B
Fr
e
c
u
e
n
c
ia
Media 285,1
Desv.Est. 26,83
N 91
Histograma (con curva normal) de BC547B
9 clases
360320280240
60
50
40
30
20
10
0
BC547B
Fr
e
c
u
e
n
c
ia
Media 285,1
Desv.Est. 26,83
N 91
Histograma (con curva normal) de BC547B
4 clases
2. Métodos gráficos de bondad de ajuste
9ESTADÍSTICA BÁSICA
Para evitar ambigüedades se usan representaciones gráficas basadas en la función de
distribución empírica. La siguiente figura muestra la función de distribución empírica de los
datos y la de la normal estimada.
360340320300280260240220
100
80
60
40
20
0
BC547B
P
o
rc
e
n
ta
je
Media 285,1
Desv.Est. 26,83
N 91
CDF empírica de BC547B
Normal 
cdf
emp.x
son muy 
similares
Para facilitar la comparación se DEFORMA la escala del eje Y de tal manera que la función 
de distribución de una normal sea una línea recta: GRAFICO DE PROBABILIDAD.
también: 
(i-0.5)/n
2. Métodos gráficos de bondad de ajuste
𝑥 1 ൗ
1
𝑛 + 1
𝑥 2 ൗ
2
𝑛 + 1
𝑥 𝑛 ൗ
𝑛
𝑛 + 1
𝑥 𝑖 ൗ
𝑖
𝑛 + 1
⋮ ⋮
⋮ ⋮
𝑥 𝑖 : i-ésimo 
dato ordenado 
de menor a 
mayor
10ESTADÍSTICA BÁSICA
380360340320300280260240220200
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
BC547B
P
o
rc
e
n
ta
je
Media 285,1
Desv.Est. 26,83
N 91
AD 0,294
Valor P 0,593
Gráfica de probabilidad de BC547B
Normal 
Gráfico de probabilidad para una distribución determinada:
Eje X: los datos
Eje Y: cdf empírica pero en una escala deformada para que la distribución 
seleccionada salga una línea recta
El ajuste a la normal es bastante bueno. Los datos están 
bastante alineados, salvo una pequeña zona (3 datos) en la cola 
de la izquierda
2. Métodos gráficos de bondad de ajuste
11ESTADÍSTICA BÁSICA
Ejemplo: El fichero TimetoFailure.txt contiene el registro de 95 
tiempos hasta fallo de un sistema informático. El Tiempo 
hasta fallo (Time to Failure –TTF-) es el tiempo (días) que 
transcurre desde que se inicia el sistema informático hasta 
que es necesario reiniciarlo por fallo o pérdida de 
rendimiento. Es un indicador de la calidad de servicio de 
dicho sistema. 
¿Podríamos ajustar la variable a una 
normal?
1209060300
25
20
15
10
5
0
tiempo
Fr
e
c
u
e
n
c
ia
Media 41,42
Desv.Est. 24,74
N 95
Histograma (con curva normal) de tiempo
1251007550250-25-50
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
tiempo
P
o
rc
e
n
ta
je
Prueba de bondad del ajuste
AD = 1,147 
Valor P = 0,005
Gráfica de probabilidad para tiempo
Normal 
¿Podemos asumir 
esta desviación?
2. Métodos gráficos de bondad de ajuste
12ESTADÍSTICA BÁSICA
Tema 11: Ajuste de Distribuciones
1. Introducción.
2. Métodos gráficos de bondad de ajuste.
3. Test ji-cuadrado de bondad de ajuste. 
4. Transformaciones que mejoran la normalidad (Box-Cox).
13ESTADÍSTICA BÁSICA
Supongamos que el histograma de un conjunto de datos sugiere que éstos pueden 
seguir cierto modelo de probabilidad. ¿Cómo puedo comparar los datos con lo que 
predice el modelo?
Contrastes de bondad de ajuste
(Goodness of fit tests)
3. Test ji-cuadrado de bondad de ajuste. 
Hipótesis nula 𝐻0: La población de la que proceden los datos 
sigue la distribución especificada
Hipótesis alternativa 𝐻1: La población de la que proceden los datos 
no sigue la distribución especificada
14ESTADÍSTICA BÁSICA
Test ji-cuadrado
• Es un método para valorar la bondad del ajuste de un modelo. 
• Es un método tanto para modelos continuos como discretos 
Comparo el histograma con la curva 
de la normal estimada
Estos datos sugieren una población normal
Con los datos estimo μ y σ²
 2ˆ ˆ¿ , ?N  
3. Test ji-cuadrado de bondad de ajuste. 
𝐻0: 𝑋 ∼ 𝑁 𝜇, 𝜎
2
𝐻1: 𝑋 ≁ 𝑁(𝜇, 𝜎
2)
15ESTADÍSTICA BÁSICA
Para cada clase del histograma:
• Contamos el número de individuos observados en dicha clase: 𝑂𝑖, 𝑖 = 1,… , 𝑘.
• Calculamos la probabilidad, de acuerdo al modelo, de estar en cada intervalo: 𝑝𝑖
• Calculamos la frecuencia esperada: 𝐸𝑖 = 𝑛𝑝𝑖 (la frecuencia esperada debe ser 
mayor que 5, en caso contrario conviene usar clases más anchas)
𝑂𝒊
𝑝𝒊
3. Test ji-cuadrado de bondad de ajuste. 
Supondremos una muestra aleatoria de tamaño 𝑛 ≥ 25 , agrupada en 𝑘 > 5
clases, cada una con un mínimo de 3 observaciones.
Nota: Es recomendable tener aproximadamente el mismo número de datos en cada clase, y que la
frecuencia esperada sea también similar, lo que nos llevaría a realizar un histograma en el que las
clases no tengan el mismo ancho. Los programas informáticos que realizan este test, suelen tener este
aspecto en cuenta. El tener clases de diferente ancho también facilita que la frecuencia observada sea
al menos 3, y la esperada mayor que 5).
17ESTADÍSTICA BÁSICA
Se demuestra que:
Si el modelo no es adecuado, 𝑋0
2 tenderá a tomar un valor grande, tal que que 
tenderá a estar en la cola de la derecha de una distribución ji-cuadrado, de k-v-1 
grados de libertad
g= grados de libertad
g=k-v-1
número de clases parámetros 
estimados
Apéndice. El test ji-cuadrado de bondad de ajuste
Si 𝑋0
2 es muy grande: mucha discrepancia entre los datos y 
lo que dice el modelo
El estadístico de contraste es 
𝑋0
2 =෍
𝑖=1
𝑘
𝑂𝑖 − 𝐸𝑖
2
𝐸𝑖
18ESTADÍSTICA BÁSICA
𝑋0
2
Modelo 
adecuado
Modelo 
inadecuado
Apéndice. El test ji-cuadrado de bondad de ajuste
𝑋0
2
19ESTADÍSTICA BÁSICA
• El ordenador (o tablas) nos calcula el área a la derecha de 𝑋0
2
• Ese árease llama p-valor (p-value)
En la práctica, si p-valor<𝛼 (usualmente 0.05) descartamos el modelo.
La diferencia observada es demasiado grande para atribuirla al azar del 
muestreo
p-valor
Apéndice. El test ji-cuadrado de bondad de ajuste
α
Región de 
rechazo
Región de 
aceptación
𝑋0
2
20ESTADÍSTICA BÁSICA
Ejemplo: Datos de resistividad de 102 resistencias similares 
¿Ajuste a una normal?
El p-valor es suficientemente grande. 
Podemos usar la normal para representar 
a la población de la que proceden estos 
datos
Resist.~N(5564;33.35)
Con los 102 datos: media muestral=5564. Desviación típica muestral=33.35
Datos
N(5564;33.35)
p-valor
Oi Ei  
2
i i
i
O E
E

𝑋0
2
21ESTADÍSTICA BÁSICA
3. Test de bondad de ajuste
1251007550250-25-50
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
tiempo
P
o
rc
e
n
ta
je
Prueba de bondad del ajuste
AD = 1,147 
Valor P = 0,005
Gráfica de probabilidad para tiempo
Normal 
¿Cuándo consideramos que los puntos están suficientemente 
alineados?
380360340320300280260240220200
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
BC547B
P
o
rc
e
n
ta
je
Media 285,1
Desv.Est. 26,83
N 91
AD 0,294
Valor P 0,593
Gráfica de probabilidad de BC547B
Normal 
Ejemplo 1: ganancia en corriente de un transistor Ejemplo 2: tiempo entre fallos de un sistema informático
Hacemos un test de bondad de ajuste
El test AD de bondad de ajuste nos dice: 
La probabilidad de que unos datos que sigan la distribución seleccionada se 
separen de la recta tanto como lo observado con nuestra muestra
• Hay muchos tests de bondad de ajuste. Algunos están especializados en algunas distribuciones
• Los más ‘populares’: Anderson-Darling (AD), ji-cuadrado (ji2), Shapiro-Wilks (SW), Kolmogorov-
Smirnov (KS).
Otros tests...
22ESTADÍSTICA BÁSICA
Tema 11: Ajuste de Distribuciones
1. Introducción.
2. Métodos gráficos de bondad de ajuste.
3. Test ji-cuadrado de bondad de ajuste. 
4. Transformaciones que mejoran la normalidad (Box-Cox).
23ESTADÍSTICA BÁSICA
Muchos datos unimodales simétricos se ajustan a una distribución normal
Sin embargo es muy frecuente encontrar datos unimodales asimétricos
Transformaremos los datos de forma que los datos transformados 
sean unimodales y simétricos
Intentamos ajustar una normal a los datos transformados
4. Transformaciones para mejorar la normalidad (Box-Cox)
24ESTADÍSTICA BÁSICA
Dados un conjunto de datos 
𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑛 estrictamente positivos con 
distribución UNIMODAL asimétrica
Buscamos una transformación 
𝑦 = ℎ(𝑥) tal que y sea más 
simétrica
Asimetrías positivas (muy frecuentes)
• Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 < 1
• En lugar de 𝜆 = 0 usamos 𝑦 = ln(𝒙)
• Estas transformaciones son no lineales pues comprimen
mucho a los datos grandes y poco a los pequeños
• Si el rango es pequeño, no funciona
x
4. Transformaciones para mejorar la normalidad (Box-Cox)
25ESTADÍSTICA BÁSICA
Buscamos una transformación 
y=h(x) tal que y sea más 
simétrica
Asimetrías positivas (muy frecuentes)
• Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 < 1
• En lugar de 𝜆 = 0 usamos 𝑦 = ln(𝒙)
• Estas transformaciones son no lineales pues
comprimen mucho a los datos grandes y poco a
los pequeños
x
x x
• Cuanto mayor sea la asimetría, necesitamos un 𝜆 menor
• ln(x) puede interpretarse como el límite de la transformación 𝑦 = 𝑥𝜆 cuando 𝜆 → 0
Dados un conjunto de datos x1, x2, x3, ..., xn
estrictamente positivos con distribución 
UNIMODAL asimétrica
4. Transformaciones para mejorar la normalidad (Box-Cox)
26ESTADÍSTICA BÁSICA
Buscamos una 
transformación y=h(x) tal 
que y sea más simétrica
Asimetrías negativas
• Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 > 1
• Estas transformaciones son no lineales pues 
expanden mucho a los datos grandes y poco a los 
pequeños
• Si el rango es pequeño no funciona
x
Dados un conjunto de datos x1, x2, x3, 
..., xn estrictamente positivos con 
distribución UNIMODAL asimétrica
4. Transformaciones para mejorar la normalidad (Box-Cox)
27ESTADÍSTICA BÁSICA
Dados un conjunto de datos x1, 
x2, x3, ..., xn con distribución 
UNIMODAL asimétrica
Buscamos una 
transformación y=h(x) tal 
que y sea más simétrica
Asimetrías negativas
• Transformaciones del tipo 𝑦 = 𝑥𝜆; 𝜆 > 1
• Estas transformaciones son no lineales pues 
expanden mucho a los datos grandes y poco a los 
pequeños
• Si el rango es pequeño no funciona
x
Cuanto mayor sea la asimetría, necesitamos un 𝜆 mayor
x1,5 x2
4. Transformaciones para mejorar la normalidad (Box-Cox)
28ESTADÍSTICA BÁSICA
Buscamos transformaciones del tipo 
con m tal que x+m>0
4. Transformaciones para mejorar la normalidad (Box-Cox)
No obstante, existen otras versiones de esta transformación. que se diferencian sólo en
un factor, por lo que no afectan a la forma de la distribución transformada. Si 𝜆 < 0 los
datos transformados invierten su orden. Por ejemplo, si 𝜆 = −1 es fácil ver que 𝑥 =
1,2,3 → 𝑦 = {1,0.5,0.33} . Para evitar este efecto, existe una versión de esta
transformación Box-Cox que realiza la siguiente transformación:
𝑦 = ൞
𝑥 + 𝑚 𝜆 − 1
𝜆
, si 𝜆 ≠ 0
ln(𝑥), 𝑠𝑖 𝜆 = 0
𝑦 = ൝
𝑥 + 𝑚 𝜆, si 𝜆 ≠ 0
ln(𝑥), 𝑠𝑖 𝜆 = 0
Esta transformación preserva el orden de los datos transformados. Se puede
comprobar que, con 𝜆 = −1, 𝑥 = 1,2,3 → 𝑦 = {0,0.5,0.667}. Por lo que el orden de los
datos se conserva.
29ESTADÍSTICA BÁSICA
RESUMEN
Pasos:
1. Sumamos una cantidad m a los datos tal que los haga estrictamente positivos.
2. En función de la asimetría buscamos el valor 𝝀 que haga la distribución lo más
simétrica posible. Nos ayudamos del histograma y de algún test de ajuste a la normal.
Muchos programas estadísticos buscan el 𝝀 óptimo de forma automática.
3. Comprobamos si hemos conseguido un ajuste a la normal con un contraste de 
bondad de ajuste.
4. Si obtenemos normalidad, podemos calcular probabilidades en 𝑋 aprovechando la 
normalidad en 𝑌 de la siguiente forma (dependiendo de la versión de la transf. Box-Cox que usemos):
Asimetría positiva → 𝝀 < 𝟏
Simetría→ 𝝀 = 𝟏
Asimetría negativa→ 𝝀 > 𝟏
𝑃 𝑋 > 𝑎 = ൝
𝑃 𝑦 > 𝑎 + 𝑚 𝜆 ; si 𝜆 ≠ 0
𝑃 𝑦 > ln 𝑎 +𝑚 ; 𝑠𝑖 𝜆 = 0
30ESTADÍSTICA BÁSICA
Ejemplo: Aplicación a los datos de ganancia en corriente de los transistores
0,250,240,230,220,21
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
BC547B
P
o
r
c
e
n
t
a
je
Prueba de bondad del ajuste
AD = 0,268 
Valor P = 0,678
Gráfica de probabilidad para BC547B
Después de la transformación de Box-Cox (lambda = -0,26)
Normal 
380360340320300280260240220200
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
BC547B
P
o
r
c
e
n
t
a
je
Media 285,1
Desv.Est. 26,83
N 91
AD 0,294
Valor P 0,593
Gráfica de probabilidad de BC547B
Normal 
El fabricante asegura que la ganancia en corriente se encuentra en el 
margen [200-450]. ¿Qué proporción de la producción cumplirá estas 
especificaciones?
4. Transformaciones para mejorar la normalidad (Box-Cox)
31ESTADÍSTICA BÁSICA
Ejemplo: Aplicación a los datos de tiempo hasta fallo en un sistema 
informático
14121086420
99,9
99
95
90
80
70
60
50
40
30
20
10
5
1
0,1
tiempo
P
o
rc
e
n
ta
je
Prueba de bondad del ajuste
AD = 0,524 
Valor P = 0,177
Gráfica de probabilidad para tiempo
Después de la transformación de Box-Cox (lambda = 0,5)
Normal 
4. Transformaciones para mejorar la normalidad (Box-Cox)
32ESTADÍSTICA BÁSICA
El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable
Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es
representativa del parque automovilístico total, ¿qué porcentaje de vehículos
tiene un precio superior a 9000 unidades?
Ejercicio
33ESTADÍSTICA BÁSICA
El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable
Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es
representativa del parque automovilístico total, ¿qué porcentaje devehículos tiene
un precio superior a 9000 unidades?
Ejercicio
El histograma presenta una 
clara asimetría positiva. 
Además, los tests de 
bondad de ajuste rechazan 
la normalidad
34ESTADÍSTICA BÁSICA
El fichero Cardata.txt contiene datos de una muestra de vehículos. La variable
Price tiene el precio de dichos vehículos. Asumiendo que esta muestra es
representativa del parque automovilístico total, ¿qué porcentaje de vehículos tiene
un precio superior a 9000 unidades?
Ejercicio
Para poder usar una normal hacemos la transformación 𝑦 = 𝑥𝜆; 𝜆 < 1 .
Para 𝜆 = 0.1, el histograma es bastante simétrico. El test ji-cuadrado así como otros tests de 
bondad de ajuste nos llevan asumir normalidad con esa transformación (los p-valores son 
mayores a 0.10). 
35ESTADÍSTICA BÁSICA
Ejercicio
𝜆 = 0.1
Con la normal ajustada con los datos se obtiene que 𝑌 ∼ 𝑁(2.31; 0.089842).
Por tanto
𝑃(𝑋 > 9000) = 𝑃(𝑥0.1 > 90000.1) = 𝑃(𝑦 > 2.49) = 0.025.

Continuar navegando

Materiales relacionados