Logo Studenta

Pruebas de Hipótesis Estadística

¡Este material tiene más páginas!

Vista previa del material en texto

Lectura 15: Prueba de hipótesis
Estadística
Mayo 19, 2015
1. Pruebas de hipótesis
En muchas situaciones, el conocimiento de los parámetros de una distribución de pro-
babilidad no es el objetivo de un estudio estadístico, pero si lo puede ser el análisis de una
hipótesis. En este caso, el ingeniero o estadístico realiza una hipótesis o conjetura acerca de
su sistema o problema particular que deberá aceptar o rechazar basado en la información
que posee.
En esta lectura estudiaremos algunos de los procedimientos a realizar al momento de
aceptar o rechazar una hipótesis. Dado que la información disponible no es más que una
muestra (aleatoria) de la población, las conclusiones que se pueden obtener de estos proce-
dimientos tienen un nivel de confianza, generalmente del 90% o 95% y nunca del 100%.
Para contextualizar un poco, imaginemos que en un control de calidad, un ingeniero tiene
la hipótesis de que la fracción de dispositivos defectuosos p es 0.1. El experimento consiste
entonces en probar 100 dispositivos, y se detectó que 12 de ellos resultaron defectuosos. Este
resultado no conlleva a rechazar la hipótesis elaborada por el ingeniero ya que 0.12 no está
muy alejado de 0.1. Es posible que si se hubieran encontrado 15 defectuosos, tampoco se
hubiera rechazado la hipótesis. Sin embargo, se por ejemplo se encontraran 20 defectuosos,
la hipótesis debe rechazarse. La razón es que si efectivamente p = 0.01, entonces la proba-
bilidad de encontrar 20 o más dispositivos defectuosos puede ser muy baja. En conclusión,
1
rechazar una hipótesis implica que hay una probabilidad pequeña de obtener la
información de la muestra cuando la hipótesis es cierta.
2. Hipótesis nula e hipótesis alternativa
Generalmente, la hipótesis que deseamos probar es denotada por H0 y se denomina
la hipótesis nula. Rechazar H0 usualmente conlleva a la aceptación de una hipótesis
alternativa, denotada por H1. Esta representa la pregunta a responder o la teoría a ser
probada. Sin embargo, debe ser formulada de manera que rechazar H0 responda a dicha
pregunta o pruebe la teoría.
Por ejemplo, si un ingeniero desea probar que un nuevo material conductor puede soportar
altas corrientes, entonces debe formular H0 de la forma “el nuevo material conductor no
puede soportar altas corrientes.” La razón para esto es porque el estudio estadístico puede
controlar el nivel de error cuando se rechaza H0. Cuando no hay evidencia estadística para
rechazar H0, entonces se dice que no se puede rechar H0 por insuficiente evidencia en los
datos.
Volvamos a ilustrar el ejemplo del juicio presentado el primer día del curso. En éste
planteábamos que un juez debe determinar si un sospechoso de cometer un crimen es culpable.
Para esto, entonces
H0 : el defendido es inocente,
H1 : el defendido es culpable.
El objetivo entonces es probar que con las pruebas se puede condenar al sospechoso. Por
lo tanto, se desear rechazar H0. Sin embargo, si la evidencia es insuficiente para rechazar H0,
tampoco se puede decir concluir que es inocente.
2
3. Errores en pruebas de hipótesis
Las pruebas de hipótesis son empleadas para tomar decisiones (rechazar o no). Sin em-
bargo, cuando la decisión tomada es incorrecta, aparecen dos tipos de errores:
(i) Error tipo I: Cuando se rechaza la hipótesis nula (H0) siendo cierta.
(ii) Error tipo II: Cuando no se rechaza la hipótesis nula (H0) siendo falsa.
El objetivo es entonces diseñar una prueba (o test) de manera que las probabilidades de
cometer ambos errores sean lo menor posible y así tomar decisiones acertadas. En general,
en pruebas de hipótesis pueden resultar cuatro situaciones que son mostradas en la Tabla 1.
H0 es cierta H0 es falsa
Rechazar H0 Error Tipo I Decisión correcta
No rechazar H0 Decisión correcta Error Tipo II
Cuadro 1: Posibles situaciones
A la probabilidad de cometer un error tipo I se le conoce como el nivel de significatividad,
y es denotado por α. Y a la probabilidad de cometer un error tipo II se le denota por
β. Aunque lo ideal sería que un test garantizara que ambos errores fueran mínimos, los
procedimientos de pruebas de hipótesis son diseñados de manera que el error tipo I sea
pequeño; y el error tipo II es imposible de controlar. Como medida alternativa, lo que se
puede hacer para garantizar que ambos errores sean pequeños es incrementar el tamaño de
la muestra.
Ejemplo 1. (Problema 10.17 de [2]). Un nuevo proceso de curado desarrollado para cierto
tipo de cemento resultó en un esfuerzo medio de 5000 kilogramos por centímetro cuadrado
con una desviación estándar de 120 kilogramos. Para probar la hipótesis que µ = 5000 vs la
alternativa que µ < 5000, una muestra aleatoria de 50 piezas de cemento fueron testeadas.
Se diseñó un test que rechaza la hipótesis nula cuando x̄ < 4970.
(a) Encuentre la probabilidad de cometer un error de tipo I cuando H0 es cierta.
3
(b) Evalue β para las alternativas µ = 4970 y µ = 4960.
A partir de este momento nos dedicaremos a exponer algunos de los métodos tradicionales
para hacer pruebas de hipótesis. Dada las restricciones de tiempo con que contamos en este
curso, nos enfocaremos en las pruebas concernientes a la media y a las pruebas de bondad
de ajuste.
Definición Estadística de prueba [1]. Considere que la información disponible corres-
ponde a una muestra X1, X2, . . . , Xn. Una estadística de prueba es cualquier función T =
h(X1, X2, . . . , Xn) usada para determinar si se rechaza o no H0.
4. Pruebas relacionados con la media
Esta prueba está diseñada para evaluar hipótesis acerca de la media de una población.
4.1. Prueba de la media (varianza conocida)
En este caso se supone que la muestra aleatoria X1, X2, . . . , Xn proviene de una distri-
bución con media µ y varianza σ2.
Prueba de dos lados (two-sided test)
Considere la hipótesis
H0 : µ = µ0
H1 : µ 6= µ0
Dado que esta prueba tiene que ver con la media µ, la estadística de prueba a usar es la
media de la muestra conocida como X̄. Como es sabido, X̄ no solo es una variable aleatoria
4
sino que también sabemos por el Teorema del Límite Central que tiene aproximadamente
una distribución normal con media µ y varianza σ2/n.
Para rechazar H0, resulta natural emplear una estadística de prueba basada en la media.
Sabemos entonces que si H0 no es cierta, es porque la media calculada de la muestra x̄
tampoco está “cerca” de µ0; puede ser mayor o menor que µ0.
Considere la variable aleatoria normal estandarizada Z
Z =
X̄ − µ0
σ/
√
n
.
Si H0 es cierta, es decir, µ = µ0, entonces Z ∼ N(0, 1). Por lo tanto, sabemos que
P
(
−zα/2 <
√
n
X̄ − µ0
σ
< zα/2
)
= 1− α
donde zα/2 = Φ−1(α/2). Recuerde que α es la probabilidad de cometer error tipo I y por lo
tanto deber ser pequeño.
Si la muestra recogida x1, x2, . . . , xn no favorece a H0, se tiene entonces que x̄ es muy
diferente de µ0. Luego, z es “mucho” mayor que cero o “mucho” menor que cero. El qué tanto
x̄ tiene que ser diferente de cero se controla por el nivel de significancia de la prueba α.
Por lo tanto, si queremos rechazar H0 garantizando una probabilidad de cometer error
tipo I menor a α, necesitamos entonces que
z =
x̄− µ0
σ/
√
n
> zα/2, o z =
x̄− µ0
σ/
√
n
< −zα/2
Si −zα/2 < z < zα/2, no podemos rechazar H0. La región de rechazo indica entonces que
la probabilidad de que cometamos un error tipo I es α cuando en realidad H0 es cierta, i.e.,
µ = µ0.
Ejemplo 2. (Problema 10.21 de [2].) Una firma eléctrica manufactura focos cuya vida útil
tiene una distribución aproximadamente normal con una media de 800 horas y desviación
estándar de 40 horas. Pruebe la hipótesis que µ = 800 horas vs la alternativa µ 6= 800 horas,
5
si una muestra aleatoria de 30 focos tiene una vida útil media de 788 horas. Use un p-valor
en su respuesta.
Solución. Tenemos que
H0 :µ = 800
H1 :µ 6= 800
Y la región de rechazo de H0 está dada por
|z| =
∣∣∣∣ x̄− µ0σ/√n
∣∣∣∣ > zα/2
Tenemos que x̄ = 788, σ = 40, n = 30, µ0 = 800. Entonces determinamos
|z| =
∣∣∣∣788−80040/√30
∣∣∣∣ = |−1,64| = 1,64
Si usamos un nivel de significancia del 5%, tenemos que z,025 = 1,96. Luego, dado que 1.64
<1.96, no podemos rechazar H0. Si queremos determinar el p-valor entonces computamos
p-valor = P (|Z| > 1,64) = 2 (1− P (Z ≤ 1,64)) = 2 (1− ,9498) = 0,1003.
p-valor = .1003 significa que hay una probabilidad de .1003 de que se observe una desviación
de la media muestral de 12 horas (con respecto a µ = 800horas) cuando efectivamente la
media µ = 800, la cual es relativamente alta. Por eso no podemos rechazar la hipótesis con
el 5% de significancia. Si p-valor fuera menor a 0.05 si lo hubiéramos podido hacer.
Prueba de un lado (one-sided test)
Considere la hipótesis
6
H0 : µ = µ0
H1 : µ > µ0
Para favorecer H1, necesitamos que la media de la muestra calculada x̄ sea grande. En
realidad, entre más “lejos” (por la derecha) esté de µ0, menor probabilidad de cometer error
tipo I.
Si H0 es cierta, tenemos entonces que
P
(√
n
X̄ − µ0
σ
> zα
)
= α
resulta ser la probabilidad de cometer error tipo I. Por lo tanto, la región de rechazo de H0
es
z =
x̄− µ0
σ/
√
n
> zα
Si z < zα, no podemos rechazar H0.
Cuando consideramos la hipótesis
H0 : µ = µ0
H1 : µ < µ0
la región de rechazo cambia porque para favorecerH1, necesitamos que la media de la muestra
calculada x̄ sea pequeña. Entre más “lejos” (por la izquiera) esté de µ0, menor probabilidad
de cometer error tipo I. Por lo tanto, la región de rechazo sería
7
z =
x̄− µ0
σ/
√
n
< −zα
Si z > −zα, no podemos rechazar H0.
Ejemplo 3. (Ejemplo 10.3 de [2].) Una muestra aleatoria de datos de 100 muertes en los
Estados Unidos en el año pasado mostró un promedio de vida de 71.8 años. Asumiendo una
desviación estándar de la población de 8.9 años, esto parece indicar que el tiempo medio de
vida is mayor a 70 años? Use un nivel de significancia de 0.05.
Solución. Tenemos que hacer el test para probar las siguientes hipótesis:
H0 :µ = 70
H1 :µ > 70
Y la región de rechazo de H0 está dada por
z =
x̄− µ0
σ/
√
n
> zα
Tenemos que x̄ = 71,8, σ = 8,9, n = 100, µ0 = 70. Para un nivel de significancia de 0.05
tenemos que zα = 1.645. Entonces determinamos
z =
71,8− 70
8,9/
√
100
= 2,022 > 1,645
Dado que 2.022 >1.645, rechazamos H0 con el 5% de significancia. Si queremos determinar
el p-valor entonces computamos
p-valor = P (Z > 2,022) = 1− P (Z ≤ 2,022) = 1− ,9784 = 0,0216.
p-valor = .0216 significa que de 100 veces, solo 2 veces se puede observar una media mayor a
71.8 cuando efectivamente la media µ = 70. Por eso rechazamosH0 con el 5% de significancia.
8
4.2. Pruebas sobre la media con σ2 desconocida
En este tipo de pruebas, la media µ y la varianza σ2 son desconocidos. Por lo tanto,
la estadística z usada en las pruebas anteriores no es válida en este caso. Usaremos la dis-
tribución t-Student. Sin embargo, esta distribución ha sido desarrollada asumiendo que la
muestra X1, X2, . . . , Xn proviene de una distribución normal donde µ y σ2 son desconocidos.
Para el cálculo de la nueva estadística de prueba usaremos la varianza muestral S2 en vez
de σ2.
Similar a la variable normal estandarizada z, la nueva variable aleatoria definida como
Tn−1 =
X̄ − µ
S/
√
n
tiene una distribución t-Student con n − 1 grados de libertad. La estructura de todas las
pruebas mostradas anteriormente es la misma, excepto que la estadística de prueba zα/2 se
cambiará por tα/2,n−1 y zα por tα,n−1.
Prueba de dos lado (two-sided test)
Para la hipótesis
H0 : µ = µ0
H1 : µ 6= µ0,
rechazamos H0 con un nivel de significancia α cuando la estadística calculada
|t| =
∣∣∣∣ x̄− µ0s/√n
∣∣∣∣ > tα/2,n−1
9
Prueba de un lado (one-sided test)
Cuando consideramos la hipótesis alternativa H1 : µ > µ0, rechazamos H0 si t = x̄−µ0s/√n >
tα,n−1. Para la hipótesis alternativa H1 : µ < µ0, rechazamos H0 si t < −tα,n−1.
Ejemplo 4. (Problema 10.23 de [2].) Pruebe la hipótesis de que el contenido promedio de
contenedores de un lubricante particular es 10 litros si los contenidos de una muestra aleatoria
de 10 contenedores son 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3, y 9.8 litros. Use 0.01
como nivel de significancia y asuma que la distribución de los contenidos es normal.
Solución. Tenemos que hacer el test para probar las siguientes hipótesis:
H0 :µ = 10
H1 :µ 6= 10
Y la región de rechazo de H0 está dada por
|tv| =
∣∣∣∣ x̄− µ0s/√n
∣∣∣∣ > tv,α
Como observamos, tenemos los datos de la muestra normal Aquí no tenemos σ sino
que calcularemos la desviación estándar muestral s para los datos. Tampoco usamos la
distribución normal sino la t-Student con v = n− 1 grados de libertad.
Para los datos mostrados, tenemos que x̄ =10.06 litros y s = .2459 litros. Dado que
n = 10, entonces v = 9. Con un 0.01 de nivel de significancia tenemos de tabla que t9,,01/2 =
3,250. Entonces calculamos
|tv| =
∣∣∣∣ 10,06− 10,2459/√10
∣∣∣∣ = ,772 < t9,,01
Dado que .772 <3.250, no podemos rechazar H0 con el 1% de significancia. Si queremos
10
determinar el p-valor entonces computamos
p-valor = P (|T9| > ,772) = 2 (1− P (T9 ≤ ,772)) = 2 (1− ,77) = ,46
p-valor = .46 significa que de 100 veces, 46 veces se puede observar una desviación de la
media mayor a .06 litros cuando efectivamente la media µ = 10 litros. Como ésta es una
proporción alta, no podemos rechazar H0 con el 1% de significancia.
Ejemplo 5. (Problema 10.25 de [2].) Se cree que los automóviles recorren más de 20,000
kilómetros al año en promedio. Para probar esta creencia, 100 dueños de automóviles son
seleccionados aleatoriamente para pedirles que hagan un registro de los kilómetros recorridos
que hacen. Estaría usted de acuerdo con esta creencia si la muestra aleatoria presenta un
promedio de 23,500 kilómetros y una desviación estándar de 3,900 kilómetros? Use un nivel
de significancia de 1%.
5. Pruebas de bondad de ajuste
En lo visto hasta el momento, nos hemos preocupado por evaluar hipótesis acerca de la
media de una población en diferentes casos. Sin embargo, los ingenieros nos vemos enfrenta-
dos frecuentemente a situaciones donde conocemos los datos de una muestra pero no sabemos
cuál distribución los genera. Por lo tanto, es muy útil en la práctica contar con métodos que
nos permitan determinar si los datos que tenemos se ajustan o no a una distribución en
particular.
Aunque existen varias pruebas de bondad de ajuste en la literatura, en esta sección nos
enfocaremos en una de las más populares que se denomina prueba Kolomogorov-Smirnov, o
simplemente prueba KS.
11
Prueba Kolomogorov-Smirnov
Considere una muestra aleatoria X1, X2, . . . , Xn independiente e identicamente distribui-
da, pero su distribución P es desconocida. Entonces nos interesa probar la hipótesis que P
es igual a una distribución particular P0, es decir,
H0 : P = P0
H1 : P 6= P0
Para hacer la prueba de bondad de ajuste, la función de distribución acumulada (cdf)
empírica S(x) de la muestra debe ser comparada con la función de distribución acumula-
da (cdf) teórica F0(x) para determinar si ésta es la verdadera distribución de la muestra
aleatoria.
Definición. Sea X1, X2, . . . , Xn una muestra aleatoria. La función de distribución empírica
S(x) es una función de x, y es igual a la fracción de los xi’s que son menores a x para cada
x ∈ <, i.e.,
S (x) =
1
n
n∑
i=1
I{xi≤x}.
Considere entonces la prueba
H0 : F (x) = F0 (x)
H1 : F (x) 6= F0 (x)
La estadística de prueba es la máxima distancia vertical entre S(x) y F0(x). Matemáti-
camente:
Dn = sup
x
|F0(x)− S(x)|
Debemos rechazar H0 al nivel de significancia α si Dn excede el 1−α quantil, usualmente
denominado Dα,n. La distribución de Dn es independiente de la distribución hipotética.
12
0.3 0.4 0.5 0.6 0.7
0.
2
0.
4
0.
6
0.
8
1.
0
x
F
(x
)
Empirica
Ajuste Unif(0,1)
Figura 1: Ajuste mediante Unif(0, 1)
Los quantiles Dα,n son obtenidos por tabla o simulación. Cuando H0 no se puede rechazar,
entonces se acepta.
Ejemplo 6. Sean los siguientes datos: 0.58, 0.42, 0.52, 0.33, 0.43, 0.23, 0.58,0.76, 0.53,
0.64. Pruebe la hipótesis de que dichos datos corresponden a una muestra aleatoria de una
distribución uniforme entre 0 y 1 con un nivel de significancia de 0.01.
La Fig. 1 muestra de manera gráfica la aproximación de la población mediante una
distribución X ∼ Unif(0, 1). Allí se ilustra la distribución acumulada empírica de los datos
y la distribución acumulada hipotetizada.
Prueba Kolmogorov-Smirnov usando R
Alternativamente, la prueba de bondad de ajuste puede ser hecha apoyados por un soft-
ware como R. De hecho, podemos usar la función ks.test que nos entrega los resultados del
test. Usando R para los datos del ejemplo anterior, tenemos que:
13
ks.test(x,"punif",0,1)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.26, p-value = 0.5085
alternative hypothesis: two-sided
Observen que el valor D = .26 corresponde a la máxima distancia observada entre las
dos distribuciones. Y el p-value corresponde a la probabilidad existente a la derecha de D
usando la hipótesis nula. Es decir, es la probabilidad de observar una distancia mayor a D
cuando la hipótesis nula es cierta. Y este valor es el que usamos para tomar la decisión de
aceptar o rechazar la hipótesis nula de la siguiente manera:
Si el p-value ≥ α, entonces decimos que si es probable observar valores de la máxima
distancia de separación entre las dos distribuciones mayores a D cuando H0 es cierta. Por
lo tanto, en este caso aceptamos H0 con el nivel de significancia α. De lo contrario, si
p-value < α, rechazamos H0 con el nivel de significancia α porque decimos que es poco
probable observar valores de la máxima distancia de separación entre las dos distribuciones
mayores a D cuando H0 es cierta.
Una de las aplicaciones más importantes de las pruebas de bondad de ajuste consiste en
encontrar la distribución que mejor podría reproducir los datos observados en la muestra.
Como observamos en el ejemplo 6, es probable que otras distribuciones se acerquen más a la
distribución empírica de los datos.
Para corroborarlo, se decidió hacer la prueba con otras dos distribuciones y determinar
qué tanto pueden ajustarse a los datos. La Fig. 2 ilustra las diferentes distribuciones acu-
muladas (con sus respectivos parámetros). Observen que la distribución normal parece ser
la distribución que menos distancia muestra con la distribución empírica. Cada una de estas
tres distribuciones hipotetizadas pasa la prueba KS.
14
0.3 0.4 0.5 0.6 0.7
0.
2
0.
4
0.
6
0.
8
1.
0
x
F
(x
)
Empirica
Ajuste Unif(0,1)
Ajuste Unif(.235,.769)
Ajuste N(.502,.024)
Figura 2: Ajuste mediante diferentes distribuciones
Referencias
[1] F.M. Dekking, C. Kraaikampp, H.P. Lopuhaä, and L.E. Meester. A Modern Introduction
to Probability and Statistics: Understanding Why and How. Springer, 2005.
[2] Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, and Keying Ye. Probability &
statistics for engineers & scientists, 9th ed. Pearson, 2011.
15
	Pruebas de hipótesis
	Hipótesis nula e hipótesis alternativa
	Errores en pruebas de hipótesis
	Pruebas relacionados con la media
	Prueba de la media (varianza conocida)
	Pruebas sobre la media con 2 desconocida
	Pruebas de bondad de ajuste

Otros materiales