Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Lectura 15: Prueba de hipótesis Estadística Mayo 19, 2015 1. Pruebas de hipótesis En muchas situaciones, el conocimiento de los parámetros de una distribución de pro- babilidad no es el objetivo de un estudio estadístico, pero si lo puede ser el análisis de una hipótesis. En este caso, el ingeniero o estadístico realiza una hipótesis o conjetura acerca de su sistema o problema particular que deberá aceptar o rechazar basado en la información que posee. En esta lectura estudiaremos algunos de los procedimientos a realizar al momento de aceptar o rechazar una hipótesis. Dado que la información disponible no es más que una muestra (aleatoria) de la población, las conclusiones que se pueden obtener de estos proce- dimientos tienen un nivel de confianza, generalmente del 90% o 95% y nunca del 100%. Para contextualizar un poco, imaginemos que en un control de calidad, un ingeniero tiene la hipótesis de que la fracción de dispositivos defectuosos p es 0.1. El experimento consiste entonces en probar 100 dispositivos, y se detectó que 12 de ellos resultaron defectuosos. Este resultado no conlleva a rechazar la hipótesis elaborada por el ingeniero ya que 0.12 no está muy alejado de 0.1. Es posible que si se hubieran encontrado 15 defectuosos, tampoco se hubiera rechazado la hipótesis. Sin embargo, se por ejemplo se encontraran 20 defectuosos, la hipótesis debe rechazarse. La razón es que si efectivamente p = 0.01, entonces la proba- bilidad de encontrar 20 o más dispositivos defectuosos puede ser muy baja. En conclusión, 1 rechazar una hipótesis implica que hay una probabilidad pequeña de obtener la información de la muestra cuando la hipótesis es cierta. 2. Hipótesis nula e hipótesis alternativa Generalmente, la hipótesis que deseamos probar es denotada por H0 y se denomina la hipótesis nula. Rechazar H0 usualmente conlleva a la aceptación de una hipótesis alternativa, denotada por H1. Esta representa la pregunta a responder o la teoría a ser probada. Sin embargo, debe ser formulada de manera que rechazar H0 responda a dicha pregunta o pruebe la teoría. Por ejemplo, si un ingeniero desea probar que un nuevo material conductor puede soportar altas corrientes, entonces debe formular H0 de la forma “el nuevo material conductor no puede soportar altas corrientes.” La razón para esto es porque el estudio estadístico puede controlar el nivel de error cuando se rechaza H0. Cuando no hay evidencia estadística para rechazar H0, entonces se dice que no se puede rechar H0 por insuficiente evidencia en los datos. Volvamos a ilustrar el ejemplo del juicio presentado el primer día del curso. En éste planteábamos que un juez debe determinar si un sospechoso de cometer un crimen es culpable. Para esto, entonces H0 : el defendido es inocente, H1 : el defendido es culpable. El objetivo entonces es probar que con las pruebas se puede condenar al sospechoso. Por lo tanto, se desear rechazar H0. Sin embargo, si la evidencia es insuficiente para rechazar H0, tampoco se puede decir concluir que es inocente. 2 3. Errores en pruebas de hipótesis Las pruebas de hipótesis son empleadas para tomar decisiones (rechazar o no). Sin em- bargo, cuando la decisión tomada es incorrecta, aparecen dos tipos de errores: (i) Error tipo I: Cuando se rechaza la hipótesis nula (H0) siendo cierta. (ii) Error tipo II: Cuando no se rechaza la hipótesis nula (H0) siendo falsa. El objetivo es entonces diseñar una prueba (o test) de manera que las probabilidades de cometer ambos errores sean lo menor posible y así tomar decisiones acertadas. En general, en pruebas de hipótesis pueden resultar cuatro situaciones que son mostradas en la Tabla 1. H0 es cierta H0 es falsa Rechazar H0 Error Tipo I Decisión correcta No rechazar H0 Decisión correcta Error Tipo II Cuadro 1: Posibles situaciones A la probabilidad de cometer un error tipo I se le conoce como el nivel de significatividad, y es denotado por α. Y a la probabilidad de cometer un error tipo II se le denota por β. Aunque lo ideal sería que un test garantizara que ambos errores fueran mínimos, los procedimientos de pruebas de hipótesis son diseñados de manera que el error tipo I sea pequeño; y el error tipo II es imposible de controlar. Como medida alternativa, lo que se puede hacer para garantizar que ambos errores sean pequeños es incrementar el tamaño de la muestra. Ejemplo 1. (Problema 10.17 de [2]). Un nuevo proceso de curado desarrollado para cierto tipo de cemento resultó en un esfuerzo medio de 5000 kilogramos por centímetro cuadrado con una desviación estándar de 120 kilogramos. Para probar la hipótesis que µ = 5000 vs la alternativa que µ < 5000, una muestra aleatoria de 50 piezas de cemento fueron testeadas. Se diseñó un test que rechaza la hipótesis nula cuando x̄ < 4970. (a) Encuentre la probabilidad de cometer un error de tipo I cuando H0 es cierta. 3 (b) Evalue β para las alternativas µ = 4970 y µ = 4960. A partir de este momento nos dedicaremos a exponer algunos de los métodos tradicionales para hacer pruebas de hipótesis. Dada las restricciones de tiempo con que contamos en este curso, nos enfocaremos en las pruebas concernientes a la media y a las pruebas de bondad de ajuste. Definición Estadística de prueba [1]. Considere que la información disponible corres- ponde a una muestra X1, X2, . . . , Xn. Una estadística de prueba es cualquier función T = h(X1, X2, . . . , Xn) usada para determinar si se rechaza o no H0. 4. Pruebas relacionados con la media Esta prueba está diseñada para evaluar hipótesis acerca de la media de una población. 4.1. Prueba de la media (varianza conocida) En este caso se supone que la muestra aleatoria X1, X2, . . . , Xn proviene de una distri- bución con media µ y varianza σ2. Prueba de dos lados (two-sided test) Considere la hipótesis H0 : µ = µ0 H1 : µ 6= µ0 Dado que esta prueba tiene que ver con la media µ, la estadística de prueba a usar es la media de la muestra conocida como X̄. Como es sabido, X̄ no solo es una variable aleatoria 4 sino que también sabemos por el Teorema del Límite Central que tiene aproximadamente una distribución normal con media µ y varianza σ2/n. Para rechazar H0, resulta natural emplear una estadística de prueba basada en la media. Sabemos entonces que si H0 no es cierta, es porque la media calculada de la muestra x̄ tampoco está “cerca” de µ0; puede ser mayor o menor que µ0. Considere la variable aleatoria normal estandarizada Z Z = X̄ − µ0 σ/ √ n . Si H0 es cierta, es decir, µ = µ0, entonces Z ∼ N(0, 1). Por lo tanto, sabemos que P ( −zα/2 < √ n X̄ − µ0 σ < zα/2 ) = 1− α donde zα/2 = Φ−1(α/2). Recuerde que α es la probabilidad de cometer error tipo I y por lo tanto deber ser pequeño. Si la muestra recogida x1, x2, . . . , xn no favorece a H0, se tiene entonces que x̄ es muy diferente de µ0. Luego, z es “mucho” mayor que cero o “mucho” menor que cero. El qué tanto x̄ tiene que ser diferente de cero se controla por el nivel de significancia de la prueba α. Por lo tanto, si queremos rechazar H0 garantizando una probabilidad de cometer error tipo I menor a α, necesitamos entonces que z = x̄− µ0 σ/ √ n > zα/2, o z = x̄− µ0 σ/ √ n < −zα/2 Si −zα/2 < z < zα/2, no podemos rechazar H0. La región de rechazo indica entonces que la probabilidad de que cometamos un error tipo I es α cuando en realidad H0 es cierta, i.e., µ = µ0. Ejemplo 2. (Problema 10.21 de [2].) Una firma eléctrica manufactura focos cuya vida útil tiene una distribución aproximadamente normal con una media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis que µ = 800 horas vs la alternativa µ 6= 800 horas, 5 si una muestra aleatoria de 30 focos tiene una vida útil media de 788 horas. Use un p-valor en su respuesta. Solución. Tenemos que H0 :µ = 800 H1 :µ 6= 800 Y la región de rechazo de H0 está dada por |z| = ∣∣∣∣ x̄− µ0σ/√n ∣∣∣∣ > zα/2 Tenemos que x̄ = 788, σ = 40, n = 30, µ0 = 800. Entonces determinamos |z| = ∣∣∣∣788−80040/√30 ∣∣∣∣ = |−1,64| = 1,64 Si usamos un nivel de significancia del 5%, tenemos que z,025 = 1,96. Luego, dado que 1.64 <1.96, no podemos rechazar H0. Si queremos determinar el p-valor entonces computamos p-valor = P (|Z| > 1,64) = 2 (1− P (Z ≤ 1,64)) = 2 (1− ,9498) = 0,1003. p-valor = .1003 significa que hay una probabilidad de .1003 de que se observe una desviación de la media muestral de 12 horas (con respecto a µ = 800horas) cuando efectivamente la media µ = 800, la cual es relativamente alta. Por eso no podemos rechazar la hipótesis con el 5% de significancia. Si p-valor fuera menor a 0.05 si lo hubiéramos podido hacer. Prueba de un lado (one-sided test) Considere la hipótesis 6 H0 : µ = µ0 H1 : µ > µ0 Para favorecer H1, necesitamos que la media de la muestra calculada x̄ sea grande. En realidad, entre más “lejos” (por la derecha) esté de µ0, menor probabilidad de cometer error tipo I. Si H0 es cierta, tenemos entonces que P (√ n X̄ − µ0 σ > zα ) = α resulta ser la probabilidad de cometer error tipo I. Por lo tanto, la región de rechazo de H0 es z = x̄− µ0 σ/ √ n > zα Si z < zα, no podemos rechazar H0. Cuando consideramos la hipótesis H0 : µ = µ0 H1 : µ < µ0 la región de rechazo cambia porque para favorecerH1, necesitamos que la media de la muestra calculada x̄ sea pequeña. Entre más “lejos” (por la izquiera) esté de µ0, menor probabilidad de cometer error tipo I. Por lo tanto, la región de rechazo sería 7 z = x̄− µ0 σ/ √ n < −zα Si z > −zα, no podemos rechazar H0. Ejemplo 3. (Ejemplo 10.3 de [2].) Una muestra aleatoria de datos de 100 muertes en los Estados Unidos en el año pasado mostró un promedio de vida de 71.8 años. Asumiendo una desviación estándar de la población de 8.9 años, esto parece indicar que el tiempo medio de vida is mayor a 70 años? Use un nivel de significancia de 0.05. Solución. Tenemos que hacer el test para probar las siguientes hipótesis: H0 :µ = 70 H1 :µ > 70 Y la región de rechazo de H0 está dada por z = x̄− µ0 σ/ √ n > zα Tenemos que x̄ = 71,8, σ = 8,9, n = 100, µ0 = 70. Para un nivel de significancia de 0.05 tenemos que zα = 1.645. Entonces determinamos z = 71,8− 70 8,9/ √ 100 = 2,022 > 1,645 Dado que 2.022 >1.645, rechazamos H0 con el 5% de significancia. Si queremos determinar el p-valor entonces computamos p-valor = P (Z > 2,022) = 1− P (Z ≤ 2,022) = 1− ,9784 = 0,0216. p-valor = .0216 significa que de 100 veces, solo 2 veces se puede observar una media mayor a 71.8 cuando efectivamente la media µ = 70. Por eso rechazamosH0 con el 5% de significancia. 8 4.2. Pruebas sobre la media con σ2 desconocida En este tipo de pruebas, la media µ y la varianza σ2 son desconocidos. Por lo tanto, la estadística z usada en las pruebas anteriores no es válida en este caso. Usaremos la dis- tribución t-Student. Sin embargo, esta distribución ha sido desarrollada asumiendo que la muestra X1, X2, . . . , Xn proviene de una distribución normal donde µ y σ2 son desconocidos. Para el cálculo de la nueva estadística de prueba usaremos la varianza muestral S2 en vez de σ2. Similar a la variable normal estandarizada z, la nueva variable aleatoria definida como Tn−1 = X̄ − µ S/ √ n tiene una distribución t-Student con n − 1 grados de libertad. La estructura de todas las pruebas mostradas anteriormente es la misma, excepto que la estadística de prueba zα/2 se cambiará por tα/2,n−1 y zα por tα,n−1. Prueba de dos lado (two-sided test) Para la hipótesis H0 : µ = µ0 H1 : µ 6= µ0, rechazamos H0 con un nivel de significancia α cuando la estadística calculada |t| = ∣∣∣∣ x̄− µ0s/√n ∣∣∣∣ > tα/2,n−1 9 Prueba de un lado (one-sided test) Cuando consideramos la hipótesis alternativa H1 : µ > µ0, rechazamos H0 si t = x̄−µ0s/√n > tα,n−1. Para la hipótesis alternativa H1 : µ < µ0, rechazamos H0 si t < −tα,n−1. Ejemplo 4. (Problema 10.23 de [2].) Pruebe la hipótesis de que el contenido promedio de contenedores de un lubricante particular es 10 litros si los contenidos de una muestra aleatoria de 10 contenedores son 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3, y 9.8 litros. Use 0.01 como nivel de significancia y asuma que la distribución de los contenidos es normal. Solución. Tenemos que hacer el test para probar las siguientes hipótesis: H0 :µ = 10 H1 :µ 6= 10 Y la región de rechazo de H0 está dada por |tv| = ∣∣∣∣ x̄− µ0s/√n ∣∣∣∣ > tv,α Como observamos, tenemos los datos de la muestra normal Aquí no tenemos σ sino que calcularemos la desviación estándar muestral s para los datos. Tampoco usamos la distribución normal sino la t-Student con v = n− 1 grados de libertad. Para los datos mostrados, tenemos que x̄ =10.06 litros y s = .2459 litros. Dado que n = 10, entonces v = 9. Con un 0.01 de nivel de significancia tenemos de tabla que t9,,01/2 = 3,250. Entonces calculamos |tv| = ∣∣∣∣ 10,06− 10,2459/√10 ∣∣∣∣ = ,772 < t9,,01 Dado que .772 <3.250, no podemos rechazar H0 con el 1% de significancia. Si queremos 10 determinar el p-valor entonces computamos p-valor = P (|T9| > ,772) = 2 (1− P (T9 ≤ ,772)) = 2 (1− ,77) = ,46 p-valor = .46 significa que de 100 veces, 46 veces se puede observar una desviación de la media mayor a .06 litros cuando efectivamente la media µ = 10 litros. Como ésta es una proporción alta, no podemos rechazar H0 con el 1% de significancia. Ejemplo 5. (Problema 10.25 de [2].) Se cree que los automóviles recorren más de 20,000 kilómetros al año en promedio. Para probar esta creencia, 100 dueños de automóviles son seleccionados aleatoriamente para pedirles que hagan un registro de los kilómetros recorridos que hacen. Estaría usted de acuerdo con esta creencia si la muestra aleatoria presenta un promedio de 23,500 kilómetros y una desviación estándar de 3,900 kilómetros? Use un nivel de significancia de 1%. 5. Pruebas de bondad de ajuste En lo visto hasta el momento, nos hemos preocupado por evaluar hipótesis acerca de la media de una población en diferentes casos. Sin embargo, los ingenieros nos vemos enfrenta- dos frecuentemente a situaciones donde conocemos los datos de una muestra pero no sabemos cuál distribución los genera. Por lo tanto, es muy útil en la práctica contar con métodos que nos permitan determinar si los datos que tenemos se ajustan o no a una distribución en particular. Aunque existen varias pruebas de bondad de ajuste en la literatura, en esta sección nos enfocaremos en una de las más populares que se denomina prueba Kolomogorov-Smirnov, o simplemente prueba KS. 11 Prueba Kolomogorov-Smirnov Considere una muestra aleatoria X1, X2, . . . , Xn independiente e identicamente distribui- da, pero su distribución P es desconocida. Entonces nos interesa probar la hipótesis que P es igual a una distribución particular P0, es decir, H0 : P = P0 H1 : P 6= P0 Para hacer la prueba de bondad de ajuste, la función de distribución acumulada (cdf) empírica S(x) de la muestra debe ser comparada con la función de distribución acumula- da (cdf) teórica F0(x) para determinar si ésta es la verdadera distribución de la muestra aleatoria. Definición. Sea X1, X2, . . . , Xn una muestra aleatoria. La función de distribución empírica S(x) es una función de x, y es igual a la fracción de los xi’s que son menores a x para cada x ∈ <, i.e., S (x) = 1 n n∑ i=1 I{xi≤x}. Considere entonces la prueba H0 : F (x) = F0 (x) H1 : F (x) 6= F0 (x) La estadística de prueba es la máxima distancia vertical entre S(x) y F0(x). Matemáti- camente: Dn = sup x |F0(x)− S(x)| Debemos rechazar H0 al nivel de significancia α si Dn excede el 1−α quantil, usualmente denominado Dα,n. La distribución de Dn es independiente de la distribución hipotética. 12 0.3 0.4 0.5 0.6 0.7 0. 2 0. 4 0. 6 0. 8 1. 0 x F (x ) Empirica Ajuste Unif(0,1) Figura 1: Ajuste mediante Unif(0, 1) Los quantiles Dα,n son obtenidos por tabla o simulación. Cuando H0 no se puede rechazar, entonces se acepta. Ejemplo 6. Sean los siguientes datos: 0.58, 0.42, 0.52, 0.33, 0.43, 0.23, 0.58,0.76, 0.53, 0.64. Pruebe la hipótesis de que dichos datos corresponden a una muestra aleatoria de una distribución uniforme entre 0 y 1 con un nivel de significancia de 0.01. La Fig. 1 muestra de manera gráfica la aproximación de la población mediante una distribución X ∼ Unif(0, 1). Allí se ilustra la distribución acumulada empírica de los datos y la distribución acumulada hipotetizada. Prueba Kolmogorov-Smirnov usando R Alternativamente, la prueba de bondad de ajuste puede ser hecha apoyados por un soft- ware como R. De hecho, podemos usar la función ks.test que nos entrega los resultados del test. Usando R para los datos del ejemplo anterior, tenemos que: 13 ks.test(x,"punif",0,1) One-sample Kolmogorov-Smirnov test data: x D = 0.26, p-value = 0.5085 alternative hypothesis: two-sided Observen que el valor D = .26 corresponde a la máxima distancia observada entre las dos distribuciones. Y el p-value corresponde a la probabilidad existente a la derecha de D usando la hipótesis nula. Es decir, es la probabilidad de observar una distancia mayor a D cuando la hipótesis nula es cierta. Y este valor es el que usamos para tomar la decisión de aceptar o rechazar la hipótesis nula de la siguiente manera: Si el p-value ≥ α, entonces decimos que si es probable observar valores de la máxima distancia de separación entre las dos distribuciones mayores a D cuando H0 es cierta. Por lo tanto, en este caso aceptamos H0 con el nivel de significancia α. De lo contrario, si p-value < α, rechazamos H0 con el nivel de significancia α porque decimos que es poco probable observar valores de la máxima distancia de separación entre las dos distribuciones mayores a D cuando H0 es cierta. Una de las aplicaciones más importantes de las pruebas de bondad de ajuste consiste en encontrar la distribución que mejor podría reproducir los datos observados en la muestra. Como observamos en el ejemplo 6, es probable que otras distribuciones se acerquen más a la distribución empírica de los datos. Para corroborarlo, se decidió hacer la prueba con otras dos distribuciones y determinar qué tanto pueden ajustarse a los datos. La Fig. 2 ilustra las diferentes distribuciones acu- muladas (con sus respectivos parámetros). Observen que la distribución normal parece ser la distribución que menos distancia muestra con la distribución empírica. Cada una de estas tres distribuciones hipotetizadas pasa la prueba KS. 14 0.3 0.4 0.5 0.6 0.7 0. 2 0. 4 0. 6 0. 8 1. 0 x F (x ) Empirica Ajuste Unif(0,1) Ajuste Unif(.235,.769) Ajuste N(.502,.024) Figura 2: Ajuste mediante diferentes distribuciones Referencias [1] F.M. Dekking, C. Kraaikampp, H.P. Lopuhaä, and L.E. Meester. A Modern Introduction to Probability and Statistics: Understanding Why and How. Springer, 2005. [2] Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, and Keying Ye. Probability & statistics for engineers & scientists, 9th ed. Pearson, 2011. 15 Pruebas de hipótesis Hipótesis nula e hipótesis alternativa Errores en pruebas de hipótesis Pruebas relacionados con la media Prueba de la media (varianza conocida) Pruebas sobre la media con 2 desconocida Pruebas de bondad de ajuste
Compartir