Vista previa del material en texto
Análisis Estad́ıstico Test de hipótesis UTDT November 17, 2020 Test de hipótesis Introducción Un parámetro puede ser estimado a partir de una muestra por un solo número (estimación puntual) un intervalo de valores posibles (intervalo de confianza). Frecuentemente el objetivo de una investigación no es estimar el parámetro sino decidir cuál de dos afirmaciones excluyentes sobre el parámetro es verdadera. ¿Está cargada la moneda? Ejemplo (moneda) Queremos determinar si una moneda está cargada. Tiramos n = 24 veces la moneda y obtenemos 15 caras. 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 1 0 0 1 0 1 1 1 Consideramos la variable aleatoria X = ”cantidad de caras en n repeticiones” ∼ Bin(n, p) ¿Es suficiente evidencia para concluir que la moneda estaba cargada? ¿Está cargada la moneda? Ejemplo (moneda) ¿Qué proporción de caras esperaŕıamos obtener si la moneda fuera justa? ¿obtendremos ese valor en cada experimento? ¿es 15 un valor posible si la moneda es justa? ¿es 15 un valor extraño de obtener si la moneda es justa? Si hubiéramos obtenido 23 caras en las 24 tiradas, ¿tendŕıamos evidencia más fuerte para apoyar nuestra sospecha? Queremos decidir entre dos hipótesis excluyentes que compiten: Hipótesis nula, H0: la moneda es justa, Hipótesis alternativa, H1: la moneda favorece la cara. Planteo de hipótesis Hipótesis Las hipótesis estad́ısticas son afirmaciones sobre el valor de un parámetro, o valores de varios parámetros. Planteo de hipótesis La hipótesis nula muchas veces codifica el ‘status quo’: 1 La droga que estamos probando no tiene efecto sobre la presión arterial. 2 La poĺıtica pública que se implementó no tuvo efecto sobre la tasa de desempleo. 3 El nuevo proceso de producción no mejora la productividad. 4 La moneda que estamos testeando es una moneda normal, balanceada. En estos casos, hipótesis alternativa codifica un ‘descubrimiento’, informalmente, que encontramos algo nuevo que no sabiamos antes. Planteo de hipótesis Por esta razón la carga de la prueba cae sobre la hipótesis alternativa H1. Hablaremos de rechazar o no rechazar la hipótesis nula H0. Cuando no podemos rechazar la nula, no es que aceptamos que vale la alternativa, simplemente decimos que no hay evidencia para rechazar H0. Planteo de hipótesis Ejemplo (moneda) Enunciamos las hipótesis en términos de parámetros poblacionales. H0: p = 1/2 H1: p > 1/2 Planteo de hipótesis Rechazaremos la hipótesis nula en favor de la alternativa cuando observemos una muestra que es dif́ıcil de esperar si la hipótesis nula es cierta y que apoya la hipótesis alternativa. 1 ¿Qué esperamos de una muestra cualquiera cuando H0 es cierta? (anterior a tomar una muestra). 2 La muestra que observamos, ¿resulta muy extraña si H0 es cierta? 3 Si la muestra observada es poco esperable bajo H0, ¿favorece H1? Hipótesis alternativa y región de rechazo Un test está especificado por: 1 el estad́ıstico del test, una función de la muestra sobre la que basaremos la decisión de rechazar o no H0. 2 una región de rechazo, el conjunto de aquellos valores del estad́ıstico del test que nos llevan a rechazar H0. La hipótesis nula es rechazada si y solo si el valor observado del estad́ıstico del test cae en la región de rechazo. Ejemplo (moneda) ¿Qué eventos consideraŕıamos como raros bajo H0? Por ejemplo, si en 24 tiradas de una moneda salen más de 18 caras. En este caso la región de rechazo R está definida por R = {X ≥ 19} Tipos de test Tipos de hipótesis Hipótesis simple: θ = θ0. Hipótesis compuesta: θ < θ0, θ > θ0, θ 6= θ0. Tipos de test Test bilateral H0: θ = θ0 H1: θ 6= θ0 Tests unilaterales H0: θ = θ0 H1: θ > θ0 H0: θ = θ0 H1: θ < θ0 Tipos de test Ejemplo (circuitos) Una empresa que fabrica circuitos integrados propone una mejora en la ĺınea de producción que disminuiŕıa la proporción de circuitos defectuosos a menos de 0.1, que es el valor actual. Contamos con una muestra de 200 circuitos producidos despues de implementar la mejora. Sea X ∼ Bin(200, p) la cantidad de circuitos defectuosos en la muestra: H0: p = 0.1 H1: p < 0.1 Si H0 es verdadera, X ∼ Bin(200; 0.1), esperamos 20 circuitos defectuosos mientras que si H1 fuera verdadera esperaŕıamos menos. Luego es razonable rechazar H0 solo si xobs es sustancialmente menor que 20. Tipos de test Ejemplo (circuitos) Por ejemplo, podŕıamos rechazar H0 si xobs ≤ 15. En este caso estad́ıstico del test: X = ∑n i=1 Xi . región de rechazo: R = {0, 1, . . . , 15}. H0 no será rechazada si xobs es 16,17, . . . , o 200. Región de rechazo y umbral de corte ¿Cómo determinamos la región de rechazo? Debemos decidir el umbral que usaremos para recharazar H0. Tipos de test Ejemplo (circuitos) Incluso si H0 : p = 0.1 fuera cierta, podŕıamos observar una muestra inusual tal que xobs = 13 de manera que H0 es rechazada erróneamente. Por otro lado, incluso cuando H1 : p < 0.1 es verdadera, una muestra inusual con xobs = 20 también conduciŕıa al error de no rechazar H0. En lugar de buscar procedimientos libres de error, debemos buscar procedimientos donde cualquier tipo de error ocurra con baja probabilidad. Tipos de error Tipos de error Podŕıamos incurrir en dos tipos de error: Rechazar H0 cuando es verdadera. No rechazar H0 cuando es falsa. Es decir, Rechazamos H0 No rechazamos H0 H0 es cierta error Tipo I no hay error H0 es falsa no hay error error Tipo II Tipos de error Tipos de error Podŕıamos incurrir en dos tipos de error: Rechazar H0 cuando es verdadera. No rechazar H0 cuando es falsa. Es decir, Rechazamos H0 No rechazamos H0 H0 es cierta α - H0 es falsa - β En muchas aplicaciones se considera más grave cometer un error de tipo I que un error de tipo II. Este es el caso, por ejemplo, cuando la hipótesis nula es que un paciente está enfermo. Un error de tipo I en este caso es decirle a una persona enferma que está sana. Tipos de error 1 La elección de una región de rechazo en particular fija tanto la probabilidad α de un error de tipo I como β, la probabilidad de un error de tipo II. 2 Si H0 especifica un solo valor para el parámetro hay un solo valor para α. Sin embargo hay un valor de β para cada valor del parámetro en la hipótesis alternativa. Tipos de error Ejemplo (monedas) Recordemos la variable X = ”la cantidad de caras al lanzar 24 veces la moneda.” Supongamos que nuestra región de rechazo es R = {X ≥ 19} α = P(error de tipo I) = P(rechazar H0 cuando es verdadera) Cuando H0 es verdadera, X ∼ Bin(24, 1/2), entonces α = P1/2(X ≥ 19) = 0.003 alpha = pbinom(18, 24, 0.5, lower.tail = FALSE) α se denomina nivel de significación del test. Tipos de error Ejemplo (moneda) β es imposible de calcular a menos que tengamos una hipótesis alternativa espećıfica. Por ejemplo, si probamos H0: p = 1/2 H1: p = 3/4 entonces, β = P(error de tipo II) = P(no rechazar H0 cuando es falsa) = P3/4(X < 19) = 0.578, porque bajo H1, X ∼ Bin(24, 3/4). Tipos de error Ejemplo (moneda) En general, β = β(q), depende del valor q en la región alternativa que evaluamos. Podŕıamos calcular para q > 1/2 β(q) = Pq(X < 19). Por ejemplo, siguiendo con n = 24: β(0.99) ≈ 10−7 β(0.51) ≈ 0.99. Esta probabilidad: Disminuye a medida que q aumenta (es más fácil detectar diferencias grandes). Disminuye a medidad que n aumenta (es más fácil detectar diferencias con muchas observaciones). Tipos de error Tipos de error ¿Cómo podemos disminuir α y β? Si el tamaño de muestra está fijo y el estad́ıstico del test ya fue elegido, entonces aumentar el tamaño de la región de rechazo para disminuir α resulta en un mayor valor de β para cualquier valor de parámetro consistente con H1. Potencia de un test Definition Se define la potencia de un test como la probabilidad de rechazar H0 cuando es falsa, es decir π = P(rechazar H0 cuando es falsa) = 1− P(no rechazar H0 cuando es falsa) = 1− β La potenciade un test mide la sensibilidad del test para detectar diferencias entre la hipótesis nula y la alternativa. Al igual que β, para hipótesis alternativas compuestas, la potencia es una función de los valores del parámetro en el espacio descripto por la hipótesis alternativa. Potencia de un test La teoŕıa de tests óptimos (que no vamos a desarrollar) busca, dado un problema de testeo, entre todos los tests de nivel al menos α el que tiene potencia más alta uniformemente en todos los valores del parámetro en el espacio descripto por la hipótesis alternativa. A este test se lo llama uniformemente más potente de nivel α. Se prioriza fijar el nivel, el error de tipo I, y después minimizar el error de tipo II (maximizar la potencia), porque, como mencionamos antes, en muchos problemas se considera más grave cometer errores de tipo I. Tipos de error Ejemplo (moneda) Bajo H1, X ∼ Bin(24, 3/4), entonces β = P(error de tipo II) = P(no rechazar H0 cuando es falsa) = P(X ≤ 18 cuando n = 24 y p = 3/4) = 0.578, Luego, π(3/4) = 1− β = 0.422. Dos enfoques diferentes Para llevar a cabo un test podemos: Prefijar el nivel de significación α. Calcular el p–valor. Fijar el nivel de significación Si queremos que la probabilidad de rechazar H0 cuando es verdadera sea α, esto nos prefijará la región de rechazo. Ejemplo (moneda) Por ejemplo, fijemos α = 0.01 nos define la región de rechazo R = {X ≥ 18} porque P1/2(X ≥ 18) = 0.01 y en este caso: Si xobs = 17 no rechazamos H0 Si xobs = 13 no rechazamos H0 Si xobs = 19 rechazamos H0 Fijar el nivel de significación Si xobs = 19 rechazamos H0 a nivel 0.01. ¿Implica esto que tenemos una probabilidad de 0.01 de haber cometido un error de tipo I? No, la probabilidad de haber cometido un error de tipo I es siempre 1 o 0, pero no sabemos cuál porque no sabemos si H0 es verdadera o falsa. Es algo similar a lo que pasa cuando se tratan de interpretar intervalos de confianza. Usar un test de nivel α nos garantiza que, si repetimos muchas veces el experimento y para que experimento tomamos la decisión de rechazar o no rechazar usando el test, en aproximadamente un α% de las repeticiones vamos a cometer un error de tipo I. p-valor Si xobs = 19 rechazamos H0 a nivel 0.01. ¿Rechazamos también a nivel 0.007? ¿Cuál es el menor nivel al que rechazamos? Cada nivel de significación nos define una región de rechazo. En general esperamos que la región de rechazo se achique a medida que disminuimos el nivel de significación. Para una muestra dada, nos podemos preguntar cuál es el menor de nivel de significación para el que se rechaza H0. p-valor Definition Supongamos que tenemos una familia de tests indexados por nivel de significación, con regiones de rechazo anidadas. Dadas observaciones, el p-valor es el menor nivel de significación para el que rechazamos H0. Si el estad́ıstico de los tests es X y las regiones de rechazon son de la forma R(c) = {X ≥ c} o de la forma R(c) = {X ≤ c} el p-valor asociado a observar X = xobs se calcula como PH0 (R(xobs)) . p-valor p-valor p-valor Informalmente, el p-valor es una medida de la evidencia en contra de H0. Cuanto menor sea el p-valor, mayor será la evidencia en contra de H0. Cuidado Un p-valor grande no es evidencia fuerte en favor de H0. El p-valor no es la probabilidad de que la hipótesis nula sea cierta. El p-valor es la probabilidad, bajo H0, de observar un valor del estad́ıstico del test igual o más extremo que el observado. p-valor p-valor Informalmente, el p-valor es una medida de la evidencia en contra de H0. Cuanto menor sea el p-valor, mayor será la evidencia en contra de H0. Cuidado Un p-valor grande no es evidencia fuerte en favor de H0. El p-valor no es la probabilidad de que la hipótesis nula sea cierta. El p-valor es la probabilidad, bajo H0, de observar un valor del estad́ıstico del test igual o más extremo que el observado. Calcular el p-valor Informalmente, con el p-valor podemos cuantificar “cuán raro” es el valor del estad́ıstico X obtenido con nuestra muestra, si H0 fuese cierta. En general se lo compara con α = 0.01 o α = 0.05: Si p-valor < α rechazamos H0. Si p-valor ≥ α no rechazamos H0. Calcular el p-valor Ejemplo (moneda) Supongamos que tiramos 24 veces la moneda y obtenemos xobs = 18 caras. Luego, p-valor = P1/2(X ≥ 18) = 0.01133. Luego, A nivel 0.05 rechazamos H0 pues 0.01133 < 0.05 A nivel 0.01 no rechazamos H0 pues 0.01133 > 0.01 Pasos para realizar un test de hipótesis usando el p-valor 1 ¿Cuáles son las hipótesis a testear? 2 ¿Qué estad́ıstico podemos usar para el test? 3 ¿Qué valores del estad́ıstico podemos esperar si H0 es cierta? 4 ¿Cuáles seŕıan valores poco probables de obtener si H0 es cierta y que apoyan la hipótesis alternativa? 5 ¿Qué valor del estad́ıstico nos da la muestra observada? 6 ¿Cuál es el p-valor para la muestra? 7 ¿Cuál es la conclusión del problema? Test binomial Test Tenemos X1, . . . ,Xn una muestra aleatoria Ber(p). Queremos testear las hipótesis: H0: p = p0 H1: p > p0 (p < p0) Estad́ıstico, X = ∑n i=1 Xi . Cuando H0 es cierta, X ∼ Bin(n, p0). Las regiones de rechazo son Alternativa Región de rechazo R H1 : p > p0 {X ≥ c} H1 : p < p0 {X ≤ c} Test binomial Ejemplo (dado) Cierto juego de mesa depende del lanzamiento de un dado y en particular de que salga el número seis. Se lanzó el dado 235 veces y se obtuvieron 51 seis. Si el dado fuera equilibrado esperaŕıamos 235/6 = 39.17 seis. Queremos testear H0: p = 1/6 H1: p > 1/6 La región de rechazo será de la forma R = {X ≥ c}. Bajo H0, X ∼ Bin(235; 1/6). El p-valor es P1/6(X ≥ 51) = 235∑ j=51 ( 235 j )( 1 6 )j ( 5 6 )235−j = 0.02654 Test para la media de una población Caso normal con varianza conocida Problema Dada una muestra aleatoria X1, . . . ,Xn ∼ N (µ, σ2) con σ conocida queremos testear H0 : µ = µ0 vs H1 : µ 6= µ0 Proponemos un test de la forma rechazo H0 ⇔ |X − µ0| ≥ k con k que verifica (hay un solo elemento en H0) α = Pµ0 ( |X − µ0| ≥ k ) Caso normal con varianza conocida Busquemos k : α = Pµ0 (|x − µ0| ≥ k) = Pµ0 ( |x − µ0| σ/ √ n ≥ k σ/ √ n ) = Pµ0 ( |Z | ≥ k σ/ √ n ) = 1− [ Φ ( k σ/ √ n ) − Φ ( − k σ/ √ n )] Despejamos k k = z1−α/2σ/ √ n Caso normal con varianza conocida Calculemos la potencia del test: π(µ) = Pµ ( |X − µ0| ≥ z1−α/2 σ√ n ) = Pµ ( X − µ0 ≥ z1−α/2 σ√ n ) + Pµ ( X − µ0 ≤ −z1−α/2 σ√ n ) = Pµ ( X − µ σ/ √ n ≥ µ0 − µ σ/ √ n + z1−α/2 ) + Pµ ( X − µ σ/ √ n ≤ µ0 − µ σ/ √ n − z1−α/2 ) = 1− Φ ( µ0 − µ σ/ √ n + z1−α/2 ) + Φ ( µ0 − µ σ/ √ n − z1−α/2 ) Caso normal con varianza conocida Observemos que aumenta cuando |µ0 − µ| aumenta aumenta cuando σ disminuye aumenta cuando n aumenta aumenta cuando α aumenta Caso normal con varianza conocida −4 −2 0 2 4 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 Figure: Función de potencia π(µ) cuando µ0 = 0. Caso normal con varianza conocida Test Queremos testear las hipótesis: H0: µ = µ0 H1: µ 6= µ0 ¿Qué estad́ıstico usamos? Z = X − µ σ/ √ n ¿Qué distribución tiene el estad́ıstico cuando H0 es cierta? Z = X − µ0 σ/ √ n ∼ N(0, 1) Rechazamos H0 si Z ≤ −z1−α/2 o si Z ≥ z1−α/2 o equivalentemente si X ≤ µ0 − z1−α/2σ/ √ n o si X ≥ µ0 + z1−α/2σ/ √ n Caso normal con varianza conocida Ejemplo (estudiantes) Consideremos la hipótesis nula de que el peso medio de estudiantes hombres de cierta universidad es 68 kilogramos, contra la alternativa de que es diferente. H0: µ = 68 H1: µ 6= 68 Supongamos α = 0.05, σ = 3.6 y n = 36. Luego, R = { X ≤ 68− 1.96 ∗ 3.6/ √ 36 } ∪ { X ≥ 68 + 1.96 ∗ 3.6/ √ 36 } = { X ≤ 66.8 } ∪ { X ≥ 69.2 } . Caso normal con varianza conocida Ejemplo (estudiantes) Supongamos que observamos xobs = 69.68. Luego, p-valor = 2P(X ≥ xobs) = 2P(X ≥ xobs cuando H0 es verdadera) = 2P(X ≥ 69.68 cuando H0 es verdadera) = 0.005. ¿Conclusión? pvalor = 2 * (1 - pnorm(69.68, 68, 3.6 / 6)) Caso normal convarianza conocida Problema Dada una muestra aleatoria X1, . . . ,Xn ∼ N (µ, σ2) con σ conocida queremos testear H0 : µ ≤ µ0 vs µ > µ0 Proponemos un test de la forma rechazo H0 ⇔ X ≥ k con k que verifica α = max µ≤µ0 Pµ(rechazar H0) = max µ≤µ0 Pµ(X ≥ k) Caso normal con varianza conocida Busco k Pµ(X ≥ k) = P ( X − µ σ/ √ n ≥ k − µ σ/ √ n ) = 1− Φ ( k − µ σ/ √ n ) ︸ ︷︷ ︸ función creciente en µ Entonces α = max µ≤µ0 ( 1− Φ ( k − µ σ/ √ n )) = 1− Φ ( k − µ0 σ/ √ n ) Despejamos k k = µ0 + z1−α σ√ n Entonces el test rechaza H0 cuando X − µ0 σ/ √ n ≥ z1−α Caso normal con varianza conocida Calculemos la función de potencia del test π(µ) = Pµ ( X ≥ µ0 + z1−ασ/ √ n ) = Pµ ( X − µ σ/ √ n ≥ µ0 − µ σ/ √ n + z1−α ) = 1− Φ ( µ0 − µ σ/ √ n + z1−α ) Entonces π(µ) = 1− Φ ( µ0 − µ σ/ √ n + z1−α ) Caso normal con varianza conocida Observemos que Si aumenta α aumenta la potencia Si aumenta µ aumenta la potencia Si aumenta n aumenta la potencia Si se reduce σ aumenta la potencia Caso normal con varianza conocida −4 −2 0 2 4 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 Figure: Función de potencia π(µ). Caso normal con varianza conocida Test Queremos testear las hipótesis: H0: µ ≤ µ0 H1: µ > µ0 ¿Qué estad́ıstico usamos? Z = X − µ0 σ/ √ n Rechazamos H0 si Z ≥ z1−α, es decir si X ≥ µ0 + z1−ασ/ √ n . Caso normal con varianza conocida Ejemplo (pintura) El tiempo de secado de un tipo de pintura bajo condiciones espećıficas se distribuye normalmente con media 75 min y desv́ıo estándar 9 min. Se diseño un aditivo qúımico para disminuir el tiempo de secado. Se cree que el tiempo de secado con este aditivo también se distribuye de manera normal con σ = 9. Sea µ el tiempo de secado medio cuando el aditivo es usado. La hipótesis son H0 : µ = 75 H1 : µ < 75 Caso normal con varianza conocida Ejemplo (pintura) La región de rechazo debe ser de la forma X ≤ k Si fijamos de antemano α = 0.01 entonces rechazamos H0 si Z < zα = −z1−α o equivalentemente si X ≤ µ0 − z1−ασ/ √ n . Para una muestra de tamaño n = 25 nos queda R = { X ≤ 70.8 } Observemos que α se calcula usando la distribución bajo H0 mientras que para el cálculo de β necesitamos conocer la distribución del estad́ıstico del test cuando H0 es falsa. Caso normal con varianza conocida Ejemplo (pintura) Para este test, solo el 1% de todas las muestras llevarán a rechazar H0 cuando sea efectivamente cierta. β(72) = Pµ=72(error de tipo II) = Pµ=72(H0 no se rechaza) = Pµ=72(X > 70.8) = 0.7486 Porque, cuando µ = 72, X ∼ N (72; 9/ √ 25)). β(70) = 1− Φ((70.8− 70)/1.8) = 0.33 β(67) = 1− Φ((70.8− 70)/1.8) = 0.0174 Sin embargo, la probabilidad de un error de tipo II es grande cuando µ = 72 (un pequeño alejamiento de H0), un poco menor cuando µ = 70 y bastante menor cuando µ = 67 (un desv́ıo sustancial respecto de H0). Caso normal con varianza conocida Ejemplo (pintura) Caso normal con varianza conocida Ejemplo (pintura) Si hubiéramos considerado la hipótesis nula H0 : µ ≥ 75 tenemos un valor de α para cada valor de µ ≥ 75: α(75), α(75.8), α(76.5), . . . Es fácil ver que α(75) es el mayor de los errores de tipo I. En general el peor escenario ocurre en el borde. Tamaño de muestra ¿Cuánto debeŕıa ser el tamaño de muestra para lograr una buena potencia del test para α fijo y una alternativa espećıfica fija? Supongamos que queremos testear: H0: µ = µ0 H1: µ > µ0 con un nivel de significación α cuando conocemos σ. Tamaño de muestra Para una alternativa espećıfica µ = µ0 + δ,10.6 Elección del tamaño de la muestra para la prueba de medias 351 Bajo la hipótesis alternativa μ = μ 0 + δ, el estadístico X̄ − (μ0 + δ) σ/ √ n es la variable normal estándar Z. Por lo tanto, β = P Z < a − μ0 σ/√n − δ σ/√n = P Z < zα − δ σ/√n , de donde concluimos que −zβ = zα − δ √n σ , y, en consecuencia, Elección del tamaño de la muestra: n = (zα + zβ )2σ 2 δ 2 , un resultado que también es verdadero cuando la hipótesis alternativa es μ < μ 0 . En el caso de una prueba de dos colas obtenemos la potencia 1 – β para una alter- nativa específica cuando n ≈ (zα/ 2 + zβ )2σ2 δ 2 . Ejemplo 10.7: Suponga que deseamos probar la hipótesis H 0 : μ = 68 kilogramos, H 1 : μ > 68 kilogramos, para los pesos de estudiantes hombres en cierta universidad usando un nivel de signifi- cancia α = 0.05 cuando se sabe que σ = 5. Calcule el tamaño muestral que se requiere si la potencia de nuestra prueba debe ser 0.95 cuando la media real es 69 kilogramos. x a +μ0 0 δ αβ Figura 10.14: Prueba de μ = μ 0 contra μ = μ 0 + δ. la potencia del test es π(µ0+δ) = Pµ=µ0+δ ( X ≥ µ0 + z1−ασ/ √ n ) = Pµ=µ0+δ(Z ≥ −δ √ n/σ+z1−α) Tamaño de muestra ¿De qué tamaño debeŕıa ser la muestra para que nuestro test tenga una potencia 1− β? 1− β = π(µ0 + δ) = Pµ=µ0+δ(Z ≥ −δ √ n/σ + z1−α) Entonces, β = Pµ=µ0+δ(Z ≤ −δ √ n/σ + z1−α) y por lo tanto −δ √ n/σ + z1−α = zβ ⇒ n = (z1−β + z1−α) 2σ2 δ2 Test de hipótesis para muestras grandes (niveles de significación asintóticos) Nivel de significación asintótico Definition Una sucesión de tests de nivel αn tiene nivel de significación asintótico α si αn → α cuando n→∞. Vamos a ver como construir tests de nivel aśıntotico para una media, sin asumir normalidad ni varianzas conocidas, o para una proporción, basandonos en el Teorema Central del Ĺımite. Test asintótico para la media Test Queremos testear las hipótesis: H0: µ = µ0 H1: µ 6= µ0 ¿Qué estad́ıstico usamos? Z = (X − µ)/(S/ √ n). ¿Qué distribución tiene el estad́ıstico cuando H0 es cierta? Por el TCL y Slutzky, Z = (X − µ0)/(S/ √ n) a∼ N (0, 1) Rechazamos H0 si Z ≤ −z1−α/2 o si Z ≥ z1−α/2 o equivalentemente si X ≤ µ0 − z1−α/2S/ √ n o si X ≥ µ0 + z1−α/2S/ √ n Test asintótico para la media Ejemplo (máquina de café El volumen de café producido con cada uso de cierta máquina de café es una variable aleatoria con media µ ∈ R. La máquina se considera bien calibrada si el volumen esperado es de 260 mL, es decir si µ = 260. Para determinar si la máquina necesita recalibrarse, se plantea el contraste de hipótesis H0 : µ = 260 H1 : µ 6= 260 Los resultados de una muestra aleatoria de los volúmenes (mL) de café producido en 1200 usos de la máquina son x = 257.19, s2 = 442.36. Realizar un test con un nivel de significación asintótico de α = 0.05. Test asintótico para la media Ejemplo (máquina de café Para contruir el test asintótico, nos basamos en el estad́ıstico Z = X n − 260 S/ √ n Definimos la región de rechazo como R = { Z ≤ −z1−α/2 } ∪ { Z ≥ z1−α/2 } Como vimos, este test tiene el nivel de significación asintótico deseado porque, suponiendo que H0 es verdadera, µ = 260. Luego, por TCL y Slutzky Z d→ N (0, 1) Lo que implica que P(Z ∈ R)→ α si H0 es cierta. Test asintótico para la media Ejemplo (máquina de café A partir de los datos de la muestra: z = 257.19− 260√ 442.36/1200 ≈ −4.63 −z1−α/2 = −z0.975 ≈ −1.96. Como −4.63 ≤ −1.96, el estad́ıstico está en la región de rechazo: rechazamos H0. Es decir, hay suficiente evidencia de que la máquina de café necesita recalibrarse. Test asintótico para una proporción Proporción Queremos testear las hipótesis: H0: p = p0 H1: p 6= p0 (p < p0, p > p0) ¿Qué estad́ıstico usamos? Z = ( X − p ) / √ p0(1− p0)/n. ¿Qué distribución tiene el estad́ıstico cuando H0 es cierta? Por el TCL, Z = (X − p0)/ √ p0(1− p0)/n a∼ N (0, 1) Rechazamos H0 si Alternativa Región de rechazo H1 : p > p0 z ≥ z1−α H1 : p < p0 z ≤ −z1−α H1 : p 6= p0 z ≥ z1−α/2 o z ≤ −z1−α/2 Test asintótico para una proporción Ejemplo (hamburguesas veganas) En un cierto mercado, estudios mostraron que la proporción de consumidores de hamburguesas que consideran a la hamburguesa vegana como parte de su dieta se mantuvo estable en los últimos años, en 17%. Para intentar aumentar esta poporción, una firma llevó a cabo una campaña publicitaria por unos meses. Tras lacampaña, se realizó un nuevo estudio con una muestra aleatoria representativa del mercado de consumidores de hamburguesas y 843 encuestados. De estos, 153 respondieron que consideran a la hamburguesa vegana como parte de su dieta. ¿Sugieren los resultados que la proporción de consumidores de este mercado que incorporan a la hamburguesa vegana en su dieta es ahora mayor a 17%? Para responder, realizar un test de hipótesis asintótico de nivel α = 0.1. Test asintótico para una proporción Ejemplo (hamburguesas veganas) Si llamamos p a la proporción poblacional de consumidores de hamburguesas veganas, las hipótesis a contrastar son: H0 : p = 0.17 H1 : p > 0.17 Sea X n la proporción de consumidores de hamburguesas veganas en la muestra. Armamos el test a partir del estad́ıstico Z = X n − 0.17√ 0.17(1− 0.17)/n Suponiendo que la muestra es iid y que H0 es verdadera, Z converge en distribución a N (0, 1) (TCL), por lo que la región de rechazo R = {Z ≥ z1−α} define un test de nivel de significación asintótico α. Test asintótico para una proporción Ejemplo (hamburguesas veganas) A partir de los datos de la muestra: z = 153/843− 0.17√ 0.17(1− 0.17)/843 ≈ 0.89 z1−α = z0.9 ≈ 1.28. Como 0.89 < 1.28, el estad́ıstico está fuera de la región de rechazo: no rechazamos H0. Es decir, no hay suficiente evidencia para afirmar que la proporción de consumidores de hamburguesas veganas aumentó. Test de Wald Vamos una forma general de construir un test asintótico, el Test de Wald. Problema Dada una muestra aleatoria X1, . . . ,Xn ∼ F (x ; θ) con F ∈ F = {F (x ; θ) : θ ∈ Θ ⊂ R} Queremos contrastar H0 : θ = θ0 vs H1 : θ 6= θ0 (θ > θ0, θ < θ0) Test de Wald Test de Wald Queremos testear H0: θ = θ0. H1: θ 6= θ0. Si θ̂ es asintóticamente normal y tenemos una estimación consistente de la varianza asintótica V (θ). Por ejemplo, supongamos que V (θ̂n) es consistente para V (θ). √ n θ̂ − θ0√ V (θ̂) d−→ N (0, 1) Dado α > 0 el test de Wald rechaza H0 cuando |W | > z1−α/2 donde W = √ n(θ̂ − θ0)√ V (θ̂) Test de Wald Test de Wald Más generalmente, rechazamos H0 si Alternativa Región de rechazo H1 : θ > θ0 w ≥ z1−α H1 : θ < θ0 w ≤ −z1−α H1 : θ 6= θ0 w ≥ z1−α/2 o w ≤ −z1−α/2 También se llama Test de Wald al test basado en Ŵ = √ n(θ̂ − θ0)√ V (θ0) , es decir, que no estima la varianza asintótica, sino que usa el valor de la misma bajo la nula. Las dos alternativas son igualmente válidas Test de Wald Theorem Asintóticamente, el test de Wald para H0 : θ = θ0 vs H1 : θ 6= θ0 tiene nivel α, esto es, P(|W | ≥ z1−α/2)→ α. Un resultado análogo vale para las otras alternativas. Proof. Bajo H0 sabemos que √ n ( θ̂ − θ0 ) √ V (θ̂) d−→ N (0, 1) Luego, si llamamos Z ∼ N (0, 1) tenemos que P(|W | ≥ z1−α/2) = P (√ n|θ̂ − θ0|/ √ V (θ̂) ) d−→ P(|Z | ≥ z1−α/2) = α Test de Wald Theorem La potencia del test de Wald para H0 : θ = θ0 vs H1 : θ 6= θ0 que tiene nivel α, es aproximadamente 1− Φ ( θ0 − θ V (θ)/ √ n + z1−α/2 ) + Φ ( θ0 − θ V (θ)/ √ n − z1−α/2 ) para tamaños de muestra grandes. Observación Qué implica este resultado sobre los tests de Wald basados en el estimador de máxima verosimilitud? Test de Wald Example Consideremos el problema 13 del TP5. Dar la región de rechazo del test de Wald de nivel 1% para la hipótesis H0 : β(θ) = 1/2 vs H1 : β(θ) 6= 1/2. Qué decisión se toma para los datos que se observan según el item 5? Repetir el análisis para la hipótesis H0 : β(θ) = 1/2 vs H1 : β(θ) > 1/2. Se podŕıa haber analizado este problema sin suponer el modelo exponencial para los datos? Relación con intervalos de confianza (Wald) Theorem (Intervalo de confianza) El test de Wald de nivel α rechaza H0 : θ = θ0 en favor de H1 : θ 6= θ0 si y solo si θ0 /∈ C donde Cn = ( θ̂ − z1−α/2V ( θ̂ ) ; θ̂ + z1−α/2V ( θ̂ )) Testear la hipótesis es equivalente a ver si el valor del parámetro en la hipótesis nula pertenece al intervalo de confianza. Relación con intervalos de confianza Dado un test de nivel α para las hipótesis H0 : θ = θ0 vs H1 : θ 6= θ0 y una muestra X, llamemos C (X) a aquellos valores poblacionales θ0 para lo cuales el test evaluado en la muestra X rechazaŕıa H0. Es decir, C (X) = {θ̃ : no rechazo H0 : θ = θ̃ para la muestra X} (es un conjunto aleatorio porque depende de la muestra). Vemos que Pθ0 (θ0 ∈ C (X)) = Pθ0 (no rechazo H0) = 1− Pθ0 (rechazo H0) = 1− α Entonces C (X) es una región de confianza de nivel 1− α obtenida a partir de invertir el test. Tests asintóticos Test de Wald