Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
El Modelo Clásico Pruebas de Hipótesis Luis Frank Depto. Métodos Cuantitativos Facultad de Agronoḿıa Universidad de Buenos Aires Abril, 2022 El estad́ıstico de Wald La prueba t de Student Bondad de ajuste Intervalos de confianza y predicción Apéndice A. Pruebas de hipótesis: pruebas parciales Apéndice B. Tipoloǵıa de las pruebas de hipótesis El estad́ıstico de Wald Teorema (Distribución del estad́ıstico de Wald) Dado un vector aleatorio θ̂ de dimensión p × 1, distribuido θ̂ ∼ N[θ, var(θ̂)], el estad́ıstico de Wald asociado a θ̂ se distribuye (θ̂ − θ)′ [ var(θ̂) ]−1 (θ̂ − θ) ∼ χ2(p). Demostración. (a) Llamemos A = var(θ̂) y d = (θ̂ − θ). A es una matriz simétrica positiva definida, de modo que admite la descomposición A = A1/2A1/2, donde A1/2 es una matriz única, simétrica y positiva definida. Consecuentemente, (θ̂ − θ)′ [ var(θ̂) ]−1 (θ̂ − θ) = (A−1/2d)′(A−1/2d). El estad́ıstico de Wald (cont.) Demostración (cont.) donde A−1/2d se distribuye A−1/2d ∼ N(0, Ip), ya que E ( A−1/2d ) = A−1/2E ( θ̂ − θ ) = 0 var ( A−1/2d ) = ( A−1/2A1/2 )( A1/2A−1/2 ) = Ip. y A−1/2d es una combinación lineal de v .a. normales. (b) Dada una sucesión de p v .a. normal estándar, el teorema de Cochran z21 + · · ·+ z2p ∼ χ2(p). Luego, (A−1/2d)′(A−1/2d) ∼ χ2(p). El estad́ıstico de Wald (cont.) En vista de este teorema, podemos construir un estad́ıstico de Wald bajo la hipótesis (nula) Rβ = r, de modo que θ = r, θ̂ = Rb y var(θ̂) = R var(b)R′ = σ2R(X′X)−1R′ Luego, λ|X = (Rb− r)′ [ σ2R(X′X)−1R′ ]−1 (Rb− r)/q [(n − k)s2/σ2] /(n − k) . Mediante algunas cancelaciones obtenemos λ|X = 1 q (Rb− r)′ [ s2R(X′X)−1R′ ]−1 (Rb− r) ∼ F(q,n−k), (1) donde s2 es un estimador insesgado de σ2, i.e. e′e/(n − k). El estad́ıstico de Wald (cont.) Recordemos que ▶ el cociente de dos v .a. independientes distribuidas χ2 divididas por sus g.l. se distribuye F(ν1;ν2). ▶ la condición de independencia queda demostrada por el teorema de Craig que establece que z′Az y z′Bz son independientes si y sólo si AB = 0. Rb− r = R [ β + (X′X)−1X′ϵ− β ] = RGϵ var(Rb− r) = var(RGϵ) = RGvar(ϵ)G′R′ = σ2RGG′R′ Luego, el numerador de λ se puede escribir( ϵ σ )′ G′R′ [ (RG)(RG)′ ]−1 RG ( ϵ σ ) y por lo tanto el producto AB es G′R′[(RG)(RG)′]1RG(I− XG) = G′R′ [ (RG)(RG)′ ]1 RG − G′R′[(RG)(RG)′]1RGXG = 0 El estad́ıstico de Wald (cont.) Ejemplo 1. Retomemos la función de demanda de importaciones. Vamos a probar la “significatividad global” del modelo. H0 : [ 0 1 0 0 0 1 ] β1β2 β3 = [ 0 0 ] , H1 : [ 0 1 0 0 0 1 ] [ β1 β2 ] ̸= [ 0 0 ] Calculamos el estad́ıstico de prueba λ asociadoa esta prueba λ|X = (Rb)′ [ R(X′X)−1R′ ]−1 Rb/q e′e/(n − k) = 0, 0832 0, 0005 = 151, 92 < F(0,95;2,1) = 199, 50 y por lo tanto no rechazamos H0. El modelo no es “significativo”. El estad́ıstico de Wald (cont.) Ejemplo 1 (cont.). No conformes con el resultado anterior, realizamos pruebas individuales sobre cada coeficiente. Por ejemplo, el estad́ıstico λ para la hipótesis nula β2 = 0 es H0 : [ 0 1 0 ] β1β2 β3 = 0, H1 : [ 0 1 0 ] β1β2 β3 ̸= 0 λ|X = (Rb)′ [ R(X′X)−1R′ ]−1 Rb/q e′e/(n − k) = b22 s2 R(X′X)−1R′ = 0, 2923 0, 0099 = 29, 66 El estad́ıstico t = √ λ = 5, 45 por lo cual rechazamos H0. ¿Cómo se explica esta contradicción en los resultados? El estad́ıstico de Wald (cont.) Consideremos dos modelos, uno reducido y otro completo. y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In) y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In) Una forma alternativa del estad́ıstico λ para probar H0: Rβ = 0 (el modelo reducido es verdadero) es λ|X = (e′ReR − e′CeC )/q e′CeC/(n − k) ∼ F(q,n−k) (2) donde eR y eC son los residuos del modelo reducido y completo, respectivamente. Nótese que a paertir de la expresión anterior (ver apéndice) se obtiene la interesante relación λ|X = (R2C − R2R)/q (1− R2C )/(n − k) . (3) La prueba t de Student Un caso de especial importancia es el de la prueba de hipótesis parcial sobre un solo parámetro βj . En este caso, q = 1 y R es un vector fila del tipo R = [0 . . . 1 . . . 0], por lo cual la expresión λ se reduce a λ|X = (bj − r) [ s(bj) 2 ]−1 (bj − r) o en forma equivalente a λ|X = ( (bj − r)/σbj√ [s2(n − k)/σ2]/(n − k) )2 , igual al cociente de dos v .a. independientes, una N(0, 1) en el numerador y otra χ2(n − k) dividida por sus grados de libertad. El estadśtico √ λ se distribuye, si la hipótesis Rβ − r es cierta, √ λq=1 ∼ t(n − k). (4) La prueba t de Student (cont.) A partir de los resultados precedentes es posible plantear intervalos de confianza para cada uno de paraámetros βj P [ bj − t(1−α/2,n−k)s(bj) < r < bj + t(1−α/2,n−k)s(bj) ] = 1− α donde r es el valor que toma βj bajo la hipótesis nula. Nótese que el estad́ıstico t tiende a z cuando n → ∞ por lo cual para n suficientemente grande podemos plantear el intervalo aproximado P [ bj − z(1−α/2)s(bj) < r < bj + z(1−α/2)s(bj) ] ≈ 1− α. Los estad́ısticos de prueba propuestos más arriba a partir de bOLS son válidos también para bML. Sin embargo, se requiere que s 2 sea un estimador insesgado de σ2. Bondad de ajuste Escribamos la SC e′e en términos de y y Xb e′e = y′y− 2y′Xb+ b′X′Xb = y′y− 2(b′X′ + e′)Xb+ b′X′Xb = y′y− b′X′Xb ya que X′e = 0. Reordenando términos tenemos y′y = b′X′Xb+ e′e, lo que significa que la SC total (SCT) puede descomponerse en una SC del modelo (SCM) y una SC de los residuales (SCE). Si pre-multiplicamos el modelo muestral por (In − J/n), donde J = 11′, ( In − 1 n J ) y = ( In − 1 n J ) Xb+ ( In − 1 n J ) e. Bondad de ajuste (cont.) la descomposición anterior es y′ ( In − 1 n J ) y = b′X′ ( In − 1 n J ) Xb+ e′e (5) recordando que (In − J/n)e = e. Definimos ahora el coeficiente de determinación múltiple como el cociente entre la SCM y la SCT. R2 = b′X′ (In − J/n)Xb y′ (In − J/n) y o, en forma equivalente, R2 = 1− e ′e y′(In − J/n)y = ŷ′(In − J/n)ŷ y′(In − J/n)y . (6) Bondad de ajuste (cont.) Nótese que al aumentar la cantidad de variables incluidas en el modelo la SCT no cambia, no aśı la SCM y la SCE. Es por ello que se utiliza el R2 ajustado, R2adj = 1− e′e/(n − k) y′(In − J/n)y/(n − 1) = 1− n − 1 n − k ( 1− R2 ) . Es frecuente presentar las distintas SC en una tabla de ANOVA. Fuente SC g.l. CM Estad. F Regresión b′X′(In − J/n)Xb k − 1 SCM/(k − 1) CMM/ Residuales e′e n − k SCE/(n − k) CME Total y′(In − J/n)y n − 1 SCT/(n − 1) Intervalos de predicción Llamemos x0 a un nuevo vector de datos (reales o hipotéticos) e ŷ0 a la predicción ŷ0 = x′0b. El vector x0 no pertenece a la matriz X original por lo cual ŷ0 es condicional tanto a X como en x0. Proposición Bajo los supuestos del modelo clásico, las distribución de probabilidad de la predicción media ŷ0 y de una nueva observación y0 son, respectivamente, ŷ0|X, x0 ∼ N [ x′0β, σ 2 x′0(X ′X)−1x0 ] (7) y y0|X, x0 ∼ N { x0β, σ 2 [ 1 + x′0(X ′X)−1x0 ]} . (8) Intervalos de predicción (cont.) Demostración. Tanto la observación y0 como la predicción media ŷ0 son combinaciones lineales de una v .a. normal por lo cual tinen también distribución normal con parámetros (a) para la predicción media ŷ0 E (ŷ0|X, x0) = x′0β + x0(X′X)−1X′E (ϵ|X, x0) = x′0β var(ŷ0|X, x0) = x′0(X′X)−1X′ E (ϵϵ′|X, x0)X(X′X)−1x0 = σ2 x′0(X ′X)−1x0. (9) (b) para una nueva observación E (y0|X, x0) = x′0β + E (ϵ0|X, x0) = x′0β var(y0|X, x0) = E { [y0 − E (y0|X, x0)] [y0 − E (y0|X, x0)]′ |X, x0 } = E (e20 |X, x0) Intervalos de predicción (cont.) Demostración (cont.) donde E (e20 |X, x0) es la varianza del error de predicción, y var(e0|X, x0) = var [ ϵ0 − x′0(X′X)−1X′ϵ|X, x0 ] = var(ϵ0|X) + var [ x′0(X ′X)−1X′ϵ|X ] = σ2 [ 1 + x′0(X ′X)−1x0 ] , (10) visto que la cov [ϵ0, x′0(X ′X)−1X′ϵ|X] = 0 porque los errores ϵi son independientes. Conociendo ambas distribuciones podemos plantear un intervalos de predicción para ŷ0 y y0. P ( θ̂ − z1−α/2 √ var(θ) ≤ θ ≤ θ̂ + z1−α/2 √ var(θ) ) = 1− α Intervalos depredicción (cont.) o bien P ( θ̂ − t1−α/2, n−k √ v̂ar(θ) ≤ θ ≤ θ̂ + t1−α/2, n−k √ v̂ar(θ) ) = 1− α. donde reemplazamos σ2 por su estimador s2. θ̂, θ y var(θ̂) son ▶ ŷ0, E (ŷ0) y var(ŷ0), respectivamente, para la predicción media; ▶ y0, E (y0) y var(y0) respectivamente, para una nueva observación. Apéndice A. Pruebas de hipótesis: pruebas parciales Nos interesa ahora probar hipótesis del tipo H0: Rβ = 0 para q < k . Consideremos para ello dos modelos, uno reducido y otro completo y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In) y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In) Según H0 el modelo reducido es verdadero. El estimador OLS del modelo completo se obtiene a partir de[ X′1X1 X ′ 1X2 X′2X1 X ′ 2X2 ] [ bC1 bC2 ] = [ X′1y X′2y ] . (11) Surge de la primera ecuación que la solución para bC1 es bC1 = (X ′ 1X1) −1X′1y− (X′1X1)−1X′1X2bC2 donde el primer término del lado derecho es el estimador bR1 . Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.) El vector de residuales que surge de ajustar el modelo completo es eC = y− X1bC1 − X2bC2 = y− X1bR1 +M1X2bC2 − X2bC2 donde M1 = X1(X ′ 1X1) −1X′1 y y− X1bR1 es eR , de modo que eR = eC + (In −M1)X2bC2 (12) lo cual implica que la suma de cuadrados e′ReR es e′ReR = e ′ CeC + (X2b C 2 ) ′(In −M1)X2bC2 . (13) donde los productos cruzados se cancelan porque X′1eC = 0. La expresión (13) conduce a una importante conclusión: e′ReR ≥ e′CeC . Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.) Esta desigualdad prueba también que la inclusión en el modelo de variables superfluas reduce la SCE. Por otra parte, sabiendo que R(X′X)−1R′ = [ X′2(In −M1)X2 ]−1 , y RbC = bC2 , donde R = [0, Ik−m] podemos escribir la forma alternativa de λ λ|X = (e′ReR − e′CeC )/q e′CeC/(n − k) ∼ F(q,n−k) (14) Esta versión de λ es la que se conoce como “estad́ıstico de Wald”. A partir de (14) se obtiene la interesante relación λ|X = (R2C − R2R)/q (1− R2C )/(n − k) (15) Apéndice A. Reducción de la SCE Conviene hacer aqúı una breve digresión para introducir una nueva notación. Llamemos R(β1,β2) = b ′ CX ′XbC a la suma de cuadrados del modelo (SCM) completo y R(β1) = ( X1b R 1 )′ X1b R 1 a la SCM reducido. La diferencia entre ambas es la reducción en la SCE (o el incremento en la SCM) debida a la introducción en el modelo de X2: R(β2|β1) = R(β2,β1)− R(β1), donde R(β2|β1) es exactamente igual e′ReR − e′CeC . Si agregáramos al modelo un tercer conjunto de variables, la reducción adicional en la SCE debida a X3 seŕıa R(β3|β1,β2) = R(β1,β2β3)− R(β1,β2). Apéndice A. Pruebas parciales y secuenciales Para cada reducción adicional es posible probar la hipótesis βm = 0 recurriendo al estad́ıstico de Wald. Supongamos que nos interesa probar si la reducción al introducir la j-ésima variable xj es o no igual a 0. El estad́ıstico λ es λ|Xj = R(βj |β1, . . . , βj−1, βj+1, . . . , βk) e′e/(n − k) ∼ F(1,n−k). Este tipo de pruebas se denomina prueba parcial del coeficiente de regresión βj . Otro posible curso de acción seŕıa probar la relevancia de cada variable introduciéndolas de a una por vez, en cuyo caso el estad́ıstico de prueba es λ|Xj = R(βj |β1, . . . , βj−1) e′e/(n − k) ∼ F(1,n−k). Este tipo de pruebas se denomina prueba secuencial de los coeficiente de regresión. Apéndice B. Tipoloǵıa de las pruebas de hipótesis Las SC han sido tipificadas por SAS en 3 tipos: Tipo I. Los parámetros se prueban secuencialmente siguiendo el orden dado en el modelo. El inconveniente de estas pruebas es que (a) arrojan distintos resultados según del orden en que el parámetro fue introducido en el modelo; (b) para cada prueba H0: βj = 0 se impone impĺıcitamente la restricción βj+1 = · · · = βk = 0; en modelos con interacción esto implica que es imposible probar hipótesis sobre los efectos principales sin restringir los de interacción a cero y viceversa. (c) el orden de las variables en el modelo lleva impĺıcita una priorización o jerarquización de las mismas. Las pruebas secuenciales son las únicas en las que las R(.) suman exactamente la SCE del modelo, es decir R(β) = R(β0) + R(β1|β0) + R(β2|β0, β1) + . . . Apéndice B. Tipoloǵıa de las pruebas de hipótesis (cont.) Tipo II. Se prueba cada parámetro luego de considerar todos los demás pero excluyendo aquellos términos que contienen la variable de interés. En el siguiente modelo, por ejemplo, yi = β0 + β1xi1 + β2xi2 + β3xi1xi2 + ϵi se prueban R(β0|β1, β2, β3), R(β1|β0, β2), R(β2|β0, β1) y R(β3|β0). Tipo III. Se prueba cada parámetro βj como si su variable asociada xj hubiese sido introducida última en el modelo. En el ejemplo anterior se prueban R(β0|β1, β2, β3), R(β1|β0, β2, β3), R(β2|β0, β1, β3) y R(β3|β0, β1, β2). R(β) ̸= R(β0|β1, . . . , βk) + · · ·+ · · ·+ R(βk |β1, . . . , βk−1), Lógicamente, para el k-ésimo parámetro, la reducción en las pruebas I y III es exactamente igual. El estadístico de Wald La prueba t de Student Bondad de ajuste Intervalos de confianza y predicción Apéndice A. Pruebas de hipótesis: pruebas parciales Apéndice B. Tipología de las pruebas de hipótesis
Compartir