Modelo Clássico de Teste de Hipóteses

•
SIN SIGLA

Jeronimo
21/6/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Econometría

6337 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
El Modelo Clásico
Pruebas de Hipótesis
Luis Frank
Depto. Métodos Cuantitativos
Facultad de Agronoḿıa
Universidad de Buenos Aires
Abril, 2022
El estad́ıstico de Wald
La prueba t de Student
Bondad de ajuste
Intervalos de confianza y predicción
Apéndice A. Pruebas de hipótesis: pruebas parciales
Apéndice B. Tipoloǵıa de las pruebas de hipótesis
El estad́ıstico de Wald
Teorema (Distribución del estad́ıstico de Wald)
Dado un vector aleatorio θ̂ de dimensión p × 1, distribuido
θ̂ ∼ N[θ, var(θ̂)], el estad́ıstico de Wald asociado a θ̂ se distribuye
(θ̂ − θ)′
[
var(θ̂)
]−1
(θ̂ − θ) ∼ χ2(p).
Demostración.
(a) Llamemos A = var(θ̂) y d = (θ̂ − θ). A es una matriz
simétrica positiva definida, de modo que admite la
descomposición A = A1/2A1/2, donde A1/2 es una matriz
única, simétrica y positiva definida. Consecuentemente,
(θ̂ − θ)′
[
var(θ̂)
]−1
(θ̂ − θ) = (A−1/2d)′(A−1/2d).
El estad́ıstico de Wald (cont.)
Demostración (cont.)
donde A−1/2d se distribuye A−1/2d ∼ N(0, Ip), ya que
E
(
A−1/2d
)
= A−1/2E
(
θ̂ − θ
)
= 0
var
(
A−1/2d
)
=
(
A−1/2A1/2
)(
A1/2A−1/2
)
= Ip.
y A−1/2d es una combinación lineal de v .a. normales.
(b) Dada una sucesión de p v .a. normal estándar, el teorema de
Cochran z21 + · · ·+ z2p ∼ χ2(p). Luego,
(A−1/2d)′(A−1/2d) ∼ χ2(p).
El estad́ıstico de Wald (cont.)
En vista de este teorema, podemos construir un estad́ıstico de Wald
bajo la hipótesis (nula) Rβ = r, de modo que θ = r, θ̂ = Rb y
var(θ̂) = R var(b)R′ = σ2R(X′X)−1R′
Luego,
λ|X =
(Rb− r)′
[
σ2R(X′X)−1R′
]−1
(Rb− r)/q
[(n − k)s2/σ2] /(n − k)
.
Mediante algunas cancelaciones obtenemos
λ|X = 1
q
(Rb− r)′
[
s2R(X′X)−1R′
]−1
(Rb− r) ∼ F(q,n−k), (1)
donde s2 es un estimador insesgado de σ2, i.e. e′e/(n − k).
El estad́ıstico de Wald (cont.)
Recordemos que
▶ el cociente de dos v .a. independientes distribuidas χ2
divididas por sus g.l. se distribuye F(ν1;ν2).
▶ la condición de independencia queda demostrada por el
teorema de Craig que establece que z′Az y z′Bz son
independientes si y sólo si AB = 0.
Rb− r = R
[
β + (X′X)−1X′ϵ− β
]
= RGϵ
var(Rb− r) = var(RGϵ) = RGvar(ϵ)G′R′ = σ2RGG′R′
Luego, el numerador de λ se puede escribir( ϵ
σ
)′
G′R′
[
(RG)(RG)′
]−1
RG
( ϵ
σ
)
y por lo tanto el producto AB es
G′R′[(RG)(RG)′]1RG(I− XG) = G′R′
[
(RG)(RG)′
]1
RG
− G′R′[(RG)(RG)′]1RGXG = 0
El estad́ıstico de Wald (cont.)
Ejemplo 1. Retomemos la función de demanda de importaciones.
Vamos a probar la “significatividad global” del modelo.
H0 :
[
0 1 0
0 0 1
] β1β2
β3
 = [ 0
0
]
, H1 :
[
0 1 0
0 0 1
] [
β1
β2
]
̸=
[
0
0
]
Calculamos el estad́ıstico de prueba λ asociadoa esta prueba
λ|X =
(Rb)′
[
R(X′X)−1R′
]−1
Rb/q
e′e/(n − k)
=
0, 0832
0, 0005
= 151, 92 < F(0,95;2,1) = 199, 50
y por lo tanto no rechazamos H0. El modelo no es “significativo”.
El estad́ıstico de Wald (cont.)
Ejemplo 1 (cont.). No conformes con el resultado anterior,
realizamos pruebas individuales sobre cada coeficiente. Por
ejemplo, el estad́ıstico λ para la hipótesis nula β2 = 0 es
H0 :
[
0 1 0
]  β1β2
β3
 = 0, H1 : [ 0 1 0 ]
 β1β2
β3
 ̸= 0
λ|X =
(Rb)′
[
R(X′X)−1R′
]−1
Rb/q
e′e/(n − k)
=
b22
s2 R(X′X)−1R′
=
0, 2923
0, 0099
= 29, 66
El estad́ıstico t =
√
λ = 5, 45 por lo cual rechazamos H0. ¿Cómo
se explica esta contradicción en los resultados?
El estad́ıstico de Wald (cont.)
Consideremos dos modelos, uno reducido y otro completo.
y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In)
y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In)
Una forma alternativa del estad́ıstico λ para probar H0: Rβ = 0
(el modelo reducido es verdadero) es
λ|X =
(e′ReR − e′CeC )/q
e′CeC/(n − k)
∼ F(q,n−k) (2)
donde eR y eC son los residuos del modelo reducido y completo,
respectivamente. Nótese que a paertir de la expresión anterior (ver
apéndice) se obtiene la interesante relación
λ|X =
(R2C − R2R)/q
(1− R2C )/(n − k)
. (3)
La prueba t de Student
Un caso de especial importancia es el de la prueba de hipótesis
parcial sobre un solo parámetro βj . En este caso, q = 1 y R es un
vector fila del tipo R = [0 . . . 1 . . . 0], por lo cual la expresión λ se
reduce a
λ|X = (bj − r)
[
s(bj)
2
]−1
(bj − r)
o en forma equivalente a
λ|X =
(
(bj − r)/σbj√
[s2(n − k)/σ2]/(n − k)
)2
,
igual al cociente de dos v .a. independientes, una N(0, 1) en el
numerador y otra χ2(n − k) dividida por sus grados de libertad. El
estadśtico
√
λ se distribuye, si la hipótesis Rβ − r es cierta,
√
λq=1 ∼ t(n − k). (4)
La prueba t de Student (cont.)
A partir de los resultados precedentes es posible plantear intervalos
de confianza para cada uno de paraámetros βj
P
[
bj − t(1−α/2,n−k)s(bj) < r < bj + t(1−α/2,n−k)s(bj)
]
= 1− α
donde r es el valor que toma βj bajo la hipótesis nula. Nótese que
el estad́ıstico t tiende a z cuando n → ∞ por lo cual para n
suficientemente grande podemos plantear el intervalo aproximado
P
[
bj − z(1−α/2)s(bj) < r < bj + z(1−α/2)s(bj)
]
≈ 1− α.
Los estad́ısticos de prueba propuestos más arriba a partir de bOLS
son válidos también para bML. Sin embargo, se requiere que s
2 sea
un estimador insesgado de σ2.
Bondad de ajuste
Escribamos la SC e′e en términos de y y Xb
e′e = y′y− 2y′Xb+ b′X′Xb
= y′y− 2(b′X′ + e′)Xb+ b′X′Xb
= y′y− b′X′Xb
ya que X′e = 0. Reordenando términos tenemos
y′y = b′X′Xb+ e′e,
lo que significa que la SC total (SCT) puede descomponerse en
una SC del modelo (SCM) y una SC de los residuales (SCE).
Si pre-multiplicamos el modelo muestral por (In − J/n), donde
J = 11′, (
In −
1
n
J
)
y =
(
In −
1
n
J
)
Xb+
(
In −
1
n
J
)
e.
Bondad de ajuste (cont.)
la descomposición anterior es
y′
(
In −
1
n
J
)
y = b′X′
(
In −
1
n
J
)
Xb+ e′e (5)
recordando que (In − J/n)e = e.
Definimos ahora el coeficiente de determinación múltiple como el
cociente entre la SCM y la SCT.
R2 =
b′X′ (In − J/n)Xb
y′ (In − J/n) y
o, en forma equivalente,
R2 = 1− e
′e
y′(In − J/n)y
=
ŷ′(In − J/n)ŷ
y′(In − J/n)y
. (6)
Bondad de ajuste (cont.)
Nótese que al aumentar la cantidad de variables incluidas en el
modelo la SCT no cambia, no aśı la SCM y la SCE. Es por ello que
se utiliza el R2 ajustado,
R2adj = 1−
e′e/(n − k)
y′(In − J/n)y/(n − 1)
= 1− n − 1
n − k
(
1− R2
)
.
Es frecuente presentar las distintas SC en una tabla de ANOVA.
Fuente SC g.l. CM Estad. F
Regresión b′X′(In − J/n)Xb k − 1 SCM/(k − 1) CMM/
Residuales e′e n − k SCE/(n − k) CME
Total y′(In − J/n)y n − 1 SCT/(n − 1)
Intervalos de predicción
Llamemos x0 a un nuevo vector de datos (reales o hipotéticos) e ŷ0
a la predicción ŷ0 = x′0b. El vector x0 no pertenece a la matriz X
original por lo cual ŷ0 es condicional tanto a X como en x0.
Proposición
Bajo los supuestos del modelo clásico, las distribución de
probabilidad de la predicción media ŷ0 y de una nueva observación
y0 son, respectivamente,
ŷ0|X, x0 ∼ N
[
x′0β, σ
2 x′0(X
′X)−1x0
]
(7)
y
y0|X, x0 ∼ N
{
x0β, σ
2
[
1 + x′0(X
′X)−1x0
]}
. (8)
Intervalos de predicción (cont.)
Demostración.
Tanto la observación y0 como la predicción media ŷ0 son
combinaciones lineales de una v .a. normal por lo cual tinen
también distribución normal con parámetros
(a) para la predicción media ŷ0
E (ŷ0|X, x0) = x′0β + x0(X′X)−1X′E (ϵ|X, x0) = x′0β
var(ŷ0|X, x0) = x′0(X′X)−1X′ E (ϵϵ′|X, x0)X(X′X)−1x0
= σ2 x′0(X
′X)−1x0. (9)
(b) para una nueva observación
E (y0|X, x0) = x′0β + E (ϵ0|X, x0) = x′0β
var(y0|X, x0) = E
{
[y0 − E (y0|X, x0)] [y0 − E (y0|X, x0)]′ |X, x0
}
= E (e20 |X, x0)
Intervalos de predicción (cont.)
Demostración (cont.)
donde E (e20 |X, x0) es la varianza del error de predicción, y
var(e0|X, x0) = var
[
ϵ0 − x′0(X′X)−1X′ϵ|X, x0
]
= var(ϵ0|X) + var
[
x′0(X
′X)−1X′ϵ|X
]
= σ2
[
1 + x′0(X
′X)−1x0
]
, (10)
visto que la cov [ϵ0, x′0(X
′X)−1X′ϵ|X] = 0 porque los errores ϵi
son independientes.
Conociendo ambas distribuciones podemos plantear un intervalos
de predicción para ŷ0 y y0.
P
(
θ̂ − z1−α/2
√
var(θ) ≤ θ ≤ θ̂ + z1−α/2
√
var(θ)
)
= 1− α
Intervalos depredicción (cont.)
o bien
P
(
θ̂ − t1−α/2, n−k
√
v̂ar(θ) ≤ θ ≤ θ̂ + t1−α/2, n−k
√
v̂ar(θ)
)
= 1− α.
donde reemplazamos σ2 por su estimador s2.
θ̂, θ y var(θ̂) son
▶ ŷ0, E (ŷ0) y var(ŷ0), respectivamente, para la predicción
media;
▶ y0, E (y0) y var(y0) respectivamente, para una nueva
observación.
Apéndice A. Pruebas de hipótesis: pruebas parciales
Nos interesa ahora probar hipótesis del tipo H0: Rβ = 0 para
q < k . Consideremos para ello dos modelos, uno reducido y otro
completo
y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In)
y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In)
Según H0 el modelo reducido es verdadero. El estimador OLS del
modelo completo se obtiene a partir de[
X′1X1 X
′
1X2
X′2X1 X
′
2X2
] [
bC1
bC2
]
=
[
X′1y
X′2y
]
. (11)
Surge de la primera ecuación que la solución para bC1 es
bC1 = (X
′
1X1)
−1X′1y− (X′1X1)−1X′1X2bC2
donde el primer término del lado derecho es el estimador bR1 .
Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.)
El vector de residuales que surge de ajustar el modelo completo es
eC = y− X1bC1 − X2bC2
= y− X1bR1 +M1X2bC2 − X2bC2
donde M1 = X1(X
′
1X1)
−1X′1 y y− X1bR1 es eR , de modo que
eR = eC + (In −M1)X2bC2 (12)
lo cual implica que la suma de cuadrados e′ReR es
e′ReR = e
′
CeC + (X2b
C
2 )
′(In −M1)X2bC2 . (13)
donde los productos cruzados se cancelan porque X′1eC = 0. La
expresión (13) conduce a una importante conclusión:
e′ReR ≥ e′CeC .
Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.)
Esta desigualdad prueba también que la inclusión en el modelo de
variables superfluas reduce la SCE. Por otra parte, sabiendo que
R(X′X)−1R′ =
[
X′2(In −M1)X2
]−1
,
y RbC = bC2 , donde R = [0, Ik−m] podemos escribir la forma
alternativa de λ
λ|X =
(e′ReR − e′CeC )/q
e′CeC/(n − k)
∼ F(q,n−k) (14)
Esta versión de λ es la que se conoce como “estad́ıstico de Wald”.
A partir de (14) se obtiene la interesante relación
λ|X =
(R2C − R2R)/q
(1− R2C )/(n − k)
(15)
Apéndice A. Reducción de la SCE
Conviene hacer aqúı una breve digresión para introducir una nueva
notación. Llamemos
R(β1,β2) = b
′
CX
′XbC
a la suma de cuadrados del modelo (SCM) completo y
R(β1) =
(
X1b
R
1
)′
X1b
R
1
a la SCM reducido. La diferencia entre ambas es la reducción en la
SCE (o el incremento en la SCM) debida a la introducción en el
modelo de X2:
R(β2|β1) = R(β2,β1)− R(β1),
donde R(β2|β1) es exactamente igual e′ReR − e′CeC . Si
agregáramos al modelo un tercer conjunto de variables, la
reducción adicional en la SCE debida a X3 seŕıa
R(β3|β1,β2) = R(β1,β2β3)− R(β1,β2).
Apéndice A. Pruebas parciales y secuenciales
Para cada reducción adicional es posible probar la hipótesis
βm = 0 recurriendo al estad́ıstico de Wald. Supongamos que nos
interesa probar si la reducción al introducir la j-ésima variable xj es
o no igual a 0. El estad́ıstico λ es
λ|Xj =
R(βj |β1, . . . , βj−1, βj+1, . . . , βk)
e′e/(n − k)
∼ F(1,n−k).
Este tipo de pruebas se denomina prueba parcial del coeficiente de
regresión βj . Otro posible curso de acción seŕıa probar la relevancia
de cada variable introduciéndolas de a una por vez, en cuyo caso el
estad́ıstico de prueba es
λ|Xj =
R(βj |β1, . . . , βj−1)
e′e/(n − k)
∼ F(1,n−k).
Este tipo de pruebas se denomina prueba secuencial de los
coeficiente de regresión.
Apéndice B. Tipoloǵıa de las pruebas de hipótesis
Las SC han sido tipificadas por SAS en 3 tipos:
Tipo I. Los parámetros se prueban secuencialmente siguiendo el orden
dado en el modelo. El inconveniente de estas pruebas es que
(a) arrojan distintos resultados según del orden en que el
parámetro fue introducido en el modelo;
(b) para cada prueba H0: βj = 0 se impone impĺıcitamente la
restricción βj+1 = · · · = βk = 0; en modelos con interacción
esto implica que es imposible probar hipótesis sobre los efectos
principales sin restringir los de interacción a cero y viceversa.
(c) el orden de las variables en el modelo lleva impĺıcita una
priorización o jerarquización de las mismas.
Las pruebas secuenciales son las únicas en las que las R(.)
suman exactamente la SCE del modelo, es decir
R(β) = R(β0) + R(β1|β0) + R(β2|β0, β1) + . . .
Apéndice B. Tipoloǵıa de las pruebas de hipótesis (cont.)
Tipo II. Se prueba cada parámetro luego de considerar todos los
demás pero excluyendo aquellos términos que contienen
la variable de interés. En el siguiente modelo, por ejemplo,
yi = β0 + β1xi1 + β2xi2 + β3xi1xi2 + ϵi
se prueban R(β0|β1, β2, β3), R(β1|β0, β2), R(β2|β0, β1) y
R(β3|β0).
Tipo III. Se prueba cada parámetro βj como si su variable asociada
xj hubiese sido introducida última en el modelo. En el
ejemplo anterior se prueban R(β0|β1, β2, β3), R(β1|β0, β2, β3),
R(β2|β0, β1, β3) y R(β3|β0, β1, β2).
R(β) ̸= R(β0|β1, . . . , βk) + · · ·+ · · ·+ R(βk |β1, . . . , βk−1),
Lógicamente, para el k-ésimo parámetro, la reducción en las
pruebas I y III es exactamente igual.
	El estadístico de Wald
	La prueba t de Student
	Bondad de ajuste
	Intervalos de confianza y predicción
	Apéndice A. Pruebas de hipótesis: pruebas parciales
	Apéndice B. Tipología de las pruebas de hipótesis