Logo Studenta

Modelo Clássico de Teste de Hipóteses

¡Este material tiene más páginas!

Vista previa del material en texto

El Modelo Clásico
Pruebas de Hipótesis
Luis Frank
Depto. Métodos Cuantitativos
Facultad de Agronoḿıa
Universidad de Buenos Aires
Abril, 2022
El estad́ıstico de Wald
La prueba t de Student
Bondad de ajuste
Intervalos de confianza y predicción
Apéndice A. Pruebas de hipótesis: pruebas parciales
Apéndice B. Tipoloǵıa de las pruebas de hipótesis
El estad́ıstico de Wald
Teorema (Distribución del estad́ıstico de Wald)
Dado un vector aleatorio θ̂ de dimensión p × 1, distribuido
θ̂ ∼ N[θ, var(θ̂)], el estad́ıstico de Wald asociado a θ̂ se distribuye
(θ̂ − θ)′
[
var(θ̂)
]−1
(θ̂ − θ) ∼ χ2(p).
Demostración.
(a) Llamemos A = var(θ̂) y d = (θ̂ − θ). A es una matriz
simétrica positiva definida, de modo que admite la
descomposición A = A1/2A1/2, donde A1/2 es una matriz
única, simétrica y positiva definida. Consecuentemente,
(θ̂ − θ)′
[
var(θ̂)
]−1
(θ̂ − θ) = (A−1/2d)′(A−1/2d).
El estad́ıstico de Wald (cont.)
Demostración (cont.)
donde A−1/2d se distribuye A−1/2d ∼ N(0, Ip), ya que
E
(
A−1/2d
)
= A−1/2E
(
θ̂ − θ
)
= 0
var
(
A−1/2d
)
=
(
A−1/2A1/2
)(
A1/2A−1/2
)
= Ip.
y A−1/2d es una combinación lineal de v .a. normales.
(b) Dada una sucesión de p v .a. normal estándar, el teorema de
Cochran z21 + · · ·+ z2p ∼ χ2(p). Luego,
(A−1/2d)′(A−1/2d) ∼ χ2(p).
El estad́ıstico de Wald (cont.)
En vista de este teorema, podemos construir un estad́ıstico de Wald
bajo la hipótesis (nula) Rβ = r, de modo que θ = r, θ̂ = Rb y
var(θ̂) = R var(b)R′ = σ2R(X′X)−1R′
Luego,
λ|X =
(Rb− r)′
[
σ2R(X′X)−1R′
]−1
(Rb− r)/q
[(n − k)s2/σ2] /(n − k)
.
Mediante algunas cancelaciones obtenemos
λ|X = 1
q
(Rb− r)′
[
s2R(X′X)−1R′
]−1
(Rb− r) ∼ F(q,n−k), (1)
donde s2 es un estimador insesgado de σ2, i.e. e′e/(n − k).
El estad́ıstico de Wald (cont.)
Recordemos que
▶ el cociente de dos v .a. independientes distribuidas χ2
divididas por sus g.l. se distribuye F(ν1;ν2).
▶ la condición de independencia queda demostrada por el
teorema de Craig que establece que z′Az y z′Bz son
independientes si y sólo si AB = 0.
Rb− r = R
[
β + (X′X)−1X′ϵ− β
]
= RGϵ
var(Rb− r) = var(RGϵ) = RGvar(ϵ)G′R′ = σ2RGG′R′
Luego, el numerador de λ se puede escribir( ϵ
σ
)′
G′R′
[
(RG)(RG)′
]−1
RG
( ϵ
σ
)
y por lo tanto el producto AB es
G′R′[(RG)(RG)′]1RG(I− XG) = G′R′
[
(RG)(RG)′
]1
RG
− G′R′[(RG)(RG)′]1RGXG = 0
El estad́ıstico de Wald (cont.)
Ejemplo 1. Retomemos la función de demanda de importaciones.
Vamos a probar la “significatividad global” del modelo.
H0 :
[
0 1 0
0 0 1
] β1β2
β3
 = [ 0
0
]
, H1 :
[
0 1 0
0 0 1
] [
β1
β2
]
̸=
[
0
0
]
Calculamos el estad́ıstico de prueba λ asociadoa esta prueba
λ|X =
(Rb)′
[
R(X′X)−1R′
]−1
Rb/q
e′e/(n − k)
=
0, 0832
0, 0005
= 151, 92 < F(0,95;2,1) = 199, 50
y por lo tanto no rechazamos H0. El modelo no es “significativo”.
El estad́ıstico de Wald (cont.)
Ejemplo 1 (cont.). No conformes con el resultado anterior,
realizamos pruebas individuales sobre cada coeficiente. Por
ejemplo, el estad́ıstico λ para la hipótesis nula β2 = 0 es
H0 :
[
0 1 0
]  β1β2
β3
 = 0, H1 : [ 0 1 0 ]
 β1β2
β3
 ̸= 0
λ|X =
(Rb)′
[
R(X′X)−1R′
]−1
Rb/q
e′e/(n − k)
=
b22
s2 R(X′X)−1R′
=
0, 2923
0, 0099
= 29, 66
El estad́ıstico t =
√
λ = 5, 45 por lo cual rechazamos H0. ¿Cómo
se explica esta contradicción en los resultados?
El estad́ıstico de Wald (cont.)
Consideremos dos modelos, uno reducido y otro completo.
y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In)
y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In)
Una forma alternativa del estad́ıstico λ para probar H0: Rβ = 0
(el modelo reducido es verdadero) es
λ|X =
(e′ReR − e′CeC )/q
e′CeC/(n − k)
∼ F(q,n−k) (2)
donde eR y eC son los residuos del modelo reducido y completo,
respectivamente. Nótese que a paertir de la expresión anterior (ver
apéndice) se obtiene la interesante relación
λ|X =
(R2C − R2R)/q
(1− R2C )/(n − k)
. (3)
La prueba t de Student
Un caso de especial importancia es el de la prueba de hipótesis
parcial sobre un solo parámetro βj . En este caso, q = 1 y R es un
vector fila del tipo R = [0 . . . 1 . . . 0], por lo cual la expresión λ se
reduce a
λ|X = (bj − r)
[
s(bj)
2
]−1
(bj − r)
o en forma equivalente a
λ|X =
(
(bj − r)/σbj√
[s2(n − k)/σ2]/(n − k)
)2
,
igual al cociente de dos v .a. independientes, una N(0, 1) en el
numerador y otra χ2(n − k) dividida por sus grados de libertad. El
estadśtico
√
λ se distribuye, si la hipótesis Rβ − r es cierta,
√
λq=1 ∼ t(n − k). (4)
La prueba t de Student (cont.)
A partir de los resultados precedentes es posible plantear intervalos
de confianza para cada uno de paraámetros βj
P
[
bj − t(1−α/2,n−k)s(bj) < r < bj + t(1−α/2,n−k)s(bj)
]
= 1− α
donde r es el valor que toma βj bajo la hipótesis nula. Nótese que
el estad́ıstico t tiende a z cuando n → ∞ por lo cual para n
suficientemente grande podemos plantear el intervalo aproximado
P
[
bj − z(1−α/2)s(bj) < r < bj + z(1−α/2)s(bj)
]
≈ 1− α.
Los estad́ısticos de prueba propuestos más arriba a partir de bOLS
son válidos también para bML. Sin embargo, se requiere que s
2 sea
un estimador insesgado de σ2.
Bondad de ajuste
Escribamos la SC e′e en términos de y y Xb
e′e = y′y− 2y′Xb+ b′X′Xb
= y′y− 2(b′X′ + e′)Xb+ b′X′Xb
= y′y− b′X′Xb
ya que X′e = 0. Reordenando términos tenemos
y′y = b′X′Xb+ e′e,
lo que significa que la SC total (SCT) puede descomponerse en
una SC del modelo (SCM) y una SC de los residuales (SCE).
Si pre-multiplicamos el modelo muestral por (In − J/n), donde
J = 11′, (
In −
1
n
J
)
y =
(
In −
1
n
J
)
Xb+
(
In −
1
n
J
)
e.
Bondad de ajuste (cont.)
la descomposición anterior es
y′
(
In −
1
n
J
)
y = b′X′
(
In −
1
n
J
)
Xb+ e′e (5)
recordando que (In − J/n)e = e.
Definimos ahora el coeficiente de determinación múltiple como el
cociente entre la SCM y la SCT.
R2 =
b′X′ (In − J/n)Xb
y′ (In − J/n) y
o, en forma equivalente,
R2 = 1− e
′e
y′(In − J/n)y
=
ŷ′(In − J/n)ŷ
y′(In − J/n)y
. (6)
Bondad de ajuste (cont.)
Nótese que al aumentar la cantidad de variables incluidas en el
modelo la SCT no cambia, no aśı la SCM y la SCE. Es por ello que
se utiliza el R2 ajustado,
R2adj = 1−
e′e/(n − k)
y′(In − J/n)y/(n − 1)
= 1− n − 1
n − k
(
1− R2
)
.
Es frecuente presentar las distintas SC en una tabla de ANOVA.
Fuente SC g.l. CM Estad. F
Regresión b′X′(In − J/n)Xb k − 1 SCM/(k − 1) CMM/
Residuales e′e n − k SCE/(n − k) CME
Total y′(In − J/n)y n − 1 SCT/(n − 1)
Intervalos de predicción
Llamemos x0 a un nuevo vector de datos (reales o hipotéticos) e ŷ0
a la predicción ŷ0 = x′0b. El vector x0 no pertenece a la matriz X
original por lo cual ŷ0 es condicional tanto a X como en x0.
Proposición
Bajo los supuestos del modelo clásico, las distribución de
probabilidad de la predicción media ŷ0 y de una nueva observación
y0 son, respectivamente,
ŷ0|X, x0 ∼ N
[
x′0β, σ
2 x′0(X
′X)−1x0
]
(7)
y
y0|X, x0 ∼ N
{
x0β, σ
2
[
1 + x′0(X
′X)−1x0
]}
. (8)
Intervalos de predicción (cont.)
Demostración.
Tanto la observación y0 como la predicción media ŷ0 son
combinaciones lineales de una v .a. normal por lo cual tinen
también distribución normal con parámetros
(a) para la predicción media ŷ0
E (ŷ0|X, x0) = x′0β + x0(X′X)−1X′E (ϵ|X, x0) = x′0β
var(ŷ0|X, x0) = x′0(X′X)−1X′ E (ϵϵ′|X, x0)X(X′X)−1x0
= σ2 x′0(X
′X)−1x0. (9)
(b) para una nueva observación
E (y0|X, x0) = x′0β + E (ϵ0|X, x0) = x′0β
var(y0|X, x0) = E
{
[y0 − E (y0|X, x0)] [y0 − E (y0|X, x0)]′ |X, x0
}
= E (e20 |X, x0)
Intervalos de predicción (cont.)
Demostración (cont.)
donde E (e20 |X, x0) es la varianza del error de predicción, y
var(e0|X, x0) = var
[
ϵ0 − x′0(X′X)−1X′ϵ|X, x0
]
= var(ϵ0|X) + var
[
x′0(X
′X)−1X′ϵ|X
]
= σ2
[
1 + x′0(X
′X)−1x0
]
, (10)
visto que la cov [ϵ0, x′0(X
′X)−1X′ϵ|X] = 0 porque los errores ϵi
son independientes.
Conociendo ambas distribuciones podemos plantear un intervalos
de predicción para ŷ0 y y0.
P
(
θ̂ − z1−α/2
√
var(θ) ≤ θ ≤ θ̂ + z1−α/2
√
var(θ)
)
= 1− α
Intervalos depredicción (cont.)
o bien
P
(
θ̂ − t1−α/2, n−k
√
v̂ar(θ) ≤ θ ≤ θ̂ + t1−α/2, n−k
√
v̂ar(θ)
)
= 1− α.
donde reemplazamos σ2 por su estimador s2.
θ̂, θ y var(θ̂) son
▶ ŷ0, E (ŷ0) y var(ŷ0), respectivamente, para la predicción
media;
▶ y0, E (y0) y var(y0) respectivamente, para una nueva
observación.
Apéndice A. Pruebas de hipótesis: pruebas parciales
Nos interesa ahora probar hipótesis del tipo H0: Rβ = 0 para
q < k . Consideremos para ello dos modelos, uno reducido y otro
completo
y = X1β1 + ϵ1, ϵ1 ∼ N(0, σ21In)
y = X1β1 + X2β2 + ϵ, ϵ1 ∼ N(0, σ2In)
Según H0 el modelo reducido es verdadero. El estimador OLS del
modelo completo se obtiene a partir de[
X′1X1 X
′
1X2
X′2X1 X
′
2X2
] [
bC1
bC2
]
=
[
X′1y
X′2y
]
. (11)
Surge de la primera ecuación que la solución para bC1 es
bC1 = (X
′
1X1)
−1X′1y− (X′1X1)−1X′1X2bC2
donde el primer término del lado derecho es el estimador bR1 .
Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.)
El vector de residuales que surge de ajustar el modelo completo es
eC = y− X1bC1 − X2bC2
= y− X1bR1 +M1X2bC2 − X2bC2
donde M1 = X1(X
′
1X1)
−1X′1 y y− X1bR1 es eR , de modo que
eR = eC + (In −M1)X2bC2 (12)
lo cual implica que la suma de cuadrados e′ReR es
e′ReR = e
′
CeC + (X2b
C
2 )
′(In −M1)X2bC2 . (13)
donde los productos cruzados se cancelan porque X′1eC = 0. La
expresión (13) conduce a una importante conclusión:
e′ReR ≥ e′CeC .
Apéndice A. Pruebas de hipótesis: pruebas parciales (cont.)
Esta desigualdad prueba también que la inclusión en el modelo de
variables superfluas reduce la SCE. Por otra parte, sabiendo que
R(X′X)−1R′ =
[
X′2(In −M1)X2
]−1
,
y RbC = bC2 , donde R = [0, Ik−m] podemos escribir la forma
alternativa de λ
λ|X =
(e′ReR − e′CeC )/q
e′CeC/(n − k)
∼ F(q,n−k) (14)
Esta versión de λ es la que se conoce como “estad́ıstico de Wald”.
A partir de (14) se obtiene la interesante relación
λ|X =
(R2C − R2R)/q
(1− R2C )/(n − k)
(15)
Apéndice A. Reducción de la SCE
Conviene hacer aqúı una breve digresión para introducir una nueva
notación. Llamemos
R(β1,β2) = b
′
CX
′XbC
a la suma de cuadrados del modelo (SCM) completo y
R(β1) =
(
X1b
R
1
)′
X1b
R
1
a la SCM reducido. La diferencia entre ambas es la reducción en la
SCE (o el incremento en la SCM) debida a la introducción en el
modelo de X2:
R(β2|β1) = R(β2,β1)− R(β1),
donde R(β2|β1) es exactamente igual e′ReR − e′CeC . Si
agregáramos al modelo un tercer conjunto de variables, la
reducción adicional en la SCE debida a X3 seŕıa
R(β3|β1,β2) = R(β1,β2β3)− R(β1,β2).
Apéndice A. Pruebas parciales y secuenciales
Para cada reducción adicional es posible probar la hipótesis
βm = 0 recurriendo al estad́ıstico de Wald. Supongamos que nos
interesa probar si la reducción al introducir la j-ésima variable xj es
o no igual a 0. El estad́ıstico λ es
λ|Xj =
R(βj |β1, . . . , βj−1, βj+1, . . . , βk)
e′e/(n − k)
∼ F(1,n−k).
Este tipo de pruebas se denomina prueba parcial del coeficiente de
regresión βj . Otro posible curso de acción seŕıa probar la relevancia
de cada variable introduciéndolas de a una por vez, en cuyo caso el
estad́ıstico de prueba es
λ|Xj =
R(βj |β1, . . . , βj−1)
e′e/(n − k)
∼ F(1,n−k).
Este tipo de pruebas se denomina prueba secuencial de los
coeficiente de regresión.
Apéndice B. Tipoloǵıa de las pruebas de hipótesis
Las SC han sido tipificadas por SAS en 3 tipos:
Tipo I. Los parámetros se prueban secuencialmente siguiendo el orden
dado en el modelo. El inconveniente de estas pruebas es que
(a) arrojan distintos resultados según del orden en que el
parámetro fue introducido en el modelo;
(b) para cada prueba H0: βj = 0 se impone impĺıcitamente la
restricción βj+1 = · · · = βk = 0; en modelos con interacción
esto implica que es imposible probar hipótesis sobre los efectos
principales sin restringir los de interacción a cero y viceversa.
(c) el orden de las variables en el modelo lleva impĺıcita una
priorización o jerarquización de las mismas.
Las pruebas secuenciales son las únicas en las que las R(.)
suman exactamente la SCE del modelo, es decir
R(β) = R(β0) + R(β1|β0) + R(β2|β0, β1) + . . .
Apéndice B. Tipoloǵıa de las pruebas de hipótesis (cont.)
Tipo II. Se prueba cada parámetro luego de considerar todos los
demás pero excluyendo aquellos términos que contienen
la variable de interés. En el siguiente modelo, por ejemplo,
yi = β0 + β1xi1 + β2xi2 + β3xi1xi2 + ϵi
se prueban R(β0|β1, β2, β3), R(β1|β0, β2), R(β2|β0, β1) y
R(β3|β0).
Tipo III. Se prueba cada parámetro βj como si su variable asociada
xj hubiese sido introducida última en el modelo. En el
ejemplo anterior se prueban R(β0|β1, β2, β3), R(β1|β0, β2, β3),
R(β2|β0, β1, β3) y R(β3|β0, β1, β2).
R(β) ̸= R(β0|β1, . . . , βk) + · · ·+ · · ·+ R(βk |β1, . . . , βk−1),
Lógicamente, para el k-ésimo parámetro, la reducción en las
pruebas I y III es exactamente igual.
	El estadístico de Wald
	La prueba t de Student
	Bondad de ajuste
	Intervalos de confianza y predicción
	Apéndice A. Pruebas de hipótesis: pruebas parciales
	Apéndice B. Tipología de las pruebas de hipótesis

Continuar navegando

Materiales relacionados

24 pag.
Apuntes Econometría

User badge image

Central de Apuntes

36 pag.
2-Modelos lineales

User badge image

wendy sedano ricaldi

59 pag.
Capitulo5Final

User badge image

Apuntes Generales