Heteroscedasticidad: definición y consecuencias

•

SIN SIGLA

Jeronimo

21/6/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Econometría

6339 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Heteroscedasticidad
Luis Frank
Depto. Métodos Cuantitativos
Facultad de Agronoḿıa
Universidad de Buenos Aires
Abril, 2022
Heteroscedasticidad: definición
Definición. Denominamos heteroscedastidad a la presencia de
errores independientes pero no indénticamente distribuidos. Bajo
esta especificación el modelo lineal se escribe
y = Xβ + ϵ donde ϵ ∼ N(0, σ2Ω),
y Ω es una matriz diagonal normalizada de tal modo que
tr(Ω) = n.
Consecuencias. Ignorar la presencia de heteroscedasticidad
acarrea consecuencias potencialmente graves:
▶ el estimador b deja de ser óptimo o de ḿınima varianza
▶ las prueba usuales, especialmente t y F , dejan de ser válidas
No obstante, el estimador bOLS sigue siendo insesgado, ya que
E (b|X) = β + (X′X)−1X′E (ϵ|X) = β
Estimadores generalizados
El estimador de White. Minimizamos la suma de errores al
cuadrado ϵ′ϵ y planteamos las condiciones de primer orden del
mismo modo que en el modelo clásico, de donde resulta que
bLS = (X
′X)−1X′y
var(bLS) = σ
2(X′X)−1X′ΩX(X′X)−1 (1)
El estimador generalizado o de Aitken. Este estimador proviene
de descomponer Ω en Ω = DAD′, descomposición que es posible
porque Ω es una matriz cuadrada y simétrica. Luego,
▶ A es una matriz diagonal de autovalores,
▶ T = DA1/2 por lo cual Ω = TT′
▶ Ω−1 = P′P, donde P = A−1/2D′
▶ PT = A−1/2D′DA1/2 = In
Estimadores generalizados (cont.)
Si premultiplicamos el modelo original por P obtenemos el modelo
transformado Py = (PX)β + Pϵ donde verificamos que
▶ E (Pϵ|X) = PE (ϵ|X) = 0
▶ var(Pϵ|X) = σ2In, ya que PE (ϵϵ′|X)P′ = σ2PTT′P′ = σ2In
Quiere decir que el modelo transformado satisface los supuestos
clásicos. Luego, el estimador b del modelo transformado es
bGLS = (X
′P′PX)−1X′P′Py
= (X′Ω−1X)−1X′Ω−1y (2)
y tiene varianza
var(bGLS) = σ
2(X′Ω−1X)−1 (3)
En este contexto se puede demostrar que s2 = e′Ω−1e/(n − k).
Ineficiencia del estimador OLS frente a GLS
Teorema
Si ϵ ∼ (0, σ2Ω) siendo Ω una matriz (simétrica) positiva definida,
el estimador OLS es ineficiente.
Demostración.
Nos interesa probar que si Ω es una matriz positiva definida (p.d.),
var(bOLS) = var(bGLS) +∆
donde ∆ es también positiva definida. Para ello escribamos
∆ = σ2
(
X′X
)−1 − σ2 (X′Ω−1X)−1
= σ2
(
X′X
)−1
A
(
X′X
)−1
,
donde A = X′X− X′X
(
X′Ω−1X
)−1
X′X.
Ineficiencia del estimador OLS frente a GLS (cont.)
Demostración (cont.)
Ahora bien, sabemos que
(a) el producto y la inversa de una matriz simétrica p.d. es
también una matriz simétrica p.d.; la diferencia de matrices
simétricas p. d. es una matriz simétrica pero no
necesariamente p.d.;
(b) para toda matriz simétrica C existe una matriz simétrica D tal
que C = DD′;
(c) para toda matriz C p.d. y toda matriz B de rango columna
completo conformable con la primera, B′CB es una matriz
simétrica p.d.; si B no es de rango completo, B′CB es una
matriz semidefinida positiva.
Ineficiencia del estimador OLS frente a GLS (cont.)
Demostración (cont.)
Luego, por (a) y (b) sabemos que A es una matriz simétrica que
puede descomponerse como A = PP′. Si llamamos T = (X′X)−1P
entonces
∆ = σ2T(In)T
′,
donde In es una matriz positiva definida y T es una matriz de
rango k .
Como consecuencia de (c), ∆ es una matriz positiva definida por
lo cual es evidente que toda combinación lineal w′bOLS será mayor
que la correspondiente combinación w′bLS.
Ineficiencia del estimador de White frente a GLS
Teorema
El estimador de White es ineficiente frente al estimador
generalizado de Aitken o GLS.
Demostración.
En forma análoga al teorema anterior planteamos
var(bLS) = var(bGLS) +∆,
es decir
∆ = σ2(X′X)−1X′ΩX(X′X)−1 − σ2(X′Ω−1X)−1
= σ2G
[
Ω− X(X′Ω−1X′)−1X′
]
G′,
La matriz entre corchetes es simétrica y puede descomponerse
como PP′, lo que implica que ∆′ = (PG) In (GP)′. Luego, ∆ es
una matriz simétrica semidefinida positiva.
Pruebas de heteroscedasticidad
Prueba de Park. Consiste en regresar el ln(e2i ) sobre el ln(xij),
variable que se cree relacionada con el error, para probar H0:
σ2i = σ
2xβij e
νi donde νi ∼ (0, σ2ν).
Prueba de Glejser. Es similar a la anterior salvo que se regresan
los residuales en valor absoluto sobre una función de la variable xij .
En este caso H0 es
σi = f (xij) + νi donde νi ∼ (0, σ2ν).
Prueba de correlación de Spearman. Se calcula el coeficiente ρ̂
de Spearman ordenando los residuales (en valor absoluto)
apareados con xij . Bajo H0, ρ = 0 y si n > 8.
ρ̂ = 1−
6
∑n
i=1 d
2
i
n (n2 − 1)
y t = ρ̂
√
n − 2√
1− ρ̂
∼ tn−2.
Pruebas de heteroscedasticidad (cont.)
Prueba de Goldfeld-Quandt. Se ordenan las observaciones según
una xj . Se omiten las 4 observaciones centrales (si n ≈ 30), se
calculan regresiones separadas para cada grupo resultante y se
calcula el estad́ıstico
F =
e′2e2/v2
e′1e1/v1
, donde v1 = v2 = (n − c − 2k)/2
Bajo H0, F se distribuye F (v2, v1).
Prueba de White. Consiste en calcular los residuales OLS, y con
ellos la regresión auxiliar
e2i = β0 + β1xi1 + β2xi2 + · · ·+ βmx2i1 + βm+1x2i2 + . . .
+ βpxi1xi2 + βp+1xi2xi3 + · · ·+ νi donde νi ∼ (0, σ2ν).
Luego se calcula nR2 que, bajo H0, se distribuye χ
2 con g.l. igual
a la cantidad de parámetros del modelo auxiliar sin contar β0.
Pruebas de heteroscedasticidad (cont.)
▶ El principal inconveniente del test de White es la gran
cantidad de variables auxiliares. Si la cantidad de xj no es
grande, es posible omitir los productos cruzados y realizar el
test sólo con los términos lineales y cuadráticos.
▶ La distribución de nR2 es asintótica, por lo cual se requieren
muestras grandes.
Prueba de Breusch-Pagan. Es una prueba sobre el vector de
multiplicadores de Lagrange del modelo generalizado sujeto al
sistema de restricciones lineales Rβ = r. El protocolo de prueba es
el siguiente:
1. Se estima el vector de parámetros β por OLS y se obtiene el
vector de residuales.
2. Se calcula el estimador ML σ̃2ML = e
′e/n.
Pruebas de heteroscedasticidad (cont.)
3. Se contruye un vector de elementos ỹi = e
2
i /σ̃
2 donde e2i es el
i-ésimo elemento del vector de residuales OLS y σ̃2 es el
estimador de σ2ML.
4. Se plantea el modelo auxiliar
ỹi = α1 + α2 zi2 + · · ·+ αm zim + νi νi es i.i.d.
donde las zj son variables que se cree están relacionadas con
el error, pertenezcan o no a la matriz X. Se calculan los
estimadores α̂i .
5. Finalmente se calcula la SC del modelo (SCM) y el estad́ıstico
χ2 = SCM/2 el que bajo la hipótesis nula de
homoscedasticidad se distribuye χ2 ∼ χ2m−1.
El test de Breusch-Pagan es asintótico, de modo que sólo es válido
para muestras “suficientemente grandes”, y además asume
normalidad de ϵ.
Intuición detrás del estimador de Breusch-Pagan
Recordemos la función log-verośımil del modelo restringido
lnL∗ = lnL+ 2λ′R [c(θ)− q] ,
bajo el supuesto c(θ) = q que es cierto. En otro momento
planteamos e.g. Rθ = r. Las condiciones de primer orden son
∂ lnL∗
∂θ̂
=
∂ lnL
∂θ̂R
+ 2C′λ̂ = 0 y
∂ lnL∗
∂λ̂
= c(θ)− q = 0
donde θ̂R es el estimador de θ del modelo reducido o sin restringir.
Si las restricciones son ciertas, C′λ̂ = 0 para que la función lnL∗
sea máxima en θ̂R y λ̂.
Ahora bien, supongamos que un conjunto de variables Z explicaŕıa
el patrón de heteroscedasticidad del cuadrado de los residuos
“normalizados” de nuestro modelo, e∗ = e2i /σ̃
2
ML
e∗ = Zθ + ν donde ν ∼ (0, In)
Intuición detrás del estimador de Breusch-Pagan (cont.)
Planteamos el estad́ıstico LM (por Lagrange Multiplier),
equivalente al estad́ıstico de Wald, sobre la primera derivada del
modelo auxiliar anterior.
LM =
1
2
(
∂ lnL
∂θ̂R
)′ [
var
(
∂ lnL
∂θ̂R
)]−1(∂ lnL
∂θ̂R
)
=
1
2
e∗Z(Z′Z)−1Ze∗
donde
∂ lnL
∂θ̂R
= −2Z′e∗ + 2Z′Z θ̂ = −2Z′e∗ y var
(
∂ lnL
∂θ̂R
)
= 4Z′Z
bajo el supuesto que θ = 0. El estad́ıstico LM se distribuye χ2m−1
porque tenemos m − 1 restricciones, ya que la ordenada al origen
del modelo auxiliar no es nula. Nótese que LM también puede
escribirse como θ̂
′
Z′Zθ̂/2.
Estimación en presencia de heteroscedasticidad
▶ Ω es conocida. Si Ω es conocida bGLS esun estimador
insesgado, eficiente y consistente de β.
▶ Ω es desconocida. Si Ω es desconocida y no disponemos de
ningún estimador Ω̂(η) el estimador
b = (X′X)−1X′y
ˆvar(b) =
1
n
(
1
n
X′X
)−1(1
n
n∑
i=1
e2i xix
′
i
)(
1
n
X′X
)−1
=
1
n
(
X′X
)−1
S0
(
X′X
)−1
es un estimador insesgado y consistente de β aunque
ineficiente. e2i es el i-ésimo residual OLS al cuadrado.
Estimación en presencia de heteroscedasticidad (cont.)
▶ Ω es desconocida. Si Ω es desconocida pero disponemos de
un estimador Ω̂(η) consistente (śı y sólo si η̂ es consistente)
podemos estimar β por GLS “factible”
b = (X′Ω̂
−1
X)−1X′Ω̂
−1
y
var .est(b) = s2(X′Ω̂
−1
X)−1
siempre que se verifiquen las condiciones de consistencia
plim
X′(Ω̂
−1 −Ω−1)X
n
= 0
plim
X′(Ω̂
−1 −Ω−1)ϵ√
n
= 0.
La verificación de las mismas se realiza caso por caso, es
decir, para cada posible estimador Ω̂(η).