Logo Studenta

Modelo Clássico de Estimação de Parâmetros

¡Este material tiene más páginas!

Vista previa del material en texto

El Modelo Clásico
Estimación de Parámetros
Luis Frank
Depto. de Métodos Cuantitativos
Facultad de Agronoḿıa
Universidad de Buenos Aires
Marzo, 2022
Definición y supuestos del modelo clásico
El estimador ḿınimo cuadrático ordinario
Propiedades estad́ısticas del estimador OLS
Estimación de β y σ2 por máxima verośımilitud exacta
Apéndice A. Relación entre los estimadores OLS
Apéndice B. El estimador lineal insesgado óptimo
Apéndice C. Estimación recursiva de β (Newton-Raphson)
Definición del modelo y notación
Consideremos el modelo lineal en los parámetros
y = Xβ + ϵ con ϵ ∼ N(0n, σ2In). (1)
donde
▶ X es una matriz de n × k regresores, covariables o variables
explicativas, fijas o aleatorias; x1 = 1n y lógicamente n > k.
▶ y es un vector aleatorio de n × 1 regresandos, observaciones o
variables respuesta.
▶ ϵ es un vector aleatorio inobservable de n × 1 errores o
perturbaciones ϵi normales con esperanza nula y varianza
constante.
▶ El modelo tiene k + 1 parámetros desconocidos, β y σ2.
Supuestos del modelo
S.1 Linealidad. La relación entre yi y cada término del lado
derecho de la igualdad es lineal en los parámetros, es decir
que las observaciones yi son una función lineal de βj y σ
2.
S.2 Independencia lineal. X es una matriz de rango columna
completo. Es decir, no existen relaciones de dependencia
lineal entre las columnas xj . (X satisface también las
condiciones de Grenander, ver a continuación)
S.3 Exogeneidad. Las variables explicativas son exógenas al
modelo, es decir que el modo en que fueron obtenidas no se
relaciona con los errores ϵi . Expresamos este supuesto como
E (ϵ|X) = 0.
S.4 Parámetros fijos. Los parámetros β y σ2 son fijos en el
sentido de que no son aleatorios, pero son desconocidos.
Supuestos del modelo (cont.)
S.5 Errores esféricos. ϵ es un vector aleatorio de errores i.i.d.
normalmente distribuidos con parámetros
E (ϵi |X) = 0, var(ϵi |X) = σ2 y cov(ϵi , ϵi ′ |X) = 0.
S.6 El modelo es verdadero, es decir, representa el verdadero
proceso generador de datos. El vector y puede ser reproducido
perfectamente a partir de (1) conociendo de antemano β y σ2.
Condiciones de Grenander:
G.1 Para toda columna de X, limn→∞ x′jxj = +∞ (los elementos
de xj no degeneran en una sucesión de ceros).
G.2 limn→∞ x
2
ij/(x
′
jxj) = 0 (ningún elemento domina la serie)
G.3 limn→∞X
′X/n = Q, siendo Q una matriz finita y no-singular.
Distribución de y|X
Proposición
En el contexto del modelo clásico, el vector aleatorio y se distribuye
y|X ∼ N
(
Xβ, σ2In
)
. (2)
Demostración.
(a) y|X ∼ N [E (y|X), var(y|X)] ya que toda combinación lineal de
variables normales es también normal.
(b) E (y|X) = E (Xβ|X) + E (ϵ|X) = Xβ
var(y|X) = E
{
[y− E (y|X)] [y− E (y|X)]′ |X
}
= E (ϵϵ′|X)
(c) Cada elemento de E (ϵϵ′|X) es E (ϵiϵi ′ |X). Pero por S.5
E (ϵiϵi ′ |X) = σ2 si i = i ′, o 0 en caso contrario. Entonces,
var(y|X) = σ2In
Distribución de y|X (cont.)
Es interesante deducir la esperanza y la varianza total de y:
E (y) = E [E (y|X)] = E (X)β
var(y) = E [var(y|X)] + var [E (y|X)] = σ2In + var(Xβ), (3)
donde el segundo término de la varianza de y depende de la
estructura de covarianza de X. En general, para cada yi ,
E (yi ) = β
′E (xi )
var(yi ) = σ
2 + E
{
β′ [xi − E (xi )]′ [xi − E (xi )]β
}
= σ2 + β′var(xi )β. (4)
Si los elementos de β son incorrelados, var(xi ) = σ
2
x Ik .
Distribución de y|X (cont.)
Concluimos que
▶ La varianza de yi cuando X es aleatoria es siempre mayor que
cuando X es fija.
▶ La varianza total de yi será tanto más parecida a la varianza
condicional cuanto menor sea la relación de varianzas σ2x/σ
2.
Es decir, si σ2x << σ
2, entonces var(yi ) ≈ σ2.
▶ Se puede verificar fácilmente a partir de (4) que la covarianza
no condicionada entre dos observaciones yi es distinta de cero.
En consecuencia, estas v .a. no son independientes cuando X
es aleatoria.
▶ Si cada xi ∼ N [E (xi ), var(xi )], la distribución de yi es
también normal.
Estimación de β por OLS
Nos interesa estimar β minimizando la SC de ϵ2i , es decir hallar
una solución al problema
min
β
{
(y− Xβ)′ (y− Xβ)
}
Para ello, planteamos la función suma de erorres al cuadrado
L(β|y,X) = (y− Xβ)′ (y− Xβ) = y′y− 2 y′Xβ + β′X′Xβ
y derivamos las condiciones de primer y segundo orden
∂L
∂β̂
= −2X′y+ 2X′Xβ̂ = 0 y ∂
2L
∂β̂∂β̂
′ = 2X
′X > 0,
las cuales conducen al sistema X′Xβ̂ = X′y o bien por S.2
β̂OLS|y,X =
(
X′X
)−1
X′y. (5)
Ejemplo: demanda de las importaciones
Ejemplo 1. Deseamos estimar la función de demanda agregada de
las importaciones.
▶ La variable respuesta (y) es un ı́ndice de importaciones/capita
(años 2004, 2008, 2012 y 2016) base 2012 = 100.
▶ Las variables explicativas son ı́ndices el tipo de cambio real
(x2) y el PIB real/capita (x3)
El modelo subyacente expresado en formato escalar es
yi = β1 + β2 xi1 + β2 xi2 + ϵi , ϵi ∼ N(0, σ2)
y en formato matricial es
y = Xβ + ϵ, ϵ ∼ N(0, σ2In)
Ejemplo: demanda de las importaciones (cont.)
La versión expandida del modelo matricial es
0, 49
0, 82
1, 00
0, 98
 =

1 2, 05 0, 75
1 1, 38 0, 97
1 1, 00 1, 00
1 1, 11 0, 96

 β1β2
β3
+

ϵ1
ϵ2
ϵ3
ϵ4

donde el vector de errores se distribuye

ϵ1
ϵ2
ϵ3
ϵ4
 ∼ N


0
0
0
0
 , σ2

1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1

 .
Ejemplo: demanda de las importaciones (cont.)
Recordando los estimadores OLS y ML, expresiones (5) y (16)
(
X′X
)−1
=
 473, 04 −90, 14 −378, 2−90, 14 18, 00 70, 88
−378, 2 70, 88 304, 39
 X′y =
 3, 294, 22
3, 10
 .
β̂ =
(
X′X
)−1
X′y =
 1, 73−0, 54
−0, 18

El vector de residuos es e = y− Xβ̂ o, en forma expandida,
e1
e2
e3
e4
 =

0, 49
0, 82
1, 00
0, 98
−

1 2, 05 0, 75
1 1, 38 0, 97
1 1, 00 1, 00
1 1, 11 0, 96

 1, 73−0, 54
−0, 18
 =

0, 00
0, 00
−0, 02
0, 02

Propiedades algebraicas del estimador β̂OLS
(a) El vector de residuales e = y− Xβ̂ es ortogonal a las
columnas de X, aunque esta relación no nos da ninguna
información acerca de la relación entre X y ϵ
(b) La suma de los residuales es nula ya que el producto de la
primer columna de X por e es igual a 1′e = 0.
(c) Como consecuencia de (b), el hiperplano Xβ̂ pasa siempre por
el punto medio {x̄, ȳ} donde x̄ = 1′X/n e ȳ = 1′y/n
(d) X′e = 0 es cierto sea cual fuere la distribución del error, ya
que no requerimos que y tuviera distribución normal para
hallar β̂.
Propiedades algebraicas del estimador β̂OLS (cont.)
(e) Los residuos son una transformación lineal del error ya que
e = y− Xβ̂ = y−My = (In −M) ϵ (6)
donde M = X(X′X)−1X′. Al ser In −M una matriz densa, los
residuaos no son independientes entre śı.
(f) El estimador β̂OLS es independiente del vector de residuales,
ya que
cov(β̂, e′ |X) = G var(y|X) (In − XG)′
= σ2G(In −M)
= 0,
donde G = (X′X)−1X′ y tanto β̂ como e son variables
aleatorias normales.
Estimación de σ2 por OLS
Proposición
El estad́ıstico s2 = e′e/(n − k) es un estimador insesgado de la
verdadera varianza del error var(ϵi ) = σ
2.
Demostración.
Sabemos (a) e′e = tr(ee′), (b) E [tr(.)] = tr [E (.)], y
(c) tr(AB) = tr(BA) para A y B conformables.
Luego,
E
(
e′e|X
)
= tr
[
(In −M)E (ϵϵ′|X)(In −M)
]
= σ2 tr (In −M) ,
E
(
e′e|X
)
= σ2
{
n − tr
[
X(X′X)−1X′
]}
= σ2 (n − k). (7)
Estimación de σ2 por OLS (cont.)
Demostración (cont.)
La esperanza incondicional de s2 es
E
(
s2
)
= E
[
E
(
e′e
n − k
∣∣∣∣X)] = σ2 (8)
▶ s2 = e′e/(n− k) es un estimador ḿınimo cuadrático de σ2, ya
que proviene del vector de residuales e = y− Xβ̂OLS.
▶ Los estimadores β̂OLS y s
2 son independientes, como
demostramos en el apéndice A.
Cambio de notación: para simplificar la notación, en los sucesivo
reemplazaremos β̂ por b. ambas formas se utilizan comunmente en
textos de Econometŕıa para referirse al estimador de β.
Ejemplo: demanda de las importaciones (cont.)
Ejemplo 2. Retomamos la función de demanda de importaciones.
Podemos estimarσ2 a través de la suma de residuos al cuadrado
σ̂2OLS =
1
4− 3
[
0, 00 0, 00 −0, 02 0, 02
] 
0, 00
0, 00
−0, 02
0, 02

= 0, 00055.
¡Atención! El estimador máximo verośımil de σ2 es un sesgado,
como veremos más adelante, ya que
σ̂2ML =
e′e
n
=
0, 0066
4
= 0, 00014.
Distribución del vector de residuales eOLS
Proposición
En el modelo clásico de regresión el vector de residuales tiene
distribución normal con parámetros
e|X ∼ N
[
0, σ2(In −M)
]
(9)
Demostración.
(a) e es una combinación lineal del vector de observaciones y cuya
distribución es normal. Luego, e|X tiene distribución normal
con parámetros E (e|X) y var(e|X).
(b) La esperanza condicional de e es
E (e|X) = E (y− X(X′X)−1X′y |X)
= (In −M)E (Xβ + ϵ |X) = 0
ya que MX = X y (por S.3) E (ϵ|X) = 0.
Distribución del vector de residuales eOLS (cont.)
Demostración (cont.)
(c) La varianza condicional de e es
var(e|X) = (In −M) var(ϵ|X) (In −M)′
= σ2(In −M), (10)
donde (In −M) es una matriz idempotente y de rango
incompleto.
Nótese que el vector de residuales también puede escribirse
e = (In −M) y = (In −M) ϵ, (11)
expresión a partir de la cual resulta evidente que los residuales ei
no son independientes entre śı.
Propiedades estad́ısticas deseables de un estimador
Definición
(a) θ̂ es un estimador insesgado de θ si E (θ̂ − θ) = 0.
(b) θ̂ es un estimador eficiente u óptimo de θ si var(θ̂) es ḿınima
entre todos los posibles estimadores de θ.
(c) θ̂ es un estimador consistente de θ si, a medida que crece el
tamaño de la muestra crece, θ̂ converge a θ (θ̂ → θ):
lim
n→∞
P
(
|θ̂n − θ| < δ
)
= 1
donde δ es un vector arbitrario (positivo) tan pequeño como
se desee. Se conoce a esta propiedad como “convergencia en
probabilidad” y se expresa también como
plim θ̂ = θ.
Propiedades estad́ısticas del estimador bOLS
Proposición (Distribución de b)
En el modelo clásico de regresión, el estimador ḿınimo cuadrático
ordinario b|X tiene distribución normal con parámetros
b|X ∼ N
[
β, σ2(X′X)−1
]
, (12)
en tanto que el estimador b incondicional a X se distribuye
b ∼ N
{
β, σ2E
[
(X′X)−1
]}
. (13)
Demostración.
(a) b es esencialmente una transformación lineal del vector
aleatorio normal y. Entonces, si llamamos G = (X′X)−1X′,
b = Gy es también tiene distribución normal con esperanza y
varianza condicional E (b|X) y var(b|X).
Propiedades estad́ısticas del estimador bOLS (cont.)
Demostración (cont.)
(b) La esperanza y la varianza de b condicionales a X son,
respectivamente,
E (b|X) = β + GE (ϵ|X) = β
var(b|X) = GE (ϵϵ′|X)G′ = σ2(X′X)−1. (14)
(c) La esperanza y la varianza no condicionadas son,
respectivamente,
E (b) = E [E (b|X)] = β
var(b) = E [var(b|X)] + var [E (b|X)] = σ2E
[
(X′X)−1
]
.
La proposición anterior demuestra que b es un estimador
insesgado de β.
Propiedades estad́ısticas del estimador bOLS (cont.)
Teorema (Gauss-Markov)
En el modelo clásico de regresión, el estimador bOLS es un
estimador óptimo (o de ḿı nima varianza) en la clase de
estimadores lineales insesgados.
Demostración.
Sea bOLS = Gy el estimador OLS y b̃ = (G+ A)y otro estimador
lineal de β, donde A es una matriz de k × n elementos no todos
nulos. Entonces,
(a) b̃ es un estimador insesgado si y sólo si AX = 0, ya que
E (b̃) = (G+ A)Xβ + (G+ A)E (ϵ)
= (Ik + AX)β,
en donde resulta evidente que nuestro enunciado es cierto.
Propiedades estad́ısticas del estimador bOLS (cont.)
Demostración (cont.)
(b) var(b̃) = σ2(X′X)−1 + σ2AA′ si y sólo si b̃ es un estimador
insesgado de β.
var(b̃) = (G+ A)var(y)(G+ A)′
= σ2GG′ + σ2GA′ + σ2AG′ + σ2AA′,
expresión que se reduce a var(b̃) = σ2(X′X)−1 + σ2AA′ para
todo AX = 0.
(c) AA′ es una matriz semi-definida positiva, (X′X)−1 es una
matriz positiva definida y σ2 > 0. Luego, para cualquier
vector arbitrario w,
var(w′b̃) = σ2
[
w′(X′X)−1w+w′AA′w
]
= var(w′bOLS) + σ
2w′AA′w ≥ 0.
Propiedades estad́ısticas del estimador bOLS (cont.)
Teorema (Consistencia de b)
Dada una muestra {y,X} que satisface los supuestos del modelo
clásico y las condiciones de Grenander, a medida que n → ∞ el
estimador b|XOLS converge al verdadero vector de parámetros β.
En otras palabras, b es un estimador consistente de β.
Demostración.
Recordemos los supuestos S.3 y S.5 del modelo clásico y asumamos
que X satisface las condiciones de Grenander. El estimador OLS es
b = β + (X′X)−1X′ϵ.
Tomando ĺımites para n → ∞ en ambos lados de la igualdad
lim
n→∞
bn = lim
n→∞
[
β +
(
X′X
n
)−1(
X′ϵ
n
)]
Propiedades estad́ısticas del estimador bOLS (cont.)
Demostración (cont.)
lim
n→∞
bn = β + lim
n→∞
(
X′X
n
)−1
lim
n→∞
(
X′ϵ
n
)
= β +Q−1 lim
n→∞
(
X′ϵ
n
)
,
donde sabemos que Q−1 existe por la tercera condición de
Grenander y por el teorema de Slutsky . Pero por Ley Débil de los
Grandes Números en una sucesión de v .a. i.i.d. con esperanza y
varianza finitas, el valor medio de la sucesión converge en
probabilidad a la verdadera media de la población. Es decir que si
x′jϵ es la suma de una sucesión de variables i.i.d., basta probar que
cada término xijϵi tiene esperanza y varianza finitas para garantizar
convergencia en probabilidad de x′jϵ/n.
Propiedades estad́ısticas del estimador bOLS (cont.)
Demostración (cont.)
Luego,
E
(
X′ϵ
n
)
= 0 y var
(
X′ϵ
n
)
=
σ2
n
E
(
X′X
n
)
.
Finalmente, invocando la Ley Débil de los Grandes Números vemos
que
plimbn = β +Q
−1 plim
(
X′ϵ
n
)
= β +Q−1 0 = β
por lo cual concluimos que b es un estimador consistente de β.
Este teorema también demuestra que la media y varianza de bOLS
son finitas, condición necesaria para invocar el Teorema Central del
Ĺımite, cuya expresión es
√
n(b− β) d−→N(0, σ
2Q−1). (15)
Estimación de β y σ2 por máxima verośımilitud exacta
Recordemos la f.d.p. conjunta de los errores ϵi = yi − β′xi
f (ϵ|θ) =
n∏
i=1
f (ϵi |θ) =
n∏
i=1
1
σ
√
2π
e−ϵ
2
i /2σ
2
, donde θ =
[
β
σ2
]
.
Nos interesa hallar un vector θ̂ tal que la verosimilitud del supuesto
de esfericidad sea máxima. Si planteamos la función log-verośımil
lnL(θ|y,X) = −n
2
ln(2π)− 1
2
ln |σ2In| −
1
2
(y− Xβ)′(σ2In)−1(y− Xβ)
obtenemos las condiciones de primer orden
∂ lnL/∂β̂ = X′(σ̂2In)−1y− X′(σ̂2In)−1Xβ̂ = 0, ∀ σ̂2 > 0
∂ lnL/∂σ̂2 = −1
2
( n
σ̂2
)
+
1
2
(y− Xβ̂)′(σ̂4In)−1(y− Xβ̂) = 0.
Estimación de β y σ2 por máxima verośımilitud exacta
(cont.)
y las de segundo orden
∂2 lnL
∂β̂∂β̂
′ = −X
′(σ̂2In)
−1X < 0
∂2 lnL
∂2σ̂2
=
1
2
( n
σ̂4
)
− (y− Xβ)′(σ̂6In)−1(y− Xβ) < 0
A partir de las condiciones de primer orden obtenemos
β̂ML =
(
X′X
)−1
X′y y σ̂2ML =
e′e
n
. (16)
Se puede ver que el estimador σ̂2ML es un estimador sesgado
aunque converge a σ2 cuando n crece indefinidamente.
lim
n→∞
E
(
e′e
n
)
= lim
n→∞
n − k
n
σ2 = σ2
Apéndice A. Relación entre los estimadores bOLS y s2
Teorema (Independencia entre b y s2)
Bajo los supuestos del modelo (1), los estad́ısticos (b− β)/σ y
e′e/σ2 son independientes.
Demostración.
(a) Expresemos la forma cuadrática e′e/σ2 como
e′e
σ2
=
( ϵ
σ
)
(In −M)
( ϵ
σ
)
donde (In −M) es una matriz simétrica e idempotente,
M = XG y ϵ/σ es una v .a. distribuida ϵ/σ ∼ N(0, In).
(b) Mediante la relación b = β + Gϵ escribamos (b− β)/σ como
b− β
σ
= G
( ϵ
σ
)
.
Apéndice A. Relación entre los estimadores bOLS y s2
(cont.)
Demostración (cont.)
(c) Recordemos el teorema de Kac, que establece que dada una
forma lineal Az y una forma cuadrática z′Bz donde
z ∼ N(0, I), Az y z′Bz son independientes si y sólo si
AB = 0. Luego resulta evidente que (b− β)/σ y e′e/σ2 son
independientes ya que
G(In −M) = 0.
Lógicamente, este resultado es condicional a X.
Apéndice A. Relación entre los estimadores bOLS y s2
(cont.)
El teorema anterior puede extenderse inmediatamente a
combinaciones lineales de b.
Consideremos, por ejemplo, la combinación Rb− r donde R y r
son matrices de constantes conocidas. La esperanza de ésta es
E (Rb− r) = Rβ − r,
de modo que podemos expresar (f (b)−E [f (b)])/σ como
1
σ
R(b− β) = RG
( ϵ
σ
)
.
donde verificamos que
RG(In −M) = 0,
por lo cual R(b− β)/σ es también independiente de e′e/σ2.
Apéndice B. El estimador lineal insesgado óptimo (BLUE)
En este caso se trata de hallar un estimador β̂ que satisfaga
simultáneamente
(1) β̂ = Ay, es decir que β̂ sea una función lineal del vector de
observaciones y.
(2) E (β̂ − β) = 0, es decir, (AX− Ik)β = 0 ⇐⇒ AX− Ik = 0,
lo que implica que tr(AX− Ik) = 0.
(3) min
{
tr
[
var(β̂)
]}
o dicho de otro modo que tr [var(Ay)] sea
ḿınima.
Para hallar este estimador planteamos la función objetivo
restringida
L(A,Λ|y,X) = 1
2
tr [var(Ay)]− tr [Λ(AX− Ik)] .
Apéndice B. El estimador lineal insesgado óptimo (cont.)
Las condiciones de primer orden
∂L
∂A
=
σ2
2
∂ tr(AA′)
∂A
− ∂ tr [Λ(AX− I)]
∂A
= 0
∂L
∂Λ
= −∂ tr [Λ(AX− I)]
∂Λ
= 0
cuyas soluciones son, respectivamente,
1
2
σ2(2A) = Λ′X′ y AX = Ik
Post-multiplicando la primer igualdad por X y reemplazando AX
por Ik obtenemos las soluciones
Λ′ = σ2(X′X)−1 y A = (X′X)−1X′,
las cuales conducen al conocido estimador OLS. Las segundas
derivadas son
∂2L
∂A∂A′
= σ2
∂A
∂A′
− ∂Λ
′X′
∂A′
= σ2Ik > 0
Apéndice C. Estimación recursiva de β (Newton-Raphson)
Dada una función f (z), ésta puede descomponerse en serie de
Taylor en el entorno de zm de acuerdo a la expresión
f (z) = f (zm) + (z− zm)′
∂f (zm)
∂zm
+
1
2
(z− zm)′
∂2f (zm)
∂zmz′m
(z− zm) + R
En particular, en zm+1, la función f (z) toma aproximadamente el
valor
f (zm+1) ≈ f (zm) + (zm+1 − zm)′
∂f (zm)
∂zm
En el caso que f (zm+1) = 0
zm+1 ≈ zm −
[
∂f (zm)
∂zm
]−1
f (zm).
Apéndice C. Estimación recursiva de β (Newton-Raphson)
(cont.)
Ahora bien, si recordamos el procedimiento de optimización por
OLS y ML, sabemos que en el punto cŕıtico f (z) = ∂L/∂β̂ = 0.
Luego,
β̂m+1 = β̂m −
[
∂2L
∂β̂m∂β̂
′
m
]−1
∂L
∂β̂m
,
donde ∂L/∂β̂m puede ser tanto la derivada primera de la función
suma de errores de errores al cuadrado o log-verośımil, y m es el
número de iteración. Nótese que si ∂L/∂β̂m es una función lineal
β̂m+1 = β̂m −
[
2 (X′X)
]−1 [−2X′y+ 2 (X′X)β̂m]
= (X′X)−1X′y
obtenemos el estimador OLS como cab́ıa esperar.
	Definición y supuestos del modelo clásico
	El estimador mínimo cuadrático ordinario
	Propiedades estadísticas del estimador OLS
	Estimación de bold0mu mumu y 2 por máxima verosímilitud exacta
	Apéndice A. Relación entre los estimadores OLS
	Apéndice B. El estimador lineal insesgado óptimo
	Apéndice C. Estimación recursiva de bold0mu mumu (Newton-Raphson)

Continuar navegando

Contenido elegido para ti

24 pag.
Apuntes Econometría

User badge image

Central de Apuntes

43 pag.
Capitulo3Final

User badge image

Apuntes Generales

17 pag.
Clase11 - Zaida Moreno Páez

User badge image

Desafio PASSEI DIRETO