Clase 5 - Propiedades estadísticas del estimador MC - Zaida Moreno Páez

•
Outros

Desafio PASSEI DIRETO
28/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

108.469 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
ˇˇ
Econometrı́a I
EAE2510
Clase 5
Propiedades estadı́sticas del estimador MCO
Miriam Artiles
Instituto de Economı́a
Pontificia Universidad Católica de Chile
Segundo Semestre 2021
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
En la clase de hoy1
• La clase pasada vimos propiedades aritméticas del estimador MCO y
supuestos del modelo de regresión lineal
→ se cumplen siempre por construcción!
• Hoy vamos a ver las propiedades estadı́sticas de este estimador
◦ Hay algunas que son válidas en muestras pequeñas y otras que son propiedades
asintóticas (se cumplen solo en muestras grandes)
◦ Hoy nos centramos en las propiedades en muestras pequeñas
——–
1 Wooldridge, capı́tulos 2, 3 y 4
1 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Supuestos del modelo de regresión lineal
Recordatorio
1. Linealidad en parámetros
2. Muestra aleatoria
3. Condición de identificación o no multicolinealidad
4. Ortogonalidad o exogeneidad
5. Homocedasticidad
2 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
1. Esperanza del estimador
3 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
El estimador MCO es insesgado
• Teorema: bajo los supuestos 1 a 4, el estimador MCO de β es insesgado,
E(β̂|X) = β
• Demostración:
◦ El estimador MCO es
β̂ = (X>X)−1X>y
= (X>X)−1X>(Xβ + u)
= ���
�
(X>X)−1���
�
(X>X)β + (X>X)−1X>u
= β + (X>X)−1X>u
◦ Por lo tanto,
E(β̂|X) = β + (X>X)−1X>E(u|X)
= β (por supuesto de exogeneidad)
• Esto implica que el promedio de los estimadores β̂ obtenidos con todas las
muestras aleatorias posibles es igual a β
4 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
2. Varianza del estimador
5 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Varianza del estimador MCO
• Teorema: bajo los supuestos 1 a 5, la varianza del estimador MCO de β es
V ar(β̂|X) = σ2(X>X)−1
• Demostración:
V ar(β̂|X) = E[(β̂ − E(β̂))(β̂ − E(β̂))>|X] (def. de varianza condicional)
= E[(β̂ − β)(β̂ − β)>|X] (β̂ insesgado)
= E[((X>X)−1X>u)((X>X)−1X>u)>|X]
= E[(X>X)−1X>uu>X(X>X)−1|X]
= (X>X)−1X>E[uu>|X]X(X>X)−1
= (X>X)−1X>σ2I X(X>X)−1 (por homocedasticidad)
= σ2(X>X)−1���
�
(X>X)���
�
(X>X)−1(σ2 escalar)
= σ2(X>X)−1
6 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Varianza del estimador MCO
• Teorema: bajos los supuestos 1 a 5 se cumple
V ar(β̂j |X) =
σ2
SCTj(1−R2j )
∀j = 1, . . . , k
Donde
◦ SCTj =
∑n
i=1(xij − x̄j)
2 suma total de los cuadrados de xj
◦ R2j es el R
2 resultante de la regresión de xj (como variable dependiente) en todas
las otras variables independientes, incluida la constante
◦ Es decir, el R2 de la siguiente regresión:
xji = γ0 + γ1x1i + γ2x2i...+ γj−1xj−1i + γj+1xj+1i + ....γkxki + �i
• R2j indica cuánto de la variable xj es explicado por las otras variables
independientes
7 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Varianza del estimador MCO
• V ar(β̂j |X) es creciente en σ2
◦ Mientras más ruido haya en la ecuación más difı́cil es estimar el efecto parcial de xj
en y
◦ Recuerde que σ2 es una caracterı́stica de la población (no está relacionado con el
tamaño de la muestra)
• V ar(β̂j |X) es decreciente en SCTj
◦ Esto implica que se prefiere una mayor variación muestral en xj
◦ Una alternativa para aumentar esta cantidad y reducir la varianza es aumentar el
tamaño muestral
◦ El supuesto 3 (no multicolinealidad) asegura que SCTj 6= 0
• V ar(β̂j |X) es creciente en R2j
◦ El supuesto 3 (no multicolinealidad) asegura que R2j < 1, sin embargo, cuando
R2j → 1, V ar(β̂j |X)→∞
8 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Problema de multicolinealidad
• La multicolinealidad es un “problema” que no está bien definido, es decir, no
hay un valor lı́mite de R2j a partir del cual hablamos de multicolinealidad
• Un intento de disminuir la varianza del estimador podrı́a ser eliminar uno de los
regresores, lo que hace disminuir R2j . Pero como se verá más adelante, la
omisión de variables relevantes produce estimadores sesgados
• En ciertas ocasiones, altas correlaciones entre algunos regresores es
irrelevante para el estudio. Considere el modelo
y = β0 + β1x1 + β2x2 + β3x3 + u
donde x2 y x3 están altamente correlacionadas, pero la variable de interés, x1,
no está correlacionada con x2 ni x3 ¿Cómo es V ar(β̂1|X)?
La correlación entre x2 y x3 no tiene efecto directo sobre V ar(β̂1|X). Si x1 no
está correlacionada con x2 y x3, entonces R21 = 0 y V ar(β̂1|X) = σ2/SCT1
9 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Problema de multicolinealidad
• La multicolinealidad es un “problema” que no está bien definido, es decir, no
hay un valor lı́mite de R2j a partir del cual hablamos de multicolinealidad
• Un intento de disminuir la varianza del estimador podrı́a ser eliminar uno de los
regresores, lo que hace disminuir R2j . Pero como se verá más adelante, la
omisión de variables relevantes produce estimadores sesgados
• En ciertas ocasiones, altas correlaciones entre algunos regresores es
irrelevante para el estudio. Considere el modelo
y = β0 + β1x1 + β2x2 + β3x3 + u
donde x2 y x3 están altamente correlacionadas, pero la variable de interés, x1,
no está correlacionada con x2 ni x3 ¿Cómo es V ar(β̂1|X)?
La correlación entre x2 y x3 no tiene efecto directo sobre V ar(β̂1|X). Si x1 no
está correlacionada con x2 y x3, entonces R21 = 0 y V ar(β̂1|X) = σ2/SCT1
9 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Estimador MCO de σ2
• Recuerde que la varianza de β̂j está dada por:
V ar(β̂j) =
σ2
SCTj(1−R2j )
sin embargo, en la práctica se desconoce σ2 (poblacional)
• Dado que σ2 = E[u2], se tiene que
∑n
i=1 u
2
i
n es un estimador insesgado de σ
2
• Pero ui = yi − β0 − β1x1 − . . .− βkxk es desconocido, porque no se conoce
{β0, . . . , βk}
• Sea
σ̂2 =
∑n
i=1 û
2
i
n− k − 1
=
û>û
n− k − 1
• Proposición: bajo los supuestos 1 a 5 se cumple que E[σ̂2|X] = σ2
• Donde n− k − 1 son los grados de libertad, igual al número de observaciones
(n) menos el número de parámetros estimados (k + 1)
• ¿Por qué el denominador es n− k − 1 en lugar de n?
El valor esperado de la suma de los residuos cuadrados es (n− k − 1)σ2
10 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Estimador MCO de σ2
• Recuerde que la varianza de β̂j está dada por:
V ar(β̂j) =
σ2
SCTj(1−R2j )
sin embargo, en la práctica se desconoce σ2 (poblacional)
• Dado que σ2 = E[u2], se tiene que
∑n
i=1 u
2
i
n es un estimador insesgado de σ
2
• Pero ui = yi − β0 − β1x1 − . . .− βkxk es desconocido, porque no se conoce
{β0, . . . , βk}
• Sea
σ̂2 =
∑n
i=1 û
2
i
n− k − 1
=
û>û
n− k − 1
• Proposición: bajo los supuestos 1 a 5 se cumple que E[σ̂2|X] = σ2
• Donde n− k − 1 son los grados de libertad, igual al número de observaciones
(n) menos el número de parámetros estimados (k + 1)
• ¿Por qué el denominador es n− k − 1 en lugar de n?
El valor esperado de la suma de los residuos cuadrados es (n− k − 1)σ2
10 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Estimador MCO de σ2
• Recuerde que la varianza de β̂j está dada por:
V ar(β̂j) =
σ2
SCTj(1−R2j )
sin embargo, en la práctica se desconoce σ2 (poblacional)• Dado que σ2 = E[u2], se tiene que
∑n
i=1 u
2
i
n es un estimador insesgado de σ
2
• Pero ui = yi − β0 − β1x1 − . . .− βkxk es desconocido, porque no se conoce
{β0, . . . , βk}
• Sea
σ̂2 =
∑n
i=1 û
2
i
n− k − 1
=
û>û
n− k − 1
• Proposición: bajo los supuestos 1 a 5 se cumple que E[σ̂2|X] = σ2
• Donde n− k − 1 son los grados de libertad, igual al número de observaciones
(n) menos el número de parámetros estimados (k + 1)
• ¿Por qué el denominador es n− k − 1 en lugar de n?
El valor esperado de la suma de los residuos cuadrados es (n− k − 1)σ2
10 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
3. Teorema de Gauss - Markov
11 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Teorema de Gauss - Markov
• Acabamos de ver que el estimador MCO de β es insesgado
(bajo los supuestos 1-4)
• Pero existen muchos estimadores insesgados de β,
¿por qué usar el estimador MCO?
• Teorema de Gauss - Markov: bajo los supuestos 1 a 5, el estimador MCO de
β es el que tiene mı́nima varianza de entre todos los estimadores lineales
insesgados de β
→ El estimador MCO es el mejor (menor varianza) estimador lineal insesgado
(MELI / BLUE)
12 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Teorema de Gauss - Markov
• Acabamos de ver que el estimador MCO de β es insesgado
(bajo los supuestos 1-4)
• Pero existen muchos estimadores insesgados de β,
¿por qué usar el estimador MCO?
• Teorema de Gauss - Markov: bajo los supuestos 1 a 5, el estimador MCO de
β es el que tiene mı́nima varianza de entre todos los estimadores lineales
insesgados de β
→ El estimador MCO es el mejor (menor varianza) estimador lineal insesgado
(MELI / BLUE)
12 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
4. Distribución del estimador
13 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Supuesto 6: normalidad de u
• Este supuesto es importante porque para realizar inferencia acerca de los β’s y
la construcción de intervalos de confianza se necesita la distribución de sus
estimadores β̂ (no basta con conocer su esperanza y varianza)
• Supuesto 6: El término de error u (poblacional) es independiente de las
variables explicativas X ’s y sigue una distribución normal con media cero y
varianza σ2:
u ∼ N(0, σ2)
• Esto implica que
y|X ∼ N(X β, σ2)
14 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Distribución del estimador de MCO
• Teorema: bajo los supuestos 1 a 6 se cumple
β̂j |X ∼ N(E(β̂j), V ar(β̂j |X)) = N(βj , V ar(β̂j |X))
• Esto implica
β̂j − βj |X ∼ N(0, V ar(β̂j |X))
• Por lo que, condicional en las variables regresoras X ,
β̂j − βj√
V ar(β̂j |X)
∼ N(0, 1)
• ¿Qué ocurre con V ar(β̂j |X)? Depende de σ2 (no observado)
———
Nota. Si ε|X ∼ N(µ(X), ω(X)), entonces:
B(X)ε|X ∼ N(B(X)µ(X), B(X)ω(X)B(X)>)
15 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Distribución del estimador de MCO
• Teorema: bajo los supuestos 1 a 6 se cumple
β̂j |X ∼ N(E(β̂j), V ar(β̂j |X)) = N(βj , V ar(β̂j |X))
• Esto implica
β̂j − βj |X ∼ N(0, V ar(β̂j |X))
• Por lo que, condicional en las variables regresoras X ,
β̂j − βj√
V ar(β̂j |X)
∼ N(0, 1)
• ¿Qué ocurre con V ar(β̂j |X)? Depende de σ2 (no observado)
———
Nota. Si ε|X ∼ N(µ(X), ω(X)), entonces:
B(X)ε|X ∼ N(B(X)µ(X), B(X)ω(X)B(X)>)
15 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Distribución del estimador de MCO
• Teorema: bajo los supuestos 1 a 6 se cumple
β̂j |X ∼ N(E(β̂j), V ar(β̂j |X)) = N(βj , V ar(β̂j |X))
• Esto implica
β̂j − βj |X ∼ N(0, V ar(β̂j |X))
• Por lo que, condicional en las variables regresoras X ,
β̂j − βj√
V ar(β̂j |X)
∼ N(0, 1)
• ¿Qué ocurre con V ar(β̂j |X)? Depende de σ2 (no observado)
———
Nota. Si ε|X ∼ N(µ(X), ω(X)), entonces:
B(X)ε|X ∼ N(B(X)µ(X), B(X)ω(X)B(X)>)
15 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Distribución del estimador de MCO
• Recuerde que el estimador σ̂2 = û
>û
n−k−1 es una variable aleatoria
• Se puede demostrar que (n− k − 1) σ̂
2
σ2 sigue una distribución χ
2 con
n− k − 1 grados de libertad
• Teorema: bajo los supuestos 1 a 6 se cumple que, condicional en las variables
regresoras X ,
β̂j − βj
s.e.(β̂j)
∼ tn−k−1
donde el standard error (s.e.) es,
s.e.(β̂j) =
√
ˆV ar(β̂j |X) =
√
σ̂2
SCTj(1−R2j )
16 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Conclusiones
• Bajo los supuestos de 1 a 5, el estimador de MCO es insesgado
• Su varianza es también la menor posible de entre todos los estimadores
lineales insesgados (Gauss-Markov)
• Bajo los supuestos de 1 a 5, la varianza se puede estimar con un estimador
insesgado
• Bajo el supuesto adicional de la normalidad de u, el estimador β̂ tiene una
distribución normal
17 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Apendice: Demostración de la definición de la varianza
• Sin perder generalidad, suponga que j = 1
• Regresione x1 en x2, . . . , xk para obtener x1 = x̂1 + r̂1
• Usando las ecuaciones normales se obtiene
0 = x>1 û = (x̂1 + r̂1)
>û = r̂1
>û =
0 = r̂1
>(y − ŷ) = r̂1>(y − β̂1x1) = r̂1>(y − β̂1r̂1)
• Despejando
β̂1 =
r̂1
>y
r̂1
>r̂1
=
r̂1
>(Xβ + u)
r̂1
>r̂1
=
r̂1
>(β1x1 + u)
r̂1
>r̂1
=
r̂1
>(β1r̂1 + u)
r̂1
>r̂1
= β1 +
r̂1
>u
r̂1
>r̂1
• Por lo tanto
V ar(β̂1|X) =
σ2
r̂1
>r̂1
• Pero SSR1 = r̂1>r̂1, lo que implica que
V ar(β̂1|X) =
σ2
SCT1(1−R21)
18 / 19
Introducción Esperanza del estimador Varianza del estimador Gauss - Markov Distribución del estimador Resumen
Apendice: Demostración del teorema de Gauss-Markov
• Demostración:
◦ Sea β̃ = C y otro estimador lineal insesgado de β, donde C es una matriz de
(k + 1)× n.
◦ Como β̃ es insesgado se debe cumplir que C X = I . ¿Por qué?
◦ Además la varianza de β̃ es V ar(β̃|X) = σ2C C>
◦ Suponga que D = C − (X>X)−1X>, por lo tanto, Dy = β̃ − β̂.
◦ Se puede demostrar que
V ar(β̃|X) = V ar(β̂|X) + σ2DD> ≥ V ar(β̂|X)
19 / 19
	Introducción
	Esperanza del estimador
	Varianza del estimador
	Gauss - Markov
	Distribución del estimador
	Resumen
Clase 5 - Propiedades estadísticas del estimador MC - Zaida Moreno Páez

Outros

Otros

Continuar navegando

Otros materiales