Logo Studenta

Clase 4 - Estimador MCO

¡Este material tiene más páginas!

Vista previa del material en texto

ˇˇ
Econometrı́a I
EAE2510
Clase 4
Propiedades algebraicas del estimador MCO
y supuestos del modelo
Miriam Artiles
Instituto de Economı́a
Pontificia Universidad Católica de Chile
Segundo Semestre 2021
Introducción Propiedades Supuestos Bondad del ajuste
En la última clase
• Derivamos el estimador MCO para el modelo de regresión lineal
• El estimador MCO minimiza la suma de los residuos al cuadrado
1 / 28
Introducción Propiedades Supuestos Bondad del ajuste
En la clase de hoy1
1. Propiedades algebraicas del estimador MCO
2. Supuestos del modelo de regresión lineal
3. Bondad del ajuste
——–
1 Wooldridge, capı́tulos 2 y 3
2 / 28
Introducción Propiedades Supuestos Bondad del ajuste
1. Propiedades algebraicas del estimador MCO
3 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Del problema de minimización de los residuos al cuadrado se obtienen tres
propiedades de los estimadores MCO
• Se trata de propiedades algebraicas, es decir, por construcción son válidas en
cualquier muestra de datos (pequeñas y grandes)
4 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Las condiciones de primer orden del problema de optimización son:
β̂0 : −
2
n
n∑
i=1
(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
ûi = 0 (1)
β̂1 : −
2
n
n∑
i=1
xi(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
xiûi = 0 (2)
• Propiedad (1):
∑n
i=1 ûi = 0→
1
n
∑n
i=1 ûi = 0
◦ β̂0 y β̂1 se eligen de manera que la suma de los residuos, y por lo tanto el promedio
muestral de los residuos, es cero
• Propiedad (2):
∑n
i=1 xiûi = 0→
1
n
∑n
i=1 xiûi = 0
◦ β̂0 y β̂1 se eligen de manera que la covarianza muestral entre residuos y regresores
es cero. De (1) se tiene que
∑n
i=1 xiûi es proporcional a la covarianza.
• Las propiedades (1) y (2) implican que la covarianza muestral entre valores
ajustados (ŷi = β̂0 + β̂1xi) y residuos (ûi) es cero:∑n
i=1 ŷiûi =
∑n
i=1(β̂0 + β̂1xi)ûi = 0
5 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Las condiciones de primer orden del problema de optimización son:
β̂0 : −
2
n
n∑
i=1
(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
ûi = 0 (1)
β̂1 : −
2
n
n∑
i=1
xi(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
xiûi = 0 (2)
• Propiedad (1):
∑n
i=1 ûi = 0→
1
n
∑n
i=1 ûi = 0
◦ β̂0 y β̂1 se eligen de manera que la suma de los residuos, y por lo tanto el promedio
muestral de los residuos, es cero
• Propiedad (2):
∑n
i=1 xiûi = 0→
1
n
∑n
i=1 xiûi = 0
◦ β̂0 y β̂1 se eligen de manera que la covarianza muestral entre residuos y regresores
es cero. De (1) se tiene que
∑n
i=1 xiûi es proporcional a la covarianza.
• Las propiedades (1) y (2) implican que la covarianza muestral entre valores
ajustados (ŷi = β̂0 + β̂1xi) y residuos (ûi) es cero:∑n
i=1 ŷiûi =
∑n
i=1(β̂0 + β̂1xi)ûi = 0
5 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Las condiciones de primer orden del problema de optimización son:
β̂0 : −
2
n
n∑
i=1
(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
ûi = 0 (1)
β̂1 : −
2
n
n∑
i=1
xi(yi − β̂0 − β̂1xi) = 0←→
n∑
i=1
xiûi = 0 (2)
• Propiedad (1):
∑n
i=1 ûi = 0→
1
n
∑n
i=1 ûi = 0
◦ β̂0 y β̂1 se eligen de manera que la suma de los residuos, y por lo tanto el promedio
muestral de los residuos, es cero
• Propiedad (2):
∑n
i=1 xiûi = 0→
1
n
∑n
i=1 xiûi = 0
◦ β̂0 y β̂1 se eligen de manera que la covarianza muestral entre residuos y regresores
es cero. De (1) se tiene que
∑n
i=1 xiûi es proporcional a la covarianza.
• Las propiedades (1) y (2) implican que la covarianza muestral entre valores
ajustados (ŷi = β̂0 + β̂1xi) y residuos (ûi) es cero:∑n
i=1 ŷiûi =
∑n
i=1(β̂0 + β̂1xi)ûi = 0
5 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Propiedad (3): El punto (ȳ, x̄) se encuentra siempre sobre la lı́nea de
regresión de MCO
n∑
i=1
ûi = 0 ↔
n∑
i=1
(yi − β̂0 − β̂1xi1 . . .− β̂kxik) = 0
↔ 1
n
n∑
i=1
yi =
1
n
n∑
i=1
β̂0 + . . .+
1
n
n∑
i=1
β̂kxik
↔ ȳ = β̂0 + β̂1x̄1 + β̂2x̄2 . . .+ β̂kx̄k
• Es decir, cuando xij = x̄j , para todo j = 1, ..., k, el valor predicho o ajustado
ŷi es igual a la media muestral ȳ = 1n
∑n
i=1 yi
6 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Propiedades algebraicas del estimador MCO
• Versión matricial de las propiedades en el modelo de regresión lineal múltiple
• De las ecuaciones normales:
(X>X)β̂ = (X>y)⇒ X>(Xβ̂ − y) = 0⇒ X>û = 0
• Esto implica que:
X>û =

1 · · · 1
x11 · · · xn1
...
. . .
...
x1k · · · xnk


û1
...
ûn
 =

∑n
i=1 ûi∑n
i=1 xi1ûi
...∑n
i=1 xikûi
 =

0
0
...
0

• Los residuos suman cero y son ortogonales a los regresores
n∑
i=1
ûi = 0 y x
>
j û = 0 ∀j
• Esto además implica que ŷ>û = β̂>X>û = 0
7 / 28
Introducción Propiedades Supuestos Bondad del ajuste
2. Supuestos del modelo de regresión lineal
8 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 1: linealidad en parámetros
• La relación poblacional entre las variables es lineal:
y = X β + u (3)
= β0 + β1x1 + β2x2 + . . .+ βkxk + u (4)
donde β0, β1, . . . , βk son parámetros poblacionales (desconocidos) y u
representa el componente aleatorio que llamamos término de error o
perturbación
9 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 1: linealidad en parámetros
• Forma funcional lineal en los parámetros
10 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 1: linealidad en parámetros
• Si el modelo económico no es lineal en los parámetros, hay que linealizarlo, en
la medida de los posible
• Por ejemplo:
Y = AKα1Qα2Lα3
• Podemos expresar un modelo lineal en parámetros de la siguiente forma:
log(Y ) = log(A)︸ ︷︷ ︸
≡α0
+α1 log(K) + α2 log(Q) + α3 log(L) + u
11 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 2: muestra aleatoria
• Las n observaciones provienen de una muestra aleatoria de la población,
{(xi1, xi2, . . . , xik, yi) : i = 1, 2, . . . , n}
• Esto significa que las observaciones son independientes unas de otras, lo que
implica que
Cov(ui, uj |X) = 0 ∀i 6= j
12 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 3: condición de identificación o no multicolinealidad
• No hay colinealidad perfecta: ninguna de las variables explicativas es constante
y no hay ninguna relación lineal exacta entre las variables explicativas
• Esto permite que las variables explicativas estén correlacionadas; pero no que
estén perfectamente correlacionadas
• Para esto necesitamos que la matriz X de dimensión (n× (k + 1)) tenga rango
columna completo, es decir, rango columna igual a (k + 1)
◦ Recuerda: el rango columna de una matriz es el número de columnas linealmente
independientes
• Esto implica:
◦ Las columnas de la matriz X son linealmente independientes; no hay relaciones
lineales exactas entre las variables explicatorias
◦ Existe la inversa de (X>X)
◦ n ≥ k + 1
13 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 3: condición de identificación o no multicolinearidad
• Si una variable explicativa del modelo es una función lineal exacta de las otras
variables explicativas, entonces se dice que el modelo sufre de colinealidad
perfecta y que no puede ser estimado por MCO
• Ejemplos:
1. Incluir la misma variable explicativa medida en diferentes unidades: x1=ingreso
medido en dólares, x2=ingreso medido en miles de dólares (x1 = 1000 · x2)
2. Suponga que hay dos candidatos electorales. Sea voteA el porcentaje de votos
obtenidos por el candidato A, sea expendAlos gastos de campaña del candidato
A, sea expendB los gastos de campaña del candidato B y sea totexpend el total
de los gastos de campaña, especificamos el modelo:
voteA = β0 + β1expendA+ β2expendB + β3totexpend+ u
− El modelo sufre de colinealidad perfecta porque totexpend = expendA + expendB
− Una de las tres variables es redundante
− Solución: eliminar una de las tres variables del modelo
14 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 3: condición de identificación o no multicolinearidad
• Si una variable explicativa del modelo es una función lineal exacta de las otras
variables explicativas, entonces se dice que el modelo sufre de colinealidad
perfecta y que no puede ser estimado por MCO
• Ejemplos:
1. Incluir la misma variable explicativa medida en diferentes unidades: x1=ingreso
medido en dólares, x2=ingreso medido en miles de dólares (x1 = 1000 · x2)
2. Suponga que hay dos candidatos electorales. Sea voteA el porcentaje de votos
obtenidos por el candidato A, sea expendA los gastos de campaña del candidato
A, sea expendB los gastos de campaña del candidato B y sea totexpend el total
de los gastos de campaña, especificamos el modelo:
voteA = β0 + β1expendA+ β2expendB + β3totexpend+ u
− El modelo sufre de colinealidad perfecta porque totexpend = expendA + expendB
− Una de las tres variables es redundante
− Solución: eliminar una de las tres variables del modelo
14 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 3: condición de identificación o no multicolinearidad
• Si una variable explicativa del modelo es una función lineal exacta de las otras
variables explicativas, entonces se dice que el modelo sufre de colinealidad
perfecta y que no puede ser estimado por MCO
• Ejemplos:
1. Incluir la misma variable explicativa medida en diferentes unidades: x1=ingreso
medido en dólares, x2=ingreso medido en miles de dólares (x1 = 1000 · x2)
2. Suponga que hay dos candidatos electorales. Sea voteA el porcentaje de votos
obtenidos por el candidato A, sea expendA los gastos de campaña del candidato
A, sea expendB los gastos de campaña del candidato B y sea totexpend el total
de los gastos de campaña, especificamos el modelo:
voteA = β0 + β1expendA+ β2expendB + β3totexpend+ u
− El modelo sufre de colinealidad perfecta porque totexpend = expendA + expendB
− Una de las tres variables es redundante
− Solución: eliminar una de las tres variables del modelo
14 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 4: ortogonalidad o exogeneidad
• Supuesto sobre cómo se relacionan u y X
• Como u y X son componentes aleatorios, se puede definir la distribución
condicional de u dado X
• En particular, se puede definir el valor esperado (o promedio) de u dado X ,
E(u|X)
15 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 4: ortogonalidad o exogeneidad
• El supuesto de exogeneidad nos dice que el valor esperado de la perturbación
de cada observación i no depende del valor de X y es igual a cero para cada
observación i = 1, . . . , n:
E(ui|x1, . . . , xn) = E(ui|X) = 0
• Notar que la esperanza es condicional a todos los regresores de todas las
observaciones: x>i = (1 xi1 . . . xik), i = 1, . . . , n
• Esto implica que la esperanza condicional del vector u también es cero:
E(u|X) = 0
• Lo que implica:
1. El valor promedio de u es cero: E(E(u|X)) = E(u) = 0
− Para esto aplicamos la ley de esperanzas iteradas: E(E(g|h)) = E(g), donde g y h
son dos variables aleatorias cualquiera
2. La función de esperanza condicional es lineal: E(y|X) = E(Xβ + u|X) = Xβ
16 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 4: ortogonalidad o exogeneidad
• Este es el supuesto que necesitamos para hacer una interpretación de
causalidad
• En la práctica, este supuesto puede no cumplirse por varias razones:
◦ Especificación incorrecta de la forma funcional (log, x2, etc.)
◦ Omisión de una o más variables relevantes
◦ Más de una variable endógena (ecuaciones simultáneas)
◦ Errores de medición en los regresores
◦ Variable dependiente rezagada y autocorrelación de errores
17 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 5: homocedasticidad
• Homocedasticidad: E(u2i |X) = σ2 > 0, i = 1, . . . , n
• Esto implica que la varianza de la perturbación de cada observación i es
constante, no depende de haber observado una realización particular de
(x1, . . . , xk), e igual para cada observación i = 1, . . . , n:
V ar(ui|x1, . . . , xn) = V ar(ui|X) = σ2 > 0, i = 1, . . . , n
• Para ver esto:
V ar(ui|X) =E(u2i |X)− E(ui|X)2 (def. de varianza condicional)
=E(u2i |X) (por supuesto de exogeneidad)
=σ2
• Lo que implica que la varianza condicional del vector u también es constante
V ar(u|X) = σ2I = σ2
• Cuando este supuesto no se cumple, se dice que el modelo presenta
heterocedasticidad
18 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 5: homocedasticidad
E(uu>|X) = σ2I =

σ2 0 0 · · · 0
0 σ2 0 · · · 0
...
...
...
...
...
0 0 · · · σ2 0
0 0 0 · · · σ2

(n×n)
19 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 5: homocedasticidad
• Homocedasticidad en un modelo simple (mismo σ)
• Heterocedasticidad en un modelo simple
20 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Supuestos del modelo de regresión lineal
Supuesto 5: homocedasticidad
• Ejemplo donde no se cumplirı́a este supuesto: si tenemos un modelo de
regresión lineal simple con salario (y) en función de años de escolaridad (x), la
varianza de u es probablemente menor para escolaridad pequeña
21 / 28
Introducción Propiedades Supuestos Bondad del ajuste
3. Bondad del ajuste
22 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
Descomposición de la varianza muestral
• ¿Qué tan bien se ajusta la lı́nea de regresión estimada mediante MCO
(ŷi = β̂0 + β̂1xi) a los datos? → Medidas de bondad del ajuste
• Cada observación yi se descompone en dos partes:
yi = ŷi + ûi
1. El valor ajustado (ŷi = β̂0 + β̂1xi1 + ...+ β̂kxik)
2. Un residuo (ûi = yi − ŷi)
23 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
Descomposición de la varianza muestral
• Definiciones:
◦ Suma de cuadrados totales: SCT =
∑n
i=1(yi − ȳ)
2
Mide la variación muestral total en las yi (cómo de dispersas están las observaciones de la
variable y en la muestra)→ Si se divide entre n− 1, se obtiene la varianza muestral de y
◦ Suma de cuadrados explicados: SCE =
∑n
i=1(ŷi − ȳ)
2
Mide la variación muestral de los valores predichos o ajustados ŷi (nota: se usa ¯̂y = ȳ)
◦ Suma de cuadrados residual (no explicados): SCR =
∑n
i=1 û
2
i
Mide la variación muestral de los residuos
• Ejercicio: muestre que la variación total de y puede expresarse como la suma
de la variación explicada más la variación no explicada:
SCT = SCE + SCR
24 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
Descomposición de la varianza muestral
• Definiciones:
◦ Suma de cuadrados totales: SCT =
∑n
i=1(yi − ȳ)
2
Mide la variación muestral total en las yi (cómo de dispersas están las observaciones de la
variable y en la muestra)→ Si se divide entre n− 1, se obtiene la varianza muestral de y
◦ Suma de cuadrados explicados: SCE =
∑n
i=1(ŷi − ȳ)
2
Mide la variación muestral de los valores predichos o ajustados ŷi (nota: se usa ¯̂y = ȳ)
◦ Suma de cuadrados residual (no explicados): SCR =
∑n
i=1 û
2
i
Mide la variación muestral de los residuos
• Ejercicio: muestre que la variacióntotal de y puede expresarse como la suma
de la variación explicada más la variación no explicada:
SCT = SCE + SCR
24 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
R2
• Dividiendo entre SCT y resolviendo para SCE:
R2 ≡ SCE
SCT
= 1− SCR
SCT
• Como 0 ≤ SCE ≤ SCT , entonces 0 ≤ R2 ≤ 1
• El R2 se iterpreta como la proporción de la variación muestral de y explicada
por la regresión MCO
◦ R2 = 0: el modelo explica el 0% de la variación de y
◦ R2 ≈ 1: el modelo explica el ≈ 100% de la variación de y
◦ El caso R2 = 1 queda excluido por el supuesto de no colinealidad perfecta
• Recuerda:
◦ Si existe independencia entre x e y (lo cual implica Cov(x, y) = 0), entonces se
tiene que R2 = 0. Sin embargo, R2 = 0 no implica independencia
◦ R2 es una medida de asociación lineal, no tiene sentido utilizarlo para describir
relaciones no lineales
25 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
R2
• Dividiendo entre SCT y resolviendo para SCE:
R2 ≡ SCE
SCT
= 1− SCR
SCT
• Como 0 ≤ SCE ≤ SCT , entonces 0 ≤ R2 ≤ 1
• El R2 se iterpreta como la proporción de la variación muestral de y explicada
por la regresión MCO
◦ R2 = 0: el modelo explica el 0% de la variación de y
◦ R2 ≈ 1: el modelo explica el ≈ 100% de la variación de y
◦ El caso R2 = 1 queda excluido por el supuesto de no colinealidad perfecta
• Recuerda:
◦ Si existe independencia entre x e y (lo cual implica Cov(x, y) = 0), entonces se
tiene que R2 = 0. Sin embargo, R2 = 0 no implica independencia
◦ R2 es una medida de asociación lineal, no tiene sentido utilizarlo para describir
relaciones no lineales
25 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
R2 Ajustado
• Por construcción, R2 crece a medida que se agregan más variables al modelo
(aumenta SCE)
• Se necesita de una medida que ajuste por la cantidad de regresores
• Se define el R̄2 ajustado como
R̄2 = 1− SCR/(n− k − 1)
SCT/(n− 1)
• El principal atractivo de R̄2 es que penaliza por el número de regresores
• Ejercicio: muestre que R̄2 podrı́a ser negativo
26 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
Ejemplo con regresión simple
• Miramos el R2 de la regresión con (y = ingresos, x = años de escolaridad)
• ¿De cuánto es el R2 en nuestra regresión simple?
• ¿Qué significa eso para nuestro modelo?
• ¿Cómo difieren el R2 y el R̄2? ¿Por qué?
27 / 28
Introducción Propiedades Supuestos Bondad del ajuste
Bondad del ajuste
Ejemplo con regresión ampliada
• Añadimos edad, género y años de experiencia como regresores adicionales
• ¿De cuánto es el R2 en nuestra regresión ampliada?
• ¿Podrı́a ser menor que antes?
• ¿Qué significa eso para nuestro modelo?
• ¿Cómo difieren el R2 y el R̄2? ¿Por qué?
28 / 28
	Introducción
	Propiedades
	Supuestos
	Bondad del ajuste

Continuar navegando

Materiales relacionados

17 pag.
clase4

User badge image

Apuntes Generales

36 pag.
2-Modelos lineales

User badge image

wendy sedano ricaldi

10 pag.
2_regresion_lineal

User badge image

Estudiando Ingenieria