Regresion_Lineal_Multiple - Zaida Moreno Páez

•
Outros

0
Desafio PASSEI DIRETO
25/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

112.668 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Regresion Lineal Múltiple
Parte I
Jorge Rodríguez
Econometría, Septiembre 2020
Outline
1. Modelo de regresion múltiple
1.1 Sesgo de variable omitida
1.2 Modelo de regresión lineal con múlriples regresores
1.3 Estimación por OLS y teorema Frisch, Waugh y Lovell
1.4 Bondad de Ajuste
1.5 Supuestos para inferencia causal
1.6 Distribución de estimadores OLS
1.7 Multicolinealidad
Sesgo de variable omitida
Ejemplo: tests scores y tamaño de clases
TestScorej = β0 + βClassSize × ClassSizej + uj
¿Qué ignoramos en esta regresión?
I Profesores.
I Infraestructura.
I Estudiantes.
⇒ uj y ClassSizej están relacionados
⇒ OLS sesgado e inconsistente
Ejemplo: tests scores y tamaño de clases
TestScorej = β0 + βClassSize × ClassSizej + uj
¿En qué dirección es el sesgo? ¿Es el sesgo positivo o
negativo?
I Colegios con ClassSizej alto tienen mayor porcentaje de
alumnos con mala base.
I Alumnos con mala base tiene peor rendimiento (independiente
de ClassSizej).
I Luego, correlación TestScorej y ClassSizej es más alta que
la poblacional.
Sesgo de variable omitida
Una estimación OLS tiene sesgo de variable omitida si el regresor
está correlacionado con alguna variable que es determinante de la
variable dependiente pero no fue incluida en la regresión.
Es decir, no todas las variable omitidas generan sesgo:
1. variable omitida está correlacionada con el regresor.
2. variable omitida es determinante de Yi.
Sesgo de variable omitida
Supongamos modelo “verdadero”:
Yi = β0 + β1X1i + β2X2i + ui
Modelo estimado:
Yi = β0 + β1X1i + ui
Donde:
I Yi: TestScore
I X1i : ClassSizej
I X2i: % estudiantes de bajo rendimiento
Sesgo de variable omitida
β̂1 =
∑n
i=1(X1i −X1)(Yi − Y )∑n
i=1(X1i −X1)2
=
∑n
i=1(X1i −X1)[(X1i −X1)β1 + (X2i −X2)β2 + (ui − u)]∑n
i=1(X1i −X1)2
= β1 + β2
∑n
i=1(X1i −X1)(X2i −X2)∑n
i=1(X1i −X1)2
+
∑n
i=1(X1i −X1)ui∑n
i=1(X1i −X1)2
⇒ β̂1
p→ β1 + β2
σx2ρX1X2
σx1︸ ︷︷ ︸
Cov(X1,X2)
V ar(X)
Sesgo de variable omitida
β̂1
p→ β1 + β2
σx2ρX1X2
σx1︸ ︷︷ ︸
Sesgo Variable Omitida
I β2 < 0: % alumnos bajo rendimiento afecta negativamente
TestScoresj
I ρX1X2 > 0: alumnos de bajo rendimiento tienden a
autoseleccionarse en clase más grandes.
I Luego, signo de sesgo es negativo: OLS subestima efecto
causal.
Sesgo de variable omitida (enfoque Stock & Watson)
Recordar:
β̂1 = β1 +
∑n
i=1(Xi −X)ui∑n
i=1(Xi −X)2
Formalmente:
I n−1
∑n
i=1(Xi −X)ui
p→ Cov(Xi, ui) = Corr(Xi, ui)σuσX
I n−1
∑n
i=1(Xi −X)2
p→ V ar(Xi) = σ2X
⇒ β̂1
p→ β1 + ρXu
σu
σX
No obstante, es dificil pensar en ρXu cuando la variable omitida
“alumnos bajo rendimiento” entra negativamente a la ecuación.
Recomiendo estudiar enfoque anterior.
Ejercicio propuesto
Ejercicio.
Usando la fórmula de sesgo de variable omitida, comente acerca
del posible sesgo en las siguientes situaciones
I Yi: salarios. X1i: variable dummy igual 1 si individuo
estudió en Uandes.
I Yi: productividad empresa i. X1i dummy igual a 1 si
empresa es exportadora.
I Yi: ventas empresa i. X1i dummy si empresa implementa
estrategia marketing agresivo.
I Yi: nota ramo econometría. X1i horas de estudio y no
incluimos estatura alumno i (X2i)
I Yi: rendimiento niño i en prueba cognitiva. X1i distancia a
jardin infantil más cercano.
Sesgo de variable omitida: ¿Qué hacer?
I Solución obvia es incluir esta variable: modelo de regresión
lineal múltiple.
I Nos permitirá analizar cambios en ClassSizej dejando
constante todas las demás variables que incluyamos en nuestra
regresión.
I ¿Qué ocurre si la variable omitida simplemente no la podemos
observar?
I Otros métodos inferencia causal.
Modelo de regresión múltiple
Modelo de regresión múltiple
Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui para todo i
I i: unidad de observación (individuos, empresas, regiones,
paises, etc)
I Yi: variable dependiente
I X1i, X2i, . . . Xki: variables independientes, regresores.
I ui : término de error (variables omitidas que inciden en Yi).
I β1, β2, . . . βk: pendientes.
I Línea de regresión poblacional:
E[Yi | X1i, X2i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki
Interpretación de pendientes
E[Yi | X1i, X2i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki
βj es el cambio en E[Yi | X1i, ...Xki] frente a un cambio en Xji,
todo lo demás constante:
∂E[Yi | X1i, ...Xki]
∂Xji
= βj
Interpretación de pendientes
Supongamos cambiamos X1i a X1i + ∆X1, todo lo demás
constante.
E[Yi | X1i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki
E[Yi | X1i, . . . Xki] + ∆Y = β0 + β1(X1i + ∆X1)
+ β2X2i + · · ·+ βkXki
⇒ ∆Y
∆X1
= β1 (todo lo demás constante)
Estimación por OLS y Teorema de Frisch, Waugh y
Lovell
Estimación por OLS
β̂0, β̂1, . . . β̂k = arg min
b0,b1...,bk
n∑
i=1
[
Yi − (b0 + b1X1i + · · ·+ bkXki)2
]
I Problema de minimización estándar. Condiciones de primer
order (k + 1 ecuaciones):
[bj ] :
n∑
i=1
[
Yi − (β̂0 + β̂1X1i + · · ·+ β̂kXki)
]
Xji = 0
I Fórmula se puede representar en forma matricial (no lo
veremos en este curso):
β̂ = (X ′X)−1(X′Y )
I R, STATA, Python, Matlab, SPSS, entre otros.
Test Scores y Class Size
Sea PctEL % de english learners (alumnos bajo rendimiento):
̂TestScore = 698.9− 2.28× STR
̂TestScore = 686.0− 1.10× STR− 0.65× PctEL
¿Por qué coeficiente sobre STR cae?
I En el modelo simple, β̂1 tiene un sesgo negativo.
I Al incluir PctEL
I PctEL ya no es variable “omitida” (eliminamos sesgo).
I Podemos dejarlo “constante” (teorema Frisch, Waugh y Lovell).
Tests Scores y Class Size
Teorema de Frisch, Waugh y Lovell
Supongamos queremos estimar sólo β1:
1. Estimar X1i versus X2i,X3i,...,Xki. Obtener residuos (errores
de predicción): X̃1i
2. Estimar Yi versus X2i,X3i,...,Xki. Obtener residuos (errores
de predicción): Ỹi
3. β̂1 es el coeficiente estimado de la regresión Ỹi versus X̃1i
β̂1 =
∑n
i=1(X̃1i − X̃1i)(Ỹi − Ỹ )∑n
i=1(X̃1i − X̃1i)2
Teorema de Frisch, Waugh y Lovell
¿Cuál es la interpretación de X̃1i e Ỹi?
I X1i − (δ̂2X2i + · · ·+ δ̂kXki): variación residual de X1i.
I X̃1i es variación independiente de X2i, ..., Xki.
I Variación de X1i, dejando todo lo demás constante
(X1i + ∆X1).
I Ỹi: idem (Yi + ∆Y ).
I Variación en Yi exclusivamente dado por X1i, ceteris paribus.
I FWL: compara (Yi + ∆Y ) y (X1i + ∆X1), todo lo demás
constante.
Teorema de Frisch, Waugh y Lovell
̂TestScore = 686.0− 1.10× STR− 0.65× PctEL
I β̂1 = −1.10: cambio en TestScore predicho ante un cambio
en STR, dejando constante (“controlando por ”) PctEL.
I ¿Efecto causal? depende si STR y errores—todo lo que afecta
TestScore aparte de STR y PctEL— están correlacionados
(lo veremos más adelante).
Bondad de ajuste
Bondad de ajuste: R2
R2 es la fracción de la varianza que se explica por los regresores:
R2 =
ESS
TSS
= 1− SRR
TSS
I TSS =
∑n
i=1(Yi − Y )2
I ESS =
∑n
i=1(Ŷi − Y )2
I SSR =
∑n
i=1(Yi − Ŷi)2 =
∑n
i=1 û
2
i
R2: porciones explicadas por la regresión y no explicada
ො𝑢𝑖
ത𝑌
𝑌𝑖 − ത𝑌
෠𝑌𝑖 − ത𝑌
𝑌𝑖 − ത𝑌 = ෠𝑌𝑖 − ത𝑌 + ො𝑢𝑖
Bondad de ajuste: R2
R2 aumenta (se acerca a 1) cuando incluimos un regresor.
¿Por qué?
I OLS es un problema de minimización.
I Consideremos:
Yi = β0 + β1X1i + ui (1)
Yi = β0 + β1X1i + β2X2i + ui (2)
I En (1), estamos restringiendo a β2 = 0.
I El valor de la función objetivo en un problema de minimización
restringido no puede ser estrictamente mejor al de una
minimización sin restringir.
I SSR (
∑
û2i ) tiene que bajar cuando incluimos un regresor:
↑ R2 = 1− SRR ↓
TSS
Bondad de ajuste: “R2 ajustado” (R
2
)
I R2 ajustado (R2) corrige por grados de libertad:
R
2
= 1− n− 1
n− k − 1
SSR
TSS
I R
2 no necesariamente crece con incluir regresores:
1. sabemos ↑ SSR si ↑ # regresores
2. pero ↓ (n− k − 1).
I R
2 sube sólo si cambio en SSR es más fuerte.
Bondad de ajuste: R2 ajustado
I R
2 ≤ R2
I R
2 puede ser incluso negativo
R2 y R
2
: ¿utilidad?
I Usar R2 si quiero tener una medida de ajuste a la recta para
un modelo.
I Si objetivo es predecir fuera de la muestra, mirar R2.
I R2 y R2 no informan sobre causalidad.
Ejemplo
̂TestScore= 686.0− 1.10×STR− 0.65×PctEL R2 = 0.426
̂TestScore = 698.9− 2.28× STR R2 = 0.051
I R2 sube siempre al agregar regresores.
I No obstante, el hecho de que suba mucho o poco dice algo: en
este caso, PctEL tiene buen poder explicativo (predictor).
I Probablemente sea una buena variable a tener cuenta, si
objetivo es predicción.
Supuestos para inferencia causal con OLS
Supuesto para inferencia causal con OLS
Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui para todo i
Supuestos:
1. Independencia de ui y regresores:
E[ui | X1i, X2i, ..., Xki] = E[ui]
2. (X1i, X2i, ..., Xki) ∼ i.i.d.
3. Outliers poco probable.
4. Ausencia de multicolinealidad perfecta.
1. Independencia errores
E[ui | X1i, X2i, ..., Xki] = E[ui] para todo i
I Si se cumple, es posible probar que E[β̂j ] = βj para
j = 1, ..., k.
I Sin embargo, es usual asumir:
I Un conjunto de regresores son las variables de interés:
X1i, X2i, ..., Xsi
I Un segundo conjunto son variables de control:
W1i,W2i, . . . ,Wri
1.1 Independencia condicional
Modificamos supuesto 1. por un supuesto de independencia
condicional
1.1 Independencia condicional :
E[ui| X1i, ..., Xsi,W1i, . . . ,Wri] = E[ui,W1i, . . . ,Wri]
I Errores y X1i, X2i, ..., Xsi pueden estar correlacionados.
I No obstante, al incluir W1i,W2i, . . . ,Wri esa correlación
desaparece.
I Al controlar por W1i,W2i, . . . ,Wri sesgo de variable omitida
se cancela.
Independencia condicional: Test Scores y Class Size
TestScore = β0 + β1 × STR+ ui
I X1i : STR, X2i : PcTEL. Al omitir esta última:
β̂1
p→ β1 + β2
σx2ρX1X2
σx1︸ ︷︷ ︸
Sesgo Variable Omitida
I Podemos obtener β̂1, usando FWL (Ỹi versus X̃1i):
β̂1 =
∑n
i=1(X̃1i − X̃1i)(Ỹi − Ỹ )∑n
i=1(X̃1i − X̃1i)2
Independencia y variables de control: Test Scores y Class
Size
⇒ β̂1
p→ β1 +
Corr(ui, X̃1i)
V ar(X̃1i)
I Bajo supuesto de independencia condicional,
Corr(ui, X̃1i) = 0.
I X̃1i por construcción es independiente de X2i (variable que
causa sesgo).
I Luego, la variación residual (es decir, al controlar por X2i) no
está correlacionada con los errores.
I Al controlar por X2i, la variación residual en X1i es como si
fuese asignada aleatoriamente.
Ejercicio propuesto
Ejercicio.
Usando la fórmula de sesgo de variable omitida, comente acerca
del posible sesgo en las siguientes situaciones e indique qué
variables podríamos incluir en la regresión para poder realizar
inferencia causal.
I Yi: salarios. X1i: variable dummy igual 1 si individuo
estudió en Uandes.
I Yi: productividad empresa i. X1i dummy igual a 1 si
empresa es exportadora.
I Yi: ventas empresa i. X1i dummy si empresa implementa
estrategia marketing agresivo.
I Yi: nota ramo econometría. X1i horas de estudio y no
incluimos estatura alumno i (X2i)
I Yi: rendimiento niño i en prueba cognitiva. X1i distancia a
jardin infantil más cercano.
Multicolinealidad perfecta e imperfecta
Un modelo de regresión lineal múltiple tiene Multicolinealidad
Perfecta si al menos un regresor es una combinación lineal de los
demás:
Xji =
∑
s6=j
asXsi
Ejemplos:
I X2i = 2X1i.
I No tenemos multicolinead perfecta si X2i = (X1i)2.
Problema: las CPO de OLS no permiten resolver para β̂1, . . . β̂k
(ecuaciones CPO < número de incógnitas).
Multicolinealidad perfecta: variables dummies
Supongamos que queremos incluir en nuestra regresión variables
categóricas urbano o rural
I urbanoi: 1 si individuo i vive en localidad urbana, 0 en otro
caso
I rurali: 1 si individuo i vive en localidad rural, 0 en otro caso.
I Se cumple urbanoi + rurali = 1.
I Nota que 1 es un regresor en nuestro modelo
Yi = 1× β0 + β1urbanoi + β2rurali + ui︸ ︷︷ ︸
No es posible estimar!
I Luego, se debe excluir urbanoi, rurali, o 1 (intercepto).
Multicolinealidad imperfecta
I Muticolinealidad imperfecta se refiere al caso de que dos o
más regresores están altamente correlacionados.
I Definición es imprecisa: ¿desde qué valor de la correlación
consideramos alto?
I Supongamos (X1i, X2i). Es posible demostrar:
σ2
β̂1
=
1
n
(
1
1− ρ2X1,X2
)
σ2u
σ2X1
la varianza de β̂1 depende de la correlación entre dos
regresores.
I Al aumentar V ar(β̂1) se hace menos probable rechazar
H0 : β1 = 0.
Multicolinealidad imperfecta
I Ejemplo:
I X1i: STR, X2i : PctEL, X3i: % inmigrantes de primera
generación en distrito.
I Corr(PctEL,X3i) alta.
I ¿Es un problema? Potencialmente.
I Si variable X2i puede resolver sesgo de variable omitida,
debemos incluirla
I ¿Es un problema que tiene solución?
I Si el objetivo es inferencia causal, no.
Ejercicios
Ejercicios.
I Del libro Stock & Watson: Review the Concepts (todos),
6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 6.10, 6.12
	Introducción
	Sesgo de variable omitida
	Modelo de regresión múltiple
	Estimación por OLS y Teorema de Frisch, Waugh y Lovell 
	Bondad de ajuste
	Supuestos para inferencia causal con OLS