Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Regresion Lineal Múltiple Parte I Jorge Rodríguez Econometría, Septiembre 2020 Outline 1. Modelo de regresion múltiple 1.1 Sesgo de variable omitida 1.2 Modelo de regresión lineal con múlriples regresores 1.3 Estimación por OLS y teorema Frisch, Waugh y Lovell 1.4 Bondad de Ajuste 1.5 Supuestos para inferencia causal 1.6 Distribución de estimadores OLS 1.7 Multicolinealidad Sesgo de variable omitida Ejemplo: tests scores y tamaño de clases TestScorej = β0 + βClassSize × ClassSizej + uj ¿Qué ignoramos en esta regresión? I Profesores. I Infraestructura. I Estudiantes. ⇒ uj y ClassSizej están relacionados ⇒ OLS sesgado e inconsistente Ejemplo: tests scores y tamaño de clases TestScorej = β0 + βClassSize × ClassSizej + uj ¿En qué dirección es el sesgo? ¿Es el sesgo positivo o negativo? I Colegios con ClassSizej alto tienen mayor porcentaje de alumnos con mala base. I Alumnos con mala base tiene peor rendimiento (independiente de ClassSizej). I Luego, correlación TestScorej y ClassSizej es más alta que la poblacional. Sesgo de variable omitida Una estimación OLS tiene sesgo de variable omitida si el regresor está correlacionado con alguna variable que es determinante de la variable dependiente pero no fue incluida en la regresión. Es decir, no todas las variable omitidas generan sesgo: 1. variable omitida está correlacionada con el regresor. 2. variable omitida es determinante de Yi. Sesgo de variable omitida Supongamos modelo “verdadero”: Yi = β0 + β1X1i + β2X2i + ui Modelo estimado: Yi = β0 + β1X1i + ui Donde: I Yi: TestScore I X1i : ClassSizej I X2i: % estudiantes de bajo rendimiento Sesgo de variable omitida β̂1 = ∑n i=1(X1i −X1)(Yi − Y )∑n i=1(X1i −X1)2 = ∑n i=1(X1i −X1)[(X1i −X1)β1 + (X2i −X2)β2 + (ui − u)]∑n i=1(X1i −X1)2 = β1 + β2 ∑n i=1(X1i −X1)(X2i −X2)∑n i=1(X1i −X1)2 + ∑n i=1(X1i −X1)ui∑n i=1(X1i −X1)2 ⇒ β̂1 p→ β1 + β2 σx2ρX1X2 σx1︸ ︷︷ ︸ Cov(X1,X2) V ar(X) Sesgo de variable omitida β̂1 p→ β1 + β2 σx2ρX1X2 σx1︸ ︷︷ ︸ Sesgo Variable Omitida I β2 < 0: % alumnos bajo rendimiento afecta negativamente TestScoresj I ρX1X2 > 0: alumnos de bajo rendimiento tienden a autoseleccionarse en clase más grandes. I Luego, signo de sesgo es negativo: OLS subestima efecto causal. Sesgo de variable omitida (enfoque Stock & Watson) Recordar: β̂1 = β1 + ∑n i=1(Xi −X)ui∑n i=1(Xi −X)2 Formalmente: I n−1 ∑n i=1(Xi −X)ui p→ Cov(Xi, ui) = Corr(Xi, ui)σuσX I n−1 ∑n i=1(Xi −X)2 p→ V ar(Xi) = σ2X ⇒ β̂1 p→ β1 + ρXu σu σX No obstante, es dificil pensar en ρXu cuando la variable omitida “alumnos bajo rendimiento” entra negativamente a la ecuación. Recomiendo estudiar enfoque anterior. Ejercicio propuesto Ejercicio. Usando la fórmula de sesgo de variable omitida, comente acerca del posible sesgo en las siguientes situaciones I Yi: salarios. X1i: variable dummy igual 1 si individuo estudió en Uandes. I Yi: productividad empresa i. X1i dummy igual a 1 si empresa es exportadora. I Yi: ventas empresa i. X1i dummy si empresa implementa estrategia marketing agresivo. I Yi: nota ramo econometría. X1i horas de estudio y no incluimos estatura alumno i (X2i) I Yi: rendimiento niño i en prueba cognitiva. X1i distancia a jardin infantil más cercano. Sesgo de variable omitida: ¿Qué hacer? I Solución obvia es incluir esta variable: modelo de regresión lineal múltiple. I Nos permitirá analizar cambios en ClassSizej dejando constante todas las demás variables que incluyamos en nuestra regresión. I ¿Qué ocurre si la variable omitida simplemente no la podemos observar? I Otros métodos inferencia causal. Modelo de regresión múltiple Modelo de regresión múltiple Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui para todo i I i: unidad de observación (individuos, empresas, regiones, paises, etc) I Yi: variable dependiente I X1i, X2i, . . . Xki: variables independientes, regresores. I ui : término de error (variables omitidas que inciden en Yi). I β1, β2, . . . βk: pendientes. I Línea de regresión poblacional: E[Yi | X1i, X2i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki Interpretación de pendientes E[Yi | X1i, X2i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki βj es el cambio en E[Yi | X1i, ...Xki] frente a un cambio en Xji, todo lo demás constante: ∂E[Yi | X1i, ...Xki] ∂Xji = βj Interpretación de pendientes Supongamos cambiamos X1i a X1i + ∆X1, todo lo demás constante. E[Yi | X1i, . . . Xki] = β0 + β1X1i + β2X2i + · · ·+ βkXki E[Yi | X1i, . . . Xki] + ∆Y = β0 + β1(X1i + ∆X1) + β2X2i + · · ·+ βkXki ⇒ ∆Y ∆X1 = β1 (todo lo demás constante) Estimación por OLS y Teorema de Frisch, Waugh y Lovell Estimación por OLS β̂0, β̂1, . . . β̂k = arg min b0,b1...,bk n∑ i=1 [ Yi − (b0 + b1X1i + · · ·+ bkXki)2 ] I Problema de minimización estándar. Condiciones de primer order (k + 1 ecuaciones): [bj ] : n∑ i=1 [ Yi − (β̂0 + β̂1X1i + · · ·+ β̂kXki) ] Xji = 0 I Fórmula se puede representar en forma matricial (no lo veremos en este curso): β̂ = (X ′X)−1(X′Y ) I R, STATA, Python, Matlab, SPSS, entre otros. Test Scores y Class Size Sea PctEL % de english learners (alumnos bajo rendimiento): ̂TestScore = 698.9− 2.28× STR ̂TestScore = 686.0− 1.10× STR− 0.65× PctEL ¿Por qué coeficiente sobre STR cae? I En el modelo simple, β̂1 tiene un sesgo negativo. I Al incluir PctEL I PctEL ya no es variable “omitida” (eliminamos sesgo). I Podemos dejarlo “constante” (teorema Frisch, Waugh y Lovell). Tests Scores y Class Size Teorema de Frisch, Waugh y Lovell Supongamos queremos estimar sólo β1: 1. Estimar X1i versus X2i,X3i,...,Xki. Obtener residuos (errores de predicción): X̃1i 2. Estimar Yi versus X2i,X3i,...,Xki. Obtener residuos (errores de predicción): Ỹi 3. β̂1 es el coeficiente estimado de la regresión Ỹi versus X̃1i β̂1 = ∑n i=1(X̃1i − X̃1i)(Ỹi − Ỹ )∑n i=1(X̃1i − X̃1i)2 Teorema de Frisch, Waugh y Lovell ¿Cuál es la interpretación de X̃1i e Ỹi? I X1i − (δ̂2X2i + · · ·+ δ̂kXki): variación residual de X1i. I X̃1i es variación independiente de X2i, ..., Xki. I Variación de X1i, dejando todo lo demás constante (X1i + ∆X1). I Ỹi: idem (Yi + ∆Y ). I Variación en Yi exclusivamente dado por X1i, ceteris paribus. I FWL: compara (Yi + ∆Y ) y (X1i + ∆X1), todo lo demás constante. Teorema de Frisch, Waugh y Lovell ̂TestScore = 686.0− 1.10× STR− 0.65× PctEL I β̂1 = −1.10: cambio en TestScore predicho ante un cambio en STR, dejando constante (“controlando por ”) PctEL. I ¿Efecto causal? depende si STR y errores—todo lo que afecta TestScore aparte de STR y PctEL— están correlacionados (lo veremos más adelante). Bondad de ajuste Bondad de ajuste: R2 R2 es la fracción de la varianza que se explica por los regresores: R2 = ESS TSS = 1− SRR TSS I TSS = ∑n i=1(Yi − Y )2 I ESS = ∑n i=1(Ŷi − Y )2 I SSR = ∑n i=1(Yi − Ŷi)2 = ∑n i=1 û 2 i R2: porciones explicadas por la regresión y no explicada ො𝑢𝑖 ത𝑌 𝑌𝑖 − ത𝑌 𝑌𝑖 − ത𝑌 𝑌𝑖 − ത𝑌 = 𝑌𝑖 − ത𝑌 + ො𝑢𝑖 Bondad de ajuste: R2 R2 aumenta (se acerca a 1) cuando incluimos un regresor. ¿Por qué? I OLS es un problema de minimización. I Consideremos: Yi = β0 + β1X1i + ui (1) Yi = β0 + β1X1i + β2X2i + ui (2) I En (1), estamos restringiendo a β2 = 0. I El valor de la función objetivo en un problema de minimización restringido no puede ser estrictamente mejor al de una minimización sin restringir. I SSR ( ∑ û2i ) tiene que bajar cuando incluimos un regresor: ↑ R2 = 1− SRR ↓ TSS Bondad de ajuste: “R2 ajustado” (R 2 ) I R2 ajustado (R2) corrige por grados de libertad: R 2 = 1− n− 1 n− k − 1 SSR TSS I R 2 no necesariamente crece con incluir regresores: 1. sabemos ↑ SSR si ↑ # regresores 2. pero ↓ (n− k − 1). I R 2 sube sólo si cambio en SSR es más fuerte. Bondad de ajuste: R2 ajustado I R 2 ≤ R2 I R 2 puede ser incluso negativo R2 y R 2 : ¿utilidad? I Usar R2 si quiero tener una medida de ajuste a la recta para un modelo. I Si objetivo es predecir fuera de la muestra, mirar R2. I R2 y R2 no informan sobre causalidad. Ejemplo ̂TestScore= 686.0− 1.10×STR− 0.65×PctEL R2 = 0.426 ̂TestScore = 698.9− 2.28× STR R2 = 0.051 I R2 sube siempre al agregar regresores. I No obstante, el hecho de que suba mucho o poco dice algo: en este caso, PctEL tiene buen poder explicativo (predictor). I Probablemente sea una buena variable a tener cuenta, si objetivo es predicción. Supuestos para inferencia causal con OLS Supuesto para inferencia causal con OLS Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui para todo i Supuestos: 1. Independencia de ui y regresores: E[ui | X1i, X2i, ..., Xki] = E[ui] 2. (X1i, X2i, ..., Xki) ∼ i.i.d. 3. Outliers poco probable. 4. Ausencia de multicolinealidad perfecta. 1. Independencia errores E[ui | X1i, X2i, ..., Xki] = E[ui] para todo i I Si se cumple, es posible probar que E[β̂j ] = βj para j = 1, ..., k. I Sin embargo, es usual asumir: I Un conjunto de regresores son las variables de interés: X1i, X2i, ..., Xsi I Un segundo conjunto son variables de control: W1i,W2i, . . . ,Wri 1.1 Independencia condicional Modificamos supuesto 1. por un supuesto de independencia condicional 1.1 Independencia condicional : E[ui| X1i, ..., Xsi,W1i, . . . ,Wri] = E[ui,W1i, . . . ,Wri] I Errores y X1i, X2i, ..., Xsi pueden estar correlacionados. I No obstante, al incluir W1i,W2i, . . . ,Wri esa correlación desaparece. I Al controlar por W1i,W2i, . . . ,Wri sesgo de variable omitida se cancela. Independencia condicional: Test Scores y Class Size TestScore = β0 + β1 × STR+ ui I X1i : STR, X2i : PcTEL. Al omitir esta última: β̂1 p→ β1 + β2 σx2ρX1X2 σx1︸ ︷︷ ︸ Sesgo Variable Omitida I Podemos obtener β̂1, usando FWL (Ỹi versus X̃1i): β̂1 = ∑n i=1(X̃1i − X̃1i)(Ỹi − Ỹ )∑n i=1(X̃1i − X̃1i)2 Independencia y variables de control: Test Scores y Class Size ⇒ β̂1 p→ β1 + Corr(ui, X̃1i) V ar(X̃1i) I Bajo supuesto de independencia condicional, Corr(ui, X̃1i) = 0. I X̃1i por construcción es independiente de X2i (variable que causa sesgo). I Luego, la variación residual (es decir, al controlar por X2i) no está correlacionada con los errores. I Al controlar por X2i, la variación residual en X1i es como si fuese asignada aleatoriamente. Ejercicio propuesto Ejercicio. Usando la fórmula de sesgo de variable omitida, comente acerca del posible sesgo en las siguientes situaciones e indique qué variables podríamos incluir en la regresión para poder realizar inferencia causal. I Yi: salarios. X1i: variable dummy igual 1 si individuo estudió en Uandes. I Yi: productividad empresa i. X1i dummy igual a 1 si empresa es exportadora. I Yi: ventas empresa i. X1i dummy si empresa implementa estrategia marketing agresivo. I Yi: nota ramo econometría. X1i horas de estudio y no incluimos estatura alumno i (X2i) I Yi: rendimiento niño i en prueba cognitiva. X1i distancia a jardin infantil más cercano. Multicolinealidad perfecta e imperfecta Un modelo de regresión lineal múltiple tiene Multicolinealidad Perfecta si al menos un regresor es una combinación lineal de los demás: Xji = ∑ s6=j asXsi Ejemplos: I X2i = 2X1i. I No tenemos multicolinead perfecta si X2i = (X1i)2. Problema: las CPO de OLS no permiten resolver para β̂1, . . . β̂k (ecuaciones CPO < número de incógnitas). Multicolinealidad perfecta: variables dummies Supongamos que queremos incluir en nuestra regresión variables categóricas urbano o rural I urbanoi: 1 si individuo i vive en localidad urbana, 0 en otro caso I rurali: 1 si individuo i vive en localidad rural, 0 en otro caso. I Se cumple urbanoi + rurali = 1. I Nota que 1 es un regresor en nuestro modelo Yi = 1× β0 + β1urbanoi + β2rurali + ui︸ ︷︷ ︸ No es posible estimar! I Luego, se debe excluir urbanoi, rurali, o 1 (intercepto). Multicolinealidad imperfecta I Muticolinealidad imperfecta se refiere al caso de que dos o más regresores están altamente correlacionados. I Definición es imprecisa: ¿desde qué valor de la correlación consideramos alto? I Supongamos (X1i, X2i). Es posible demostrar: σ2 β̂1 = 1 n ( 1 1− ρ2X1,X2 ) σ2u σ2X1 la varianza de β̂1 depende de la correlación entre dos regresores. I Al aumentar V ar(β̂1) se hace menos probable rechazar H0 : β1 = 0. Multicolinealidad imperfecta I Ejemplo: I X1i: STR, X2i : PctEL, X3i: % inmigrantes de primera generación en distrito. I Corr(PctEL,X3i) alta. I ¿Es un problema? Potencialmente. I Si variable X2i puede resolver sesgo de variable omitida, debemos incluirla I ¿Es un problema que tiene solución? I Si el objetivo es inferencia causal, no. Ejercicios Ejercicios. I Del libro Stock & Watson: Review the Concepts (todos), 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 6.10, 6.12 Introducción Sesgo de variable omitida Modelo de regresión múltiple Estimación por OLS y Teorema de Frisch, Waugh y Lovell Bondad de ajuste Supuestos para inferencia causal con OLS
Compartir