Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Econometŕıa I – EAE-250A Variables Instrumentales Jaime Casassus Instituto de Econoḿıa Pontificia Universidad Católica de Chile Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Endogeneidad • ¿Qué es endogeneidad? • Una variable independiente se dice endógena, si está correlacionada con el término de error. • Si una variable no es endógena, entonces se dice que es exógena. • La endogeneidad lleva a que los estimadores MCO sean inconsistentes. • El método de variables instrumentales (VI) es una solución para la endogeneidad. • Ejemplos de endogeneidad: variables omitidas, errores de medición, etc. • Otro ejemplo. Suponga que busca estimar la curva de demanda log(Qi ) = β0 + β1 log(Pi ) + ui Discuta si el precio es una variable endógena. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Variables Instrumentales: validez y relevancia • Considere el modelo de regresión simple donde Cov[x , u] 6= 0. • Para obtener estimadores consistentes se necesita una nueva variable z con dos propiedades: ◦ Exógena: z no está correlacionada con u, Cov[z , u] = 0 ◦ Relevante: z está correlacionada con x , Cov[z , x ] 6= 0 • z se denomina variable instrumental o instrumento para x . Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Variables Instrumentales: validez y relevancia (cont.) • A partir del modelo simple se obtiene Cov[z , y ] = β1Cov[z , x ] + Cov[z , u] y como z es exógena, se puede identificar β1 β1 = Cov[z , y ] Cov[z , x ] • Para el modelo simple el estimador de variables instrumentales es β̂IV 1 = ∑n i=1(zi − z)(yi − y)∑n i=1(zi − z)(xi − x) • ¿Qué pasa cuando z = x? • Como el error es no observable, no se puede testear Cov[z , u] = 0. Se debe suponer recurriendo a la teoŕıa económica o a una conjetura. • Sin embargo, Cov[z , x ] 6= 0 se puede testear a partir de la ecuación x = π0 + π1z + v • Si se rechaza la hipótesis nula H0 : π1 = 0, entonces z es relevante. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Efecto de los atrasos a clases sobre las notas • Considere el efecto causal de los atrasos a clases sobre las notas notas = β0 + β1atrasos + u • ¿Por qué atrasos podŕıa ser endógena? • ¿Cuál seŕıa una buena variable instrumental en este caso? • Se busca una variable que no ejerza un efecto directo sobre notas sino a través de atrasos. • Por ejemplo, la distancia desde la casa al campus. • ¿Es esta variable exógena y relevante? • ¿Es necesario utilizar un instrumento para atrasos si hay datos de una buena proxy para la variable omitida? • Tarea: proponga una variable instrumental para educ en la ecuación: log(salario) = β0 + β1educ + u Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Error estándar para el estimador de VI • El supuesto de homocedasticidad se plantea condicional a la variable instrumental z y no a la variable explicativa endógena x Var[u|z ] = E[u2|z ] = σ2 • Se puede demostrar que la varianza asintótica de β̂IV 1 es Var[β̂IV 1 |x , z ] = σ2 n σ2xρ 2 x ,z donde σ2x la varianza de x y ρx ,z la correlación entre x y z , y su estimador muestral: ̂Var[β̂IV 1 |x , z ] = σ̂2 SSTxR2x ,z • ¿Cómo es la varianza del estimador VI comparada con la de MCO? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios • Usted quiere estimar el efecto de la educación de las mujeres casadas en los salarios mediante el modelo de regresión lineal simple log(salario) = β0 + β1educacion + u • Primero se ajusta el modelo por MCO: ˆlog(salario) = −0, 185 + 0, 109educacion (0, 185) (0, 014) n = 428, R2 = 0, 118. • Luego, se utiliza la escolaridad del padre, educacionp, como instrumento para educacion. Se supone que educacionp es exógena. • Para verificar la relevancia educacionp se regresiona ˆeducacion = 10, 24 + 0, 269educacionp (0, 28) (0, 029) n = 428, R2 = 0, 173 Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios (cont.) • Utilizando educacionp como VI para educacion se obtiene Gretl • tsls lwage const educ ; const fatheduc ˆlog(salario) = 0, 441 + 0, 059educacion (0, 446) (0, 035) n = 428, R2 = 0, 093 • El estimador de VI del efecto de la educación es 5,9% –la mitad que el de MCO. Esto sugiere que el estimador de MCO es muy alto y que resulta sesgado al omitir la capacidad. • Además, el error estándar de la estimación de VI es dos veces y media el error estándar de MCO. ¿Por qué es esto? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Efecto de la educación en los salarios de los hombres • Se usa el número de hermanos como instrumento para educacion ¿Por qué? • hermanos se correlaciona en forma negativa con educacion: Gretl ˆeducacion = 14, 14− 0, 228hermanos (0, 11) (0, 03) n = 935, R2 = 0, 057 • La regresión con hermanos como VI para educacion es ˆlog(salario) = 5, 13 + 0, 122educacion (0, 36) (0, 26) n = 935 • ¿Qué pasa si un mayor número de hermanos se traduce en menor atención de los padres y por consiguiente en una menor capacidad? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Angrist y Krueger (1991): educación y salarios • En su análisis del efecto de la educación sobre los salarios, Angrist y Krueger obtuvieron una variable instrumental binaria para educación a partir de los datos del Censo de EE.UU. • Definieron una dummy igual a uno si el hombre nació en el primer trimestre del año y cero en otro caso. • ¿Por qué ésta podŕıa ser una buena variable instrumental? • Resulta que los años de educación difieren sistemáticamente en la población sobre la base del trimestre de nacimiento. • Esto se debe a las leyes de asistencia obligatoria a las escuelas en todos los estados. Los niños que nacen a principios de año por lo general comienzan su educación a una edad mayor. Ellos alcanzan la edad de escolaridad obligatoria con un poco menos de instrucción que los otros alumnos. • En el caso de los estudiantes que terminan la secundaria, Angrist y Krueger verificaron que no hay relación entre los años de educación y el trimestre de nacimiento. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Angrist (1990): la guerra de Vietnam y los ingresos • Angrist estudió el efecto de ser veterano de la guerra de Vietnam en los ingresos de por vida. • Estimó el modelo log(ingresos) = β0 + β1veterano + u donde veterano es una variable dummy. • Problema: la decisión de unirse al ejército puede estar correlacionada con otras caracteŕısticas que influyen en los ingresos. • Angrist argumentó que el sorteo de conscripción de Vietnam proporciona un experimento natural. • A los jóvenes se les dio un número que determinaba si seŕıan llamados a servicios en Vietnam. • Como estos números se generaron de manera aleatoria no están correlacionados con el término de error. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 VI en el MRL múltiple • El estimador VI se extiende fácilmente al modelo de regresión múltiple. • Considere el modelo y = Xβ + u y una matriz de instrumentos Z (regresores exógenos). •Premultiplicando la regresión poblacional por Z se obtiene que β̂IV = (Z >X )−1Z>y • MCO es un caso particular de VI (cuando Z=X). • Además, Var[β̂IV |X ,Z ] = σ̂2IV (Z>X )−1(Z>Z )(X>Z )−1 • También se puede demostrar que plim(β̂IV ) = β. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Card (1995): educación y salarios • Card utilizó una variable dummy para los que crecieron cerca del colegio como instrumento de la educación. • El modelo original es log(salario) = β0 + β1educacion + β2experiencia + · · ·+ u • La regresión para testear relevancia ˆeducacion = 16, 64 + 0, 320cercania− 0, 413experiencia + · · · (0, 24) (0, 088) (0, 034) n = 3.010, R2 = 0, 477. • Resultado usando VI Gretl Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Card (1995): educación y salarios (cont.) MCO VI educacion 0.075 0,132 (0,003) (0,055) experiencia 0,085 0,108 (0,007) (0,024) experiencia2 -0,0023 -0,0023 (0,0003) (0,0003) color -0,199 -0,147 (0,018) (0,054) smsa 0,136 0,112 (0,02) (0,032) sur -0,148 -0,145 (0,026) (0,027) Observaciones 3.010 3.010 R2 0,3 0,238 Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Ḿınimos Cuadrados en Dos Etapas • Notación: yi=endógeno, zi=exógeno • Considere el siguiente modelo: y1 = β0 + β1y2 + β2z1 + u1 en que y2 está correlacionada con u1. • ¿Qué pasa si hay dos posibles instrumentos para y2? ¿Cuál se usa? • La mejor VI es la combinación lineal que mejor correlaciona con y2. ¿Por qué? • Considere la siguiente sub-regresión: y2 = π0 + π1z1 + π2z2 + π3z3 + v2 donde E (v2) = Cov(z1, v2) = Cov(z2, v2) = Cov(z3, v2) = 0. • La mejor VI es y∗2 definida como y∗2 = π0 + π1z1 + π2z2 + π3z3 • Cov(y∗2 , u1) = 0. ¿Por qué? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Ḿınimos Cuadrados en Dos Etapas (cont.) • Con múltiples instrumentos, el estimador VI se denomina estimador de Mı́nimos Cuadrados en Dos Etapas (MC2E). • El estimador VI MC2E se obtiene de la siguiente forma: ◦ Primera etapa: se realiza la sub-regresión MCO para obtener ŷ2: ŷ2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 ◦ Segunda etapa: se realiza la regresión MCO de y1 sobre ŷ2 y z1. • El estimador VI MC2E es insesgado. ¿Por qué? • En la primera etapa se necesita que al menos π2 6= 0 ó π3 6= 0. ¿Por qué? • Se puede testear H0 : π2 = 0 y π3 = 0 usando el estad́ıstico F . • Como se utiliza ŷ2 en lugar de y2 los estimadores MC2E pueden diferir sustancialmente de los MCO. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Interpretación de MC2E • En la estimación por MC2E se usa el valor ajustado ŷ2, que es la versión estimada de y∗2 , donde esta última no está correlacionda con u1. • MC2E elimina de y2 su correlación con u1 antes de la regresión MCO. • Recuerde que y2 = y∗2 + v2, entonces y1 = β0 + β1y ∗ 2 + β2z1 + u1 + β1v2 • El error compuesto u1 + β1v2 tiene media cero y no se correlaciona con y∗2 ni z1, por lo que la regresión MCO es válida. • Los programas estad́ısticos tienen comandos para MC2E, por lo que no es necesario realizar las dos fases de manera expĺıcita. • Si hace manualmente la segunda fase, los errores estándar y los estad́ısticos no son válidos, porque el término de error en la última ecuación incluye v2 cuando los errores estándar comprenden solo la varianza de u1. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios • Considere el efecto de la educación de las mujeres casadas en los salarios controlando por experiencia: log(salario) = β0 + β1educ + β2exper + β3exper 2 + u • Primero se ajusta el modelo por MCO: Table: Estimation results : ols Variable Coefficient (Std. Err.) educ 0.107∗∗ (0.014) exper 0.042∗∗ (0.013) expersq -0.001∗ (0.000) Intercept -0.522∗∗ (0.199) N 428 R2 0.157 F (3,424) 26.286 Significance levels : † : 10% ∗ : 5% ∗∗ : 1% Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios (cont.) • Suponga que la educación de la madre y del padre son exógenos. • La primera etapa de MC2E es: educ = π0 + π1exper + π2exper 2 + π3motheduc + π4fatheduc + v2 • ¿Son relevantes? Table: Estimation results : ols Variable Coefficient (Std. Err.) exper 0.045 (0.040) expersq -0.001 (0.001) motheduc 0.158∗∗ (0.036) fatheduc 0.190∗∗ (0.034) Intercept 9.103∗∗ (0.427) Significance levels : † : 10% ∗ : 5% ∗∗ : 1% F (2, 423) = 55.40 Prob > F = 0.0000 Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios (cont.) • Segunda etapa manual Table: Estimation results : ols Variable Coefficient (Std. Err.) educ hat 0.061 (0.033) exper 0.044 (0.014) expersq -0.001 (0.000) Intercept 0.048 (0.420) • Usando directamente el comando tsls Gretl Table: Estimation results : tsls Variable Coefficient (Std. Err.) educ 0.061 (0.031) exper 0.044 (0.013) expersq -0.001 (0.000) Intercept 0.048 (0.398) • Los estimadores son idénticos, pero los errores estándar son distintos. ¿Por qué? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Multicolinealidad y MC2E • Recuerde el problema de la multicolinealidad en la estimación MCO. • En MC2E la multicolinealidad es aún más seŕıa. • Recuerde la varianza asintótica del estimador MCO σ2 SST2(1− R22 ) donde σ2 = Var(u1), SST2 es la variación total de ŷ2, y R 2 2 es el R 2 de la regresión de ŷ2 sobre todas las otras variables exógenas. • La varianza del estimador de MC2E es mayor que la de MCO porque: ◦ ŷ2 por construcción tiene menos variación que y2. ◦ la correlación entre ŷ2 y las variables exógenas puede ser mayor que la correlación entre y2 y estas variables. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Variables explicativas endógenas múltiples • MC2E también se usa en modelos con más de una variable explicativa endógena. • Por ejemplo, considere el modelo y1 = β0 + β1y2 + β2y3 + β3z1 + β4z2 + β5z3 + u1 donde E (u1) = 0 y u1 no se correlaciona con z1, z2 ni z3. • y2 e y3 son variables explicativas endógenas. • Condición de identificación: para la estimación por MC2E se necesita tantas variables exógenas excluidas de la ecuación como variables explicativas endógenas incluidas en el modelo original. ¿Por qué? Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Sesgos e inconsistencias por errores de medición • Las variables instrumentales también se utilizan para abordar el problema de errores de medición. • Considere el modelo y = β0 + β1x ∗ 1 + β2x2 + u, (1) donde y y x2 son observables, pero x ∗ 1 , no lo es. • Sea x1 una medida observada de x∗1 x1 = x ∗ 1 + e1, (2) donde e1 es el error de medición. • Recuerde que la correlación entre x1 y e1 implica que los estimadores MCO sean sesgados e inconsistentes. • Lo anterior se aprecia al escribir y = β0 + β1x1 + β2x2 + (u − β1e1). (3) Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 VI y errores de medición • Suponga que u no se correlaciona con x∗1 , x1 y x2 (por lo tanto, tampoco se correlaciona con e1 ¿por qué?) • Si x2 no se correlaciona con e1, entonces x2 es exógena en (3). • ¿Cómo tiene que ser una VI para x1? • Una posibilidad es obtener una segunda medida de x∗1 , digamos z1, que se asume que no se correlaciona con u. • Si escribimos z1 = x∗1 + a1, donde a1 es el error de medición en z1, entonces debemos suponer que a1 y e1 no se correlacionan. • x1 y z1 no miden correctamente x∗1 , perosus errores de medida no se correlacionan. • Desde luego x1 y z1 están correlacionadas a través de su dependencia de x∗1 , de manera que utilizamos z1 como VI para x1. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 VI y errores de medición (cont.) • ¿Cómo obtener dos medidas sobre una variable? • A veces, cuando estudiamos los salarios de los trabajadores, los empleadores proveen una segunda medida. • Cuando estudiamos los ingresos del hogar, cada cónyuge manifiesta de manera independiente el nivel de ahorros o de ingreso familiar. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Malos proxies • Recordemos primero qué es una variable proxy. • Supongamos el siguiente modelo y = β0 + β1x1 + β2x2 + β3x ∗ 3 + u, (4) donde la variable explicativa x∗3 no es observable. • Consideremos la siguiente variable proxy x3: x∗3 = δ0 + δ1x3 + v3, (5) • Un supuesto fundamental para crear estimadores consistentes es que cov(x3, v3) = 0. • Lamentablemente, esto no siempre ocurre. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Proxy para capacidad • Nuevamente estudiamos el efecto de la educación en el salario: log(salario) = β0 + β1educ + β2exper + β3exper 2 + capac + u • Supongamos que tenemos 2 tests de IQ que son indicadores de la capacidad: test1 = γ1capac + e1 test2 = γ2capac + e2 • Supongamos que test1 y test2 no están correlacionados con u. • Si e1 no está correlacionado con capac , ni otras variables exógenas, entonces e1 está correlacionado con test1. (¿Por qué?) • Esto implica que los estimadores MCO para βj no son consistentes si usamos test1 como proxy de capac . (¿Por qué?) • test1 es un mal proxy, pero esto se puede arreglar fácilmente usando test2 con variable instrumental. (¿Cuáles son los supuestos necesarios?) Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Tabla de Contenidos 1 Variables Instrumentales en el modelo simple 2 Inferencia estad́ıstica con el estimador de VI 3 VI en el MRL múltiple 4 Mı́nimos Cuadrados en Dos Etapas, MC2E 5 VI, errores de medición y malos proxies 6 Test para la Endogeneidad Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Una Variable Endógena • Los errores estándar MC2E pueden ser bastante mayores que los MCO. • Suponga que hay una sola variable que podŕıa ser endógena: y1 = β0 + β1y2 + β2z1 + β3z2 + u1 • Además, existen dos variable exógenas, z3 y z4, no incluidas en la regresión. • Primero se estima la primera etapa: y2 = π0 + π1z1 + π2z2 + π3z3 + π4z4 + v2 • y2 será exógena si y solo si Cov(v2, u1) = 0. ¿Por qué? • El test busca conocer la significancia de δ1 en la regresión: u1 = δ1v2 + e1. • La forma sencilla es incluyendo v2 en la regresión: y1 = β0 + β1y2 + β2z1 + β3z2 + δ1v2 + e1 • Como v2 no se observa se utilizan los residuales v̂2: y1 = β0 + β1y2 + β2z1 + β3z2 + δ1v̂2 + e1 • Rechazar la hipótesis nula H0 : δ1 = 0, es evidencia de que y2 es endógena. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Educación de las mujeres casadas en los salarios • ¿Es endógena la variable educ? Table: Estimation results : ols Variable Coefficient (Std. Err.) educ 0.061∗ (0.031) exper 0.044∗∗ (0.013) expersq -0.001∗ (0.000) v 2 0.058† (0.035) Intercept 0.048 (0.395) Significance levels : † : 10% ∗ : 5% ∗∗ : 1% Gretl • Para este caso particular puede ser razonable presentar los resultados MCO y de dos etapas. Casassus (UC) EAE-250A - Econometŕıa I 3-Jun-19 Variables Instrumentales en el modelo simple Endogeneidad Variables Instrumentales: validez y relevancia Efecto de los atrasos a clases sobre las notas Inferencia estadística con el estimador de VI Error estándar para el estimador de VI Educación de las mujeres casadas en los salarios Efecto de la educación en los salarios de los hombres Angrist y Krueger (1991): educación y salarios Angrist (1990): la guerra de Vietnam y los ingresos VI en el MRL múltiple VI en el MRL múltiple Card (1995): educación y salarios Mínimos Cuadrados en Dos Etapas, MC2E Mínimos Cuadrados en Dos Etapas Interpretación de MC2E Educación de las mujeres casadas en los salarios Multicolinealidad y MC2E Variables explicativas endógenas múltiples VI, errores de medición y malos proxies Sesgos e inconsistencias por errores de medición VI y errores de medición Malos proxies Proxy para capacidad Test para la Endogeneidad Una Variable Endógena Educación de las mujeres casadas en los salarios
Compartir