Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Instituto Economía UC Teoría Econométrica II Apuntes de clases Teoría Econométrica II Primer Semestre, 2018. Profesor: Tomás Rau Binder. Ayudante: Sebastián Poblete C. Alumno: Vicente Breguel Gallaher1 Nota: Los apuntes corresponden a las clases del profesor Tomás Rau en el curso de Teoría Econométrica II durante el primer semestre del 2018. Cualquier similitud con sus ppt’s se debe a que fueron una guía constante en el desarrollo de este documento. Además, cualquier error en fórmulas o en explicación sobre algún teorema y/o concepto se debe exclusivamente a mi responsabilidad. Por último, este documento no representa bajo ningún motivo los apuntes oficiales del ramo. 1 Magister en Economía UC. Mail: vabreguel@uc.cl 1 Instituto Economía UC Teoría Econométrica II Índice 1. Modelo Básico de Elección Binaria 5 2. Logit Multinomial 9 2.1. Distribución Multinomial (Generalización de una Bernoulli). . . . . . . . . . . . . . . . . . . . 9 3. Probit Multinomial 10 3.1. Multinomial Ordenado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4. Modelos de elección Discreta/Continua 13 5. Modelos de Selección 14 5.1. Full Information Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 6. Regresión censurada (Tobit) y modelos de conteo 18 6.1. Modelos de Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6.1.1. Extendiendo modelo Poisson simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7. Modelos de duración 21 7.1. Modelos paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 7.2. Factores determinantes de la duración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 7.2.1. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 8. Estimadores Extremos 24 8.1. Ley de Grandes Números Uniforme (ULLN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.2. Estimador Máximo Verosímil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 8.2.1. Normalidad Asintótica de EE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 9. Método Generalizado de Momentos 28 9.1. Ejemplo GMM y 2SLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 9.1.1. El test J de restricciones de sobre-identificación . . . . . . . . . . . . . . . . . . . . . . 30 10.Identificación 31 10.1. Modelo Causal de Rubin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 10.2. Métodos de Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 10.3. Supuestos de Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 10.4. Estimador de matching simple o exacto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 10.5. Matching en propensity Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 10.6. Algunos resultados about pscore matching. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 10.7. Matching en características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 10.7.1. El método de Abadie e Imbens (2006) . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 10.7.2. Díaz, Rau y Rivera (2015, RESTAT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 10.7.3. Métodos Doblemente Robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2 Instituto Economía UC Teoría Econométrica II 11.Datos de Panel 40 11.1. Control de heterogeneidad individual no observable. . . . . . . . . . . . . . . . . . . . . . . . 41 11.2. Control por variables omitidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 11.3. Dinámica de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 11.4. Un Modelo Lineal de Datos de Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 11.4.1. One-way error component model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 11.4.2. Problemas con LSDV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 11.5. Frish-Waugh-Lovell: Estimador de Efectos Fijos. . . . . . . . . . . . . . . . . . . . . . . . . . 45 11.5.1. Prueba de Efectos Fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 11.5.2. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 11.6. Efectos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 11.6.1. Estimador BG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 11.6.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 12.Paneles Dinámicos 48 12.1. Differences-in-Differences (DD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 12.1.1. Marco de trabajo: Diferencias en Diferencias. . . . . . . . . . . . . . . . . . . . . . . . 50 12.1.2. Supuesto de identificación - Parallel Trends. . . . . . . . . . . . . . . . . . . . . . . . . 50 12.1.3. Chequeos de robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 12.1.4. Problemas con DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 13.Variantes 51 13.1. Differences in Differences (DID) - Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 13.2. Differences in Differences (DID) - Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 13.3. Differences in Differences No Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 13.4. Clustering en el modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 13.4.1. Clustering con datos de panel (FE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 14.Aleatorización 54 14.1. Amenazas a la validez Interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 14.2. Métodos de aleatorización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 14.3. Cálculos de poder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 14.4. Imperfect complience y Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . 57 14.4.1. ¿Qué identifica el � de Wald? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 14.4.2. ¿Qué se puede aprender de una aleatorización? . . . . . . . . . . . . . . . . . . . . . . 59 14.5. Randomization Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 15.Variables Instrumentales 60 15.1. Variables Instrumentales y Evaluación de Impacto . . . . . . . . . . . . . . . . . . . . . . . . 61 15.2. Variables Instrumentales - Caso Sobre-Identificado . . . . . . . . . . . . . . . . . . . . . . . . 61 15.3. Normalidad y Consistencia Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 15.4. Los 3 tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 15.4.1. Supuesto 0: Exogeneidad débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 15.4.2. Supuesto 1: Sobreidentificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 15.4.3. Supuesto 2: Instrumentos débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 15.5. Treatment-Effects Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 15.6. Two Sample IV / Data Combination Strategies . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3 Instituto Economía UC Teoría Econométrica II 16.Regression Discontinuity 67 16.1. El Fuzzy design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 16.2. Ancho de banda hpara LLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 16.3. Recapitulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4 Instituto Economía UC Teoría Econométrica II 1. Modelo Básico de Elección Binaria Modelo de probabilidad lineal (MPL) Yi = xi� + ui i = 1, . . . , n. yi✏ {0, 1} De ese modo, si obtengo la esperanza condicional, lo que sucede es: E(yi|xi) = 1 ⇤ Pr(yi = 1|xi) + 0 ⇤ Pr(yi = 0|xi) E(yi|xi) = Pr(yi = 1|xi) Dada la naturaleza discreta de la variable aleatoria. Luego, además, se observa que: E(yi|xi) = xi� + E(ui|xi)| {z } =0 (sup.identificación) y finalmente, juntando ambas expresiones, obtenemos que la probabilidad es lineal: Pr(yi|xi) = xi� ¿Debemos preocuparnos? Hay 2 puntos importantes (problemas) que destacar; 1. No podemos garantizar que 0 xib� 1, es decir, que la probabilidad viva en el compacto [0, 1] (por definición axiómatica). 2. Errores no normales y heterocedásticos (se puede demostrar «fácilmente» que V(ui|xi) = (1 � xi�)xi�, ya que: ui = 1� xi� ; yi = 1 ui = xi� ; yi = 0 y la varianza de una bernoulli es p(1� p). El mensaje es que estimar un modelo de probabilidad lineal puede tener problemas. Sin embargo, hay autores que lo defienden bajo el argumento de que cuando hay muchas observaciones, los efectos mar- ginales no difieren entre modelos y por tanto el problema se reduce. Sin embargo, ¿existe algún modelo que garantize la no existencia de estos problemas? Modelo de Elección Binaria Este modelo establece que existe una variable latente que depende de variables observables (no observada por el econometrista) y de un término de error: y⇤i = xi� + ui Lo que si observamos es: yi = ( 1 y⇤i > 0 0 y⇤i 0 ¿Cuáles son sus implicancias? 5 Instituto Economía UC Teoría Econométrica II • E(yi|xi) = Pr(yi = 1|xi) = Pr(y⇤i > 0|xi) = Pr(xi� + ui > 0|xi) ! Pr(�ui < xi�|xi). Ahora, si llamamos F (·) a la función de probabilidad acumulada de �ui y la asumimos simétrica en torno a 0, obtenemos que: E(yi|xi) = F (xi�) (no�lineal) Sin embargo, ahora si bien aseguramos que vive en el compacto [0, 1], desconocemos la elección de F (·). Función de verosimilitud Dada la naturaleza binomial del modelo, la función de verosimilitud está dada por: l(�; yi|xi) = F (xi�)yi(1� F (xi�))1�yi (bernoulli)! Para una observación tomando logaritmo a la expresión anterior L(�) = yilog [F (xi�)] + (1� yi)log [1� F (xi�)] luego, la esperanza muestral (N) de la loglikelihood no es más que: EN(L(�; yi|xi)) = 1 N NX i=1 {yiln (F (xi�)) + (1� yi)ln (1� F (xi�))}! promedio muestral de L(�; yi|xi) como el promedio está acotado por arriba y alcanza el máximo valor en un único �, derivamos e igualamos a 0 para estimar el parámetro b�; �EN (L(�; yi|xi)) �� = 1 N NX i=1 ⇢ yi F (xi�) ⇤ f(xi�) ⇤ x 0 i + (1� yi) 1� F (xi�) ⇤ �f(xi�) ⇤ x 0 i � = 1 N nX i=1 ⇢ yi ⇤ fi Fi � (1� yi) ⇤ fi 1� Fi � | {z } escalar x 0 i|{z} vector = 1 N NX i=1 (yi � F (xi�)) f(xi�)x 0 i F (xi�)(1� F (xi�)) ! SCORE (k ⇥ 1) luego, la CPO ⇣ �EN (L(�;yi|xi) �� ⌘ = 0 será un sistema de k ecuaciones y k incógnitas (�), sin embargo, será no lineal, y lo deberemos resolver según Newton-Rapshon ó alguna variante como BHHH. Modelo Logit Para este caso, se tiene que F (z) = ⇤(z) = 1 1 + e�z (CDF ) y, por tanto, note que la PDF será �⇤(z)�z = e�z (1+e�z)2 = ✓ 1 1 + e�z ◆ | {z } ⇤(z) ✓ e�z 1 + e�z ◆ | {z } (1�⇤(z)) , luego, reemplazando: �EN (L(�; yi|xi) �� = 1 N NX i=1 (yi � ⇤(xi�)) ⇠⇠ ⇠⇠ ⇠⇠ ⇠⇠ ⇠⇠: ⇤(xi�)(1� ⇤(xi�))x 0 i ⇠⇠ ⇠⇠ ⇠⇠ ⇠⇠ ⇠⇠: ⇤(xi�)(1� ⇤(xi�)) = 1 N NX i=1 (yi � ⇤(xi�))x 0 i 6 Instituto Economía UC Teoría Econométrica II y al igualar a 0, creamos un sistema de k ecuaciones y k incógnitas. Luego, la matriz Hessiana promedio (matriz de segundas derivadas) es: H = �2EN [L(�; yi|xi)] ����0 = EN [L�� ] = 1 N X x 0 i (kx1) ⇤ ✓ ��⇤(xi�) ��’ ◆ (1xk) = 1 N X x 0 i (�⇤(xi�)(1� ⇤(xi�))xi = � 1 N nX i=1 ⇤i(1� ⇤i)| {z } escalar ⇤ x 0 ixi que es una matriz definida negativa y � identificado (único). Y, además, nos sirve también para encontrar la matriz de varianzas y covarianzas. ¿Cómo? Con el inverso de la matriz hessiana. p N ⇣ b� � � ⌘ d�! N ⇣ 0, (�NEN (L�� (�; yi|xi))�1 ⌘ EN ⇣ I ⇣ b�|xi ⌘⌘ | {z } promedio de la matriz condicional de información = �EN (L��(�; yi|xi)) donde EN ⇣ I(b�|xi) ⌘ es el negativo de H. (OJO que EN representa un promedio muestral: suma y división) Modelo Probit (ocupamos una acumulada de una normal estándar) F (z) = zˆ �1 1p 2⇡ e� u2 2 du = �i f(z) = 1p 2⇡ e� z2 2 = �i En este caso, se tiene que: EN(L(�; yi|xi)) = 1 N X yi=0 ��i 1� �i ⇤ x 0 i + 1 N X yi=1 �i �i ⇤ x 0 i con �i (PDF) y �i (CDF). Luego, el promedio muestral del Hessiano correspondiente es: H = �2EN [L(�; yi|xi)] ����0 = X yi=0 ��i (1� �i)2 [...] Comparación entre ambos modelos: • Ambos modelos predicen de forma similar; estimadores son estadísticamente indistinguibles. • Si las muestras son muy grandes pueden aparecer diferencias ya que la distribución logística tie- ne colas más pesadas (anchas) que la distribución normal (ver gráficos), por lo tanto es más probable ver efectos extraños en la distribución logística. • Para que los parámetros entre los modelos sean comparables, se deben realizar ciertos ajustes: �probit = �logit ⇤ p 3 ⇡ = �logit ⇤ 0, 625 7 Instituto Economía UC Teoría Econométrica II Efectos marginales: • En un modelo lineal, los efectos marginales son constantes. Sin embargo, acá son variables (no constantes). E(y|x) = x� �E(y|x) �x = � constante • En el modelo de elección binaria: E(y|x) = F (x�) �E(y|x) �x = f(x�) ⇤ � no constante � Probit; �Pr [yi = 1|xi] �xi = � (xi�) ⇤ � � Logit; �Pr [yi = 1|xi] �xi = ⇤(xi�) [1� ⇤(xi�)] ⇤ � los errores standard de estos efectos marginales se pueden obtener según el Método Delta. Ver en presentación las varianzas asintóticas de cada modelo (Probit y Logit). • Comentarios finales probit y logit: � Efecto marginal: ¿Evaluamos en el promedio ó el promedio de las evaluaciones individuales? Según teorema de continuidad debería dar lo mismo, pero en la práctica, para muestras pequeñas se recomienda calcular los efectos marginales individuales y luego promediarlos (de- finición de promedio). � Efecto marginal de variables dummies: La forma correcta de estimar el efecto marginal de una variable independiente binaria, por ejemplo d, sería: Prob [Y = 1|x⇤, d = 1]� Prob [Y = 1|x⇤, d = 0] donde x⇤es la media de todo el resto de las variables independientes. � Problemas de estimación en Probit: Supongamos que tenemos una combinación de xi tal que: ( yi = 1 xi�̊ > 0 yi = 0 xi�̊ < 0 si esto ocurre hay separación completa de los datos y podemos hacer la loglik arbitra- riamente cerca de 0. Esto se denomina «clasificador perfecto» y � no puede ser identificado incluso si el hiperplano es único (?). � Grados de libertad en muestras desbalanceadas: Otro problema de identificación ocurre cuando tenemos una combinación de muestra pequeña con un gran número de parámetros a ser estimados. La regla que aplica aquí es la siguiente: Sí mı́n [ny, n(1� y)] < k, entonces no se pueden estimar los �0s. Donde n es el temaño de muestra, k es la dimensión de �, ny es el número de unos y n(1� y) es el número de ceros. Lo anterior pues no existe solución finita para las CPO’s y, por lo tanto, � no puede ser identificado. 8 Instituto Economía UC Teoría Econométrica II 2. Logit Multinomial El Logit usual se puede generalizar a múltiples outcomes discretos, no solamente de carácter binario. Luego, debemos considerar el siguiente «set» de alternativas (no necesariamente ordinales) y✏ {0, 1, 2, . . . , J} Se asumen regresores x comunes, pero los parámetros �j distintos entre categorías. El Modelo Logit Multinomial está dado por: Pr(y = j|x) = exp (x�j) / " 1 + JX h=1 exp(x�h) # donde �j es un vector de kx1, j = 1, . . . , J . Luego, asumiendo tambiénque �0 = 0 (lo que es irreal y poco aplicable), para que las probabilidades sumen uno necesitamos una normalización implícita que se muestra a continuación: Pr(y = 0|x) = 1h 1 + PJ h=1 exp(x�h) i Luego, JX j=0 Pr(y = j|x) = 1h 1 + PJ h=1 exp(x�h) i + PJ h=1 exp (x�h)h 1 + PJ h=1 exp(x�h) i = 1 Note que; Pr(y = j|x) = e x�i PJ h=0 e x�h · e �x�0 e�x�0 ! e x(�j��0) PJ h=0 e x(�h��0) = ex e�j PJ h=0 e xe�h donde los tildes representan el desvío con respecto a �0, siendo esta última la «categoría base», siendo esta la alternativa correcta, ya que los betas si deben compararse con alguna categoría pase, en este caso la categoría 0. El Multinomial-Logit es compatible con maximización de utilidad (McFadden 1978), a través de un «Random-Utility-Model». Lo anterior es; Uj = x�j + ej e ⇠ Gumbel (Extreme Value Type I) Pr(Uj > Uk, j 6= k) = ex�j 1 + PJ h=1 e x�h donde F (e) = e�e �(e�u)/s y usamos u = 0 y s = 1. 2.1. Distribución Multinomial (Generalización de una Bernoulli). f(y) = p1[y=0]o ⇥ . . .⇥ p 1[y=J] J con pj = ex�j 1 + PJ h=1 e x�h = p(x�j) luego, tomando ln a la función f(y), sumando sobre i y dividiendo por N posteriormente, podemos ver que para una observación, se tiene que la log-lilekihood: li (�) = JX j=0 1 [yi = j] ln (Pj(xi�j)) luego, el estimador MV de � es aquel que minimiza 1N Pn i=1 li (�) 9 Instituto Economía UC Teoría Econométrica II Efectos parciales (marginales) En este caso son un poco más complicados, pero solamente corresponden a la derivada parcial con respecto a la independiente de interés. Luego, �Pr (y = j|x) �xk = Pr (y = j|x) ( �jk � " JX h=1 exp (x�h)�hk # /g(x,�) ) donde g(x,�) = 1 + JX h=1 exp(x�h) y los errores standard se calculan con el metodo delta, al igual que en aplicaciones anteriores. Los efectos marginales NO se calculan para la categoría base y, además, algo importante también es que los ej son independientes en categorías y entre categorías, esto se ve en la Independencia de Alternativas Irrelevantes. (el �0 no se puede recuperar) Independencia de Alternativas Irrelevantes Un supuesto clave en el caso del Multinomial Logit es el de la Independencia de las Alternativas Irrelevantes (IAA), es decir, Pr(yi = k) Pr(yi = j) = e� 0 kxi e� 0 jxi = e(� 0 k�� ’ j)xi (odd ratio) luego, en ese caso notamos que no depende de otras alternativas �l con l 6= k y l 6= j, por lo que el odd ratio no cambiará al aparecer alguna nueva alternativa. De no cumplirse el supuesto de IIA entonces el modelo perdería validez, y esto ocurre por lo mismo que se introducía en la subsección anterior: los errores eij son independientes entre alternativas para una persona i. Si las alternativas son realmente independientes, podría estimar un modelo con menos alternativas y, bá- sicamente, los �0s no deberían cambiar. Luego, se puede realizar un test de Hausman-Mcfadden entre el modelo incompleto (consistente e ineficiente bajo H0 : b), es decir, modelos que eliminan una de las alternativas, y el modelo completo (consistente y eficiente bajo H0 : b). Si hay diferencias significativas entre los parámetros, rechazamos la nula de IIA. El estadístico HM es: (b�B) 0 V (b�B)�1(b�B) ⇠ �2((J�2)·k) donde b es sacando la alternativa y B es del modelo completo. 3. Probit Multinomial Este modelo no impone independencia entre las alternativas (IIA). Asumamos 3 categorías (es decir, 3 latentes). Y *1 = V1 + ✏1 Y ⇤2 = V2 + ✏2 Y *3 = V3 + ✏3 donde Vj = xj� ó Vj = x�j . Luego, (✏1, ✏2, ✏3) ⇠ N(0, P ) , con X = 0 @ �21 �12 �13 �12 �22 �23 �13 �23 �23 1 A 10 Instituto Economía UC Teoría Econométrica II Considere ahora la probabilidad de que escogamos la categoría 1, Pr (Y ⇤1 > Y ⇤ 2 , Y ⇤ 1 > Y ⇤ 3 ) = Pr (V1 + ✏1 > V2 + ✏2, V1 + ✏1 > V3 + ✏3) = Pr 0 @V1 � V2 > ✏2 � ✏1| {z } e✏21 , V1 � V3 > ✏3 � ✏1| {z } e✏31 1 A = Pr ⇣ e✏21 < �eV21,e✏31 < �eV31 ⌘ ahora, note que; (e✏21,e✏31) ⇠ N(0,⌦) donde ⌦ = ✓ �21 + � 2 2 � 2�12 �23 � �21 � �13 + �21 00 (diag) �23 + �21 � 2�13 ◆ Luego, P1 = �eV21ˆ �1 �eV31ˆ �1 f (e✏21,e✏31) de✏21de✏31 donde f (e✏21,e✏31) tiene una distribución normal bivariada con matriz de covarianza igual a ⌦ y media 0. Sin embargo, esa integral es muy difícil de estimar. Intuición Integral por MCO Supongamos queremos evaluar la siguiente integral: I = bˆ a f(x)dx ! ✓ 1 b� a ◆ I = bˆ a ✓ 1 b� a ◆ f(x)dx Luego, = E (f(x)) Z) I = (b� a)E (f(x)) Monte Carlo Integration Luego, podemos muestrear D realizaciones ui de una uniforme [0, 1], transformar xi = a+ (b� a)ui y, así, x es uniforme [a, b]. Usando el principio de analogía; EN [f(x)] = 1 D DX i=1 f(xi) bI = (b� a) 1 D DX i=1 f(xi) Luego, si tenemos un estimador pij para la observación i, opción j y sea yij igual a 1 si la observación i toma la opción j y 0 si no. Podemos estimar por Simulated Maximum Likelihood; ln ⇣ bLN ⌘ = NX i=1 JX j=1 yij ln (bpij) 11 Instituto Economía UC Teoría Econométrica II 3.1. Multinomial Ordenado Observamos «m» categorias con naturaleza «ordinal» (se pueden ordenar mediante un orden lógico entre ellas. Ej. encuestas de satisfacción). En estos modelos, existe una variable latente (utilidad) detrás de la decisión tal que: y⇤i = x 0 i� + ui yi = j si ↵j�1 < y⇤i ↵j con ↵0 = �1 y ↵m�1 = +1. Es importante notar que aquí ya no existe el tema de la categoría base, ya que se pueden ordenar lógicamente, en un multinomial lobit las categorías no necesariamente son ordenables, por ej. «me voy en auto», «me voy en avión», «me voy en tren». En términos de probabilidades, la probabilidad de que el individuo escoga la categoría j se podrá expresar del siguiente modo: Pr (y = j) = Pr (↵j�1 < y ⇤ i ↵j) = Pr ⇣ ↵j�1 < x 0 i� + ui ↵j ⌘ = Pr ⇣ ↵j�1 � x 0 i� < ui ↵j � x 0 i� ⌘ = Fui ⇣ ↵j � x 0 i� ⌘ � Fui ⇣ ↵j�1 � x 0 i� ⌘ y lo que vamos a hacer será escoger una distribución para el error ui. Si es una distribución logística, será un logit ordenado, y si escogemos normal, será un probit ordenado. Además, debemos notar que los ↵0s son desconocidos y deben ser estimados al igual que los �0s. Supongamos que tenemos una variable dependiente con cuatro alternativas ordenadas y el error del modelo de la variable latente se distribuye normal (probit ordenado). y⇤i = x 0 i� + ui yi = 8 >>>< >>>: 1 si �1 < y⇤i ↵1 2 si ↵1 < y⇤i ↵2 3 si ↵2 < y⇤i ↵3 4 si ↵3 < y⇤i +1 Entonces, se tiene que: Pr (y = j|x) = � ⇣ ↵j � x 0 i� ⌘ � � ⇣ ↵j�1 � x 0 i� ⌘ luego, por ejemplo, cuando j = 1! ↵0 = �1 Pr (y = 1|x) = � ⇣ ↵1 � x 0 i� ⌘ �⇠⇠⇠ ⇠⇠:0 � (�1) y, por ejemplo, cuando j = 4; Pr (y = 4|x) = 1� � ⇣ ↵3 � x 0 i� ⌘ luego es fácil representar las probabilidades de elección de cada una de las categorías. Finalmente, la verosimilitud es construida al igual que en el caso no ordenado, y maximizada con respecto a ↵,�. 12 Instituto Economía UC Teoría Econométrica II ¿Cómo serán los efectos marginales? �Pr (yi = 1|xi) �x = �� ⇣ ↵1 � x 0 i� ⌘ · � ; negativo �Pr (yi = 2|xi) �x = �� ⇣ ↵2 � x 0 i� ⌘ · � + � ⇣ ↵1 � x 0 i� ⌘ · � ;negativa �Pr (yi = 3|xi) �x = �� ⇣ ↵3 � x 0 i� ⌘ · � + � ⇣ ↵2 � x 0 i� ⌘ · � ;positiva �Pr (yi = 4|xi) �x = � ⇣ ↵3 � x 0 i� ⌘ · � ; positiva Pseudo R2 = 1 � l0l1 . Siendo l1 la función de verosimilitud evaluada en b�MV y l0 es la función de verosimilitud de un modelo sin regresores (sólo 1 constante). Entonces, mientras más grande es la ve- rosimilutud del modelo completo, el ratio se va a 0, y por tanto el Pseudo R2 se acerca a 0. El concepto dice cuanta más verosimilitud agregan los regresores al modelo. Recordar que cuando yo regresiono frente a una constante el � es la media, por lo que agregar regresores hace que mi estimación sea más «verosímil» y no solamente me centre en el promedio. 4. Modelos de elección Discreta/Continua Este tipo de modelos corresponde a una ecuación estructural (y que corresponde a la variable continua) y una ecuación de selección (variable discreta binaria). y1i = xi� + v1i si y ⇤ 2i > 0 luego,si y⇤2i 0 no observamos y1i. Ej. salarios y participación laboral, siendo la participación la binaria si ó no. y2i|{z} observada = ( 1 si y⇤2i > 0 0 si y⇤2i 0 luego, la anterior es la ecuación de selección (latente). Siendo; y⇤2i = zi� + v2i Recordando que: y1i = xi� + v1i /x 0 i x 0 iy1i = x 0 ixi� + x 0 iv1i /E (·) E ⇣ x 0 iy1i ⌘ = E ⇣ x 0 ixi� ⌘ + E ⇣ x 0 iv1i ⌘ luego, por supuesto de identificación se cumplía que E ⇣ x 0 iv1i ⌘ = 0 y, por tanto, se obtenía que: � = n E ⇣ x 0 ixi ⌘o�1 E ⇣ x 0 iy1i ⌘ Sin embargo, si sólo observamos y1i cuando y⇤2i > 0, no podemos encontrar un análogo muestral para estimar �. Luego, sólo podemos encontrar un análogo muestral de E h x 0 iy1i|y*2i > 0 i . Al condicionar en y2i el supuesto de identificación necesario sería E [v1i|xi, y⇤2i > 0] = 0 y generalmente no se cumplirá y el parámertro estructural no está identificado. Luego, dada la regla de selección tenemos un problema de identificación y de estimación. Heckman (1976) encuentra 13 Instituto Economía UC Teoría Econométrica II una solución brillante. El problema es que sólo podemos identificar expresiones del tipo: E [y1i|x, y⇤2i > 0] y sabemos que la esperanza condicional está dada por: E [y1i|x] = E [y1i|x, y⇤2i > 0]Pr (y⇤2i > 0) + E [y1i|x, y⇤2i 0]Pr (y⇤2i 0) luego, el segundo término no lo observamos en la muestral (analogy principle falla). Pero note que (asu- miendo xi exógeno); E [y1i|x, y⇤2i > 0] = E [xi�|x, y⇤2i > 0] + E [v1i|x, y⇤2i > 0] = xi� + E [v1i|zi� + v2i > 0] = xi� + E [v1i|v2i > �zi�]| {z } Hazard Rate �(z�) y no podemos asumir que E [v1i|v2i > �zi�] = 0. Sin embargo, si pudiéramos incorporar esta expresión como un regresor (variable omitida) tendríamos identificación y podríamos correr una regresión de y1i en xi y E [v1i|y2i > 0] . Un resultado de estadística nos dice que: f (v1|v2 > �zi�) = ´1 �z� f(v1, v2)dv2´1 �z� f(v2)dv2 = ´1 �z� f(v1, v2)dv2 Pr (v2 > �zi�) que es la condicional de v1 dado v2 > �z�, Luego, E (v1|v2 > �z�) = 1̂ �1 v1 · ´1 �z� f(v1, v2)dv2dv1´1 �z� f(v2)dv2dv1 que es lo mismo que; E (v1|v2 > �z�) = ´1 �1 ´1 �z� v1 · f(v1, v2)dv2dv1⇣´1 �z� f(v2)dv2dv1 = ´1 �1 ´1 �z� f(v1, v2)dv2dv1 ⌘ = � (z�) y el denominador tiene las siguientes características: Pr (v2 > �zi�) = 1̂ �1 1̂ �z� f(v1, v2)dv2dv1 = 1̂ �z� f(v2)dv2 5. Modelos de Selección En cuanto a la elección discreta/continua vimos un problema que es bastante interesante. Tenemos trun- camiento de la variable dependiente de nuestra ecuación estructural. Además, conocemos la regla de selección pero observamos una discretización o resultado discreto. Luego, ¿podemos identificar los parámetros es- tructurales � a pesar de este problema? La respuesta es afirmativa, bajo ciertos supuestos distribucionales. Ahora, queremos operar el hazard rate, y comenzamos asumiendo que la distribución conjunta entre dos variables aleatorias x e y es normal bivariada, especificado de la siguiente manera; ✓ x y ◆ ⇠ N ✓ µx µy ◆ , ✓ �2x ⇢�x�y ⇢�x�y �2y ◆� 14 Instituto Economía UC Teoría Econométrica II luego, una de las tantas ventajas de la distribución normal es que la distribución condicional también es normal: y|x ⇠ N ✓ µy + ⇢�x�y �2x (x� µx) ,�2y � 1� ⇢2 �◆ Además, existe el siguiente resultado: E (y|x > a) = µy + ⇢�yE (x� µx) �x |x > a � = µy + ⇢�y� ✓ a� µx �x ◆ | {z } hazard rate y dada la normalidad bivariada de ✓ x y ◆ se puede demostrar que; � (µ) = � (µ) 1� � (µ) ! densidad de una normal (pdf) ! probabilidad acumulada (cdf) lo que es útil porque conocemos la pdf y la cdf de una normal. Luego, y1 = x� + v1 y⇤2 = z� + v2 Si ✓ v1 v2 ◆ ⇠ N ✓✓ 0 0 ◆ , ✓ �21 p�1 ⇢�1 1 ◆◆ , con �22 normalizada en 1 (condición necesaria ya que no se puede identificar - En modelos no lineales es muy común la normalización), ahora se cumple que: E (y1|x, y⇤2 > 0) = x� + E (v1|x, y⇤2 > �z�) prescindiendo de x ya que es exógeno. Luego, E (y1|x, y⇤2 > 0) = x� + E (v1|v2 > �z�) = x� + ⇢�1� (�z�) = x� + ⇢�1 ✓ � (�z�) 1� � (�z�) ◆ = x� + ⇢�1 � (z�) � (z�) y es importante este resultado ya que sin asumir la noirmal bivariada sería imposible llegar a esta forma funcional, donde se debe cumplir que: � (z�) = 1p 2⇡ e� (z�)2 2 � (z�) = ˆ z� �1 1p 2⇡ e� µ2 2 du Luego, también debemos saber que � es desconocido. Heckman (1979) sugiere realizar los siguientes pasos: 1. Estimar � consistentemente usando un probit para la probabilidad de observar los datos en función de z y obtener b�. (Esto es lo mismo que estimar un probit para la decisión de participar). 2. Calcular o evaluar b� = � ⇣ zib� ⌘ para todas las observaciones i. 15 Instituto Economía UC Teoría Econométrica II 3. Estime la regresión: y1i = xi� + ⇢�1b� ⇣ zib� ⌘ + "i Luego heckman demuestra que estimando esta regresión aumentada se obtiene un b� consistente, es decir, que converge al valor poblacional. b� p�! � 4. Este es el método de Heckman en 2 etapas. LIML : Limited Information Maximum Likelihood Elementos a considerar: El estimador del error estándar convencional es ineficiente pues el modelo de regresión a estimar es intrínsecamente heterocedástico debido a la selección. Una forma de solucionar esto es mediante el uso de los estimadores de los errores estándar robustos los cuales son al menos consistentes. El método no impone la condición de que |p| 1 lo cual esta implícitamente asumido en el modelo. Esta condición es a menudo violada. El supuesto de normalidad es necesario para la consistencia de los estimadores. Luego, es un modelo que requiere MUCHA estructura. 5.1. Full Information Maximum Likelihood ¿Hay alguna manera de evitar las 2 etapas y estimar todo de manera simúltanea? Sí. La función de verosi- militud se compone de dos partes fundamentales: 1. El evento y⇤2 > 0, y2 = 1 observando y1. 2. El evento y⇤2 0 no observando y1 (y1 missing) Luego, 1. Pr (y1, y⇤2 > 0|x, z)) y2 = 1 2. Pr (y⇤2 0|z)) y2 = 0 L = nY i=1 Pr (y1i, y ⇤ 2i > 0|x, z) y2i · Pr (y⇤2i 0|z) 1�y2i Luego, requiere de ciertos pasos para obtener la loglikelihood (ver pdf en webcursos), pero llegamos a lo siguiente: lnL (�, �, ⇢,�1; y, x, z) = nX i=1 ln [1� �(zi�)] · (1� y2i) + nX i=1 �ln�1 + ln� ✓ y1i � xi� �1 ◆ · y2i � + nX i=1 " ln� zi� + ⇢ �1 (y1i � xi�)p 1� ⇢2 ! · y2i # y este método FIML es eficiente relativo al de 2 etapas. 16 Instituto Economía UC Teoría Econométrica II Heckprob (Discreto/Discreto) Vimos con detenimiento el caso en que observamos una ecuación estructural lineal condicional en que se observa un índice de participación. En otras ocasiones la ecuación estructural no es lineal, sino que binaria. Este modelo fue por primera vez analizado (y estimado) por Ven-Pragg (1981), en el cual se tienen dos modelos de elección binaria que pueden ser tratados como simultáneos o secuenciales. 8 >< >: D2 = 1 participa ( D1 = 1 participa D1 = 0 Full � T ime D2 = 0 no� participa Luego, D1 = 8 >>>>>>< >>>>>>: 1 y⇤1i > 0, y⇤2>0z }| { D2 = 1 0 y⇤1i 0, D2 = 1 missing D2 = 0| {z } (y⇤20) D2 = ( 1 y⇤2 > 0 0 y⇤2 0 y las ecuaciones para las variables latentes están dadas por: y⇤2i = zi� � v2i y⇤1i = xi� � v1i donde se asume que el vector (v1i, v2i) se distribuye como una normal bivariada con media (0, 0) y varianzas (1, 1) y correlación ⇢. ✓ v1 v2 ◆ ⇠ N ✓✓ 0 0 ◆ , ✓ �21 ⇢�1 ⇢�1 1 ◆◆ luego, tal como está presentado el modelo, tenemos tres realizaciones posibles para el vector (D1i, D2i) que se muestra a continuación: {D1, D2} = {(1, 1) , (0, 1) , (., 0)} Pr (D1 = 1, D2 = 1) = Pr (y ⇤ 1 > 0, y ⇤ 2 > 0) = Pr (x� � v1 > 0, z� � v2 > 0) = Pr (v1 < x�, v2 < z�) = � (x�, z�, ⇢) que ya sabemos que es una normal bivariada (cdf) (�). Pr (D1 = 0, D2 = 1) = Pr (y ⇤ 1 0, y⇤2 > 0) = Pr (�v1 �x�, v2 < z�) = � (�x�, z�,�⇢) Pr (., 0)() (D1, D2) (y⇤2 0) Luego, Pr (y⇤2 0) = Pr (z� � v2 0) = Pr (v2 � z�) = 1� � (z�) 17 Instituto Economía UC Teoría Econométrica II Finalmente, la función de verosimilitudpara el caso simultáneo se puede escribir de la siguiente manera: L = nY i=1 Pr (D1 = 1, D2 = 1)D1 ·D2 · Pr (D1 = 0, D2 = 1) · (1�D1) ·D2 + Pr(D2 = 0) · (1�D2)| {z } se activa si D2=0 l (�, �, p) = nX i=1 ln {�2 (xi�, zi�, ⇢)}D1iD2i + nX i=1 ln {�2 (�xi�, zi�,�⇢)} (1�D1i)D2i + nX i=1 ln {1� � (zi�)} (1�D2i) 6. Regresión censurada (Tobit) y modelos de conteo Ahora, veremos un caso un poco diferente al de selección o truncamiento. Este es el de censura: tenemos censura cuando para algún valor mayor o menor de una variable dependiente observamos una cota. Aquí, no hay «regla de selección» subyacente o truncamiento, sino que tenemos una «regla de censura» que no depende de regresores. En sesgo de selección tenemos truncamiento debido a una elección de un agente, luego tenemos missing values para la variable dependiente. Con censura, tenemos números (por ej. 0’s). La modelación de este problema es así: y⇤i = xi� + ui ui|xi ⇠ N(0,�2) (con xi exógena), pero sólo observamos y⇤i cuando esta es mayor o igual a algún valor que asumiremos 0. En este caso hay censura por la izquierda, yi = máx (0, y ⇤ i ) Este modelo se llama un Tobit censurado estándar. Note que solo podemos estimar E (y|x, y > 0). Luego, ¿cómo podemos identificar a � poblacional? Retomando: E (y|x, y > 0) = x� + E (u|x, y > 0) = x� + E (u|x, u > �x�) = x� + �� ✓ �x� � 0 � ◆ = x� + � ✓ � (x�/�) � (x�/�) ◆ Luego, uno podría pensar en estimar algó así como: y = x� + �� ✓ x� � ◆ + e luego, como � entra de manera lineal y no lineal, tenemos un problema de identificación, es decir, no se puede estimar de manera consistente a través de MCO (OLS). Sin embargo, la estimación la hacemos por Máxima Verosimilitud. La loglikelihood es relativamente sencilla. 18 Instituto Economía UC Teoría Econométrica II Note que hay dos eventos: y = 0 (discreto - observación censurada - indicatriz 1[y=0]) y > 0 (conti- nuo - observación no censurada - indicatriz 1[y>0]). De ese modo, para observaciones censuradas: Pr (y = 0|x) = Pr (y⇤i < 0|x) = Pr (xi� + ui < 0|x) = Pr (ui < �xi�|x) / · ✓ 1 � ◆ = Pr ✓ ui � < �xi� � |x ◆ = � ✓ �xi� � ◆ = 1� � ✓ x� � ◆ y la densidad f(y|x) = 1�� ((y � xi�) /�). Ahora, para observaciones no censuradas: la pdf será: f (y|x) = 1 (2⇡) 1 2 � e� (yi�xi�) 2 2�2 = 1 � � ✓ yi � xi� � ◆ y ahora tenemos las 2 partes de la función de máximo verosimilitud y podemos estimar de manera consistente �. Luego, L (�,�) = nY i=1 1� � ✓ x� � ◆�1[y=0] 1 � � ✓ (y � xi�) � ◆�1[y>0] Nuevamente, la «gracia» es que con una muestra censurada podemos recuperar los parámetros poblacionales. 6.1. Modelos de Conteo En los modelos de conteo la variable dependiente es discreta y se puede contar, luego tiene sentido eco- nómico, por lo tanto es típicamente � 0. Un ejemplo típico es en economía de la innovación para el número de patentes que logra una firma, otro, en economía de la salud, número de licencias médicas que toma un individuo. En transportes, por último, el número de accidentes automovilísticos. Además, los eventos usualmente siguen una distribución de Poisson, sin embargo, este modelo puede ser muy restrictivo. De todas formas, una distribución de Poisson es un buen comienzo. yi ⇠ Poisson con parámetro �i = f(xi). Esto implica que: Pr [yi = y|xi] = e��i�yii yi! yi = 0, 1, 2, ... Típicamente se supone que ln�i = x 0 i�, es decir, �i = ex 0 i� y, por tanto, E [y|x] = V ar [y|x] = �i = ex 0 i� que no es deseable, ya que cuando se viola ese supuesto de que E = V , cuando uno estima la varianza no lo podrá hacer de manera consistente (no se cumple el supuesto de la matriz de información). Luego, los efectos marginales vienen dados por: �E [y|xi] �xk = �i�k = E [y|xi]�k 19 Instituto Economía UC Teoría Econométrica II �E [y|xi] �xk · 1 E [y|xi] = �k () �ln (E [y|xi]) �xk = �k luego, los coeficientes �k se interpretan como semi-elasticidades si xk es continua. Luego, para xk dummy (discreto), tomamos efectos discretos: E (yi|x�k, xk = 1)� E (yi|x�k, xk = 0) suponiendo que x 0 � = x 0 �̀ + ↵d con d = ( 1 0 . Luego, E(yi|x, d = 1)� E(yi|x, d = 0) =ex 0 �̀+↵ � ex 0 �̀ = 0 B@ ex 0 �̀ |{z} E(yi|xi,d=0) 1 CA ⇤ (e↵ � 1) luego, si paso dividiendo: E(yi|x, d = 1)� E(yi|x, d = 0) E(yi|x, d = 0) = e↵ � 1 lo que quiere decir que: 4% = e↵ � 1 Máxima Verosimilitud: Recuerde que P (y = yi|x) = e ��i�yi yi! . Luego; lnL = nX i=1 h ��i + yix 0 i� � lnyi! i y la CPO: �lnL �� = nX i=1 [yi � �i]xi = 0 99K SCORE; solución númerica y el SCORE queda con [yi � �i] que representa un «seudo residuo», representada a través de la ob- servación ajustada por su media. Además, se puede fácilemente demostrar que la esperanza de ese seudo residuo será 0. Además, notar que las CPO implican que si tenemos la media condicional bien especificada tenemos estimadores consistentes. (Paréntesis empirico): Sabemos que E (y|x) = ex 0 � y ln (E (y|x)) = x0�. Luego, la tentación es hacer la regresión ln(y) = x 0 � + e, con E (e|x) = 0, luego: E (ln (y|x)) = x0� y eso no se cumple en general, ya que al ser y una variable de conte y = {0, 1, ...} las veces que observemos 0 será complicado (lo que se hace para solucionarlo es «sumar algo» , normalmente 1, pero hay investigadores que ya no tolera eso). Siguiendo, la CSO es muy similar a lo de siempre (y explotando la identidad podemos obtener la varianza como el inverso del negativo de la esperanza del Hessiano): �2lnL ����0 = X �(yi � �i)xi ��0 = X ��ixix 0 i V ⇣ b�|x ⌘ = ⇣X �ixix 0 i ⌘�1 luego, si no se cumple que esperanza condicional es igual a varianza condicional, esa varianza ya no es correcta. 20 Instituto Economía UC Teoría Econométrica II 6.1.1. Extendiendo modelo Poisson simple ¿Qué pasa si no se cumple el supuesto de que la varianza es igual a la media? Tenemos «sobre-dispersión». Un modelo de tipo Poisson que permite que media y varianza sean distintos es el Negative Binomial (ó Poisson-Gamma - Poisson Generalizado). En este modelo, la distribución es: yi ⇠ Poisson (�⇤i ) donde ln (�⇤i ) = xi� + vi donde evi ⇠ Gamma � 1 ↵ ,↵ � , con media (a · b) = 1 y varianza � a · b2 � = ↵. Luego, usaremos la siguiente distribución: Pr (y = yi|xi) = e�� ⇤ i �⇤ yi i yi! note que: �⇤i = ex 0 i�+vi = �ievi (de ese modo, «perturbamos un poco el �⇤i ), luego, fijando xi y vi tenemos una poisson tradicional: E (yi|xi, vi) = ex 0 i�+vi . Ahora, aplicando LEI (E (?) a ambos lados) tendremos que: E (yi|xi) = ex 0 i� · E (evi)| {z } 1 E (yi|xi) = ex 0 i� De este modo, V (yi|xi) = E (V (yi|�⇤i )) + V (E (yi|�⇤i )) = E (�⇤i |xi) + V (�⇤i |xi) = �iE (evi)| {z } 1 + �2iV (e vi)| {z } ↵ = �i (1 + ↵�i) lo que representará una sobre-dispersión en el caso en que ↵ > 0 y si ↵ < 0 bajo-dispersión (este caso es muy poco común). 7. Modelos de duración Último modelo no lineal que veremos en esta parte del curso. Sirve para modelar variables medidas en duración en un estado. Por ej. Duración del desempleo, o duración con una enfermadad terminal, etc. Estamos en una situación en que observamos duraciones en que queremos entender cuánto dura un fenó- meno y, obviamente, la estática comparativa que determina la duración. Es clave entender cómo es el proceso de recolección de datos: 1. Flow sampling: personas que entran al desempleo en un mes dado. 2. Stock sampling: personas que están desempleadas en un mes dado. 3. Population sampling: toda la población (empleados y desempleados). Generalmente hay censura: por eso muchas veces se estudia en más detalle la transición que la duración media. La variable de interés es la duración o permanencia en un estado, por ej. empleo (T ). T ⇠ duración o permanencia en un estado, con f(t) su densidad y F (t) su función de distribución. Ahora, sea S (T ) la función de supervivencia, definida como «la probabilidad de permanecer en el estado hasta al menos el período t»: S(t) = Pr (T > t) = 1� F(t) = 1̂ t f(x)dx 21 Instituto Economía UC Teoría Econométrica II Hazard Rate:Probabilidad de abandono en el límite ó «instantánea» en un período t dado, llamada �(t): �(t) = lı́m dt!0 Pr {t T < t+ dt|T � t} dt = lı́m dt!0 F (t+ dt)� F (t) dt · 1 Pr (T � t) luego, cómo el lado izquierdo es la derivada y el lado derecho el inverso de la función de supervivencia (dado que estamos en un mundo continuo), el hazard rate nos queda cómo: �(t) = f(t) 1� F(t) = f(t) S(t) luego, cómo �ln(S(t))�t = 1 S(t) ·�f(t) tenemos que:� �ln(S(t)) �t = �(t), y resolviendo (y explotando que F (0) = 0): S(t) = exp 0 @� tˆ 0 �(u)du 1 A Luego, la función de supervivencia y hazard rate se relacionan 1 : 1. Al igual que la función densidad, que se caracteriza como: f(t) = �(t)exp 0 @� tˆ 0 �(u)du 1 A Estimación de S(t) (sin regresores): Estimador de Kaplan y Meir. bS (t) = Y ti<t ✓ 1� di ni ◆ con di # de «deaths» en ti y ni # de vivos justo antes de ti. 7.1. Modelos paramétricos Se debe elegir una distribución para T . Algunos ejemplos: Weibull ! �(t) = �↵t↵�1 y S(t) = exp (��t↵). Exponencial ! �(t) = � y S(t) = exp (��t). LogNormal LogLogístic Gompertz. Además de elegir una de las distribuciones, debemos escoger que parámetro variará con las observaciones. En el caso de la Weibull, por ej, haremos variar �. Un método sencillo de selección de la función de densidad óptima es el propuesto por Klein y Moesch- berger (1997), quienes utilizan como criterio la pendiente de la función de supervivencia. Por ej, en la dis- tribución exponencial, con función de supervivencia S(t) = exp (��t)! ln ⇣ bS(t) ⌘ = ��t y �ln ⇣ bS(t) ⌘ = �t, luego la representación gráfica de esto último con respecto a t es una línea recta. Luego, si esta es Weibull, con supervivencia S(t) = exp (��t↵) y la representación gráfica de ln ⇣ �lnbS(t) ⌘ = ln (�) + ↵ln (t) versus ln(t) es una línea recta. 22 Instituto Economía UC Teoría Econométrica II 7.2. Factores determinantes de la duración La identificación de factores determinantes de la duración no sólo descansa en las variables que serán incluidas en el análisis, sino que también en qué momento del tiempo ellas se miden y en las consideraciones metodológicas como por ejemplo la elección de la función de distribución y el tratamiento de problema de datos censurados. Una manera de modelar, es imponer que la hazard rate es heterogénea (varía individuo a individuo) pero es proporcional a una hazard rate base. Estos modelos se conocen como Proporcional Hazar Rate Models (PH). �(t, x) = �0(t) · exp (x�) donde �0(t) es la baseline hazard. En la Weibull, �0(t) = ↵t↵�1 y � = exp (x�). Luego, individuos con distintas X tendrán distintas hazard rates, distintas probabilidades de salir de el estado. Esa es la fuente de heterogeneidad. Este modelo es más informativo que un Probit, por ej., ya que puedo obtener probabilidades como «estar desempleado hasta el período t» ó «probabilidad de emplearse condicional en que estuvo desem- pleado hasta el período t». Lógicamente, se necesitan mejores datos. 7.2.1. Censura Una decisión metodológica relevante es la respuesta dada al problema de censura del lado derecho. Esto problema se origina cuando observamos duraciones incompletas hasta la fecha de la encuesta. Si existe cen- sura, se debe incorporar ésta a la función de verosimilitud en los modelos de duración. Además, debemos suponer que conocemos la censura («fecha»), es decir, si la duración está censurada o no. �i = ( 1 duración completa (sin censura por la derecha) 0 censurada i = 1, 2, . . . , n. Luego, en un mundo sin censura por la derecha (duración completa), la función de verosimilitud es: L = nY i=1 Li = Y i f(ti) �iS(ti) 1�� que se estima por máxima verosimilitud. Además, si quiere agregar regresores, cambie � = exp (x�). AFT Models: Accelerated Failure Time En algunos casos, se puede estimar como un modelo log � lineal: S(t) = exp (��t↵) /ln()/ ·�1/ln() ln (�ln (S(t))) = ln (�) + ↵ln(t) ahora si � = exp (x�), la expresión anterior es: ln (�ln (S(t))) = x� + ↵ln(t) diviendo por �↵ ln(t) = x� + ✏ donde � = � �↵ y ✏ = ln(�ln(S(t))) ↵ . Muy importante: Luego, la interpretación de los coeficientes es com- pletamente distinta que en el caso de estimar por hazard rate (por el signo menos). Luego, la tabla de estimaciones debe explicitar si se estima con � del modelo canónico ó � del modelo acelerado. Recordar que los � de la hazard rate es la probabilidad de salir, de modo que un signo menos en las es- timaciones representará una «menor probabilidad de salir» 23 Instituto Economía UC Teoría Econométrica II 8. Estimadores Extremos Un estimador extremo b✓ es aquel que minimiza ó maximiza una función bQ (✓), es decir, b✓ = argmı́n ✓✏++ bQ (✓) Dicha función bQ (✓) depende de parámetros y de una muestra, eg: bQ (✓) = 1 n nX i=1 ln (f(zi, ✓)) Dicha función bQ (✓) tiene una contraparte poblacional Q (✓) = E [ln (f (zi, ✓))], la cual es minimizada o maximizada en un set de parámetros determinado, ✓0. Luego, necesitamos que bQ (✓) esté muy cerca de Q (✓) para que minimizando la primera, obten- gamos un estimador consistente de ✓0. Notación: ✓ es un vector de parámetros de interés de dimensiones p⇥ 1. bQ (✓) es la función muestral (datos) y de parámetros de dimensión r ⇥ 1. Supuesto fundamental: sup✓✏⇥| bQ (✓)�Q (✓) | p�! 0 y que ✓0 minimiza Q (✓). Luego, un estimador extremo: b✓ que minimiza bQ (✓). Ejemplos: MV: bQ (✓) = EN [lnf (zi, ✓)] = 1n P ln (f(zi, ✓)) MCO: bQ (✓) = EN ⇣ yi � x 0 i✓ ⌘2� = 1n P⇣ yi � x 0 i✓ ⌘2 Teorema 1: Consistencia de los estimadores extremos. 1. (Identificación) Q (✓) es únicamente minimizada en el verdadero valor del parámetro ✓0. 2. (Compacidad) ⇥ es compacto (cerrado y acotado). 3. (Continuidad) Q (·) es continua. 4. (Convergencia uniforme) sup✓✏⇥| bQ (✓)�Q (✓) | p�! 0. Luego, b✓ p�! ✓0. El estimador extremo establece las condiciones mínimas para que el estimador extremo converga en pro- babilidad al verdadero valor (más que el verdadero valor, al único mínimo de Q). La demostración de la consistencia del EE.EE se puede demostrar en 2 etapas ( bQ (·) es la función muestral y Q (·) es la función poblacional): El primer paso comienza notando que Q (✓0) Q (✓) (si evalúo Q en su mínimo a ciencia cierta será menor que esa función evaluada en cualquier otro valor). Además, en particular: Q (✓0) Q ⇣ b✓ ⌘ . 24 Instituto Economía UC Teoría Econométrica II Además, en particular se cumple que: bQ ⇣ b✓ ⌘ bQ (✓0), ya que ✓0 = argmı́nQ (✓0) y b✓ = argmı́n bQ (✓) . De la primera condición: Q (✓0) Q ⇣ b✓ ⌘ /± bQ ⇣ b✓ ⌘ (NIKITA) Q (✓0) bQ ⇣ b✓ ⌘ | {z } bQ(✓0) + ⇣ Q ⇣ b✓ ⌘ � bQ ⇣ b✓ ⌘⌘ Luego, Q (✓0) Q ⇣ b✓ ⌘ bQ (✓0) + ⇣ Q ⇣ b✓ ⌘ � bQ ⇣ b✓ ⌘⌘ ahora haciendo otro NIKITA ±Q (✓0): Q (✓0) Q ⇣ b✓ ⌘ Q (✓0) + ⇣ bQ (✓0)�Q (✓0) ⌘ | {z } p�!0 + ⇣ Q ⇣ b✓ ⌘ � bQ ⇣ b✓ ⌘⌘ | {z } p�!0 que convergen a 0 por ley de convergencia uniforme. Luego, Q (✓0) Q ⇣ b✓ ⌘ Q (✓0) +OP(1) donde decimos que Xn = OP(an) si Xnan p�! 0. Luego, lo anterior implica que: Q ⇣ b✓ ⌘ p�! Q (✓0) El segundo paso es concluir que b✓ p! ✓0. De ese modo, sea: @✏⇥ cerrado, ✓0✏@ Q (✓0) < inf (Q (✓))| {z } ✓ ⇤ ✏@ Q ⇣ b✓ ⌘ p�! Q (✓0) < inf (Q (✓))| {z } ✓ ⇤ ✏@ luego, b✓✏@ y, por lo tanto, b✓ p�! ✓0. 8.1. Ley de Grandes Números Uniforme (ULLN) Supongamos que bQ (✓) = EN [q (zi, ✓)] = 1n P q (zi, ✓). Asumiendo que el porceso generador de los datos es estacionario y strongly mixing (una noción de independencia) y asumiendo además que: 1. q (zi, ✓) es continua en ✓ (con probabilidad 1). 2. ⇥ es compacto. 3. E [sup✓✏⇥|q(zi, ✓)] <1 (no explota). Luego, Q (✓) = E [q(z, ✓)] es continua en ✓ y sup✓✏⇥| bQ (✓) � Q (✓) | p�! 0, lo que se conoce como «conver- gencia uniforme», luego esto es una generalización de la LGN de Khintchine. 25 Instituto Economía UC Teoría Econométrica II Normalidad Asintótica de los Estimadores Extremos Teorema: Si b✓ p�! ✓ y 1. ✓0✏interior (⇥) 2. bQ (✓) es doblemente continua diferenciable en una vecindad @ de ✓0 3. p n� bQ (✓0) /�✓ d�!N(0,⌦) 4. Existe una matriz continua en ✓0, G (✓) y sup✓✏@||�2 bQ/�✓�✓ 0 �G (✓) || p�! 0 Luego, p n ⇣ b✓ � ✓0 ⌘ d�! N � 0, G�1⌦G�1 � Veamos: si aplicamos TVM ⇣ �f(x⇤) �x (b� a) = f(b)� f(a) ⌘ (Teorema del Valor Medio) a la condición de primer orden (CPO): � bQ ⇣ ✓̂ ⌘ �✓ = 0 Sea ✓⇤ perteneciente al compacto h b✓, ✓0 i y por supuesto ii), sabemos que: � bQ (✓0) �✓ � � bQ ⇣ b✓ ⌘ �✓| {z } 0 = �2 bQ (✓⇤) �✓�✓0 (✓0 � b✓) / p n p n ⇣ b✓ � ✓0 ⌘ = " �� 2 bQ (✓⇤) �✓�✓0 #�1 | {z } p! G (✓0)�1| {z } sup(iv) p n � bQ (✓0) �✓| {z } d! N (0,⌦)| {z } sup(iii) luego, por Teorema de Slutsky (ver apunte Teo Eco I 2017-1) tenemos que: p n ⇣ b✓ � ✓0 ⌘ d�! N(0, G�1⌦G�1) 8.2. Estimador Máximo Verosímil Como sabemos, el estimador máximo verosímil maximiza: bQ (✓) = EN [ln (f(zi|✓))] = 1 N nX i=1 ln (f(zi|✓)) luego puede ser caracterizado como un Estimador Extremo. Consistencia del estimador Máximo Verosímil Teorema: Si zi es iid con pdf f(z|✓) y 1. (identificación) f(zi|✓) 6= f(zi|✓0) con probabilidad positiva, para todo ✓ 6= ✓0. 2. (compacidad) ⇥ es compacto. 3. (continuidad) f(zi|✓) es continua para todo ✓ con probabilidad 1. 26 Instituto Economía UC Teoría Econométrica II 4. (dominancia) E [sup✓✏⇥|ln (f(zi|✓))] | <1 Luego, b✓ p�! ✓0 Para demostrar la consistencia sólo basta chequear que las condiciones del teorema de consistencia de los estimadores extremos se cumplen (identificación, compacidad, continuidad y dominancia). Partiremos che- queando identificación, para ello necesitamos la «Information Inequality»: E [lnf(z|✓)] < E [lnf(z|✓0)]. Ahora, usando la desigualdad de Jensen y la concavidad (estrica) de ln (·), tenemos que: E (g(x)) < g (E(x)) ahora g (·) = ln (·) y x = f(zi|✓)f(zi|✓0) . Luego: ˆ ln ✓ f(zi|✓) f (zi|✓0) ◆ f(zi|✓0)dz < ln 0 BB@ ˆ f(zi|✓) ⇠⇠ ⇠⇠f (zi|✓0)⇠ ⇠⇠ ⇠f(zi|✓0)dz | {z } 1 1 CCA | {z } 0 ˆ ln ✓ f(zi|✓) f (zi|✓0) ◆ f(zi|✓0)dz < 0 ˆ ln (f(zi|✓)) f(zi|✓0)dz < ˆ ln (f(zi|✓0)) f(zi|✓0)dz | {z } E(ln(f(zi|✓)))<E(ln(f(zi|✓0)) es decir, únicamente maximizada en ✓0 (desigualdad de la información). Luego, con el supuesto de identificación hemos mostrado que Q(✓) = E (lnf(z|✓)) tiene un único máximo. El supuesto de compacidad de ⇥ es «mantenido». Continuidad de Q (·) y convergencia uniforme de bQ (·) se desprenden de ULLN (la última se cumple si E [sup✓✏⇥|ln (f(zi|✓))]. Luego, b✓mv p�! ✓0. 8.2.1. Normalidad Asintótica de EE Teorema: Si b✓mv p�! ✓0 y ✓0✏interior (⇥) bQ (✓) es doblemente continua diferenciable en una vecindad @ de ✓0. p n� bQ (✓0) /�✓ d�! N (0,⌦) Recuerde que: bQ (✓0) = 1n Pn i=1 ln (f(zi|✓0), luego: � bQ (✓0) �✓ = 1 n X �ln (f(zi|✓0) �✓| {z } L✓,i = 1 n nX i=1 L✓i luego ⌦ = V ar (L✓i) �! ⌦ = E ⇣ L✓iL 0 ✓i ⌘ que es la varianza del score. Ahora, �2 bQ (✓0) �✓ = 1 n X �2ln (f(zi|✓)) �✓�✓0 27 Instituto Economía UC Teoría Econométrica II por ULLN tenemos entonces que: G (✓) = E ✓ �2ln (f(zi|✓)) �✓�✓0 ◆ = E (L✓✓0 ) que es la esperanza del hessiano. Además, de tarea 1 recuerde identidad de la información: ⌦ = V ar (L✓) = �E (L✓✓0 ) luego ⌦ = �G (✓) =) p n ⇣ b✓mv � ✓0 ⌘ d�! N � 0,⌦�1 � 9. Método Generalizado de Momentos Considere ✓p⇥1 (vector de parámetros), datos zi con i = 1, . . . .N y un vector función de los datos y parámetros gi (zi, ✓) de dimensión m⇥1,m � p. El estimador GMM está basado en un modelo donde, para el verdadero parámetro ✓0, se cumple la condición de momento: E (gi (zi, ✓0)) = 0 El estimador se basa en encontrar un ✓ tal que la media muestral de gi (zi, ✓) es cercano a 0 (Principio de la analogía). Ejemplo conocido condición de momento (caso mco): gi (xi,�) = x 0 i (yi � xi�) con E ⇣ x 0 u ⌘ = 0. Luego, el método de momentos traidicional aplica princiio de la analogía: 1 n X x 0 i (yi � xi�) = 0 99K b�mm = b�mco = ✓ 1 n X x 0 ixi ◆�1✓ 1 n X x 0 iyi ◆ Hansen (1982). Sea bg (✓) = 1 n nX i=1 gi (zi, ✓) si m > p, no tenemos solución usando MM tradicional. Luego, Hansen 82 señala que: b✓GMM = argmı́n ✓✏⇥ n bg (✓) 0 1⇥m cWm⇥mbg (✓)m⇥1 o si derivo respecto a ✓ obtendremos un vector de p ⇥ 1 (ecuaciones) y cómo hay pincógnitas, tendremos una solución única. Comentarios: Esta función objetivo hace sentido siempre y cuando m > p, es decir cuando tenemos más ecuaciones que incógnitas. Con m = p podríamos resolver el sistema bg (✓) = 0 que es el método de momentos tradicional. La matriz cW , es una weight matriz que nos ayuda a construir una función objetivo escalar, la que podemos minimizar. Luego, tenemos un estimador extremo que dadas ciertas condiciones de regularidad, convergerá en distribución al verdadero valor del parámetro. 28 Instituto Economía UC Teoría Econométrica II Además, será normalmente distribuido (asintóticamente). Claramente la elección de cW afectará b✓, pero para muestras grandes b✓ será consistente. Luego, existe una elección de weight matriz que provee un estimador de GMM eficiente (EGMM). Dicha elección es W = [V ar (gi (✓0))] �1 Para las propiedades de convergencia y normalidad asintótica, necesitamos que las condiciones de los teoremas se cumplen. 9.1. Ejemplo GMM y 2SLS Un estimador alternativo a 2SLS en presencia de endogeneidad y variables instrumentales es el estimador GMM . Definamos las condiciones de momento como: g (z1⇥m,x1⇥p,�p⇥1) = z 0 (y � x�) con m > p (caso sobre identificado, más ecuaciones que incógnitas). Luego, dado el supuesto de identi- ficación E ⇣ z 0 u ⌘ = 0 tenemos que: E (g (z,x,�)) = 0 luego el valor esperado de cada condición de momento es cero. Lógicamente, cada condición de momento poblacional tiene su contraparte muestral dada por: bg (z,x,�) = 1 n X z 0 i (yi � xi�) = 1 n Z 0 u luego, para el caso sobre-identificado el estimador GMM es aquel que minimiza la siguiente forma cuadrá- tica: mı́n � bg (z,x,�) 0 cWbg (z,x,�) donde cW es una matriz de m⇥m con lo cual el sistema pasa a ser de p⇥ p. El estimador GMM o EGMM es aquel que utiliza con weight matriz: W = 2 64V ar (g (z,x,�))| {z } V0 3 75 �1 = h E ⇣ u2z 0 z ⌘i�1 = V �1o -por lo tanto, en el caso que cW = bV �10 con cW p�! V �10 tenemos que b�EGMM minimiza la siguiente expresión: mı́n � 1 n (y �X�) 0 Z bV �10 Z 0 (y �X�) luego, en este caso el argmin tiene una forma cerrada: b�EGMM = h X 0 Z bV �10 Z 0 X i�1 X 0 Z bV �10 Z 0 y y podemos usar el estimador robusto de Eicker-White para V0. De ese modo, se puede también demostrar que en el caso de heterocedasticidad, EGMM es eficiente relativo a 2SLS. Luego, se puede implementar el estimador EGMM en tres etapas: 1. Estime el modelo por 2SLS y obtenga los residuos de la manera antes descrita bu = y � xb�2SLS . 2. Construya la matriz bV0 = 1n P buiz 0 izi. 29 Instituto Economía UC Teoría Econométrica II 3. Estime mediante EGMM usando bV �10 como «weight matriz». Teorema (normalidad asintótica). Si el proceso generador de datos es iid y b✓ p�! ✓0 y además: (interior) ✓0✏int (⇥) (con. dif.) gi (✓) es continua y diferenciable en una vecindad @ de ✓0. (dominancia) E h sup✓✏⇥|| �gi(✓)�✓ || i <1 (conv. weight M.) cW p�!W y G0WG es no singular para G = E h �gi(✓) �✓ i ⌦ = E h gi (✓0) gi (✓0) 0i existe. Luego, p n ⇣ b✓ � ✓0 ⌘ d�! N (0, V ) donde V = ⇣ G 0 WG ⌘�1 G 0 W⌦W 0 G ⇣ G 0 WG ⌘�1 . Algunos aspectos a resaltar: La varianza asintótica mínima se alcanza cuando W = ⌦�1 y con ello V = ⇣ G 0 ⌦�1G ⌘�1 . La inferencia en el caso de GMM descansa en los mismos 3 test de MV. Adicionalmente, en el caso de GMM, la funciómn objetivo nos sirve para testear las restricciones de sobre-identificación. En palabras: que las condiciones de momento son válidas y el modelo está correctamente especificado. En el caso de variables instrumentales, es el símil del test de Sargan. 9.1.1. El test J de restricciones de sobre-identificación Se puede demostrar que el estadístico J tiene una distribución �2: J = nbg ⇣ b✓ ⌘0 cWbg ⇣ b✓ ⌘ d�! �2m�p luego, se rechaza el modelo (condiciones y modelo) si excede el crítico para el nivelde significancia desea- do. La intuición es directa: Si J no es suficientemente pequeño, las condiciones de momento no se cumplen (o al menos una de ellas), lo cual puede deberse a que el modelo está mal especificado. Hasta aquí prueba 1 30 Instituto Economía UC Teoría Econométrica II 10. Identificación En esta segunda mitad del curso nos enfocamos en estimar efectos de tratamiento orientado a evaluar el impacto de políticas públicas en variables económicas. Por lo general, entenderemos un «tratamiento» como un programa o política que se aplica a distintos individuos. Además, en la mayoría de los casos, la con- dición de tratamiento será binaria (con o sin). Lógicamente, resulta crucial pensar en la identificación del efecto para aislarlo de otros factores que pudiesen influir. En general, en econometría, la identificación significa que los parámetros de un odelo pueden ser únicamente determinados con datos provenientes de una población. Luego, dependiendo del modelo, la identificación descansa en distintos supuestos. Dichos supuestos son los quen llamamos «supuestos de identificación». Ejemplos de «supuestos de identificación» 1. En MCO tenemos un modelo lineal y = x� + u y el supuesto de identificación de los parámetros � es que E ⇣ x 0 u ⌘ = 0, que nos habla de que no hay correlación entre lo observado y lo no observado. Luego, tenemos una regresión poblacional: � = ⇣ E(x 0 x) ⌘�1 E ⇣ x 0 y ⌘ y lo estimamos cuando aplicamos el principio de analogía: b� = ✓ 1 n X x 0 ixi ◆�1✓ 1 n X x 0 iy ◆ 2. En mínimos cuadrados en 2 etapas (2SLS) tenemos: y = x� + u /z 0 z 0 y = z 0 x� + z 0 u /E (·) E ⇣ z 0 y ⌘ = E ⇣ z 0 x ⌘ � + E ⇣ z 0 u ⌘ luego, el supuesto de identificación es E ⇣ z 0 u ⌘ = 0 e identificamos poblacionalmente a � en estos casos: � = ⇣ E(z 0 x) ⌘�1 E ⇣ z 0 y ⌘ 3. Además, por ejemplo, tenemos que en el caso de estimadores extremos uno de los supuestos de iden- tificación es el que llamamos, valga la redundancia, identificación, y que nos habla de que se logra siempre que la función Q (✓) sea únicamente minimizada en ✓0. Luego, vemos que los supuestos de identificación serán distintos dependiendo del método de estimación que utilicemos y, lógicamente, según los datos que tengamos/no tengamos. De ese modo, para evaluar un programa social (y su éxito o fracaso al ser implementado), necesitamos saber exactamente qué hubiese sucedido en ausencia de dicho programa (contrafactual), y el problema de la identificación consiste en que sólo observamos un estado (con programa o sin programa) a la vez. Holland (1986). Muchos argumentan que los cientistas sociales tenemos problemas con los contrafactuales, que ellos no existen como en un experimento aleatorio. Holland sugiere separar el problema científico del estadístico. Luego, ¿cuáles son los tipos de soluciones propuestas para el problema fundamental de la inferencia causal? Solución estadística: usar a todos los individuos de la población para construir grupos de control que semejarían el contrafactual imposible. 10.1. Modelo Causal de Rubin Potential outcome (resultados potenciales - uno de ellos es no observado): 31 Instituto Economía UC Teoría Econométrica II • Sea Y Ti el outcome o resultado de un individuo i si fue expuesto a un tratamiento T . • Y NTi es el outcome del mismo individuo si no fue expuesto al tratamiento señalado. El impacto individual del programa estaría dado por: Y Ti � Y NTi , pero nunca lo observaremos, ya que los resultados son potenciales y sólo uno de ellos lo observo. Luego, supongamos podemos aleatorizar (podemos representar una muestra que sigue manteniendo las características poblacionales) el tratamiento a los individuos de una muestra. El efecto tratamiento promedio o «Average Treatment Effect» se define como: ATE = E � Y Ti � Y NTi � = E � Y Ti � � E � Y NTi � Luego, este estimador nos entrega un efecto causal. Efectos de tratamiento más comúnes: • ATE (visto más arriba - efecto tratamiento de una población). • ATT = E � Y Ti � Y NTi |Ti = 1 � = E � Y Ti |Ti = 1 � | {z } estimable � E � Y NTi |Ti = 1 � | {z } no estimable sin supuestos (contrafactual) . Este último término de la expresión es estimable con supuestos y algunos métodos que veremos más adelante. • ATU = E � Y Ti � Y NTi |Ti = 0 � = E � Y Ti |Ti = 0 � �E � Y NTi |Ti = 0 � , luego se reinvierte el orden de lo observado y el contrafactual, pero se mantiene la realidad de que aquello que no observo será estimable si establezco supuestos y desarrollo los métodos que veremos. Ahora, veamos que el ATE podemos reescribirlo del siguiente modo: E � Y Ti � Y NTi � = E � Y Ti � Y NTi |Ti = 1 � · Pr (Ti = 1) + E � Y Ti � Y NTi |Ti = 0 � · Pr (Ti = 0) Luego, ATE = ATT · ⇢+ATU · (1� ⇢) donde p es la fracción o porción de los tratados del muestreo. Luego, sobre los 3 indíces: El ATE es un efecto de un tratamiento o política sobre una población. El ATT es el efecto de un tratamiento o política sobre los tratados. Luego, es un efecto medido sobre una subpoblación; unícamente aquellos que han sido tratados. En estos casos, requerimos construir el contrafactual E � Y NTi |Ti = 1 � : cuánto hubiese obtenido un tratado si no lo hubiésemos tratado. Para el ATU debemos constuir E � Y Ti |Ti = 0 � . En muchas ocasiones solo podremos estimar el ATT . Ahora, si disponemos de una muestra donde el tratamiento no fue aleatorizado, podríamos intentar medir el impacto promedio de un programa restando los promedios de los individuos en cada estado (naive approach): E � Y Ti |Ti = 1 � � E � Y NTi |Ti = 0 � luego, haciendo nikita de ±E � Y NTi |Ti = 1 � tenemos: E � Y Ti |Ti = 1 � � E � Y NTi |Ti = 1 � | {z } ATT + E � Y NTi |Ti = 1 � � E � Y NTi |Ti = 0 � | {z } si T aleatorio=0 luego, E � Y Ti |Ti = 1 � � E � Y NTi |Ti = 0 � | {z } naive approach = ATT + sesgo de (auto)selección Cuando comparamos gente afectada por la política con gente que no lo fue, estamos confundiendo el efecto real de la política (ATT ) con las diferencias intrínsecas de las personas tratadas y no tratadas. Muchos de los métodos y aplicaciones que veremos intentan remover ese segundo término llamado sesgo de selección. Esto, permitirá la identificación del primer término llamado «Average Treatment on The Treated» o ATT . 32 Instituto Economía UC Teoría Econométrica II Escribiéndolo en términos de regresión... Podemos escribir el outcome de cada individuo en la muestra como: Yi = Y NT i| {z } ↵+✏i + � Y Ti � Y NTi � | {z } �+vi Ti Yi = ↵+ �Ti + ⇠i con ⇠i = ✏i + viTi, y tenemos una regresión en la cual sólo podríamos identificar � si E (⇠i|Ti) = 0, que corresponde al ATE, dado que � = E (Yi|Ti = 1)�E (Yi|Ti = 0) = E � Y Ti � �E � Y NTi � . Luego, un supuesto de identificación es que E (⇠iTi) = 0 ! E � ✏iTi +�� �H HH viT 2i � = 0. Luego, esto será violado si los individuos con diferentes no-observables (altos o bajos por ej) tienen mayor probabilidad de haber tomado el programa. También será violado si los individuos que se beneficiarán más/menos del programa son más probables a tomar el programa (sorting o auto selección). Soluciones al problema de identificación... Durante el curso se discuten como los diferentes métodos han intentado resolver el problema de identificación que existe en algunas regresiones (MCO, Matching, fixed effects�panel models, variables instrumentales (V I),etc). Estas aproximaciones empíricas se conocen como «estrategias de identificación». Por ejemplo, hablemos de MCO y los efectos de tratamiento: MCO es una manera de estimar los coeficientes de una regresión lineal. • Si la esperanza condicional es lineal, es la manera adecuada. • Y si no fuera lineal, MCO nos dará siempre el mejor predictor lineal. Pero, ¿cuándo puede remover el sesgo de selección y qué medimos en ese caso? El supuesto de iden- tificación es clave: condicional en los observables, la asignación al tratamiento es tan buena como un experimento aleatorio. Para los estimadoresde matching, la estrategia de identificación es la misma, pero de otra manera. 10.2. Métodos de Matching Los estimadores de matching intentan construir el contrafactual con técnicas estadísticas que explotan la similitud observacional entre las características de una unidad tratada versus unidades de no tratadas. La construcción de este contrafactual requiere ciertos supuestos para poder construir este clon artificial de cada tratado en nuestra muestra desde un grupo de no tratados. Los métodos de matching nos dicen cómo encontrar los missing outcomes (contrafactuales) para calcular efectos de tratamiento. 10.3. Supuestos de Matching 1. Ignorabilidad (supuesto nº1): Y Ti , Y NTi ?Ti|Xi donde ? denota independencia (condicional) estadís- tica. Esto es, si condicionamos en set de características Xi, la probabilidad de recibir el tratamiento no está correlacionada con los outcome potenciales con o sin tratamiento. Este supuesto implica que todas estas características Xi que afectan simúltaneamente a la asignación al tratamiento y a los outcomes potenciales son observadas por el investigador e incluidad en el modelo que se estima. Además, se desprende del supuesto de ignorabilidad la siguiente relación: E � Y NTi |Ti, Xi � = E � Y NTi |Xi � 33 Instituto Economía UC Teoría Econométrica II Esta implicancia nos dice que los outcomes potenciales esperados, condicional en características (X), son los mismos independiente si el individuo recibió o no el tratamiento. En la práctica, condicionar en observables el tratamiento se comporta como algo aleatorio independiente de los outcome’s potenciales. 2. Overlap�Soporte común. (supuesto nº2): 0 < Pr (Ti = 1|Xi) < 1, lo que significa que para cualquier valor de X una unidad i puede ser potencialmente observada con el tratamiento (T = 1) y sin el tratamiento (T = 0). Los supuestos 1 (Ignorabilidad) y 2 (Overlap) se conocen como «ignorabilidad fuerte». Así, calcular el impacto del programa como la diferencia en el promedio de los outcomes de cada grupo (tratamiento y control), condicionando en las variables observadas, genera una estimación insesgada del efecto promedio del programa. 10.4. Estimador de matching simple o exacto Pensemos primero en un estimador simple del ATT que compara el outcome de un tratado y un no tra- tado con las mismas características (X). (Nos enfocamos en el ATT ya que usualmente es la población relevante, es un poco más simple y, por último, ya que si nos equívocamos en el ATT , estimando el ATE nos equivocaremos el doble). ATT : E � Y Ti � Y NTi |Ti = 1 � luego, recordando LEI (Ley de Esperanzas Iteradas) que en su versión simple nos dice que se cumple que: E(Y ) = E (E (Y |X)), podemos extenderla en su versión condicional a E (Y |Z) = E (E (Y |X,Z) |Z). Luego, se cumplirá que: ATT : E ⇥ E � Y T |X,Ti = 1 � � E � Y NT |X,Ti = 1 � |Ti = 1 ⇤ por supuesto de ignorabilidad, note que E � Y NT |X,Ti = 1 � = E � Y NT |Xi, Ti = 0 � ya que hay independen- cia sobre Ti. Luego, el segundo término E � Y NT |Xi, Ti = 0 � si lo observamos, vs el término E � Y NT |X,Ti = 1 � que es no observable. De ese modo, ATT = E 2 6666664 E � Y T |Xi, Ti = 1 � � E � Y NTi |Xi, Ti = 0 � | {z } ”matching”| {z } �x |Ti = 1 3 7777775 ATT = ˆ � E � Y T |Xi, Ti = 1 � � E � Y NTi |Xi, Ti = 0 � · Pr (X|Ti = 1) dX Luego, notemos que «matching» no es más que un promedio ponderado. Luego, denotemos: �x = E (Yi|Xi, Ti = 1)� E (Yi|Xi, Ti = 0) donde Yi = Y Ti · Ti + Y NTi · (1� Ti). Continuando, tendremos: ATT = ˆ �xPr (Xi = X|Ti = 1) dx y ahora en variable discreta tenemos: ATT = X x �xPr (Xi = X|Ti = 1) 34 Instituto Economía UC Teoría Econométrica II luego, utilizando regla de bayes tendremos que: Pr (Xi = X|Ti = 1) = Pr (Xi = X,Ti = 1) Pr (Ti = 1) = Pr (Ti = 1|Xi = X) · Pr (Xi = X) Pr (Ti = 1) y note que (por probabilidades totales): Pr (Ti = 1) = X x Pr (Ti = 1|Xi = X) · Pr (Xi = X) Finalmente, el estimador de matching para el ATT es: E � Y Ti � Y NTi |T = 1 � = X x �xwi donde wi = Pr(Ti=1|Xi=X)·Pr(Xi=X)P x Pr(Ti=1|Xi=X)·Pr(Xi=X) y P wi = 1. Así, el estimador simple de matching es un promedio ponderado de las diferencias entre tratados y controles, condicionales en X. Y si en cambio usamos regresión? Suponga que usamos las mismas variables que en el ejemplo anterior, pero usamos dummies para cada valor de X (saturamos el modelo). Correr la regresión Yi = P x 1 (Xi = X)↵x + �Ti + ✏i usando MCO genera un estimador de � tal que: � = E (V ar (Ti|Xi) (E (Yi|Xi, Ti = 1)� E (Yi|Xi, Ti = 0))) E (V ar (Ti|Xi)) = E (V ar (Ti|Xi) �x) E (V ar (Ti|Xi)) = P x �xP (Ti = 1|Xi = X) (1� P (Ti = 1|Xi = X))P (Xi = X)P x P (Ti = 1|Xi = X) (1� P (Ti = 1|Xi = X))P (Xi = X) = X x �x ewi y el último cálculo es usando el hecho de que D es binaria. Esto muestra que matching y MCO son promedios con diferente tipo de weight. El estimador de matching da más peso a las celdas donde hay un mayor número de individuos que reci- ben tratamiento, en cambio, MCO da más peso a las celdas que tienen un igual número de tratados y controles. Esto es sólo relevante cuando tenemos efectos heterogeneos. 10.5. Matching en propensity Score Hacer matching exacto en características es complicado por el problema de maldición de la dimen- sionalidad. De la misma manera, sobresaturar el modelo con dummies también trae complicaciones (grados de libertad). Una manera de reducir el problema de la dimensionalidad de hacer matching en características es hacer el matching en una variable escalar, que resuma la información de dichas características. Dicha variable, es el propensity score o probabilidad de recibir el tratamiento condicional en las características Pr (Di = 1|Xi) = p (Xi) 35 Instituto Economía UC Teoría Econométrica II Si se cumple ignorabilidad fuerte, el teorema propensity score dice que basta con controlar por la probabilidad de ser tratado: � Y Ti , Y NT i k_Di| Xi|{z} vector ) 8 >< >: Y Ti , Y NT i k_Di|P (X)| {z } escalar 9 >= >; donde p (Xi) = P (Di = 1|Xi) es el propensity score. Así, basta con hacer matching en el pscore. Luego, Pr � Di = 1|Y Ti , Y NTi , P (Xi) � = E � Di|Y Ti , Y NTi , P (Xi) � aplicando LEI! E ⇥ E � Di|Y Ti , Y NTi , P (Xi) , Xi � |Y Ti , Y NTi , P (Xi) ⇤ = E h E ⇣ Di|, Xi,((((( (((hhhhhhhh Y Ti , Y NT i , P (Xi) ⌘ |Y Ti , Y NTi , p (Xi) i donde la cruz corresponde a una eliminación dado el cumplimiento de ignorabilidad fuerte. Luego, = E 2 64E (Di|, Xi)| {z } p(Xi) |Y Ti , Y NTi , p (Xi) 3 75 = E ⇥ p (Xi) |Y Ti , Y NTi , p (Xi) ⇤ = p (Xi) luego, la probabilidad de recibir el tratamiento condicional en la probabilidad de las caracterís- ticas no depende de los outcome’s potenciales, tanto para tratados como no tratados. � Y NTi , Y T i ?Di|p (Xi) En la práctica, es muy inusual que conozcamos el propensity score. Luego, debemos estimarlo (logit o probit, por ej). De ese modo, podemos hacer dos cosas: Hacer matching en el propensity score estimado (principio de la analogía). Hacer una regression ponderada (weighted regression) con una función del pscore, esta alternativa se conoce como un método doblemente robusto. Variantes, Matching. Los estimadores están dados po ATT = E � Y Ti � Y NTi |Di = 1 � = E [E (Yi|p (Xi) , Di = 1)� E (Yi|p (Xi) , Di = 0) |Di = 1] ATE = E � Y Ti � Y NTi � = E [E (Yi|p (Xi) , Di = 1)� E (Yi|p (Xi) , Di = 0)] recordando que Yi = Y Ti Di+Y NTi (1�Di). Luego, podemos dividir por p (Xi) en diferentes celdas y calcular las esperanzas como promedios muestrales. Se puede hacer un pareo entre cada individuo tratado con otro(s) no tratados con similar p� score (muchas versiones, vecino más cercano, kernel, etc.) 36 Instituto Economía UC Teoría Econométrica II 10.6. Algunos resultados about pscore matching. Hahn (1998) muestra que cuando el p-score es conocido, no hay ganancias de eficiencia asintótica entre matching en las X 0s o en el p-score. Sin embargo, hay alguna ganancia de eficiencia a favor de matchingen las X 0s cuando el p-score es desconocido. Hirano, Imbens and Ridder (2003) muestran que hay eficiencia asintótica cuando p-score es conocido y cuando es estimado no-paramétricamente. Abadie e Imbens (2006) muestran que los estimadores de matching son por lo general inconsistentes (el sesgo converge a una tasa muy baja) e ineficientes. Proponen un estimador de Nearest-Neighbor con algunas mejoras asintóticas. Abadie e Imbens (2008) muestran que el bootstrap no-paramétrico tradicional falla cuando se imple- menta en estimadores de matching. 10.7. Matching en características 10.7.1. El método de Abadie e Imbens (2006) Este es un método de matching en características y nearest neighbor. Sea W ✏ {0, 1} el indicador de trata- miento y sea Yi el outcome potencial. Luego, Yi = ( Yi (0) Wi = 0 Yi (1) Wi = 1 Luego, Yi = Yi (1) ·Wi + Yi (0) (1�Wi) Supongamos que queremos encontrar el contrafactual: cual hubiese sido el resultado para una observación i tratada, si no se hubiese tratado. El estimador de matching de AI tiene versiones para el ATE y ATT . ATE = ⌧M = E [Y (1)� Y (0)] ATT = ⌧ tM = E [Y (1)� Y (0)|Wi = 1] luego, en el ATE necesitamos 2 contrafactuales: ¿Cuál hubiese sido el resultado de ausencia de tratamiento para los tratados? E [Y (0)|W = 1]. ¿Cuál hubiese sido el resultado de presencia de tratamiento para los controles? E [Y (1)|W = 0]. Método de Abadie e Imbens (2006) Supongamos que existen N observaciones totales y las ordenamos de menor a mayor de acuerdo a la distancia a la observación i en cuestión: ||Xj �Xi|| (son observaciones que están en grupos distintos, por lo tanto no pueden ser iguales). Sea m un entero representando el número de vecinos que serán usados para crear el match y jm (i) el índice j✏ {1, 2, . . . , N} que resuelve Wj = 1 �Wi (la posición del m � ésimo vecino más cercado de la observación «i») y: X I=WI=1�Wi Ind {||XI �Xi|| ||Xj �Xi||} = m donde Ind es una función indicatriz igual a 1 cuando el argumento es verdad. Esto es, escoger del grupo de control los m vecinos más cercanos a la observación Xi y jm (i) nos da la posición del m� ésimo vecino más 37 Instituto Economía UC Teoría Econométrica II cercano a i en el grupo de controles. El estimador de matching propuesto por AI es un matching de vecino más cercano con reemplazo. Básica- mente, construye el contrafactual con un promedio simple de los m vecinos (a determinar por el investigador). Además, es con reemplazo puesto que una observación puede ser usada más de una vez para construir un contrafactual. El estimador de matching imputa el potencial outcome missing así: bYi (0) = ( Yi Wi = 0 1 M P j✏=M (i) Yj Wi = 1 y bYi(1) = ( 1 M P j✏=M (i) Yj Wi = 0 Yi Wi = 1 donde =m(i) es el set de indices para los primeros M matches de la unidad i: =m(i) = {j1(i), . . . , jM (i)}. Así, el estimador del ATE es: b⌧M = 1 N NX i=1 ⇣ bY1(1)� bYi(0) ⌘ y el estimador de tratamiento promedio en los tratados (ATT ) es: b⌧ tM = 1 N1 X Wi=1 ⇣ Yi � bYi(0) ⌘ donde N1 es el número de tratados. El ATT solo trabaja con los tratados y su contrafactual. Matching en características: Comentarios Es un método simple que bajo ciertas condiciones funciona muy bien (en general, se comporta mejor que Propensity Score Matching, cuando la estimación del pscore es deficiente). En particular, cuando se tiene una única variable continua, hay reducción del sesgo asintótico (converge más rápido a 0). Ojo que el Bootstrap falla acá. Abadie-Imbens (2008) muestran que bootstrap con reemplazo falla por el «repeating». Se sub-estima la variabilidad. Ellos creen (dicen) o simulan que sub-sampling bootstrap debería funcionar. El problema: hay que elegir el número de vecinos. Simulaciones muestran que entre 4 y 16 vecinos funciona relativamente bien. Alguna literatura más nueva es «Diaz, Rau y Rivera (2015)», y avanza en la elección del número óptimo de vecinos. 10.7.2. Díaz, Rau y Rivera (2015, RESTAT) Plantean un programa de optimización (de 2 niveles) para elegir el número de vecinos y su weight. La idea es simple: elegir vecinos cuya combinación convexa sea la más cercana a la unidad a parear (replicar estadísti- camente la posición a través de una envoltura convexa de 3 observaciones). Dado que puede haber solución múltiple, un segundo criterio elige los vecinos más cercanos. Con esto, tendremos post-matching samples más balanceadas. Lo que se hace es: mín (�1,...,�N0)✏�N0 kXi � N0X j=1 �jXjk 38 Instituto Economía UC Teoría Econométrica II y de haber más de una solución, elegir aquella que minimiza N0X j=1 �j ||Xi �Xj || Dado que son dos problemas de optimización, se llama «bi-nivel» y el estimador propuesto es el BLOP matching: «Bi-level optimization problem» matching. Balance post-matching. Xi|{z} tratado ⇡ X j b�jXj | {z } control 99K 1 N1 N1X i=1 Xi ⇡ 1 N1 N1X i=1 b�jXj El balance post-matching usualmente se calcula comparando la media de tratados y sus clones creados por el matching. En simulaciones de MC BLOP derrota a NN �Matching y otros. Todos los estimadores de matching son sesgados en muestras finitas. El sesgo depende de la «matching discrepancy» ||Xi �Xj || pero también de la diferencia de cada unit con su clon Xi � P j �jXj . Dado que Bootstrap en matching falla, se recomienda usar sample analogue de population varian- ce. 10.7.3. Métodos Doblemente Robustos Estos métodos son no experimentales y son una alternativa a los estimadores de matching. A diferencia de matching, son estimadores paramétricos y corresponden a regresiones ponderadas de la variable de resultados sobre variables explicativas y la variable de tratamiento. Yi = ↵+ ✓Ti + "i con wi ponderador. Luego, los ponderadores o pesos se construyen con el propensity score (probabilidad de ser tratado). Han demostrado ser consistentes cuando una de las siguientes condiciones ocurre: 1. El propensity score está correctamente especificado. 2. El modelo lineal está correctamente especificado. Y, de ahí viene el nombre de «doblemente robustos», lo que resulta ser una ventaja teórica en aquellos estimadores de matching que pueden ser expresados como una regresión de la variable de interés Y sobre una dummy de tratamiento T y un esquema de pesos w, cuya propiedad adquiere el nombre de «weighted least squares as unifying framework». Recordando, ATT = E � Y T � Y NT |Ti = 1 � = b✓ = 1N1 P i✏I1 ⇣ Yi � P j✏I0 w(i, j)Yj ⌘ donde N1 es el númetro de tratados, N0 los no tratados (N0 +N1 = N) e I1, I0 es el conjunto de índices para tratados y no tratados 39 Instituto Economía UC Teoría Econométrica II respectivamente. Luego, juguemos un poquito con el estimador doblemente robusto: b✓ = 1 N1 NX i=1 8 < :YiTi � Ti 0 @ NX j✏I0 w(i, j)Yj (1� Tj) 1 A 9 = ; ... = 1 N1 NX i=1 YiTi � 1 N1 NX j=1 (1� Tj)Yj NX i=1 w(i, j)Ti ... = 1 N1 NX i=1 YiTi � 1 N0 NX j=1 (1� Tj)Yj ✓ N0 N1 ◆ NX i=1 w(i, j)Ti | {z } w(j) b✓ = 1 N1 NX i=1 YiTi � 1 N0 NX j=1 (1� Tj)w(j)Yj luego, podemos ver que este es el principio de analogía aplicado al ATT = E � Y Ti � Y NTi |Ti = 1 � . Modelo Parámetrico Es sencillo, ya que se caracteriza del siguiente modo: Yj = ↵+ ✓Tj + ✏j donde se estima usando un peso construido de la siguiente manera para el ATT : w = ( (ps/(1� ps)) / (bp(1� bp)) para no tratados 1 para los tratados donde ps es el propensity score y bp es la probabilidad incondicional de ser tratado. Este esquema es IPW1 analizado por Busso, DiNardo y McCrary (2009), que equivale a un weighting tipo «kernel». Comentarios: Existen otros tipos de pesos (IPW2, IPW3, etc) discutidos en Busso, DiNardo y McCrary (2009). Lo que hace este método es darle más peso a los que tienen mayor probabilidad de ser tratados en el caso de los no tratados, pero los tratados el peso es constante e igual a 1. Los errores estándar deben ser bien calculados (bootstrap es una alternativa dado que en una regresión funcionan bien). Con esto se logra -en teoría- que las variables se balanceen.
Compartir