Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad de Buenos Aires Facultad de Ciencias Económicas Tópicos de Microeconomı́a: Evaluación de Impacto Alumna: Valentina Lovazzano Profesor: Juan Pablo González Intensivo invierno 2023 Capı́tulo 1 INTRO A LAS RELACIONES CAUSALES Introducción a la inferencia causal y a los métodos empı́ricos experimentales y cuasi experimentales Identificación causal Variable causal→ variable independiente Testeo de hipótesis crucial para el avance del conocimiento cientı́fico (recuerden a Karl Popper)→ Criterio para separar hipótesis buenas de malas. Las hipótesis implican muchas veces relaciones causales por lo que el testeo debe ir en la misma lı́nea. 1.1. DATOS Y CORRELACIONES Datos→ insumo fundamental de la estadı́stica y, más general, del testo de hipótesis Variable → instrumento que representa una propiedad o fenómeno. Representa una caracterı́stica de la realidad. La correlación entre dos variables mide el grado de asociación entre ambas. La correlación puede ser positiva o negativa, más fuertes o más débiles. • Ejemplo: Temperatura y consumo de helado→ débil. • Ejemplo: venta de zapato izquierdo y venta de zapato derecho→ fuerte. Los datos y correlaciones son observables Hacemos Hipótesis sobre eventos o fenómenos del mundo real para explicar y predecir Tester hipótesis usando correlaciones y datos tal que Testeamos con observaciones. Las hipótesis presentan relaciones causales, no correlaciones y la causalidad es NO observable. → No podemos observar que A causa B por lo que se da un descalce entre la teorı́a y la forma en que testeamos. Por lo tanto, ¿Qué podemos hacer, con los datos y correlaciones, para hacer un testeo confiable? Desarrollo y democracia: Ejemplo 1. Pobres: incentivos a la apertura de la polı́tica, no tienen los medios 2. Nobles: no incentivos a la apertura, si los medios. 3. Nace la clase media tienen incentivos y medios para lograr el objetivo. que nos dice esta correlación? 1 1.1. DATOS Y CORRELACIONES 2 H1: Riqueza → Democracia (Lipset, 1959). El surgimiento de la clase media supone un incremento de la riqueza por lo que se plantea esta hipótesis. H2: Democracia → Riqueza. Otra opción es entender que los derechos de propiedad son importantes para motorizar la inversión por lo que se plantea H2. H3: Tercer variable (sistema legal, cultura)→ Democracia y Riqueza Los conjuntos de datos o correlaciones son compatibles con múltiples hipótesis. No hay un certeza sobre la dirección de la causalidad. 1.1.1. CAUSALIDAD: Principios sobre causalidad (Holland, 1986): 1. El efecto de una causa siempre es relativo al de otra causa Realizar una comparación para hablar de causalidad (entre al menos 2 cosas). Comparo contra una categorı́a base o puedo comparar contra la ausencia de (ej. universitario o no universitario) 2. Problema fundamental de la inferencia causal: no podemos estimar efectos individuales No podemos hablar de efectos causales individuales, sino de efectos causales en promedio. 3. Mover una variable a la vez→ “comparar comparables´´ Existen diferencias, existen caracterı́sticas no observables (habilidad, motivación, etc). Si trataramos a un grupos de individuos (universitarios - no universitarios) como iguales, es decir, si los universitarios no fuesen a la universidad, dirı́amos que ganarı́an lo mismo que un no universitario y eso no es ası́. Estos grupos no son comparables porque poseen diferentes caracterı́sticas que son no observables que podrı́an también explicar el salario ⇒ requerimos aislar la educación universitaria de estas caracterı́sticas no observables que puedan afectar el salario. 1.1. DATOS Y CORRELACIONES 3 1.1.2. SESGO DE SELECCIÓN: Nos preguntamos,¿Fumar, es bueno para la salud? Claramente sabemos que no, pero esta tabla parece decirnos lo contrario. Las variables edad y fumador están correlacionadas → no estamos comparando comparables Vemos que hay dimensiones en las que se diferencian los fumadores de los no fumadores: LA EDAD. Esto es un problema para la comparación entre los grupos. Vemos que Lo que es bueno para la salud es ser joven. Ser joven más que compensa el efecto negativo de fumar. Sesgo de selección = endogeneidad = variable omitida Efecto del consumo de agua (X) sobre la salud (Y) Variable dependiente Y es afectada por otras variables (atención médica) además de X→ no hay problema de selección Variable independiente X está correlacionada con otras variables (temperatura) ademas de Y→ no hay problema de selección Variable independiente X está correlacionada con otras variables que afectan a la dependiente Y (ejercicio)→ problema de selección 1.1. DATOS Y CORRELACIONES 4 Disgresión: Causalidad reversa o simultaneidad Cuando vemos que 2 variables se mueven juntas pero no sabemos cual es la causa y cual el efecto. Problema poco común Se resuelve aplicando los mismos métodos que para variables omitidas. 1.1.3. LÍMITES DEL CONTROL: Ejemplos anteriores controlamos por ser fumador o por hacer ejercicio. ¿Por qué no controlar siempre? Variables omitidas que conocemos y podemos medir Variables omitidas que conocemos, pero son difı́ciles de medir Variables omitidas que no conocemos La inclusión de variables de control tampoco es inocua (Aronov y Sammi, 2016) 1.1.4. LEAMER (1983) Resumen del paper. Leamer critica al análisis empı́rico de la época Sensitividad a cambios en las especificaciones de los modelos econométricos Experimentación es el ideal, pero no es posible en economı́a (al menos fuera del laboratorio) propone Análisis de sensitividad Riquza y democracia: ejemplo En primer instancia, el PIB es significativo para explicar el desarrollo de una democracia. Sin embargo, si empezamos a controlar por otras variables como recursos naturales, capital humano vemos que el impacto del producto deja de ser significativo y si incorporamos restricciones judiciales el producto se vuelve significativo pero con una relación negativa. Por lo tanto la relación no es clara. 1.1. DATOS Y CORRELACIONES 5 1.1.5. ENFOQUE EXPERIMENTAL: La solución de la identificación causal , análisis de sensitividad Aleatorización del tratamiento: Nos podemos valer de la Ley de los Grandes Números, las probabilidades se cumplen en el infinito. Podemos entender a las probabilidades como juicios sobre el futuro. La probabilidad es casos interés casos totales para el caso de un dado, 1/6. la probabilidad de sacar 4 en mi próxima tirada es 1/6→ juicio de valor. La aleatoriedad elimina el problema, vemos limpio el efecto causal. Variable aleatoria no correlacionada con nada por definición Buscamos mecanismos que puedan asignar de forma aleatoria tal que es posible hacer comparable distintos grupos. Cuando los grupos son más grandes, el grupo de tratamiento y el de control tienden a ser iguales. 1.1.6. EXPERIMENTOS DE CAMPO: Organismos internacionales y gobiernos para evaluar polı́ticas publicas. Experimento de campo: Implica salir a la realidad. Ejemplo: PROGRESA plan de transferencias condicionadas en méxico El investigador realiza una asignación aleatoria del tratamiento en la realidad. A un grupo brinda la transferencia y a otro no. Emily y Lakisha: ejemplo Bertrand y Mullainathan (2004) ¿Personas de distintas razas son comparables? → NO. La Raza no se puede asignar aleatoriamente. El tratamiento es el nombre en los cvs (Emily vs Lakisha, Greg vs Jamal). La única diferencia en los cvs es el nombre → de esta forma podemos estar seguros si hay o no discriminación. Personas de diferentes razas no son comparables (EEUU historia de 1.1. DATOS Y CORRELACIONES 6 segregación tal que las diferencias pueden darse por diferencias en la educación, etc). En este caso, hay control sobre la situación experimental (el investigador puede armar los cv como quiera). Ventajas: Solucionan el problema de endogeneidad vı́a asignación aleatoria Control sobre la situación experimental Potenciales problemas: Impedimentos logı́sticos, de costos y éticos.Para las ciencias sociales, hay una cantidad limitada de fenómenos que podemos estudiar, hay ciertos experimentos que no es ético realizarlos (ejemplo: loterı́a para ir a la guerra. Lo hacen los gobiernos pero no investigador no podrı́amos) Contexto artificial EXPERIMENTOS NATURALES CON ALEATORIEDAD: Experimento natural→ situación en la realidad que permite ser analiza como si fuese un experimento donde Asignación del tratamiento es aleatoria, pero no está a cargo del investigador . Loterı́as y sorteos: Efectos de un aumento en los ingresos (Imbens et al, 2001; Kuhn et al, 2011) Efecto de cuotas de género en la representación polı́tica (Chattopadhyay y Duflo 2004; Bhavnani 2009) Efectos de servir en el ejercito o realizar el servicio militar (Angrist, 1990; Erikson y Stoker, 2011; Galiani et al, 2011; Goodman e Isen, 2020) El tratamiento es asignado por una necesidad que opera en la realidad, no porque lo hicimos nosotros. Ventajas: Solucionan el problema de endogeneidad vı́a asignación aleatoria Ocurren en el mundo real Potenciales problemas: Estas situaciones son muy poco frecuentes Puede haber dudas sobre los sorteos (Rossi, 2014) 1.1.7. AS IF RANDOM Encontrar una asignación aleatoria en el mundo real es difı́cil. Muchos problemas no pueden estudiarse diseñando un experimento aleatorio El enfoque as if random: 1.1. DATOS Y CORRELACIONES 7 Situaciones con ciertas caracterı́sticas que, analizadas con las herramientas correctas, pueden generar estimaciones causales Estrictamente no necesitamos aleatoriedad de la variable independiente, necesitamos exogeneidad. que sea exógeno (no endógeno). El problema es que esté correlacionado con variables que afectan a la dependiente. Si el tratamiento no está correlacionado con ninguna otra variable que afecta a nuestra dependiente, no hay problema de selección. 1.1.8. EXPERIMENTOS NAT SIN ALEATORIEDAD La mayor parte del trabajo empı́rico en economı́a se dedica a estudiar este tipo de experimentos naturales. Hay casos donde aún sin aleatoriedad es exógeno, tal que podemos hablar de aleatoriedad. Hacer el punto de que nuestro tratamiento es exógeno (aunque no necesariamente aleatorio): Desastres naturales o eventos climáticos: Egan y Mullin (2012) Eventos socio/polı́ticos: Michalopoulos y Papaioannou (2016) Caracterı́sticas institucionales: Levitt (1997) 1.1.9. CONTRAFÁCTICOS: En sı́ntesis, necesitamos un contrafáctico: Preguntarnos Qué hubiese pasado con los tratados en ausencia del tratamiento? Qué hubiese pasado con el salario de los individuos si no hubiesen ido a la universidad? Tenemos un grupo de control el cual será nuestro contrafáctico. Por eso nos interesa la idea de que los grupos sean comparables para que sean un buen contrafáctico. El contrafáctico no es observable, pero vamos a ver herramientas para hacernos una idea de lo que hubiese ocurrido en esta situación hipotética Algunas otras cuestiones Esta literatura observa Efectos parciales. No preocupa dar cuenta de todos los determinantes de la dependiente, sino 1 y que sea confiable. 1. Validez Interna: Confianza en nuestras propias estimaciones, en lo que pasa dentro de la muestra. 2. Validez externa: Capacidad para extrapolar los datos hacia otras unidades. (es más complejo, refiere a algo que no tengo). Discusiones: Método experimental→ trade-off→ puedo obtener más de 1 a costa de 2 y viceversa. Dufló → La validez externa es importante pero antes tiene que venir la validez interna. Decir que existe un trade-off es decir que podes tener mucho de 2 y poco de 1, esto tiene poco sentido (es decir, querer extrapolar algo con poca validez interna). Es importante asegurarnos de que lo que tenemos está bien estimado. Capı́tulo 2 REGRESIÓN LINEAL 2.0.1. Introducción: Variables aleatorias: Instrumento. representan los posibles resultados de un proceso aleatorio asignándoles un valor. Son formas de mapear resultados de procesos aleatorios. No necesariamente hablamos de algo randomizado (ej: valor del dolar). No podemos definir su valor con certeza. Variable para la cual no sabemos con certeza el valor que pueda tomar en el futuro, asociado a una probabilidad de ocurrencia. Nos preocupa la probabilidad de que la variable aleatoria tome un cierto valor. Distribuciones de probabilidad: funciones que asignan probabilidades a las distintas realizaciones posibles de una variable aleatoria. discretas Binomial, Geometrı́ca, Poisson. continuas Uniforme, Normal, Gamma • Número de realizaciones:∞ • Utiliza probabilidades acumuladas, No podemos calcular probabilidades puntuales. • Funciones de densidad poblacional miden la densidad de una variable aleatoria en un determinado rango Momentos de una variable aleatoria Esperanza: E(Y ) = µy , media de Y luego de muchas realizaciones Medida del centro de la variable o distribución La esperanza es una propiedad de la VA, mientras que la media es una propiedad de la muestra. Solo E(Y ) = µy luego de muchas realizaciones. Varianza: Var(Y ) = E [( Y −µy )2] = σ2y Medida de dispersión de la variable o distribución Desvı́o estandar: > sd(Y ) = √ Var(Y ) = σy 8 CAPÍTULO 2. REGRESIÓN LINEAL 9 2.0.2. INDEPENDENCIA: Dos variables aleatorias X e Y están independientemente distribuidas si conocer el valor de una no brinda ninguna información sobre el valor de la otra. Es decir, A y B son independientes si conocer lo que sucedió con B no brinda información para determinar que ocurre con A. P (Y = y/X = x) = P (Y = y) Si no son independientes, se utiliza el teorema de bayes: P (A|B) = P (A|B)P (A) P (B) 2.0.3. COVARIANZA: Mide la dependencia lineal entre dos variables. Cov(X,Y ) : Puede ser positiva, negativa o 0. E(X) = µx y E(Y ) = µy V.A.: (X −µx) ( Y −µy ) Cov(X,Y ) = E [ (X −µx) ( Y −µy )] = σxy Es difı́cil de interpretar: Depende de la unidad de medida. 2.0.4. COEFICIENTE DE CORRELACIÓN: Y = salario y X = educación Cov(X,Y ) depende de la unidad de medida Coeficiente de correlación: Corr(X,Y ) = Cov(X,Y )sd(X)·sd(Y ) = σXY σXσY Los valores se encuentran acotados −1 ≤ Corr(X,Y ) ≤ 1: • Para el intervalo (−1,0) la correlación es negativa • Para el intervalo (0,1) la correlación es positiva • Cuanto más cerca esté de los extremos -1 y 1, la correlación es más fuerte. Si X e Y son independientes, entonces el coeficiente de correlación es 0. Esto no se cumple al revés. Corr(X,Y ) = 0 no implica independencia (relaciones no lineales). 2.0.5. ESPERANZA CONDICIONAL: ¿Cómo cambia la distribución de los salarios con la educación? Esperanza condicional: Computar Y en base a cada valor x E(Y /X = x) ◦E(Y /x) Cómo el valor esperado de Y cambia con x Bajo independencia: E(Y /X) = E(Y ) E( Salario / Educación ) = 1.05 + 0.45 Educación CAPÍTULO 2. REGRESIÓN LINEAL 10 Imputo según corresponda la educación. Si es 1 año, 0, 2, etc. Condicional en lo que tengamos como variable explicativa. por lo que la igualdad mencionada ( E[sal | educ] = β0 + β1educi) tiene como implicancia E [µ|x] = 0 Queremos explicar cual es el salario promedio para distintos niveles de educación. No podemos ver la situación para cada caso, sino que estimamos el promedio que es lo que hallamos sobre la lı́nea. Tenemos presente que existe un ERROR ya que es imposible explicar la nube de puntos solo con una lı́nea por lo que se presentan desviaciones, caracterı́sticas no observables que tienen esperanza = 0. Entonces, que E [µ|x] = 0 significa que puntos que se encuentran por sobre la lı́nea se cancelan con puntos que se encuentran por debajo de forma tal que en promedio el error es nulo. Como u y x son variables aleatorias, se puede definir la distribución condicional de u dado cualquier valor de x. El supuesto crucial es que el valor promedio de u no depende del valor de x. Este supuesto se expresa como E [µ|x] = E [µ] (2.1) El supuesto indica que el valor promedio de los factores no observables es el mismo en todas las fracciones de la población. Cuando se satisfaceel supuesto se dice que u es media independiente de x. (Por supuesto, la independencia de la media es una consecuencia de la independencia entre u y x) En el ejemplo del salario, suponiendo que µ son las capacidades innatas, entonces (2.1) requiere que el promedio de la capacidad sea el mismo en todos los niveles de educación. (E [capaci|8] = E [capaci|16]) Si creemos que la capacidad promedio aumenta con los años de educación tenemos que (2.1) es FALSA. (ocurrirı́a si, en promedio, aquellos con mayor capacidad optan por mayor educación). Como las capacidades innatas no son observables, no es posible saber la capacidad promedio es la misma en todos los niveles de educación. El supuesto de media condicional 0 brinda otra interpretación de β1, tomando el valor esperado del modelo teórico, condicionado a x usando E [µ|x] = 0 se tiene lo planteado al principio: E [µ|x] = β0 + β1x Lo cual muestra que el promedio ponderado de todas las posibles relaciones, la función de regresión poblacional, E [µ|x] es una función lineal de x. La LINEALIDAD significa que por cada aumento de una unidad en x el valor esperado de y se modifica en la cantidad β1. Dado cualquier valor de x la distribución de y está centrada en E [µ|x]. ESPERANZAS CONDICIONALES LEY DE ESPERANZAS ITERADAS Siendo µ una V.A cualquiera, E [µ] no condicional → E [µ] = E [E [µ|x]] puedo escribirla de forma iterada. CAPÍTULO 2. REGRESIÓN LINEAL 11 Primero condiciono la no condicional y si a eso le aplico la esperanza debe cumplirse: E [µ] = E [E [µ|x]] 2.0.6. DISTRIBUCIÓN NORMAL No da mucho peso a los valores extremos Tiene propiedades deseables Importancia de la distribución normal para la inferencia f (x) = 1 σ √ 2π exp [ −(x −µ)2/2σ2 ] , −∞ < x <∞ Si X tiene una distribución normal con valor esperado µ y varianza σ2⇒ X ∼Normal ( µ,σ2 ) 68% de los valores están dentro de 1 desviación estándar de la media 95% de los valores están dentro de 2 desviaciones estándar de la media 99,7% de los valores están dentro de 3 desviaciones estándar de la media Normal standar: Para estandarizar, resto la media y luego divido por el desvı́o standar. La media de la distribución normal estándar es cero y la desviación tı́pica es uno. φ(z) = 1√ 2π exp ( −z2/2 ) , −∞ < z <∞ Z ∼Normal(0,1) 2.0.7. MUESTREO ALEATORIO: Elegimos n objetos de una población: Y1 · · ·Yn Misma probabilidad de ser incluidos en la muestra Y1 · · ·Yn→ VA Y1 · · ·Yn son iid (independientes identicamente distribuı́das) 2.1. MODELO DE REGRESIÓN LINEAL 12 Ejemplo: Las encuestas presentan un problema: No todos los individuos tienen la misma probabilidad de ser encuestados. Por ejemplo, en las encuestas electorales la población es acotada a los votantes y este es un grupo heterogéneo. Además, existen supuestos por detrás: Atender, contestar, tener teléfono de lı́nea... Esta última separa ya la población en los que pueden ser 2 grupos: jóvenes y adultos. Podemos creer que los jóvenes no poseen teléfono de lı́nea. Si escucha, puede haber preferencias parciales. Es fundamental que todos tengan la misma chance de participar. 2.0.8. LEY DE LOS GRANDES NÚMEROS (LGN) y TCL A medida que aumenta la cantidad de experimentos, en promedio, la media muestral se acerca (tiende) a la media teórica. plim(Ȳn) = µ La probabilidad lı́mite con n tendiendo a infinito es la media. Normalidad asintótica: Un estimador (media) tiene normalidad asintótica si converge “suficientemente rápido´´ a un parámetro desconocido. Si un estimador tiene normalidad asintótica, su distribución es aproximadamente normal a medida que la muestra se vuelve infinitamente grande Teorema central del lı́mite: La distribución de medias muestrales se aproxima a una distribución normal a medida que la muestra aumenta, sin importar la distribución poblacional. Si tomamos varias muestras de una población, la distribución de esas muestras va a seguir una distribución normal. 2.1. MODELO DE REGRESIÓN LINEAL Este no es el único método para estimar parámetros, Tampoco es obvio que sea el mejor: Existe, por ejemplo, máxima verosimilitud. Pero sı́ es sencillo e intuitivo, y es con diferencia el más utilizado en las ciencias sociales empı́ricas. Queremos explicar una variable (dependiente) en términos de otra(s) (independiente) Tenemos una hipótesis para resolver un problema→ Tenemos una hipótesis para algo que queremos entender, ver si existe una relación causal entre x e y. Queremos estimar β0 β1 x y u son VA. 2.1. MODELO DE REGRESIÓN LINEAL 13 Queremos ver el poder explicativo de x sobre y Variables que afectan a Y y no son observables, es decir, no las tenemos en el modelo, se encuentran dentro del término de error. β0 : Salario cuando la educación es 0. Hay casos para los cuales no tiene una interpretación clara. Ej: Desarrollo-PIB. Necesitamos que nuestra variable de interés no correlacione con nada que se encuentre en el término de error para poder lograr abordar una interpretación causal. Residuos: Aproximan al error. y = β0 + β1x+u tomando la esperanza condicional en x: E[y|x] = β0 + β1x función de regresión poblacional Nos dice como el valor medio de y cambia con x. 2.1.1. OLS: Estimar β1 → necesitamos que exista variación de x. Es decir, que no tome el mismo valor para toda la muestra. Muestra aleatoria de tamaño n, {xi , yi}ni=1 2.1. MODELO DE REGRESIÓN LINEAL 14 yi = β0 + β1xi +ui 1 fitted values: valores que vamos prediciendo a medida que estimamos. cov(x,u) = E[(x −µx)(u −µu)] cov(x,u) = E[xu − xµu −µxu +µxµu] cov(x,u) = E[xu]−µu µx︷︸︸︷ E[x] −µx E[u]︸︷︷︸ =0 +µxµu] cov(x,u) = E[xu] Entonces E[u|x] = E[u] donde E[u] = 0 implica que cov(x,u) = E[xu] = 0 (Se encuentra presente el supuesto de que en la población, el error no está correlacionado con las x). Reescribiendo los resultados: u = y − β0 + β1x E[u] = 0⇒ E[y − β0 + β1x] = 0 cov(x,u) = E[xu] = 0 E[xu] = E[x(y − β0 + β1x)] = 0 Vamos a elegir β̂0 y β̂1 tal que: n−1 n∑ i=1 ( y − β̂0 + β̂1x ) = 0 n−1 n∑ i=1 xi ( y − β̂0 + β̂1x ) = 0 despejo β̂0: N∑ i=1 ( yi − β̂1xi ) − N∑ i=1 β̂0 = 0⇒ N∑ i=1 β̂0 = N∑ i=1 ( yi − β̂1xi ) β̂0 = ∑N i=1 yi − ∑N i=1 β̂1xi n ⇒ β̂0 = ȳ + β̂1x̄ Introducimos el resultado para hallar β̂1 en la segunda ecuación: N∑ i=1 xi [ yi − ( ȳ − β̂1x̄ ) − β̂1xi ] = 0 N∑ i=1 xi [ yi − ȳ + β̂1 (x̄ − xi) ] = 0 N∑ i=1 xi (yi − ȳ) = β̂1 N∑ i=1 xi (xi − x̄) 1Los ı́ndices denotan observaciones 2.1. MODELO DE REGRESIÓN LINEAL 15 Por propiedades: N∑ i=1 (xi − x̄) (yi − ȳ) = β̂1 N∑ i=1 (xi − x̄)2 β̂1 = ∑N i=1 (xi − x̄) (yi − ȳ)∑N i=1 (xi − x̄) 2 Básicamente vemos que β̂1 = cov(x,y) V ar(x) Si x e y están correlacionadas positivamente, β̂1 es positivo Residuos , Error. ⇒ Residuos = de y︷ ︸︸ ︷ valor efectivo− de y︷ ︸︸ ︷ valor predicho Los residuos son una parte del error. OLS (MCO) busca la recta que minimice los errores, en particular, al cuadrado para penalizar los valores extremos y para que los mismos no se cancelen entre sı́ entre positivos y negativos y no subestimemos. 2.1. MODELO DE REGRESIÓN LINEAL 16 2.1.2. OLS vs DGP Ejemplo 2.3 Wooldridge → [Sueldo de los directores generales (CEO) y rendimiento sobre el capital (roe)] salary = β0 + β1roe+u ˆsalary = 963.191 + 18.501roe si el rendimiento sobre el capital es cero, roe 0, entonces el sueldo que se predice corresponde al intercepto, es decir, $963,191, dado que salary se mide en miles. Luego, el cambio que se predice para el sueldo en función del cambio en el roe se expresa como: salary 18.501 (roe). Esto significa que cuando el rendimiento sobre capital aumente en un punto porcentual, roe 1, se predice que el sueldo variará aproximadamente 18.5, es decir $18,500. Sin embargo, esto no significa que un determinado CEO, para cuya empresa roe = 30 gane $1,518,221. Hay otros muchos factores que afectan al sueldo. La FRP2 no podrá conocerse nunca, de manera que nose puede decir qué tan cerca están la FRM3 de la FRP. Con otros datos de muestra se obtendrá otra lı́nea de regresión diferente, que podrá estar más o menos cerca de la lı́nea de regresión poblacional. DGP→mundo real donde existe una cierta relación entre salario y educ o roe DGP no es conocido “Realidad´´ → idea que no podemos observar y a la que nos acercamos mediante estimadores Simulación. 2función de regresión poblacional 3función de regresión muestral 2.1. MODELO DE REGRESIÓN LINEAL 17 2.1.3. OLS - REGRESIÓN MÚLTIPLE Explicar la variable dependiente en función de más de una variable 2 variables independientes: ŷ = β̂0 + β̂1x1 + β̂2x2 k variables independientes: ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk Interpretación ceteris paribus de los coeficientes Separar el efecto de x1 del efecto de x2 Existe una parte de x1 que es explicada por x2 (corr , 0) Al quedarnos con los Residuos nos quedamos con la parte de x1 que NO es explicada por x2 (corr = 0) Usamos esto para calcular el coeficiente “Controlar por´´ = neteamos el efecto Las variables independientes pueden estar correlacionadas entre sı́, lo que no pueden es estar correlacionadas con el error (sesgo por variables omitidas) Estimación de los coeficientes para dos regresores ŷ = β̂0 + β̂1x1 + β̂2x2 β̂1 = ∑n i=1 ˆri1yi∑n i=1 ˆri1 2 2.1. MODELO DE REGRESIÓN LINEAL 18 ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2 Se regresa la primera variable independiente, x1, sobre la segunda variable independiente, x2 y después se obtienen los residuales (aquı́ y no interviene). los residuales tienen media muestral cero. ˆri1 son la parte de x1 después de que los efectos parciales de x2 han sido descontados o deducidos. β̂1 mide la relación entre y y x1, neteando el efecto de x2. es la estimación habitual de la pendiente en la regresión simple. En el análisis de regresión simple no se descuentan los efectos parciales de otras variables porque en la regresión no se incluyen otras variables. Estimación de los coeficientes para k regresores ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk β̂1 = ∑n i=1 ˆri1yi∑n i=1 ˆri1 2 ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2 + · · ·+ β̂kxk β̂1 mide la relación entre y y x1, neteando el efecto de x2 · · ·xk SCT = SCE + SCR 1 = SCE SCT︸︷︷︸ R2 + SCR SCT R2 coeficiente de determinación. R2→ y se interpreta como la proporción de la variación muestral en yi que es explicada por la lı́nea de regresión de MCO. Por definición, es un número entre cero y uno. aumenta cuando se agrega otra variable independiente a la regresión. 2.1. MODELO DE REGRESIÓN LINEAL 19 Que nunca disminuya cuando se agrega cualquier variable a la regresión lo hace poco confiable para decidir si agregar una o varias variables al modelo. 2.1.4. OLS - errores estándar y varianza Error estándar: desvı́o medio entre los datos y la recta de regresión Medida de precisión de nuestras estimaciones Mide cuán preciso es el estimador del parámetro poblacional (siempre positivo) Desvı́o estándar , error estándar Desvı́o→ estadı́stica descriptiva. Sale de la muestra. Error estándar→ Es lo que vemos en la salida de stata. σ2 es la varianza del término error, no es observable. Podemos estimar σ2 para calcular la varianza y errores estándar estándar de nuestro estimadores de OLS. Errores vs residuos: El término error no es observable: yi = β0 + β1xi +ui Los residuos los podemos calcular:ŷi = β̂0 + β̂1xi + ûi Usar los residuos ûi para estimar ui σ̂2 = SCR n− k − 1 = ∑n i=1 ûi 2 n− k − 1 σ̂ = √ σ̂2 Entonces, se ( β̂j ) = σ̂[ SCTj · (1−R2) ]1/2 2.1. MODELO DE REGRESIÓN LINEAL 20 2.1. MODELO DE REGRESIÓN LINEAL 21 Capı́tulo 3 Continuación Regresión Lineal 3.1. TEOREMA GAUSS-MARKOV TGM: dados los supuestos clásicos, el estimador de OLS es el mejor estimador lineal insesgado (MELI) Teorema sobre los estimadores, no sobre estimaciones puntuales. Puede agregarse el supuesto de Muestreo Aleatorio, pero no es necesario para demostrar que un estimador es MELI. SUPUESTOS: 1. Linealidad: Requiere que la variable dependiente sea una combinación lineal de las variables independientes y del término error. El modelo que estimamos debe ser lineal en parámetros Podemos incluir variables en forma no lineal. Por ejemplo, podemos incluir transformaciones logarı́tmicas. 2. Rango k: o multicolinealidad. Es una medida del grado de asociación lineal entre variables independientes. La multicolinealidad es perfecta cuando 1 variable independiente puede expresarse como combinación lineal de otras. Requiere 2 condiciones: TGM requiere que no haya multicolinealidad perfecta Ejemplos: • Incluir como regresores el activo, pasivo y PN. • Incluir como regresores el PIB y sus componentes • Incluir como regresores el salario en dolares y el salario en pesos. Siempre que la correlación entre xi y xj sea menor a 1, esta condición se cumple. En tanto cor(xi ,xj) , 1 no se va a violar este supuesto. Necesitamos (al menos) tantas observaciones como variables independientes. n ≥ k. SI los supuestos 1-2 no se cumplen, OLS NO puede estimar. 3. Exogeneidad: Básicamente, que no haya variable omitida. Supuesto: E(ui |x) = 0 Las variables independientes (x1 · · ·xk) no están correlacionadas con el término error Este es el supuesto que nos va a ocupar a lo largo del curso 22 3.1. TEOREMA GAUSS-MARKOV 23 Si los supuestos 1-4 se cumplen, entonces el estimador es MELI. 4. ui ∼ iid (0,σ2) { idéntica→Homocedasticidad independiente→No correlación Este supuesto consiste de tres partes: E(ui) = 0 Homocedasticidad: var(ui |x) = σ2 para todo i No autocorrelación: cov(ui ,uj |x) = 0 para todo i , j Necesitamos que los errores tengan media 0 y varianza constante en el cross section y en el tiempo 5. El término de error sigue una distribución normal: 3.1.1. ESTIMADOR β̂j OLS es lineal por construcción. No hay nada ni bueno ni malo en que un estimador sea lineal. BAJO OLS, β̂ ES INSESGADO Formalmente, E(β̂j) = βj j = 0,1, · · · , k Entonces, en promedio el estimador es = al parámetro poblacional. Propiedad del estimador (variable aleatoria) no de la estimación (puntual) ¿Qué nos dice esta propiedad? 3.1. TEOREMA GAUSS-MARKOV 24 β̂j está centrado en la media poblacional. β̂j no favorece ning ún valor que no sea el verdadero parámetro poblacional. Estimador al rededor de cierto intervalo. ( ) βj media β̂j β̂j β̂j E ( β̂j ) = βj ES EFICIENTE: El estimador de OLS es el de varianza mı́nima entre todos los estimadores lineales insesgados. Varianza mı́nima→más preciso. Varianza mı́nima→ en términos del estimador. Cada estimación es diferente entre sı́. Podemos considerar la estimación de OLS como una VA→ la estimación se encuentra dentro de cierto intervalo tal que este sea el intervalo más chico en esta clase de estimadores. Varianza mı́nima no necesariamente igual a varianza baja VARIANZA DE LOS ESTIMADORES La varianza del estimador de OLS depende de tres cosas: Multicolinealidad: Correlación entre variables explicativas. ¿Dónde la vemos?→ en el R2. Si tengo algo como y = β0 + β1x1 + β2x2 + β3x3 +u R21 : x1 = δ0 + δ2x2 + δ3x3→ proporción explicada • V ar ( β̂j ) = σ2 SSTj ( 1−R2j ) • Donde SSTj = ∑n i=1 ( xij − x̄j )2 es la variación total en xj ; R 2 j es el R 2 de regresar xj sobre todas las otras variables independientes y σ2 es la varianza del término error. ◦ Si x1 y x3 están altamente correlacionadas, x3 explica gran parte del movimiento de x1 ⇒ R2 muy alto. Si esto es ası́, SSTj = ∑n i=1 ( xij − x̄j )2 se encuentra cerca de cero pero tira la varianza para arriba. ◦ Si R2 = 1⇒ indefinida V ar ( β̂j ) Micronumerosidad (Goldberger. 1991): tamaño de la muestra, y variación en xj ⇒ afecta la estimación. • Mientras mayor es n, más cosas sumamos y el SST se vuelve más grande. Como se ecuentra en el denominador de la varianza, entonces su estimación se vuelve más 3.1. TEOREMA GAUSS-MARKOV25 precisa. Macroestupidez (Sosa Escudero, 2015): tamaño de la varianza del error • Si puedo incluir más cosas en la regresión entonces las saco del término de error. Mientras más pueda explicar nuestro modelo la variable dependiente, más precisa se vuelve la estimación de la varianza. 3.1.2. Violación de los supuestos: 1. Linealidad: Problema: el estimador de OLS no está definido, por lo tanto, simplemente no podemos aplicar OLS. La solución es proponer una estimación lineal. 2. Rango k: El problema es el mismo que en el caso anterior. La solución, para este caso es: No incluir un conjunto de xi que sea una función lineal de algunas(s) otras xj (var. explicativas) para todo i , j Ante estos problemas, stata dropea una variable. Con multicolinealidad alta pero no perfecta no viola ningún supuesto del TGM, aún OLS es MELI. Podemos ver el grado de correlación entre nuestras variables explicativas. La consecuencia es que aumenta la varianza de las estimaciones, por lo que pierdo precisión e implica un IC más grande. 3. ui ∼ iid ( 0,σ2 ) : Problema→ el estimador de OLS es insesgado (y consistente), pero no tiene varianza mı́nima. (es decir, no es eficiente) Dejemos E(ui) = 0 de lado, por ahora Si la varianza no es constante en el cross section (corte transversal, es decir, entre individuos), heterocedasticidad. Aparece cuando un modelo explica mejor algunas observaciones que otras. Solución: usar errores stándar robustos (Huber-White). Corrección sobre la varianza. Si la varianza no es constante en el tiempo, autocorrelación o correlación serial→ el término de error en t correlacionado con un término en t+k Solución: usar errores estándar robustos a la autocorrelación (Newey-West Standard Error) o clustereados ¿Cuán problemático es todo esto? 3.1. TEOREMA GAUSS-MARKOV 26 • No mucho en la literatura aplicada, siempre que se corrija usando errores estándar robustos o clustereados • Como punto de partida se presupone que hay heterocedasticidad en cross section y correlación serial en paneles 4. Exogeneidad: Problema: el estimador de OLS no es insesgado ni consistente Supongamos que el DGP es y = β0 + β1x1 + β2x2 + β3x3 y que Cov (x1,x3) , 0 Proponemos yi = β0 + β1x1i + β2x2i +ui ui incluye x3. Afecta al GDP y no está incluida en la regresión.⇒ x3 variable omitida⇒ no se cumple el supuesto. Estimación sesgada. No podemos mover x1 dejando todo lo demás constante, ya que al mover x1 estamos moviendo x3 que no está controlada en el modelo. Como 2 cosas que afectan y se están moviendo al mismo tiempo no podemos saber cuál es la responsable del cambio en la variable dependiente. Esto no solo afecta la interpretación de β̂1, sino de todos los coeficientes estimados. Recordar que β̂1 = ∑n i=1 ˆri1yi∑n i=1 ˆri1 2 donde ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2 Dado que x3 está omitida no podemos netear su efecto. CAUSAS DE LA ENDOGENEIDAD: Variables omitidas, simultaneidad (causalidad reversa) y error de medición: • En la variable dependiente: afecta eficiencia (si tiene media 0) y sesgo en β0 (si media distinta de 0) • En la variable independiente: error de medición no correlacionado con u, afecta la eficiencia. • En la variable independiente: error de medición correlacionado con u, attenuation bias (estimadores sesgados e inconsistentes) ¿Cuán probable es que este problema ocurra?→Muy probable. ¿Cuán problemático es todo esto? → Muy problemático: Deja de ser insesgado. Sesgo muy grande. Ej: fumadores y no fumadores. Es muy probable que ocurran problemas de edogeneidad dado que un contexto de agentes racionales que maximizan sus decisiones hace que todo se relacione con todo→ sistema económico interdependiente. 3.1. TEOREMA GAUSS-MARKOV 27 Los consumidores toman decisiones en base a sus preferencias, variables macro, etc. ¿Y si otros regresores son endógenos? Aleatorización no es igual a controlar por todo, pero nos permite obtener un estimador insesgado y consistente para ese regresor (Angrist y Pischke, 2015) 3.1.3. INFERENCIA: El TGM necesita los cuatro primeros supuestos para que el estimador de OLS sea MELI. Inferencia → sacar conclusiones sobre población a partir de muestra. Es para esto que necesitamos el supuesto de normalidad. TGM: Error Normal u|x ∼Normal ( 0,σ2 ) La varianza tiene que ser constante, no necesariamente igual a 1 Si asumimos normalidad estamos asumiendo exogeneidad y ui ∼ iid ( 0,σ2 ) (no viceversa) TEST DE HIPÓTESIS: βj es un parámetro poblacional, por ende desconocido. Insesgadez NO implica que β̂j = βj Dados nuestros datos y estimaciones, podemos hacer conjeturas sobre β1 ( Solo sacamos conjeturas de lo que podrı́a estar pasando con β1) y testearlas. Si rechazo⇒ coeficiente significativo Significatividad: juicio sobre correlación por fuera de la muestra. Si la correlación es muy fuerte, es poco probable que fuera de la muestra no haya relación. Si la correlación es baja, es probable que no haya relación. 3.1. TEOREMA GAUSS-MARKOV 28 Distribución t de los estimadores de OLS: β̂j − βj se ( β̂j ) ∼ tn−k−1 = tdf 3.1.4. P-VALOR Los p-valor son una medida de significatividad de nuestros β̂j Si un coeficiente es significativo, tenemos confianza en que hay una correlación entre estas variables a nivel poblacional. p-valor responde a la siguiente pregunta: “¿cuál serı́a la probabilidad de encontrar una correlación tan fuerte como la de nuestra muestra, si en la población la correlación entre estas variables fuese 0? ´´ 3.1. TEOREMA GAUSS-MARKOV 29 Significatividad ,magnitud del coeficiente. 3.1.5. INTERVALOS DE CONFIANZA Significatividad del 5% implica IC del 95% Construimos IC para βj β̂j ± c · se ( β̂j ) Obtenemos un lı́mite inferior βj y un lı́mite superior bj Si tomásemos múltiples muestras, el valor poblacional (desconocido) estarı́a entre βj y bj el 95% de las veces. Si el IC incluye al 0, el 95% de las veces caerı́a cerca o podrı́a ser 0⇒ no serı́a significativo Variables instrumentales solucionarı́a el sesgo en términos causales, no estadı́sticos. 3.1.6. LA SIGNIFICATIVIDAD DE β̂j Alta significatividad: Altos estadı́sticos t Bajos p-value IC estrechos y lejos de 0 Todos estos conceptos están relacionados. Podemos testear múltiples hipótesis además de H0 : βj = 0. 3.1.7. F TEST: Los estadı́sticos F nos permiten nos permiten testear hipótesis sobre múltiples parámetros H0 : β1 = β2 = · = βk = 0 Testear la significatividad de la regresión H1 se cumple cuando al menos un coeficiente es significativo. 3.2. PROPIEDADES ASINTÓTICAS DE OLS: 30 3.2. PROPIEDADES ASINTÓTICAS DE OLS: La insesgadez es una propiedad de nuestras finitas El estimador de OLS tiene otras propiedades deseables que se cumplen cuando n tiende a infinito. Una muestra grande es una convención. No sabemos con certeza QUÉ ES una muestra grande. 3.2.1. CONSISTENCIA: Bajo los supuestos clásicos, β̂j es consistente V.I→ no son insesgados, si consistente. β̂j →p βj limn→∞P r ( |β̂j − βj | < ϵ ) = 1 para cualquier real positivoϵ ϵ → determinado parámetro real positivo, pero pequeño. A medida que aumenta n, OLS converge al valor poblacional. La distribución de β̂j se va estrechando al rededor de βj , colapsando en el infinito a βj Si falla exogeneidad, β̂j es inconsistente. El sesgo persiste aunque aumentemos el tamaño de la muestra. 3.2. PROPIEDADES ASINTÓTICAS DE OLS: 31 Sesgo en términos causales de variables omitidas persiste aún con n tendiendo a infinito. No solucionable aumentando n. 3.2.2. NORMALIDAD ASINTÓTICA Para nuestras estimaciones vamos a usar Stata Las tablas de Stata incluyen toda la información que necesitamos Luego las ponemos más presentables, como en los ejemplos anteriores. 3.2. PROPIEDADES ASINTÓTICAS DE OLS: 32 Capı́tulo 4 EXPERIMENTOS ALEATORIOS La mayorı́a de los programas se diseña y luego se implementa en un entorno complejo y cambiante, donde diversos factores pueden influir en los resultadostanto de los participantes del programa como de aquellos que no participan. Las sequı́as, los terremotos, las recesiones, los cambios de gobierno y los vaivenes de las polı́ticas nacional e internacional forman parte del mundo real. En una evaluación, se debe asegurar que la estimación del impacto del programa siga siendo válida a pesar de esta diversidad de factores. Se analizará un método que se asemeja a un sorteo y que decide quién participa en un programa en un determinado momento y quién no: el método de asignación aleatoria. No solo proporciona a los administradores del programa una regla imparcial y transparente para asignar recursos escasos entre poblaciones igualmente merecedoras de ellos, sino que también representa el método más sólido para evaluar el impacto de un programa. 4.1. ASIGNACIÓN ALEATORIA: D→ variable dummy Caso más sencillo: Tratamiento (D=1) y un control (D=0) En muestras grandes, la asignación aleatoria resuelve el problema de endogeneidad Ambos grupos estadı́sticamente equivalentes (en promedio) La muestra aleatoria preserva los rasgos de la población. Los tratados deben ser indistinguibles de los controles y ambos de la población. Ya sea la muestra representativa o no de la población, la asignación aleatoria funciona igual. Otra cosa es si lo descubierto es extrapolable o no a la realidad. Utiliza un proceso aleatorio, o el azar, para decidir a quién se le concederá acceso al programa y a quién no. Todas las unidades elegibles tienen la misma probabilidad de ser seleccionadas para un programa. A demás, se asegura de que el programa no sea asignado con criterios arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prácticas injustas. Las limitaciones presupuestarias pueden impedir que los administradores ofrezcan el programa a todas las unidades elegibles desde el comienzo. Las limitaciones de capacidad a veces impedirán que un programa pueda ser implementado para todos al mismo tiempo. Ej: programa de formación profesional para jóvenes, la cantidad de jóvenes desempleados que desean obtener una formación profesional puede ser superior al número de plazas disponibles. Los administradores del programa deben definir un mecanismo de selección: podrı́a ser un sorteo. 33 4.1. ASIGNACIÓN ALEATORIA: 34 Grupo de comparación ideal: lo más similar posible al grupo de tratamiento en todos los sentidos, excepto con respecto a su participación en el programa que se evalúa. Asignación aleatoria → producirá dos grupos → alta probabilidad de ser estadı́sticamente idénticos, siempre que el número de unidades potenciales a las que se aplica el proceso de asignación aleatoria sea suficientemente grande. → con muestras grandes → el proceso de asignación aleatoria producirá grupos que tienen promedios estadı́sticamente equivalentes en todas sus caracterı́sticas. 4.1.1. CONTRAFÁCTICO El grupo de control es el contrafáctico del tratamiento Confianza en el método → Buen contrafáctico = buena aproximación a lo que hubiese pasado con los tratados en ausencia del tratamiento Asignación aleatoria produce los contrafácticos más fuertes En promedio, la asignación aleatoria deberı́a igualar a los grupos. Sirve para mostrar que la A.A se hizo bien⇒medidas similares entre grupos. Balance entre tratados y controles: Evidencia (no demostración) de que los grupos son comparables→ no demostración porque no podemos medir y comparar todas las variables de interés. Asignación aleatoria iguala en observables y no observables Mostrar que la randomización se hizo bien Si la nuestra es lo suficientemente grande, el mecanismo de asignación aleatoria asegura que cualquier caracterı́stica de la población se transfiera tanto al grupo de tratamiento como al control. Del mismo modo que las caracterı́sticas observables, variables no observables, como la motivación, preferencias u otros rasgos de la personalidad, también se aplicarán por igual al grupo de tratamiento y al de comparación. → grupos generados por asignación aleatorias = en caracterı́sticas observables y no observables. Tener dos grupos similares en todos los aspectos asegura que la estimación del contrafactual se aproxime al valor verdadero del resultado en ausencia de tratamiento, y que una vez que el programa se haya implementado, las estimaciones de impacto no sufrirán un 4.1. ASIGNACIÓN ALEATORIA: 35 sesgo de selección. 4.1.2. Implementar asignación aleatoria: Mecanismo: Sorteo, software, otros→ DNI. Si bien el número no es aleatorio (según como empiece podemos diferenciar edades) lo que sı́ es aleatorio es el último dı́gito. Sobre este, podemos hablar de terminación par-impar. Esto es difı́cil de justificar que se encuentre relacionado con algo aunque no sea estrictamente aleatorio. Importante: Importante: que todas las unidades tengan la misma chance de ser asignadas al tratamiento o al control No deben existir unidades que se encuentren más cerca, por sus propias caracterı́sticas, de un grupo que de otro. Aleatoriedad implica exogeneidad Población vs muestra: • Asignación aleatoria garantiza validez interna, aun en muestras no representativas • La representatividad de la muestra afecta la validez externa Efecto hallado → efecto causal real (Validez interna) significa que el impacto estimado del programa es el impacto libre de todos los demás factores de confusión potenciales. La validez externa es la capacidad de externalizar el resultado. quiere decir que la muestra de la evaluación representa con precisión a la población de unidades elegibles. A veces la asignación aleatoria no está a cargo del investigador • En el mundo real, habiendo consecuencias, el individuo tiene incentivos a influir. Ej: Si sale cara, vas a vietnam. Entonces tenes incentivos a hacer todo lo posible para que salga seca. Puede ser necesario defender más la randomización. Dal Bó y Rossi (2011): Los legisladores se renuevan por tercios. El control es la parte que no se renueva de la cámara. • No diferencias observables entre ambos grupos 4.1. ASIGNACIÓN ALEATORIA: 36 • Regresión de la probabilidad de estar en un grupo con respecto a caracterı́sticas pre-tratameinto→ F test no significativo • Regresión para predecir el esfuerzo en base a observables. Esfuerzo explicado por observables no relacionado con el grupo al que fueron asignados. ¿Cuándo puede aplicarse la asignación aleatoria? 1. Cuando la población elegible es mayor que el número de plazas disponibles del programa. 2. Cuando sea necesario ampliar un programa de manera progresiva hasta que cubra a toda la población elegible. Cuando un programa se extiende por etapas, establecer de forma aleatoria el orden en el que los participantes se benefi cian del mismo ofrece a cada unidad elegible la misma posibilidad de recibir tratamiento en la primera fase o en una fase posterior. Capacitar enfermeras me lleva 3 años. 1/3 del total lo capacito en el primer año. 1/3 en el segundo y el último tercio en el tercer año. Cómo asignar aleatoriamente el tratamiento 1. Definir las unidades elegibles: dependiendo del programa concreto, una unidad podrı́a ser una persona, escuela, una empresa, todo un pueblo o una municipalidad. La población de unidades elegibles está compuesta por aquellos para los cuales interesa conocer el impacto de un programa. 2. Seleccionar la muestra de evaluación: unidades elegibles > requeridas ⇒ seleccionar una muestra de unidades a partir de la población que se incluirá en la muestra de evaluación. 3. Asignar aleatoriamente al tratamiento: Asignación aleatoria entre tratamientos y controles. ¿A qué nivel se lleva a cabo una asignación aleatoria? La asignación aleatoria puede llevarse a cabo en diversos niveles: indivi- dual, hogares, empresas, comunidades o regiones. 4.1.3. Estimación del efecto causal: En el caso más sencillo, podemos comparar medias. Dado que los grupos son comparables, cualquier diferencia es adjudicada al tratamiento.Para estimar el impacto de un programa bajo la asignación aleatoria, se debe observar la diferencia entre el resultado bajo tratamiento (el resultado medio del grupo de tratamiento asignado de forma aleatoria) y nuestra estimación del contrafactual. Lista de verificación: la asignación aleatoria ¿Están equilibradas las caracterı́sticas de la lı́nea de base? Deben compararse las caracterı́sticas de lı́nea de base del grupo de tratamiento y del grupo de comparación. ¿Se ha producido algún incumplimiento con la asignación? Se debe verificar si todas las unidades elegibles han recibido tratamiento y que no haya unidades no elegibles que hayan recibido tratamiento. Si ha habido incumplimiento, tendrá que utilizarse el método de variable instrumental ¿Son suficientemente numerosas las unidades en los grupos de tratamiento y comparación? Si no, serı́a necesario combinar la asignación aleatoria con diferencias en diferencias ¿Hay algún motivo para creer que los resultados en algunas unidades de alguna manera dependen de la asignación de otras unidades? ¿Podrı́a haber un impacto del tratamiento en las unidades del grupo de comparación? 4.2. TRATAMIENTOS MÚLTIPLES: 37 4.1.4. Regresión yi = α + βDi +ui Di → asignación al tratamiento. i denota cada observación. Regresión lineal, no multicolinealidad perfecta, estimador OLS, Di es exógeno, ⇒ β̂ es el efecto causal de D sobre y. (insesgado - consistente) Di no está correlacionada con nada (no hay sesgo por variables omitidas), ¿Incluı́mos controles? • Podemos reescribir incluyendo un conjunto de variables de control X para que nos ayude a hacer mejor nuestra estimación. yi = α + βDi +λXi +ui • En experimentos aleatorios la inclusión de controles relevantes aumenta la precisión (reduce errores estándar) • Sin embargo, incluir controles produce un efecto ambiguo sobre la varianza var ( β̂ ) = σ2 SSTj ( 1−R2D ) SCTj = ∑n i=1 ( Di − D̄j )2 es la variación total en D. R2D es el R 2 de regresar D sobre todas las otras variables independientes σ2 es la varianza del término error. Di aleatorio ⇒ baja correlación con controles que incluimos. R2D muestra cuanta variación de Di es explicada por todas las otras variables independientes. R2 chico. R2D chico→ ( 1−R2D ) ↑⇒↓ varianza Si la correlación fuese alta R2D aumenta→ ( 1−R2D ) ↓⇒↑ varianza σ2 Quitar variables del término error reduce la varianza. Si los controles explican poco a y ¿Cuanto saca del error? la varianza baja poco. La estimación cambia poco por la forma de estimar OLS donde r son los residuos. Como D es aleatorio, incluir controles no tiene gran poder explicativo sobre D por lo que no modifica r. 4.2. TRATAMIENTOS MÚLTIPLES: Con asignaciones aleatorias, podemos estimar más de un tratamiento fácilmente 4.3. HETEROGENEIDAD 38 Todos los tratamientos deben ser aleatorios Testear diferentes hipótesis o partes de un programa Podemos usar test de hipótesis para comparar los efectos • yi = α + β1D1i + β2D2i +γXi +ui • H0 : β1 = β2 ver si el efecto es el mismo o si es estadı́sticamente indistinguible D1 medicamento 1 y D2 medicamento 2 y grupo de control. D1 = 1 - D2 = 0 /// D1=0 - D2=1 Para el caso de medicamentos es raro que se de conjuntamente D1 = D2 = 1. Por otro lado, para el caso de la ayuda social donde se tiene como tratamiento recibir transferencia o bolsa (especies) , pueden darse ambos. AUH→ Tarjeta de beneficios que no es utilizada tanto como se esperarı́a. Las hipótesis son no excluyentes. Formas de racionalizar el problema. La unidad de análisis es el individuo. Variable dependiente: Uso de la tarjeta (dicotómica) 8 tratamientos 4.3. Heterogeneidad Útil para separar hipótesis. Ej: zonas con mucho posnet vs poco. 4.4. INFERENCIA 39 4.3.1. Survey experiments Experimentos dentro de una encuesta Efecto de presentar distintos tipos de información. Rho y Tomz (2017) analizan el efecto de proveer información sobre las percepciones individuales respecto al proteccionismo • Problema: actitudes hacia comercio exterior no parecen depender de consideraciones materiales. Obrero vs analista actitud similar. • Pregunta: cómo cambiarı́an estas opiniones si los individuos conocieran má sobre las consecuencias distributivas del comercio internacional? Cuatro grupos: • T1: información sobre perdedores y ganadores (quien perdió su trabajo y quien no) • T2: información sobre ganadores • T3: información sobre perdedores • C: ninguna información. Heterogeneidad entre graduados universitarios y no graduados Muestra: Amazon Mechanical Turk. Aproxima caracterı́sticas de la población Experimento: miden variables pre-tratamiento, se asignan los tratamientos aleatoriamente, se mide la variable dependiente. Resultados: • Respuesta egoı́sta: más favorable al proteccionismo cuando beneficia a tu grupo • Respuesta altruista: más favorable al proteccionismo cuando hay beneficios • Respuesta egoı́sta más fuerte Cosas a tener en cuenta: validez externa, contexto del experimento (lo que dicen vs lo que harı́an), la duración de estos efectos. • Lo que piensan antes sobre el COMEX deberı́a ser igual entre individuos. Se pregunta qué es lo que creen, no lo que hacen. • Ej: Cambio climático. Video border. ¿Reciclás? Obvio. de ahı́ a que lo haga en su casa, es otra cosa. • También importa la duración de los efectos. Puede ser que llegue a la casa y recicle, pero eso perdura en el tiempo? 4.4. INFERENCIA En cross section asumimos heterocedasticidad→ Errores estándar robustos - IC más anchos. ¿Y si tenemos clustered estandard errors?→Cluster: Cuando tenemos subgrupos que entre sı́ son más parecidos. • Esto ocurre cuando subgrupos de nuestras observaciones (clusters) están relacionados entre sı́ • Por ejemplo: en una muestra de n alumnos en m escuelas, los alumnos dentro de cada m están relacionados 4.4. INFERENCIA 40 Errores standar más altos→ t más bajo→ p-valor más alto⇒más difı́cil hallar un resultado significativo. ¿Qué hacemos con los errores standar?¿A qué nivel se asigna el tratamiento? → Ej: muestra alumnos. El nivel es el curso, por lo que el tratamiento es a nivel profesor. Hay que clusterear errores a nivel del curso. Supongan que asignamos aleatoriamente un tratamiento D entre un grupo de n individuos: para n/2 D=1 ; para n/2 D=0 La asignación del tratamiento es individual. ¿Deberı́amos clusterear los errores estándar? → Depende, un momento del tiempo o varios? para 1 momento del tiempo: NO. • De hacerlo, si tuviesemos 1000 individuos en 1 solo momento del tiempo, tendrı́amos 1000 clusters, por lo que no estarı́amos agrupando nada. Es equivalente a errores standar rubustos. • Si contaramos con varios momentos de tiempo→ nivel individual→ 1000 personas x 10 años → 10.000 observaciones. Cluster individual por cada individuo → 10 obs, 1 por cada año de cada individuo. Errores intra-cluster se encuentran más correlacionados porque cada uno mide 1 persona. Lo que pase conmigo en t+1 está más relacionado conmigo en t que con otro individuo en cualquier momento del tiempo. Más utilizado el caso de varios momentos del tiempo para datos en panel. En cross-section depende de la forma y del nivel en que se asigne el tratamiento clusterizar o no.
Compartir