Logo Studenta

3) evaluación de impacto-1-41

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad de Buenos Aires
Facultad de Ciencias Económicas
Tópicos de Microeconomı́a: Evaluación de
Impacto
Alumna: Valentina Lovazzano
Profesor: Juan Pablo González
Intensivo invierno 2023
Capı́tulo 1
INTRO A LAS RELACIONES CAUSALES
Introducción a la inferencia causal y a los métodos empı́ricos experimentales y cuasi
experimentales
Identificación causal
Variable causal→ variable independiente
Testeo de hipótesis crucial para el avance del conocimiento cientı́fico (recuerden a Karl
Popper)→ Criterio para separar hipótesis buenas de malas. Las hipótesis implican muchas
veces relaciones causales por lo que el testeo debe ir en la misma lı́nea.
1.1. DATOS Y CORRELACIONES
Datos→ insumo fundamental de la estadı́stica y, más general, del testo de hipótesis
Variable → instrumento que representa una propiedad o fenómeno. Representa una
caracterı́stica de la realidad.
La correlación entre dos variables mide el grado de asociación entre ambas. La correlación
puede ser positiva o negativa, más fuertes o más débiles.
• Ejemplo: Temperatura y consumo de helado→ débil.
• Ejemplo: venta de zapato izquierdo y venta de zapato derecho→ fuerte.
Los datos y correlaciones son observables
Hacemos Hipótesis sobre eventos o fenómenos del mundo real para explicar y predecir
Tester hipótesis usando correlaciones y datos tal que Testeamos con observaciones. Las hipótesis
presentan relaciones causales, no correlaciones y la causalidad es NO observable. → No podemos
observar que A causa B por lo que se da un descalce entre la teorı́a y la forma en que testeamos.
Por lo tanto,
¿Qué podemos hacer, con los datos y correlaciones, para hacer un testeo confiable?
Desarrollo y democracia: Ejemplo
1. Pobres: incentivos a la apertura de la polı́tica, no tienen los medios
2. Nobles: no incentivos a la apertura, si los medios.
3. Nace la clase media tienen incentivos y medios para lograr el objetivo.
que nos dice esta correlación?
1
1.1. DATOS Y CORRELACIONES 2
H1: Riqueza → Democracia (Lipset, 1959). El surgimiento de la clase media supone un
incremento de la riqueza por lo que se plantea esta hipótesis.
H2: Democracia → Riqueza. Otra opción es entender que los derechos de propiedad son
importantes para motorizar la inversión por lo que se plantea H2.
H3: Tercer variable (sistema legal, cultura)→ Democracia y Riqueza
Los conjuntos de datos o correlaciones son compatibles con múltiples hipótesis. No hay un
certeza sobre la dirección de la causalidad.
1.1.1. CAUSALIDAD:
Principios sobre causalidad (Holland, 1986):
1. El efecto de una causa siempre es relativo al de otra causa
Realizar una comparación para hablar de causalidad (entre al menos 2 cosas). Comparo
contra una categorı́a base o puedo comparar contra la ausencia de (ej. universitario o no
universitario)
2. Problema fundamental de la inferencia causal: no podemos estimar efectos individuales
No podemos hablar de efectos causales individuales, sino de efectos causales en promedio.
3. Mover una variable a la vez→ “comparar comparables´´
Existen diferencias, existen caracterı́sticas no observables (habilidad, motivación, etc). Si
trataramos a un grupos de individuos (universitarios - no universitarios) como iguales,
es decir, si los universitarios no fuesen a la universidad, dirı́amos que ganarı́an lo mismo
que un no universitario y eso no es ası́. Estos grupos no son comparables porque poseen
diferentes caracterı́sticas que son no observables que podrı́an también explicar el salario
⇒ requerimos aislar la educación universitaria de estas caracterı́sticas no observables que
puedan afectar el salario.
1.1. DATOS Y CORRELACIONES 3
1.1.2. SESGO DE SELECCIÓN:
Nos preguntamos,¿Fumar, es bueno para la salud?
Claramente sabemos que no, pero esta tabla parece decirnos lo contrario.
Las variables edad y fumador están correlacionadas → no estamos comparando
comparables
Vemos que hay dimensiones en las que se diferencian los fumadores de los no fumadores:
LA EDAD.
Esto es un problema para la comparación entre los grupos.
Vemos que Lo que es bueno para la salud es ser joven. Ser joven más que compensa el efecto
negativo de fumar.
Sesgo de selección = endogeneidad = variable omitida
Efecto del consumo de agua (X) sobre la salud (Y)
Variable dependiente Y es afectada por otras variables (atención médica) además de X→ no
hay problema de selección
Variable independiente X está correlacionada con otras variables (temperatura) ademas de
Y→ no hay problema de selección
Variable independiente X está correlacionada con otras variables que afectan a la
dependiente Y (ejercicio)→ problema de selección
1.1. DATOS Y CORRELACIONES 4
Disgresión: Causalidad reversa o simultaneidad
Cuando vemos que 2 variables se mueven juntas pero no sabemos cual es la causa y cual el
efecto.
Problema poco común
Se resuelve aplicando los mismos métodos que para variables omitidas.
1.1.3. LÍMITES DEL CONTROL:
Ejemplos anteriores controlamos por ser fumador o por hacer ejercicio. ¿Por qué no
controlar siempre?
Variables omitidas que conocemos y podemos medir
Variables omitidas que conocemos, pero son difı́ciles de medir
Variables omitidas que no conocemos
La inclusión de variables de control tampoco es inocua (Aronov y Sammi, 2016)
1.1.4. LEAMER (1983)
Resumen del paper.
Leamer critica al análisis empı́rico de la época
Sensitividad a cambios en las especificaciones de los modelos econométricos
Experimentación es el ideal, pero no es posible en economı́a (al menos fuera del laboratorio)
propone Análisis de sensitividad
Riquza y democracia: ejemplo
En primer instancia, el PIB es significativo para explicar el desarrollo de una democracia. Sin
embargo, si empezamos a controlar por otras variables como recursos naturales, capital humano
vemos que el impacto del producto deja de ser significativo y si incorporamos restricciones
judiciales el producto se vuelve significativo pero con una relación negativa. Por lo tanto la
relación no es clara.
1.1. DATOS Y CORRELACIONES 5
1.1.5. ENFOQUE EXPERIMENTAL:
La solución de la identificación causal , análisis de sensitividad
Aleatorización del tratamiento:
Nos podemos valer de la Ley de los Grandes Números, las probabilidades se cumplen en el
infinito.
Podemos entender a las probabilidades como juicios sobre el futuro. La probabilidad es
casos interés
casos totales
para el caso de un dado, 1/6. la probabilidad de sacar 4 en mi próxima tirada
es 1/6→ juicio de valor.
La aleatoriedad elimina el problema, vemos limpio el efecto causal.
Variable aleatoria no correlacionada con nada por definición
Buscamos mecanismos que puedan asignar de forma aleatoria tal que es posible hacer comparable
distintos grupos.
Cuando los grupos son más grandes, el grupo de tratamiento y el de control tienden a ser
iguales.
1.1.6. EXPERIMENTOS DE CAMPO:
Organismos internacionales y gobiernos para evaluar polı́ticas publicas.
Experimento de campo: Implica salir a la realidad.
Ejemplo: PROGRESA plan de transferencias condicionadas en méxico
El investigador realiza una asignación aleatoria del tratamiento en la realidad. A un grupo
brinda la transferencia y a otro no.
Emily y Lakisha: ejemplo
Bertrand y Mullainathan (2004)
¿Personas de distintas razas son comparables? → NO. La Raza no se puede asignar
aleatoriamente.
El tratamiento es el nombre en los cvs (Emily vs Lakisha, Greg vs Jamal).
La única diferencia en los cvs es el nombre → de esta forma podemos estar seguros si
hay o no discriminación. Personas de diferentes razas no son comparables (EEUU historia de
1.1. DATOS Y CORRELACIONES 6
segregación tal que las diferencias pueden darse por diferencias en la educación, etc). En este
caso, hay control sobre la situación experimental (el investigador puede armar los cv como
quiera).
Ventajas:
Solucionan el problema de endogeneidad vı́a asignación aleatoria
Control sobre la situación experimental
Potenciales problemas:
Impedimentos logı́sticos, de costos y éticos.Para las ciencias sociales, hay una cantidad
limitada de fenómenos que podemos estudiar, hay ciertos experimentos que no es ético
realizarlos (ejemplo: loterı́a para ir a la guerra. Lo hacen los gobiernos pero no investigador
no podrı́amos)
Contexto artificial
EXPERIMENTOS NATURALES CON ALEATORIEDAD:
Experimento natural→ situación en la realidad que permite ser analiza como si fuese un
experimento donde Asignación del tratamiento es aleatoria, pero no está a cargo del investigador .
Loterı́as y sorteos:
Efectos de un aumento en los ingresos (Imbens et al, 2001; Kuhn et al, 2011)
Efecto de cuotas de género en la representación polı́tica (Chattopadhyay y Duflo 2004;
Bhavnani 2009)
Efectos de servir en el ejercito o realizar el servicio militar (Angrist, 1990; Erikson y Stoker,
2011; Galiani et al, 2011; Goodman e Isen, 2020)
El tratamiento es asignado por una necesidad que opera en la realidad, no porque lo hicimos
nosotros.
Ventajas:
Solucionan el problema de endogeneidad vı́a asignación aleatoria
Ocurren en el mundo real
Potenciales problemas:
Estas situaciones son muy poco frecuentes
Puede haber dudas sobre los sorteos (Rossi, 2014)
1.1.7. AS IF RANDOM
Encontrar una asignación aleatoria en el mundo real es difı́cil. Muchos problemas no
pueden estudiarse diseñando un experimento aleatorio
El enfoque as if random:
1.1. DATOS Y CORRELACIONES 7
Situaciones con ciertas caracterı́sticas que, analizadas con las herramientas correctas,
pueden generar estimaciones causales
Estrictamente no necesitamos aleatoriedad de la variable independiente, necesitamos
exogeneidad. que sea exógeno (no endógeno). El problema es que esté correlacionado con
variables que afectan a la dependiente.
Si el tratamiento no está correlacionado con ninguna otra variable que afecta a nuestra
dependiente, no hay problema de selección.
1.1.8. EXPERIMENTOS NAT SIN ALEATORIEDAD
La mayor parte del trabajo empı́rico en economı́a se dedica a estudiar este tipo de
experimentos naturales. Hay casos donde aún sin aleatoriedad es exógeno, tal que podemos
hablar de aleatoriedad.
Hacer el punto de que nuestro tratamiento es exógeno (aunque no necesariamente aleatorio):
Desastres naturales o eventos climáticos: Egan y Mullin (2012)
Eventos socio/polı́ticos: Michalopoulos y Papaioannou (2016)
Caracterı́sticas institucionales: Levitt (1997)
1.1.9. CONTRAFÁCTICOS:
En sı́ntesis, necesitamos un contrafáctico: Preguntarnos Qué hubiese pasado con los tratados
en ausencia del tratamiento? Qué hubiese pasado con el salario de los individuos si no hubiesen
ido a la universidad?
Tenemos un grupo de control el cual será nuestro contrafáctico. Por eso nos interesa la idea de
que los grupos sean comparables para que sean un buen contrafáctico.
El contrafáctico no es observable, pero vamos a ver herramientas para hacernos una idea de
lo que hubiese ocurrido en esta situación hipotética
Algunas otras cuestiones
Esta literatura observa Efectos parciales. No preocupa dar cuenta de todos los determinantes
de la dependiente, sino 1 y que sea confiable.
1. Validez Interna: Confianza en nuestras propias estimaciones, en lo que pasa dentro de la
muestra.
2. Validez externa: Capacidad para extrapolar los datos hacia otras unidades. (es más
complejo, refiere a algo que no tengo).
Discusiones:
Método experimental→ trade-off→ puedo obtener más de 1 a costa de 2 y viceversa.
Dufló → La validez externa es importante pero antes tiene que venir la validez interna.
Decir que existe un trade-off es decir que podes tener mucho de 2 y poco de 1, esto tiene
poco sentido (es decir, querer extrapolar algo con poca validez interna). Es importante
asegurarnos de que lo que tenemos está bien estimado.
Capı́tulo 2
REGRESIÓN LINEAL
2.0.1. Introducción:
Variables aleatorias: Instrumento. representan los posibles resultados de un proceso
aleatorio asignándoles un valor. Son formas de mapear resultados de procesos aleatorios. No
necesariamente hablamos de algo randomizado (ej: valor del dolar).
No podemos definir su valor con certeza. Variable para la cual no sabemos con certeza el
valor que pueda tomar en el futuro, asociado a una probabilidad de ocurrencia. Nos preocupa la
probabilidad de que la variable aleatoria tome un cierto valor.
Distribuciones de probabilidad: funciones que asignan probabilidades a las distintas
realizaciones posibles de una variable aleatoria.
discretas Binomial, Geometrı́ca, Poisson.
continuas Uniforme, Normal, Gamma
• Número de realizaciones:∞
• Utiliza probabilidades acumuladas, No podemos calcular probabilidades puntuales.
• Funciones de densidad poblacional miden la densidad de una variable aleatoria en un
determinado rango
Momentos de una variable aleatoria
Esperanza:
E(Y ) = µy , media de Y luego de muchas realizaciones
Medida del centro de la variable o distribución
La esperanza es una propiedad de la VA, mientras que la media es una propiedad de la
muestra. Solo E(Y ) = µy luego de muchas realizaciones.
Varianza:
Var(Y ) = E
[(
Y −µy
)2]
= σ2y
Medida de dispersión de la variable o distribución
Desvı́o estandar: > sd(Y ) =
√
Var(Y ) = σy
8
CAPÍTULO 2. REGRESIÓN LINEAL 9
2.0.2. INDEPENDENCIA:
Dos variables aleatorias X e Y están independientemente distribuidas si conocer el valor de
una no brinda ninguna información sobre el valor de la otra. Es decir, A y B son independientes
si conocer lo que sucedió con B no brinda información para determinar que ocurre con A.
P (Y = y/X = x) = P (Y = y)
Si no son independientes, se utiliza el teorema de bayes:
P (A|B) = P (A|B)P (A)
P (B)
2.0.3. COVARIANZA:
Mide la dependencia lineal entre dos variables. Cov(X,Y ) : Puede ser positiva, negativa o 0.
E(X) = µx y E(Y ) = µy
V.A.: (X −µx)
(
Y −µy
)
Cov(X,Y ) = E
[
(X −µx)
(
Y −µy
)]
= σxy
Es difı́cil de interpretar: Depende de la unidad de medida.
2.0.4. COEFICIENTE DE CORRELACIÓN:
Y = salario y X = educación
Cov(X,Y ) depende de la unidad de medida
Coeficiente de correlación: Corr(X,Y ) = Cov(X,Y )sd(X)·sd(Y ) =
σXY
σXσY
Los valores se encuentran acotados −1 ≤ Corr(X,Y ) ≤ 1:
• Para el intervalo (−1,0) la correlación es negativa
• Para el intervalo (0,1) la correlación es positiva
• Cuanto más cerca esté de los extremos -1 y 1, la correlación es más fuerte.
Si X e Y son independientes, entonces el coeficiente de correlación es 0. Esto no se cumple
al revés.
Corr(X,Y ) = 0 no implica independencia (relaciones no lineales).
2.0.5. ESPERANZA CONDICIONAL:
¿Cómo cambia la distribución de los salarios con la educación?
Esperanza condicional:
Computar Y en base a cada valor x
E(Y /X = x) ◦E(Y /x)
Cómo el valor esperado de Y cambia con x
Bajo independencia: E(Y /X) = E(Y )
E( Salario / Educación ) = 1.05 + 0.45 Educación
CAPÍTULO 2. REGRESIÓN LINEAL 10
Imputo según corresponda la educación. Si es 1 año, 0, 2, etc.
Condicional en lo que tengamos como variable explicativa. por lo que la igualdad mencionada
( E[sal | educ] = β0 + β1educi) tiene como implicancia E [µ|x] = 0
Queremos explicar cual es el salario promedio para distintos niveles de educación. No
podemos ver la situación para cada caso, sino que estimamos el promedio que es lo que
hallamos sobre la lı́nea.
Tenemos presente que existe un ERROR ya que es imposible explicar la nube de puntos solo
con una lı́nea por lo que se presentan desviaciones, caracterı́sticas no observables que tienen
esperanza = 0. Entonces, que E [µ|x] = 0 significa que puntos que se encuentran por sobre
la lı́nea se cancelan con puntos que se encuentran por debajo de forma tal que en promedio
el error es nulo.
Como u y x son variables aleatorias, se puede definir la distribución condicional de u dado
cualquier valor de x. El supuesto crucial es que el valor promedio de u no depende del valor
de x. Este supuesto se expresa como
E [µ|x] = E [µ] (2.1)
El supuesto indica que el valor promedio de los factores no observables es el mismo en
todas las fracciones de la población. Cuando se satisfaceel supuesto se dice que u es media
independiente de x. (Por supuesto, la independencia de la media es una consecuencia de la
independencia entre u y x)
En el ejemplo del salario, suponiendo que µ son las capacidades innatas, entonces (2.1)
requiere que el promedio de la capacidad sea el mismo en todos los niveles de educación.
(E [capaci|8] = E [capaci|16])
Si creemos que la capacidad promedio aumenta con los años de educación tenemos que (2.1) es
FALSA. (ocurrirı́a si, en promedio, aquellos con mayor capacidad optan por mayor educación).
Como las capacidades innatas no son observables, no es posible saber la capacidad promedio
es la misma en todos los niveles de educación.
El supuesto de media condicional 0 brinda otra interpretación de β1, tomando el valor esperado
del modelo teórico, condicionado a x usando E [µ|x] = 0 se tiene lo planteado al principio:
E [µ|x] = β0 + β1x
Lo cual muestra que el promedio ponderado de todas las posibles relaciones, la función de
regresión poblacional, E [µ|x] es una función lineal de x. La LINEALIDAD significa que por
cada aumento de una unidad en x el valor esperado de y se modifica en la cantidad β1. Dado
cualquier valor de x la distribución de y está centrada en E [µ|x].
ESPERANZAS CONDICIONALES
LEY DE ESPERANZAS ITERADAS
Siendo µ una V.A cualquiera, E [µ] no condicional → E [µ] = E [E [µ|x]] puedo escribirla de
forma iterada.
CAPÍTULO 2. REGRESIÓN LINEAL 11
Primero condiciono la no condicional y si a eso le aplico la esperanza debe cumplirse:
E [µ] = E [E [µ|x]]
2.0.6. DISTRIBUCIÓN NORMAL
No da mucho peso a los valores extremos
Tiene propiedades deseables
Importancia de la distribución normal para la inferencia
f (x) =
1
σ
√
2π
exp
[
−(x −µ)2/2σ2
]
, −∞ < x <∞
Si X tiene una distribución normal con valor esperado µ y varianza σ2⇒ X ∼Normal
(
µ,σ2
)
68% de los valores están dentro de 1 desviación estándar de la media
95% de los valores están dentro de 2 desviaciones estándar de la media
99,7% de los valores están dentro de 3 desviaciones estándar de la media
Normal standar:
Para estandarizar, resto la media y luego divido por el desvı́o standar.
La media de la distribución normal estándar es cero y la desviación tı́pica es uno.
φ(z) = 1√
2π
exp
(
−z2/2
)
, −∞ < z <∞
Z ∼Normal(0,1)
2.0.7. MUESTREO ALEATORIO:
Elegimos n objetos de una población:
Y1 · · ·Yn
Misma probabilidad de ser incluidos en la muestra
Y1 · · ·Yn→ VA
Y1 · · ·Yn son iid (independientes identicamente distribuı́das)
2.1. MODELO DE REGRESIÓN LINEAL 12
Ejemplo: Las encuestas presentan un problema: No todos los individuos tienen la misma
probabilidad de ser encuestados. Por ejemplo, en las encuestas electorales la población es acotada
a los votantes y este es un grupo heterogéneo. Además, existen supuestos por detrás:
Atender, contestar, tener teléfono de lı́nea...
Esta última separa ya la población en los que pueden ser 2 grupos: jóvenes y adultos.
Podemos creer que los jóvenes no poseen teléfono de lı́nea.
Si escucha, puede haber preferencias parciales.
Es fundamental que todos tengan la misma chance de participar.
2.0.8. LEY DE LOS GRANDES NÚMEROS (LGN) y TCL
A medida que aumenta la cantidad de experimentos, en promedio, la media muestral se
acerca (tiende) a la media teórica.
plim(Ȳn) = µ
La probabilidad lı́mite con n tendiendo a infinito es la media.
Normalidad asintótica: Un estimador (media) tiene normalidad asintótica si converge
“suficientemente rápido´´ a un parámetro desconocido. Si un estimador tiene normalidad
asintótica, su distribución es aproximadamente normal a medida que la muestra se vuelve
infinitamente grande
Teorema central del lı́mite: La distribución de medias muestrales se aproxima a una
distribución normal a medida que la muestra aumenta, sin importar la distribución poblacional.
Si tomamos varias muestras de una población, la distribución de esas muestras va a seguir una
distribución normal.
2.1. MODELO DE REGRESIÓN LINEAL
Este no es el único método para estimar parámetros, Tampoco es obvio que sea el mejor:
Existe, por ejemplo, máxima verosimilitud. Pero sı́ es sencillo e intuitivo, y es con diferencia el
más utilizado en las ciencias sociales empı́ricas.
Queremos explicar una variable (dependiente) en términos de otra(s) (independiente)
Tenemos una hipótesis para resolver un problema→ Tenemos una hipótesis para algo que
queremos entender, ver si existe una relación causal entre x e y.
Queremos estimar β0 β1
x y u son VA.
2.1. MODELO DE REGRESIÓN LINEAL 13
Queremos ver el poder explicativo de x sobre y
Variables que afectan a Y y no son observables, es decir, no las tenemos en el modelo, se
encuentran dentro del término de error.
β0 : Salario cuando la educación es 0. Hay casos para los cuales no tiene una interpretación
clara. Ej: Desarrollo-PIB.
Necesitamos que nuestra variable de interés no correlacione con nada que se encuentre en
el término de error para poder lograr abordar una interpretación causal.
Residuos: Aproximan al error.
y = β0 + β1x+u
tomando la esperanza condicional en x:
E[y|x] = β0 + β1x función de regresión poblacional
Nos dice como el valor medio de y cambia con x.
2.1.1. OLS:
Estimar β1 → necesitamos que exista variación de x. Es decir, que no tome el mismo valor
para toda la muestra.
Muestra aleatoria de tamaño n, {xi , yi}ni=1
2.1. MODELO DE REGRESIÓN LINEAL 14
yi = β0 + β1xi +ui 1
fitted values: valores que vamos prediciendo a medida que estimamos.
cov(x,u) = E[(x −µx)(u −µu)]
cov(x,u) = E[xu − xµu −µxu +µxµu]
cov(x,u) = E[xu]−µu
µx︷︸︸︷
E[x] −µx E[u]︸︷︷︸
=0
+µxµu]
cov(x,u) = E[xu]
Entonces E[u|x] = E[u] donde E[u] = 0 implica que cov(x,u) = E[xu] = 0
(Se encuentra presente el supuesto de que en la población, el error no está correlacionado con las
x).
Reescribiendo los resultados:
u = y − β0 + β1x
E[u] = 0⇒ E[y − β0 + β1x] = 0
cov(x,u) = E[xu] = 0
E[xu] = E[x(y − β0 + β1x)] = 0
Vamos a elegir β̂0 y β̂1 tal que:
n−1
n∑
i=1
(
y − β̂0 + β̂1x
)
= 0
n−1
n∑
i=1
xi
(
y − β̂0 + β̂1x
)
= 0
despejo β̂0:  N∑
i=1
(
yi − β̂1xi
)
−
N∑
i=1
β̂0
 = 0⇒ N∑
i=1
β̂0 =
N∑
i=1
(
yi − β̂1xi
)
β̂0 =
∑N
i=1 yi −
∑N
i=1 β̂1xi
n
⇒ β̂0 = ȳ + β̂1x̄
Introducimos el resultado para hallar β̂1 en la segunda ecuación:
N∑
i=1
xi
[
yi −
(
ȳ − β̂1x̄
)
− β̂1xi
]
= 0
N∑
i=1
xi
[
yi − ȳ + β̂1 (x̄ − xi)
]
= 0
N∑
i=1
xi (yi − ȳ) = β̂1
N∑
i=1
xi (xi − x̄)
1Los ı́ndices denotan observaciones
2.1. MODELO DE REGRESIÓN LINEAL 15
Por propiedades:
N∑
i=1
(xi − x̄) (yi − ȳ) = β̂1
N∑
i=1
(xi − x̄)2
β̂1 =
∑N
i=1 (xi − x̄) (yi − ȳ)∑N
i=1 (xi − x̄)
2
Básicamente vemos que β̂1 =
cov(x,y)
V ar(x)
Si x e y están correlacionadas positivamente, β̂1 es positivo
Residuos , Error. ⇒ Residuos =
de y︷ ︸︸ ︷
valor efectivo−
de y︷ ︸︸ ︷
valor predicho Los residuos son una parte
del error.
OLS (MCO) busca la recta que minimice los errores, en particular, al cuadrado para
penalizar los valores extremos y para que los mismos no se cancelen entre sı́ entre positivos y
negativos y no subestimemos.
2.1. MODELO DE REGRESIÓN LINEAL 16
2.1.2. OLS vs DGP
Ejemplo 2.3 Wooldridge → [Sueldo de los directores generales (CEO) y rendimiento sobre
el capital (roe)]
salary = β0 + β1roe+u
ˆsalary = 963.191 + 18.501roe
si el rendimiento sobre el capital es cero, roe 0, entonces el sueldo que se predice corresponde al
intercepto, es decir, $963,191, dado que salary se mide en miles. Luego, el cambio que se predice
para el sueldo en función del cambio en el roe se expresa como: salary 18.501 (roe). Esto significa
que cuando el rendimiento sobre capital aumente en un punto porcentual, roe 1, se predice que
el sueldo variará aproximadamente 18.5, es decir $18,500.
Sin embargo, esto no significa que un determinado CEO, para cuya empresa roe = 30 gane
$1,518,221. Hay otros muchos factores que afectan al sueldo.
La FRP2 no podrá conocerse nunca, de manera que nose puede decir qué tan cerca están
la FRM3 de la FRP. Con otros datos de muestra se obtendrá otra lı́nea de regresión diferente, que
podrá estar más o menos cerca de la lı́nea de regresión poblacional.
DGP→mundo real donde existe una cierta relación entre salario y educ o roe
DGP no es conocido
“Realidad´´ → idea que no podemos observar y a la que nos acercamos mediante
estimadores
Simulación.
2función de regresión poblacional
3función de regresión muestral
2.1. MODELO DE REGRESIÓN LINEAL 17
2.1.3. OLS - REGRESIÓN MÚLTIPLE
Explicar la variable dependiente en función de más de una variable
2 variables independientes:
ŷ = β̂0 + β̂1x1 + β̂2x2
k variables independientes:
ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk
Interpretación ceteris paribus de los coeficientes
Separar el efecto de x1 del efecto de x2
Existe una parte de x1 que es explicada por x2 (corr , 0)
Al quedarnos con los Residuos nos quedamos con la parte de x1 que NO es explicada por x2
(corr = 0)
Usamos esto para calcular el coeficiente
“Controlar por´´ = neteamos el efecto
Las variables independientes pueden estar correlacionadas entre sı́, lo que no pueden es
estar correlacionadas con el error (sesgo por variables omitidas)
Estimación de los coeficientes para dos regresores
ŷ = β̂0 + β̂1x1 + β̂2x2
β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2
2.1. MODELO DE REGRESIÓN LINEAL 18
ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2
Se regresa la primera variable independiente, x1, sobre la segunda variable independiente,
x2 y después se obtienen los residuales (aquı́ y no interviene).
los residuales tienen media muestral cero.
ˆri1 son la parte de x1 después de que los efectos parciales de x2 han sido descontados o
deducidos.
β̂1 mide la relación entre y y x1, neteando el efecto de x2. es la estimación habitual de la
pendiente en la regresión simple.
En el análisis de regresión simple no se descuentan los efectos parciales de otras variables
porque en la regresión no se incluyen otras variables.
Estimación de los coeficientes para k regresores
ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk
β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2
ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2 + · · ·+ β̂kxk
β̂1 mide la relación entre y y x1, neteando el efecto de x2 · · ·xk
SCT = SCE + SCR
1 =
SCE
SCT︸︷︷︸
R2
+
SCR
SCT
R2 coeficiente de determinación.
R2→ y se interpreta como la proporción de la variación muestral en yi que es explicada por
la lı́nea de regresión de MCO. Por definición, es un número entre cero y uno.
aumenta cuando se agrega otra variable independiente a la regresión.
2.1. MODELO DE REGRESIÓN LINEAL 19
Que nunca disminuya cuando se agrega cualquier variable a la regresión lo hace poco
confiable para decidir si agregar una o varias variables al modelo.
2.1.4. OLS - errores estándar y varianza
Error estándar: desvı́o medio entre los datos y la recta de regresión
Medida de precisión de nuestras estimaciones
Mide cuán preciso es el estimador del parámetro poblacional (siempre positivo)
Desvı́o estándar , error estándar
Desvı́o→ estadı́stica descriptiva. Sale de la muestra.
Error estándar→ Es lo que vemos en la salida de stata.
σ2 es la varianza del término error, no es observable.
Podemos estimar σ2 para calcular la varianza y errores estándar estándar de nuestro
estimadores de OLS.
Errores vs residuos:
El término error no es observable: yi = β0 + β1xi +ui
Los residuos los podemos calcular:ŷi = β̂0 + β̂1xi + ûi
Usar los residuos ûi para estimar ui
σ̂2 =
SCR
n− k − 1
=
∑n
i=1 ûi
2
n− k − 1
σ̂ =
√
σ̂2
Entonces,
se
(
β̂j
)
=
σ̂[
SCTj · (1−R2)
]1/2
2.1. MODELO DE REGRESIÓN LINEAL 20
2.1. MODELO DE REGRESIÓN LINEAL 21
Capı́tulo 3
Continuación Regresión Lineal
3.1. TEOREMA GAUSS-MARKOV
TGM: dados los supuestos clásicos, el estimador de OLS es el mejor estimador lineal
insesgado (MELI)
Teorema sobre los estimadores, no sobre estimaciones puntuales.
Puede agregarse el supuesto de Muestreo Aleatorio, pero no es necesario para demostrar
que un estimador es MELI.
SUPUESTOS:
1. Linealidad: Requiere que la variable dependiente sea una combinación lineal de las
variables independientes y del término error.
El modelo que estimamos debe ser lineal en parámetros
Podemos incluir variables en forma no lineal. Por ejemplo, podemos incluir
transformaciones logarı́tmicas.
2. Rango k: o multicolinealidad. Es una medida del grado de asociación lineal entre variables
independientes. La multicolinealidad es perfecta cuando 1 variable independiente puede
expresarse como combinación lineal de otras. Requiere 2 condiciones:
TGM requiere que no haya multicolinealidad perfecta Ejemplos:
• Incluir como regresores el activo, pasivo y PN.
• Incluir como regresores el PIB y sus componentes
• Incluir como regresores el salario en dolares y el salario en pesos.
Siempre que la correlación entre xi y xj sea menor a 1, esta condición se cumple. En
tanto cor(xi ,xj) , 1 no se va a violar este supuesto.
Necesitamos (al menos) tantas observaciones como variables independientes. n ≥ k.
SI los supuestos 1-2 no se cumplen, OLS NO puede estimar.
3. Exogeneidad: Básicamente, que no haya variable omitida.
Supuesto: E(ui |x) = 0
Las variables independientes (x1 · · ·xk) no están correlacionadas con el término error
Este es el supuesto que nos va a ocupar a lo largo del curso
22
3.1. TEOREMA GAUSS-MARKOV 23
Si los supuestos 1-4 se cumplen, entonces el estimador es MELI.
4. ui ∼ iid (0,σ2) {
idéntica→Homocedasticidad
independiente→No correlación
Este supuesto consiste de tres partes:
E(ui) = 0
Homocedasticidad: var(ui |x) = σ2 para todo i
No autocorrelación: cov(ui ,uj |x) = 0 para todo i , j
Necesitamos que los errores tengan media 0 y varianza constante en el cross section y
en el tiempo
5. El término de error sigue una distribución normal:
3.1.1. ESTIMADOR β̂j
OLS es lineal por construcción. No hay nada ni bueno ni malo en que un estimador sea lineal.
BAJO OLS, β̂ ES INSESGADO
Formalmente, E(β̂j) = βj j = 0,1, · · · , k
Entonces, en promedio el estimador es = al parámetro poblacional.
Propiedad del estimador (variable aleatoria) no de la estimación (puntual)
¿Qué nos dice esta propiedad?
3.1. TEOREMA GAUSS-MARKOV 24
β̂j está centrado en la media poblacional.
β̂j no favorece ning ún valor que no sea el verdadero parámetro poblacional.
Estimador al rededor de cierto intervalo.
( )
βj
media
β̂j β̂j
β̂j
E
(
β̂j
)
= βj
ES EFICIENTE:
El estimador de OLS es el de varianza mı́nima entre todos los estimadores lineales insesgados.
Varianza mı́nima→más preciso.
Varianza mı́nima→ en términos del estimador.
Cada estimación es diferente entre sı́. Podemos considerar la estimación de OLS como una
VA→ la estimación se encuentra dentro de cierto intervalo tal que este sea el intervalo más
chico en esta clase de estimadores.
Varianza mı́nima no necesariamente igual a varianza baja
VARIANZA DE LOS ESTIMADORES
La varianza del estimador de OLS depende de tres cosas:
Multicolinealidad: Correlación entre variables explicativas. ¿Dónde la vemos?→ en el R2. Si
tengo algo como
y = β0 + β1x1 + β2x2 + β3x3 +u
R21 : x1 = δ0 + δ2x2 + δ3x3→ proporción explicada
• V ar
(
β̂j
)
=
σ2
SSTj
(
1−R2j
)
• Donde SSTj =
∑n
i=1
(
xij − x̄j
)2
es la variación total en xj ; R
2
j es el R
2 de regresar xj sobre
todas las otras variables independientes y σ2 es la varianza del término error.
◦ Si x1 y x3 están altamente correlacionadas, x3 explica gran parte del movimiento
de x1 ⇒ R2 muy alto. Si esto es ası́, SSTj =
∑n
i=1
(
xij − x̄j
)2
se encuentra cerca de
cero pero tira la varianza para arriba.
◦ Si R2 = 1⇒ indefinida V ar
(
β̂j
)
Micronumerosidad (Goldberger. 1991): tamaño de la muestra, y variación en xj ⇒ afecta la
estimación.
• Mientras mayor es n, más cosas sumamos y el SST se vuelve más grande. Como se
ecuentra en el denominador de la varianza, entonces su estimación se vuelve más
3.1. TEOREMA GAUSS-MARKOV25
precisa.
Macroestupidez (Sosa Escudero, 2015): tamaño de la varianza del error
• Si puedo incluir más cosas en la regresión entonces las saco del término de error.
Mientras más pueda explicar nuestro modelo la variable dependiente, más precisa se
vuelve la estimación de la varianza.
3.1.2. Violación de los supuestos:
1. Linealidad: Problema: el estimador de OLS no está definido, por lo tanto, simplemente no
podemos aplicar OLS. La solución es proponer una estimación lineal.
2. Rango k: El problema es el mismo que en el caso anterior. La solución, para este caso es:
No incluir un conjunto de xi que sea una función lineal de algunas(s) otras xj (var.
explicativas) para todo i , j
Ante estos problemas, stata dropea una variable.
Con multicolinealidad alta pero no perfecta no viola ningún supuesto del TGM, aún
OLS es MELI. Podemos ver el grado de correlación entre nuestras variables explicativas. La
consecuencia es que aumenta la varianza de las estimaciones, por lo que pierdo precisión e
implica un IC más grande.
3. ui ∼ iid
(
0,σ2
)
: Problema→ el estimador de OLS es insesgado (y consistente), pero no tiene
varianza mı́nima. (es decir, no es eficiente)
Dejemos E(ui) = 0 de lado, por ahora
Si la varianza no es constante en el cross section (corte transversal, es decir, entre
individuos), heterocedasticidad. Aparece cuando un modelo explica mejor algunas
observaciones que otras.
Solución: usar errores stándar robustos (Huber-White). Corrección sobre la varianza.
Si la varianza no es constante en el tiempo, autocorrelación o correlación serial→ el
término de error en t correlacionado con un término en t+k
Solución: usar errores estándar robustos a la autocorrelación (Newey-West Standard
Error) o clustereados
¿Cuán problemático es todo esto?
3.1. TEOREMA GAUSS-MARKOV 26
• No mucho en la literatura aplicada, siempre que se corrija usando errores estándar
robustos o clustereados
• Como punto de partida se presupone que hay heterocedasticidad en cross section
y correlación serial en paneles
4. Exogeneidad: Problema: el estimador de OLS no es insesgado ni consistente
Supongamos que el DGP es y = β0 + β1x1 + β2x2 + β3x3 y que Cov (x1,x3) , 0
Proponemos yi = β0 + β1x1i + β2x2i +ui
ui incluye x3. Afecta al GDP y no está incluida en la regresión.⇒ x3 variable omitida⇒
no se cumple el supuesto. Estimación sesgada.
No podemos mover x1 dejando todo lo demás constante, ya que al mover x1 estamos
moviendo x3 que no está controlada en el modelo. Como 2 cosas que afectan y se están
moviendo al mismo tiempo no podemos saber cuál es la responsable del cambio en la
variable dependiente.
Esto no solo afecta la interpretación de β̂1, sino de todos los coeficientes estimados.
Recordar que β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2 donde ˆri1 son los residuos de una regresión de tipo
x1 = β̂0 + β̂2x2
Dado que x3 está omitida no podemos netear su efecto.
CAUSAS DE LA ENDOGENEIDAD: Variables omitidas, simultaneidad (causalidad
reversa) y error de medición:
• En la variable dependiente: afecta eficiencia (si tiene media 0) y sesgo en β0 (si
media distinta de 0)
• En la variable independiente: error de medición no correlacionado con u, afecta la
eficiencia.
• En la variable independiente: error de medición correlacionado con u, attenuation
bias (estimadores sesgados e inconsistentes)
¿Cuán probable es que este problema ocurra?→Muy probable.
¿Cuán problemático es todo esto? → Muy problemático: Deja de ser insesgado. Sesgo
muy grande. Ej: fumadores y no fumadores. Es muy probable que ocurran problemas
de edogeneidad dado que un contexto de agentes racionales que maximizan sus
decisiones hace que todo se relacione con todo→ sistema económico interdependiente.
3.1. TEOREMA GAUSS-MARKOV 27
Los consumidores toman decisiones en base a sus preferencias, variables macro, etc.
¿Y si otros regresores son endógenos? Aleatorización no es igual a controlar por todo,
pero nos permite obtener un estimador insesgado y consistente para ese regresor
(Angrist y Pischke, 2015)
3.1.3. INFERENCIA:
El TGM necesita los cuatro primeros supuestos para que el estimador de OLS sea MELI.
Inferencia → sacar conclusiones sobre población a partir de muestra. Es para esto que
necesitamos el supuesto de normalidad.
TGM: Error Normal
u|x ∼Normal
(
0,σ2
)
La varianza tiene que ser constante, no necesariamente igual a 1
Si asumimos normalidad estamos asumiendo exogeneidad y ui ∼ iid
(
0,σ2
)
(no viceversa)
TEST DE HIPÓTESIS:
βj es un parámetro poblacional, por ende desconocido.
Insesgadez NO implica que β̂j = βj
Dados nuestros datos y estimaciones, podemos hacer conjeturas sobre β1 ( Solo sacamos
conjeturas de lo que podrı́a estar pasando con β1) y testearlas.
Si rechazo⇒ coeficiente significativo
Significatividad: juicio sobre correlación por fuera de la muestra.
Si la correlación es muy fuerte, es poco probable que fuera de la muestra no haya relación.
Si la correlación es baja, es probable que no haya relación.
3.1. TEOREMA GAUSS-MARKOV 28
Distribución t de los estimadores de OLS:
β̂j − βj
se
(
β̂j
) ∼ tn−k−1 = tdf
3.1.4. P-VALOR
Los p-valor son una medida de significatividad de nuestros β̂j
Si un coeficiente es significativo, tenemos confianza en que hay una correlación entre estas
variables a nivel poblacional.
p-valor responde a la siguiente pregunta: “¿cuál serı́a la probabilidad de encontrar una
correlación tan fuerte como la de nuestra muestra, si en la población la correlación entre estas
variables fuese 0? ´´
3.1. TEOREMA GAUSS-MARKOV 29
Significatividad ,magnitud del coeficiente.
3.1.5. INTERVALOS DE CONFIANZA
Significatividad del 5% implica IC del 95%
Construimos IC para βj
β̂j ± c · se
(
β̂j
)
Obtenemos un lı́mite inferior βj y un lı́mite superior bj
Si tomásemos múltiples muestras, el valor poblacional (desconocido) estarı́a entre βj y bj el
95% de las veces.
Si el IC incluye al 0, el 95% de las veces caerı́a cerca o podrı́a ser 0⇒ no serı́a significativo
Variables instrumentales solucionarı́a el sesgo en términos causales, no estadı́sticos.
3.1.6. LA SIGNIFICATIVIDAD DE β̂j
Alta significatividad:
Altos estadı́sticos t
Bajos p-value
IC estrechos y lejos de 0
Todos estos conceptos están relacionados. Podemos testear múltiples hipótesis además de
H0 : βj = 0.
3.1.7. F TEST:
Los estadı́sticos F nos permiten nos permiten testear hipótesis sobre múltiples parámetros
H0 : β1 = β2 = · = βk = 0
Testear la significatividad de la regresión
H1 se cumple cuando al menos un coeficiente es significativo.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 30
3.2. PROPIEDADES ASINTÓTICAS DE OLS:
La insesgadez es una propiedad de nuestras finitas
El estimador de OLS tiene otras propiedades deseables que se cumplen cuando n tiende a
infinito.
Una muestra grande es una convención. No sabemos con certeza QUÉ ES una muestra
grande.
3.2.1. CONSISTENCIA:
Bajo los supuestos clásicos, β̂j es consistente
V.I→ no son insesgados, si consistente.
β̂j →p βj
limn→∞P r
(
|β̂j − βj | < ϵ
)
= 1 para cualquier real positivoϵ
ϵ → determinado parámetro real positivo, pero pequeño. A medida que aumenta n, OLS
converge al valor poblacional.
La distribución de β̂j se va estrechando al rededor de βj , colapsando en el infinito a βj
Si falla exogeneidad, β̂j es inconsistente. El sesgo persiste aunque aumentemos el tamaño
de la muestra.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 31
Sesgo en términos causales de variables omitidas persiste aún con n tendiendo a infinito.
No solucionable aumentando n.
3.2.2. NORMALIDAD ASINTÓTICA
Para nuestras estimaciones vamos a usar Stata
Las tablas de Stata incluyen toda la información que necesitamos
Luego las ponemos más presentables, como en los ejemplos anteriores.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 32
Capı́tulo 4
EXPERIMENTOS ALEATORIOS
La mayorı́a de los programas se diseña y luego se implementa en un entorno complejo y
cambiante, donde diversos factores pueden influir en los resultadostanto de los participantes
del programa como de aquellos que no participan. Las sequı́as, los terremotos, las recesiones,
los cambios de gobierno y los vaivenes de las polı́ticas nacional e internacional forman parte del
mundo real. En una evaluación, se debe asegurar que la estimación del impacto del programa
siga siendo válida a pesar de esta diversidad de factores.
Se analizará un método que se asemeja a un sorteo y que decide quién participa en un
programa en un determinado momento y quién no: el método de asignación aleatoria. No solo
proporciona a los administradores del programa una regla imparcial y transparente para asignar
recursos escasos entre poblaciones igualmente merecedoras de ellos, sino que también representa
el método más sólido para evaluar el impacto de un programa.
4.1. ASIGNACIÓN ALEATORIA:
D→ variable dummy
Caso más sencillo: Tratamiento (D=1) y un control (D=0)
En muestras grandes, la asignación aleatoria resuelve el problema de endogeneidad
Ambos grupos estadı́sticamente equivalentes (en promedio)
La muestra aleatoria preserva los rasgos de la población.
Los tratados deben ser indistinguibles de los controles y ambos de la población.
Ya sea la muestra representativa o no de la población, la asignación aleatoria funciona igual.
Otra cosa es si lo descubierto es extrapolable o no a la realidad.
Utiliza un proceso aleatorio, o el azar, para decidir a quién se le concederá acceso al
programa y a quién no. Todas las unidades elegibles tienen la misma probabilidad de ser
seleccionadas para un programa. A demás, se asegura de que el programa no sea asignado con
criterios arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prácticas injustas.
Las limitaciones presupuestarias pueden impedir que los administradores ofrezcan el
programa a todas las unidades elegibles desde el comienzo.
Las limitaciones de capacidad a veces impedirán que un programa pueda ser implementado
para todos al mismo tiempo.
Ej: programa de formación profesional para jóvenes, la cantidad de jóvenes desempleados
que desean obtener una formación profesional puede ser superior al número de plazas
disponibles.
Los administradores del programa deben definir un mecanismo de selección: podrı́a ser un
sorteo.
33
4.1. ASIGNACIÓN ALEATORIA: 34
Grupo de comparación ideal: lo más similar posible al grupo de tratamiento en todos los
sentidos, excepto con respecto a su participación en el programa que se evalúa.
Asignación aleatoria → producirá dos grupos → alta probabilidad de ser estadı́sticamente
idénticos, siempre que el número de unidades potenciales a las que se aplica el proceso de
asignación aleatoria sea suficientemente grande. → con muestras grandes → el proceso de
asignación aleatoria producirá grupos que tienen promedios estadı́sticamente equivalentes en
todas sus caracterı́sticas.
4.1.1. CONTRAFÁCTICO
El grupo de control es el contrafáctico del tratamiento
Confianza en el método → Buen contrafáctico = buena aproximación a lo que hubiese
pasado con los tratados en ausencia del tratamiento
Asignación aleatoria produce los contrafácticos más fuertes
En promedio, la asignación aleatoria deberı́a igualar a los grupos. Sirve para mostrar que la
A.A se hizo bien⇒medidas similares entre grupos.
Balance entre tratados y controles:
Evidencia (no demostración) de que los grupos son comparables→ no demostración porque
no podemos medir y comparar todas las variables de interés.
Asignación aleatoria iguala en observables y no observables
Mostrar que la randomización se hizo bien
Si la nuestra es lo suficientemente grande, el mecanismo de asignación aleatoria asegura
que cualquier caracterı́stica de la población se transfiera tanto al grupo de tratamiento como
al control. Del mismo modo que las caracterı́sticas observables, variables no observables, como
la motivación, preferencias u otros rasgos de la personalidad, también se aplicarán por igual
al grupo de tratamiento y al de comparación. → grupos generados por asignación aleatorias = en
caracterı́sticas observables y no observables.
Tener dos grupos similares en todos los aspectos asegura que la estimación del
contrafactual se aproxime al valor verdadero del resultado en ausencia de tratamiento, y que
una vez que el programa se haya implementado, las estimaciones de impacto no sufrirán un
4.1. ASIGNACIÓN ALEATORIA: 35
sesgo de selección.
4.1.2. Implementar asignación aleatoria:
Mecanismo: Sorteo, software, otros→ DNI. Si bien el número no es aleatorio (según como
empiece podemos diferenciar edades) lo que sı́ es aleatorio es el último dı́gito. Sobre este,
podemos hablar de terminación par-impar. Esto es difı́cil de justificar que se encuentre
relacionado con algo aunque no sea estrictamente aleatorio.
Importante: Importante: que todas las unidades tengan la misma chance de ser asignadas
al tratamiento o al control
No deben existir unidades que se encuentren más cerca, por sus propias caracterı́sticas, de
un grupo que de otro.
Aleatoriedad implica exogeneidad
Población vs muestra:
• Asignación aleatoria garantiza validez interna, aun en muestras no representativas
• La representatividad de la muestra afecta la validez externa
Efecto hallado → efecto causal real (Validez interna) significa que el impacto estimado del
programa es el impacto libre de todos los demás factores de confusión potenciales.
La validez externa es la capacidad de externalizar el resultado. quiere decir que la muestra
de la evaluación representa con precisión a la población de unidades elegibles.
A veces la asignación aleatoria no está a cargo del investigador
• En el mundo real, habiendo consecuencias, el individuo tiene incentivos a influir. Ej:
Si sale cara, vas a vietnam. Entonces tenes incentivos a hacer todo lo posible para que
salga seca.
Puede ser necesario defender más la randomización.
Dal Bó y Rossi (2011): Los legisladores se renuevan por tercios. El control es la parte que
no se renueva de la cámara.
• No diferencias observables entre ambos grupos
4.1. ASIGNACIÓN ALEATORIA: 36
• Regresión de la probabilidad de estar en un grupo con respecto a caracterı́sticas
pre-tratameinto→ F test no significativo
• Regresión para predecir el esfuerzo en base a observables. Esfuerzo explicado por
observables no relacionado con el grupo al que fueron asignados.
¿Cuándo puede aplicarse la asignación aleatoria?
1. Cuando la población elegible es mayor que el número de plazas disponibles del programa.
2. Cuando sea necesario ampliar un programa de manera progresiva hasta que cubra a toda la
población elegible. Cuando un programa se extiende por etapas, establecer de forma aleatoria
el orden en el que los participantes se benefi cian del mismo ofrece a cada unidad elegible
la misma posibilidad de recibir tratamiento en la primera fase o en una fase posterior.
Capacitar enfermeras me lleva 3 años. 1/3 del total lo capacito en el primer año. 1/3 en el
segundo y el último tercio en el tercer año.
Cómo asignar aleatoriamente el tratamiento
1. Definir las unidades elegibles: dependiendo del programa concreto, una unidad podrı́a ser
una persona, escuela, una empresa, todo un pueblo o una municipalidad. La población de
unidades elegibles está compuesta por aquellos para los cuales interesa conocer el impacto
de un programa.
2. Seleccionar la muestra de evaluación: unidades elegibles > requeridas ⇒ seleccionar una
muestra de unidades a partir de la población que se incluirá en la muestra de evaluación.
3. Asignar aleatoriamente al tratamiento: Asignación aleatoria entre tratamientos y controles.
¿A qué nivel se lleva a cabo una asignación aleatoria?
La asignación aleatoria puede llevarse a cabo en diversos niveles: indivi- dual, hogares, empresas,
comunidades o regiones.
4.1.3. Estimación del efecto causal:
En el caso más sencillo, podemos comparar medias.
Dado que los grupos son comparables, cualquier diferencia es adjudicada al tratamiento.Para estimar el impacto de un programa bajo la asignación aleatoria, se debe observar la
diferencia entre el resultado bajo tratamiento (el resultado medio del grupo de tratamiento
asignado de forma aleatoria) y nuestra estimación del contrafactual.
Lista de verificación: la asignación aleatoria
¿Están equilibradas las caracterı́sticas de la lı́nea de base? Deben compararse las caracterı́sticas
de lı́nea de base del grupo de tratamiento y del grupo de comparación.
¿Se ha producido algún incumplimiento con la asignación? Se debe verificar si todas las
unidades elegibles han recibido tratamiento y que no haya unidades no elegibles que hayan
recibido tratamiento. Si ha habido incumplimiento, tendrá que utilizarse el método de
variable instrumental
¿Son suficientemente numerosas las unidades en los grupos de tratamiento y comparación? Si no,
serı́a necesario combinar la asignación aleatoria con diferencias en diferencias
¿Hay algún motivo para creer que los resultados en algunas unidades de alguna manera
dependen de la asignación de otras unidades? ¿Podrı́a haber un impacto del tratamiento en
las unidades del grupo de comparación?
4.2. TRATAMIENTOS MÚLTIPLES: 37
4.1.4. Regresión
yi = α + βDi +ui
Di → asignación al tratamiento. i denota cada observación.
Regresión lineal, no multicolinealidad perfecta, estimador OLS, Di es exógeno, ⇒ β̂ es el
efecto causal de D sobre y. (insesgado - consistente)
Di no está correlacionada con nada (no hay sesgo por variables omitidas), ¿Incluı́mos
controles?
• Podemos reescribir incluyendo un conjunto de variables de control X para que nos
ayude a hacer mejor nuestra estimación.
yi = α + βDi +λXi +ui
• En experimentos aleatorios la inclusión de controles relevantes aumenta la precisión
(reduce errores estándar)
• Sin embargo, incluir controles produce un efecto ambiguo sobre la varianza
var
(
β̂
)
=
σ2
SSTj
(
1−R2D
)
SCTj =
∑n
i=1
(
Di − D̄j
)2
es la variación total en D.
R2D es el R
2 de regresar D sobre todas las otras variables independientes
σ2 es la varianza del término error.
Di aleatorio ⇒ baja correlación con controles que incluimos. R2D muestra cuanta variación
de Di es explicada por todas las otras variables independientes. R2 chico.
R2D chico→
(
1−R2D
)
↑⇒↓ varianza
Si la correlación fuese alta R2D aumenta→
(
1−R2D
)
↓⇒↑ varianza
σ2 Quitar variables del término error reduce la varianza. Si los controles explican poco a y
¿Cuanto saca del error? la varianza baja poco.
La estimación cambia poco por la forma de estimar OLS donde r son los residuos. Como D
es aleatorio, incluir controles no tiene gran poder explicativo sobre D por lo que no modifica r.
4.2. TRATAMIENTOS MÚLTIPLES:
Con asignaciones aleatorias, podemos estimar más de un tratamiento fácilmente
4.3. HETEROGENEIDAD 38
Todos los tratamientos deben ser aleatorios
Testear diferentes hipótesis o partes de un programa
Podemos usar test de hipótesis para comparar los efectos
• yi = α + β1D1i + β2D2i +γXi +ui
• H0 : β1 = β2 ver si el efecto es el mismo o si es estadı́sticamente indistinguible
D1 medicamento 1 y D2 medicamento 2 y grupo de control.
D1 = 1 - D2 = 0 /// D1=0 - D2=1
Para el caso de medicamentos es raro que se de conjuntamente D1 = D2 = 1. Por otro lado,
para el caso de la ayuda social donde se tiene como tratamiento recibir transferencia o bolsa
(especies) , pueden darse ambos.
AUH→ Tarjeta de beneficios que no es utilizada tanto como se esperarı́a.
Las hipótesis son no excluyentes. Formas de racionalizar el problema.
La unidad de análisis es el individuo.
Variable dependiente: Uso de la tarjeta (dicotómica)
8 tratamientos
4.3. Heterogeneidad
Útil para separar hipótesis. Ej: zonas con mucho posnet vs poco.
4.4. INFERENCIA 39
4.3.1. Survey experiments
Experimentos dentro de una encuesta
Efecto de presentar distintos tipos de información.
Rho y Tomz (2017) analizan el efecto de proveer información sobre las percepciones individuales
respecto al proteccionismo
• Problema: actitudes hacia comercio exterior no parecen depender de consideraciones
materiales. Obrero vs analista actitud similar.
• Pregunta: cómo cambiarı́an estas opiniones si los individuos conocieran má sobre las
consecuencias distributivas del comercio internacional?
Cuatro grupos:
• T1: información sobre perdedores y ganadores (quien perdió su trabajo y quien no)
• T2: información sobre ganadores
• T3: información sobre perdedores
• C: ninguna información.
Heterogeneidad entre graduados universitarios y no graduados
Muestra: Amazon Mechanical Turk. Aproxima caracterı́sticas de la población
Experimento: miden variables pre-tratamiento, se asignan los tratamientos aleatoriamente,
se mide la variable dependiente.
Resultados:
• Respuesta egoı́sta: más favorable al proteccionismo cuando beneficia a tu grupo
• Respuesta altruista: más favorable al proteccionismo cuando hay beneficios
• Respuesta egoı́sta más fuerte
Cosas a tener en cuenta: validez externa, contexto del experimento (lo que dicen vs lo que
harı́an), la duración de estos efectos.
• Lo que piensan antes sobre el COMEX deberı́a ser igual entre individuos. Se pregunta
qué es lo que creen, no lo que hacen.
• Ej: Cambio climático. Video border. ¿Reciclás? Obvio. de ahı́ a que lo haga en su casa,
es otra cosa.
• También importa la duración de los efectos. Puede ser que llegue a la casa y recicle,
pero eso perdura en el tiempo?
4.4. INFERENCIA
En cross section asumimos heterocedasticidad→ Errores estándar robustos - IC más anchos.
¿Y si tenemos clustered estandard errors?→Cluster: Cuando tenemos subgrupos que entre
sı́ son más parecidos.
• Esto ocurre cuando subgrupos de nuestras observaciones (clusters) están relacionados
entre sı́
• Por ejemplo: en una muestra de n alumnos en m escuelas, los alumnos dentro de cada
m están relacionados
4.4. INFERENCIA 40
Errores standar más altos→ t más bajo→ p-valor más alto⇒más difı́cil hallar un resultado
significativo.
¿Qué hacemos con los errores standar?¿A qué nivel se asigna el tratamiento? → Ej:
muestra alumnos. El nivel es el curso, por lo que el tratamiento es a nivel profesor. Hay que
clusterear errores a nivel del curso.
Supongan que asignamos aleatoriamente un tratamiento D entre un grupo de n individuos:
para n/2 D=1 ; para n/2 D=0
La asignación del tratamiento es individual.
¿Deberı́amos clusterear los errores estándar? → Depende, un momento del tiempo o
varios? para 1 momento del tiempo: NO.
• De hacerlo, si tuviesemos 1000 individuos en 1 solo momento del tiempo, tendrı́amos
1000 clusters, por lo que no estarı́amos agrupando nada. Es equivalente a errores
standar rubustos.
• Si contaramos con varios momentos de tiempo→ nivel individual→ 1000 personas x
10 años → 10.000 observaciones. Cluster individual por cada individuo → 10 obs, 1
por cada año de cada individuo.
Errores intra-cluster se encuentran más correlacionados porque cada uno mide 1 persona.
Lo que pase conmigo en t+1 está más relacionado conmigo en t que con otro individuo en
cualquier momento del tiempo.
Más utilizado el caso de varios momentos del tiempo para datos en panel. En cross-section
depende de la forma y del nivel en que se asigne el tratamiento clusterizar o no.

Continuar navegando