3) evaluación de impacto-1-41

Sociología

•
SIN SIGLA

Marcos A.
21/12/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Sociología

103.075 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Universidad de Buenos Aires
Facultad de Ciencias Económicas
Tópicos de Microeconomı́a: Evaluación de
Impacto
Alumna: Valentina Lovazzano
Profesor: Juan Pablo González
Intensivo invierno 2023
Capı́tulo 1
INTRO A LAS RELACIONES CAUSALES
Introducción a la inferencia causal y a los métodos empı́ricos experimentales y cuasi
experimentales
Identificación causal
Variable causal→ variable independiente
Testeo de hipótesis crucial para el avance del conocimiento cientı́fico (recuerden a Karl
Popper)→ Criterio para separar hipótesis buenas de malas. Las hipótesis implican muchas
veces relaciones causales por lo que el testeo debe ir en la misma lı́nea.
1.1. DATOS Y CORRELACIONES
Datos→ insumo fundamental de la estadı́stica y, más general, del testo de hipótesis
Variable → instrumento que representa una propiedad o fenómeno. Representa una
caracterı́stica de la realidad.
La correlación entre dos variables mide el grado de asociación entre ambas. La correlación
puede ser positiva o negativa, más fuertes o más débiles.
• Ejemplo: Temperatura y consumo de helado→ débil.
• Ejemplo: venta de zapato izquierdo y venta de zapato derecho→ fuerte.
Los datos y correlaciones son observables
Hacemos Hipótesis sobre eventos o fenómenos del mundo real para explicar y predecir
Tester hipótesis usando correlaciones y datos tal que Testeamos con observaciones. Las hipótesis
presentan relaciones causales, no correlaciones y la causalidad es NO observable. → No podemos
observar que A causa B por lo que se da un descalce entre la teorı́a y la forma en que testeamos.
Por lo tanto,
¿Qué podemos hacer, con los datos y correlaciones, para hacer un testeo confiable?
Desarrollo y democracia: Ejemplo
1. Pobres: incentivos a la apertura de la polı́tica, no tienen los medios
2. Nobles: no incentivos a la apertura, si los medios.
3. Nace la clase media tienen incentivos y medios para lograr el objetivo.
que nos dice esta correlación?
1
1.1. DATOS Y CORRELACIONES 2
H1: Riqueza → Democracia (Lipset, 1959). El surgimiento de la clase media supone un
incremento de la riqueza por lo que se plantea esta hipótesis.
H2: Democracia → Riqueza. Otra opción es entender que los derechos de propiedad son
importantes para motorizar la inversión por lo que se plantea H2.
H3: Tercer variable (sistema legal, cultura)→ Democracia y Riqueza
Los conjuntos de datos o correlaciones son compatibles con múltiples hipótesis. No hay un
certeza sobre la dirección de la causalidad.
1.1.1. CAUSALIDAD:
Principios sobre causalidad (Holland, 1986):
1. El efecto de una causa siempre es relativo al de otra causa
Realizar una comparación para hablar de causalidad (entre al menos 2 cosas). Comparo
contra una categorı́a base o puedo comparar contra la ausencia de (ej. universitario o no
universitario)
2. Problema fundamental de la inferencia causal: no podemos estimar efectos individuales
No podemos hablar de efectos causales individuales, sino de efectos causales en promedio.
3. Mover una variable a la vez→ “comparar comparables´´
Existen diferencias, existen caracterı́sticas no observables (habilidad, motivación, etc). Si
trataramos a un grupos de individuos (universitarios - no universitarios) como iguales,
es decir, si los universitarios no fuesen a la universidad, dirı́amos que ganarı́an lo mismo
que un no universitario y eso no es ası́. Estos grupos no son comparables porque poseen
diferentes caracterı́sticas que son no observables que podrı́an también explicar el salario
⇒ requerimos aislar la educación universitaria de estas caracterı́sticas no observables que
puedan afectar el salario.
1.1. DATOS Y CORRELACIONES 3
1.1.2. SESGO DE SELECCIÓN:
Nos preguntamos,¿Fumar, es bueno para la salud?
Claramente sabemos que no, pero esta tabla parece decirnos lo contrario.
Las variables edad y fumador están correlacionadas → no estamos comparando
comparables
Vemos que hay dimensiones en las que se diferencian los fumadores de los no fumadores:
LA EDAD.
Esto es un problema para la comparación entre los grupos.
Vemos que Lo que es bueno para la salud es ser joven. Ser joven más que compensa el efecto
negativo de fumar.
Sesgo de selección = endogeneidad = variable omitida
Efecto del consumo de agua (X) sobre la salud (Y)
Variable dependiente Y es afectada por otras variables (atención médica) además de X→ no
hay problema de selección
Variable independiente X está correlacionada con otras variables (temperatura) ademas de
Y→ no hay problema de selección
Variable independiente X está correlacionada con otras variables que afectan a la
dependiente Y (ejercicio)→ problema de selección
1.1. DATOS Y CORRELACIONES 4
Disgresión: Causalidad reversa o simultaneidad
Cuando vemos que 2 variables se mueven juntas pero no sabemos cual es la causa y cual el
efecto.
Problema poco común
Se resuelve aplicando los mismos métodos que para variables omitidas.
1.1.3. LÍMITES DEL CONTROL:
Ejemplos anteriores controlamos por ser fumador o por hacer ejercicio. ¿Por qué no
controlar siempre?
Variables omitidas que conocemos y podemos medir
Variables omitidas que conocemos, pero son difı́ciles de medir
Variables omitidas que no conocemos
La inclusión de variables de control tampoco es inocua (Aronov y Sammi, 2016)
1.1.4. LEAMER (1983)
Resumen del paper.
Leamer critica al análisis empı́rico de la época
Sensitividad a cambios en las especificaciones de los modelos econométricos
Experimentación es el ideal, pero no es posible en economı́a (al menos fuera del laboratorio)
propone Análisis de sensitividad
Riquza y democracia: ejemplo
En primer instancia, el PIB es significativo para explicar el desarrollo de una democracia. Sin
embargo, si empezamos a controlar por otras variables como recursos naturales, capital humano
vemos que el impacto del producto deja de ser significativo y si incorporamos restricciones
judiciales el producto se vuelve significativo pero con una relación negativa. Por lo tanto la
relación no es clara.
1.1. DATOS Y CORRELACIONES 5
1.1.5. ENFOQUE EXPERIMENTAL:
La solución de la identificación causal , análisis de sensitividad
Aleatorización del tratamiento:
Nos podemos valer de la Ley de los Grandes Números, las probabilidades se cumplen en el
infinito.
Podemos entender a las probabilidades como juicios sobre el futuro. La probabilidad es
casos interés
casos totales
para el caso de un dado, 1/6. la probabilidad de sacar 4 en mi próxima tirada
es 1/6→ juicio de valor.
La aleatoriedad elimina el problema, vemos limpio el efecto causal.
Variable aleatoria no correlacionada con nada por definición
Buscamos mecanismos que puedan asignar de forma aleatoria tal que es posible hacer comparable
distintos grupos.
Cuando los grupos son más grandes, el grupo de tratamiento y el de control tienden a ser
iguales.
1.1.6. EXPERIMENTOS DE CAMPO:
Organismos internacionales y gobiernos para evaluar polı́ticas publicas.
Experimento de campo: Implica salir a la realidad.
Ejemplo: PROGRESA plan de transferencias condicionadas en méxico
El investigador realiza una asignación aleatoria del tratamiento en la realidad. A un grupo
brinda la transferencia y a otro no.
Emily y Lakisha: ejemplo
Bertrand y Mullainathan (2004)
¿Personas de distintas razas son comparables? → NO. La Raza no se puede asignar
aleatoriamente.
El tratamiento es el nombre en los cvs (Emily vs Lakisha, Greg vs Jamal).
La única diferencia en los cvs es el nombre → de esta forma podemos estar seguros si
hay o no discriminación. Personas de diferentes razas no son comparables (EEUU historia de
1.1. DATOS Y CORRELACIONES 6
segregación tal que las diferencias pueden darse por diferencias en la educación, etc). En este
caso, hay control sobre la situación experimental (el investigador puede armar los cv como
quiera).
Ventajas:
Solucionan el problema de endogeneidad vı́a asignación aleatoria
Control sobre la situación experimental
Potenciales problemas:
Impedimentos logı́sticos, de costos y éticos.Para las ciencias sociales, hay una cantidad
limitada de fenómenos que podemos estudiar, hay ciertos experimentos que no es ético
realizarlos (ejemplo: loterı́a para ir a la guerra. Lo hacen los gobiernos pero no investigador
no podrı́amos)
Contexto artificial
EXPERIMENTOS NATURALES CON ALEATORIEDAD:
Experimento natural→ situación en la realidad que permite ser analiza como si fuese un
experimento donde Asignación del tratamiento es aleatoria, pero no está a cargo del investigador .
Loterı́as y sorteos:
Efectos de un aumento en los ingresos (Imbens et al, 2001; Kuhn et al, 2011)
Efecto de cuotas de género en la representación polı́tica (Chattopadhyay y Duflo 2004;
Bhavnani 2009)
Efectos de servir en el ejercito o realizar el servicio militar (Angrist, 1990; Erikson y Stoker,
2011; Galiani et al, 2011; Goodman e Isen, 2020)
El tratamiento es asignado por una necesidad que opera en la realidad, no porque lo hicimos
nosotros.
Ventajas:
Solucionan el problema de endogeneidad vı́a asignación aleatoria
Ocurren en el mundo real
Potenciales problemas:
Estas situaciones son muy poco frecuentes
Puede haber dudas sobre los sorteos (Rossi, 2014)
1.1.7. AS IF RANDOM
Encontrar una asignación aleatoria en el mundo real es difı́cil. Muchos problemas no
pueden estudiarse diseñando un experimento aleatorio
El enfoque as if random:
1.1. DATOS Y CORRELACIONES 7
Situaciones con ciertas caracterı́sticas que, analizadas con las herramientas correctas,
pueden generar estimaciones causales
Estrictamente no necesitamos aleatoriedad de la variable independiente, necesitamos
exogeneidad. que sea exógeno (no endógeno). El problema es que esté correlacionado con
variables que afectan a la dependiente.
Si el tratamiento no está correlacionado con ninguna otra variable que afecta a nuestra
dependiente, no hay problema de selección.
1.1.8. EXPERIMENTOS NAT SIN ALEATORIEDAD
La mayor parte del trabajo empı́rico en economı́a se dedica a estudiar este tipo de
experimentos naturales. Hay casos donde aún sin aleatoriedad es exógeno, tal que podemos
hablar de aleatoriedad.
Hacer el punto de que nuestro tratamiento es exógeno (aunque no necesariamente aleatorio):
Desastres naturales o eventos climáticos: Egan y Mullin (2012)
Eventos socio/polı́ticos: Michalopoulos y Papaioannou (2016)
Caracterı́sticas institucionales: Levitt (1997)
1.1.9. CONTRAFÁCTICOS:
En sı́ntesis, necesitamos un contrafáctico: Preguntarnos Qué hubiese pasado con los tratados
en ausencia del tratamiento? Qué hubiese pasado con el salario de los individuos si no hubiesen
ido a la universidad?
Tenemos un grupo de control el cual será nuestro contrafáctico. Por eso nos interesa la idea de
que los grupos sean comparables para que sean un buen contrafáctico.
El contrafáctico no es observable, pero vamos a ver herramientas para hacernos una idea de
lo que hubiese ocurrido en esta situación hipotética
Algunas otras cuestiones
Esta literatura observa Efectos parciales. No preocupa dar cuenta de todos los determinantes
de la dependiente, sino 1 y que sea confiable.
1. Validez Interna: Confianza en nuestras propias estimaciones, en lo que pasa dentro de la
muestra.
2. Validez externa: Capacidad para extrapolar los datos hacia otras unidades. (es más
complejo, refiere a algo que no tengo).
Discusiones:
Método experimental→ trade-off→ puedo obtener más de 1 a costa de 2 y viceversa.
Dufló → La validez externa es importante pero antes tiene que venir la validez interna.
Decir que existe un trade-off es decir que podes tener mucho de 2 y poco de 1, esto tiene
poco sentido (es decir, querer extrapolar algo con poca validez interna). Es importante
asegurarnos de que lo que tenemos está bien estimado.
Capı́tulo 2
REGRESIÓN LINEAL
2.0.1. Introducción:
Variables aleatorias: Instrumento. representan los posibles resultados de un proceso
aleatorio asignándoles un valor. Son formas de mapear resultados de procesos aleatorios. No
necesariamente hablamos de algo randomizado (ej: valor del dolar).
No podemos definir su valor con certeza. Variable para la cual no sabemos con certeza el
valor que pueda tomar en el futuro, asociado a una probabilidad de ocurrencia. Nos preocupa la
probabilidad de que la variable aleatoria tome un cierto valor.
Distribuciones de probabilidad: funciones que asignan probabilidades a las distintas
realizaciones posibles de una variable aleatoria.
discretas Binomial, Geometrı́ca, Poisson.
continuas Uniforme, Normal, Gamma
• Número de realizaciones:∞
• Utiliza probabilidades acumuladas, No podemos calcular probabilidades puntuales.
• Funciones de densidad poblacional miden la densidad de una variable aleatoria en un
determinado rango
Momentos de una variable aleatoria
Esperanza:
E(Y ) = µy , media de Y luego de muchas realizaciones
Medida del centro de la variable o distribución
La esperanza es una propiedad de la VA, mientras que la media es una propiedad de la
muestra. Solo E(Y ) = µy luego de muchas realizaciones.
Varianza:
Var(Y ) = E
[(
Y −µy
)2]
= σ2y
Medida de dispersión de la variable o distribución
Desvı́o estandar: > sd(Y ) =
√
Var(Y ) = σy
8
CAPÍTULO 2. REGRESIÓN LINEAL 9
2.0.2. INDEPENDENCIA:
Dos variables aleatorias X e Y están independientemente distribuidas si conocer el valor de
una no brinda ninguna información sobre el valor de la otra. Es decir, A y B son independientes
si conocer lo que sucedió con B no brinda información para determinar que ocurre con A.
P (Y = y/X = x) = P (Y = y)
Si no son independientes, se utiliza el teorema de bayes:
P (A|B) = P (A|B)P (A)
P (B)
2.0.3. COVARIANZA:
Mide la dependencia lineal entre dos variables. Cov(X,Y ) : Puede ser positiva, negativa o 0.
E(X) = µx y E(Y ) = µy
V.A.: (X −µx)
(
Y −µy
)
Cov(X,Y ) = E
[
(X −µx)
(
Y −µy
)]
= σxy
Es difı́cil de interpretar: Depende de la unidad de medida.
2.0.4. COEFICIENTE DE CORRELACIÓN:
Y = salario y X = educación
Cov(X,Y ) depende de la unidad de medida
Coeficiente de correlación: Corr(X,Y ) = Cov(X,Y )sd(X)·sd(Y ) =
σXY
σXσY
Los valores se encuentran acotados −1 ≤ Corr(X,Y ) ≤ 1:
• Para el intervalo (−1,0) la correlación es negativa
• Para el intervalo (0,1) la correlación es positiva
• Cuanto más cerca esté de los extremos -1 y 1, la correlación es más fuerte.
Si X e Y son independientes, entonces el coeficiente de correlación es 0. Esto no se cumple
al revés.
Corr(X,Y ) = 0 no implica independencia (relaciones no lineales).
2.0.5. ESPERANZA CONDICIONAL:
¿Cómo cambia la distribución de los salarios con la educación?
Esperanza condicional:
Computar Y en base a cada valor x
E(Y /X = x) ◦E(Y /x)
Cómo el valor esperado de Y cambia con x
Bajo independencia: E(Y /X) = E(Y )
E( Salario / Educación ) = 1.05 + 0.45 Educación
CAPÍTULO 2. REGRESIÓN LINEAL 10
Imputo según corresponda la educación. Si es 1 año, 0, 2, etc.
Condicional en lo que tengamos como variable explicativa. por lo que la igualdad mencionada
( E[sal | educ] = β0 + β1educi) tiene como implicancia E [µ|x] = 0
Queremos explicar cual es el salario promedio para distintos niveles de educación. No
podemos ver la situación para cada caso, sino que estimamos el promedio que es lo que
hallamos sobre la lı́nea.
Tenemos presente que existe un ERROR ya que es imposible explicar la nube de puntos solo
con una lı́nea por lo que se presentan desviaciones, caracterı́sticas no observables que tienen
esperanza = 0. Entonces, que E [µ|x] = 0 significa que puntos que se encuentran por sobre
la lı́nea se cancelan con puntos que se encuentran por debajo de forma tal que en promedio
el error es nulo.
Como u y x son variables aleatorias, se puede definir la distribución condicional de u dado
cualquier valor de x. El supuesto crucial es que el valor promedio de u no depende del valor
de x. Este supuesto se expresa como
E [µ|x] = E [µ] (2.1)
El supuesto indica que el valor promedio de los factores no observables es el mismo en
todas las fracciones de la población. Cuando se satisfaceel supuesto se dice que u es media
independiente de x. (Por supuesto, la independencia de la media es una consecuencia de la
independencia entre u y x)
En el ejemplo del salario, suponiendo que µ son las capacidades innatas, entonces (2.1)
requiere que el promedio de la capacidad sea el mismo en todos los niveles de educación.
(E [capaci|8] = E [capaci|16])
Si creemos que la capacidad promedio aumenta con los años de educación tenemos que (2.1) es
FALSA. (ocurrirı́a si, en promedio, aquellos con mayor capacidad optan por mayor educación).
Como las capacidades innatas no son observables, no es posible saber la capacidad promedio
es la misma en todos los niveles de educación.
El supuesto de media condicional 0 brinda otra interpretación de β1, tomando el valor esperado
del modelo teórico, condicionado a x usando E [µ|x] = 0 se tiene lo planteado al principio:
E [µ|x] = β0 + β1x
Lo cual muestra que el promedio ponderado de todas las posibles relaciones, la función de
regresión poblacional, E [µ|x] es una función lineal de x. La LINEALIDAD significa que por
cada aumento de una unidad en x el valor esperado de y se modifica en la cantidad β1. Dado
cualquier valor de x la distribución de y está centrada en E [µ|x].
ESPERANZAS CONDICIONALES
LEY DE ESPERANZAS ITERADAS
Siendo µ una V.A cualquiera, E [µ] no condicional → E [µ] = E [E [µ|x]] puedo escribirla de
forma iterada.
CAPÍTULO 2. REGRESIÓN LINEAL 11
Primero condiciono la no condicional y si a eso le aplico la esperanza debe cumplirse:
E [µ] = E [E [µ|x]]
2.0.6. DISTRIBUCIÓN NORMAL
No da mucho peso a los valores extremos
Tiene propiedades deseables
Importancia de la distribución normal para la inferencia
f (x) =
1
σ
√
2π
exp
[
−(x −µ)2/2σ2
]
, −∞ < x <∞
Si X tiene una distribución normal con valor esperado µ y varianza σ2⇒ X ∼Normal
(
µ,σ2
)
68% de los valores están dentro de 1 desviación estándar de la media
95% de los valores están dentro de 2 desviaciones estándar de la media
99,7% de los valores están dentro de 3 desviaciones estándar de la media
Normal standar:
Para estandarizar, resto la media y luego divido por el desvı́o standar.
La media de la distribución normal estándar es cero y la desviación tı́pica es uno.
φ(z) = 1√
2π
exp
(
−z2/2
)
, −∞ < z <∞
Z ∼Normal(0,1)
2.0.7. MUESTREO ALEATORIO:
Elegimos n objetos de una población:
Y1 · · ·Yn
Misma probabilidad de ser incluidos en la muestra
Y1 · · ·Yn→ VA
Y1 · · ·Yn son iid (independientes identicamente distribuı́das)
2.1. MODELO DE REGRESIÓN LINEAL 12
Ejemplo: Las encuestas presentan un problema: No todos los individuos tienen la misma
probabilidad de ser encuestados. Por ejemplo, en las encuestas electorales la población es acotada
a los votantes y este es un grupo heterogéneo. Además, existen supuestos por detrás:
Atender, contestar, tener teléfono de lı́nea...
Esta última separa ya la población en los que pueden ser 2 grupos: jóvenes y adultos.
Podemos creer que los jóvenes no poseen teléfono de lı́nea.
Si escucha, puede haber preferencias parciales.
Es fundamental que todos tengan la misma chance de participar.
2.0.8. LEY DE LOS GRANDES NÚMEROS (LGN) y TCL
A medida que aumenta la cantidad de experimentos, en promedio, la media muestral se
acerca (tiende) a la media teórica.
plim(Ȳn) = µ
La probabilidad lı́mite con n tendiendo a infinito es la media.
Normalidad asintótica: Un estimador (media) tiene normalidad asintótica si converge
“suficientemente rápido´´ a un parámetro desconocido. Si un estimador tiene normalidad
asintótica, su distribución es aproximadamente normal a medida que la muestra se vuelve
infinitamente grande
Teorema central del lı́mite: La distribución de medias muestrales se aproxima a una
distribución normal a medida que la muestra aumenta, sin importar la distribución poblacional.
Si tomamos varias muestras de una población, la distribución de esas muestras va a seguir una
distribución normal.
2.1. MODELO DE REGRESIÓN LINEAL
Este no es el único método para estimar parámetros, Tampoco es obvio que sea el mejor:
Existe, por ejemplo, máxima verosimilitud. Pero sı́ es sencillo e intuitivo, y es con diferencia el
más utilizado en las ciencias sociales empı́ricas.
Queremos explicar una variable (dependiente) en términos de otra(s) (independiente)
Tenemos una hipótesis para resolver un problema→ Tenemos una hipótesis para algo que
queremos entender, ver si existe una relación causal entre x e y.
Queremos estimar β0 β1
x y u son VA.
2.1. MODELO DE REGRESIÓN LINEAL 13
Queremos ver el poder explicativo de x sobre y
Variables que afectan a Y y no son observables, es decir, no las tenemos en el modelo, se
encuentran dentro del término de error.
β0 : Salario cuando la educación es 0. Hay casos para los cuales no tiene una interpretación
clara. Ej: Desarrollo-PIB.
Necesitamos que nuestra variable de interés no correlacione con nada que se encuentre en
el término de error para poder lograr abordar una interpretación causal.
Residuos: Aproximan al error.
y = β0 + β1x+u
tomando la esperanza condicional en x:
E[y|x] = β0 + β1x función de regresión poblacional
Nos dice como el valor medio de y cambia con x.
2.1.1. OLS:
Estimar β1 → necesitamos que exista variación de x. Es decir, que no tome el mismo valor
para toda la muestra.
Muestra aleatoria de tamaño n, {xi , yi}ni=1
2.1. MODELO DE REGRESIÓN LINEAL 14
yi = β0 + β1xi +ui 1
fitted values: valores que vamos prediciendo a medida que estimamos.
cov(x,u) = E[(x −µx)(u −µu)]
cov(x,u) = E[xu − xµu −µxu +µxµu]
cov(x,u) = E[xu]−µu
µx︷︸︸︷
E[x] −µx E[u]︸︷︷︸
=0
+µxµu]
cov(x,u) = E[xu]
Entonces E[u|x] = E[u] donde E[u] = 0 implica que cov(x,u) = E[xu] = 0
(Se encuentra presente el supuesto de que en la población, el error no está correlacionado con las
x).
Reescribiendo los resultados:
u = y − β0 + β1x
E[u] = 0⇒ E[y − β0 + β1x] = 0
cov(x,u) = E[xu] = 0
E[xu] = E[x(y − β0 + β1x)] = 0
Vamos a elegir β̂0 y β̂1 tal que:
n−1
n∑
i=1
(
y − β̂0 + β̂1x
)
= 0
n−1
n∑
i=1
xi
(
y − β̂0 + β̂1x
)
= 0
despejo β̂0:  N∑
i=1
(
yi − β̂1xi
)
−
N∑
i=1
β̂0
 = 0⇒ N∑
i=1
β̂0 =
N∑
i=1
(
yi − β̂1xi
)
β̂0 =
∑N
i=1 yi −
∑N
i=1 β̂1xi
n
⇒ β̂0 = ȳ + β̂1x̄
Introducimos el resultado para hallar β̂1 en la segunda ecuación:
N∑
i=1
xi
[
yi −
(
ȳ − β̂1x̄
)
− β̂1xi
]
= 0
N∑
i=1
xi
[
yi − ȳ + β̂1 (x̄ − xi)
]
= 0
N∑
i=1
xi (yi − ȳ) = β̂1
N∑
i=1
xi (xi − x̄)
1Los ı́ndices denotan observaciones
2.1. MODELO DE REGRESIÓN LINEAL 15
Por propiedades:
N∑
i=1
(xi − x̄) (yi − ȳ) = β̂1
N∑
i=1
(xi − x̄)2
β̂1 =
∑N
i=1 (xi − x̄) (yi − ȳ)∑N
i=1 (xi − x̄)
2
Básicamente vemos que β̂1 =
cov(x,y)
V ar(x)
Si x e y están correlacionadas positivamente, β̂1 es positivo
Residuos , Error. ⇒ Residuos =
de y︷ ︸︸ ︷
valor efectivo−
de y︷ ︸︸ ︷
valor predicho Los residuos son una parte
del error.
OLS (MCO) busca la recta que minimice los errores, en particular, al cuadrado para
penalizar los valores extremos y para que los mismos no se cancelen entre sı́ entre positivos y
negativos y no subestimemos.
2.1. MODELO DE REGRESIÓN LINEAL 16
2.1.2. OLS vs DGP
Ejemplo 2.3 Wooldridge → [Sueldo de los directores generales (CEO) y rendimiento sobre
el capital (roe)]
salary = β0 + β1roe+u
ˆsalary = 963.191 + 18.501roe
si el rendimiento sobre el capital es cero, roe 0, entonces el sueldo que se predice corresponde al
intercepto, es decir, $963,191, dado que salary se mide en miles. Luego, el cambio que se predice
para el sueldo en función del cambio en el roe se expresa como: salary 18.501 (roe). Esto significa
que cuando el rendimiento sobre capital aumente en un punto porcentual, roe 1, se predice que
el sueldo variará aproximadamente 18.5, es decir $18,500.
Sin embargo, esto no significa que un determinado CEO, para cuya empresa roe = 30 gane
$1,518,221. Hay otros muchos factores que afectan al sueldo.
La FRP2 no podrá conocerse nunca, de manera que nose puede decir qué tan cerca están
la FRM3 de la FRP. Con otros datos de muestra se obtendrá otra lı́nea de regresión diferente, que
podrá estar más o menos cerca de la lı́nea de regresión poblacional.
DGP→mundo real donde existe una cierta relación entre salario y educ o roe
DGP no es conocido
“Realidad´´ → idea que no podemos observar y a la que nos acercamos mediante
estimadores
Simulación.
2función de regresión poblacional
3función de regresión muestral
2.1. MODELO DE REGRESIÓN LINEAL 17
2.1.3. OLS - REGRESIÓN MÚLTIPLE
Explicar la variable dependiente en función de más de una variable
2 variables independientes:
ŷ = β̂0 + β̂1x1 + β̂2x2
k variables independientes:
ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk
Interpretación ceteris paribus de los coeficientes
Separar el efecto de x1 del efecto de x2
Existe una parte de x1 que es explicada por x2 (corr , 0)
Al quedarnos con los Residuos nos quedamos con la parte de x1 que NO es explicada por x2
(corr = 0)
Usamos esto para calcular el coeficiente
“Controlar por´´ = neteamos el efecto
Las variables independientes pueden estar correlacionadas entre sı́, lo que no pueden es
estar correlacionadas con el error (sesgo por variables omitidas)
Estimación de los coeficientes para dos regresores
ŷ = β̂0 + β̂1x1 + β̂2x2
β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2
2.1. MODELO DE REGRESIÓN LINEAL 18
ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2
Se regresa la primera variable independiente, x1, sobre la segunda variable independiente,
x2 y después se obtienen los residuales (aquı́ y no interviene).
los residuales tienen media muestral cero.
ˆri1 son la parte de x1 después de que los efectos parciales de x2 han sido descontados o
deducidos.
β̂1 mide la relación entre y y x1, neteando el efecto de x2. es la estimación habitual de la
pendiente en la regresión simple.
En el análisis de regresión simple no se descuentan los efectos parciales de otras variables
porque en la regresión no se incluyen otras variables.
Estimación de los coeficientes para k regresores
ŷ = β̂0 + β̂1x1 + β̂2x2 + · · ·+ β̂kxk
β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2
ˆri1 son los residuos de una regresión de tipo x1 = β̂0 + β̂2x2 + · · ·+ β̂kxk
β̂1 mide la relación entre y y x1, neteando el efecto de x2 · · ·xk
SCT = SCE + SCR
1 =
SCE
SCT︸︷︷︸
R2
+
SCR
SCT
R2 coeficiente de determinación.
R2→ y se interpreta como la proporción de la variación muestral en yi que es explicada por
la lı́nea de regresión de MCO. Por definición, es un número entre cero y uno.
aumenta cuando se agrega otra variable independiente a la regresión.
2.1. MODELO DE REGRESIÓN LINEAL 19
Que nunca disminuya cuando se agrega cualquier variable a la regresión lo hace poco
confiable para decidir si agregar una o varias variables al modelo.
2.1.4. OLS - errores estándar y varianza
Error estándar: desvı́o medio entre los datos y la recta de regresión
Medida de precisión de nuestras estimaciones
Mide cuán preciso es el estimador del parámetro poblacional (siempre positivo)
Desvı́o estándar , error estándar
Desvı́o→ estadı́stica descriptiva. Sale de la muestra.
Error estándar→ Es lo que vemos en la salida de stata.
σ2 es la varianza del término error, no es observable.
Podemos estimar σ2 para calcular la varianza y errores estándar estándar de nuestro
estimadores de OLS.
Errores vs residuos:
El término error no es observable: yi = β0 + β1xi +ui
Los residuos los podemos calcular:ŷi = β̂0 + β̂1xi + ûi
Usar los residuos ûi para estimar ui
σ̂2 =
SCR
n− k − 1
=
∑n
i=1 ûi
2
n− k − 1
σ̂ =
√
σ̂2
Entonces,
se
(
β̂j
)
=
σ̂[
SCTj · (1−R2)
]1/2
2.1. MODELO DE REGRESIÓN LINEAL 20
2.1. MODELO DE REGRESIÓN LINEAL 21
Capı́tulo 3
Continuación Regresión Lineal
3.1. TEOREMA GAUSS-MARKOV
TGM: dados los supuestos clásicos, el estimador de OLS es el mejor estimador lineal
insesgado (MELI)
Teorema sobre los estimadores, no sobre estimaciones puntuales.
Puede agregarse el supuesto de Muestreo Aleatorio, pero no es necesario para demostrar
que un estimador es MELI.
SUPUESTOS:
1. Linealidad: Requiere que la variable dependiente sea una combinación lineal de las
variables independientes y del término error.
El modelo que estimamos debe ser lineal en parámetros
Podemos incluir variables en forma no lineal. Por ejemplo, podemos incluir
transformaciones logarı́tmicas.
2. Rango k: o multicolinealidad. Es una medida del grado de asociación lineal entre variables
independientes. La multicolinealidad es perfecta cuando 1 variable independiente puede
expresarse como combinación lineal de otras. Requiere 2 condiciones:
TGM requiere que no haya multicolinealidad perfecta Ejemplos:
• Incluir como regresores el activo, pasivo y PN.
• Incluir como regresores el PIB y sus componentes
• Incluir como regresores el salario en dolares y el salario en pesos.
Siempre que la correlación entre xi y xj sea menor a 1, esta condición se cumple. En
tanto cor(xi ,xj) , 1 no se va a violar este supuesto.
Necesitamos (al menos) tantas observaciones como variables independientes. n ≥ k.
SI los supuestos 1-2 no se cumplen, OLS NO puede estimar.
3. Exogeneidad: Básicamente, que no haya variable omitida.
Supuesto: E(ui |x) = 0
Las variables independientes (x1 · · ·xk) no están correlacionadas con el término error
Este es el supuesto que nos va a ocupar a lo largo del curso
22
3.1. TEOREMA GAUSS-MARKOV 23
Si los supuestos 1-4 se cumplen, entonces el estimador es MELI.
4. ui ∼ iid (0,σ2) {
idéntica→Homocedasticidad
independiente→No correlación
Este supuesto consiste de tres partes:
E(ui) = 0
Homocedasticidad: var(ui |x) = σ2 para todo i
No autocorrelación: cov(ui ,uj |x) = 0 para todo i , j
Necesitamos que los errores tengan media 0 y varianza constante en el cross section y
en el tiempo
5. El término de error sigue una distribución normal:
3.1.1. ESTIMADOR β̂j
OLS es lineal por construcción. No hay nada ni bueno ni malo en que un estimador sea lineal.
BAJO OLS, β̂ ES INSESGADO
Formalmente, E(β̂j) = βj j = 0,1, · · · , k
Entonces, en promedio el estimador es = al parámetro poblacional.
Propiedad del estimador (variable aleatoria) no de la estimación (puntual)
¿Qué nos dice esta propiedad?
3.1. TEOREMA GAUSS-MARKOV 24
β̂j está centrado en la media poblacional.
β̂j no favorece ning ún valor que no sea el verdadero parámetro poblacional.
Estimador al rededor de cierto intervalo.
( )
βj
media
β̂j β̂j
β̂j
E
(
β̂j
)
= βj
ES EFICIENTE:
El estimador de OLS es el de varianza mı́nima entre todos los estimadores lineales insesgados.
Varianza mı́nima→más preciso.
Varianza mı́nima→ en términos del estimador.
Cada estimación es diferente entre sı́. Podemos considerar la estimación de OLS como una
VA→ la estimación se encuentra dentro de cierto intervalo tal que este sea el intervalo más
chico en esta clase de estimadores.
Varianza mı́nima no necesariamente igual a varianza baja
VARIANZA DE LOS ESTIMADORES
La varianza del estimador de OLS depende de tres cosas:
Multicolinealidad: Correlación entre variables explicativas. ¿Dónde la vemos?→ en el R2. Si
tengo algo como
y = β0 + β1x1 + β2x2 + β3x3 +u
R21 : x1 = δ0 + δ2x2 + δ3x3→ proporción explicada
• V ar
(
β̂j
)
=
σ2
SSTj
(
1−R2j
)
• Donde SSTj =
∑n
i=1
(
xij − x̄j
)2
es la variación total en xj ; R
2
j es el R
2 de regresar xj sobre
todas las otras variables independientes y σ2 es la varianza del término error.
◦ Si x1 y x3 están altamente correlacionadas, x3 explica gran parte del movimiento
de x1 ⇒ R2 muy alto. Si esto es ası́, SSTj =
∑n
i=1
(
xij − x̄j
)2
se encuentra cerca de
cero pero tira la varianza para arriba.
◦ Si R2 = 1⇒ indefinida V ar
(
β̂j
)
Micronumerosidad (Goldberger. 1991): tamaño de la muestra, y variación en xj ⇒ afecta la
estimación.
• Mientras mayor es n, más cosas sumamos y el SST se vuelve más grande. Como se
ecuentra en el denominador de la varianza, entonces su estimación se vuelve más
3.1. TEOREMA GAUSS-MARKOV25
precisa.
Macroestupidez (Sosa Escudero, 2015): tamaño de la varianza del error
• Si puedo incluir más cosas en la regresión entonces las saco del término de error.
Mientras más pueda explicar nuestro modelo la variable dependiente, más precisa se
vuelve la estimación de la varianza.
3.1.2. Violación de los supuestos:
1. Linealidad: Problema: el estimador de OLS no está definido, por lo tanto, simplemente no
podemos aplicar OLS. La solución es proponer una estimación lineal.
2. Rango k: El problema es el mismo que en el caso anterior. La solución, para este caso es:
No incluir un conjunto de xi que sea una función lineal de algunas(s) otras xj (var.
explicativas) para todo i , j
Ante estos problemas, stata dropea una variable.
Con multicolinealidad alta pero no perfecta no viola ningún supuesto del TGM, aún
OLS es MELI. Podemos ver el grado de correlación entre nuestras variables explicativas. La
consecuencia es que aumenta la varianza de las estimaciones, por lo que pierdo precisión e
implica un IC más grande.
3. ui ∼ iid
(
0,σ2
)
: Problema→ el estimador de OLS es insesgado (y consistente), pero no tiene
varianza mı́nima. (es decir, no es eficiente)
Dejemos E(ui) = 0 de lado, por ahora
Si la varianza no es constante en el cross section (corte transversal, es decir, entre
individuos), heterocedasticidad. Aparece cuando un modelo explica mejor algunas
observaciones que otras.
Solución: usar errores stándar robustos (Huber-White). Corrección sobre la varianza.
Si la varianza no es constante en el tiempo, autocorrelación o correlación serial→ el
término de error en t correlacionado con un término en t+k
Solución: usar errores estándar robustos a la autocorrelación (Newey-West Standard
Error) o clustereados
¿Cuán problemático es todo esto?
3.1. TEOREMA GAUSS-MARKOV 26
• No mucho en la literatura aplicada, siempre que se corrija usando errores estándar
robustos o clustereados
• Como punto de partida se presupone que hay heterocedasticidad en cross section
y correlación serial en paneles
4. Exogeneidad: Problema: el estimador de OLS no es insesgado ni consistente
Supongamos que el DGP es y = β0 + β1x1 + β2x2 + β3x3 y que Cov (x1,x3) , 0
Proponemos yi = β0 + β1x1i + β2x2i +ui
ui incluye x3. Afecta al GDP y no está incluida en la regresión.⇒ x3 variable omitida⇒
no se cumple el supuesto. Estimación sesgada.
No podemos mover x1 dejando todo lo demás constante, ya que al mover x1 estamos
moviendo x3 que no está controlada en el modelo. Como 2 cosas que afectan y se están
moviendo al mismo tiempo no podemos saber cuál es la responsable del cambio en la
variable dependiente.
Esto no solo afecta la interpretación de β̂1, sino de todos los coeficientes estimados.
Recordar que β̂1 =
∑n
i=1 ˆri1yi∑n
i=1 ˆri1
2 donde ˆri1 son los residuos de una regresión de tipo
x1 = β̂0 + β̂2x2
Dado que x3 está omitida no podemos netear su efecto.
CAUSAS DE LA ENDOGENEIDAD: Variables omitidas, simultaneidad (causalidad
reversa) y error de medición:
• En la variable dependiente: afecta eficiencia (si tiene media 0) y sesgo en β0 (si
media distinta de 0)
• En la variable independiente: error de medición no correlacionado con u, afecta la
eficiencia.
• En la variable independiente: error de medición correlacionado con u, attenuation
bias (estimadores sesgados e inconsistentes)
¿Cuán probable es que este problema ocurra?→Muy probable.
¿Cuán problemático es todo esto? → Muy problemático: Deja de ser insesgado. Sesgo
muy grande. Ej: fumadores y no fumadores. Es muy probable que ocurran problemas
de edogeneidad dado que un contexto de agentes racionales que maximizan sus
decisiones hace que todo se relacione con todo→ sistema económico interdependiente.
3.1. TEOREMA GAUSS-MARKOV 27
Los consumidores toman decisiones en base a sus preferencias, variables macro, etc.
¿Y si otros regresores son endógenos? Aleatorización no es igual a controlar por todo,
pero nos permite obtener un estimador insesgado y consistente para ese regresor
(Angrist y Pischke, 2015)
3.1.3. INFERENCIA:
El TGM necesita los cuatro primeros supuestos para que el estimador de OLS sea MELI.
Inferencia → sacar conclusiones sobre población a partir de muestra. Es para esto que
necesitamos el supuesto de normalidad.
TGM: Error Normal
u|x ∼Normal
(
0,σ2
)
La varianza tiene que ser constante, no necesariamente igual a 1
Si asumimos normalidad estamos asumiendo exogeneidad y ui ∼ iid
(
0,σ2
)
(no viceversa)
TEST DE HIPÓTESIS:
βj es un parámetro poblacional, por ende desconocido.
Insesgadez NO implica que β̂j = βj
Dados nuestros datos y estimaciones, podemos hacer conjeturas sobre β1 ( Solo sacamos
conjeturas de lo que podrı́a estar pasando con β1) y testearlas.
Si rechazo⇒ coeficiente significativo
Significatividad: juicio sobre correlación por fuera de la muestra.
Si la correlación es muy fuerte, es poco probable que fuera de la muestra no haya relación.
Si la correlación es baja, es probable que no haya relación.
3.1. TEOREMA GAUSS-MARKOV 28
Distribución t de los estimadores de OLS:
β̂j − βj
se
(
β̂j
) ∼ tn−k−1 = tdf
3.1.4. P-VALOR
Los p-valor son una medida de significatividad de nuestros β̂j
Si un coeficiente es significativo, tenemos confianza en que hay una correlación entre estas
variables a nivel poblacional.
p-valor responde a la siguiente pregunta: “¿cuál serı́a la probabilidad de encontrar una
correlación tan fuerte como la de nuestra muestra, si en la población la correlación entre estas
variables fuese 0? ´´
3.1. TEOREMA GAUSS-MARKOV 29
Significatividad ,magnitud del coeficiente.
3.1.5. INTERVALOS DE CONFIANZA
Significatividad del 5% implica IC del 95%
Construimos IC para βj
β̂j ± c · se
(
β̂j
)
Obtenemos un lı́mite inferior βj y un lı́mite superior bj
Si tomásemos múltiples muestras, el valor poblacional (desconocido) estarı́a entre βj y bj el
95% de las veces.
Si el IC incluye al 0, el 95% de las veces caerı́a cerca o podrı́a ser 0⇒ no serı́a significativo
Variables instrumentales solucionarı́a el sesgo en términos causales, no estadı́sticos.
3.1.6. LA SIGNIFICATIVIDAD DE β̂j
Alta significatividad:
Altos estadı́sticos t
Bajos p-value
IC estrechos y lejos de 0
Todos estos conceptos están relacionados. Podemos testear múltiples hipótesis además de
H0 : βj = 0.
3.1.7. F TEST:
Los estadı́sticos F nos permiten nos permiten testear hipótesis sobre múltiples parámetros
H0 : β1 = β2 = · = βk = 0
Testear la significatividad de la regresión
H1 se cumple cuando al menos un coeficiente es significativo.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 30
3.2. PROPIEDADES ASINTÓTICAS DE OLS:
La insesgadez es una propiedad de nuestras finitas
El estimador de OLS tiene otras propiedades deseables que se cumplen cuando n tiende a
infinito.
Una muestra grande es una convención. No sabemos con certeza QUÉ ES una muestra
grande.
3.2.1. CONSISTENCIA:
Bajo los supuestos clásicos, β̂j es consistente
V.I→ no son insesgados, si consistente.
β̂j →p βj
limn→∞P r
(
|β̂j − βj | < ϵ
)
= 1 para cualquier real positivoϵ
ϵ → determinado parámetro real positivo, pero pequeño. A medida que aumenta n, OLS
converge al valor poblacional.
La distribución de β̂j se va estrechando al rededor de βj , colapsando en el infinito a βj
Si falla exogeneidad, β̂j es inconsistente. El sesgo persiste aunque aumentemos el tamaño
de la muestra.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 31
Sesgo en términos causales de variables omitidas persiste aún con n tendiendo a infinito.
No solucionable aumentando n.
3.2.2. NORMALIDAD ASINTÓTICA
Para nuestras estimaciones vamos a usar Stata
Las tablas de Stata incluyen toda la información que necesitamos
Luego las ponemos más presentables, como en los ejemplos anteriores.
3.2. PROPIEDADES ASINTÓTICAS DE OLS: 32
Capı́tulo 4
EXPERIMENTOS ALEATORIOS
La mayorı́a de los programas se diseña y luego se implementa en un entorno complejo y
cambiante, donde diversos factores pueden influir en los resultadostanto de los participantes
del programa como de aquellos que no participan. Las sequı́as, los terremotos, las recesiones,
los cambios de gobierno y los vaivenes de las polı́ticas nacional e internacional forman parte del
mundo real. En una evaluación, se debe asegurar que la estimación del impacto del programa
siga siendo válida a pesar de esta diversidad de factores.
Se analizará un método que se asemeja a un sorteo y que decide quién participa en un
programa en un determinado momento y quién no: el método de asignación aleatoria. No solo
proporciona a los administradores del programa una regla imparcial y transparente para asignar
recursos escasos entre poblaciones igualmente merecedoras de ellos, sino que también representa
el método más sólido para evaluar el impacto de un programa.
4.1. ASIGNACIÓN ALEATORIA:
D→ variable dummy
Caso más sencillo: Tratamiento (D=1) y un control (D=0)
En muestras grandes, la asignación aleatoria resuelve el problema de endogeneidad
Ambos grupos estadı́sticamente equivalentes (en promedio)
La muestra aleatoria preserva los rasgos de la población.
Los tratados deben ser indistinguibles de los controles y ambos de la población.
Ya sea la muestra representativa o no de la población, la asignación aleatoria funciona igual.
Otra cosa es si lo descubierto es extrapolable o no a la realidad.
Utiliza un proceso aleatorio, o el azar, para decidir a quién se le concederá acceso al
programa y a quién no. Todas las unidades elegibles tienen la misma probabilidad de ser
seleccionadas para un programa. A demás, se asegura de que el programa no sea asignado con
criterios arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prácticas injustas.
Las limitaciones presupuestarias pueden impedir que los administradores ofrezcan el
programa a todas las unidades elegibles desde el comienzo.
Las limitaciones de capacidad a veces impedirán que un programa pueda ser implementado
para todos al mismo tiempo.
Ej: programa de formación profesional para jóvenes, la cantidad de jóvenes desempleados
que desean obtener una formación profesional puede ser superior al número de plazas
disponibles.
Los administradores del programa deben definir un mecanismo de selección: podrı́a ser un
sorteo.
33
4.1. ASIGNACIÓN ALEATORIA: 34
Grupo de comparación ideal: lo más similar posible al grupo de tratamiento en todos los
sentidos, excepto con respecto a su participación en el programa que se evalúa.
Asignación aleatoria → producirá dos grupos → alta probabilidad de ser estadı́sticamente
idénticos, siempre que el número de unidades potenciales a las que se aplica el proceso de
asignación aleatoria sea suficientemente grande. → con muestras grandes → el proceso de
asignación aleatoria producirá grupos que tienen promedios estadı́sticamente equivalentes en
todas sus caracterı́sticas.
4.1.1. CONTRAFÁCTICO
El grupo de control es el contrafáctico del tratamiento
Confianza en el método → Buen contrafáctico = buena aproximación a lo que hubiese
pasado con los tratados en ausencia del tratamiento
Asignación aleatoria produce los contrafácticos más fuertes
En promedio, la asignación aleatoria deberı́a igualar a los grupos. Sirve para mostrar que la
A.A se hizo bien⇒medidas similares entre grupos.
Balance entre tratados y controles:
Evidencia (no demostración) de que los grupos son comparables→ no demostración porque
no podemos medir y comparar todas las variables de interés.
Asignación aleatoria iguala en observables y no observables
Mostrar que la randomización se hizo bien
Si la nuestra es lo suficientemente grande, el mecanismo de asignación aleatoria asegura
que cualquier caracterı́stica de la población se transfiera tanto al grupo de tratamiento como
al control. Del mismo modo que las caracterı́sticas observables, variables no observables, como
la motivación, preferencias u otros rasgos de la personalidad, también se aplicarán por igual
al grupo de tratamiento y al de comparación. → grupos generados por asignación aleatorias = en
caracterı́sticas observables y no observables.
Tener dos grupos similares en todos los aspectos asegura que la estimación del
contrafactual se aproxime al valor verdadero del resultado en ausencia de tratamiento, y que
una vez que el programa se haya implementado, las estimaciones de impacto no sufrirán un
4.1. ASIGNACIÓN ALEATORIA: 35
sesgo de selección.
4.1.2. Implementar asignación aleatoria:
Mecanismo: Sorteo, software, otros→ DNI. Si bien el número no es aleatorio (según como
empiece podemos diferenciar edades) lo que sı́ es aleatorio es el último dı́gito. Sobre este,
podemos hablar de terminación par-impar. Esto es difı́cil de justificar que se encuentre
relacionado con algo aunque no sea estrictamente aleatorio.
Importante: Importante: que todas las unidades tengan la misma chance de ser asignadas
al tratamiento o al control
No deben existir unidades que se encuentren más cerca, por sus propias caracterı́sticas, de
un grupo que de otro.
Aleatoriedad implica exogeneidad
Población vs muestra:
• Asignación aleatoria garantiza validez interna, aun en muestras no representativas
• La representatividad de la muestra afecta la validez externa
Efecto hallado → efecto causal real (Validez interna) significa que el impacto estimado del
programa es el impacto libre de todos los demás factores de confusión potenciales.
La validez externa es la capacidad de externalizar el resultado. quiere decir que la muestra
de la evaluación representa con precisión a la población de unidades elegibles.
A veces la asignación aleatoria no está a cargo del investigador
• En el mundo real, habiendo consecuencias, el individuo tiene incentivos a influir. Ej:
Si sale cara, vas a vietnam. Entonces tenes incentivos a hacer todo lo posible para que
salga seca.
Puede ser necesario defender más la randomización.
Dal Bó y Rossi (2011): Los legisladores se renuevan por tercios. El control es la parte que
no se renueva de la cámara.
• No diferencias observables entre ambos grupos
4.1. ASIGNACIÓN ALEATORIA: 36
• Regresión de la probabilidad de estar en un grupo con respecto a caracterı́sticas
pre-tratameinto→ F test no significativo
• Regresión para predecir el esfuerzo en base a observables. Esfuerzo explicado por
observables no relacionado con el grupo al que fueron asignados.
¿Cuándo puede aplicarse la asignación aleatoria?
1. Cuando la población elegible es mayor que el número de plazas disponibles del programa.
2. Cuando sea necesario ampliar un programa de manera progresiva hasta que cubra a toda la
población elegible. Cuando un programa se extiende por etapas, establecer de forma aleatoria
el orden en el que los participantes se benefi cian del mismo ofrece a cada unidad elegible
la misma posibilidad de recibir tratamiento en la primera fase o en una fase posterior.
Capacitar enfermeras me lleva 3 años. 1/3 del total lo capacito en el primer año. 1/3 en el
segundo y el último tercio en el tercer año.
Cómo asignar aleatoriamente el tratamiento
1. Definir las unidades elegibles: dependiendo del programa concreto, una unidad podrı́a ser
una persona, escuela, una empresa, todo un pueblo o una municipalidad. La población de
unidades elegibles está compuesta por aquellos para los cuales interesa conocer el impacto
de un programa.
2. Seleccionar la muestra de evaluación: unidades elegibles > requeridas ⇒ seleccionar una
muestra de unidades a partir de la población que se incluirá en la muestra de evaluación.
3. Asignar aleatoriamente al tratamiento: Asignación aleatoria entre tratamientos y controles.
¿A qué nivel se lleva a cabo una asignación aleatoria?
La asignación aleatoria puede llevarse a cabo en diversos niveles: indivi- dual, hogares, empresas,
comunidades o regiones.
4.1.3. Estimación del efecto causal:
En el caso más sencillo, podemos comparar medias.
Dado que los grupos son comparables, cualquier diferencia es adjudicada al tratamiento.Para estimar el impacto de un programa bajo la asignación aleatoria, se debe observar la
diferencia entre el resultado bajo tratamiento (el resultado medio del grupo de tratamiento
asignado de forma aleatoria) y nuestra estimación del contrafactual.
Lista de verificación: la asignación aleatoria
¿Están equilibradas las caracterı́sticas de la lı́nea de base? Deben compararse las caracterı́sticas
de lı́nea de base del grupo de tratamiento y del grupo de comparación.
¿Se ha producido algún incumplimiento con la asignación? Se debe verificar si todas las
unidades elegibles han recibido tratamiento y que no haya unidades no elegibles que hayan
recibido tratamiento. Si ha habido incumplimiento, tendrá que utilizarse el método de
variable instrumental
¿Son suficientemente numerosas las unidades en los grupos de tratamiento y comparación? Si no,
serı́a necesario combinar la asignación aleatoria con diferencias en diferencias
¿Hay algún motivo para creer que los resultados en algunas unidades de alguna manera
dependen de la asignación de otras unidades? ¿Podrı́a haber un impacto del tratamiento en
las unidades del grupo de comparación?
4.2. TRATAMIENTOS MÚLTIPLES: 37
4.1.4. Regresión
yi = α + βDi +ui
Di → asignación al tratamiento. i denota cada observación.
Regresión lineal, no multicolinealidad perfecta, estimador OLS, Di es exógeno, ⇒ β̂ es el
efecto causal de D sobre y. (insesgado - consistente)
Di no está correlacionada con nada (no hay sesgo por variables omitidas), ¿Incluı́mos
controles?
• Podemos reescribir incluyendo un conjunto de variables de control X para que nos
ayude a hacer mejor nuestra estimación.
yi = α + βDi +λXi +ui
• En experimentos aleatorios la inclusión de controles relevantes aumenta la precisión
(reduce errores estándar)
• Sin embargo, incluir controles produce un efecto ambiguo sobre la varianza
var
(
β̂
)
=
σ2
SSTj
(
1−R2D
)
SCTj =
∑n
i=1
(
Di − D̄j
)2
es la variación total en D.
R2D es el R
2 de regresar D sobre todas las otras variables independientes
σ2 es la varianza del término error.
Di aleatorio ⇒ baja correlación con controles que incluimos. R2D muestra cuanta variación
de Di es explicada por todas las otras variables independientes. R2 chico.
R2D chico→
(
1−R2D
)
↑⇒↓ varianza
Si la correlación fuese alta R2D aumenta→
(
1−R2D
)
↓⇒↑ varianza
σ2 Quitar variables del término error reduce la varianza. Si los controles explican poco a y
¿Cuanto saca del error? la varianza baja poco.
La estimación cambia poco por la forma de estimar OLS donde r son los residuos. Como D
es aleatorio, incluir controles no tiene gran poder explicativo sobre D por lo que no modifica r.
4.2. TRATAMIENTOS MÚLTIPLES:
Con asignaciones aleatorias, podemos estimar más de un tratamiento fácilmente
4.3. HETEROGENEIDAD 38
Todos los tratamientos deben ser aleatorios
Testear diferentes hipótesis o partes de un programa
Podemos usar test de hipótesis para comparar los efectos
• yi = α + β1D1i + β2D2i +γXi +ui
• H0 : β1 = β2 ver si el efecto es el mismo o si es estadı́sticamente indistinguible
D1 medicamento 1 y D2 medicamento 2 y grupo de control.
D1 = 1 - D2 = 0 /// D1=0 - D2=1
Para el caso de medicamentos es raro que se de conjuntamente D1 = D2 = 1. Por otro lado,
para el caso de la ayuda social donde se tiene como tratamiento recibir transferencia o bolsa
(especies) , pueden darse ambos.
AUH→ Tarjeta de beneficios que no es utilizada tanto como se esperarı́a.
Las hipótesis son no excluyentes. Formas de racionalizar el problema.
La unidad de análisis es el individuo.
Variable dependiente: Uso de la tarjeta (dicotómica)
8 tratamientos
4.3. Heterogeneidad
Útil para separar hipótesis. Ej: zonas con mucho posnet vs poco.
4.4. INFERENCIA 39
4.3.1. Survey experiments
Experimentos dentro de una encuesta
Efecto de presentar distintos tipos de información.
Rho y Tomz (2017) analizan el efecto de proveer información sobre las percepciones individuales
respecto al proteccionismo
• Problema: actitudes hacia comercio exterior no parecen depender de consideraciones
materiales. Obrero vs analista actitud similar.
• Pregunta: cómo cambiarı́an estas opiniones si los individuos conocieran má sobre las
consecuencias distributivas del comercio internacional?
Cuatro grupos:
• T1: información sobre perdedores y ganadores (quien perdió su trabajo y quien no)
• T2: información sobre ganadores
• T3: información sobre perdedores
• C: ninguna información.
Heterogeneidad entre graduados universitarios y no graduados
Muestra: Amazon Mechanical Turk. Aproxima caracterı́sticas de la población
Experimento: miden variables pre-tratamiento, se asignan los tratamientos aleatoriamente,
se mide la variable dependiente.
Resultados:
• Respuesta egoı́sta: más favorable al proteccionismo cuando beneficia a tu grupo
• Respuesta altruista: más favorable al proteccionismo cuando hay beneficios
• Respuesta egoı́sta más fuerte
Cosas a tener en cuenta: validez externa, contexto del experimento (lo que dicen vs lo que
harı́an), la duración de estos efectos.
• Lo que piensan antes sobre el COMEX deberı́a ser igual entre individuos. Se pregunta
qué es lo que creen, no lo que hacen.
• Ej: Cambio climático. Video border. ¿Reciclás? Obvio. de ahı́ a que lo haga en su casa,
es otra cosa.
• También importa la duración de los efectos. Puede ser que llegue a la casa y recicle,
pero eso perdura en el tiempo?
4.4. INFERENCIA
En cross section asumimos heterocedasticidad→ Errores estándar robustos - IC más anchos.
¿Y si tenemos clustered estandard errors?→Cluster: Cuando tenemos subgrupos que entre
sı́ son más parecidos.
• Esto ocurre cuando subgrupos de nuestras observaciones (clusters) están relacionados
entre sı́
• Por ejemplo: en una muestra de n alumnos en m escuelas, los alumnos dentro de cada
m están relacionados
4.4. INFERENCIA 40
Errores standar más altos→ t más bajo→ p-valor más alto⇒más difı́cil hallar un resultado
significativo.
¿Qué hacemos con los errores standar?¿A qué nivel se asigna el tratamiento? → Ej:
muestra alumnos. El nivel es el curso, por lo que el tratamiento es a nivel profesor. Hay que
clusterear errores a nivel del curso.
Supongan que asignamos aleatoriamente un tratamiento D entre un grupo de n individuos:
para n/2 D=1 ; para n/2 D=0
La asignación del tratamiento es individual.
¿Deberı́amos clusterear los errores estándar? → Depende, un momento del tiempo o
varios? para 1 momento del tiempo: NO.
• De hacerlo, si tuviesemos 1000 individuos en 1 solo momento del tiempo, tendrı́amos
1000 clusters, por lo que no estarı́amos agrupando nada. Es equivalente a errores
standar rubustos.
• Si contaramos con varios momentos de tiempo→ nivel individual→ 1000 personas x
10 años → 10.000 observaciones. Cluster individual por cada individuo → 10 obs, 1
por cada año de cada individuo.
Errores intra-cluster se encuentran más correlacionados porque cada uno mide 1 persona.
Lo que pase conmigo en t+1 está más relacionado conmigo en t que con otro individuo en
cualquier momento del tiempo.
Más utilizado el caso de varios momentos del tiempo para datos en panel. En cross-section
depende de la forma y del nivel en que se asigne el tratamiento clusterizar o no.