Logo Studenta

4 1 E MatchingVI

¡Este material tiene más páginas!

Vista previa del material en texto

Tópicos de Econoḿıa Aplicada
Ê stimaciones
Matching
Variables Instrumentales
1 / 44
Retornos a la educación
I La relación positiva entre ingresos y educación es evidente en los
datos
I Si queremos medir el efecto causal de educación e ingresos surge el
problema de la endogeneidad
I Los que se educan pueden tener caracteŕısticas diferentes (por
ejemplo, tener habilidades innatas mayores o un entorno familiar
más proclive a la educación) que pueden generar de por śı más
ingresos, incluso si no estudiaran
I Los métodos de matching y de variables instrumentales pueden
ser útiles para encontrar relaciones causales en un contexto no
experimental, es decir, en presencia de endogeneidad
I Su capacidad para hacerlo depende, por supuesto, de que se
cumplan los supuestos en los que se basa cada método
2 / 44
Matching
Control con Matching
Matching en STATA
Limitaciones y problemas
Variables instrumentales
Relación causal y variables instrumentales
Variable instrumental
Debilidades, problemas y equivocaciones habituales en variables
instrumentales
Múltiples instrumentos
3 / 44
Encontrando contrafactuales para cada individuo
I La pregunta es cómo encontrar en un contexto no-experimental un
contrafactual adecuado.
I El método de matching presupone un conjunto de observables, X ,
que contiene toda la información sobre el resultado en ausencia de
tratamiento (y0) disponible para el individuo al momento de decidir
su tratamiento.
I El método de matching se usa para identificar el resultado del
contrafactual (no tratado) con el mismo X que el tratado
I El método sugiere que para cada i tratado con y1i podemos buscar
un no tratado j (o un pequeño grupo de no tratados) con y0j con las
mismas caracteŕısticas X y estar seguros que ese y0 es un buen
predictor del contrafactual
I Se trata de tomar la población tratada y encontrar para cada
individuo un contrafactual igual.
I Se trata de encontrar “iguales” (matches) para cada tratado, y de
este modo estimar un contrafactual para cada tratado.
4 / 44
Un ejemplo
I Supongamos que hay una asignación aleatoria a un tratamiento, por
ejemplo capacitación, para un número limitado de individuos
(digamos 1000) en el municipio de Moreno, provincia de Buenos
Aires, y que tenemos datos de ĺınea de base y de seguimiento (y1t0 ,
y1t1) para los tratados, pero nos falta un grupo de control.
I Hay información relevante para otras personas parecidas antes y
después del tratamiento en encuestas de hogares para el resto del
conurbano bonaerense, en forma de panel.
I Esta información permitiŕıa construir un contrafactual, pero no tiene
sentido aplicarlo a toda la población. Al menos, debeŕıamos tener
los mismos criterios de elegibilidad en ambos grupos.
I Seŕıa mejor tener que el grupo de control tenga las mismas
caracteŕısticas que los tratados.
I Usando la información individual, para cada tratado (sexo, edad,
nivel educativo, etc.) podŕıamos encontrar un individuo (o varios)
con la mismas caracteŕısticas en el grupo de control.
5 / 44
I Para cada persona en tratamiento podemos tener un
contrafactual estimado, una predicción de y0t0 y también y
0
t1
(antes y después de tratamiento) para gente parecida.
I Esto nos permitiŕıa tener un análogo a Diferencias en
Diferencias
I Es central definir “más parecido posible”
I Cuando hay múltiples variables continuas no es fácil definir
qué persona es más parecida...
I El método de matching nos ayuda a encontrar a la persona
más parecida
6 / 44
Endogeneidad, control e independencia condicional
I Sea y una variable de resultado, X un vector de covariables, d
un tratamiento dicotómico
I El método de matching asume independencia condicional:
I {y0i , y1i} ⊥ d |X
I La distribución del resultado potencial es independiente de d
(tratamiento) condicional en X
I Entonces la asignación al tratamiento “es tan buena como si
fuera aleatoria”, para cada valor de X .
I Independencia condicional es el supuesto para interpretar las
regresiones como resultados causales
7 / 44
Propensity score matching
I El método de matching se usa principalmente para
tratamientos dicotómicos (tratados vs. no tratados; con
educación o sin educación, por ejemplo) pero no para
tratamiento continuo (años de educación, por ejemplo)
I Podemos considerar la siguiente probabilidad de ser tratado
p (X ) ≡ E [di |Xi ]
y definimos esta función como el Propensity Score.
I El método de Propensity Score Matching se basa en que si el
resultado potencial y ji es independiente de d dado X ,
entonces también será independiente de d dado p(X ).
I El siguiente teorema lo prueba: si se verifica que
E
[
di |p(Xi )y ji
]
= E [di |p(Xi )], entonces d es independiente
de y ji dado p(X ).
8 / 44
Propensity score matching
Theorem
Propensity Score: Si hay independencia condicional de y ji , j = 0, 1,
con d dado X , entonces y ji ⊥ di |p (Xi ).
Demostración.
E [di |p (Xi ) , yji ] = E [E [di |p (Xi ) , yji ,Xi ] |p (Xi ) , yji ] =
E [E [di |yji ,Xi ] |p (Xi ) , yji ] = E [E [di |Xi ] |p (Xi ) , yji ] =
E [p (Xi ) |p (Xi ) , yji ] = p (Xi )
I donde el primer paso es ley de esperanzas iteradas, el segundo
condicionalidad en X hace innecesaria la condicionalidad en
p (X ), el tercero es independencia condicional y el cuarto
definición de propensity score
Si hay independencia condicional de los resultados potenciales en el
vector de covariables X también la hay en la función escalar de X ,
p(X )
9 / 44
Matching
I La conclusión de este teorema es que no hace falta controlar
por cada X sino por la probabilidad de ser tratado dado X .
I Además, un corolario del teorema es el procedimiento:
I Primero, realizar un modelo de la probabilidad y predecir el
Propensity Score
I Realizar el emparejamiento en las predicciones (Matching)
I Hay varias formas de implementar esta idea
I Nearest neighbor matching (puede ser una única observación
más cercana)
I Kernel matching (ponderar los contrafactuales según la
distancia a la observación tratada, distancia es diferencia pi y
pj , con i tratado y j no tratado)
I En general es preferible evitar una única observación como
contrafactual (como nearest neighbor) sino un promedio de
los no tratados
10 / 44
El método de matching para identificar el contrafactual
I Importante: X debe ser la información necesaria que a la vez
afecta la decisión y a la variable de resultado
I Además, X no debe predecir participación exactamente (si no,
no hay tratados y no tratados con el mismo X )
Pr [di = 1|Xi ] < 1
I Llamemos S al soporte común de X , que es el conjunto de los
valores de X en donde hay tanto tratados y no tratados
I Con estos dos supuestos es posible identificar al ATT sobre el
soporte común
11 / 44
El método de matching para identificar el contrafactual
I El parámetro ATT sobre el soporte común S es entonces αATT (S)
αATT (S) = E
[
y1 − y0|d = 1,X ∈ S
]
I El estimador de matching para recuperar el parámetro ATT es
entonces
α̂M = ∑
i∈T
[
yi − ∑
j∈C
ωijyj
]
wi
donde T es el conjunto de los tratados, C es el conjunto de los no
tratados, donde ωij es la ponderación que tendrá la observación no
tratada j para representar el individuo i , donde wi es una
reponderación de la distribución del resultado y .
I En particular, si se da que hay sólo un contrafactual elegido y todo
tratado tiene un no tratado (porque el soporte común abarca a todo
el conjunto de T ) entonces α̂M = ∑i∈T
[
yi − yj(i)
]
1
N , donde yj(i)
es el indentificador del único j que representa a i .
12 / 44
Volviendo al ejemplo
I Una poĺıtica de capacitación en Moreno y datos tipo EPH del
conurbano.
I Con matching podŕıamos buscar casos de no tratados
“parecidos” a los tratados
I Esto podŕıa justificar usar los datos como control
I Si ȳ1t0 − ȳ
0
t0 = 0 entonces podemos considerar ȳ
1
t1 − ȳ
0
t1 como
un estimador del un efecto (con ȳ0t1 calculado según los pesos
del matching)
13 / 44
CombinandoMatching y DD
I Supongamos que con matching podemos generar un balance
en X pero y1t0 − y
0
t0 no es cero (no partimos de un valor
común en y).
I O supongamos que es imposible tener un balance en X ,
porque una de las caracteŕısticas de tratamiento es vivir en
Moreno y no hay no tratados en Moreno.
I Entonces puedo combinar matching y DD
I Hay dos formas de hacerlo, según si la información es
longitudinal o si es corte transversal repetido
14 / 44
Combinando Matching y DD: información longitudinal
I Supongamos que con matching podemos generar un balance
en X pero y1t0 − y
0
t0 no es cero (no partimos de un valor
común en y).
I Se combina matching con DD a partir de hacer
α̂MDD = ∑
i∈T
[
[yit1 − yit0 ]− ∑
j∈C
ωij [yjt1 − yjt0 ]
]
wi
sobre el soporte común
15 / 44
Combinando Matching y DD con información de corte
transversal
I O supongamos que es imposible tener un balance en X ,
porque una de las caracteŕısticas de tratamiento es vivir en
Moreno y no hay no tratados en Moreno y tengo información
relevante en corte transversal en Moreno y el resto del
conurbano antes y después del tratamiento.
I Entonces busco observaciones comparable en tres grupos:
grupo tratado (Moreno) antes del tratamiento; y grupo no
tratado (resto del conurbano) antes y después del
tratamiento, usando matching
I La combinación de matching y DD será
α̂MDD = ∑
i∈T1
[[
yit1 − ∑
j∈T0
ωTij yjt0
]
−
[
∑
j∈C1
ωC1ij yjt1 − ∑
j∈C0
ωC0ij yjt0
]]
wi
16 / 44
Matching en STATA
I Volvamos a analizar el efecto causal de la educación sobre los
salarios, pensando que las habilidades innatas (inobservables)
son parte del problema de endogeneidad
I Supongamos que queremos identificar a pares de
observaciones que tengan la mismas condiciones iniciales
17 / 44
Matching en STATA: datos simulados
Un ejemplo usando STATA con los datos simulados.
Recordemos nuestro modelo de educación (simplificado)
yi = 1 + ,2x1i + ,09x2i + ,07θi + αidi + 0,7u1i
ci = δ0 − z0i + 1,1z1i − 0,01x2i + 0,1u2i
di = 1 {αi ≥ ci}
I Nuestro ejercicio de simulación supone que el tratamiento se
define por variables como αi (el retorno de la educación que
asumimos inobservable), x2 (años de educación de los padres),
z0 y z1 variables de costo.
I Necesitamos definir el tipo de propensity score a realizar
18 / 44
Un ejemplo usando STATA con los datos simulados
I La variable x2 es la única (observable) que tiene sentido
incluir para un matching
I Entonces unos pasos para aplicar matching
1. Considerar si independencia condicional es razonable para el
caso
2. Estimar la probabilidad de tener un tratamiento (probit/logit)
3. Predecir el propensity score
4. Restringir la muestra al soporte común
5. Hacer el match entre unidades y estimar ATT
6. Chequear el balance de las covariables
6.1 Si no hay balance, volver al punto 2 e intentar otro modelo
19 / 44
Un ejemplo usando STATA con los datos simulados
I Con STATA 11, usar psmatch2; los datos deben estar
ordenados aleatoriamente
.set seed 1234 // set seed actualiza y fija los
números aleatorios a crear
. gen us=uniform() // genera una variable uniforme
(aleatoria)
. sort us // ordena por la variable
aleatoria
. drop us
I Matching:
. logit d x1 x2 // estima un logit
. predict pscore, pr // predice el propensity score
. psmatch2 d, out(y) pscore(pscore) ate common //
hace el matching y muestra resultados
. pstest x1 x2, sum // test de balance
20 / 44
Resultados del 
logit inicial
Predicción del Prop Score Matching
Realiza el matching
Parámetros
en el soporte 
común
Analiza el match y el soporte 
común
Test de balance (en el soporte 
común)
Efecto estimado: 0.745 
muy significativo (t=53)
Covariables a testear
Hay 456 casos tratados que no tienen match 
(fuera del soporte)
Se rechaza la hipótesis nula de que están 
balanceadas y tienen la misma media
21 / 44
Limitaciones y problemas del método de matching
I Un problema del propensity score es que el teorema surge de
una función estricta y conocida de X , p (X ).
I Pero en realidad p (X ) no es conocida y la reemplazamos por
p̂ (X ).
I ¿Mantiene la función p̂ que la distribución de observables es la
misma entre tratados y no tratados matcheados?
I Un test de balance ayuda a analizar esto: test de diferencia de
medias en covariables comparando tratados con no tratados
matcheados. Si se rechaza que las caracteŕısticas sean iguales
entonces no están balanceadas con respecto a la estimación
de propensity score.
22 / 44
Más dificultades o limitaciones de matching: qué es
importante para la aplicación de matching
I X debe satisfacer algunas condiciones:
I debe ser información pre-tratamiento
I A la vez debe ser información que determine y0 (resultado sin
tratamiento)
I Variables Z que expliquen d pero no y0 no deben ser incluidas
en el proceso de matching
I No debe ser información que determine d solamente
I Un modelo (estructural, económico) ayuda a identificar este
tipo de variables
I No debe predecir la participación de manera exacta (si no no
habrá tratados y también no tratados con el mismo X )
I Si la cantidad de variables X es muy poca, entonces es dif́ıcil que se
verifique CIA
I Si la cantidad de variables X es muy grande, entonces es dif́ıcil que
se verifique un soporte común (propensity matching ayuda en este
caso)
I Si X es incorrecto o incompleto puede haber sesgos
I Más aún, más información en X no necesariamente reduce el
sesgo, sino que puede incrementarlo 23 / 44
Matching
Control con Matching
Matching en STATA
Limitaciones y problemas
Variables instrumentales
Relación causal y variables instrumentales
Variable instrumental
Debilidades, problemas y equivocaciones habituales en variables
instrumentales
Múltiples instrumentos
24 / 44
La identificación de la relación causal entre la educación y
el ingreso - Variables instrumentales, un ejemplo
I Supongamos que el ministerio de educación hace un
experimento para ver el impacto de las becas en la decisión de
educación
I Usando una loteŕıa y el nro de DNI decide darle a algunos un
incentivo monetario para el estudio universitario
I Luego analiza el impacto de esta beca en la cantidad de
estudiantes y se encuentra que hay un efecto relevante y
significativo de la beca
I pero no todos los que recibieron la posibilidad de la beca la
usaron, y también algunos de los que no la recibieron igual
decidieron estudiar.
I Luego, en un estudio posterior se recupera el nivel de ingresos
I ¿Se puede medir el retorno de la educación utilizando estos
datos?
25 / 44
Intuición
I La intuición nos dice que si encontramos una variable exógena
o aleatoria que determine la decisión de tratamiento entonces
podŕıamos usarla para identificar el efecto del tratamiento en
un resultado y
I La razón es que entonces, por intermedio de esta variable,
parte del tratamiento es exógeno
I A esta variable exógena/aleatoria se la llama variable
instrumental
26 / 44
Variable Instrumental
I La variable instrumental z debe cumplir con dos principios:
1. Debe ser relevante, es decir, debe tener impacto en la decisión
de estudiar.
2. Debe ser ortogonal, es decir, no determina la variable
resultado, ingresos
I Por estas dos condiciones, la variable instrumental z debe
afectar a la variable de resultado y sólo a través del
tratamiento d .
I El hecho de que haya una variable en Z (variables que
determinan tratamiento) pero no en X (variables que
determinan el resultado y), implica que se cumple la
restricción de exclusión (exclusion restriction)
27 / 44
Modelo general
I El modelo general:
yi = β + αidi + ui
di = 1 {g (Zi , νi ) ≥ 0}
donde siempre puede haber una X que también determine y , pero
que dejamos impĺıcito
I Supongamos que Z es una única variable, z . La condición es que no
esté en el set X que determina a y .
I El método de VI descansa en la existencia de al menos un
regresor exclusivo de la regla de decisión (exclusion restriction)
I Estoes que los resultados potenciales no se ven afectados por z
I Luego diferencias en y sólo adjudicables a z pueden ser sólo
generadas por las diferencias en participación y la composición
de los grupos
I Supuesto de VI: La variable z es
1. Relevante:
Pr [d = 1|z ] 6= Pr [d = 1]
2. Ortogonal:
E [u|z ] = E [u]
28 / 44
Caso efectos homogéneos
I Supongamos ahora efectos homogéneos, es decir αi = α
I En este caso
E [yi |zi ] = β + αE [di |zi ] + E [ui |zi ]
= β + αP (z) + E [ui ]
I Tomemos dos valores de z , z1, z2; evaluamos y restamos
E
[
yi |z1i
]
= β + αP
(
z1i
)
E
[
yi |z2i
]
= β + αP
(
z2i
)
E
[
yi |z1i
]
−E
[
yi |z2i
]
= α
[
P
(
z1i
)
− P
(
z2i
)]
I Luego, el estimador para instrumentos discretos es
α =
E
[
yi |z1i
]
−E
[
yi |z2i
]
[P (z1i )− P (z2i )]
I En el caso de z continuo en vez de discreto:
α =
cov (yi , zi )
cov (di , zi )
29 / 44
Variables instrumentales: el caso de tratamiento continuo
I En el caso de tratamiento continuo la intuición es similar
I Supongamos que queremos medir el efecto de una variables
sobre una variable de resultado y . Asumimos por ahora
efectos homogeneos
yi = β + αs + ε i
donde α es la medida del efecto.
I Esta equación de comportamiento es causal pero no
observable (ni equiparable al resultado en una regresión: y es
un “resultado potencial”; s puede estar correlacionado con los
residuos y en este caso la estimación MCO de α estaŕıa
sesgada).
30 / 44
Variables instrumentales
I Supongamos que existen variables adicionales, Z , que cumple
con estar correlacionada con s, y con no afectar el resultado y .
I Z es independiente de ε
I Z afecta a y sólo a través de s
I Z está parcialmente correlacionada con s (la regresión entre s
y Z incluyendo otras variables exógenas X genera un
coeficiente de Z significativo)
I en el caso de salarios: una variable que afecte a la educación
pero que no esté vinculada con las habilidades (ni con los
salarios directamente)
31 / 44
Variables instrumentales
I En ese caso
E [yi |Zi ] = β + αE [si |Zi ] + E [ε i |Zi ]
= β + αE [si |Zi ]
lo que implica que, de conocer E [si |Zi ] estaŕıamos estimando
α.
I Es posible pasar de E [si |Zi ] a una regresión
E [si |Zi ] = π0 + π1Zi
y a una predicción de E [si |Zi ] = π̂1Zi
I De este modo,
E [yi |Zi ] = β + α(π̂1Zi )
= β + αŝi
32 / 44
Variables instrumentales
I Esta estimación, puede ser implementada, luego, en dos
etapas:
I Primera etapa de la(s) variable(s) endógena(s) en la(s)
variable(s) exógena(s) y predicción
I Segunda etapa de la variable dependiente y la predicción de las
variables edógenas
I Ambas estimaciones permiten covariables (X ) exógenas como
control.
I En el caso de una variable z continua y tratamiento s
continuo:
α =
cov (yi , zi )
cov (si , zi )
33 / 44
Variables instrumentales en STATA
Un ejemplo usando STATA con los datos simulados.
Recordemos nuestro modelo de educación (simplificado)
yi = 1 + ,2x1i + ,09x2i + ,07θi + αidi + 0,7u1i
ci = δ0 − z0i + 1,1z1i − 0,01x2i + 0,1u2i
di = 1 {αi ≥ ci}
I Ahora las variables z son las relevantes como VI
34 / 44
. ivregress 2sls y x1 x2 (d = z0 z1), first
First-stage regressions
Number of obs = 18750
F( 4, 18745) = 1743.76
Prob > F = 0.0000
R-squared = 0.2712
Adj R-squared = 0.2710
------------------------------------------------------------------------------
d | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x1 | .0004671 .0062442 0.07 0.940 -.011772 .0127062
x2 | .0135197 .0006833 19.79 0.000 .0121804 .0148589
z0 | .0391894 .0031178 12.57 0.000 .0330783 .0453005
z1 | -.1132523 .0014138 -80.11 0.000 -.1160234 -.1104812
_cons | .6006081 .0070968 84.63 0.000 .5866978 .6145184
------------------------------------------------------------------------------
Instrumental variables (2SLS) regression Number of obs = 18750
Wald chi2(3) = 5450.95
Prob > chi2 = 0.0000
R-squared = 0.2898
------------------------------------------------------------------------------
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
d | .5048276 .0252572 19.99 0.000 .4553244 .5543308
x1 | .1960601 .0127965 15.32 0.000 .1709795 .2211408
x2 | .0902795 .0014413 62.64 0.000 .0874546 .0931044
_cons | 1.639765 .0172943 94.82 0.000 1.605869 1.673661
------------------------------------------------------------------------------
Instrumented: d
Instruments: x1 x2 z0 z1
35 / 44
Debilidades de VI
I Es dif́ıcil identificar un instrumento que sea relevante
I esto suele ocurrir cuando el principal determinante de la
participación (tratamiento) es el resultado potencial (o variables
vinculadas con el resultado potencial)
I Si los instrumentos no son exógenos hay un sesgo.
I La exogeneidad no es testeable (salvo cuando hay varios
instrumentos)
I Que sea “menos exógeno” no es suficiente (se incurre en un sesgo).
PLim α̂IV = α +
σu
σd
corr (z , u)
corr (z , d)
PLim α̂OLS = α +
σu
σd
corr (d , u)
I Si los instrumentos generan poca variabilidad en la variable
endógena entonces las estimaciones pueden ser imprecisas
I esto se denomina instrumentos débiles (weak instruments) y no es
un problema de muestra, sino de población. Bien puede convenir
hacer una regresión (ver fórmula arriba con corr (d , z) pequeño)
I una “regla” (no infalible) es F > 10 en la primera etapa. El R2 y el
coeficiente de z de la primera etapa también son importantes. 36 / 44
I Los errores estándar de las estimaciones de VI son t́ıpicamente
mucho más grandes que los de OLS (y pueden incluir a la
estimación puntual de OLS!)
I Si la variable y es dicotómica la estimación por dos etapas no
siempre es recomendable (ver Wooldridge 15.7.3. en ese caso)
I Si los efectos no son homogéneos entonces es dif́ıcil
argumentar que la restricción de exclusión (o la ortogonalidad)
se cumple. Depende del caso.
I Importante: no hacer VI a mano!
I no hay que olvidarse de incluir todas las variables explicativas
de y en la primera etapa.
I no hay que olvidarse de corregir los errores estándar
I y esto es lo que hace STATA con ivregress
37 / 44
Problemas
I La estimación en dos etapas introduce una diferencia en los
errores y el desv́ıo estándar de los coeficientes:
Yi = α + τSi + ε i
= α + τŜi + τ
(
Si − Ŝi
)
+ ε i
= α + τŜi + ηi
38 / 44
Estimación de los errores
I Es importante notar que E [ηi |Zi ] = 0 (entonces
E [α + τSi + ηi |Zi ] sigue siendo la forma de estimar τ) pero
ση 6= σε
I Entonces, el residuo no es el de la segunda etapa sino
ε̂ i = Yi − α− τ̂Si
I Adicionalmente, la varianza de los coeficientes se puede
estimar
σ̂2ε
[
Ŝ ′Ŝ
]−1
I Esto es lo que hace STATA al hacer ivreg
. ivregress estimator depvar [varlist1] (varlist2
= varlist iv) [if] [in] [weight] [, options]
39 / 44
Variables instrumentales - Múltiples instrumentos
I Supongamos S una variable endógena y que hay M variables
que potencialmente pueden instrumentarla, z1, z2, ..., zM
I esto quiere decir que cada una de las variables cumple con los
dos supuestos
1. Ortogonalidad: cov (zi , εi ) = 0
2. Relevancia: cov (zi , si ) 6= 0
I luego hay M posibles estimaciones utilizando variables
instrumentales y que todas deben ser iguales!
I luego también está la posibilidad de utilizar M variables
exógenas en la primera etapa
I En la primera etapa hace falta testear la hipótesis nula de que
todas las zi no tienen efecto sobre S . Supongamos una
primera etapa que incluye covariables (exógenas) X
Si = θ0 + θ1z1i + θ2z2i + ... + θMzMi + γX + υi
el test es
H0 : θ1 = 0, θ2 = 0, ...θM = 0,
40 / 44
Variables instrumentales - Test de Hausman
I Hay un test útil: Hausman test, overidentifyingrestrictions
I Supongamos que ε̂i es el residuo de la segunda etapa
I Hacer la regresión de ε̂i en zi
I Computar el R2 de esta regresión
I Ante la nula E
[
Z ′i u1
]
= 0 (cada una de los instrumentos es
exógeno) y homocedasticidad el R2 se distribuye como una
Chi-cuadrado
NR2u →
d
χ2q
donde q es la cantidad de “overidentifying restrictions” (M − 1
en este ejemplo)
I Si este test se rechaza, entonces alguna de las variables no es
exógena. Hacer el test con una selección de los instrumentos y
repetir.
I En STATA: estat overid y otros tests de VI (help
ivregress postestimation)
41 / 44
. ivregress gmm y x1 x2 (d = z0 z1) 
Instrumental variables (GMM) regression Number of obs = 18750
Wald chi2(3) = 5695.52
Prob > chi2 = 0.0000
R-squared = 0.2900
GMM weight matrix: Robust Root MSE = .87456
------------------------------------------------------------------------------
| Robust
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
d | .5065319 .0218841 23.15 0.000 .4636399 .5494239
x1 | .196263 .0127918 15.34 0.000 .1711916 .2213345
x2 | .0902476 .0014222 63.45 0.000 .0874601 .0930352
_cons | 1.639039 .0158894 103.15 0.000 1.607897 1.670182
------------------------------------------------------------------------------
Instrumented: d
Instruments: x1 x2 z0 z1
. estat overid
Test of overidentifying restriction:
Hansen's J chi2(1) = 2.91026 (p = 0.0880)
42 / 44
Ejemplo
I Supongamos una variable distancia de la vivienda a la
universidad
I ¿Es una buena variable instrumental?
I Es cierto que puede determinar d , porque es un costo
(relevancia). Esto es testeable
I Es cierto que la distancia a la universidad no determina yi
I Sin embargo, los hogares que le dan importancia a la
educación elegirán la distancia a la universidad. Por eso, no es
cierto que z sea exógeno en la ecuación de selección (no
necesariamente se da que v ⊥ z , y si no ocurre que v ⊥ u,
entonces z va a estar correlacionado con yi .
I Es una buena variable instrumental?
43 / 44
Referencias
Angrist & Pischke, ”Mostly Harmless Econometrics: An
empiricit’s Companion”, Cap 3 y Cap 4
44 / 44
	Matching
	Control con Matching
	Matching en STATA
	Limitaciones y problemas
	Variables instrumentales
	Relación causal y variables instrumentales
	Variable instrumental
	Debilidades, problemas y equivocaciones habituales en variables instrumentales
	Múltiples instrumentos

Continuar navegando