4 1 E MatchingVI

Economía y Negocios

•
SIN SIGLA

Aiden Lopez
5/11/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Economía y Negocios

5885 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Tópicos de Econoḿıa Aplicada
Ê stimaciones
Matching
Variables Instrumentales
1 / 44
Retornos a la educación
I La relación positiva entre ingresos y educación es evidente en los
datos
I Si queremos medir el efecto causal de educación e ingresos surge el
problema de la endogeneidad
I Los que se educan pueden tener caracteŕısticas diferentes (por
ejemplo, tener habilidades innatas mayores o un entorno familiar
más proclive a la educación) que pueden generar de por śı más
ingresos, incluso si no estudiaran
I Los métodos de matching y de variables instrumentales pueden
ser útiles para encontrar relaciones causales en un contexto no
experimental, es decir, en presencia de endogeneidad
I Su capacidad para hacerlo depende, por supuesto, de que se
cumplan los supuestos en los que se basa cada método
2 / 44
Matching
Control con Matching
Matching en STATA
Limitaciones y problemas
Variables instrumentales
Relación causal y variables instrumentales
Variable instrumental
Debilidades, problemas y equivocaciones habituales en variables
instrumentales
Múltiples instrumentos
3 / 44
Encontrando contrafactuales para cada individuo
I La pregunta es cómo encontrar en un contexto no-experimental un
contrafactual adecuado.
I El método de matching presupone un conjunto de observables, X ,
que contiene toda la información sobre el resultado en ausencia de
tratamiento (y0) disponible para el individuo al momento de decidir
su tratamiento.
I El método de matching se usa para identificar el resultado del
contrafactual (no tratado) con el mismo X que el tratado
I El método sugiere que para cada i tratado con y1i podemos buscar
un no tratado j (o un pequeño grupo de no tratados) con y0j con las
mismas caracteŕısticas X y estar seguros que ese y0 es un buen
predictor del contrafactual
I Se trata de tomar la población tratada y encontrar para cada
individuo un contrafactual igual.
I Se trata de encontrar “iguales” (matches) para cada tratado, y de
este modo estimar un contrafactual para cada tratado.
4 / 44
Un ejemplo
I Supongamos que hay una asignación aleatoria a un tratamiento, por
ejemplo capacitación, para un número limitado de individuos
(digamos 1000) en el municipio de Moreno, provincia de Buenos
Aires, y que tenemos datos de ĺınea de base y de seguimiento (y1t0 ,
y1t1) para los tratados, pero nos falta un grupo de control.
I Hay información relevante para otras personas parecidas antes y
después del tratamiento en encuestas de hogares para el resto del
conurbano bonaerense, en forma de panel.
I Esta información permitiŕıa construir un contrafactual, pero no tiene
sentido aplicarlo a toda la población. Al menos, debeŕıamos tener
los mismos criterios de elegibilidad en ambos grupos.
I Seŕıa mejor tener que el grupo de control tenga las mismas
caracteŕısticas que los tratados.
I Usando la información individual, para cada tratado (sexo, edad,
nivel educativo, etc.) podŕıamos encontrar un individuo (o varios)
con la mismas caracteŕısticas en el grupo de control.
5 / 44
I Para cada persona en tratamiento podemos tener un
contrafactual estimado, una predicción de y0t0 y también y
0
t1
(antes y después de tratamiento) para gente parecida.
I Esto nos permitiŕıa tener un análogo a Diferencias en
Diferencias
I Es central definir “más parecido posible”
I Cuando hay múltiples variables continuas no es fácil definir
qué persona es más parecida...
I El método de matching nos ayuda a encontrar a la persona
más parecida
6 / 44
Endogeneidad, control e independencia condicional
I Sea y una variable de resultado, X un vector de covariables, d
un tratamiento dicotómico
I El método de matching asume independencia condicional:
I {y0i , y1i} ⊥ d |X
I La distribución del resultado potencial es independiente de d
(tratamiento) condicional en X
I Entonces la asignación al tratamiento “es tan buena como si
fuera aleatoria”, para cada valor de X .
I Independencia condicional es el supuesto para interpretar las
regresiones como resultados causales
7 / 44
Propensity score matching
I El método de matching se usa principalmente para
tratamientos dicotómicos (tratados vs. no tratados; con
educación o sin educación, por ejemplo) pero no para
tratamiento continuo (años de educación, por ejemplo)
I Podemos considerar la siguiente probabilidad de ser tratado
p (X ) ≡ E [di |Xi ]
y definimos esta función como el Propensity Score.
I El método de Propensity Score Matching se basa en que si el
resultado potencial y ji es independiente de d dado X ,
entonces también será independiente de d dado p(X ).
I El siguiente teorema lo prueba: si se verifica que
E
[
di |p(Xi )y ji
]
= E [di |p(Xi )], entonces d es independiente
de y ji dado p(X ).
8 / 44
Propensity score matching
Theorem
Propensity Score: Si hay independencia condicional de y ji , j = 0, 1,
con d dado X , entonces y ji ⊥ di |p (Xi ).
Demostración.
E [di |p (Xi ) , yji ] = E [E [di |p (Xi ) , yji ,Xi ] |p (Xi ) , yji ] =
E [E [di |yji ,Xi ] |p (Xi ) , yji ] = E [E [di |Xi ] |p (Xi ) , yji ] =
E [p (Xi ) |p (Xi ) , yji ] = p (Xi )
I donde el primer paso es ley de esperanzas iteradas, el segundo
condicionalidad en X hace innecesaria la condicionalidad en
p (X ), el tercero es independencia condicional y el cuarto
definición de propensity score
Si hay independencia condicional de los resultados potenciales en el
vector de covariables X también la hay en la función escalar de X ,
p(X )
9 / 44
Matching
I La conclusión de este teorema es que no hace falta controlar
por cada X sino por la probabilidad de ser tratado dado X .
I Además, un corolario del teorema es el procedimiento:
I Primero, realizar un modelo de la probabilidad y predecir el
Propensity Score
I Realizar el emparejamiento en las predicciones (Matching)
I Hay varias formas de implementar esta idea
I Nearest neighbor matching (puede ser una única observación
más cercana)
I Kernel matching (ponderar los contrafactuales según la
distancia a la observación tratada, distancia es diferencia pi y
pj , con i tratado y j no tratado)
I En general es preferible evitar una única observación como
contrafactual (como nearest neighbor) sino un promedio de
los no tratados
10 / 44
El método de matching para identificar el contrafactual
I Importante: X debe ser la información necesaria que a la vez
afecta la decisión y a la variable de resultado
I Además, X no debe predecir participación exactamente (si no,
no hay tratados y no tratados con el mismo X )
Pr [di = 1|Xi ] < 1
I Llamemos S al soporte común de X , que es el conjunto de los
valores de X en donde hay tanto tratados y no tratados
I Con estos dos supuestos es posible identificar al ATT sobre el
soporte común
11 / 44
El método de matching para identificar el contrafactual
I El parámetro ATT sobre el soporte común S es entonces αATT (S)
αATT (S) = E
[
y1 − y0|d = 1,X ∈ S
]
I El estimador de matching para recuperar el parámetro ATT es
entonces
α̂M = ∑
i∈T
[
yi − ∑
j∈C
ωijyj
]
wi
donde T es el conjunto de los tratados, C es el conjunto de los no
tratados, donde ωij es la ponderación que tendrá la observación no
tratada j para representar el individuo i , donde wi es una
reponderación de la distribución del resultado y .
I En particular, si se da que hay sólo un contrafactual elegido y todo
tratado tiene un no tratado (porque el soporte común abarca a todo
el conjunto de T ) entonces α̂M = ∑i∈T
[
yi − yj(i)
]
1
N , donde yj(i)
es el indentificador del único j que representa a i .
12 / 44
Volviendo al ejemplo
I Una poĺıtica de capacitación en Moreno y datos tipo EPH del
conurbano.
I Con matching podŕıamos buscar casos de no tratados
“parecidos” a los tratados
I Esto podŕıa justificar usar los datos como control
I Si ȳ1t0 − ȳ
0
t0 = 0 entonces podemos considerar ȳ
1
t1 − ȳ
0
t1 como
un estimador del un efecto (con ȳ0t1 calculado según los pesos
del matching)
13 / 44
CombinandoMatching y DD
I Supongamos que con matching podemos generar un balance
en X pero y1t0 − y
0
t0 no es cero (no partimos de un valor
común en y).
I O supongamos que es imposible tener un balance en X ,
porque una de las caracteŕısticas de tratamiento es vivir en
Moreno y no hay no tratados en Moreno.
I Entonces puedo combinar matching y DD
I Hay dos formas de hacerlo, según si la información es
longitudinal o si es corte transversal repetido
14 / 44
Combinando Matching y DD: información longitudinal
I Supongamos que con matching podemos generar un balance
en X pero y1t0 − y
0
t0 no es cero (no partimos de un valor
común en y).
I Se combina matching con DD a partir de hacer
α̂MDD = ∑
i∈T
[
[yit1 − yit0 ]− ∑
j∈C
ωij [yjt1 − yjt0 ]
]
wi
sobre el soporte común
15 / 44
Combinando Matching y DD con información de corte
transversal
I O supongamos que es imposible tener un balance en X ,
porque una de las caracteŕısticas de tratamiento es vivir en
Moreno y no hay no tratados en Moreno y tengo información
relevante en corte transversal en Moreno y el resto del
conurbano antes y después del tratamiento.
I Entonces busco observaciones comparable en tres grupos:
grupo tratado (Moreno) antes del tratamiento; y grupo no
tratado (resto del conurbano) antes y después del
tratamiento, usando matching
I La combinación de matching y DD será
α̂MDD = ∑
i∈T1
[[
yit1 − ∑
j∈T0
ωTij yjt0
]
−
[
∑
j∈C1
ωC1ij yjt1 − ∑
j∈C0
ωC0ij yjt0
]]
wi
16 / 44
Matching en STATA
I Volvamos a analizar el efecto causal de la educación sobre los
salarios, pensando que las habilidades innatas (inobservables)
son parte del problema de endogeneidad
I Supongamos que queremos identificar a pares de
observaciones que tengan la mismas condiciones iniciales
17 / 44
Matching en STATA: datos simulados
Un ejemplo usando STATA con los datos simulados.
Recordemos nuestro modelo de educación (simplificado)
yi = 1 + ,2x1i + ,09x2i + ,07θi + αidi + 0,7u1i
ci = δ0 − z0i + 1,1z1i − 0,01x2i + 0,1u2i
di = 1 {αi ≥ ci}
I Nuestro ejercicio de simulación supone que el tratamiento se
define por variables como αi (el retorno de la educación que
asumimos inobservable), x2 (años de educación de los padres),
z0 y z1 variables de costo.
I Necesitamos definir el tipo de propensity score a realizar
18 / 44
Un ejemplo usando STATA con los datos simulados
I La variable x2 es la única (observable) que tiene sentido
incluir para un matching
I Entonces unos pasos para aplicar matching
1. Considerar si independencia condicional es razonable para el
caso
2. Estimar la probabilidad de tener un tratamiento (probit/logit)
3. Predecir el propensity score
4. Restringir la muestra al soporte común
5. Hacer el match entre unidades y estimar ATT
6. Chequear el balance de las covariables
6.1 Si no hay balance, volver al punto 2 e intentar otro modelo
19 / 44
Un ejemplo usando STATA con los datos simulados
I Con STATA 11, usar psmatch2; los datos deben estar
ordenados aleatoriamente
.set seed 1234 // set seed actualiza y fija los
números aleatorios a crear
. gen us=uniform() // genera una variable uniforme
(aleatoria)
. sort us // ordena por la variable
aleatoria
. drop us
I Matching:
. logit d x1 x2 // estima un logit
. predict pscore, pr // predice el propensity score
. psmatch2 d, out(y) pscore(pscore) ate common //
hace el matching y muestra resultados
. pstest x1 x2, sum // test de balance
20 / 44
Resultados del 
logit inicial
Predicción del Prop Score Matching
Realiza el matching
Parámetros
en el soporte 
común
Analiza el match y el soporte 
común
Test de balance (en el soporte 
común)
Efecto estimado: 0.745 
muy significativo (t=53)
Covariables a testear
Hay 456 casos tratados que no tienen match 
(fuera del soporte)
Se rechaza la hipótesis nula de que están 
balanceadas y tienen la misma media
21 / 44
Limitaciones y problemas del método de matching
I Un problema del propensity score es que el teorema surge de
una función estricta y conocida de X , p (X ).
I Pero en realidad p (X ) no es conocida y la reemplazamos por
p̂ (X ).
I ¿Mantiene la función p̂ que la distribución de observables es la
misma entre tratados y no tratados matcheados?
I Un test de balance ayuda a analizar esto: test de diferencia de
medias en covariables comparando tratados con no tratados
matcheados. Si se rechaza que las caracteŕısticas sean iguales
entonces no están balanceadas con respecto a la estimación
de propensity score.
22 / 44
Más dificultades o limitaciones de matching: qué es
importante para la aplicación de matching
I X debe satisfacer algunas condiciones:
I debe ser información pre-tratamiento
I A la vez debe ser información que determine y0 (resultado sin
tratamiento)
I Variables Z que expliquen d pero no y0 no deben ser incluidas
en el proceso de matching
I No debe ser información que determine d solamente
I Un modelo (estructural, económico) ayuda a identificar este
tipo de variables
I No debe predecir la participación de manera exacta (si no no
habrá tratados y también no tratados con el mismo X )
I Si la cantidad de variables X es muy poca, entonces es dif́ıcil que se
verifique CIA
I Si la cantidad de variables X es muy grande, entonces es dif́ıcil que
se verifique un soporte común (propensity matching ayuda en este
caso)
I Si X es incorrecto o incompleto puede haber sesgos
I Más aún, más información en X no necesariamente reduce el
sesgo, sino que puede incrementarlo 23 / 44
Matching
Control con Matching
Matching en STATA
Limitaciones y problemas
Variables instrumentales
Relación causal y variables instrumentales
Variable instrumental
Debilidades, problemas y equivocaciones habituales en variables
instrumentales
Múltiples instrumentos
24 / 44
La identificación de la relación causal entre la educación y
el ingreso - Variables instrumentales, un ejemplo
I Supongamos que el ministerio de educación hace un
experimento para ver el impacto de las becas en la decisión de
educación
I Usando una loteŕıa y el nro de DNI decide darle a algunos un
incentivo monetario para el estudio universitario
I Luego analiza el impacto de esta beca en la cantidad de
estudiantes y se encuentra que hay un efecto relevante y
significativo de la beca
I pero no todos los que recibieron la posibilidad de la beca la
usaron, y también algunos de los que no la recibieron igual
decidieron estudiar.
I Luego, en un estudio posterior se recupera el nivel de ingresos
I ¿Se puede medir el retorno de la educación utilizando estos
datos?
25 / 44
Intuición
I La intuición nos dice que si encontramos una variable exógena
o aleatoria que determine la decisión de tratamiento entonces
podŕıamos usarla para identificar el efecto del tratamiento en
un resultado y
I La razón es que entonces, por intermedio de esta variable,
parte del tratamiento es exógeno
I A esta variable exógena/aleatoria se la llama variable
instrumental
26 / 44
Variable Instrumental
I La variable instrumental z debe cumplir con dos principios:
1. Debe ser relevante, es decir, debe tener impacto en la decisión
de estudiar.
2. Debe ser ortogonal, es decir, no determina la variable
resultado, ingresos
I Por estas dos condiciones, la variable instrumental z debe
afectar a la variable de resultado y sólo a través del
tratamiento d .
I El hecho de que haya una variable en Z (variables que
determinan tratamiento) pero no en X (variables que
determinan el resultado y), implica que se cumple la
restricción de exclusión (exclusion restriction)
27 / 44
Modelo general
I El modelo general:
yi = β + αidi + ui
di = 1 {g (Zi , νi ) ≥ 0}
donde siempre puede haber una X que también determine y , pero
que dejamos impĺıcito
I Supongamos que Z es una única variable, z . La condición es que no
esté en el set X que determina a y .
I El método de VI descansa en la existencia de al menos un
regresor exclusivo de la regla de decisión (exclusion restriction)
I Estoes que los resultados potenciales no se ven afectados por z
I Luego diferencias en y sólo adjudicables a z pueden ser sólo
generadas por las diferencias en participación y la composición
de los grupos
I Supuesto de VI: La variable z es
1. Relevante:
Pr [d = 1|z ] 6= Pr [d = 1]
2. Ortogonal:
E [u|z ] = E [u]
28 / 44
Caso efectos homogéneos
I Supongamos ahora efectos homogéneos, es decir αi = α
I En este caso
E [yi |zi ] = β + αE [di |zi ] + E [ui |zi ]
= β + αP (z) + E [ui ]
I Tomemos dos valores de z , z1, z2; evaluamos y restamos
E
[
yi |z1i
]
= β + αP
(
z1i
)
E
[
yi |z2i
]
= β + αP
(
z2i
)
E
[
yi |z1i
]
−E
[
yi |z2i
]
= α
[
P
(
z1i
)
− P
(
z2i
)]
I Luego, el estimador para instrumentos discretos es
α =
E
[
yi |z1i
]
−E
[
yi |z2i
]
[P (z1i )− P (z2i )]
I En el caso de z continuo en vez de discreto:
α =
cov (yi , zi )
cov (di , zi )
29 / 44
Variables instrumentales: el caso de tratamiento continuo
I En el caso de tratamiento continuo la intuición es similar
I Supongamos que queremos medir el efecto de una variables
sobre una variable de resultado y . Asumimos por ahora
efectos homogeneos
yi = β + αs + ε i
donde α es la medida del efecto.
I Esta equación de comportamiento es causal pero no
observable (ni equiparable al resultado en una regresión: y es
un “resultado potencial”; s puede estar correlacionado con los
residuos y en este caso la estimación MCO de α estaŕıa
sesgada).
30 / 44
Variables instrumentales
I Supongamos que existen variables adicionales, Z , que cumple
con estar correlacionada con s, y con no afectar el resultado y .
I Z es independiente de ε
I Z afecta a y sólo a través de s
I Z está parcialmente correlacionada con s (la regresión entre s
y Z incluyendo otras variables exógenas X genera un
coeficiente de Z significativo)
I en el caso de salarios: una variable que afecte a la educación
pero que no esté vinculada con las habilidades (ni con los
salarios directamente)
31 / 44
Variables instrumentales
I En ese caso
E [yi |Zi ] = β + αE [si |Zi ] + E [ε i |Zi ]
= β + αE [si |Zi ]
lo que implica que, de conocer E [si |Zi ] estaŕıamos estimando
α.
I Es posible pasar de E [si |Zi ] a una regresión
E [si |Zi ] = π0 + π1Zi
y a una predicción de E [si |Zi ] = π̂1Zi
I De este modo,
E [yi |Zi ] = β + α(π̂1Zi )
= β + αŝi
32 / 44
Variables instrumentales
I Esta estimación, puede ser implementada, luego, en dos
etapas:
I Primera etapa de la(s) variable(s) endógena(s) en la(s)
variable(s) exógena(s) y predicción
I Segunda etapa de la variable dependiente y la predicción de las
variables edógenas
I Ambas estimaciones permiten covariables (X ) exógenas como
control.
I En el caso de una variable z continua y tratamiento s
continuo:
α =
cov (yi , zi )
cov (si , zi )
33 / 44
Variables instrumentales en STATA
Un ejemplo usando STATA con los datos simulados.
Recordemos nuestro modelo de educación (simplificado)
yi = 1 + ,2x1i + ,09x2i + ,07θi + αidi + 0,7u1i
ci = δ0 − z0i + 1,1z1i − 0,01x2i + 0,1u2i
di = 1 {αi ≥ ci}
I Ahora las variables z son las relevantes como VI
34 / 44
. ivregress 2sls y x1 x2 (d = z0 z1), first
First-stage regressions
Number of obs = 18750
F( 4, 18745) = 1743.76
Prob > F = 0.0000
R-squared = 0.2712
Adj R-squared = 0.2710
------------------------------------------------------------------------------
d | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x1 | .0004671 .0062442 0.07 0.940 -.011772 .0127062
x2 | .0135197 .0006833 19.79 0.000 .0121804 .0148589
z0 | .0391894 .0031178 12.57 0.000 .0330783 .0453005
z1 | -.1132523 .0014138 -80.11 0.000 -.1160234 -.1104812
_cons | .6006081 .0070968 84.63 0.000 .5866978 .6145184
------------------------------------------------------------------------------
Instrumental variables (2SLS) regression Number of obs = 18750
Wald chi2(3) = 5450.95
Prob > chi2 = 0.0000
R-squared = 0.2898
------------------------------------------------------------------------------
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
d | .5048276 .0252572 19.99 0.000 .4553244 .5543308
x1 | .1960601 .0127965 15.32 0.000 .1709795 .2211408
x2 | .0902795 .0014413 62.64 0.000 .0874546 .0931044
_cons | 1.639765 .0172943 94.82 0.000 1.605869 1.673661
------------------------------------------------------------------------------
Instrumented: d
Instruments: x1 x2 z0 z1
35 / 44
Debilidades de VI
I Es dif́ıcil identificar un instrumento que sea relevante
I esto suele ocurrir cuando el principal determinante de la
participación (tratamiento) es el resultado potencial (o variables
vinculadas con el resultado potencial)
I Si los instrumentos no son exógenos hay un sesgo.
I La exogeneidad no es testeable (salvo cuando hay varios
instrumentos)
I Que sea “menos exógeno” no es suficiente (se incurre en un sesgo).
PLim α̂IV = α +
σu
σd
corr (z , u)
corr (z , d)
PLim α̂OLS = α +
σu
σd
corr (d , u)
I Si los instrumentos generan poca variabilidad en la variable
endógena entonces las estimaciones pueden ser imprecisas
I esto se denomina instrumentos débiles (weak instruments) y no es
un problema de muestra, sino de población. Bien puede convenir
hacer una regresión (ver fórmula arriba con corr (d , z) pequeño)
I una “regla” (no infalible) es F > 10 en la primera etapa. El R2 y el
coeficiente de z de la primera etapa también son importantes. 36 / 44
I Los errores estándar de las estimaciones de VI son t́ıpicamente
mucho más grandes que los de OLS (y pueden incluir a la
estimación puntual de OLS!)
I Si la variable y es dicotómica la estimación por dos etapas no
siempre es recomendable (ver Wooldridge 15.7.3. en ese caso)
I Si los efectos no son homogéneos entonces es dif́ıcil
argumentar que la restricción de exclusión (o la ortogonalidad)
se cumple. Depende del caso.
I Importante: no hacer VI a mano!
I no hay que olvidarse de incluir todas las variables explicativas
de y en la primera etapa.
I no hay que olvidarse de corregir los errores estándar
I y esto es lo que hace STATA con ivregress
37 / 44
Problemas
I La estimación en dos etapas introduce una diferencia en los
errores y el desv́ıo estándar de los coeficientes:
Yi = α + τSi + ε i
= α + τŜi + τ
(
Si − Ŝi
)
+ ε i
= α + τŜi + ηi
38 / 44
Estimación de los errores
I Es importante notar que E [ηi |Zi ] = 0 (entonces
E [α + τSi + ηi |Zi ] sigue siendo la forma de estimar τ) pero
ση 6= σε
I Entonces, el residuo no es el de la segunda etapa sino
ε̂ i = Yi − α− τ̂Si
I Adicionalmente, la varianza de los coeficientes se puede
estimar
σ̂2ε
[
Ŝ ′Ŝ
]−1
I Esto es lo que hace STATA al hacer ivreg
. ivregress estimator depvar [varlist1] (varlist2
= varlist iv) [if] [in] [weight] [, options]
39 / 44
Variables instrumentales - Múltiples instrumentos
I Supongamos S una variable endógena y que hay M variables
que potencialmente pueden instrumentarla, z1, z2, ..., zM
I esto quiere decir que cada una de las variables cumple con los
dos supuestos
1. Ortogonalidad: cov (zi , εi ) = 0
2. Relevancia: cov (zi , si ) 6= 0
I luego hay M posibles estimaciones utilizando variables
instrumentales y que todas deben ser iguales!
I luego también está la posibilidad de utilizar M variables
exógenas en la primera etapa
I En la primera etapa hace falta testear la hipótesis nula de que
todas las zi no tienen efecto sobre S . Supongamos una
primera etapa que incluye covariables (exógenas) X
Si = θ0 + θ1z1i + θ2z2i + ... + θMzMi + γX + υi
el test es
H0 : θ1 = 0, θ2 = 0, ...θM = 0,
40 / 44
Variables instrumentales - Test de Hausman
I Hay un test útil: Hausman test, overidentifyingrestrictions
I Supongamos que ε̂i es el residuo de la segunda etapa
I Hacer la regresión de ε̂i en zi
I Computar el R2 de esta regresión
I Ante la nula E
[
Z ′i u1
]
= 0 (cada una de los instrumentos es
exógeno) y homocedasticidad el R2 se distribuye como una
Chi-cuadrado
NR2u →
d
χ2q
donde q es la cantidad de “overidentifying restrictions” (M − 1
en este ejemplo)
I Si este test se rechaza, entonces alguna de las variables no es
exógena. Hacer el test con una selección de los instrumentos y
repetir.
I En STATA: estat overid y otros tests de VI (help
ivregress postestimation)
41 / 44
. ivregress gmm y x1 x2 (d = z0 z1) 
Instrumental variables (GMM) regression Number of obs = 18750
Wald chi2(3) = 5695.52
Prob > chi2 = 0.0000
R-squared = 0.2900
GMM weight matrix: Robust Root MSE = .87456
------------------------------------------------------------------------------
| Robust
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
d | .5065319 .0218841 23.15 0.000 .4636399 .5494239
x1 | .196263 .0127918 15.34 0.000 .1711916 .2213345
x2 | .0902476 .0014222 63.45 0.000 .0874601 .0930352
_cons | 1.639039 .0158894 103.15 0.000 1.607897 1.670182
------------------------------------------------------------------------------
Instrumented: d
Instruments: x1 x2 z0 z1
. estat overid
Test of overidentifying restriction:
Hansen's J chi2(1) = 2.91026 (p = 0.0880)
42 / 44
Ejemplo
I Supongamos una variable distancia de la vivienda a la
universidad
I ¿Es una buena variable instrumental?
I Es cierto que puede determinar d , porque es un costo
(relevancia). Esto es testeable
I Es cierto que la distancia a la universidad no determina yi
I Sin embargo, los hogares que le dan importancia a la
educación elegirán la distancia a la universidad. Por eso, no es
cierto que z sea exógeno en la ecuación de selección (no
necesariamente se da que v ⊥ z , y si no ocurre que v ⊥ u,
entonces z va a estar correlacionado con yi .
I Es una buena variable instrumental?
43 / 44
Referencias
Angrist & Pischke, ”Mostly Harmless Econometrics: An
empiricit’s Companion”, Cap 3 y Cap 4
44 / 44
	Matching
	Control con Matching
	Matching en STATA
	Limitaciones y problemas
	Variables instrumentales
	Relación causal y variables instrumentales
	Variable instrumental
	Debilidades, problemas y equivocaciones habituales en variables instrumentales
	Múltiples instrumentos
4 1 E MatchingVI

Economía y Negocios

SIN SIGLA

Economía y Negocios

Continuar navegando

Otros materiales