Logo Studenta

Clases Teoría Econométrica II - Vicente Breguel Gallaher

¡Este material tiene más páginas!

Vista previa del material en texto

Instituto Economía UC Teoría Econométrica II
Apuntes de clases
Teoría Econométrica II
Primer Semestre, 2018.
Profesor: Tomás Rau Binder.
Ayudante: Sebastián Poblete C.
Alumno: Vicente Breguel Gallaher1
Nota: Los apuntes corresponden a las clases del profesor Tomás Rau en el curso de Teoría Econométrica II
durante el primer semestre del 2018. Cualquier similitud con sus ppt’s se debe a que fueron una guía constante
en el desarrollo de este documento. Además, cualquier error en fórmulas o en explicación sobre algún teorema
y/o concepto se debe exclusivamente a mi responsabilidad. Por último, este documento no representa bajo
ningún motivo los apuntes oficiales del ramo.
1 Magister en Economía UC. Mail: vabreguel@uc.cl
1
Instituto Economía UC Teoría Econométrica II
Índice
1. Modelo Básico de Elección Binaria 5
2. Logit Multinomial 9
2.1. Distribución Multinomial (Generalización de una Bernoulli). . . . . . . . . . . . . . . . . . . . 9
3. Probit Multinomial 10
3.1. Multinomial Ordenado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4. Modelos de elección Discreta/Continua 13
5. Modelos de Selección 14
5.1. Full Information Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6. Regresión censurada (Tobit) y modelos de conteo 18
6.1. Modelos de Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.1.1. Extendiendo modelo Poisson simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7. Modelos de duración 21
7.1. Modelos paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.2. Factores determinantes de la duración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7.2.1. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8. Estimadores Extremos 24
8.1. Ley de Grandes Números Uniforme (ULLN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8.2. Estimador Máximo Verosímil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8.2.1. Normalidad Asintótica de EE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
9. Método Generalizado de Momentos 28
9.1. Ejemplo GMM y 2SLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9.1.1. El test J de restricciones de sobre-identificación . . . . . . . . . . . . . . . . . . . . . . 30
10.Identificación 31
10.1. Modelo Causal de Rubin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2. Métodos de Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
10.3. Supuestos de Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
10.4. Estimador de matching simple o exacto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
10.5. Matching en propensity Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.6. Algunos resultados about pscore matching. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10.7. Matching en características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10.7.1. El método de Abadie e Imbens (2006) . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10.7.2. Díaz, Rau y Rivera (2015, RESTAT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
10.7.3. Métodos Doblemente Robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
Instituto Economía UC Teoría Econométrica II
11.Datos de Panel 40
11.1. Control de heterogeneidad individual no observable. . . . . . . . . . . . . . . . . . . . . . . . 41
11.2. Control por variables omitidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
11.3. Dinámica de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
11.4. Un Modelo Lineal de Datos de Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
11.4.1. One-way error component model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
11.4.2. Problemas con LSDV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
11.5. Frish-Waugh-Lovell: Estimador de Efectos Fijos. . . . . . . . . . . . . . . . . . . . . . . . . . 45
11.5.1. Prueba de Efectos Fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
11.5.2. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
11.6. Efectos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
11.6.1. Estimador BG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
11.6.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
12.Paneles Dinámicos 48
12.1. Differences-in-Differences (DD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
12.1.1. Marco de trabajo: Diferencias en Diferencias. . . . . . . . . . . . . . . . . . . . . . . . 50
12.1.2. Supuesto de identificación - Parallel Trends. . . . . . . . . . . . . . . . . . . . . . . . . 50
12.1.3. Chequeos de robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
12.1.4. Problemas con DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.Variantes 51
13.1. Differences in Differences (DID) - Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.2. Differences in Differences (DID) - Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.3. Differences in Differences No Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
13.4. Clustering en el modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
13.4.1. Clustering con datos de panel (FE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
14.Aleatorización 54
14.1. Amenazas a la validez Interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
14.2. Métodos de aleatorización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
14.3. Cálculos de poder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
14.4. Imperfect complience y Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . 57
14.4.1. ¿Qué identifica el � de Wald? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
14.4.2. ¿Qué se puede aprender de una aleatorización? . . . . . . . . . . . . . . . . . . . . . . 59
14.5. Randomization Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
15.Variables Instrumentales 60
15.1. Variables Instrumentales y Evaluación de Impacto . . . . . . . . . . . . . . . . . . . . . . . . 61
15.2. Variables Instrumentales - Caso Sobre-Identificado . . . . . . . . . . . . . . . . . . . . . . . . 61
15.3. Normalidad y Consistencia Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
15.4. Los 3 tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
15.4.1. Supuesto 0: Exogeneidad débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
15.4.2. Supuesto 1: Sobreidentificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
15.4.3. Supuesto 2: Instrumentos débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
15.5. Treatment-Effects Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
15.6. Two Sample IV / Data Combination Strategies . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3
Instituto Economía UC Teoría Econométrica II
16.Regression Discontinuity 67
16.1. El Fuzzy design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
16.2. Ancho de banda hpara LLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
16.3. Recapitulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4
Instituto Economía UC Teoría Econométrica II
1. Modelo Básico de Elección Binaria
Modelo de probabilidad lineal (MPL)
Yi = xi� + ui i = 1, . . . , n.
yi✏ {0, 1}
De ese modo, si obtengo la esperanza condicional, lo que sucede es:
E(yi|xi) = 1 ⇤ Pr(yi = 1|xi) + 0 ⇤ Pr(yi = 0|xi)
E(yi|xi) = Pr(yi = 1|xi)
Dada la naturaleza discreta de la variable aleatoria. Luego, además, se observa que:
E(yi|xi) = xi� + E(ui|xi)| {z }
=0 (sup.identificación)
y finalmente, juntando ambas expresiones, obtenemos que la probabilidad es lineal:
Pr(yi|xi) = xi�
¿Debemos preocuparnos? Hay 2 puntos importantes (problemas) que destacar;
1. No podemos garantizar que 0  xib�  1, es decir, que la probabilidad viva en el compacto [0, 1] (por
definición axiómatica).
2. Errores no normales y heterocedásticos (se puede demostrar «fácilmente» que V(ui|xi) = (1 �
xi�)xi�, ya que:
ui = 1� xi� ; yi = 1
ui = xi� ; yi = 0
y la varianza de una bernoulli es p(1� p).
El mensaje es que estimar un modelo de probabilidad lineal puede tener problemas. Sin embargo, hay
autores que lo defienden bajo el argumento de que cuando hay muchas observaciones, los efectos mar-
ginales no difieren entre modelos y por tanto el problema se reduce. Sin embargo, ¿existe algún modelo
que garantize la no existencia de estos problemas?
Modelo de Elección Binaria
Este modelo establece que existe una variable latente que depende de variables observables (no
observada por el econometrista) y de un término de error:
y⇤i = xi� + ui
Lo que si observamos es:
yi =
(
1 y⇤i > 0
0 y⇤i  0
¿Cuáles son sus implicancias?
5
Instituto Economía UC Teoría Econométrica II
• E(yi|xi) = Pr(yi = 1|xi) = Pr(y⇤i > 0|xi) = Pr(xi� + ui > 0|xi) ! Pr(�ui < xi�|xi). Ahora, si
llamamos F (·) a la función de probabilidad acumulada de �ui y la asumimos simétrica en torno
a 0, obtenemos que:
E(yi|xi) = F (xi�) (no�lineal)
Sin embargo, ahora si bien aseguramos que vive en el compacto [0, 1], desconocemos la elección de
F (·).
Función de verosimilitud
Dada la naturaleza binomial del modelo, la función de verosimilitud está dada por:
l(�; yi|xi) = F (xi�)yi(1� F (xi�))1�yi (bernoulli)! Para una observación
tomando logaritmo a la expresión anterior
L(�) = yilog [F (xi�)] + (1� yi)log [1� F (xi�)]
luego, la esperanza muestral (N) de la loglikelihood no es más que:
EN(L(�; yi|xi)) =
1
N
NX
i=1
{yiln (F (xi�)) + (1� yi)ln (1� F (xi�))}! promedio muestral de L(�; yi|xi)
como el promedio está acotado por arriba y alcanza el máximo valor en un único �, derivamos e
igualamos a 0 para estimar el parámetro b�;
�EN (L(�; yi|xi))
��
=
1
N
NX
i=1
⇢
yi
F (xi�)
⇤ f(xi�) ⇤ x
0
i +
(1� yi)
1� F (xi�)
⇤ �f(xi�) ⇤ x
0
i
�
=
1
N
nX
i=1
⇢
yi ⇤ fi
Fi
� (1� yi) ⇤ fi
1� Fi
�
| {z }
escalar
x
0
i|{z}
vector
=
1
N
NX
i=1
(yi � F (xi�)) f(xi�)x
0
i
F (xi�)(1� F (xi�))
! SCORE (k ⇥ 1)
luego, la CPO
⇣
�EN (L(�;yi|xi)
��
⌘
= 0 será un sistema de k ecuaciones y k incógnitas (�), sin embargo,
será no lineal, y lo deberemos resolver según Newton-Rapshon ó alguna variante como BHHH.
Modelo Logit
Para este caso, se tiene que
F (z) = ⇤(z) =
1
1 + e�z
(CDF )
y, por tanto, note que la PDF será �⇤(z)�z =
e�z
(1+e�z)2 =
✓
1
1 + e�z
◆
| {z }
⇤(z)
✓
e�z
1 + e�z
◆
| {z }
(1�⇤(z))
, luego, reemplazando:
�EN (L(�; yi|xi)
��
=
1
N
NX
i=1
(yi � ⇤(xi�))
⇠⇠
⇠⇠
⇠⇠
⇠⇠
⇠⇠:
⇤(xi�)(1� ⇤(xi�))x
0
i
⇠⇠
⇠⇠
⇠⇠
⇠⇠
⇠⇠:
⇤(xi�)(1� ⇤(xi�))
=
1
N
NX
i=1
(yi � ⇤(xi�))x
0
i
6
Instituto Economía UC Teoría Econométrica II
y al igualar a 0, creamos un sistema de k ecuaciones y k incógnitas. Luego, la matriz Hessiana
promedio (matriz de segundas derivadas) es:
H =
�2EN [L(�; yi|xi)]
����0
= EN [L�� ] =
1
N
X
x
0
i
(kx1)
⇤
✓
��⇤(xi�)
��’
◆
(1xk)
=
1
N
X
x
0
i (�⇤(xi�)(1� ⇤(xi�))xi
= � 1
N
nX
i=1
⇤i(1� ⇤i)| {z }
escalar
⇤ x
0
ixi
que es una matriz definida negativa y � identificado (único). Y, además, nos sirve también para
encontrar la matriz de varianzas y covarianzas. ¿Cómo? Con el inverso de la matriz hessiana.
p
N
⇣
b� � �
⌘
d�! N
⇣
0, (�NEN (L�� (�; yi|xi))�1
⌘
EN
⇣
I
⇣
b�|xi
⌘⌘
| {z }
promedio de la matriz condicional de información
= �EN (L��(�; yi|xi))
donde EN
⇣
I(b�|xi)
⌘
es el negativo de H.
(OJO que EN representa un promedio muestral: suma y división)
Modelo Probit
(ocupamos una acumulada de una normal estándar)
F (z) =
zˆ
�1
1p
2⇡
e�
u2
2 du = �i
f(z) =
1p
2⇡
e�
z2
2 = �i
En este caso, se tiene que:
EN(L(�; yi|xi)) =
1
N
X
yi=0
��i
1� �i
⇤ x
0
i +
1
N
X
yi=1
�i
�i
⇤ x
0
i
con �i (PDF) y �i (CDF). Luego, el promedio muestral del Hessiano correspondiente es:
H =
�2EN [L(�; yi|xi)]
����0
=
X
yi=0
��i
(1� �i)2
[...]
Comparación entre ambos modelos:
• Ambos modelos predicen de forma similar; estimadores son estadísticamente indistinguibles.
• Si las muestras son muy grandes pueden aparecer diferencias ya que la distribución logística tie-
ne colas más pesadas (anchas) que la distribución normal (ver gráficos), por lo tanto es más
probable ver efectos extraños en la distribución logística.
• Para que los parámetros entre los modelos sean comparables, se deben realizar ciertos ajustes:
�probit = �logit ⇤
p
3
⇡
= �logit ⇤ 0, 625
7
Instituto Economía UC Teoría Econométrica II
Efectos marginales:
• En un modelo lineal, los efectos marginales son constantes. Sin embargo, acá son variables (no
constantes).
E(y|x) = x�
�E(y|x)
�x
= � constante
• En el modelo de elección binaria:
E(y|x) = F (x�)
�E(y|x)
�x
= f(x�) ⇤ � no constante
� Probit;
�Pr [yi = 1|xi]
�xi
= � (xi�) ⇤ �
� Logit;
�Pr [yi = 1|xi]
�xi
= ⇤(xi�) [1� ⇤(xi�)] ⇤ �
los errores standard de estos efectos marginales se pueden obtener según el Método Delta.
Ver en presentación las varianzas asintóticas de cada modelo (Probit y Logit).
• Comentarios finales probit y logit:
� Efecto marginal: ¿Evaluamos en el promedio ó el promedio de las evaluaciones individuales?
Según teorema de continuidad debería dar lo mismo, pero en la práctica, para muestras
pequeñas se recomienda calcular los efectos marginales individuales y luego promediarlos (de-
finición de promedio).
� Efecto marginal de variables dummies: La forma correcta de estimar el efecto marginal
de una variable independiente binaria, por ejemplo d, sería:
Prob [Y = 1|x⇤, d = 1]� Prob [Y = 1|x⇤, d = 0]
donde x⇤es la media de todo el resto de las variables independientes.
� Problemas de estimación en Probit: Supongamos que tenemos una combinación de xi
tal que: (
yi = 1 xi�̊ > 0
yi = 0 xi�̊ < 0
si esto ocurre hay separación completa de los datos y podemos hacer la loglik arbitra-
riamente cerca de 0. Esto se denomina «clasificador perfecto» y � no puede ser identificado
incluso si el hiperplano es único (?).
� Grados de libertad en muestras desbalanceadas: Otro problema de identificación ocurre
cuando tenemos una combinación de muestra pequeña con un gran número de parámetros
a ser estimados. La regla que aplica aquí es la siguiente:
Sí mı́n [ny, n(1� y)] < k, entonces no se pueden estimar los �0s. Donde n es el temaño
de muestra, k es la dimensión de �, ny es el número de unos y n(1� y) es el número de ceros.
Lo anterior pues no existe solución finita para las CPO’s y, por lo tanto, � no puede ser
identificado.
8
Instituto Economía UC Teoría Econométrica II
2. Logit Multinomial
El Logit usual se puede generalizar a múltiples outcomes discretos, no solamente de carácter binario. Luego,
debemos considerar el siguiente «set» de alternativas (no necesariamente ordinales)
y✏ {0, 1, 2, . . . , J}
Se asumen regresores x comunes, pero los parámetros �j distintos entre categorías. El Modelo
Logit Multinomial está dado por:
Pr(y = j|x) = exp (x�j) /
"
1 +
JX
h=1
exp(x�h)
#
donde �j es un vector de kx1, j = 1, . . . , J . Luego, asumiendo tambiénque �0 = 0 (lo que es irreal y poco
aplicable), para que las probabilidades sumen uno necesitamos una normalización implícita que se muestra
a continuación:
Pr(y = 0|x) = 1h
1 +
PJ
h=1 exp(x�h)
i
Luego,
JX
j=0
Pr(y = j|x) = 1h
1 +
PJ
h=1 exp(x�h)
i +
PJ
h=1 exp (x�h)h
1 +
PJ
h=1 exp(x�h)
i = 1
Note que;
Pr(y = j|x) = e
x�i
PJ
h=0 e
x�h
· e
�x�0
e�x�0
! e
x(�j��0)
PJ
h=0 e
x(�h��0)
=
ex
e�j
PJ
h=0 e
xe�h
donde los tildes representan el desvío con respecto a �0, siendo esta última la «categoría base», siendo
esta la alternativa correcta, ya que los betas si deben compararse con alguna categoría pase, en este caso la
categoría 0.
El Multinomial-Logit es compatible con maximización de utilidad (McFadden 1978), a través de un
«Random-Utility-Model». Lo anterior es;
Uj = x�j + ej e ⇠ Gumbel (Extreme Value Type I)
Pr(Uj > Uk, j 6= k) =
ex�j
1 +
PJ
h=1 e
x�h
donde
F (e) = e�e
�(e�u)/s
y usamos u = 0 y s = 1.
2.1. Distribución Multinomial (Generalización de una Bernoulli).
f(y) = p1[y=0]o ⇥ . . .⇥ p
1[y=J]
J
con
pj =
ex�j
1 +
PJ
h=1 e
x�h
= p(x�j)
luego, tomando ln a la función f(y), sumando sobre i y dividiendo por N posteriormente, podemos ver que
para una observación, se tiene que la log-lilekihood:
li (�) =
JX
j=0
1 [yi = j] ln (Pj(xi�j))
luego, el estimador MV de � es aquel que minimiza 1N
Pn
i=1 li (�)
9
Instituto Economía UC Teoría Econométrica II
Efectos parciales (marginales)
En este caso son un poco más complicados, pero solamente corresponden a la derivada parcial con respecto
a la independiente de interés. Luego,
�Pr (y = j|x)
�xk
= Pr (y = j|x)
(
�jk �
"
JX
h=1
exp (x�h)�hk
#
/g(x,�)
)
donde
g(x,�) = 1 +
JX
h=1
exp(x�h)
y los errores standard se calculan con el metodo delta, al igual que en aplicaciones anteriores. Los efectos
marginales NO se calculan para la categoría base y, además, algo importante también es que los ej son
independientes en categorías y entre categorías, esto se ve en la Independencia de Alternativas Irrelevantes.
(el �0 no se puede recuperar)
Independencia de Alternativas Irrelevantes
Un supuesto clave en el caso del Multinomial Logit es el de la Independencia de las Alternativas Irrelevantes
(IAA), es decir,
Pr(yi = k)
Pr(yi = j)
=
e�
0
kxi
e�
0
jxi
= e(�
0
k��
’
j)xi (odd ratio)
luego, en ese caso notamos que no depende de otras alternativas �l con l 6= k y l 6= j, por lo que el odd ratio
no cambiará al aparecer alguna nueva alternativa. De no cumplirse el supuesto de IIA entonces el modelo
perdería validez, y esto ocurre por lo mismo que se introducía en la subsección anterior: los errores eij son
independientes entre alternativas para una persona i.
Si las alternativas son realmente independientes, podría estimar un modelo con menos alternativas y, bá-
sicamente, los �0s no deberían cambiar. Luego, se puede realizar un test de Hausman-Mcfadden entre
el modelo incompleto (consistente e ineficiente bajo H0 : b), es decir, modelos que eliminan una de las
alternativas, y el modelo completo (consistente y eficiente bajo H0 : b). Si hay diferencias significativas
entre los parámetros, rechazamos la nula de IIA.
El estadístico HM es:
(b�B)
0
V (b�B)�1(b�B) ⇠ �2((J�2)·k)
donde b es sacando la alternativa y B es del modelo completo.
3. Probit Multinomial
Este modelo no impone independencia entre las alternativas (IIA). Asumamos 3 categorías (es decir,
3 latentes).
Y *1 = V1 + ✏1
Y ⇤2 = V2 + ✏2
Y *3 = V3 + ✏3
donde Vj = xj� ó Vj = x�j . Luego, (✏1, ✏2, ✏3) ⇠ N(0,
P
) , con
X
=
0
@
�21 �12 �13
�12 �22 �23
�13 �23 �23
1
A
10
Instituto Economía UC Teoría Econométrica II
Considere ahora la probabilidad de que escogamos la categoría 1,
Pr (Y ⇤1 > Y
⇤
2 , Y
⇤
1 > Y
⇤
3 )
= Pr (V1 + ✏1 > V2 + ✏2, V1 + ✏1 > V3 + ✏3)
= Pr
0
@V1 � V2 > ✏2 � ✏1| {z }
e✏21
, V1 � V3 > ✏3 � ✏1| {z }
e✏31
1
A
= Pr
⇣
e✏21 < �eV21,e✏31 < �eV31
⌘
ahora, note que;
(e✏21,e✏31) ⇠ N(0,⌦)
donde
⌦ =
✓
�21 + �
2
2 � 2�12 �23 � �21 � �13 + �21
00 (diag) �23 + �21 � 2�13
◆
Luego,
P1 =
�eV21ˆ
�1
�eV31ˆ
�1
f (e✏21,e✏31) de✏21de✏31
donde f (e✏21,e✏31) tiene una distribución normal bivariada con matriz de covarianza igual a ⌦ y media
0. Sin embargo, esa integral es muy difícil de estimar.
Intuición Integral por MCO
Supongamos queremos evaluar la siguiente integral:
I =
bˆ
a
f(x)dx !
✓
1
b� a
◆
I =
bˆ
a
✓
1
b� a
◆
f(x)dx
Luego,
= E (f(x))
Z) I = (b� a)E (f(x))
Monte Carlo Integration
Luego, podemos muestrear D realizaciones ui de una uniforme [0, 1], transformar xi = a+ (b� a)ui y,
así, x es uniforme [a, b]. Usando el principio de analogía;
EN [f(x)] =
1
D
DX
i=1
f(xi)
bI = (b� a) 1
D
DX
i=1
f(xi)
Luego, si tenemos un estimador pij para la observación i, opción j y sea yij igual a 1 si la observación
i toma la opción j y 0 si no. Podemos estimar por Simulated Maximum Likelihood;
ln
⇣
bLN
⌘
=
NX
i=1
JX
j=1
yij ln (bpij)
11
Instituto Economía UC Teoría Econométrica II
3.1. Multinomial Ordenado
Observamos «m» categorias con naturaleza «ordinal» (se pueden ordenar mediante un orden lógico
entre ellas. Ej. encuestas de satisfacción).
En estos modelos, existe una variable latente (utilidad) detrás de la decisión tal que:
y⇤i = x
0
i� + ui
yi = j si ↵j�1 < y⇤i  ↵j
con ↵0 = �1 y ↵m�1 = +1. Es importante notar que aquí ya no existe el tema de la categoría
base, ya que se pueden ordenar lógicamente, en un multinomial lobit las categorías no necesariamente
son ordenables, por ej. «me voy en auto», «me voy en avión», «me voy en tren».
En términos de probabilidades, la probabilidad de que el individuo escoga la categoría j se
podrá expresar del siguiente modo:
Pr (y = j) = Pr (↵j�1 < y
⇤
i  ↵j)
= Pr
⇣
↵j�1 < x
0
i� + ui  ↵j
⌘
= Pr
⇣
↵j�1 � x
0
i� < ui  ↵j � x
0
i�
⌘
= Fui
⇣
↵j � x
0
i�
⌘
� Fui
⇣
↵j�1 � x
0
i�
⌘
y lo que vamos a hacer será escoger una distribución para el error ui. Si es una distribución logística,
será un logit ordenado, y si escogemos normal, será un probit ordenado. Además, debemos notar
que los ↵0s son desconocidos y deben ser estimados al igual que los �0s.
Supongamos que tenemos una variable dependiente con cuatro alternativas ordenadas y el error del
modelo de la variable latente se distribuye normal (probit ordenado).
y⇤i = x
0
i� + ui
yi =
8
>>><
>>>:
1 si �1 < y⇤i  ↵1
2 si ↵1 < y⇤i  ↵2
3 si ↵2 < y⇤i  ↵3
4 si ↵3 < y⇤i  +1
Entonces, se tiene que:
Pr (y = j|x) = �
⇣
↵j � x
0
i�
⌘
� �
⇣
↵j�1 � x
0
i�
⌘
luego, por ejemplo, cuando j = 1! ↵0 = �1
Pr (y = 1|x) = �
⇣
↵1 � x
0
i�
⌘
�⇠⇠⇠
⇠⇠:0
� (�1)
y, por ejemplo, cuando j = 4;
Pr (y = 4|x) = 1� �
⇣
↵3 � x
0
i�
⌘
luego es fácil representar las probabilidades de elección de cada una de las categorías. Finalmente, la
verosimilitud es construida al igual que en el caso no ordenado, y maximizada con respecto a ↵,�.
12
Instituto Economía UC Teoría Econométrica II
¿Cómo serán los efectos marginales?
�Pr (yi = 1|xi)
�x
= ��
⇣
↵1 � x
0
i�
⌘
· � ; negativo
�Pr (yi = 2|xi)
�x
= ��
⇣
↵2 � x
0
i�
⌘
· � + �
⇣
↵1 � x
0
i�
⌘
· � ;negativa
�Pr (yi = 3|xi)
�x
= ��
⇣
↵3 � x
0
i�
⌘
· � + �
⇣
↵2 � x
0
i�
⌘
· � ;positiva
�Pr (yi = 4|xi)
�x
= �
⇣
↵3 � x
0
i�
⌘
· � ; positiva
Pseudo R2 = 1 � l0l1 . Siendo l1 la función de verosimilitud evaluada en
b�MV y l0 es la función de
verosimilitud de un modelo sin regresores (sólo 1 constante). Entonces, mientras más grande es la ve-
rosimilutud del modelo completo, el ratio se va a 0, y por tanto el Pseudo R2 se acerca a 0.
El concepto dice cuanta más verosimilitud agregan los regresores al modelo. Recordar que cuando yo
regresiono frente a una constante el � es la media, por lo que agregar regresores hace que mi estimación
sea más «verosímil» y no solamente me centre en el promedio.
4. Modelos de elección Discreta/Continua
Este tipo de modelos corresponde a una ecuación estructural (y que corresponde a la variable continua)
y una ecuación de selección (variable discreta binaria).
y1i = xi� + v1i si y
⇤
2i > 0
luego,si y⇤2i  0 no observamos y1i. Ej. salarios y participación laboral, siendo la participación la binaria
si ó no.
y2i|{z}
observada
=
(
1 si y⇤2i > 0
0 si y⇤2i  0
luego, la anterior es la ecuación de selección (latente). Siendo;
y⇤2i = zi� + v2i
Recordando que:
y1i = xi� + v1i /x
0
i
x
0
iy1i = x
0
ixi� + x
0
iv1i /E (·)
E
⇣
x
0
iy1i
⌘
= E
⇣
x
0
ixi�
⌘
+ E
⇣
x
0
iv1i
⌘
luego, por supuesto de identificación se cumplía que E
⇣
x
0
iv1i
⌘
= 0 y, por tanto, se obtenía que:
� =
n
E
⇣
x
0
ixi
⌘o�1
E
⇣
x
0
iy1i
⌘
Sin embargo, si sólo observamos y1i cuando y⇤2i > 0, no podemos encontrar un análogo muestral para
estimar �. Luego, sólo podemos encontrar un análogo muestral de E
h
x
0
iy1i|y*2i > 0
i
. Al condicionar en y2i el
supuesto de identificación necesario sería
E [v1i|xi, y⇤2i > 0] = 0
y generalmente no se cumplirá y el parámertro estructural no está identificado. Luego, dada la
regla de selección tenemos un problema de identificación y de estimación. Heckman (1976) encuentra
13
Instituto Economía UC Teoría Econométrica II
una solución brillante.
El problema es que sólo podemos identificar expresiones del tipo:
E [y1i|x, y⇤2i > 0]
y sabemos que la esperanza condicional está dada por:
E [y1i|x] = E [y1i|x, y⇤2i > 0]Pr (y⇤2i > 0) + E [y1i|x, y⇤2i  0]Pr (y⇤2i  0)
luego, el segundo término no lo observamos en la muestral (analogy principle falla). Pero note que (asu-
miendo xi exógeno);
E [y1i|x, y⇤2i > 0] = E [xi�|x, y⇤2i > 0] + E [v1i|x, y⇤2i > 0]
= xi� + E [v1i|zi� + v2i > 0]
= xi� + E [v1i|v2i > �zi�]| {z }
Hazard Rate �(z�)
y no podemos asumir que E [v1i|v2i > �zi�] = 0. Sin embargo, si pudiéramos incorporar esta expresión como
un regresor (variable omitida) tendríamos identificación y podríamos correr una regresión de y1i en xi y
E [v1i|y2i > 0] . Un resultado de estadística nos dice que:
f (v1|v2 > �zi�) =
´1
�z� f(v1, v2)dv2´1
�z� f(v2)dv2
=
´1
�z� f(v1, v2)dv2
Pr (v2 > �zi�)
que es la condicional de v1 dado v2 > �z�, Luego,
E (v1|v2 > �z�) =
1̂
�1
v1 ·
´1
�z� f(v1, v2)dv2dv1´1
�z� f(v2)dv2dv1
que es lo mismo que;
E (v1|v2 > �z�) =
´1
�1
´1
�z� v1 · f(v1, v2)dv2dv1⇣´1
�z� f(v2)dv2dv1 =
´1
�1
´1
�z� f(v1, v2)dv2dv1
⌘ = � (z�)
y el denominador tiene las siguientes características:
Pr (v2 > �zi�) =
1̂
�1
1̂
�z�
f(v1, v2)dv2dv1
=
1̂
�z�
f(v2)dv2
5. Modelos de Selección
En cuanto a la elección discreta/continua vimos un problema que es bastante interesante. Tenemos trun-
camiento de la variable dependiente de nuestra ecuación estructural. Además, conocemos la regla de selección
pero observamos una discretización o resultado discreto. Luego, ¿podemos identificar los parámetros es-
tructurales � a pesar de este problema? La respuesta es afirmativa, bajo ciertos supuestos distribucionales.
Ahora, queremos operar el hazard rate, y comenzamos asumiendo que la distribución conjunta entre dos
variables aleatorias x e y es normal bivariada, especificado de la siguiente manera;
✓
x
y
◆
⇠ N
✓
µx
µy
◆
,
✓
�2x ⇢�x�y
⇢�x�y �2y
◆�
14
Instituto Economía UC Teoría Econométrica II
luego, una de las tantas ventajas de la distribución normal es que la distribución condicional también
es normal:
y|x ⇠ N
✓
µy +
⇢�x�y
�2x
(x� µx) ,�2y
�
1� ⇢2
�◆
Además, existe el siguiente resultado:
E (y|x > a) = µy + ⇢�yE

(x� µx)
�x
|x > a
�
= µy + ⇢�y�
✓
a� µx
�x
◆
| {z }
hazard rate
y dada la normalidad bivariada de
✓
x
y
◆
se puede demostrar que;
� (µ) =
� (µ)
1� � (µ)
! densidad de una normal (pdf)
! probabilidad acumulada (cdf)
lo que es útil porque conocemos la pdf y la cdf de una normal. Luego,
y1 = x� + v1
y⇤2 = z� + v2
Si
✓
v1
v2
◆
⇠ N
✓✓
0
0
◆
,
✓
�21 p�1
⇢�1 1
◆◆
, con �22 normalizada en 1 (condición necesaria ya que no se puede
identificar - En modelos no lineales es muy común la normalización), ahora se cumple que:
E (y1|x, y⇤2 > 0) = x� + E (v1|x, y⇤2 > �z�)
prescindiendo de x ya que es exógeno. Luego,
E (y1|x, y⇤2 > 0) = x� + E (v1|v2 > �z�)
= x� + ⇢�1� (�z�)
= x� + ⇢�1
✓
� (�z�)
1� � (�z�)
◆
= x� + ⇢�1
� (z�)
� (z�)
y es importante este resultado ya que sin asumir la noirmal bivariada sería imposible llegar a esta forma
funcional, donde se debe cumplir que:
� (z�) =
1p
2⇡
e�
(z�)2
2
� (z�) =
ˆ z�
�1
1p
2⇡
e�
µ2
2 du
Luego, también debemos saber que � es desconocido. Heckman (1979) sugiere realizar los siguientes pasos:
1. Estimar � consistentemente usando un probit para la probabilidad de observar los datos en función de
z y obtener b�. (Esto es lo mismo que estimar un probit para la decisión de participar).
2. Calcular o evaluar b� = �
⇣
zib�
⌘
para todas las observaciones i.
15
Instituto Economía UC Teoría Econométrica II
3. Estime la regresión:
y1i = xi� + ⇢�1b�
⇣
zib�
⌘
+ "i
Luego heckman demuestra que estimando esta regresión aumentada se obtiene un b� consistente, es
decir, que converge al valor poblacional.
b� p�! �
4. Este es el método de Heckman en 2 etapas.
LIML : Limited Information Maximum Likelihood
Elementos a considerar:
El estimador del error estándar convencional es ineficiente pues el modelo de regresión a estimar es
intrínsecamente heterocedástico debido a la selección. Una forma de solucionar esto es mediante el uso
de los estimadores de los errores estándar robustos los cuales son al menos consistentes.
El método no impone la condición de que |p|  1 lo cual esta implícitamente asumido en el modelo.
Esta condición es a menudo violada.
El supuesto de normalidad es necesario para la consistencia de los estimadores.
Luego, es un modelo que requiere MUCHA estructura.
5.1. Full Information Maximum Likelihood
¿Hay alguna manera de evitar las 2 etapas y estimar todo de manera simúltanea? Sí. La función de verosi-
militud se compone de dos partes fundamentales:
1. El evento y⇤2 > 0, y2 = 1 observando y1.
2. El evento y⇤2  0 no observando y1 (y1 missing)
Luego,
1. Pr (y1, y⇤2 > 0|x, z)) y2 = 1
2. Pr (y⇤2  0|z)) y2 = 0
L =
nY
i=1
Pr (y1i, y
⇤
2i > 0|x, z)
y2i · Pr (y⇤2i  0|z)
1�y2i
Luego, requiere de ciertos pasos para obtener la loglikelihood (ver pdf en webcursos), pero llegamos a
lo siguiente:
lnL (�, �, ⇢,�1; y, x, z) =
nX
i=1
ln [1� �(zi�)] · (1� y2i)
+
nX
i=1

�ln�1 + ln�
✓
y1i � xi�
�1
◆
· y2i
�
+
nX
i=1
"
ln�
 
zi� +
⇢
�1
(y1i � xi�)p
1� ⇢2
!
· y2i
#
y este método FIML es eficiente relativo al de 2 etapas.
16
Instituto Economía UC Teoría Econométrica II
Heckprob (Discreto/Discreto)
Vimos con detenimiento el caso en que observamos una ecuación estructural lineal condicional en que se
observa un índice de participación. En otras ocasiones la ecuación estructural no es lineal, sino que binaria.
Este modelo fue por primera vez analizado (y estimado) por Ven-Pragg (1981), en el cual se tienen dos
modelos de elección binaria que pueden ser tratados como simultáneos o secuenciales.
8
><
>:
D2 = 1 participa
(
D1 = 1 participa
D1 = 0 Full � T ime
D2 = 0 no� participa
Luego,
D1 =
8
>>>>>><
>>>>>>:
1 y⇤1i > 0,
y⇤2>0z }| {
D2 = 1
0 y⇤1i  0, D2 = 1
missing D2 = 0| {z }
(y⇤20)
D2 =
(
1 y⇤2 > 0
0 y⇤2  0
y las ecuaciones para las variables latentes están dadas por:
y⇤2i = zi� � v2i
y⇤1i = xi� � v1i
donde se asume que el vector (v1i, v2i) se distribuye como una normal bivariada con media (0, 0) y varianzas
(1, 1) y correlación ⇢. ✓
v1
v2
◆
⇠ N
✓✓
0
0
◆
,
✓
�21 ⇢�1
⇢�1 1
◆◆
luego, tal como está presentado el modelo, tenemos tres realizaciones posibles para el vector (D1i, D2i) que
se muestra a continuación:
{D1, D2} = {(1, 1) , (0, 1) , (., 0)}
Pr (D1 = 1, D2 = 1) = Pr (y
⇤
1 > 0, y
⇤
2 > 0)
= Pr (x� � v1 > 0, z� � v2 > 0)
= Pr (v1 < x�, v2 < z�) = � (x�, z�, ⇢)
que ya sabemos que es una normal bivariada (cdf) (�).
Pr (D1 = 0, D2 = 1) = Pr (y
⇤
1  0, y⇤2 > 0)
= Pr (�v1  �x�, v2 < z�)
= � (�x�, z�,�⇢)
Pr (., 0)() (D1, D2)
(y⇤2  0)
Luego,
Pr (y⇤2  0) = Pr (z� � v2  0)
= Pr (v2 � z�)
= 1� � (z�)
17
Instituto Economía UC Teoría Econométrica II
Finalmente, la función de verosimilitudpara el caso simultáneo se puede escribir de la siguiente manera:
L =
nY
i=1
Pr (D1 = 1, D2 = 1)D1 ·D2 · Pr (D1 = 0, D2 = 1) · (1�D1) ·D2 + Pr(D2 = 0) · (1�D2)| {z }
se activa si D2=0
l (�, �, p) =
nX
i=1
ln {�2 (xi�, zi�, ⇢)}D1iD2i
+
nX
i=1
ln {�2 (�xi�, zi�,�⇢)} (1�D1i)D2i
+
nX
i=1
ln {1� � (zi�)} (1�D2i)
6. Regresión censurada (Tobit) y modelos de conteo
Ahora, veremos un caso un poco diferente al de selección o truncamiento. Este es el de censura: tenemos
censura cuando para algún valor mayor o menor de una variable dependiente observamos una cota. Aquí,
no hay «regla de selección» subyacente o truncamiento, sino que tenemos una «regla de censura» que no
depende de regresores.
En sesgo de selección tenemos truncamiento debido a una elección de un agente, luego tenemos missing
values para la variable dependiente. Con censura, tenemos números (por ej. 0’s).
La modelación de este problema es así:
y⇤i = xi� + ui ui|xi ⇠ N(0,�2)
(con xi exógena), pero sólo observamos y⇤i cuando esta es mayor o igual a algún valor que asumiremos 0. En
este caso hay censura por la izquierda,
yi = máx (0, y
⇤
i )
Este modelo se llama un Tobit censurado estándar. Note que solo podemos estimar E (y|x, y > 0). Luego,
¿cómo podemos identificar a � poblacional? Retomando:
E (y|x, y > 0) = x� + E (u|x, y > 0)
= x� + E (u|x, u > �x�)
= x� + ��
✓
�x� � 0
�
◆
= x� + �
✓
� (x�/�)
� (x�/�)
◆
Luego, uno podría pensar en estimar algó así como:
y = x� + ��
✓
x�
�
◆
+ e
luego, como � entra de manera lineal y no lineal, tenemos un problema de identificación, es decir,
no se puede estimar de manera consistente a través de MCO (OLS). Sin embargo, la estimación la
hacemos por Máxima Verosimilitud. La loglikelihood es relativamente sencilla.
18
Instituto Economía UC Teoría Econométrica II
Note que hay dos eventos: y = 0 (discreto - observación censurada - indicatriz 1[y=0]) y > 0 (conti-
nuo - observación no censurada - indicatriz 1[y>0]). De ese modo, para observaciones censuradas:
Pr (y = 0|x) = Pr (y⇤i < 0|x)
= Pr (xi� + ui < 0|x)
= Pr (ui < �xi�|x)
/ ·
✓
1
�
◆
= Pr
✓
ui
�
<
�xi�
�
|x
◆
= �
✓
�xi�
�
◆
= 1� �
✓
x�
�
◆
y la densidad f(y|x) = 1�� ((y � xi�) /�). Ahora, para observaciones no censuradas: la pdf será:
f (y|x) = 1
(2⇡)
1
2 �
e�
(yi�xi�)
2
2�2
=
1
�
�
✓
yi � xi�
�
◆
y ahora tenemos las 2 partes de la función de máximo verosimilitud y podemos estimar de manera
consistente �. Luego,
L (�,�) =
nY
i=1

1� �
✓
x�
�
◆�1[y=0]  1
�
�
✓
(y � xi�)
�
◆�1[y>0]
Nuevamente, la «gracia» es que con una muestra censurada podemos recuperar los parámetros poblacionales.
6.1. Modelos de Conteo
En los modelos de conteo la variable dependiente es discreta y se puede contar, luego tiene sentido eco-
nómico, por lo tanto es típicamente � 0. Un ejemplo típico es en economía de la innovación para el número
de patentes que logra una firma, otro, en economía de la salud, número de licencias médicas que toma un
individuo. En transportes, por último, el número de accidentes automovilísticos.
Además, los eventos usualmente siguen una distribución de Poisson, sin embargo, este modelo puede
ser muy restrictivo. De todas formas, una distribución de Poisson es un buen comienzo.
yi ⇠ Poisson
con parámetro �i = f(xi). Esto implica que:
Pr [yi = y|xi] =
e��i�yii
yi!
yi = 0, 1, 2, ...
Típicamente se supone que ln�i = x
0
i�, es decir, �i = ex
0
i� y, por tanto,
E [y|x] = V ar [y|x] = �i = ex
0
i�
que no es deseable, ya que cuando se viola ese supuesto de que E = V , cuando uno estima la varianza no lo
podrá hacer de manera consistente (no se cumple el supuesto de la matriz de información). Luego, los efectos
marginales vienen dados por:
�E [y|xi]
�xk
= �i�k = E [y|xi]�k
19
Instituto Economía UC Teoría Econométrica II
�E [y|xi]
�xk
· 1
E [y|xi]
= �k ()
�ln (E [y|xi])
�xk
= �k
luego, los coeficientes �k se interpretan como semi-elasticidades si xk es continua. Luego, para xk dummy
(discreto), tomamos efectos discretos:
E (yi|x�k, xk = 1)� E (yi|x�k, xk = 0)
suponiendo que x
0
� = x
0
�̀ + ↵d con d =
(
1
0
. Luego,
E(yi|x, d = 1)� E(yi|x, d = 0)
=ex
0
�̀+↵ � ex
0
�̀
=
0
B@ ex
0
�̀
|{z}
E(yi|xi,d=0)
1
CA ⇤ (e↵ � 1)
luego, si paso dividiendo:
E(yi|x, d = 1)� E(yi|x, d = 0)
E(yi|x, d = 0)
= e↵ � 1
lo que quiere decir que:
4% = e↵ � 1
Máxima Verosimilitud: Recuerde que P (y = yi|x) = e
��i�yi
yi!
. Luego;
lnL =
nX
i=1
h
��i + yix
0
i� � lnyi!
i
y la CPO:
�lnL
��
=
nX
i=1
[yi � �i]xi = 0 99K SCORE; solución númerica
y el SCORE queda con [yi � �i] que representa un «seudo residuo», representada a través de la ob-
servación ajustada por su media. Además, se puede fácilemente demostrar que la esperanza de ese
seudo residuo será 0. Además, notar que las CPO implican que si tenemos la media condicional bien
especificada tenemos estimadores consistentes.
(Paréntesis empirico): Sabemos que E (y|x) = ex
0
� y ln (E (y|x)) = x0�. Luego, la tentación es hacer la
regresión ln(y) = x
0
� + e, con E (e|x) = 0, luego: E (ln (y|x)) = x0� y eso no se cumple en general,
ya que al ser y una variable de conte y = {0, 1, ...} las veces que observemos 0 será complicado (lo que se
hace para solucionarlo es «sumar algo» , normalmente 1, pero hay investigadores que ya no tolera eso).
Siguiendo, la CSO es muy similar a lo de siempre (y explotando la identidad podemos obtener la
varianza como el inverso del negativo de la esperanza del Hessiano):
�2lnL
����0
=
X �(yi � �i)xi
��0
=
X
��ixix
0
i
V
⇣
b�|x
⌘
=
⇣X
�ixix
0
i
⌘�1
luego, si no se cumple que esperanza condicional es igual a varianza condicional, esa varianza ya no es
correcta.
20
Instituto Economía UC Teoría Econométrica II
6.1.1. Extendiendo modelo Poisson simple
¿Qué pasa si no se cumple el supuesto de que la varianza es igual a la media? Tenemos «sobre-dispersión».
Un modelo de tipo Poisson que permite que media y varianza sean distintos es el Negative Binomial (ó
Poisson-Gamma - Poisson Generalizado). En este modelo, la distribución es:
yi ⇠ Poisson (�⇤i )
donde ln (�⇤i ) = xi� + vi donde evi ⇠ Gamma
�
1
↵ ,↵
�
, con media (a · b) = 1 y varianza
�
a · b2
�
= ↵. Luego,
usaremos la siguiente distribución:
Pr (y = yi|xi) =
e��
⇤
i �⇤
yi
i
yi!
note que: �⇤i = ex
0
i�+vi = �ievi (de ese modo, «perturbamos un poco el �⇤i ), luego, fijando xi y vi tenemos
una poisson tradicional: E (yi|xi, vi) = ex
0
i�+vi . Ahora, aplicando LEI (E (?) a ambos lados) tendremos que:
E (yi|xi) = ex
0
i� · E (evi)| {z }
1
E (yi|xi) = ex
0
i�
De este modo,
V (yi|xi) = E (V (yi|�⇤i )) + V (E (yi|�⇤i ))
= E (�⇤i |xi) + V (�⇤i |xi)
= �iE (evi)| {z }
1
+ �2iV (e
vi)| {z }
↵
= �i (1 + ↵�i)
lo que representará una sobre-dispersión en el caso en que ↵ > 0 y si ↵ < 0 bajo-dispersión (este caso
es muy poco común).
7. Modelos de duración
Último modelo no lineal que veremos en esta parte del curso. Sirve para modelar variables medidas en
duración en un estado. Por ej. Duración del desempleo, o duración con una enfermadad terminal, etc.
Estamos en una situación en que observamos duraciones en que queremos entender cuánto dura un fenó-
meno y, obviamente, la estática comparativa que determina la duración. Es clave entender cómo es el
proceso de recolección de datos:
1. Flow sampling: personas que entran al desempleo en un mes dado.
2. Stock sampling: personas que están desempleadas en un mes dado.
3. Population sampling: toda la población (empleados y desempleados).
Generalmente hay censura: por eso muchas veces se estudia en más detalle la transición que la
duración media.
La variable de interés es la duración o permanencia en un estado, por ej. empleo (T ). T ⇠ duración
o permanencia en un estado, con f(t) su densidad y F (t) su función de distribución. Ahora, sea S (T ) la
función de supervivencia, definida como «la probabilidad de permanecer en el estado hasta al menos el
período t»:
S(t) = Pr (T > t) = 1� F(t) =
1̂
t
f(x)dx
21
Instituto Economía UC Teoría Econométrica II
Hazard Rate:Probabilidad de abandono en el límite ó «instantánea» en un período t dado, llamada �(t):
�(t) = lı́m
dt!0
Pr {t  T < t+ dt|T � t}
dt
= lı́m
dt!0
F (t+ dt)� F (t)
dt
· 1
Pr (T � t)
luego, cómo el lado izquierdo es la derivada y el lado derecho el inverso de la función de supervivencia (dado
que estamos en un mundo continuo), el hazard rate nos queda cómo:
�(t) =
f(t)
1� F(t) =
f(t)
S(t)
luego, cómo �ln(S(t))�t =
1
S(t) ·�f(t) tenemos que:�
�ln(S(t))
�t = �(t), y resolviendo (y explotando que F (0) = 0):
S(t) = exp
0
@�
tˆ
0
�(u)du
1
A
Luego, la función de supervivencia y hazard rate se relacionan 1 : 1. Al igual que la función densidad,
que se caracteriza como:
f(t) = �(t)exp
0
@�
tˆ
0
�(u)du
1
A
Estimación de S(t) (sin regresores): Estimador de Kaplan y Meir.
bS (t) =
Y
ti<t
✓
1� di
ni
◆
con di # de «deaths» en ti y ni # de vivos justo antes de ti.
7.1. Modelos paramétricos
Se debe elegir una distribución para T . Algunos ejemplos:
Weibull ! �(t) = �↵t↵�1 y S(t) = exp (��t↵).
Exponencial ! �(t) = � y S(t) = exp (��t).
LogNormal
LogLogístic
Gompertz.
Además de elegir una de las distribuciones, debemos escoger que parámetro variará con las observaciones. En
el caso de la Weibull, por ej, haremos variar �.
Un método sencillo de selección de la función de densidad óptima es el propuesto por Klein y Moesch-
berger (1997), quienes utilizan como criterio la pendiente de la función de supervivencia. Por ej, en la dis-
tribución exponencial, con función de supervivencia S(t) = exp (��t)! ln
⇣
bS(t)
⌘
= ��t y �ln
⇣
bS(t)
⌘
= �t,
luego la representación gráfica de esto último con respecto a t es una línea recta. Luego, si esta es Weibull,
con supervivencia S(t) = exp (��t↵) y la representación gráfica de ln
⇣
�lnbS(t)
⌘
= ln (�) + ↵ln (t) versus
ln(t) es una línea recta.
22
Instituto Economía UC Teoría Econométrica II
7.2. Factores determinantes de la duración
La identificación de factores determinantes de la duración no sólo descansa en las variables que
serán incluidas en el análisis, sino que también en qué momento del tiempo ellas se miden y
en las consideraciones metodológicas como por ejemplo la elección de la función de distribución y el
tratamiento de problema de datos censurados.
Una manera de modelar, es imponer que la hazard rate es heterogénea (varía individuo a individuo)
pero es proporcional a una hazard rate base. Estos modelos se conocen como Proporcional Hazar
Rate Models (PH).
�(t, x) = �0(t) · exp (x�)
donde �0(t) es la baseline hazard. En la Weibull, �0(t) = ↵t↵�1 y � = exp (x�). Luego, individuos con
distintas X tendrán distintas hazard rates, distintas probabilidades de salir de el estado. Esa es la
fuente de heterogeneidad.
Este modelo es más informativo que un Probit, por ej., ya que puedo obtener probabilidades como
«estar desempleado hasta el período t» ó «probabilidad de emplearse condicional en que estuvo desem-
pleado hasta el período t». Lógicamente, se necesitan mejores datos.
7.2.1. Censura
Una decisión metodológica relevante es la respuesta dada al problema de censura del lado derecho. Esto
problema se origina cuando observamos duraciones incompletas hasta la fecha de la encuesta. Si existe cen-
sura, se debe incorporar ésta a la función de verosimilitud en los modelos de duración.
Además, debemos suponer que conocemos la censura («fecha»), es decir, si la duración está censurada
o no.
�i =
(
1 duración completa (sin censura por la derecha)
0 censurada
i = 1, 2, . . . , n.
Luego, en un mundo sin censura por la derecha (duración completa), la función de verosimilitud es:
L =
nY
i=1
Li =
Y
i
f(ti)
�iS(ti)
1��
que se estima por máxima verosimilitud. Además, si quiere agregar regresores, cambie � = exp (x�).
AFT Models: Accelerated Failure Time
En algunos casos, se puede estimar como un modelo log � lineal:
S(t) = exp (��t↵) /ln()/ ·�1/ln()
ln (�ln (S(t))) = ln (�) + ↵ln(t)
ahora si � = exp (x�), la expresión anterior es:
ln (�ln (S(t))) = x� + ↵ln(t)
diviendo por �↵
ln(t) = x� + ✏
donde � = � �↵ y ✏ =
ln(�ln(S(t)))
↵ . Muy importante: Luego, la interpretación de los coeficientes es com-
pletamente distinta que en el caso de estimar por hazard rate (por el signo menos). Luego, la tabla de
estimaciones debe explicitar si se estima con � del modelo canónico ó � del modelo acelerado.
Recordar que los � de la hazard rate es la probabilidad de salir, de modo que un signo menos en las es-
timaciones representará una «menor probabilidad de salir»
23
Instituto Economía UC Teoría Econométrica II
8. Estimadores Extremos
Un estimador extremo b✓ es aquel que minimiza ó maximiza una función bQ (✓), es decir,
b✓ = argmı́n
✓✏++
bQ (✓)
Dicha función bQ (✓) depende de parámetros y de una muestra, eg:
bQ (✓) = 1
n
nX
i=1
ln (f(zi, ✓))
Dicha función bQ (✓) tiene una contraparte poblacional Q (✓) = E [ln (f (zi, ✓))], la cual es minimizada o
maximizada en un set de parámetros determinado, ✓0.
Luego, necesitamos que bQ (✓) esté muy cerca de Q (✓) para que minimizando la primera, obten-
gamos un estimador consistente de ✓0.
Notación:
✓ es un vector de parámetros de interés de dimensiones p⇥ 1.
bQ (✓) es la función muestral (datos) y de parámetros de dimensión r ⇥ 1.
Supuesto fundamental: sup✓✏⇥| bQ (✓)�Q (✓) |
p�! 0 y que ✓0 minimiza Q (✓). Luego, un estimador
extremo: b✓ que minimiza bQ (✓).
Ejemplos:
MV: bQ (✓) = EN [lnf (zi, ✓)] = 1n
P
ln (f(zi, ✓))
MCO: bQ (✓) = EN
⇣
yi � x
0
i✓
⌘2�
= 1n
P⇣
yi � x
0
i✓
⌘2
Teorema 1: Consistencia de los estimadores extremos.
1. (Identificación) Q (✓) es únicamente minimizada en el verdadero valor del parámetro ✓0.
2. (Compacidad) ⇥ es compacto (cerrado y acotado).
3. (Continuidad) Q (·) es continua.
4. (Convergencia uniforme) sup✓✏⇥| bQ (✓)�Q (✓) |
p�! 0. Luego, b✓ p�! ✓0.
El estimador extremo establece las condiciones mínimas para que el estimador extremo converga en pro-
babilidad al verdadero valor (más que el verdadero valor, al único mínimo de Q). La demostración de la
consistencia del EE.EE se puede demostrar en 2 etapas ( bQ (·) es la función muestral y Q (·) es la función
poblacional):
El primer paso comienza notando que Q (✓0)  Q (✓) (si evalúo Q en su mínimo a ciencia cierta será
menor que esa función evaluada en cualquier otro valor). Además, en particular: Q (✓0)  Q
⇣
b✓
⌘
.
24
Instituto Economía UC Teoría Econométrica II
Además, en particular se cumple que: bQ
⇣
b✓
⌘
 bQ (✓0), ya que ✓0 = argmı́nQ (✓0) y b✓ = argmı́n bQ (✓) .
De la primera condición:
Q (✓0)  Q
⇣
b✓
⌘
/± bQ
⇣
b✓
⌘
(NIKITA)
Q (✓0)  bQ
⇣
b✓
⌘
| {z }
 bQ(✓0)
+
⇣
Q
⇣
b✓
⌘
� bQ
⇣
b✓
⌘⌘
Luego,
Q (✓0)  Q
⇣
b✓
⌘
 bQ (✓0) +
⇣
Q
⇣
b✓
⌘
� bQ
⇣
b✓
⌘⌘
ahora haciendo otro NIKITA ±Q (✓0):
Q (✓0)  Q
⇣
b✓
⌘
 Q (✓0) +
⇣
bQ (✓0)�Q (✓0)
⌘
| {z }
p�!0
+
⇣
Q
⇣
b✓
⌘
� bQ
⇣
b✓
⌘⌘
| {z }
p�!0
que convergen a 0 por ley de convergencia uniforme. Luego,
Q (✓0)  Q
⇣
b✓
⌘
 Q (✓0) +OP(1)
donde decimos que Xn = OP(an) si Xnan
p�! 0. Luego, lo anterior implica que:
Q
⇣
b✓
⌘
p�! Q (✓0)
El segundo paso es concluir que b✓ p! ✓0. De ese modo, sea:
@✏⇥ cerrado, ✓0✏@
Q (✓0) < inf (Q (✓))| {z }
✓
⇤
✏@
Q
⇣
b✓
⌘
p�! Q (✓0) < inf (Q (✓))| {z }
✓
⇤
✏@
luego, b✓✏@ y, por lo tanto, b✓ p�! ✓0.
8.1. Ley de Grandes Números Uniforme (ULLN)
Supongamos que bQ (✓) = EN [q (zi, ✓)] = 1n
P
q (zi, ✓). Asumiendo que el porceso generador de los datos es
estacionario y strongly mixing (una noción de independencia) y asumiendo además que:
1. q (zi, ✓) es continua en ✓ (con probabilidad 1).
2. ⇥ es compacto.
3. E [sup✓✏⇥|q(zi, ✓)] <1 (no explota).
Luego, Q (✓) = E [q(z, ✓)] es continua en ✓ y sup✓✏⇥| bQ (✓) � Q (✓) |
p�! 0, lo que se conoce como «conver-
gencia uniforme», luego esto es una generalización de la LGN de Khintchine.
25
Instituto Economía UC Teoría Econométrica II
Normalidad Asintótica de los Estimadores Extremos
Teorema: Si b✓ p�! ✓ y
1. ✓0✏interior (⇥)
2. bQ (✓) es doblemente continua diferenciable en una vecindad @ de ✓0
3.
p
n� bQ (✓0) /�✓
d�!N(0,⌦)
4. Existe una matriz continua en ✓0, G (✓) y sup✓✏@||�2 bQ/�✓�✓
0 �G (✓) || p�! 0
Luego, p
n
⇣
b✓ � ✓0
⌘
d�! N
�
0, G�1⌦G�1
�
Veamos: si aplicamos TVM
⇣
�f(x⇤)
�x (b� a) = f(b)� f(a)
⌘
(Teorema del Valor Medio) a la condición de
primer orden (CPO):
� bQ
⇣
✓̂
⌘
�✓
= 0
Sea ✓⇤ perteneciente al compacto
h
b✓, ✓0
i
y por supuesto ii), sabemos que:
� bQ (✓0)
�✓
�
� bQ
⇣
b✓
⌘
�✓| {z }
0
=
�2 bQ (✓⇤)
�✓�✓0
(✓0 � b✓) /
p
n
p
n
⇣
b✓ � ✓0
⌘
=
"
��
2 bQ (✓⇤)
�✓�✓0
#�1
| {z }
p! G (✓0)�1| {z }
sup(iv)
p
n
� bQ (✓0)
�✓| {z }
d! N (0,⌦)| {z }
sup(iii)
luego, por Teorema de Slutsky (ver apunte Teo Eco I 2017-1) tenemos que:
p
n
⇣
b✓ � ✓0
⌘
d�! N(0, G�1⌦G�1)
8.2. Estimador Máximo Verosímil
Como sabemos, el estimador máximo verosímil maximiza:
bQ (✓) = EN [ln (f(zi|✓))] =
1
N
nX
i=1
ln (f(zi|✓))
luego puede ser caracterizado como un Estimador Extremo.
Consistencia del estimador Máximo Verosímil
Teorema: Si zi es iid con pdf f(z|✓) y
1. (identificación) f(zi|✓) 6= f(zi|✓0) con probabilidad positiva, para todo ✓ 6= ✓0.
2. (compacidad) ⇥ es compacto.
3. (continuidad) f(zi|✓) es continua para todo ✓ con probabilidad 1.
26
Instituto Economía UC Teoría Econométrica II
4. (dominancia) E [sup✓✏⇥|ln (f(zi|✓))] | <1
Luego,
b✓ p�! ✓0
Para demostrar la consistencia sólo basta chequear que las condiciones del teorema de consistencia de los
estimadores extremos se cumplen (identificación, compacidad, continuidad y dominancia). Partiremos che-
queando identificación, para ello necesitamos la «Information Inequality»: E [lnf(z|✓)] < E [lnf(z|✓0)].
Ahora, usando la desigualdad de Jensen y la concavidad (estrica) de ln (·), tenemos que:
E (g(x)) < g (E(x))
ahora g (·) = ln (·) y x = f(zi|✓)f(zi|✓0) . Luego:
ˆ
ln
✓
f(zi|✓)
f (zi|✓0)
◆
f(zi|✓0)dz < ln
0
BB@
ˆ
f(zi|✓)
⇠⇠
⇠⇠f (zi|✓0)⇠
⇠⇠
⇠f(zi|✓0)dz
| {z }
1
1
CCA
| {z }
0
ˆ
ln
✓
f(zi|✓)
f (zi|✓0)
◆
f(zi|✓0)dz < 0
ˆ
ln (f(zi|✓)) f(zi|✓0)dz <
ˆ
ln (f(zi|✓0)) f(zi|✓0)dz
| {z }
E(ln(f(zi|✓)))<E(ln(f(zi|✓0))
es decir, únicamente maximizada en ✓0 (desigualdad de la información). Luego, con el supuesto de
identificación hemos mostrado que Q(✓) = E (lnf(z|✓)) tiene un único máximo.
El supuesto de compacidad de ⇥ es «mantenido».
Continuidad de Q (·) y convergencia uniforme de bQ (·) se desprenden de ULLN (la última se cumple si
E [sup✓✏⇥|ln (f(zi|✓))].
Luego, b✓mv
p�! ✓0.
8.2.1. Normalidad Asintótica de EE
Teorema: Si b✓mv
p�! ✓0 y
✓0✏interior (⇥)
bQ (✓) es doblemente continua diferenciable en una vecindad @ de ✓0.
p
n� bQ (✓0) /�✓
d�! N (0,⌦)
Recuerde que: bQ (✓0) = 1n
Pn
i=1 ln (f(zi|✓0), luego:
� bQ (✓0)
�✓
=
1
n
X �ln (f(zi|✓0)
�✓| {z }
L✓,i
=
1
n
nX
i=1
L✓i
luego ⌦ = V ar (L✓i) �! ⌦ = E
⇣
L✓iL
0
✓i
⌘
que es la varianza del score. Ahora,
�2 bQ (✓0)
�✓
=
1
n
X �2ln (f(zi|✓))
�✓�✓0
27
Instituto Economía UC Teoría Econométrica II
por ULLN tenemos entonces que:
G (✓) = E
✓
�2ln (f(zi|✓))
�✓�✓0
◆
= E (L✓✓0 )
que es la esperanza del hessiano. Además, de tarea 1 recuerde identidad de la información:
⌦ = V ar (L✓) = �E (L✓✓0 )
luego ⌦ = �G (✓) =)
p
n
⇣
b✓mv � ✓0
⌘
d�! N
�
0,⌦�1
�
9. Método Generalizado de Momentos
Considere ✓p⇥1 (vector de parámetros), datos zi con i = 1, . . . .N y un vector función de los datos y parámetros
gi (zi, ✓) de dimensión m⇥1,m � p. El estimador GMM está basado en un modelo donde, para el verdadero
parámetro ✓0, se cumple la condición de momento:
E (gi (zi, ✓0)) = 0
El estimador se basa en encontrar un ✓ tal que la media muestral de gi (zi, ✓) es cercano a 0 (Principio de
la analogía).
Ejemplo conocido condición de momento (caso mco):
gi (xi,�) = x
0
i (yi � xi�)
con E
⇣
x
0
u
⌘
= 0. Luego, el método de momentos traidicional aplica princiio de la analogía:
1
n
X
x
0
i (yi � xi�) = 0 99K b�mm = b�mco =
✓
1
n
X
x
0
ixi
◆�1✓ 1
n
X
x
0
iyi
◆
Hansen (1982). Sea
bg (✓) = 1
n
nX
i=1
gi (zi, ✓)
si m > p, no tenemos solución usando MM tradicional. Luego, Hansen 82 señala que:
b✓GMM = argmı́n
✓✏⇥
n
bg (✓)
0
1⇥m
cWm⇥mbg (✓)m⇥1
o
si derivo respecto a ✓ obtendremos un vector de p ⇥ 1 (ecuaciones) y cómo hay pincógnitas, tendremos una
solución única.
Comentarios:
Esta función objetivo hace sentido siempre y cuando m > p, es decir cuando tenemos más ecuaciones
que incógnitas.
Con m = p podríamos resolver el sistema bg (✓) = 0 que es el método de momentos tradicional.
La matriz cW , es una weight matriz que nos ayuda a construir una función objetivo escalar, la que
podemos minimizar.
Luego, tenemos un estimador extremo que dadas ciertas condiciones de regularidad, convergerá en
distribución al verdadero valor del parámetro.
28
Instituto Economía UC Teoría Econométrica II
Además, será normalmente distribuido (asintóticamente).
Claramente la elección de cW afectará b✓, pero para muestras grandes b✓ será consistente. Luego, existe
una elección de weight matriz que provee un estimador de GMM eficiente (EGMM). Dicha elección
es
W = [V ar (gi (✓0))]
�1
Para las propiedades de convergencia y normalidad asintótica, necesitamos que las condiciones de los
teoremas se cumplen.
9.1. Ejemplo GMM y 2SLS
Un estimador alternativo a 2SLS en presencia de endogeneidad y variables instrumentales es el estimador
GMM . Definamos las condiciones de momento como:
g (z1⇥m,x1⇥p,�p⇥1) = z
0
(y � x�)
con m > p (caso sobre identificado, más ecuaciones que incógnitas). Luego, dado el supuesto de identi-
ficación E
⇣
z
0
u
⌘
= 0 tenemos que:
E (g (z,x,�)) = 0
luego el valor esperado de cada condición de momento es cero. Lógicamente, cada condición de momento
poblacional tiene su contraparte muestral dada por:
bg (z,x,�) = 1
n
X
z
0
i (yi � xi�) =
1
n
Z
0
u
luego, para el caso sobre-identificado el estimador GMM es aquel que minimiza la siguiente forma cuadrá-
tica:
mı́n
�
bg (z,x,�)
0 cWbg (z,x,�)
donde cW es una matriz de m⇥m con lo cual el sistema pasa a ser de p⇥ p. El estimador GMM o EGMM
es aquel que utiliza con weight matriz:
W =
2
64V ar (g (z,x,�))| {z }
V0
3
75
�1
=
h
E
⇣
u2z
0
z
⌘i�1
= V �1o
-por lo tanto, en el caso que cW = bV �10 con cW
p�! V �10 tenemos que b�EGMM minimiza la siguiente expresión:
mı́n
�
1
n
(y �X�)
0
Z bV �10 Z
0
(y �X�)
luego, en este caso el argmin tiene una forma cerrada:
b�EGMM =
h
X
0
Z bV �10 Z
0
X
i�1
X
0
Z bV �10 Z
0
y
y podemos usar el estimador robusto de Eicker-White para V0. De ese modo, se puede también demostrar
que en el caso de heterocedasticidad, EGMM es eficiente relativo a 2SLS.
Luego, se puede implementar el estimador EGMM en tres etapas:
1. Estime el modelo por 2SLS y obtenga los residuos de la manera antes descrita bu = y � xb�2SLS .
2. Construya la matriz bV0 = 1n
P
buiz
0
izi.
29
Instituto Economía UC Teoría Econométrica II
3. Estime mediante EGMM usando bV �10 como «weight matriz».
Teorema (normalidad asintótica). Si el proceso generador de datos es iid y b✓ p�! ✓0 y además:
(interior) ✓0✏int (⇥)
(con. dif.) gi (✓) es continua y diferenciable en una vecindad @ de ✓0.
(dominancia) E
h
sup✓✏⇥|| �gi(✓)�✓ ||
i
<1
(conv. weight M.) cW p�!W y G0WG es no singular para G = E
h
�gi(✓)
�✓
i
⌦ = E
h
gi (✓0) gi (✓0)
0i
existe.
Luego, p
n
⇣
b✓ � ✓0
⌘
d�! N (0, V )
donde V =
⇣
G
0
WG
⌘�1
G
0
W⌦W
0
G
⇣
G
0
WG
⌘�1
. Algunos aspectos a resaltar:
La varianza asintótica mínima se alcanza cuando W = ⌦�1 y con ello V =
⇣
G
0
⌦�1G
⌘�1
.
La inferencia en el caso de GMM descansa en los mismos 3 test de MV.
Adicionalmente, en el caso de GMM, la funciómn objetivo nos sirve para testear las restricciones de
sobre-identificación.
En palabras: que las condiciones de momento son válidas y el modelo está correctamente especificado.
En el caso de variables instrumentales, es el símil del test de Sargan.
9.1.1. El test J de restricciones de sobre-identificación
Se puede demostrar que el estadístico J tiene una distribución �2:
J = nbg
⇣
b✓
⌘0
cWbg
⇣
b✓
⌘
d�! �2m�p
luego, se rechaza el modelo (condiciones y modelo) si excede el crítico para el nivelde significancia desea-
do. La intuición es directa: Si J no es suficientemente pequeño, las condiciones de momento no se cumplen
(o al menos una de ellas), lo cual puede deberse a que el modelo está mal especificado.
Hasta aquí prueba 1
30
Instituto Economía UC Teoría Econométrica II
10. Identificación
En esta segunda mitad del curso nos enfocamos en estimar efectos de tratamiento orientado a evaluar el
impacto de políticas públicas en variables económicas. Por lo general, entenderemos un «tratamiento» como
un programa o política que se aplica a distintos individuos. Además, en la mayoría de los casos, la con-
dición de tratamiento será binaria (con o sin). Lógicamente, resulta crucial pensar en la identificación del
efecto para aislarlo de otros factores que pudiesen influir.
En general, en econometría, la identificación significa que los parámetros de un odelo pueden ser únicamente
determinados con datos provenientes de una población. Luego, dependiendo del modelo, la identificación
descansa en distintos supuestos. Dichos supuestos son los quen llamamos «supuestos de identificación».
Ejemplos de «supuestos de identificación»
1. En MCO tenemos un modelo lineal y = x� + u y el supuesto de identificación de los parámetros �
es que E
⇣
x
0
u
⌘
= 0, que nos habla de que no hay correlación entre lo observado y lo no observado.
Luego, tenemos una regresión poblacional:
� =
⇣
E(x
0
x)
⌘�1
E
⇣
x
0
y
⌘
y lo estimamos cuando aplicamos el principio de analogía:
b� =
✓
1
n
X
x
0
ixi
◆�1✓ 1
n
X
x
0
iy
◆
2. En mínimos cuadrados en 2 etapas (2SLS) tenemos:
y = x� + u /z
0
z
0
y = z
0
x� + z
0
u /E (·)
E
⇣
z
0
y
⌘
= E
⇣
z
0
x
⌘
� + E
⇣
z
0
u
⌘
luego, el supuesto de identificación es E
⇣
z
0
u
⌘
= 0 e identificamos poblacionalmente a � en estos casos:
� =
⇣
E(z
0
x)
⌘�1
E
⇣
z
0
y
⌘
3. Además, por ejemplo, tenemos que en el caso de estimadores extremos uno de los supuestos de iden-
tificación es el que llamamos, valga la redundancia, identificación, y que nos habla de que se logra
siempre que la función Q (✓) sea únicamente minimizada en ✓0.
Luego, vemos que los supuestos de identificación serán distintos dependiendo del método de estimación
que utilicemos y, lógicamente, según los datos que tengamos/no tengamos. De ese modo, para evaluar un
programa social (y su éxito o fracaso al ser implementado), necesitamos saber exactamente qué hubiese
sucedido en ausencia de dicho programa (contrafactual), y el problema de la identificación consiste en que
sólo observamos un estado (con programa o sin programa) a la vez.
Holland (1986). Muchos argumentan que los cientistas sociales tenemos problemas con los contrafactuales,
que ellos no existen como en un experimento aleatorio. Holland sugiere separar el problema científico del
estadístico. Luego, ¿cuáles son los tipos de soluciones propuestas para el problema fundamental de la inferencia
causal? Solución estadística: usar a todos los individuos de la población para construir grupos de control
que semejarían el contrafactual imposible.
10.1. Modelo Causal de Rubin
Potential outcome (resultados potenciales - uno de ellos es no observado):
31
Instituto Economía UC Teoría Econométrica II
• Sea Y Ti el outcome o resultado de un individuo i si fue expuesto a un tratamiento T .
• Y NTi es el outcome del mismo individuo si no fue expuesto al tratamiento señalado.
El impacto individual del programa estaría dado por: Y Ti � Y NTi , pero nunca lo observaremos,
ya que los resultados son potenciales y sólo uno de ellos lo observo. Luego, supongamos podemos
aleatorizar (podemos representar una muestra que sigue manteniendo las características poblacionales)
el tratamiento a los individuos de una muestra. El efecto tratamiento promedio o «Average Treatment
Effect» se define como:
ATE = E
�
Y Ti � Y NTi
�
= E
�
Y Ti
�
� E
�
Y NTi
�
Luego, este estimador nos entrega un efecto causal.
Efectos de tratamiento más comúnes:
• ATE (visto más arriba - efecto tratamiento de una población).
• ATT = E
�
Y Ti � Y NTi |Ti = 1
�
= E
�
Y Ti |Ti = 1
�
| {z }
estimable
� E
�
Y NTi |Ti = 1
�
| {z }
no estimable
sin supuestos
(contrafactual)
. Este último término de la
expresión es estimable con supuestos y algunos métodos que veremos más adelante.
• ATU = E
�
Y Ti � Y NTi |Ti = 0
�
= E
�
Y Ti |Ti = 0
�
�E
�
Y NTi |Ti = 0
�
, luego se reinvierte el orden de
lo observado y el contrafactual, pero se mantiene la realidad de que aquello que no observo será
estimable si establezco supuestos y desarrollo los métodos que veremos.
Ahora, veamos que el ATE podemos reescribirlo del siguiente modo:
E
�
Y Ti � Y NTi
�
= E
�
Y Ti � Y NTi |Ti = 1
�
· Pr (Ti = 1) + E
�
Y Ti � Y NTi |Ti = 0
�
· Pr (Ti = 0)
Luego,
ATE = ATT · ⇢+ATU · (1� ⇢)
donde p es la fracción o porción de los tratados del muestreo. Luego, sobre los 3 indíces:
El ATE es un efecto de un tratamiento o política sobre una población.
El ATT es el efecto de un tratamiento o política sobre los tratados. Luego, es un efecto medido sobre
una subpoblación; unícamente aquellos que han sido tratados. En estos casos, requerimos construir
el contrafactual E
�
Y NTi |Ti = 1
�
: cuánto hubiese obtenido un tratado si no lo hubiésemos tratado.
Para el ATU debemos constuir E
�
Y Ti |Ti = 0
�
.
En muchas ocasiones solo podremos estimar el ATT .
Ahora, si disponemos de una muestra donde el tratamiento no fue aleatorizado, podríamos intentar medir el
impacto promedio de un programa restando los promedios de los individuos en cada estado (naive approach):
E
�
Y Ti |Ti = 1
�
� E
�
Y NTi |Ti = 0
�
luego, haciendo nikita de ±E
�
Y NTi |Ti = 1
�
tenemos:
E
�
Y Ti |Ti = 1
�
� E
�
Y NTi |Ti = 1
�
| {z }
ATT
+ E
�
Y NTi |Ti = 1
�
� E
�
Y NTi |Ti = 0
�
| {z }
si T aleatorio=0
luego,
E
�
Y Ti |Ti = 1
�
� E
�
Y NTi |Ti = 0
�
| {z }
naive approach
= ATT + sesgo de (auto)selección
Cuando comparamos gente afectada por la política con gente que no lo fue, estamos confundiendo el
efecto real de la política (ATT ) con las diferencias intrínsecas de las personas tratadas y no tratadas.
Muchos de los métodos y aplicaciones que veremos intentan remover ese segundo término llamado sesgo
de selección. Esto, permitirá la identificación del primer término llamado «Average Treatment on The
Treated» o ATT .
32
Instituto Economía UC Teoría Econométrica II
Escribiéndolo en términos de regresión...
Podemos escribir el outcome de cada individuo en la muestra como:
Yi = Y
NT
i| {z }
↵+✏i
+
�
Y Ti � Y NTi
�
| {z }
�+vi
Ti
Yi = ↵+ �Ti + ⇠i
con ⇠i = ✏i + viTi, y tenemos una regresión en la cual sólo podríamos identificar � si E (⇠i|Ti) = 0, que
corresponde al ATE, dado que � = E (Yi|Ti = 1)�E (Yi|Ti = 0) = E
�
Y Ti
�
�E
�
Y NTi
�
. Luego, un supuesto
de identificación es que E (⇠iTi) = 0 ! E
�
✏iTi +��
�H
HH
viT 2i
�
= 0. Luego, esto será violado si los individuos con
diferentes no-observables (altos o bajos por ej) tienen mayor probabilidad de haber tomado el programa.
También será violado si los individuos que se beneficiarán más/menos del programa son más probables a
tomar el programa (sorting o auto selección).
Soluciones al problema de identificación...
Durante el curso se discuten como los diferentes métodos han intentado resolver el problema de identificación
que existe en algunas regresiones (MCO, Matching, fixed effects�panel models, variables instrumentales
(V I),etc). Estas aproximaciones empíricas se conocen como «estrategias de identificación».
Por ejemplo, hablemos de MCO y los efectos de tratamiento:
MCO es una manera de estimar los coeficientes de una regresión lineal.
• Si la esperanza condicional es lineal, es la manera adecuada.
• Y si no fuera lineal, MCO nos dará siempre el mejor predictor lineal.
Pero, ¿cuándo puede remover el sesgo de selección y qué medimos en ese caso? El supuesto de iden-
tificación es clave: condicional en los observables, la asignación al tratamiento es tan buena como un
experimento aleatorio. Para los estimadoresde matching, la estrategia de identificación es la misma,
pero de otra manera.
10.2. Métodos de Matching
Los estimadores de matching intentan construir el contrafactual con técnicas estadísticas que explotan la
similitud observacional entre las características de una unidad tratada versus unidades de no tratadas. La
construcción de este contrafactual requiere ciertos supuestos para poder construir este clon artificial de cada
tratado en nuestra muestra desde un grupo de no tratados.
Los métodos de matching nos dicen cómo encontrar los missing outcomes (contrafactuales) para calcular
efectos de tratamiento.
10.3. Supuestos de Matching
1. Ignorabilidad (supuesto nº1): Y Ti , Y NTi ?Ti|Xi donde ? denota independencia (condicional) estadís-
tica. Esto es, si condicionamos en set de características Xi, la probabilidad de recibir el tratamiento no
está correlacionada con los outcome potenciales con o sin tratamiento.
Este supuesto implica que todas estas características Xi que afectan simúltaneamente a la asignación
al tratamiento y a los outcomes potenciales son observadas por el investigador e incluidad en el modelo
que se estima. Además, se desprende del supuesto de ignorabilidad la siguiente relación:
E
�
Y NTi |Ti, Xi
�
= E
�
Y NTi |Xi
�
33
Instituto Economía UC Teoría Econométrica II
Esta implicancia nos dice que los outcomes potenciales esperados, condicional en características (X), son
los mismos independiente si el individuo recibió o no el tratamiento. En la práctica, condicionar en
observables el tratamiento se comporta como algo aleatorio independiente de los outcome’s
potenciales.
2. Overlap�Soporte común. (supuesto nº2): 0 < Pr (Ti = 1|Xi) < 1, lo que significa que para cualquier
valor de X una unidad i puede ser potencialmente observada con el tratamiento (T = 1) y sin el
tratamiento (T = 0).
Los supuestos 1 (Ignorabilidad) y 2 (Overlap) se conocen como «ignorabilidad fuerte». Así, calcular el
impacto del programa como la diferencia en el promedio de los outcomes de cada grupo (tratamiento y
control), condicionando en las variables observadas, genera una estimación insesgada del efecto promedio
del programa.
10.4. Estimador de matching simple o exacto
Pensemos primero en un estimador simple del ATT que compara el outcome de un tratado y un no tra-
tado con las mismas características (X). (Nos enfocamos en el ATT ya que usualmente es la población
relevante, es un poco más simple y, por último, ya que si nos equívocamos en el ATT , estimando el ATE
nos equivocaremos el doble).
ATT : E
�
Y Ti � Y NTi |Ti = 1
�
luego, recordando LEI (Ley de Esperanzas Iteradas) que en su versión simple nos dice que se cumple que:
E(Y ) = E (E (Y |X)), podemos extenderla en su versión condicional a E (Y |Z) = E (E (Y |X,Z) |Z). Luego,
se cumplirá que:
ATT : E
⇥
E
�
Y T |X,Ti = 1
�
� E
�
Y NT |X,Ti = 1
�
|Ti = 1
⇤
por supuesto de ignorabilidad, note que E
�
Y NT |X,Ti = 1
�
= E
�
Y NT |Xi, Ti = 0
�
ya que hay independen-
cia sobre Ti. Luego, el segundo término E
�
Y NT |Xi, Ti = 0
�
si lo observamos, vs el término E
�
Y NT |X,Ti = 1
�
que es no observable. De ese modo,
ATT = E
2
6666664
E
�
Y T |Xi, Ti = 1
�
� E
�
Y NTi |Xi, Ti = 0
�
| {z }
”matching”| {z }
�x
|Ti = 1
3
7777775
ATT =
ˆ �
E
�
Y T |Xi, Ti = 1
�
� E
�
Y NTi |Xi, Ti = 0
� 
· Pr (X|Ti = 1) dX
Luego, notemos que «matching» no es más que un promedio ponderado. Luego, denotemos:
�x = E (Yi|Xi, Ti = 1)� E (Yi|Xi, Ti = 0)
donde Yi = Y Ti · Ti + Y NTi · (1� Ti). Continuando, tendremos:
ATT =
ˆ
�xPr (Xi = X|Ti = 1) dx
y ahora en variable discreta tenemos:
ATT =
X
x
�xPr (Xi = X|Ti = 1)
34
Instituto Economía UC Teoría Econométrica II
luego, utilizando regla de bayes tendremos que:
Pr (Xi = X|Ti = 1) =
Pr (Xi = X,Ti = 1)
Pr (Ti = 1)
=
Pr (Ti = 1|Xi = X) · Pr (Xi = X)
Pr (Ti = 1)
y note que (por probabilidades totales):
Pr (Ti = 1) =
X
x
Pr (Ti = 1|Xi = X) · Pr (Xi = X)
Finalmente, el estimador de matching para el ATT es:
E
�
Y Ti � Y NTi |T = 1
�
=
X
x
�xwi
donde wi = Pr(Ti=1|Xi=X)·Pr(Xi=X)P
x Pr(Ti=1|Xi=X)·Pr(Xi=X)
y
P
wi = 1. Así, el estimador simple de matching es un promedio
ponderado de las diferencias entre tratados y controles, condicionales en X.
Y si en cambio usamos regresión?
Suponga que usamos las mismas variables que en el ejemplo anterior, pero usamos dummies para cada valor
de X (saturamos el modelo). Correr la regresión Yi =
P
x 1 (Xi = X)↵x + �Ti + ✏i usando MCO genera un
estimador de � tal que:
� =
E (V ar (Ti|Xi) (E (Yi|Xi, Ti = 1)� E (Yi|Xi, Ti = 0)))
E (V ar (Ti|Xi))
=
E (V ar (Ti|Xi) �x)
E (V ar (Ti|Xi))
=
P
x �xP (Ti = 1|Xi = X) (1� P (Ti = 1|Xi = X))P (Xi = X)P
x P (Ti = 1|Xi = X) (1� P (Ti = 1|Xi = X))P (Xi = X)
=
X
x
�x ewi
y el último cálculo es usando el hecho de que D es binaria. Esto muestra que matching y MCO son promedios
con diferente tipo de weight.
El estimador de matching da más peso a las celdas donde hay un mayor número de individuos que reci-
ben tratamiento, en cambio, MCO da más peso a las celdas que tienen un igual número de tratados y
controles. Esto es sólo relevante cuando tenemos efectos heterogeneos.
10.5. Matching en propensity Score
Hacer matching exacto en características es complicado por el problema de maldición de la dimen-
sionalidad. De la misma manera, sobresaturar el modelo con dummies también trae complicaciones
(grados de libertad).
Una manera de reducir el problema de la dimensionalidad de hacer matching en características es hacer
el matching en una variable escalar, que resuma la información de dichas características. Dicha variable,
es el propensity score o probabilidad de recibir el tratamiento condicional en las características
Pr (Di = 1|Xi) = p (Xi)
35
Instituto Economía UC Teoría Econométrica II
Si se cumple ignorabilidad fuerte, el teorema propensity score dice que basta con controlar por la probabilidad
de ser tratado:
�
Y Ti , Y
NT
i
 
k_Di| Xi|{z}
vector
)
8
><
>:
Y Ti , Y
NT
i
k_Di|P (X)| {z }
escalar
9
>=
>;
donde p (Xi) = P (Di = 1|Xi) es el propensity score. Así, basta con hacer matching en el pscore. Luego,
Pr
�
Di = 1|Y Ti , Y NTi , P (Xi)
�
= E
�
Di|Y Ti , Y NTi , P (Xi)
�
aplicando LEI! E
⇥
E
�
Di|Y Ti , Y NTi , P (Xi) , Xi
�
|Y Ti , Y NTi , P (Xi)
⇤
= E
h
E
⇣
Di|, Xi,(((((
(((hhhhhhhh
Y Ti , Y
NT
i , P (Xi)
⌘
|Y Ti , Y NTi , p (Xi)
i
donde la cruz corresponde a una eliminación dado el cumplimiento de ignorabilidad fuerte. Luego,
= E
2
64E (Di|, Xi)| {z }
p(Xi)
|Y Ti , Y NTi , p (Xi)
3
75
= E
⇥
p (Xi) |Y Ti , Y NTi , p (Xi)
⇤
= p (Xi)
luego, la probabilidad de recibir el tratamiento condicional en la probabilidad de las caracterís-
ticas no depende de los outcome’s potenciales, tanto para tratados como no tratados.
�
Y NTi , Y
T
i
 
?Di|p (Xi)
En la práctica, es muy inusual que conozcamos el propensity score. Luego, debemos estimarlo (logit o probit,
por ej). De ese modo, podemos hacer dos cosas:
Hacer matching en el propensity score estimado (principio de la analogía).
Hacer una regression ponderada (weighted regression) con una función del pscore, esta alternativa se
conoce como un método doblemente robusto.
Variantes, Matching.
Los estimadores están dados po
ATT = E
�
Y Ti � Y NTi |Di = 1
�
= E [E (Yi|p (Xi) , Di = 1)� E (Yi|p (Xi) , Di = 0) |Di = 1]
ATE = E
�
Y Ti � Y NTi
�
= E [E (Yi|p (Xi) , Di = 1)� E (Yi|p (Xi) , Di = 0)]
recordando que Yi = Y Ti Di+Y NTi (1�Di). Luego, podemos dividir por p (Xi) en diferentes celdas y calcular
las esperanzas como promedios muestrales.
Se puede hacer un pareo entre cada individuo tratado con otro(s) no tratados con similar p� score (muchas
versiones, vecino más cercano, kernel, etc.)
36
Instituto Economía UC Teoría Econométrica II
10.6. Algunos resultados about pscore matching.
Hahn (1998) muestra que cuando el p-score es conocido, no hay ganancias de eficiencia asintótica entre
matching en las X 0s o en el p-score. Sin embargo, hay alguna ganancia de eficiencia a favor de matchingen las X 0s cuando el p-score es desconocido.
Hirano, Imbens and Ridder (2003) muestran que hay eficiencia asintótica cuando p-score es conocido y
cuando es estimado no-paramétricamente.
Abadie e Imbens (2006) muestran que los estimadores de matching son por lo general inconsistentes (el
sesgo converge a una tasa muy baja) e ineficientes. Proponen un estimador de Nearest-Neighbor con
algunas mejoras asintóticas.
Abadie e Imbens (2008) muestran que el bootstrap no-paramétrico tradicional falla cuando se imple-
menta en estimadores de matching.
10.7. Matching en características
10.7.1. El método de Abadie e Imbens (2006)
Este es un método de matching en características y nearest neighbor. Sea W ✏ {0, 1} el indicador de trata-
miento y sea Yi el outcome potencial. Luego,
Yi =
(
Yi (0) Wi = 0
Yi (1) Wi = 1
Luego,
Yi = Yi (1) ·Wi + Yi (0) (1�Wi)
Supongamos que queremos encontrar el contrafactual: cual hubiese sido el resultado para una observación
i tratada, si no se hubiese tratado.
El estimador de matching de AI tiene versiones para el ATE y ATT .
ATE = ⌧M = E [Y (1)� Y (0)]
ATT = ⌧ tM = E [Y (1)� Y (0)|Wi = 1]
luego, en el ATE necesitamos 2 contrafactuales:
¿Cuál hubiese sido el resultado de ausencia de tratamiento para los tratados? E [Y (0)|W = 1].
¿Cuál hubiese sido el resultado de presencia de tratamiento para los controles? E [Y (1)|W = 0].
Método de Abadie e Imbens (2006)
Supongamos que existen N observaciones totales y las ordenamos de menor a mayor de acuerdo a la distancia
a la observación i en cuestión: ||Xj �Xi|| (son observaciones que están en grupos distintos, por lo tanto no
pueden ser iguales).
Sea m un entero representando el número de vecinos que serán usados para crear el match y jm (i) el índice
j✏ {1, 2, . . . , N} que resuelve Wj = 1 �Wi (la posición del m � ésimo vecino más cercado de la observación
«i») y: X
I=WI=1�Wi
Ind {||XI �Xi||  ||Xj �Xi||} = m
donde Ind es una función indicatriz igual a 1 cuando el argumento es verdad. Esto es, escoger del grupo de
control los m vecinos más cercanos a la observación Xi y jm (i) nos da la posición del m� ésimo vecino más
37
Instituto Economía UC Teoría Econométrica II
cercano a i en el grupo de controles.
El estimador de matching propuesto por AI es un matching de vecino más cercano con reemplazo. Básica-
mente, construye el contrafactual con un promedio simple de los m vecinos (a determinar por el investigador).
Además, es con reemplazo puesto que una observación puede ser usada más de una vez para
construir un contrafactual.
El estimador de matching imputa el potencial outcome missing así:
bYi (0) =
(
Yi Wi = 0
1
M
P
j✏=M (i) Yj Wi = 1
y
bYi(1) =
(
1
M
P
j✏=M (i) Yj Wi = 0
Yi Wi = 1
donde =m(i) es el set de indices para los primeros M matches de la unidad i: =m(i) = {j1(i), . . . , jM (i)}.
Así, el estimador del ATE es:
b⌧M =
1
N
NX
i=1
⇣
bY1(1)� bYi(0)
⌘
y el estimador de tratamiento promedio en los tratados (ATT ) es:
b⌧ tM =
1
N1
X
Wi=1
⇣
Yi � bYi(0)
⌘
donde N1 es el número de tratados. El ATT solo trabaja con los tratados y su contrafactual.
Matching en características: Comentarios
Es un método simple que bajo ciertas condiciones funciona muy bien (en general, se comporta mejor
que Propensity Score Matching, cuando la estimación del pscore es deficiente).
En particular, cuando se tiene una única variable continua, hay reducción del sesgo asintótico (converge
más rápido a 0).
Ojo que el Bootstrap falla acá. Abadie-Imbens (2008) muestran que bootstrap con reemplazo falla por
el «repeating». Se sub-estima la variabilidad. Ellos creen (dicen) o simulan que sub-sampling bootstrap
debería funcionar.
El problema: hay que elegir el número de vecinos. Simulaciones muestran que entre 4 y 16
vecinos funciona relativamente bien. Alguna literatura más nueva es «Diaz, Rau y Rivera (2015)», y
avanza en la elección del número óptimo de vecinos.
10.7.2. Díaz, Rau y Rivera (2015, RESTAT)
Plantean un programa de optimización (de 2 niveles) para elegir el número de vecinos y su weight. La idea es
simple: elegir vecinos cuya combinación convexa sea la más cercana a la unidad a parear (replicar estadísti-
camente la posición a través de una envoltura convexa de 3 observaciones). Dado que puede haber solución
múltiple, un segundo criterio elige los vecinos más cercanos. Con esto, tendremos post-matching samples
más balanceadas.
Lo que se hace es:
mín
(�1,...,�N0)✏�N0
kXi �
N0X
j=1
�jXjk
38
Instituto Economía UC Teoría Econométrica II
y de haber más de una solución, elegir aquella que minimiza
N0X
j=1
�j ||Xi �Xj ||
Dado que son dos problemas de optimización, se llama «bi-nivel» y el estimador propuesto es el BLOP
matching: «Bi-level optimization problem» matching.
Balance post-matching.
Xi|{z}
tratado
⇡
X
j
b�jXj
| {z }
control
99K 1
N1
N1X
i=1
Xi ⇡
1
N1
N1X
i=1
b�jXj
El balance post-matching usualmente se calcula comparando la media de tratados y sus clones creados
por el matching. En simulaciones de MC BLOP derrota a NN �Matching y otros.
Todos los estimadores de matching son sesgados en muestras finitas. El sesgo depende de la «matching
discrepancy» ||Xi �Xj || pero también de la diferencia de cada unit con su clon Xi �
P
j �jXj .
Dado que Bootstrap en matching falla, se recomienda usar sample analogue de population varian-
ce.
10.7.3. Métodos Doblemente Robustos
Estos métodos son no experimentales y son una alternativa a los estimadores de matching. A diferencia de
matching, son estimadores paramétricos y corresponden a regresiones ponderadas de la variable de resultados
sobre variables explicativas y la variable de tratamiento.
Yi = ↵+ ✓Ti + "i
con wi ponderador. Luego, los ponderadores o pesos se construyen con el propensity score (probabilidad
de ser tratado). Han demostrado ser consistentes cuando una de las siguientes condiciones ocurre:
1. El propensity score está correctamente especificado.
2. El modelo lineal está correctamente especificado.
Y, de ahí viene el nombre de «doblemente robustos», lo que resulta ser una ventaja teórica en aquellos
estimadores de matching que pueden ser expresados como una regresión de la variable de interés Y sobre una
dummy de tratamiento T y un esquema de pesos w, cuya propiedad adquiere el nombre de «weighted least
squares as unifying framework».
Recordando, ATT = E
�
Y T � Y NT |Ti = 1
�
= b✓ = 1N1
P
i✏I1
⇣
Yi �
P
j✏I0
w(i, j)Yj
⌘
donde N1 es el númetro
de tratados, N0 los no tratados (N0 +N1 = N) e I1, I0 es el conjunto de índices para tratados y no tratados
39
Instituto Economía UC Teoría Econométrica II
respectivamente. Luego, juguemos un poquito con el estimador doblemente robusto:
b✓ = 1
N1
NX
i=1
8
<
:YiTi � Ti
0
@
NX
j✏I0
w(i, j)Yj (1� Tj)
1
A
9
=
;
... =
1
N1
NX
i=1
YiTi �
1
N1
NX
j=1
(1� Tj)Yj
NX
i=1
w(i, j)Ti
... =
1
N1
NX
i=1
YiTi �
1
N0
NX
j=1
(1� Tj)Yj
✓
N0
N1
◆ NX
i=1
w(i, j)Ti
| {z }
w(j)
b✓ = 1
N1
NX
i=1
YiTi �
1
N0
NX
j=1
(1� Tj)w(j)Yj
luego, podemos ver que este es el principio de analogía aplicado al ATT = E
�
Y Ti � Y NTi |Ti = 1
�
.
Modelo Parámetrico
Es sencillo, ya que se caracteriza del siguiente modo:
Yj = ↵+ ✓Tj + ✏j
donde se estima usando un peso construido de la siguiente manera para el ATT :
w =
(
(ps/(1� ps)) / (bp(1� bp)) para no tratados
1 para los tratados
donde ps es el propensity score y bp es la probabilidad incondicional de ser tratado. Este esquema es IPW1
analizado por Busso, DiNardo y McCrary (2009), que equivale a un weighting tipo «kernel».
Comentarios:
Existen otros tipos de pesos (IPW2, IPW3, etc) discutidos en Busso, DiNardo y McCrary (2009).
Lo que hace este método es darle más peso a los que tienen mayor probabilidad de ser tratados
en el caso de los no tratados, pero los tratados el peso es constante e igual a 1.
Los errores estándar deben ser bien calculados (bootstrap es una alternativa dado que en una regresión
funcionan bien).
Con esto se logra -en teoría- que las variables se balanceen.

Otros materiales