Variables_Dicotomicas_Endogenas

•
SIN SIGLA

0
Jeronimo
21/6/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Econometría

6349 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Variables dicótomas endógenas
Luis Frank
Facultad de Agronoḿıa
Universidad de Buenos Aires
Mayo, 2022
El Modelo Lineal de Probabilidad
Es el modelo más sencillo de elecciones binarias. Bajo esta
especificación yi es una v .a. que toma dos valores, 0 o 1.
y = Xβ + ϵ, con ϵ ∼ (0, σ2Ω).
donde E (yi |xi ) se asimila a la probabilidad de elección u ocurrencia
de un evento. La principal ventaja del MLP es su sencillez, y sus
principales desventajas son
▶ el error no sigue una distribución normal sino Bernoulli, ya que
ϵi = 1− x′iβ si yi = 1, y ϵi = −x′iβ si yi = 0
▶ el modelo es heteroscedástico ya que var(ϵi ) depende de xi
▶ no siempre ocurre que 0 ≤ ŷi |xi ≤ 1
▶ el R2 es cuestionable como medida de bondad de ajuste,
justamente por ser Ω ̸= In.
El Modelo Lineal de Probabilidad (cont.)
Ejemplo. Ajustamos un MLP para estimar la probabilidad de
aprobar el examen final de Econometŕıa en función de la
dedicación al estudio (en horas) y el tiempo transcurrido desde la
aprobación de Estad́ıstica (en años). Los datos son ficticios.
Horas estudio 25 11 36 15 21 24 29
Años Estad́ıstica 1 2 1 1 3 1 2
Aprobado 1 0 1 0 0 1 1
El Modelo Lineal de Probabilidad (cont.)
ŷi 0,79 -0,09 1,31 0,32 0,16 0,74 0,76
ŷ∗i 0,79 0,01 0,99 0,32 0,16 0,74 0,76
ω̂i 0,17 0,01 0,01 0,22 0,13 0,19 0,18
El Modelo Lineal de Probabilidad (cont.)
▶ El modelo es heteroscedástico por construcción por lo cual se
debe recurrir al estimador GLS. La matriz Ω se estima con
ω̂i = ŷ
∗
i (1− ŷ∗i ), lo cual equivale a realizar la transformación
yi√
ω̂i
=
β1√
ω̂i
+ β2
xi2√
ω̂i
+ β3
xi3√
ω̂i
+
ϵi√
ω̂i
▶ Nótese que el modelo transformado no tiene ordenada al
origen por lo cual el estad́ıstico R2 es cuestionable.
Los modelos Logit y Probit
Para corregir las desventajas del MLP se han propuesto los
modelos alternativos
▶ Logit. Este modelo proviene de considerar la función de
distribución de probabilidad loǵıstica.
Pi =
1
1 + e−x
′
iβ
o bien ln
Pi
(1− Pi )
= x′iβ. (1)
▶ Probit. Proviene de considerar una distribución de
probabilidad normal.
Pi =
1√
2π
∫ x′iβ
−∞
e−t
2/2dt, donde Pi = E (yi = 1|xi ) (2)
En ambos casos se puede estimar β por OLS si los datos se
agrupan en clases. De lo contrario se recurre a estimadores
computacionales.
Los modelos Logit y Probit (cont.)
▶ El modelo logit es útil para datos agrupados, es decir, para
situaciones en que P se puede estimar como nh/Nh.
l̂ogit = ln
P̂h
(1− P̂h)
= ln
nh
(Nh − nh)
para todo nh < Nh.
Luego, para tamaños muestrales suficientemente grandes, el
modelo de datos agrupados es
logith = x
′
hβ + ϵh, ϵh ∼aprox . N
(
0,
1
NhPh(1− Ph)
)
▶ Como regla práctica, se recomienda que Nh sea por lo menos
5. en estas condiciones β se puede estimar por OLS.
▶ Al igual que el MLP este modelo es heteroscedástico por lo
cual debe ser trasnformado multiplicando por
√
ω̂h =
√
NhP̂h(1− P̂h)
Los modelos Logit y Probit (cont.)
Ejemplo. Retomemos el ejemplo anterior (con dos observaciones
adicionales) pero agrupando a los alumnos por cohorte de alumnos
Horas estudio 25 . . . 29 27 5
Años Estad́ıstica 1 . . . 2 3 2
Aprobado 1 . . . 1 1 0
Luego,
Nh nh P̂h l̂ogit ω̂h
4 3 0,75 1,10 0,75
3 1 0,33 -0,69 0,67
2 1 0,50 0,00 0,50
Agrupando datos (exc. x1 que se promedia) y transformando
xh1 xh2 x̄h1
√
ω̂h xh2
√
ω̂h l̂ogit×
√
ω̂h
25 1 21,65 0,87 0,95
15 2 12,25 1,63 -0,57
24 3 16,97 2,12 0,00
El algoritmo de Newton-Raphson
▶ Este método proviene de expandir (1) y (2) en serie de Taylor
reteniendo únicamente los términos de primero y segundo
grado.
▶ A partir de esta aproximación de plantea la relación de
recurrencia
b̃m+1 = b̃m −
[
∂2L
∂β∂β′
]−1
β=β̃m
[
∂L
∂β
]
β=β̃m
donde b̃m es la m-ésima iteración y entre corchetes escribimos
la matriz de segundas derivadas y el vector de primeras
derivadas, ambas valorizadas en la m-ésima iteración.
Para estimar β escribimos primero la función de verosimilitud
L ∝
n∏
i=1
F (xiβ)
yi [1− F (xiβ)]1−yi
El algoritmo de Newton-Raphson (cont.)
Visto que no se trata de una función lineal, utilizamos en su lugar
una transformación monótona de L, i.e. el logaŕıtmo.
ln L =
n∑
i=1
yi lnF (xiβ) + (1− yi ) ln [1− F (xiβ)]
Luego calculamos la primera y segunda derivada de ln L respecto
de β.
∂ ln L
∂β
=
n∑
i=1
yi
∂ lnF (xiβ)
∂β
+ (1− yi )
∂ ln [1− F (xiβ)]
∂β
=
n∑
i=1
yi
1
F (xiβ)
∂F (xiβ)
∂β
− (1− yi )
1
1− F (xiβ)
∂F (xiβ)
∂β
.
El algoritmo de Newton-Raphson (cont.)
Expresión que luego de reemplazar por
∂F (xiβ)
∂β
= f (xiβ)x
′
i y
f (xiβ)
F (xiβ)
= 1− F (xiβ)
se reduce a
∂ ln L
∂β
=
n∑
i=1
[
yi
f (xiβ)
F (xiβ)
− (1− yi )
f (xiβ)
1− F (xiβ)
]
x′i . (3)
La deriva segunda ∂ ln2 L/∂β∂β′ es
n∑
i=1
yi
[
∂f (xiβ)
∂β′
F (xiβ)− f (xiβ)
∂F (xiβ)
∂β′
]
x′i
F 2(xiβ)
− (1− yi ) .
.
[
∂f (xiβ)
∂β′
[1− F (xiβ)]− f (xiβ)
∂ [1− F (xiβ)]
∂β′
]
x′i
[1− F (xiβ)]2
.
(4)
El algoritmo de Newton-Raphson (cont.)
Estas son expresiones generales para cualquier función de
distribución. El algoritmo de Newton-Raphson es el siguiente
(1) Definimos un vector inicial b̃0, por ejemplo b̃0 = 0 u otro
vector, siempre que se encuentre dentro del espacio
paramétrico.
(2) Calculamos f (xi b̃0) y F (xi b̃0).
(3) Calculamos el valor de la función de verosimilitud
transformada, ln L
(4) Calculamos el vector d de primeras derivadas según (3)
(5) Calculamos el Hessiano H según (4) o con la fórmula
equivalente dada a continuación y su inversa ordinaria H−1
El algoritmo de Newton-Raphson (cont.)
∂ ln2 L
∂β∂β′
= −
n∑
i=1
f (xiβ)yi
[
f (xiβ) + (xiβ)F (xiβ)
F 2(xiβ)
]
x′ixi−
−
n∑
i=1
f (xiβ)(1− yi )
[
f (xiβ)− (xiβ) [1− F (xiβ)]
[1− F (xiβ)]2
]
x′ixi
(6) Actualizamos la estimación inicial ediante la expresión de
recurrencia b̃1 = b̃0 −H−1d
(7) Criterio de convergencia: si max |b̃1 − b̃0| > δ volvemos a al
paso 2 reemplazando b̃0 por b1, en caso contrario detenemos
el cálculo.
La distribución aproximada de este estimador es
b̃m ∼ N
(
β,−
[
∂2L
∂β∂β′
]−1
β=β̃m
)
El algoritmo de Newton-Raphson (cont.)
Ejemplo Retomamos el ejemplo de los alumnos de Econometŕıa.
Si planteamos un valor inicial b0 = 0 y seguimos el algoritmo de
Newton-Raphson para un modelo Probit, obtenemos al cabo de la
primera iteración
d =
 5, 59128, 5
8, 78
 H−1 =
 −4, 22 0, 11 0, 960, 11 0, 00 −0, 01
0, 96 −0, 01 −0, 45
 b1 =
 −1, 250, 00
0, 00

Continuando con el algoritmo
b2 =
 −5, 370, 17
−1, 17
 . . . bm =
 −21, 131, 29
−4, 02

Estimación de β en modelos Logit
La función de densidad de probabilidad asociada a esta función es
similar a la f.d.p. normal pero con colas más pesadas. La forma
anaĺıtica de ambas funciones es
F (xiβ) =
(
1 + e−xiβ
)−1
y f (xiβ) = e
−xiβ
(
1 + e−xiβ
)−2
.
Reemplazando F (xiβ) y f (xiβ) por estas últimas en (3) y (4)
obtenemos las formas expĺıcitas
∂ ln L
∂β
=
n∑
1=1
[yi F (−xiβ)− (1− yi )F (xiβ)] x′i
∂ ln2 L
∂β∂β′
= −
n∑
1=1
f (xiβ)x
′
ixi . (5)
Estimación de β en modelos Probit
El modelo probit considera que la distribución subyacente a la
variable respuesta es la distribución normal.
F (xiβ) =
∫ xiβ
−∞
f (t)dt y f (xiβ) =
1√
2π
e−(xiβ)
2/2.
La práctica usual consiste en utilizar la expresión (3) para el vector
de primeras derivadas y una expresión más compacta del Hessiano
∂ ln2 L
∂β∂β′
= −
n∑
i=1
f (xiβ)yi
[
f (xiβ) + (xiβ)F (xiβ)
F 2(xiβ)
]
x′ixi−
−
n∑
i=1
f (xiβ)(1− yi )
[
f (xiβ)− (xiβ) [1− F (xiβ)]
[1− F (xiβ)]2
]
x′ixi
Estimación de β en modelos Probit (cont.)
▶ Los coeficientes del modelo Probit se multiplican por π/
√
3
para compararse con los del Logit.
▶ Amemiya da la siguiente relación teórica entre los parámetros
estimados del MLP y los del modelo Logit{
βMLPj = 0, 25β
LOGIT
j excepto para la ordenada al origen
βMLPj = 0, 25β
LOGIT
j + 0, 5 para la ordenada al origen
▶ Otra alternativa para comparar los coeficientes Probit o Logit
con los del MLP es comparar los efectos marginales en el valor
medio.
∂F (xβ)∂β
∣∣∣∣
x̄
= f (x̄β) x̄