Logo Studenta

Variables_Dicotomicas_Endogenas

¡Este material tiene más páginas!

Vista previa del material en texto

Variables dicótomas endógenas
Luis Frank
Facultad de Agronoḿıa
Universidad de Buenos Aires
Mayo, 2022
El Modelo Lineal de Probabilidad
Es el modelo más sencillo de elecciones binarias. Bajo esta
especificación yi es una v .a. que toma dos valores, 0 o 1.
y = Xβ + ϵ, con ϵ ∼ (0, σ2Ω).
donde E (yi |xi ) se asimila a la probabilidad de elección u ocurrencia
de un evento. La principal ventaja del MLP es su sencillez, y sus
principales desventajas son
▶ el error no sigue una distribución normal sino Bernoulli, ya que
ϵi = 1− x′iβ si yi = 1, y ϵi = −x′iβ si yi = 0
▶ el modelo es heteroscedástico ya que var(ϵi ) depende de xi
▶ no siempre ocurre que 0 ≤ ŷi |xi ≤ 1
▶ el R2 es cuestionable como medida de bondad de ajuste,
justamente por ser Ω ̸= In.
El Modelo Lineal de Probabilidad (cont.)
Ejemplo. Ajustamos un MLP para estimar la probabilidad de
aprobar el examen final de Econometŕıa en función de la
dedicación al estudio (en horas) y el tiempo transcurrido desde la
aprobación de Estad́ıstica (en años). Los datos son ficticios.
Horas estudio 25 11 36 15 21 24 29
Años Estad́ıstica 1 2 1 1 3 1 2
Aprobado 1 0 1 0 0 1 1
El Modelo Lineal de Probabilidad (cont.)
ŷi 0,79 -0,09 1,31 0,32 0,16 0,74 0,76
ŷ∗i 0,79 0,01 0,99 0,32 0,16 0,74 0,76
ω̂i 0,17 0,01 0,01 0,22 0,13 0,19 0,18
El Modelo Lineal de Probabilidad (cont.)
▶ El modelo es heteroscedástico por construcción por lo cual se
debe recurrir al estimador GLS. La matriz Ω se estima con
ω̂i = ŷ
∗
i (1− ŷ∗i ), lo cual equivale a realizar la transformación
yi√
ω̂i
=
β1√
ω̂i
+ β2
xi2√
ω̂i
+ β3
xi3√
ω̂i
+
ϵi√
ω̂i
▶ Nótese que el modelo transformado no tiene ordenada al
origen por lo cual el estad́ıstico R2 es cuestionable.
Los modelos Logit y Probit
Para corregir las desventajas del MLP se han propuesto los
modelos alternativos
▶ Logit. Este modelo proviene de considerar la función de
distribución de probabilidad loǵıstica.
Pi =
1
1 + e−x
′
iβ
o bien ln
Pi
(1− Pi )
= x′iβ. (1)
▶ Probit. Proviene de considerar una distribución de
probabilidad normal.
Pi =
1√
2π
∫ x′iβ
−∞
e−t
2/2dt, donde Pi = E (yi = 1|xi ) (2)
En ambos casos se puede estimar β por OLS si los datos se
agrupan en clases. De lo contrario se recurre a estimadores
computacionales.
Los modelos Logit y Probit (cont.)
▶ El modelo logit es útil para datos agrupados, es decir, para
situaciones en que P se puede estimar como nh/Nh.
l̂ogit = ln
P̂h
(1− P̂h)
= ln
nh
(Nh − nh)
para todo nh < Nh.
Luego, para tamaños muestrales suficientemente grandes, el
modelo de datos agrupados es
logith = x
′
hβ + ϵh, ϵh ∼aprox . N
(
0,
1
NhPh(1− Ph)
)
▶ Como regla práctica, se recomienda que Nh sea por lo menos
5. en estas condiciones β se puede estimar por OLS.
▶ Al igual que el MLP este modelo es heteroscedástico por lo
cual debe ser trasnformado multiplicando por
√
ω̂h =
√
NhP̂h(1− P̂h)
Los modelos Logit y Probit (cont.)
Ejemplo. Retomemos el ejemplo anterior (con dos observaciones
adicionales) pero agrupando a los alumnos por cohorte de alumnos
Horas estudio 25 . . . 29 27 5
Años Estad́ıstica 1 . . . 2 3 2
Aprobado 1 . . . 1 1 0
Luego,
Nh nh P̂h l̂ogit ω̂h
4 3 0,75 1,10 0,75
3 1 0,33 -0,69 0,67
2 1 0,50 0,00 0,50
Agrupando datos (exc. x1 que se promedia) y transformando
xh1 xh2 x̄h1
√
ω̂h xh2
√
ω̂h l̂ogit×
√
ω̂h
25 1 21,65 0,87 0,95
15 2 12,25 1,63 -0,57
24 3 16,97 2,12 0,00
El algoritmo de Newton-Raphson
▶ Este método proviene de expandir (1) y (2) en serie de Taylor
reteniendo únicamente los términos de primero y segundo
grado.
▶ A partir de esta aproximación de plantea la relación de
recurrencia
b̃m+1 = b̃m −
[
∂2L
∂β∂β′
]−1
β=β̃m
[
∂L
∂β
]
β=β̃m
donde b̃m es la m-ésima iteración y entre corchetes escribimos
la matriz de segundas derivadas y el vector de primeras
derivadas, ambas valorizadas en la m-ésima iteración.
Para estimar β escribimos primero la función de verosimilitud
L ∝
n∏
i=1
F (xiβ)
yi [1− F (xiβ)]1−yi
El algoritmo de Newton-Raphson (cont.)
Visto que no se trata de una función lineal, utilizamos en su lugar
una transformación monótona de L, i.e. el logaŕıtmo.
ln L =
n∑
i=1
yi lnF (xiβ) + (1− yi ) ln [1− F (xiβ)]
Luego calculamos la primera y segunda derivada de ln L respecto
de β.
∂ ln L
∂β
=
n∑
i=1
yi
∂ lnF (xiβ)
∂β
+ (1− yi )
∂ ln [1− F (xiβ)]
∂β
=
n∑
i=1
yi
1
F (xiβ)
∂F (xiβ)
∂β
− (1− yi )
1
1− F (xiβ)
∂F (xiβ)
∂β
.
El algoritmo de Newton-Raphson (cont.)
Expresión que luego de reemplazar por
∂F (xiβ)
∂β
= f (xiβ)x
′
i y
f (xiβ)
F (xiβ)
= 1− F (xiβ)
se reduce a
∂ ln L
∂β
=
n∑
i=1
[
yi
f (xiβ)
F (xiβ)
− (1− yi )
f (xiβ)
1− F (xiβ)
]
x′i . (3)
La deriva segunda ∂ ln2 L/∂β∂β′ es
n∑
i=1
yi
[
∂f (xiβ)
∂β′
F (xiβ)− f (xiβ)
∂F (xiβ)
∂β′
]
x′i
F 2(xiβ)
− (1− yi ) .
.
[
∂f (xiβ)
∂β′
[1− F (xiβ)]− f (xiβ)
∂ [1− F (xiβ)]
∂β′
]
x′i
[1− F (xiβ)]2
.
(4)
El algoritmo de Newton-Raphson (cont.)
Estas son expresiones generales para cualquier función de
distribución. El algoritmo de Newton-Raphson es el siguiente
(1) Definimos un vector inicial b̃0, por ejemplo b̃0 = 0 u otro
vector, siempre que se encuentre dentro del espacio
paramétrico.
(2) Calculamos f (xi b̃0) y F (xi b̃0).
(3) Calculamos el valor de la función de verosimilitud
transformada, ln L
(4) Calculamos el vector d de primeras derivadas según (3)
(5) Calculamos el Hessiano H según (4) o con la fórmula
equivalente dada a continuación y su inversa ordinaria H−1
El algoritmo de Newton-Raphson (cont.)
∂ ln2 L
∂β∂β′
= −
n∑
i=1
f (xiβ)yi
[
f (xiβ) + (xiβ)F (xiβ)
F 2(xiβ)
]
x′ixi−
−
n∑
i=1
f (xiβ)(1− yi )
[
f (xiβ)− (xiβ) [1− F (xiβ)]
[1− F (xiβ)]2
]
x′ixi
(6) Actualizamos la estimación inicial ediante la expresión de
recurrencia b̃1 = b̃0 −H−1d
(7) Criterio de convergencia: si max |b̃1 − b̃0| > δ volvemos a al
paso 2 reemplazando b̃0 por b1, en caso contrario detenemos
el cálculo.
La distribución aproximada de este estimador es
b̃m ∼ N
(
β,−
[
∂2L
∂β∂β′
]−1
β=β̃m
)
El algoritmo de Newton-Raphson (cont.)
Ejemplo Retomamos el ejemplo de los alumnos de Econometŕıa.
Si planteamos un valor inicial b0 = 0 y seguimos el algoritmo de
Newton-Raphson para un modelo Probit, obtenemos al cabo de la
primera iteración
d =
 5, 59128, 5
8, 78
 H−1 =
 −4, 22 0, 11 0, 960, 11 0, 00 −0, 01
0, 96 −0, 01 −0, 45
 b1 =
 −1, 250, 00
0, 00

Continuando con el algoritmo
b2 =
 −5, 370, 17
−1, 17
 . . . bm =
 −21, 131, 29
−4, 02

Estimación de β en modelos Logit
La función de densidad de probabilidad asociada a esta función es
similar a la f.d.p. normal pero con colas más pesadas. La forma
anaĺıtica de ambas funciones es
F (xiβ) =
(
1 + e−xiβ
)−1
y f (xiβ) = e
−xiβ
(
1 + e−xiβ
)−2
.
Reemplazando F (xiβ) y f (xiβ) por estas últimas en (3) y (4)
obtenemos las formas expĺıcitas
∂ ln L
∂β
=
n∑
1=1
[yi F (−xiβ)− (1− yi )F (xiβ)] x′i
∂ ln2 L
∂β∂β′
= −
n∑
1=1
f (xiβ)x
′
ixi . (5)
Estimación de β en modelos Probit
El modelo probit considera que la distribución subyacente a la
variable respuesta es la distribución normal.
F (xiβ) =
∫ xiβ
−∞
f (t)dt y f (xiβ) =
1√
2π
e−(xiβ)
2/2.
La práctica usual consiste en utilizar la expresión (3) para el vector
de primeras derivadas y una expresión más compacta del Hessiano
∂ ln2 L
∂β∂β′
= −
n∑
i=1
f (xiβ)yi
[
f (xiβ) + (xiβ)F (xiβ)
F 2(xiβ)
]
x′ixi−
−
n∑
i=1
f (xiβ)(1− yi )
[
f (xiβ)− (xiβ) [1− F (xiβ)]
[1− F (xiβ)]2
]
x′ixi
Estimación de β en modelos Probit (cont.)
▶ Los coeficientes del modelo Probit se multiplican por π/
√
3
para compararse con los del Logit.
▶ Amemiya da la siguiente relación teórica entre los parámetros
estimados del MLP y los del modelo Logit{
βMLPj = 0, 25β
LOGIT
j excepto para la ordenada al origen
βMLPj = 0, 25β
LOGIT
j + 0, 5 para la ordenada al origen
▶ Otra alternativa para comparar los coeficientes Probit o Logit
con los del MLP es comparar los efectos marginales en el valor
medio.
∂F (xβ)∂β
∣∣∣∣
x̄
= f (x̄β) x̄

Continuar navegando

Materiales relacionados