Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Variables dicótomas endógenas Luis Frank Facultad de Agronoḿıa Universidad de Buenos Aires Mayo, 2022 El Modelo Lineal de Probabilidad Es el modelo más sencillo de elecciones binarias. Bajo esta especificación yi es una v .a. que toma dos valores, 0 o 1. y = Xβ + ϵ, con ϵ ∼ (0, σ2Ω). donde E (yi |xi ) se asimila a la probabilidad de elección u ocurrencia de un evento. La principal ventaja del MLP es su sencillez, y sus principales desventajas son ▶ el error no sigue una distribución normal sino Bernoulli, ya que ϵi = 1− x′iβ si yi = 1, y ϵi = −x′iβ si yi = 0 ▶ el modelo es heteroscedástico ya que var(ϵi ) depende de xi ▶ no siempre ocurre que 0 ≤ ŷi |xi ≤ 1 ▶ el R2 es cuestionable como medida de bondad de ajuste, justamente por ser Ω ̸= In. El Modelo Lineal de Probabilidad (cont.) Ejemplo. Ajustamos un MLP para estimar la probabilidad de aprobar el examen final de Econometŕıa en función de la dedicación al estudio (en horas) y el tiempo transcurrido desde la aprobación de Estad́ıstica (en años). Los datos son ficticios. Horas estudio 25 11 36 15 21 24 29 Años Estad́ıstica 1 2 1 1 3 1 2 Aprobado 1 0 1 0 0 1 1 El Modelo Lineal de Probabilidad (cont.) ŷi 0,79 -0,09 1,31 0,32 0,16 0,74 0,76 ŷ∗i 0,79 0,01 0,99 0,32 0,16 0,74 0,76 ω̂i 0,17 0,01 0,01 0,22 0,13 0,19 0,18 El Modelo Lineal de Probabilidad (cont.) ▶ El modelo es heteroscedástico por construcción por lo cual se debe recurrir al estimador GLS. La matriz Ω se estima con ω̂i = ŷ ∗ i (1− ŷ∗i ), lo cual equivale a realizar la transformación yi√ ω̂i = β1√ ω̂i + β2 xi2√ ω̂i + β3 xi3√ ω̂i + ϵi√ ω̂i ▶ Nótese que el modelo transformado no tiene ordenada al origen por lo cual el estad́ıstico R2 es cuestionable. Los modelos Logit y Probit Para corregir las desventajas del MLP se han propuesto los modelos alternativos ▶ Logit. Este modelo proviene de considerar la función de distribución de probabilidad loǵıstica. Pi = 1 1 + e−x ′ iβ o bien ln Pi (1− Pi ) = x′iβ. (1) ▶ Probit. Proviene de considerar una distribución de probabilidad normal. Pi = 1√ 2π ∫ x′iβ −∞ e−t 2/2dt, donde Pi = E (yi = 1|xi ) (2) En ambos casos se puede estimar β por OLS si los datos se agrupan en clases. De lo contrario se recurre a estimadores computacionales. Los modelos Logit y Probit (cont.) ▶ El modelo logit es útil para datos agrupados, es decir, para situaciones en que P se puede estimar como nh/Nh. l̂ogit = ln P̂h (1− P̂h) = ln nh (Nh − nh) para todo nh < Nh. Luego, para tamaños muestrales suficientemente grandes, el modelo de datos agrupados es logith = x ′ hβ + ϵh, ϵh ∼aprox . N ( 0, 1 NhPh(1− Ph) ) ▶ Como regla práctica, se recomienda que Nh sea por lo menos 5. en estas condiciones β se puede estimar por OLS. ▶ Al igual que el MLP este modelo es heteroscedástico por lo cual debe ser trasnformado multiplicando por √ ω̂h = √ NhP̂h(1− P̂h) Los modelos Logit y Probit (cont.) Ejemplo. Retomemos el ejemplo anterior (con dos observaciones adicionales) pero agrupando a los alumnos por cohorte de alumnos Horas estudio 25 . . . 29 27 5 Años Estad́ıstica 1 . . . 2 3 2 Aprobado 1 . . . 1 1 0 Luego, Nh nh P̂h l̂ogit ω̂h 4 3 0,75 1,10 0,75 3 1 0,33 -0,69 0,67 2 1 0,50 0,00 0,50 Agrupando datos (exc. x1 que se promedia) y transformando xh1 xh2 x̄h1 √ ω̂h xh2 √ ω̂h l̂ogit× √ ω̂h 25 1 21,65 0,87 0,95 15 2 12,25 1,63 -0,57 24 3 16,97 2,12 0,00 El algoritmo de Newton-Raphson ▶ Este método proviene de expandir (1) y (2) en serie de Taylor reteniendo únicamente los términos de primero y segundo grado. ▶ A partir de esta aproximación de plantea la relación de recurrencia b̃m+1 = b̃m − [ ∂2L ∂β∂β′ ]−1 β=β̃m [ ∂L ∂β ] β=β̃m donde b̃m es la m-ésima iteración y entre corchetes escribimos la matriz de segundas derivadas y el vector de primeras derivadas, ambas valorizadas en la m-ésima iteración. Para estimar β escribimos primero la función de verosimilitud L ∝ n∏ i=1 F (xiβ) yi [1− F (xiβ)]1−yi El algoritmo de Newton-Raphson (cont.) Visto que no se trata de una función lineal, utilizamos en su lugar una transformación monótona de L, i.e. el logaŕıtmo. ln L = n∑ i=1 yi lnF (xiβ) + (1− yi ) ln [1− F (xiβ)] Luego calculamos la primera y segunda derivada de ln L respecto de β. ∂ ln L ∂β = n∑ i=1 yi ∂ lnF (xiβ) ∂β + (1− yi ) ∂ ln [1− F (xiβ)] ∂β = n∑ i=1 yi 1 F (xiβ) ∂F (xiβ) ∂β − (1− yi ) 1 1− F (xiβ) ∂F (xiβ) ∂β . El algoritmo de Newton-Raphson (cont.) Expresión que luego de reemplazar por ∂F (xiβ) ∂β = f (xiβ)x ′ i y f (xiβ) F (xiβ) = 1− F (xiβ) se reduce a ∂ ln L ∂β = n∑ i=1 [ yi f (xiβ) F (xiβ) − (1− yi ) f (xiβ) 1− F (xiβ) ] x′i . (3) La deriva segunda ∂ ln2 L/∂β∂β′ es n∑ i=1 yi [ ∂f (xiβ) ∂β′ F (xiβ)− f (xiβ) ∂F (xiβ) ∂β′ ] x′i F 2(xiβ) − (1− yi ) . . [ ∂f (xiβ) ∂β′ [1− F (xiβ)]− f (xiβ) ∂ [1− F (xiβ)] ∂β′ ] x′i [1− F (xiβ)]2 . (4) El algoritmo de Newton-Raphson (cont.) Estas son expresiones generales para cualquier función de distribución. El algoritmo de Newton-Raphson es el siguiente (1) Definimos un vector inicial b̃0, por ejemplo b̃0 = 0 u otro vector, siempre que se encuentre dentro del espacio paramétrico. (2) Calculamos f (xi b̃0) y F (xi b̃0). (3) Calculamos el valor de la función de verosimilitud transformada, ln L (4) Calculamos el vector d de primeras derivadas según (3) (5) Calculamos el Hessiano H según (4) o con la fórmula equivalente dada a continuación y su inversa ordinaria H−1 El algoritmo de Newton-Raphson (cont.) ∂ ln2 L ∂β∂β′ = − n∑ i=1 f (xiβ)yi [ f (xiβ) + (xiβ)F (xiβ) F 2(xiβ) ] x′ixi− − n∑ i=1 f (xiβ)(1− yi ) [ f (xiβ)− (xiβ) [1− F (xiβ)] [1− F (xiβ)]2 ] x′ixi (6) Actualizamos la estimación inicial ediante la expresión de recurrencia b̃1 = b̃0 −H−1d (7) Criterio de convergencia: si max |b̃1 − b̃0| > δ volvemos a al paso 2 reemplazando b̃0 por b1, en caso contrario detenemos el cálculo. La distribución aproximada de este estimador es b̃m ∼ N ( β,− [ ∂2L ∂β∂β′ ]−1 β=β̃m ) El algoritmo de Newton-Raphson (cont.) Ejemplo Retomamos el ejemplo de los alumnos de Econometŕıa. Si planteamos un valor inicial b0 = 0 y seguimos el algoritmo de Newton-Raphson para un modelo Probit, obtenemos al cabo de la primera iteración d = 5, 59128, 5 8, 78 H−1 = −4, 22 0, 11 0, 960, 11 0, 00 −0, 01 0, 96 −0, 01 −0, 45 b1 = −1, 250, 00 0, 00 Continuando con el algoritmo b2 = −5, 370, 17 −1, 17 . . . bm = −21, 131, 29 −4, 02 Estimación de β en modelos Logit La función de densidad de probabilidad asociada a esta función es similar a la f.d.p. normal pero con colas más pesadas. La forma anaĺıtica de ambas funciones es F (xiβ) = ( 1 + e−xiβ )−1 y f (xiβ) = e −xiβ ( 1 + e−xiβ )−2 . Reemplazando F (xiβ) y f (xiβ) por estas últimas en (3) y (4) obtenemos las formas expĺıcitas ∂ ln L ∂β = n∑ 1=1 [yi F (−xiβ)− (1− yi )F (xiβ)] x′i ∂ ln2 L ∂β∂β′ = − n∑ 1=1 f (xiβ)x ′ ixi . (5) Estimación de β en modelos Probit El modelo probit considera que la distribución subyacente a la variable respuesta es la distribución normal. F (xiβ) = ∫ xiβ −∞ f (t)dt y f (xiβ) = 1√ 2π e−(xiβ) 2/2. La práctica usual consiste en utilizar la expresión (3) para el vector de primeras derivadas y una expresión más compacta del Hessiano ∂ ln2 L ∂β∂β′ = − n∑ i=1 f (xiβ)yi [ f (xiβ) + (xiβ)F (xiβ) F 2(xiβ) ] x′ixi− − n∑ i=1 f (xiβ)(1− yi ) [ f (xiβ)− (xiβ) [1− F (xiβ)] [1− F (xiβ)]2 ] x′ixi Estimación de β en modelos Probit (cont.) ▶ Los coeficientes del modelo Probit se multiplican por π/ √ 3 para compararse con los del Logit. ▶ Amemiya da la siguiente relación teórica entre los parámetros estimados del MLP y los del modelo Logit{ βMLPj = 0, 25β LOGIT j excepto para la ordenada al origen βMLPj = 0, 25β LOGIT j + 0, 5 para la ordenada al origen ▶ Otra alternativa para comparar los coeficientes Probit o Logit con los del MLP es comparar los efectos marginales en el valor medio. ∂F (xβ)∂β ∣∣∣∣ x̄ = f (x̄β) x̄
Compartir