Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Pág. 1 Modelo logístico para variable dependiente binaria Considere una variable binaria, de modo que: = 1 con probabilidad 0 con probabilidad (1 − ) Con este tipo de variable dependiente, un modelo de regresión se forma parametrizando la probabilidad haciéndola depender de un set de variables independientes. Concretamente, para cada ∈ {1, 2, … , }, uno tiene la probabilidad condicional: = ℙ( = 1|{ , … , }) = ( + ∙ + ⋯+ ∙ ) donde (∙) es una función especificada. Durante el curso (sección 7.5 texto guía) hemos visto el modelo de probabilidad lineal, donde ( + ∙ + ⋯+ ∙ ) = + ∙ + ⋯+ ∙ Pero, como ya sabemos, esta especificación de la función (∙) trae algunas desventajas (revisar texto guía para más detalles). Por ello, en este apunte se provee la siguiente especificación: ( + ∙ + ⋯+ ∙ ) = exp( + ∙ + ⋯+ ∙ ) 1 + exp( + ∙ + ⋯+ ∙ ) Luego, como ( |{ , … , }) = , entonces nos concierne el modelo de regresión: ℙ( = 1|{ , … , }) = exp( + ∙ + ⋯+ ∙ ) 1 + exp( + ∙ + ⋯+ ∙ ) el cual se llama modelo logístico (modelo logit). Efectos ceteris paribus en modelo logit. Nuestro interés está en darle interpretación a cada uno de los parámetros , ,…, en el modelo logístico. Esta interpretación no es tan sencilla como para el Modelo de Regresión Lineal. Comenzaremos con las pendientes. Considere que: = exp( + ∙ + ⋯+ ∙ ) 1 + exp( + ∙ + ⋯+ ∙ ) Luego: exp( + ∙ + ⋯+ ∙ ) = 1 − ¿Qué sucede si cambia en ∆ , ceteris paribus? Por propiedades de la función exponencial, exp( + ∙ ( + ∆ ) + ⋯+ ∙ ) = exp ( ∙ ∆ ) ∙ exp( + ∙ + ⋯+ ∙ ) Luego, si ∆ = 1, exp( + ∙ ( + 1) + ⋯+ ∙ ) = exp ( ) ∙ exp( + ∙ + ⋯+ ∙ ) Pág. 2 Por tanto, ℙ( = 1|{ + 1, … , }) 1 − ℙ( = 1|{ + 1, … , }) = exp( ) ∙ ℙ( = 1|{ , … , }) 1 −ℙ( = 1|{ , … , }) Defina la chance (odds) de observar { = 1} sobre observar { = 0} como odds( , … , ) = ℙ( = 1|{ , … , }) 1 − ℙ( = 1|{ , … , }) ≥ 0 Por ejemplo, si odds( , … , ) = 2, significa que, condicionalmente en { , … , }, es dos veces más probable observar { = 1} versus observar { = 0}. Luego, exp( ) en cuanto aumenta la chance de observar { = 1} versus observar { = 0}, cuando aumenta es una unidad, manteniendo todo lo demás constante. La interpretación es similar para el resto de las pendientes del modelo. Estimación del modelo logit. Previo: Función de verosimilitud. Para entender cómo debiera estimarse el modelo logit, consideramos relevante que usted comprenda lo que es la función de verosimilitud y el método de estimación por máxima verosimilitud. Para ello, considere el siguiente ejemplo: Ejemplo: Suponga que usted está pensando en lanzar un nuevo producto y antes de lanzarlo usted desea saber cuál es la proporción de personas dentro de su segmento objetivo que compraría este nuevo producto. En otras palabras, usted desea saber cuál es la probabilidad que un individuo dentro de su segmento objetivo compre su producto. Sea esta probabilidad, siendo ésta un parámetro desconocido. Para estimar , usted considera una muestra aleatoria simple de tamaño proveniente de su segmento objetivo. En el i- ésimo individuo de la muestra, usted registra la siguiente variable binaria { = 1} si el i-ésimo individuo señala que compraría su producto, mientras que { = 0} en caso contrario. Por tanto, su muestra aleatoria simple se traduce en variables aleatorias independientes ,…, , condicionales en . Según el curso de Estadística I, para el i-ésimo individuo de la muestra: | ~ Bernoulli( ) donde: ℙ({ = }| ) = ∙ (1 − ) Por tanto, ℙ({ = , … , = }| ) = ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) con 0 ≤ ≤ 1. Parte 1 del ejemplo: Sólo en esta parte, suponga que por experiencias anteriores con productos similares al que usted lanzará, usted sabe que puede tomar sólo uno de los tres siguientes valores: 1 4⁄ , 1 3⁄ ó 4 5⁄ . Por otro lado, sólo para concretar, suponga que = 6 y que usted observa: { = 1, = 0, = 0, = 1, = 0, = 1} Pág. 3 Examinamos qué sucede con la probabilidad de observar la muestra para cada uno de los tres posibles valores de . Si = 1/4: ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 1/4}) = (1/4) ∙ (3/4) = 0,0066 Si = 1/3: ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 1/3}) = (1/3) ∙ (2/3) = 0,011 Si = 4/5: ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 4/5}) = (4/5) ∙ (1/5) = 0,0041 Por tanto, de entre estos tres posibles valores de , aquel que hace que la muestra sea más probable (más verosímil) de observar es 1/3. Por tanto, dados los datos observados en la muestra, se dice que ̂ = 1/3 es la estimación máximo verosímil de . Ahora, ¿qué sucede si lo único que cambia es la composición de la muestra? Para concretar, suponga que las demás condiciones del problema se mantienen igual y lo único diferente es que usted observa: { = 1, = 1, = 1, = 1, = 1, = 1} Examinamos qué sucede con la probabilidad de observar la muestra para cada uno de los tres posibles valores de . Si = 1/4: ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 1/4}) = (1/4) = 0,000244 Si = 1/3: ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 1/3}) = (1/3) = 0,001372 Si = 4/5: ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 4/5}) = (4/5) = 0,262144 Por tanto, de entre estos tres posibles valores de , aquel que hace que la muestra sea más probable (más verosímil) de observar es 4/5. Por tanto, dados los datos observados en la muestra, se dice que ̂ = 4/5 es la estimación máximo verosímil de (la probabilidad de compra del producto por lanzar por parte de cualquier individuo del segmento objetivo). Parte 2 del ejemplo: En esta parte, suponga que no tiene información alguna sobre el valor de (como en el ejemplo anterior). Lo único que usted sabe es que 0 ≤ ≤ 11. Así, dado un valor de , la probabilidad de observar la muestra es: ℙ({ = , … , = }| ) = ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) ℙ({ = , … , = }| ) = ∙ (1− ) ∙ … ∙ ∙ (1 − ) ℙ({ = , … , = }| ) = ℒ( ; , … , ) 1 En realidad, lo que interesa es el caso 0 < < 1 (¿por qué?) Pág. 4 Esta función ℒ(∙) se conoce como la función de verosimilitud. Luego, el estimador de máxima verosimilitud de es el valor de ̂ que maximiza ℒ( ̂ ; , … , ), al igual que los ejemplos anteriores. Según los cursos de cálculo, usted debiese obtener los puntos críticos de la función de verosimilitud derivando ℒ( ̂ ; , … , ) con respecto a ̂ , y luego igualar esa derivada a 0 y así obtener lo requerido (verificando que el punto crítico realmente hace que la función ℒ( ̂ ; , … , ) sea máxima). Sin embargo, es usual maximizar la función de log-verosimilitud ln ℒ( ; , … , ) = ln( ∙ (1 − ) ∙ … ∙ ∙ (1 − ) ) Al hacer ese proceso de maximización en nuestro ejemplo (¡hágalo!), resulta que ̂ = 1 ∙ ( + ⋯+ ) siendo esta función de la muestra el estimador máximo verosímil de . Volvamos a la estimación de nuestro modelo logit. De acuerdo con la formulación del mismo, |{ , … , } ~ Bernoulli( ) Nuestro interés está en estimar los parámetros , ,…, . Luego, al considerar una muestra aleatoria simple de tamaño , la función de verosimilitud es: ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) = ∙ (1 − ) ∙ … ∙ ∙ (1 − ) ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) = ℒ({ , … , }; { , … , , , … , }) Luego, la función de log-verosimilitud es: ln ℒ({ , … , }; { , … , , , … , }) = ln ∙ (1 − ) ∙ … ∙ ∙ (1 − ) = ∙ ln( ) + (1 − ) ∙ ln(1 − ) + ⋯+ ∙ ln( ) + (1 − ) ∙ ln(1 − ) = { ∙ ln( ) + (1 − ) ∙ ln(1 − )} Considerando que, para el -ésimo individuo de la muestra, = exp( + ∙ + ⋯+ ∙ ) 1 + exp( + ∙ + ⋯+ ∙ ) Luego, al reemplazar en la función de log-verosimilitud, esta expresión queda bastante desagradable, pues al hacer el reemplazo la función de log-verosimilitud queda: ∙ ln exp( + ∙ + ⋯+ ∙ ) 1 + exp( + ∙ + ⋯+ ∙ ) + (1 − ) ∙ ln 1 1 + exp( + ∙ +⋯+ ∙ ) que la denotaremos por ℓ({ , , …, }; { , … , , , … , }). En teoría, uno debiese maximizar esta funcion de log-verosimilitud. Por suerte, softwares econométricos de encargan de esa labor y de reportar los estimadores máximo verosímiles de , ,…, , así que no dedicaremos tiempo a estos detalles. Dado eso, uno obtiene , ,…, . Dados estos estimadores, uno obtiene Pág. 5 ̂ = exp + ∙ + ⋯+ ∙ 1 + exp + ∙ + ⋯+ ∙ Bondad de ajuste en modelo logit. ¿Es el coeficiente de determinación ( ) una buena elección? La respuesta es no, cuando la variable dependiente es binaria. McFadden (1974) propone la siguiente medida de bondad de ajuste: = 1 − ∑ ∙ ln ̂ + (1− ) ∙ ln 1 − ̂ ∙ { ∙ ln( ) + (1 − ) ∙ ln(1 − )} Mientras más alto sea el valor de , mejor será el ajuste del modelo a los datos. Predicciones en la variable dependiente – Característica Operativa del Receptor Como en cualquier modelo de regresión, es la predicción en la variable dependiente. Como es binaria, entonces también debe serlo. Sin embargo, lo que uno tiene son probabilidades predichas ̂ . Luego, considere la siguiente regla de predicción: = 1, si ̂ ≥ = 0, si ̂ < donde, 0 ≤ ≤ 1. Luego, uno puede obtener la llamada Característica operativa del receptor (curva ROC) la cual grafica la fracción de veces en que se predice correctamente el resultado { = 1} contra la fracción de veces en que se predice incorrectamente el resultado { = 0}, para distintos valores de . ¿Cómo hacer inferencia en el modelo logit? De acuerdo con Bierens (2008), cuando la muestra es suficientemente grande uno tiene que = √ ∙ − ~N(0; 1) para cada ∈ {1, … , }, donde es una estimación consistente de (la desviación estándar de ). En esta parte del curso, no se entrará en detalles matemáticos sobre cómo obtener . En la expresión anterior, es un valor hipotético para (usual cuando uno desea hacer un test de hipótesis para ). Luego, esto puede ayudar a realizar test de significancia individual para cada una de las variables independientes en un modelo logit (cuando = 0). Los respectivos estadísticos de prueba calculados usualmente los entregan softwares estadísticos. Por otro lado, Bierens (2008) postula un test de significancia conjunta para un subconjunto de pendientes. Concretamente, suponga que usted desea testear: : { = 0; = 0; … ; = 0} versus : { es falsa} donde < . Luego, para muestras grandes, el estadístico de prueba para este test es: LR = −2 ∙ {ℓ({ , 0,0, … ,0, , … , }; { , … , , , … , }) − ℓ({ , , … , }; { , … , , , … , })} Pág. 6 En otras palabras, el estadístico LR es (−2) veces la resta de dos funciones de log-verosimilitud. En esta resta, el minuendo es la función de verosimilitud, pero eliminando las respectivas variables independientes del modelo (modelo restringido, como en el caso del test en modelos de regresión lineal) mientras que el sustraendo es la función de verosimilitud del con las variables independientes (modelo no restringido, como en el caso del test en modelos de regresión lineal). Ante muestras grandes, LR tiene una distribución Chi-cuadrado con grados de libertad. Luego, ante valores grandes del estadístico de prueba uno rechaza la hipótesis nula (tan grandes que superen al valor de tabla, el cual dependerá del nivel de significancia elegido). Ejemplo con datos: Un investigador está interesado en saber cómo el puntaje obtenido en el examen GRE (Graduate Record Exam), el GPA (Grade Point average) y el prestigio de la institución educacional de pregrado influyen en la probabilidad que un alumno sea admitido en una escuela de postgrado. La variable dependiente es {admitido (1)}/{no admitido (0)}. Al estimar el modelo por máxima verosimilitud, los resultados son: Coeficiente Desv. típica Estadístico t constante –3,44955 1,13285 –3,045 gre 0,00229396 0,00109184 2,101 gpa 0,777014 0,327484 2,373 rank –0,560031 0,127137 –4,405 Aquí se presentan los parámetros estimados y también los respectivos estadísticos de prueba para tests de significancia individual. Por tanto, si escogemos un 5% de nivel de significancia en cada test, entonces cada una de las variables (por separado) es significativa para el modelo propuesto. Además,la estimación entrega el estadístico de prueba calculado del test Chi-cuadrado de razón de verosimilitudes, el cual nos permite testear la significancia conjunta de las tres variables en cuestión. Este estadístico de prueba es 40,5348 (valor-p = 0,0000). Luego, con un 5% (incluso con un 0,01% de significancia) hay suficiente evidencia para concluir que las tres variables independientes son conjuntamente significativas. La curva ROC para estos datos es: ¿Cómo leer esta curva? De acuerdo con la definición de curva ROC, para cada valor de , uno tiene las siguientes cuatro cantidades: Pág. 7 De entre todos aquellos alumnos que fueron admitidos, la proporción de ellos en que el modelo predice que son admitidos (proporción de verdaderos positivos: VP). De entre todos aquellos alumnos que no fueron admitidos, la proporción de ellos en que el modelo predice que son admitidos (proporción de falsos positivos: FP). De entre todos aquellos alumnos que no fueron admitidos, la proporción de ellos en que el modelo predice que no son admitidos (proporción de verdaderos negativos: VN). De entre todos aquellos alumnos que fueron admitidos, la proporción de ellos en que el modelo predice que no son admitidos (proporción de falsos negativos: FN). Luego, habrán tantos valores de VP, FP, VN y FN como valores de uno se plantee (0 < < 1). Luego, la curva ROC es una curva que une todos los puntos (FP, VP), la cual está con azul. Preguntas: ¿Cómo debiera ser la curva ROC para un modelo que predice de manera perfecta la admisión de cada alumno? ¿Cómo debiera ser la curva ROC para un modelo que predice de manera totalmente errada la admisión de cada alumno? La línea que aparece con rojo (punteada) es la recta de 45°. ¿Cómo se interpreta esta recta en el contexto de una curva ROC? La tabla de clasificación muestra lo que sucede cuando = 1/2. Predicho 0 1 Observado 0 253 20 1 98 29 Por tanto, una forma para examinar la capacidad predictiva del modelo es el número de casos “correctamente predichos”: 253 + 29 = 282 (70,5%). Pregunta: En este ejemplo, ¿qué tipo de variable es rank? ¿Se le ocurre un modelo logit que explote la tipología de esta variable independiente? Estime ese modelo e interprete los parámetros estimados. Evalúe la capacidad predictiva del modelo y grafique la curva ROC correspondiente. Compare esta curva con la curva ROC que se mostró en este apunte. Referencias Bierens, H. 2008. “The Logit Model: Estimation, Testing and Interpretation”. Disponible en: http://econ.la.psu.edu/~hbierens/ML_LOGIT.PDF Cameron, A. & Trivedi, P. 2005. “Microeconometrics. Methods and Applications”. Cambridge University Press. Gujarati, D. 1993. “Econometría”. Segunda edición. Editorial McGraw-Hill. Wooldridge, J. 2010. “Introducción a la Econometría. Un enfoque moderno”. 4a edición. Cenage Learning.
Compartir