apunte_modelo_logit - Gustavo Perales Vivar

Otros

•
Outros

Desafio PASSEI DIRETO
28/7/2022
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

101.306 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Pág. 1 
 
Modelo logístico para variable dependiente binaria 
 
 Considere una variable binaria, de modo que: 
 
= 1						con	probabilidad	 												0						con	probabilidad	(1 − ) 
 
 Con este tipo de variable dependiente, un modelo de regresión se forma parametrizando la 
probabilidad haciéndola depender de un set de variables independientes. Concretamente, para cada 
∈ {1, 2, … , }, uno tiene la probabilidad condicional: 
 
= ℙ( = 1|{ , … , }) = ( + ∙ + ⋯+ ∙ ) 
 
donde (∙) es una función especificada. Durante el curso (sección 7.5 texto guía) hemos visto el modelo de 
probabilidad lineal, donde 
 
( + ∙ + ⋯+ ∙ ) = + ∙ + ⋯+ ∙ 
 
Pero, como ya sabemos, esta especificación de la función (∙) trae algunas desventajas (revisar texto guía 
para más detalles). Por ello, en este apunte se provee la siguiente especificación: 
 
( + ∙ + ⋯+ ∙ ) =
exp( + ∙ + ⋯+ ∙ )
1 + exp( + ∙ + ⋯+ ∙ ) 
 
 Luego, como ( |{ , … , }) = , entonces nos concierne el modelo de regresión: 
 
ℙ( = 1|{ , … , }) =
exp( + ∙ + ⋯+ ∙ )
1 + exp( + ∙ + ⋯+ ∙ ) 
 
el cual se llama modelo logístico (modelo logit). 
 
 
Efectos ceteris paribus en modelo logit. 
 
 Nuestro interés está en darle interpretación a cada uno de los parámetros , ,…, en el modelo 
logístico. Esta interpretación no es tan sencilla como para el Modelo de Regresión Lineal. Comenzaremos 
con las pendientes. Considere que: 
 
=
exp( + ∙ + ⋯+ ∙ )
1 + exp( + ∙ + ⋯+ ∙ ) 
 
Luego: 
 
exp( + ∙ + ⋯+ ∙ ) = 1 − 
 
¿Qué sucede si cambia en ∆ , ceteris paribus? Por propiedades de la función exponencial, 
 
exp( + ∙ ( + ∆ ) + ⋯+ ∙ ) = exp	( ∙ ∆ ) ∙ exp( + ∙ + ⋯+ ∙ ) 
 
Luego, si ∆ = 1, 
 
exp( + ∙ ( + 1) + ⋯+ ∙ ) = exp	( ) ∙ exp( + ∙ + ⋯+ ∙ ) 
Pág. 2 
 
 
Por tanto, 
 
ℙ( = 1|{ + 1, … , })
1 − ℙ( = 1|{ + 1, … , }) = exp( ) ∙
ℙ( = 1|{ , … , })
1 −ℙ( = 1|{ , … , }) 
 
Defina la chance (odds) de observar { = 1} sobre observar { = 0} como 
 
odds( , … , ) =
ℙ( = 1|{ , … , })
1 − ℙ( = 1|{ , … , }) ≥ 0 
 
Por ejemplo, si odds( , … , ) = 2, significa que, condicionalmente en { , … , }, es dos veces más 
probable observar { = 1} versus observar { = 0}. Luego,	exp( ) en cuanto aumenta la chance de 
observar { = 1} versus observar { = 0}, cuando aumenta es una unidad, manteniendo todo lo demás 
constante. La interpretación es similar para el resto de las pendientes del modelo. 
 
 
Estimación del modelo logit. 
 
 
Previo: Función de verosimilitud. 
 
Para entender cómo debiera estimarse el modelo logit, consideramos relevante que usted comprenda lo que 
es la función de verosimilitud y el método de estimación por máxima verosimilitud. Para ello, considere el 
siguiente ejemplo: 
 
Ejemplo: Suponga que usted está pensando en lanzar un nuevo producto y antes de lanzarlo usted desea 
saber cuál es la proporción de personas dentro de su segmento objetivo que compraría este nuevo producto. 
En otras palabras, usted desea saber cuál es la probabilidad que un individuo dentro de su segmento 
objetivo compre su producto. Sea esta probabilidad, siendo ésta un parámetro desconocido. Para estimar 
, usted considera una muestra aleatoria simple de tamaño proveniente de su segmento objetivo. En el i-
ésimo individuo de la muestra, usted registra la siguiente variable binaria { = 1} si el i-ésimo individuo 
señala que compraría su producto, mientras que { = 0} en caso contrario. Por tanto, su muestra 
aleatoria simple se traduce en variables aleatorias independientes ,…, , condicionales en . Según el 
curso de Estadística I, para el i-ésimo individuo de la muestra: 
 
| ~ Bernoulli( ) 
 
 
donde: ℙ({ = }| ) = ∙ (1 − ) 
Por tanto, 
 
ℙ({ = , … , = }| ) = ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) 
 
con 0 ≤ ≤ 1. 
 
Parte 1 del ejemplo: Sólo en esta parte, suponga que por experiencias anteriores con productos similares al 
que usted lanzará, usted sabe que puede tomar sólo uno de los tres siguientes valores: 1 4⁄ ,	1 3⁄ ó 4 5⁄ . 
Por otro lado, sólo para concretar, suponga que = 6 y que usted observa: 
 
{ = 1, = 0, = 0, = 1, = 0, = 1} 
 
Pág. 3 
 
Examinamos qué sucede con la probabilidad de observar la muestra para cada uno de los tres posibles 
valores de . 
 
 Si = 1/4: 
 
ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 1/4}) = (1/4) ∙ (3/4) = 0,0066 
 
 Si = 1/3: 
 
ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 1/3}) = (1/3) ∙ (2/3) = 0,011 
 
 Si = 4/5: 
 
ℙ({ = 1, = 0, = 0, = 1, = 0, = 1}|{ = 4/5}) = (4/5) ∙ (1/5) = 0,0041 
 
Por tanto, de entre estos tres posibles valores de , aquel que hace que la muestra sea más probable (más 
verosímil) de observar es 1/3. Por tanto, dados los datos observados en la muestra, se dice que ̂ = 1/3 
es la estimación máximo verosímil de . 
Ahora, ¿qué sucede si lo único que cambia es la composición de la muestra? Para concretar, suponga que 
las demás condiciones del problema se mantienen igual y lo único diferente es que usted observa: 
 
{ = 1, = 1, = 1, = 1, = 1, = 1} 
 
Examinamos qué sucede con la probabilidad de observar la muestra para cada uno de los tres posibles 
valores de . 
 
 Si = 1/4: 
 
ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 1/4}) = (1/4) = 0,000244 
 
 Si = 1/3: 
 
ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 1/3}) = (1/3) = 0,001372 
 
 Si = 4/5: 
 
ℙ({ = 1, = 1, = 1, = 1, = 1, = 1}|{ = 4/5}) = (4/5) = 0,262144 
 
Por tanto, de entre estos tres posibles valores de , aquel que hace que la muestra sea más probable (más 
verosímil) de observar es 4/5. Por tanto, dados los datos observados en la muestra, se dice que ̂ = 4/5 
es la estimación máximo verosímil de (la probabilidad de compra del producto por lanzar por parte de 
cualquier individuo del segmento objetivo). 
 
Parte 2 del ejemplo: En esta parte, suponga que no tiene información alguna sobre el valor de (como en 
el ejemplo anterior). Lo único que usted sabe es que 0 ≤ ≤ 11. Así, dado un valor de , la probabilidad 
de observar la muestra es: 
 
ℙ({ = , … , = }| ) = ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) 
ℙ({ = , … , = }| ) = ∙ (1− ) ∙ … ∙ ∙ (1 − ) 
ℙ({ = , … , = }| ) = ℒ( ; , … , ) 
 
 
1 En realidad, lo que interesa es el caso 0 < < 1 (¿por qué?) 
Pág. 4 
 
Esta función ℒ(∙) se conoce como la función de verosimilitud. Luego, el estimador de máxima verosimilitud 
de es el valor de ̂ que maximiza ℒ( ̂ ; , … , ), al igual que los ejemplos anteriores. 
Según los cursos de cálculo, usted debiese obtener los puntos críticos de la función de verosimilitud 
derivando ℒ( ̂ ; , … , ) con respecto a ̂ , y luego igualar esa derivada a 0 y así obtener lo 
requerido (verificando que el punto crítico realmente hace que la función ℒ( ̂ ; , … , ) sea máxima). 
Sin embargo, es usual maximizar la función de log-verosimilitud 
 
ln ℒ( ; , … , ) = ln( ∙ (1 − ) ∙ … ∙ ∙ (1 − ) ) 
 
Al hacer ese proceso de maximización en nuestro ejemplo (¡hágalo!), resulta que 
 
̂ =
1
∙ ( + ⋯+ ) 
 
siendo esta función de la muestra el estimador máximo verosímil de . 
 
 
Volvamos a la estimación de nuestro modelo logit. De acuerdo con la formulación del mismo, 
 
|{ , … , } ~ Bernoulli( ) 
 
Nuestro interés está en estimar los parámetros , ,…, . Luego, al considerar una muestra aleatoria 
simple de tamaño , la función de verosimilitud es: 
 
ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) = ∙ (1 − ) ∙ … ∙ ∙ (1 − ) 
ℙ({ = }| ) ∙ … ∙ ℙ({ = }| ) = ℒ({ , … , }; { , … , , , … , }) 
 
Luego, la función de log-verosimilitud es: 
 
ln ℒ({ , … , }; { , … , , , … , }) = ln ∙ (1 − ) ∙ … ∙ ∙ (1 − ) 
																																								= ∙ ln( ) + (1 − ) ∙ ln(1 − ) + ⋯+ ∙ ln( ) + (1 − ) ∙ ln(1 − ) 
																																								= { ∙ ln( ) + (1 − ) ∙ ln(1 − )} 
 
Considerando que, para el -ésimo individuo de la muestra, 
 
=
exp( + ∙ + ⋯+ ∙ )
1 + exp( + ∙ + ⋯+ ∙ ) 
 
Luego, al reemplazar en la función de log-verosimilitud, esta expresión queda bastante desagradable, 
pues al hacer el reemplazo la función de log-verosimilitud queda: 
 
∙ ln
exp( + ∙ + ⋯+ ∙ )
1 + exp( + ∙ + ⋯+ ∙ )
+ (1 − ) ∙ ln
1
1 + exp( + ∙ +⋯+ ∙ )
 
 
que la denotaremos por ℓ({ , , …, }; { , … , , , … , }). 
 
 En teoría, uno debiese maximizar esta funcion de log-verosimilitud. Por suerte, softwares 
econométricos de encargan de esa labor y de reportar los estimadores máximo verosímiles de , ,…, , 
así que no dedicaremos tiempo a estos detalles. Dado eso, uno obtiene , ,…, . Dados estos 
estimadores, uno obtiene 
 
Pág. 5 
 
̂ =
exp + ∙ + ⋯+ ∙
1 + exp + ∙ + ⋯+ ∙
 
 
 Bondad de ajuste en modelo logit. 
 
 ¿Es el coeficiente de determinación ( ) una buena elección? La respuesta es no, cuando la 
variable dependiente es binaria. McFadden (1974) propone la siguiente medida de bondad de ajuste: 
 
= 1 −
∑ ∙ ln ̂ + (1− ) ∙ ln 1 − ̂
∙ { ∙ ln( ) + (1 − ) ∙ ln(1 − )} 
 
Mientras más alto sea el valor de , mejor será el ajuste del modelo a los datos. 
 
 Predicciones en la variable dependiente – Característica Operativa del Receptor 
 
 Como en cualquier modelo de regresión, es la predicción en la variable dependiente. Como es 
binaria, entonces también debe serlo. Sin embargo, lo que uno tiene son probabilidades predichas ̂ . 
Luego, considere la siguiente regla de predicción: 
 
 = 1, si ̂ ≥ 
 = 0, si ̂ < 
 
donde, 0 ≤ ≤ 1. Luego, uno puede obtener la llamada Característica operativa del receptor (curva ROC) 
la cual grafica la fracción de veces en que se predice correctamente el resultado { = 1} contra la fracción 
de veces en que se predice incorrectamente el resultado { = 0}, para distintos valores de . 
 
 ¿Cómo hacer inferencia en el modelo logit? 
 
 De acuerdo con Bierens (2008), cuando la muestra es suficientemente grande uno tiene que 
 
=
√ ∙ −
~N(0; 1) 
 
para cada ∈ {1, … , }, donde es una estimación consistente de (la desviación estándar de ). En 
esta parte del curso, no se entrará en detalles matemáticos sobre cómo obtener . En la expresión anterior, 
 es un valor hipotético para (usual cuando uno desea hacer un test de hipótesis para ). Luego, esto 
puede ayudar a realizar test de significancia individual para cada una de las variables independientes en un 
modelo logit (cuando = 0). Los respectivos estadísticos de prueba calculados usualmente los entregan 
softwares estadísticos. 
 
 Por otro lado, Bierens (2008) postula un test de significancia conjunta para un subconjunto de 
pendientes. Concretamente, suponga que usted desea testear: 
 
: { = 0; = 0; … ; 	 = 0} versus : { 	es	falsa} 
 
donde < . Luego, para muestras grandes, el estadístico de prueba para este test es: 
 
LR = −2 ∙ {ℓ({ , 0,0, … ,0, , … , }; { , … , , , … , })
− ℓ({ , , … , }; { , … , , , … , })} 
 
Pág. 6 
 
En otras palabras, el estadístico LR es (−2) veces la resta de dos funciones de log-verosimilitud. En esta 
resta, el minuendo es la función de verosimilitud, pero eliminando las respectivas variables 
independientes del modelo (modelo restringido, como en el caso del test en modelos de regresión lineal) 
mientras que el sustraendo es la función de verosimilitud del con las variables independientes (modelo no 
restringido, como en el caso del test en modelos de regresión lineal). Ante muestras grandes, LR tiene 
una distribución Chi-cuadrado con grados de libertad. Luego, ante valores grandes del estadístico de 
prueba uno rechaza la hipótesis nula (tan grandes que superen al valor de tabla, el cual dependerá del nivel 
de significancia elegido). 
 
Ejemplo con datos: Un investigador está interesado en saber cómo el puntaje obtenido en el examen GRE 
(Graduate Record Exam), el GPA (Grade Point average) y el prestigio de la institución educacional de 
pregrado influyen en la probabilidad que un alumno sea admitido en una escuela de postgrado. La variable 
dependiente es {admitido (1)}/{no admitido (0)}. 
Al estimar el modelo por máxima verosimilitud, los resultados son: 
 
 Coeficiente Desv. típica Estadístico t 
constante –3,44955 1,13285 –3,045 
gre 0,00229396 0,00109184 2,101 
gpa 0,777014 0,327484 2,373 
rank –0,560031 0,127137 –4,405 
 
 
 Aquí se presentan los parámetros estimados y también los respectivos estadísticos de prueba para 
tests de significancia individual. Por tanto, si escogemos un 5% de nivel de significancia en cada test, 
entonces cada una de las variables (por separado) es significativa para el modelo propuesto. Además,la 
estimación entrega el estadístico de prueba calculado del test Chi-cuadrado de razón de verosimilitudes, el 
cual nos permite testear la significancia conjunta de las tres variables en cuestión. Este estadístico de 
prueba es 40,5348 (valor-p = 0,0000). Luego, con un 5% (incluso con un 0,01% de significancia) hay 
suficiente evidencia para concluir que las tres variables independientes son conjuntamente significativas. 
 
 La curva ROC para estos datos es: 
 
 
 
 ¿Cómo leer esta curva? De acuerdo con la definición de curva ROC, para cada valor de , uno tiene 
las siguientes cuatro cantidades: 
 
Pág. 7 
 
 De entre todos aquellos alumnos que fueron admitidos, la proporción de ellos en que el modelo predice 
que son admitidos (proporción de verdaderos positivos: VP). 
 
 De entre todos aquellos alumnos que no fueron admitidos, la proporción de ellos en que el modelo 
predice que son admitidos (proporción de falsos positivos: FP). 
 
 De entre todos aquellos alumnos que no fueron admitidos, la proporción de ellos en que el modelo 
predice que no son admitidos (proporción de verdaderos negativos: VN). 
 
 De entre todos aquellos alumnos que fueron admitidos, la proporción de ellos en que el modelo predice 
que no son admitidos (proporción de falsos negativos: FN). 
 
 Luego, habrán tantos valores de VP, FP, VN y FN como valores de uno se plantee (0 < < 1). 
Luego, la curva ROC es una curva que une todos los puntos (FP, VP), la cual está con azul. 
 
Preguntas: 
 
 ¿Cómo debiera ser la curva ROC para un modelo que predice de manera perfecta la admisión de 
cada alumno? 
 ¿Cómo debiera ser la curva ROC para un modelo que predice de manera totalmente errada la 
admisión de cada alumno? 
 La línea que aparece con rojo (punteada) es la recta de 45°. ¿Cómo se interpreta esta recta en el 
contexto de una curva ROC? 
 
 La tabla de clasificación muestra lo que sucede cuando 	 = 	1/2. 
 
 Predicho 
 0 1 
Observado 
0 253 20 
1 98 29 
 
 Por tanto, una forma para examinar la capacidad predictiva del modelo es el número de casos 
“correctamente predichos”:	253 + 29 = 282 (70,5%). 
 
Pregunta: En este ejemplo, ¿qué tipo de variable es rank? ¿Se le ocurre un modelo logit que explote la 
tipología de esta variable independiente? Estime ese modelo e interprete los parámetros estimados. Evalúe 
la capacidad predictiva del modelo y grafique la curva ROC correspondiente. Compare esta curva con la 
curva ROC que se mostró en este apunte. 
 
Referencias 
 
 Bierens, H. 2008. “The Logit Model: Estimation, Testing and Interpretation”. Disponible en: 
http://econ.la.psu.edu/~hbierens/ML_LOGIT.PDF 
 Cameron, A. & Trivedi, P. 2005. “Microeconometrics. Methods and Applications”. Cambridge 
University Press. 
 Gujarati, D. 1993. “Econometría”. Segunda edición. Editorial McGraw-Hill. 
 Wooldridge, J. 2010. “Introducción a la Econometría. Un enfoque moderno”. 4a edición. Cenage 
Learning.