Logo Studenta

Uso-de-arboles-de-decision-para-la-transformacion-de-variables-en-el-modelaje-de-un-score-de-credito

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA
DEMÉXICO
FACULTAD DE CIENCIAS
Uso de árboles de decisión para la transformación
de variables en el modelaje de un score de crédito.
T E S I S
QUE PARA OBTENER EL TÍTULO DE:
Actuaria
PRESENTA:
Vianney Karen Espinoza Godínez
TUTOR
M. en A. R. Jesús Esteban Castañeda Martínez
Margarita
Texto escrito a máquina
Ciudad de México 2019
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
1. Datos del alumno
Espinoza
Godínez
Vianney Karen
57 14 75 97
Universidad Nacional Autónoma
de México
Facultad de Ciencias
Actuaría
307030085
2. Datos del tutor
M en A R
Jesús Esteban
Castañeda
Martínez
3. Datos del sinodal 1
Dra
Lizbeth
Naranjo
Albarrán
4. Datos del sinodal 2
Mat
Margarita Elvira
Chávez
Cano
2
5. Datos del sinodal 3
M en C
Fernando Daniel
Pérez
Arriaga
6. Datos del sinodal 3
M en F
María del Rosario
Espinosa
Tu�ño
7. Datos del trabajo escrito
Uso de árboles de decisión para la transformación de
variables en el modelaje de un score de crédito.
132 p
2019
3
Dedicado a mis padres y hermanos. Los amo.
4
Agradecimientos
A mi director de tesis, M. en A. R. Jesús Esteban Catañeda Martínez, por compartir
sus conocimientos y tiempo en el desarrollo y revisión de este trabajo, gracias por la
con�anza y el ánimo. Gracias por todo.
A mis sinodales Dra. Lizbeth Naranjo, Mat. Margarita Elvira Chávez, M. en F.
María del Rosario Espinosa y M. en C. Fernando Daniel Pérez, gracias por su tiempo
dedicado a leer este trabajo, así como sus comentarios y consejos que enriquecieron
esta tesis.
Gracias a la UNAM por todo lo que me ha dado.
5
Índice general
Introducción 9
1. Antecedentes del Crédito 11
1.1. Características Principales del Contrato de Crédito . . . . . . . . . . 11
1.1.1. Tipos de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Riesgo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Evolución del Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1. Entorno Internacional . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2. México . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. Marco Regulatorio Nacional e Internacional . . . . . . . . . . . . . . 18
1.4.1. Comisión Nacional Bancaria y de Valores . . . . . . . . . . . . 18
1.4.2. Basilea III: Marco Regulatorio Internacional para los Bancos . 19
1.4.2.1. Pilar I: Cobertura de Riesgo . . . . . . . . . . . . . . 19
2. Análisis de Variables para el Score de Crédito 21
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Análisis de Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6. Análisis Inicial de Variables . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1. Técnica de Segmentación: Fine & Coarse Classing . . . . . . . 34
2.6.1.1. Aplicación de la Técnica de Segmentación Fine &
Coarse Classing . . . . . . . . . . . . . . . . . . . . 36
6
ÍNDICE GENERAL
2.6.2. Técnica de Segmentación: CHAID . . . . . . . . . . . . . . . . 45
2.6.2.1. El algoritmo CHAID . . . . . . . . . . . . . . . . . . 45
2.6.2.2. Aplicación de la Técnica de Segmentación CHAID . 46
3. Uso de la Regresión logística en el Desarrollo del Score de Crédito 56
3.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1.1. El Modelo de Regresión Logística . . . . . . . . . . . . . . . . 58
3.1.2. Estimación de la Regresión Logística por Máxima Verosimilitud 62
3.1.3. Pruebas Estadísticas del Modelo Logístico . . . . . . . . . . . 64
3.1.3.1. Devianza . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.3.2. Estadístico de Wald . . . . . . . . . . . . . . . . . . 64
3.1.3.3. Estadísticos R2 de Cox-Snell y R2 de Negelkerke . . 65
3.1.3.4. Criterio de Información de Akaike . . . . . . . . . . . 66
3.1.3.5. Criterio de Información Bayesiano . . . . . . . . . . 67
3.1.3.6. Matriz de Consfusión . . . . . . . . . . . . . . . . . . 67
3.1.4. Pruebas de Diferencias de Dos Poblaciones . . . . . . . . . . . 68
3.1.4.1. Índice de Gini . . . . . . . . . . . . . . . . . . . . . . 68
3.1.4.2. Prueba Kolmogorov-Smirnov . . . . . . . . . . . . . 70
3.1.5. Curva de ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2. LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2.1. Estimación de Regresión logística por LASSO . . . . . . . . . 72
4. Aplicación de la Regresión Logística 75
4.1. Estimación por Máxima Verosimilitud sobre Variables Segmentadas
con CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2. Estimación por Máxima Verosimilitud sobre Variables Segmentadas
con Fine & Coarse Classing . . . . . . . . . . . . . . . . . . . . . . . 79
4.3. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.1. Interpretación de los Parámetros Estimados . . . . . . . . . . 86
4.4. Pruebas de Diferenciación de Poblaciones . . . . . . . . . . . . . . . . 87
4.5. Prueba de los Supuestos de la Regresión Logística . . . . . . . . . . . 95
7
ÍNDICE GENERAL
4.6. K-fold Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.7. Estimación por LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5. Comparación de los Modelos 108
6. Conclusiones 111
A. Primer Apéndice 112
B. Segundo Apéndice 119
8
Introducción
La estimación de la probabilidad de incumplimiento es una técnica comúnmente
empleada por las instituciones de crédito en todo el mundo para medir el nivel de
riesgo de los solicitantes de crédito. Las técnicas de cali�cación más utilizadas para la
administración del riesgo crediticio son el credit scoring para mejorar el otorgamiento
del crédito y el behavioral score para analizar el comportamiento crediticio.
Los dos objetivos principales estas técnicas de cali�cación crediticia son: identi�car y
medir el riesgo de crédito, así como disminuir el porcentaje de clientes incumplidos,
con lo cual las instituciones de crédito optimizan y mejoran la rentabilidad de sus
carteras.
La estimación incorrecta de la probabilidad de incumplimiento puede derivar en
otorgamiento de precios incorrectos a productos �nancieros, lo cual generó la crisis
�nanciera global del 2008. Asimismo, la estimación de probabilidad de incumplimien-
to es un parámetro crucial en el cálculo del capital regulatorio bajo los estatutos de
Basilea III. Existen varios modelos multivariados que utilizan indicadores �nancieros
o características de los clientes como insumos para la estimación de la probabilidad
de default. Los modelos multivariados se pueden agrupar en tres categorías: 1) análi-
sis discriminante (lineal y cuadrático), 2) modelos de regresión (lineal, logit y probit)
y 3) modelos inductivos (redes neuronales, algoritmos genéticos, árboles de decisión).
Este trabajo se conforma por seis capítulos a través de los cuales se plantean los
antecedentes, metodologías, aplicación y resultados del análisis. El primer capítulo,
denominado Antecedentesdel crédito tiene como objetivo describir las característi-
cas principales del crédito, la situación actual de la regulación en México y a nivel
internacional, así como la evolución de los mercados. En el segundo capítulo, deno-
minado Análisis de Variables para el Score de Crédito, plantea el problema y realiza
el análisis inicial de variables donde se aplican las técnicas estadísticas de segmen-
tación de variables: �ne & coarse classing, la cual es la más común para segmentar
9
ÍNDICE GENERAL
datos en un modelo de scoring, y la técnica de segmentación con árboles de decisión
con la técnica CHAID, una alternativa de segmentación que se incorpora en este
trabajo de tesis. En tercer capítulo denominado Uso de la Regresión Logística en el
Desarrollo del Score de Crédito describe el marco teórico de la regresión logística y
LASSO, técnicas que ayudan en la generación del modelo predictivo, así como las
pruebas que ayudan a demostrar la robustez y efectividad de los modelos. El capítulo
cuatro denominado Aplicación de la Regresión Logística, muestra la aplicación de
las técnicas y pruebas planteadas en el capítulo tres a los datos considerados en el
estudio. El último capítulo denominado Comparación de los Modelos contrasta los
modelos obtenidos con las diferentes técnicas planteadas en este trabajo. Finalmente,
el último capítulo muestra las conclusiones principales obtenidas a partir del análisis
realizado.
10
Capítulo 1
Antecedentes del Crédito
1.1. Características Principales del Contrato de Cré-
dito
Un crédito es un acuerdo entre dos partes, en virtud del cual una de ellas (el acreedor)
le presta una cantidad de dinero a la otra (el deudor). Los créditos se formalizan a
través de contratos que establecen el plazo, los pagos, las comisiones y los seguros, así
como otras condiciones que se deben cumplir. El crédito se conforma por el capital,
los accesorios, el pago periódico y el saldo insoluto principal (Figura 1.1).
Figura 1.1: Características del crédito
Fuente: Elaboración propia con información de Banxico
11
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
Para el otorgamiento de un crédito se deben considerar algunos factores acerca del
deudor, como capacidad de pago, solvencia1 y patrimonio2, nivel de endeudamiento,
historial crediticio y estabilidad laboral. 3
1.1.1. Tipos de Crédito
Existen diversos tipos de crédito que le permiten a las personas �nanciar la adquisi-
ción de bienes o servicios que por su costo podrían afectar la liquidez del consumidor,
tales como casas, autos, negocios, etc. Asimismo, los créditos se pueden clasi�ca con
base en sus características en: consumo revolvente, hipotecario, de auto, de nómina
y ABC (Tabla 1.1 y 1.2).4
Tabla 1.1: Tipos de crédito
Tipo de Crédito De�nición
Consumo Revol-
vente
Es aquel que se puede utilizar repetidamente y retirar fondos hasta un
límite pre-aprobado. La cantidad de crédito disponible disminuye cada
vez que pedimos prestado y aumenta cuando lo pagamos. La tarjeta de
crédito es el crédito revolvente más utilizado.
Hipotecario Es el producto �nanciero que se crea para asegurar el cumplimiento
de una obligación sobre un bien (generalmente un inmueble). En otras
palabras, la hipoteca se re�ere a un préstamo o un crédito que una
entidad otorga a una persona. Dicha entidad toma el bien como garantía
en caso del incumplimiento de los pagos del acreditado.
Nómina Crédito clasi�cado como de consumo destinado a personas físicas a quie-
nes les depositan su sueldo en las entidades �nancieras otorgantes del
crédito.
Fuente: Glosario de términos, portfolio de información de la CNBV
1La capacidad de una persona para hacer frente a sus obligaciones de pago.
2Es la diferencia entre el valor de los bienes y las deudas de una persona.
3Información de Banco de México. http://www.anterior.banxico.org.mx/servicios/index.html
4https://portafolioinfdoctos.cnbv.gob.mx/Documentacion/minfo/00_DOC_R1.pdf
12
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
Tabla 1.2: Tipos de crédito
Tipo de Crédito De�nición
Auto Son préstamos a través de los cuales los bancos entregan a los clientes
una cantidad de dinero para la adquisición de automóviles. Este es un
tipo de crédito prendario. Por lo general, el bien que se deja en prenda
es el automóvil que se adquiere con el crédito. El deudor está obligado
a adquirir el vehículo con el crédito, a devolver la cantidad (principal)
que se le prestó, así como a pagar los intereses que se hayan pactado.
En algunas ocasiones los bancos otorgan estos préstamos directamente
a las empresas distribuidoras de automóviles para que éstas sean las que
otorguen a su vez el crédito a los clientes para la compra de los vehículos.
ABCD Los créditos ABCD son créditos para la adquisición de bienes de con-
sumo duradero, de ahí sus siglas. Estos créditos se otorgan para que las
personas adquieran bienes muebles que normalmente se consumen por
varios años, como los enseres domésticos, los aparatos electrodomésticos
(refrigeradores, hornos de microondas, etc.) y las computadoras, entre
muchos otros.
Fuente: Glosario de términos, portfolio de información de la CNBV
1.2. Riesgo de Crédito
Se de�ne como riesgo de crédito a la posibilidad de que, dado un contrato de crédito,
una de las partes no sea capaz de cumplir con las obligaciones adquiridas lo cual
derivaría en una pérdida de la contraparte. Además del incumplimiento del deudor
hay otros factores que afectan el valor del crédito como el cambio en la calidad
crediticia medida a nivel mundial por las cali�cadoras, quienes emiten cali�caciones
en función de la probabilidad de incumplimiento de la entidad emisora5. Dichas
cali�caciones in�uyen en la tasa de interés del crédito.
El crédito es una actividad con una larga historia, pero, el credit scoring es algo
relativamente nuevo que tuvo sus inicios aproximadamente hace seis décadas [19]
(Thomas, L. C. et al, (2002)). Antes de que se introdujera el credit scoring a los pro-
5Es la medida de qué tan probable es que un acreditado deje de cumplir con sus obligaciones
contractuales. Su mínimo valor es cero, lo cual indicaría que es imposible que incumpla con sus
obligaciones, y su máximo valor es uno cuando es seguro que incumpla.
13
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
cesos de generación de crédito, los créditos se otorgaban con base en la percepción y
en la experiencia de los ejecutivos encargados. La evaluación del crédito es un proceso
crucial en la toma de decisiones de las instituciones de crédito, el proceso incluye la
recolección y el análisis de variables relacionadas con el cliente y su comportamiento
crediticio. El credit scoring determina el score (puntaje) para los clientes que solici-
tan un crédito y permite identi�car a aquellos que tienen posibilidad de incumplir
con sus pagos; los métodos estadísticos y el avance en las tecnologías de la infor-
mación han permitido que las entidades �nancieras crediticias automaticen la toma
de decisiones sobre la aceptación o rechazo de una solicitud de crédito. Las técnicas
del credit score se han expandido y tienen aplicaciones en diferentes campos ya que
ofrecen la ventaja de reducir el riesgo de impago de un cliente, lo cual les permite
maximizar el bene�cio esperado.
1.3. Evolución del Crédito
El crédito ha ido evolucionado de la mano con la industria, para 1920 la producción en
masa, electri�cación, construcción de carreteras, comunicación accesible y expansión
del �nanciamiento al consumo se estaban dando en Estados Unidos. A inicios del
siglo XX los fabricantes de automóviles perfeccionaron la producción con las líneas de
ensamblaje lo que permitió la producción de automóviles a un precio más accesible,
esto sumado a la inversión pública en un sistema federal de carreteras permitió
que el mercado automovilístico se expandiera aún más. Otros fabricantes adaptaron
las técnicas de la línea de ensamblaje para producir electrodomésticos asequibles
y productos electrónicos de consumo:hornos, refrigeradores, lavadoras, fonógrafos,
radios, teléfonos. etc.
El uso ampliado del crédito a plazos fue el catalizador que ayudó a poner nuevos
productos al alcance de los consumidores. El gran avance se produjo en 1919 cuando
General Motors Acceptance Corporation (GMAC) se convirtió en la primera empresa
en poner el �nanciamiento a disposición de los compradores de automóviles con el
�n de acceder a clientes de ingresos medios. En lugar de liquidar el monto de la
compra de inmediato en una sola exhibición, fue a partir de los años 60 cuando el
uso generalizado del crédito de consumo se convirtió en una parte de las �nanzas
personales de los consumidores, los compradores de auto solo necesitaban un pago
inicial y un ingreso su�cientemente grande para cubrir los pagos mensuales durante
14
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
la vida del préstamo.
La aceptación de las tarjetas de crédito de uso general en el mercado fue lenta en
sus inicios debido a que dos obstáculos se interponían en el camino: (1) los gran-
des minoristas con programas de tarjetas de crédito propios se mostraban reacios a
participar en los programas de tarjetas bancarias; (2) atraer a titulares de tarjetas y
comerciantes desde fuera del área de comercialización de un banco emisor era proble-
mático. El primer problema se resolvió sin ningún tipo de intervención, los grandes
minoristas dejaron de lado su renuencia cuando se dieron cuenta que las tarjetas de
uso general aumentaban el gasto per cápita de los clientes. Por otro lado, la tecno-
logía ayudó a superar el problema de atracción de titulares. Las telecomunicaciones
y las computadoras dieron a los bancos y comerciantes las herramientas para mover
la información rápidamente y administrarla de manera más e�ciente. Los rápidos
intercambios de información fueron la clave para que todo el sistema funcionara. 6
1.3.1. Entorno Internacional
Ha pasado una década desde el colapso de Lehman Brothers y la primera observación
relacionada con el crédito es que la deuda global equivale a aproximadamente $164
billones de dólares o cerca del 225 por ciento del GDP global, siendo las economías
más fuertes las más endeudadas. China, Japón y Estados Unidos de América juntos
tienen más de la mitad de la deuda global. China es un caso interesante ya que en
los últimos 15 años pasó de tener el 3% de los créditos a tener el 15.5% (Figura 1.2).
La deuda pública y privada muestran un comportamiento diferente, mientras que
la deuda pública en su mayoría está concentrada en países desarrollados, la deuda
privada está concentrada en países emergentes.
A partir de la Segunda Guerra Mundial los índices de deuda global han marcado
una tendencia ascendente. El desarrollo global estuvo dominado por las economías
avanzadas hasta después de la Crisis Global Financiera (CGF) cuando las economías
emergentes tomaron el liderazgo, sin embargo, la brecha entre estas economías y
el G20 permanece signi�cativa ya que mantienen en promedio el 90% del GDP en
deuda. La fuerza impulsora del endeudamiento global ha sido el sector privado que
desde 1950 casi ha triplicado su deuda. Durante casi seis décadas las economías
6Credit History: The Evolution of Consumer Credit in America; https://www.bostonfed.org/-
/media/Documents/ledger/spring-summer2004/credhistory.pdf. [23]
15
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
avanzadas han dominado el apalancamiento global alcanzando su máximo en 2009
con el 170% del GDP, así mismo el ascenso de las economías emergentes comenzó
en 2005, siendo el 2009 el año en el que se convertirían en la principal fuerza dentro
de las tendencias globales.
Figura 1.2: Deudores más grandes por grupo de ingreso 2016
Fuente: Elaboración propia con información IMF Working Paper, Global Debt Database: Methodo-
logy and sources
Aunque el sector privado ha dominado la deuda global, la deuda pública también ha
desempeñado un papel importante para cada uno de los grupos por ingreso:
En las economías avanzadas la deuda pública ha mantenido un aumento con-
tinúo alcanzado más de un 100 por ciento durante los últimos años.
Entre las economías de mercados emergentes, la deuda pública alcanzó su má-
ximo del 63% del GDP a �nales de 1980 el cual �nalmente disminuyó debido
a la consolidación, reestructuración y condiciones cíclicas favorables. En los
últimos años la deuda pública ha vuelto a subir.
La deuda pública en los países en desarrollo de bajos ingresos alcanzó su punto
máximo en la década de 1990. Posteriormente la deuda bajó gracias a iniciati-
vas en bene�cio de este grupo de economías. No obstante, los elevados dé�cits
primarios y la caída de los precios de los productos básicos en 2014 han pro-
ducido un aumento en los índices de deuda ([10] Mbaye S. et al, (2018)).
16
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
1.3.2. México
La cartera de crédito en México7 ha presentado un crecimiento casi constante al
igual que el PIB (Figura 1.3). De 2011 a 2018 el crecimiento anual en promedio fue
de 6.3%, muy similar al que hubo de 2017 a 2018, cabe señalar que el promedio
no re�eja estrictamente el comportamiento general de los años ya que de 2011 a
2012 y de 2012 a 2013 se dio el mayor crecimiento del crédito con incrementos de
12.8% y 13.9% respectivamente, mientras que el peor año fue 2015 al presentarse
un decremento del 2.2% con respecto a 2014.
Figura 1.3: Evolución del PIB y el crédito en México
Fuente: Elaboración propia con datos de la CNBV
Durante los últimos años, el número de créditos ha aumentado para todos los tipos
de crédito con excepción del crédito de nómina, el cual disminuyó durante el último
periodo. Los créditos que se colocan con más frecuencia son las tarjetas de crédito,
mientras que el crédito hipotecario es el menos solicitado debido al monto y a sus
condiciones (Figura 1.4).
7La información analizada corresponde a bancos, instituciones de crédito, tiendas departamen-
tales y automotoras de México. La información se obtuvo de la Comisión Nacional Bancaria y de
Valores.
17
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
Figura 1.4: Evolución por tipo de crédito
Fuente: Elaboración propia con datos de la CNBV
1.4. Marco Regulatorio Nacional e Internacional
La Crisis Global Financiera comenzó a mediados de 2007 en EE. UU. y ha impulsado
el análisis de las causas que la desencadenaron, dentro de los debates cientí�cos se
ha resaltado la importancia de la gestión del riesgo de crédito en la banca comercial.
Las consecuencias derivadas de la crisis �nanciera muestran que los métodos y los
sistemas utilizados deben ser reevaluados con el objetivo de mejorar la gestión de
riesgo de crédito, así como de minimizar las posibles pérdidas.
1.4.1. Comisión Nacional Bancaria y de Valores
La Comisión Nacional Bancaria y de Valores es la encargada de establecer los li-
neamientos bajo los cuales las instituciones �nancieras de México desarrollarán sus
modelos de scoring y constituirán sus reservas. La entidad �nanciera debe desarro-
llar sus modelos de acuerdo con los objetivos del banco y su tolerancia al riesgo.
Al respecto la Circular Única de Bancos establece lo siguiente en relación con los
modelos internos de las instituciones �nancieras:
Las instituciones podrán cali�car su cartera crediticia8 utilizando una metodología
8Capítulo V, Cali�cación de Cartera Crediticia, Sección Primera De la Cartera Crediticia de
Consumo, Apartado B. Circular Única de Bancos de la CNBV.
18
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
distinta a la señalada en el Apartado A de la sección9 , considerando el tipo de
crédito, la estimación de la probabilidad de incumplimiento de los acreditados, la
severidad de la pérdida asociada al valor y la naturaleza de la garantía del crédito,
así como la exposición de incumplimiento, siempre que se obtenga previa autorización
de la Comisión quién la podrá otorgar una vez analizados los requisitos referidos en
el Anexo 15 de la CUB.
1.4.2. Basilea III: Marco Regulatorio Internacionalpara los
Bancos
El Comité de Supervisión Bancaria de Basilea desarrolló Basilea III10, un conjunto
de medidas acordadas internacionalmente en respuesta a la crisis �nanciera del 2008-
09, cuyo principal objetivo es reforzar la regulación, supervisión y gestión de riesgos
en los bancos.
Al igual que el resto de las normas del Comité de Basilea, los requerimientos de
Basilea III constituyen mínimos aplicables a bancos con actividad internacional. Los
miembros se comprometen a implementar y aplicar las normas en sus jurisdicciones
nacionales o regionales dentro de los plazos establecidos por el Comité. Basilea III se
fundamenta en tres pilares siendo el pilar I el que está relacionado con la regulación
del riesgo de crédito.
1.4.2.1. Pilar I: Cobertura de Riesgo
El pilar I se basa en los siguientes principios:
1. Las revisiones de los métodos estándar para calcular el riesgo de crédito,
riesgo de mercado, riesgo de ajuste de valoración del crédito y riesgo operacional
mejoran la sensibilidad del riesgo y la comparabilidad.
2. Las restricciones del uso de modelos internos tienen por objeto reducir
la variabilidad injusti�cada de los activos ponderados por riesgo de los bancos.
3. Riesgo de crédito de contraparte, se tendrán requisitos más estrictos para
la exposición; incentivos de capital para utilizar entidades de contrapartida
9Capítulo V, Cali�cación de Cartera Crediticia, Sección Primera De la Cartera Crediticia de
Consumo. Circular Única de Bancos de la CNBV. [23]
10Documentación de Basilea III; https://www.bis.org/bcbs/basel3_es.html. [24]
19
CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO
central al operar con derivados; un nuevo método estándar y aumento de los
requerimientos para las exposiciones dentro del sector �nanciero.
4. Titulizaciones11, reducción de la dependencia de cali�caciones externas, sim-
pli�cación y limitación del número de métodos para calcular los requerimientos
de capital e incremento de los requerimientos para las exposiciones más arries-
gadas.
5. Requerimientos de capital para exposiciones de contrapartida cen-
tral e inversiones accionarias en fondos para garantizar una adecuada
capitalización y sustentar un sistema �nanciero resiliente.
6. Un suelo de capital revisado (output �oor), basado en los métodos están-
dar de Basilea III, limita la reducción del capital regulador que un banco puede
disfrutar por utilizar sus modelos internos en vez de los modelos estándar.
11La titulización, también conocida por el anglicismo securitizacion, es una técnica �nanciera que
consiste en la transferencia de activos �nancieros que proporcionan derechos de crédito (como por
ejemplo facturas emitidas y no saldadas o préstamos en vigor) hacia un inversionista, transformando
esos derechos de crédito, mediante el paso a través de una sociedad ad hoc, en títulos �nancieros
emitidos en los mercados de capitales.
20
Capítulo 2
Análisis de Variables para el Score
de Crédito
2.1. Introducción
Existen varios métodos que pueden ser utilizados para el desarrollo de un scorecard,
estos implican de�nir y cuanti�car la relación entre las variables de cumplimiento de
pagos (independiente) y el de comportamiento de los clientes que tienen obligacio-
nes del pago de un crédito. El desarrollo del modelo contempla el uso de atributos
agrupados y la aplicación de regresión logística. El �ujo del desarrollo del scorecard
consiste en cuatro partes: transformación de las variables, modelo de entrenamiento
mediante la regresión logística, validación e interpretación (Figura 2.1).
Figura 2.1: Proceso estándar del desarrollo de un scorecard
Fuente: Elaboración propia
21
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
2.2. Datos
Los datos utilizados en este estudio se obtuvieron de Kaggle1, una plataforma dedi-
cada a fomentar el análisis de datos a través de competencias en las que estadistas y
expertos en minería de datos buscan desarrollar modelos predictivos. Especí�camen-
te los datos analizados en este estudio pertenecen al concurso Give Me Some Credit,
el cual tiene como meta mejorar el proceso de asignación de créditos a partir de un
modelo que estime la probabilidad de que alguien incumpla el pago de un crédito en
los próximos dos años. La muestra cuenta 150,000 registros y se utilizó la técnica de
cross validation para seleccionar aleatoriamente 120,000 observaciones para la cons-
trucción del modelo y 30,000 para realizar las pruebas predictivas. Se compararon
las distribuciones de incumplimientos crediticios de los dos subconjuntos (muestra
de entrenamiento y muestra de prueba) con respecto a la muestra completa a �n
de validar que dicha distribución se mantenga homogénea en ambos subconjuntos
(Tabla 2.1).
Tabla 2.1: Distribución del cumplimiento de los clientes
Muestras
Completa Entrenamiento Prueba
y Recuento % Recuento % Recuento %
0 139,974 93% 112,041 93% 27,933 93%
1 10,026 7% 7,959 7% 2,067 7%
Total 150,000 100% 120,000 100% 30,000 100%
Nota el valor de y =
{
0 clientes que cumplen con obligaciones del crédito
1 clientes que no cumplen con obligaciones del crédito
Fuente: Elaboración propia con datos de Kaggle
2.3. Variables
La muestra cuenta con diez variables potencialmente explicativas y una variable
dependiente. Las descripciones se obtuvieron directamente de la página de Kaggle
(Tablas 2.2 y 2.3).
1https://www.kaggle.com
22
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.2: Descripción de las variables (parte I)
Variable Id Descripción
y y
Variable dicotómica que toma valor de 1 cuando el cliente incurrió en
mora de 90 días o más y 0 en caso contrario. Es la variable de interés
que se tratará de modelar a través del modelo predictivo.
Edad V1 Edad del prestatario en años.
Número de De-
pendientes
V2
Número de dependientes en la familia excluyéndose (cónyuge, hijos,
etc.). La variable cuenta con 3% de valores faltantes, se mantiene la
misma proporción en las tres muestras.
Líneas de crédi-
to y Préstamos
abiertos
V3
Número de préstamos abiertos (cuotas como préstamos o hipotecas
para automóviles) y líneas de crédito (por ejemplo, tarjetas de crédi-
to).
Veces en mora
de 30-59 días
V4
La variable indica el número de veces que el cliente incurrió en mora
de 30 a 59 días. En otras palabras, cuando un cliente adquiere una
deuda tiene el compromiso de pagar en una fecha determinada, al
incumplimiento de este en tiempo se le llama mora y es clasi�cada
por el número de días que tarda en ser cubierto. En este caso se trata
del número de veces que una persona no cumplió con su obligación en
la fecha acordada, pero la cubrió en el lapso de 30 a 59 días siguientes
y no más; el evento debió ocurrir durante los últimos dos años.
Veces en mora
de 60-89 días
V5
Al igual que la variable anterior, indica el número de veces que una
persona incurrió en mora de 60 a 89 días. Lo que implicaría que el
cliente no cubrió el compromiso en la fecha acordada ni en el lapso de
30 a 59 días, sino que el pago se realizó en el intervalo de 60 a 89 días
después de que la fecha acordada, y no más; el evento debió ocurrir
durante los últimos dos años.
Veces en mora
de 90 días
V6
También indica el número de veces que una persona incurrió mora de
90 días. De igual modo que en las dos variables anteriores indica el
número de veces que un cliente no cumplió con su compromiso ni en
la fecha acordada ni en el lapso de 30 a 89 días, sino que fue cubierto
después de haber transcurrido 90 días.
Préstamos
Inmobiliarios e
Hipotecarios
V7
Indica el número de obligaciones hipotecarias o inmobiliarias con las
que cuenta el cliente.
Fuente: Traducción propia elaborada con base en las descripciones publicadas en Kaggle
23
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.3: Descripción de las variables (parte II)
Variable Id Descripción
Razón de uso de
crédito
V8
Esta variable se calcula dividiendo el saldo total utilizado de las tar-
jetas de créditoy créditos personales excepto bienes raíces y deudas
a plazo, entre la suma de los límites de crédito. El indicador calcula-
do ayuda a medir qué proporción de los créditos disponibles de una
persona se están usando. Este es uno de los factores más importantes
del score de crédito.
Razón de deuda V9
Representa el número de pagos mensuales de la deuda, pensión ali-
menticia y costos de vida divididos entreq el ingreso bruto mensual.
La variable cuenta con un 20% de valores faltantes, se comprobó que
se mantiene la misma proporción de valores faltantes en las tres mues-
tras.
Ingreso mensual V10 Ingreso mensual del prestatario.
Fuente: Traducción propia elaborada con base en las descripciones publicadas en Kaggle
2.4. Análisis Descriptivo
La exploración de los datos debe comenzar por el análisis descriptivo con estadísti-
cas simples como la media, mediana y rango, etc. ([18] Siddiqi, N., (2006)) (Tabla
2.4), esto permitirá tener una mejor visión del negocio. Asimismo, es recomendable
comparar el comportamiento de las muestras (de entrenamiento y de prueba) con el
conjunto de datos completo para validar que efectivamente se trata de una muestra
representativa (Apéndice A., Tabla A.1).
A continuación, se muestra el análisis descriptivo para cada una de las variables
explicativas, así como para la variable de interés.
El número de incumplimientos (variable de interés y) re�eja el comporta-
miento �nal de 120,000 clientes pertenecientes a la muestra de entrenamiento,
de los cuales se sabe que 112, 041 (93 %) cumplieron con sus obligaciones en
tiempo y se identi�caron como clientes con buen comportamiento, los 7, 959
(7 %) restantes incumplieron en el pago por más de 90 días, y se catalogaron
como los clientes con mal comportamiento (Figura 2.2).
24
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.4: Estadísticos descriptivos de la muestra de entrenamiento (120,000 regis-
tros)
Id Perdidos Media Mediana Moda Desv. est. Varianza Asimetría Curtosis Mínimo Máximo
y 0 0.07 0 0 0.250 0.06 3.49 10.15 0 1
V1 0 52.3 52 49 14.77 218.16 0.19 -0.49 21 109
V2 3095 0.76 0 0 1.11 1.24 1.59 3.12 0 20
V3 0 8.46 8 6 5.14 26.47 1.21 3.02 0 57
V4 0 0.41 0 0 4.09 16.69 23.16 549.51 0 98
V5 0 0.23 0 0 4.05 16.37 23.96 575.62 0 98
V6 0 0.26 0 0 4.06 16.49 23.69 566.62 0 98
V7 0 1.02 1 0 1.12 1.26 2.82 27.92 0 32
V8 0 6.15 0.15 0 265.57 70529.49 98.74 14140.05 0 50708
V9 23795 0.39 0.29 0 1.11 1.23 65.82 7457.68 0 170
V10 0 5693.5 4500 5000 13110.8 171894258.6 131.51 26295.0 0 3008750
Fuente: Elaboración propia con datos de Kaggle
Figura 2.2: Histograma y
Fuente: Elaboración propia con datos de Kaggle
Las edades de los clientes van de los 21 a los 109 años, la media se localiza en
25
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
los 52.30 años y la moda en los 49; la desviación estándar de 14.77, junto con la
curtosis de −0.49 indica que los datos presentan cierta tendencia platicúrtica,
asimismo el valor positivo de la asimetría 0.19 mostró un sesgo menor a la
derecha (Figura 2.3).
Figura 2.3: Histograma de Edad
Fuente: Elaboración propia con datos de Kaggle
El número de dependientes tiene un 3 % (3, 095) de datos faltantes. El rango
va de 0 a 20, la media es de 0.76, la moda de 0 y la mediana de 0, es decir,
la mayoría de los clientes no tienen dependientes. La desviación estándar es de
1.11, la curtosis de 3.12, y la asimetría de 1.59, es decir los datos se concentran
cerca de la media y están sesgados a la derecha (Figura 2.4).
26
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.4: Histograma de número de Dependientes
Fuente: Elaboración propia con datos de Kaggle
El número de préstamos abiertos y líneas de crédito va de 0 a 57, la
media está en 8.56, la mediana en 8 y la moda en 6. La desviación estándar es
de 5.14, la curtosis de 3.02 y la asimetría de 1.21, por lo que los datos están
próximos a la media con sesgo a la derecha (Figura 2.5).
27
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.5: Histograma de Número de préstamos abiertos y líneas de crédito
Fuente: Elaboración propia con datos de Kaggle
Para el número de veces que se presentaron los tres tipos de mora:Mora de
30 a 59 días, Mora de 60 a 89 días y Mora de 90 días las estadísticas
resultaron muy similares. La media es de 0.41, 0.23 y 0.26, respectivamente,
mientras que la mediana y la moda es 0 en los tres casos. Con esta información
se in�rió que la mora de 30 a 59 días se presenta una vez o más con mayor
frecuencia que las demás, esto debido al valor de su media (Figura 2.6). La
desviación estándar de las tres variables varía por centésimas, por lo que se
puede decir que su dispersión es casi la misma. La curtosis es de 549.51 para
la mora de 30 a 59, de 575.62 para la de 60 a 89 y de 566.62 para la de 90
días, es decir la variable de 60 a 89 días de mora es la más apuntalada (Figura
2.7) mientras que la de 30 a 59 es la menos, de cualquier manera los datos se
concentran cerca de la media. La asimetría indica un sesgo marcado hacia la
derecha en los tres casos (Figura 2.8).
28
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.6: Histograma de Número de veces en mora de 30-59 días
Fuente: Elaboración propia con datos de Kaggle
Figura 2.7: Histograma de Número de veces en mora de 60-89 días
Fuente: Elaboración propia con datos de Kaggle
29
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.8: Histograma de Número de veces en mora de 90 días
Fuente: Elaboración propia con datos de Kaggle
El número de préstamos hipotecarios e inmobiliarios va de 0 a 32; la
media es de 1.02, la mediana de 1 y la moda de 0. La desviación estándar es
de 1.12 y la curtosis de 27.92, es decir, los valores se encuentran concentrados
cerca de la media, la asimetría es positiva (2.82), por lo que los datos están
sesgados a la derecha (Figura 2.9).
30
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.9: Histograma de Número de préstamos hipotecarios e inmobiliarios
Fuente: Elaboración propia con datos de Kaggle
La razón de uso de crédito arrojó una media de 6.15, grande comparada
con la mediana 0.15 y la moda 0.0, asimismo el valor de la desviación estándar
es elevado con 265.57; el rango de la variable va de 0 a 50,708, por lo que se
sospecha de la in�uencia de los valores extremos en la media y la desviación
estándar. Se elaboró un análisis de percentiles (Apéndice A., tabla A.2) y se
determinó que un 0.17% tiene valores mayores a 4.44, lo que incrementó la
media y la desviación estándar, por este motivo se consideró la mediana como
principal medida de tendencia central. La curtosis 14,140.05 indica una gran
concentración de los valores alrededor de la media, mientras que la asimetría
de 98.7 indica un sesgo a la derecha.
La variable razón de deuda tiene 20% (23,795) de valores perdidos con res-
pecto a los 120,000 que integran la muestra completa. Toma valores de 0 a 170
y la media se encuentra en 0.39, mientras que la mediana en 0.29; la desviación
estándar es de 1.11, la curtosis de 7,457.68 y la asimetría es de 65.82, por lo
que los valores se encuentran concentrados cerca de la media y con un sesgo a
la derecha.
31
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
El ingreso mensual de los clientes tiene un rango de 0 hasta 3,008,750, mues-
tra una desviación estándar grande, lo que implica mayor dispersión en los datos
lo cual parece contradictorio con el valor de la curtosis positiva 26,295.09 que
indica mayor concentración de valores cerca de la media y sesgo a la derecha,
debido a su asimetría positiva. Se concluyó que la desviación estándar está
siendo afectada por valores extremos grandes; la mediana está en 4,000 y esta
medida de tendencia central no se ve afectada por los valores atípicos.
2.5. Análisis de Correlación
A continuación, se muestran los coe�cientes de correlación de Pearson. Se identi�cancon ** aquellos cuya correlación es signi�cativa con α = 0.01 y con * aquellos cuya
correlación es signi�cativa con α = 0.05. La prueba realizada considera las siguientes
hipótesis:
H0 : ρ = 0 vs H1 : ρ 6= 0
Se observó que la única variable que no guarda una relación signi�cativa con la va-
riable de interés es la Razón de uso de crédito y también es la que menos se relaciona
con las otras variables independientes. La mayoría de las relaciones tienen signi�-
cancia en el nivel de α = 0.01, así como valores de correlación de Pearson menores,
lo que indica una relación baja (Tabla 2.5). Asimismo, existen tres relaciones altas,
lo cual se asocia a la relación natural de las variables, ya que se trata del número
de veces en mora de 30 a 59 días, de 60 a 89 días y de 90 días. La relación entre
Préstamos Inmobiliarios e Hipotecarios y Líneas de Crédito y Prestamos abiertos se
asocia de igual manera a la naturaleza de las variables.
32
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.5: Correlaciones de las variables (muestra de entrenamiento)
y V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
y
ρxy
1
-.112** .046** -.031** .128** .104** .119** -.007* -.002 -.004 -.014**
∗p 0.000 .000 .000 0.000 .000 0.000 .013 .549 .176 .000
V1
ρxy -.112**
1
-.213** .147** -.062** -.056** -.060** .034** -.006* .057** .010**
∗p 0.000 0.000 0.000 .000 .000 .000 .000 .033 .000 .001
V2
ρxy .046** -.213**
1
.065** -.002 -.011** -.010** .127** .001 -.071** .086**
∗p .000 0.000 .000 .434 .000 .001 0.000 .717 .000 .000
V3
ρxy -.031** .147** .065**
1
-.053** -.069** -.079** .435** -.011** -.137** .113**
∗p .000 0.000 .000 .000 .000 .000 0.000 .000 0.000 0.000
V4
ρxy .128** -.062** -.002 -.053**
1
.986** .983** -.030** -.001 -.011** -.012**
∗p 0.000 .000 .434 .000 0.000 0.000 .000 .675 .001 .000
V5
ρxy .104** -.056** -.011** -.069** .986**
1
.992** -.039** -.001 -.005 -.014**
∗p .000 .000 .000 .000 0.000 0.000 .000 .737 .136 .000
V6
ρxy .119** -.060** -.010** -.079** .983** .992**
1
-.045** -.001 -.002 -.016**
∗p 0.000 .000 .001 .000 0.000 0.000 .000 .743 .472 .000
V7
ρxy -.007* .034** .127** .435** -.030** -.039** -.045**
1
.005 -.208** .141**
∗p .013 .000 0.000 0.000 .000 .000 .000 .102 0.000 0.000
V8
ρxy -.002 -.006* .001 -.011** -.001 -.001 -.001 .005
1
-.003 .007*
∗p .549 .033 .717 .000 .675 .737 .743 .102 .328 .015
V9
ρxy -.004 .057** -.071** -.137** -.011** -.005 -.002 -.208** -.003
1
.002
∗p .176 .000 .000 0.000 .001 .136 .472 0.000 .328 .493
V10
ρxy -.014** .010** .086** .113** -.012** -.014** -.016** .141** .007* .002
1
∗p .000 .001 .000 0.000 .000 .000 .000 0.000 .015 .493
Fuente: Elaboración propia con datos de Kaggle
2.6. Análisis Inicial de Variables
El análisis inicial de variables permite detectar el tipo de relación que existe entre
la variable de interés y las variables explicativas. La fuerza de la relación se puede
medir a través de la segmentación de variables, misma que es recomendable para
la generación del scorecard. Cabe mencionar que los scorecards también se pueden
trabajar con variables continuas (desagrupadas) y no están limitados al uso exclusi-
vo de variables agrupadas, aunque estas ofrecen algunas ventajas ([18] Siddiqi, N.,
(2006)) :
Control y manejo de valores atípicos, y los efectos que tengan en el modelo.
Detección de relaciones lineales y no lineales.
33
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Manejo de valores perdidos sin imputación.
Clasi�cación de las variables en términos de la fuerza predictiva que cada una
de las variables explicativas ejerza sobre la variable de interés.
2.6.1. Técnica de Segmentación: Fine & Coarse Classing
El binning o reagrupamiento es un paso comúnmente utilizado en el credit scoring
para la transformación de variables continuas en un conjunto de grupos o bins. El
objetivo de este proceso es colocar atributos (valores) con comportamientos similares
en un mismo grupo con el �n de mejorar el poder predictivo del modelo.
Dos conceptos que se relacionan con el reagrupamiento de variables son el Weight of
evidence (WOE) y el Information value (IV), los cuales han evolucionado a partir
de la regresión logística y se utilizan como punto de referencia en la selección de
variables en modelos de riesgo de crédito, especialmente aquellos relacionados con la
probabilidad de incumplimiento. A su vez, el Fine y Coarse Classing son dos termi-
nologías que se relacionan con el WOE, donde el �ne classing consiste en la división
de la variable independiente continua en n grupos (generalmente 10 o 20), a los cua-
les se les calcula el WOE y el IV para determinar el tipo relación y comportamiento
de las variables independientes con respecto a la variable de interés. El Coarse Clas-
sing combina las categorías adyacentes con valores de WOE similares para generar
grupos más diferenciados. El Weigth Of Evidence y el Information Value juegan dos
papeles distintos en el análisis de datos, mientras que el WOE describe la relación
entre una variable predictiva y una variable objeto binaria, el IV mide la fuerza de
la relación.2
El WOE se de�ne matemáticamente como:
WOE = ln
(
Distribución casos negativos
Distribución casos positivos
)
La distribución se re�ere a la proporción de casos positivos y negativos (por grupo)
en relación con el total por columna, donde bi es el número de casos negativos por
grupo, gi el número de casos positivos e i el número de grupos en los que se segmentó
la variable.
2https://www.listendata.com/2015/03/weight-of-evidence-woe-and-information.html. [26]
34
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Distribución casos negativos =
b1
(b1 + b2 + . . . + bk+1)
El WOE es el logaritmo de la razón de las distribuciones de los casos negativos sobre
los positivos, o bien de la presencia o ausencia del evento de interés ([21] Guoping
Zeng, (2014)). En la tabla (2.6) se ilustra el cálculo del WOE. Dada la de�nición
del WOE, entre más positivo sea, las distribución de casosa negativosdominará la de
casos negativos y la probabilidad será mayor.
Tabla 2.6: Calculo de WOE por grupo
Grupo x Casos positivos Casos negativos WOE
1 x1, . . . , xn1 g1 b1 ln
(
b1
(b1+b2+...+bk+1)
/ g1
(g1+g2+...+gk+1)
)
...
...
...
...
...
k xnk−1+1, . . . , xnk gk bk ln
(
bk
(b1+b2+...+bk+1)
/ gk
(g1+g2+...+gk+1)
)
k+1 xnk+1, . . . , xnk+1 gk+1 bk+1 ln
(
bk+1
(b1+b2+...+bk+1)
/
gk+1
(g1+g2+...+gk+1)
)
Fuente: Zeng
El valor del IV se calcula con la fórmula:
IV =
k+1∑
i=1
(
bi
(b1 + b2 + . . . + bk+1)
− gi
(g1 + g2 + . . . + gk+1)
)
×WOE (2.1)
La ecuación (2.1) describe la suma ponderada de todos los valores individuales del
WOE donde se incorpora como pesos la diferencia absoluta entre el numerador y el
denominador (el WOE capta la diferencia relativa).
Con base en esta metodología, Siddiqi plantea una regla empírica que describe el
poder predictivo del IV la cual se ilustra en la tabla (2.7).
35
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.7: Regla empírica de IV
Valor de IV Fuerza predictiva
< 0.02 Impredecible
0.02 ≤ IV < 0.1 Débil
0.1 ≤ IV < 0.3 Mediana
0.3 ≤ IV Fuerte
0.5 ≤ IV Uso controlado por sobre predicción
Fuente: Siddiqi 2006
En general, los diferentes algoritmos para reagrupar los datos deben de cumplir lo
siguiente:
Separar los valores perdidos.
Generar grupos con al menos un caso positivo y negativo.
Agrupar de manera que se maximice la diferencia entre los casos positivos y
negativos.
Medir la fuerza estadística en términos de Weight Of Evidence e Information Value
no se debe considerar como el único factor en la selección de variables a incluir
en el modelo predictivo, la relación entre el WOE de los grupos generados por la
segmentación y la variable de interés debe tener orden lógico y sentido operacional,
el cual no debe ser necesariamente lineal. El proceso para llegar a una tendencia
lógica es de prueba y error, y busca equilibrar la creación de tendencias lógicasy la
obtención de un IV su�ciente ([18] Siddiqi, N., (2006)).
2.6.1.1. Aplicación de la Técnica de Segmentación Fine & Coarse Clas-
sing
A continuación se ejempli�ca el cálculo del WOE para la variable Número de De-
pendientes, usando las recomendaciones mencionadas en la sección previa.
1. Se separaron los valores perdidos y se colocaron en un sólo grupo.
2. Los últimos 10 grupos propuestos (del 5 al 14) no cumplieron con el mínimo de
observaciones requerido (5 %) además de que los últimos 5 grupos (del 10 al 14)
36
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
no cuentan con clientes malos, por lo que las categorías de la 5 a la 14 fueron fu-
sionadas. El nuevo grupo quedó conformado por {5, 6, 7, 8, 9, 10, 11, 12, 13, 14}
con 8.862 % del total de las observaciones (Tabla 2.8).
3. El nuevo grupo propuesto ya cuenta con clientes malos.
4. La diferencia absoluta entre el primero y segundo grupo, el segundo y tercero
y el tercero con el cuarto fue mayor a una décima lo cual les permitió per-
manecer como grupos separados. La diferencia entre el cuarto y quinto grupo
es menor por lo que se fusionaron y el nuevo grupo quedó conformado por
{4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14}.
Tabla 2.8: Cálculo I del WOE para la variable número de dependientes
Grupos x Prop.
observaciones
Clientes
buenos
Clientes
malos
WOEi Dif
|WOEi −WOEi−1|
1 Valores
perdidos
2.579% 2,954 141 -0.398
2 0 58.013% 65,571 4045 -0.141 0.257
3 1 17.510% 19,470 1542 0.109 0.250
4 2 13.036% 14,380 1263 0.212 0.103
5 3 6.293% 6,904 648 0.279 0.066
6 4 1.921% 2065 240 0.492 0.214
7 5 0.492% 532 58 0.428 0.064
8 6 0.100% 102 18 0.910 0.482
9 7 0.033% 35 4 0.476 0.434
10 8 0.016% 19 0
11 9 0.003% 4 0
12 10 0.003% 3 0
13 13 0.001% 1 0
14 20 0.001% 1 0
Fuente: Elaboración propia con datos de Kaggle
En la tabla (2.9) se muestran las categorías obtenidas de la agrupación de la variable:
37
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.9: Cálculo I del WOE para la variable número de dependientes
Grupos x Prop.
observaciones
Clientes
buenos
Clientes
malos
WOEi Dif
|WOEi −WOEi−1|
1 Valores
perdidos
2.579% 2954 141 -0.398
2 0 58.013% 65571 4045 -0.141 0.257
3 1 17.510% 19470 1542 0.109 0.250
4 [2, 20] 21.898% 24046 2231 0.267 0.16
Fuente: Elaboración propia con datos de Kaggle
Se aplicaron las técnicas de agrupación de variables con el software estadístico R
utilizando la biblioteca Information. El código empleado se puede consultar en el
apéndice (B). La tabla (2.10) muestra los resultados obtenidos.
Tabla 2.10: Information Value de las variables predictoras
Variable IV
Razón de uso de Crédito 1.0991843
Veces en mora de 90 días 0.8404520
Veces en mora de 30-59 días 0.6633518
Veces en mora de 6089 días 0.5776242
Edad 0.2437523
Líneas de crédito y préstamos abiertos 0.0817081
Razón de deuda 0.0792224
Ingreso mensual 0.0468336
Préstamos inmobiliarios e hipotecarios 0.0393269
Número de dependientes 0.0340194
Fuente: Elaboración propia con datos de Kaggle
De acuerdo con el criterio de Siddiqi, hay cinco variables con poder predictivo débil,
una con poder predictivo mediano y cuatro con sobre predicción, para estas cuatro
será necesario supervisar el comportamiento y efecto que pueda tener en el modelo
predictivo, con el �n de decidir si se conservan o se excluyen. La biblioteca Infor-
mation también proporciona el WOE para cada uno de los grupos, este determina
si la variable independiente guarda una relación lógica (con tendencia) con la varia-
ble dependiente. En los siguientes párrafos se describe el análisis de los resultados
38
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
obtenidos.
La edad (Figura 2.10), cuyo poder predictivo es el más estable mantiene una rela-
ción negativa con el WOE, por lo que a mayor edad menor será la probabilidad de
incumplimiento.
Figura 2.10: Grá�co de IV y WOE de Edad
Fuente: Elaboración propia con datos de Kaggle
Las variables: número de dependientes (Figura 2.11), mora 30-59 días (Figura 2.12),
mora 60-89 días (Figura 2.13) y mora 90 días (Figura 2.14) mantienen una relación
positiva con el WOE, por lo que se puede concluir que mientras más altas sean estas
variables mayor será la probabilidad de que el cliente incumpla con sus obligaciones.
39
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.11: Grá�co de IV y WOE de Número de dependientes
Fuente: Elaboración propia con datos de Kaggle
Figura 2.12: Grá�co de IV y WOE de Mora de 30 a 59 días
Fuente: Elaboración propia con datos de Kaggle
40
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.13: Grá�co de IV y WOE de Mora de 60 a 89 días
Fuente: Elaboración propia con datos de Kaggle
Figura 2.14: Grá�co de IV y WOE de Mora 90 días
Fuente: Elaboración propia con datos de Kaggle
Por otro lado las variables: razón de deuda (Figura 2.15), líneas de crédito y présta-
mos abiertos (Figura 2.16) y préstamos inmobiliarios e hipotecarios (Figura 2.17) ,
no muestran alguna tendencia con respecto a la variable de interés.
41
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.15: Grá�co de IV y WOE de Razón de deuda
Fuente: Elaboración propia con datos de Kaggle
Figura 2.16: Grá�co de IV y WOE de Líneas de crédito y préstamos abiertos
Fuente: Elaboración propia con datos de Kaggle
42
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.17: Grá�co de IV y WOE de Préstamos inmobiliarios e hipotecarios
Fuente: Elaboración propia con datos de Kaggle
El ingreso mensual (Figura 2.18) tiene un comportamiento interesante ya que en el
primer grupo, el de menor ingreso, la probabilidad de ser un cliente incumplido es
menor pero a partir del segundo grupo esta va creciendo de manera constante hasta
el cuarto grupo donde el ingreso está entre 2800 y 3601 unidades. Posteriormente,
la probabilidad decrece continuamente hasta llegar al último grupo donde la pro-
babilidad de incumplimiento es la más pequeña, es decir los clientes con mayores
ingresos.
43
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.18: Grá�co de IV y WOE de Ingreso mensual
Fuente: Elaboración propia con datos de Kaggle
La razón de uso de crédito (Figura 2.19) muestra que a partir del segundo grupo
la probabilidad de ser un cliente incumplido aumenta conforme la razón lo hace, lo
que implica que a mayor uso del crédito disponible mayor será la probabilidad de
convertirse en un cliente moroso.
44
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.19: Grá�co de IV y WOE de Razón uso de crédito
Fuente: Elaboración propia con datos de Kaggle
2.6.2. Técnica de Segmentación: CHAID
La técnica de segmentación Tree CHAID (Chi-squared Automatic Interaction De-
tection) es un algoritmo basado en el estadístico Ji − cuadrada (χ2). El objetivo
principal de la técnica es segmentar la variable independiente y encontrar grupos
que sean muy distintos en un determinado aspecto ([15] Ritschard, G., (2013)).
2.6.2.1. El algoritmo CHAID
El algoritmo de asignación de grupos de categorías homogéneas se basa en el esta-
dístico Ji− cuadrada. Los pasos son los siguientes ([6] Escobar, M., (1998)):
1. Se forman todos los pares posibles de categorías. Esto dependerá del tipo de
pronosticador que se tenga: variables nominales, ordinales, ordinales con valores
perdidos y cuantitativas. En el apéndice (A) se describe a detalle cuáles son
sus características. En el caso de las variables nominales se generan todas las
combinaciones posibles de los valores de la variable, mientras que las del tipo
ordinal únicamente se puede combinar valores contiguos; es decir, regularmente
se tiene n− 1 pares, siendo n el número de categorías.
45
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
2. Para cada posible pareja de categorías se calcula el Ji− cuadrada correspon-
diente a su cruce con la variable dependiente. La pareja con el Ji−cuadrada
más bajo, y que además no sea signi�cativo, se fusionará en una nueva catego-
ría. La condición de que no sea signi�cativo es muy importante ya que en caso
de que lo fuese, indicaría que las dos categorías que se pretenden fusionar no
lo pueden hacer debido a que son heterogéneas entre sí con respecto a valores
de la variable dependiente lo cual contradice el objetivo de la técnica.
3. Si se ha fusionado un determinado par de categorías, se repiten los pasos uno y
dos, pero esta vez con una categoría menos, pues dos de las antiguas han sido
reducidas a una sola.
4. El proceso se acaba cuando ya no pueden realizarse más fusiones porque los
valores de la Ji− cuadrada ofrecen resultados signi�cativos.
A continuación, se presenta con mayor detalle el algoritmo CHAID (Chi-squared
Automatic Interaction Detection) aplicado a la variable veces en mora de 30-59 días.
Esta técnica, desarrollada por Cellard et al. (1967), Bourouche, Tennenhaus (1972)
y Kass (1980) así como Magidson (1989, 1993a y 1993b) quien la adaptó para SPSS,
tiene como principal característica que la muestra no es necesariamente segmentada
de modo binario sino en más categorías.
2.6.2.2. Aplicación de la Técnica de Segmentación CHAID
Para las variables independientes (predictores) del tipo escala, el algoritmo CHAID
en el software estadístico SPSS, las agrupa en grupos discretos (p.ej. 0-10, 11-20, 21-
30, etc.) antes del análisis. El número de grupos inicial se puede controlar (aunque
el procedimiento puede fusionar grupos contiguos después de la división inicial), el
valor por default es 10.3
De acuerdo al algoritmo descrito la variable recibió tratamiento de tipo ordinal por
lo que los pares posibles de categorías son 12 (número de categorías menos 1), cabe
mencionar que se fusionaron en una sola categoría los valores {10, 11, 12, 13} debido
a que las categorías {10, 11, 13} no presentaban observaciones con clientes morosos
(i.e. y = 1). En la tabla (2.11) se muestra para cada par de categorías el valor del
Ji− cuadrada y p-value correspondiente a su cruce con la variable dependiente.
3IBM SPSS Decision Trees 21 © Copyright IBM Corporation 1989, 2012.[27]
46
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Resultado del cruce entre las categorías se obtuvieron varios pares con valores de
Ji−cuadrada pequeños y con p-values mayores a 0.05. Es decir, son categorías pareci-
das, por lo que se propuso la siguiente fusión: {4, 5}, {6, 7}, {8, 9}, {10, 11, 12, 13, 96}.
Las categorías {0}, {1}, {2}, {3} son adyacentes y los pares formados resultaron sig-
ni�cativamente distintos, por lo que no se fusionaron y se conservan como categorías
con un solo valor.
Tabla 2.11: Valores de Ji − cuadrada y p-values por par de la categoría ordinal, veces
en mora de 30-59 días I
Categorías de la variable veces en mora de 30-59 días
0 1 2 3 4 5 6 7 8 9 {10,11,12,13} 96 98
0 0 2757.50
1 0.00 0 246.01
2 0.00 0 43.53
3 0.00 0 9.65
4 0.00 0 0.24
5 0.62 0 1.32
6 0.25 0 0.08
7 0.78 0 2.75
8 0.10 0 0.09
9 0.77 0 4.43
{10,11,12,13} 0.06 0 0.07
96 0.79 0 1.16
98 0.28 0
Fuente: Elaboración propia con datos de Kaggle
Dado que la categoría {3} es adyacente al par {4, 5} se le realizó la prueba para
comprobar que fueran signi�cativamente diferentes, lo cual fue con�rmado al obtener
un p-value menor a 0.05. Las pruebas realizadas entre los pares {4, 5}, {6, 7} y {8, 9}
resultaron con valores pequeños de Ji − cuadrada y p-values mayores a 0.05. Para
los grupos de categorías {4, 5} y {6, 7}, el p-value de la prueba resultó un poco
mayor que 0.05 por lo que se probará la categoría {4, 5} con el grupo conformado por
{{6, 7}, {8, 9}}. Asimismo, se puede observar en la tabla (2.12) los valores resultantes
de la prueba Ji− cuadrada son pequeños y el p-value mayor a 0.05 por lo que el par
de categorías{10, 11, 12, 13, 96} y {98} deben ser fusionadas.
47
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.12: Valores deJi− cuadrada y p-values por par de la categoría ordinal, veces en
mora de 30-59 días II
Categorías de la variable veces en mora de 30-59 días
3 {4,5} {6,7} {8,9} {10,11,12,13,96} 98
3 0 14.267
{4,5} 0.000 0 3.739
{6,7} 0.053 0 3.360
{8,9} 0.066 0 8.590
{10,11,12,13,96} 0.003 0 3.512
98 0.060 0
Fuente: Elaboración propia con datos de Kaggle
De acuerdo a los valores de Ji − cuadrada y el p-value obtenidos (Tabla 2.13), las
categorías {4, 5} y{6, 7, 8, 9} fueron fusionada, mientras que el par de categorías
{6, 7, 8, 9} y {10, 11, 12, 13, 96, 98} deben permanecer separadas. Las categorías que-
daron conformadas de la siguiente manera: {4, 5, 6, 7, 8, 9} y {10, 11, 12, 13, 96, 98}.
Tabla 2.13: Valores deJi− cuadrada y p-values por par de la categoría ordinal,veces en
mora de 30-59 días III
Categorías de la variable veces en mora de 30-59 días
{4,5} {6,7,8,9} {10,11,12,13,96,98}
{4,5} 0 1.06
{6,7,8,9} 0.30 0 7.17
{10,11,12,13,96,98} 0.01 0
Fuente: Elaboración propia con datos de Kaggle
Finalmente se le realizó la prueba Ji−cuadrada a las categorías {3} vs {4, 5, 6, 7, 8, 9}
y {4, 5, 6, 7, 8, 9} vs {10, 11, 12, 13, 96, 98} para con�rmar que en ninguno de los dos
casos existen grupos con comportamientos similares, lo cual se puede comprobar en
la tabla (2.14).
48
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Tabla 2.14: Valores deJi − cuadrada y p-values por par de la categoría ordinal, Veces
en mora de 30-59 días IV
Categorías de la variable veces en mora de 30-59 días
3 4,5,6,7,8,9 {10,11,12,13,96,98}
3 0 22.93
4,5,6,7,8,9 0.0000 0 12.42
{10,11,12,13,96,98} 0.0000 0
Fuente: Elaboración propia con datos de Kaggle
En la tabla (2.15) se muestra la segmentación obtenida derivada de las pruebas
realizadas a la variable Veces en mora de 30-59 días :
Tabla 2.15: Categorías �nales de la variable veces en mora de 30-59 días.
Categorías de la variable
Veces en mora de 30-59
días
0
1
2
3
{4,5,6,7,8,9}
{10,11,12,13,96,98}
Fuente: Elaboración propia con datos de Kaggle
Se aplicaron las técnicas de segmentación Tree CHAID con el software estadístico
SPSS. Los códigos se presentan en el apéndice (B). Derivado de los resultados obte-
nidos, a continuación se presentan los grá�cos que re�ejan el comportamiento de la
variables agrupadas y su relación con la probabilidad de impago por grupo así como
el Weight Of Evidence .
Las variables Edad (Figura 2.20) y Dependientes (Figura 2.21) muestran una relación
casi lineal con respecto a la variable dependiente, con la diferencia de que una es
negativa y la otra positiva respectivamente. En términos de negocio, de la variable
Edad se puede inferir que mientras más joven sea el cliente mayor será la probabilidad
de que se vuelva moroso y conforme la edad incrementa la probabilidad disminuye;
por otro lado cuando el número de dependientes crece también lo hace la probabilidad
49
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
de impago, por lo que mientras mayor sea el número de dependientes del cliente
mayor será su probabilidad de incumplimiento del crédito.
Figura 2.20: Segmentación CHAID Edad (frecuencia de impago por grupo y WOE
por grupo).Fuente: Elaboración propia con datos de Kaggle
Fuente: Elaboración propia con datos de Kaggle
Figura 2.21: Segmentación CHAID Dependientes (frecuencia de impago por grupo y
WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
50
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
El número de veces en mora tiene el mismo comportamiento en los tres tipos (Figuras
2.22, 2.23 y 2.24), ya que a medida que crece el número de veces en mora también
lo hace la probabilidad de impago.
Figura 2.22: Segmentación CHAID Veces en mora 30-59 días (frecuencia de impago
por grupo y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
Figura 2.23: Segmentación CHAID Veces en mora 60-89 días (frecuencia de impago
por grupo y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
51
CAPÍTULO 2. ANÁLISISDE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.24: Segmentación CHAID Veces en mora 90 días (frecuencia de impago por
grupo y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
El número de líneas de crédito y préstamos abiertos (Figura 2.25) muestran un com-
portamiento particular ya que en la primer categoría, donde el número de líneas de
crédito o préstamos es menor, la probabilidad de impago es mayor que en las de-
más categorías, incluso más que las personas que cuentan con más de 13 líneas de
crédito o préstamos abiertos. Lo anterior puede deberse a que en el primer grupo se
encuentran todos los clientes sin experiencia crediticia.
52
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.25: Segmentación CHAID Líneas de crédito (frecuencia de impago por grupo
y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
La probabilidad de impago mantiene una relación creciente con respecto a las va-
riables de Razón de uso de crédito (Figura 2.26), y Razón de deuda (Figura 2.27);
mientras que para el Ingreso mensual (Figura 2.28) no hay un patrón, la probabili-
dad crece en los grupos con ingreso menor 4499 unidades y decrece en el resto de los
grupos.
53
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.26: Segmentación CHAID Razón de uso de crédito (frecuencia de impago
por grupo y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
Figura 2.27: Segmentación CHAID Razón de deuda (frecuencia de impago por grupo
y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
54
CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO
Figura 2.28: Segmentación CHAID Ingreso mensual (frecuencia de impago por grupo
y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
La variable Préstamos inmobiliarios e hipotecarios muestra un comportamiento par-
ticular (Figura 2.29), ya que solo los clientes con menor probabilidad de incumpli-
miento son los que cuentan con un préstamo.
Figura 2.29: Segmentación CHAID Préstamos inmobiliarios e hipotecarios (frecuen-
cia de impago por grupo y WOE por grupo).
Fuente: Elaboración propia con datos de Kaggle
55
Capítulo 3
Uso de la Regresión logística en el
Desarrollo del Score de Crédito
La selección de variables es un paso importante en la de�nición del modelo y usual-
mente se busca elegir un número reducido de variables explicativas que puedan des-
cribir a la variable de interés. La razón principal de la selección de variables es que
proporciona ventajas como:
Facilita la interpretación del modelo.
Elimina variables redundantes que no proporcionan información.
Reduce la dimensión del problema lo que agiliza los algoritmos.
Reduce el sobre ajuste.
En la literatura existen varios tipos de métodos para realizar la selección de variables.
Los métodos de �ltro o �lter methods realizan la selección a través de una ordenación
o rankeo de las variables y su importancia en el modelo, para calcular la utilidad de las
variables se utilizan pruebas estadísticas y resultados de correlación (ej. Ji-cuadrada,
ANOVA, correlación de Pearson, etc.). En este trabajo se utiliza el Information
Value, el cual ya fue descrito en la sección previa.
Los métodos de envoltura o wrapped methods generan un subconjunto de variables
que son utilizados para generar los modelos y entrenar algoritmos de aprendizaje.
El mejor modelo se selecciona a través de pruebas al algoritmo. Para seleccionar
variables se utilizan diferentes criterios (ej. Forward y Backward selection).
56
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
Finalmente, los métodos incrustados o embedded methods son una combinación entre
los dos métodos previos y la técnica LASSO es una aplicación de este tipo de métodos
([4] Fonti V. , (2017)).
En esta sección se trabajan los tres tipos de métodos para generar el modelo para
la probabilidad de impago de los clientes. La primera aplicación es con regresión
logística por máxima verosimilitud donde se proponen modelos con el método de
�ltro al elegir las mejores variables de acuerdo con el information value calculado
previamente. La segunda aplicación es con el método wrapped al realizar regresiones
logísticas hacia atrás. Por último, se realizó el ejercicio de modelaje con la técnica
LASSO aplicada a la regresión logística.
La aplicación de las técnicas se realizó con los paquetes estadísticos SPSS y R en el
caso de LASSO.
3.1. Regresión Logística
Los modelos multivariados exploran la relación entre uno o más predictores (varia-
bles independientes) y un resultado (variable dependiente o de interés). El modelo
describe la relación expresando el valor de la variable de interés como una suma de
productos, donde cada producto es resultado de la multiplicación del valor del pre-
dictor y su coe�ciente, mismo que se obtuvo a través del modelo ajustado a los datos;
los coe�cientes indican el impacto de los predictores sobre la variable dependiente.
Los dos principales propósitos de los modelos multivariados son: (1) predecir el va-
lor de la variable dependiente para nuevos individuos o valores independientes y
(2) ayudar a describir la contribución relativa de cada variable independiente en el
resultado.
La regresión logística es una técnica multivariada comúnmente usada en el desarrollo
de scorecards ; este modelo es una generalización del modelo de regresión lineal clási-
co para variables dependientes categóricas (dicotómicas o politómicas). Una ventaja
radica en la similitud que tiene con la regresión múltiple ya que permite el uso de
variables independientes continuas y categóricas (estas últimas por medio de su co-
di�cación a variables indicadoras). Asimismo, cuenta con la capacidad de incorporar
efectos no lineales y existen contrastes estadísticos directos para probar su robustez.
La capacidad predictiva del modelo logístico se valora mediante la comparación entre
el grupo de pertenencia observado y el pronosticado por el modelo. El objetivo prin-
57
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
cipal del modelo es clasi�car correctamente a los individuos en cada grupo, clientes
buenos o malos de acuerdo con las variables que de�nen las características de los
individuos.
La regresión logística tiene tres en común con la regresión lineal:
Linealidad: cualquier variable explicativa tiene una relación lineal con respecto
al cociente de probabilidades.
Independencia: los errores no deben de correlacionarse para dos observaciones.
Mo multicolinealidad: las variables explicativas no están altamente correlacio-
nadas entre sí.
3.1.1. El Modelo de Regresión Logística
El objetivo de la regresión logística es discriminar entre dos poblaciones, en el caso
del score de crédito, los clientes buenos y los clientes malos. Se de�nen como clientes
buenos los que cumplen con sus obligaciones en tiempo y como malos los que no
(Nieto, 2010). Sea y la variable de interés, la cual toma valores de 0 y 1, y = 1
representa a los clientes malos mientras que y = 0 a los clientes buenos. La regresión
logística discrimina las poblaciones a través de la estimación de la probabilidad de
que y sea 0 ó 1, dado xi, donde xi es un vector de variables explicativas categóricas
o continuas y representan las características del cliente que se pretende clasi�car. Es
decir,
P (y = 0|xi) = pi
dónde
xTi = [xi1, xi2,..., xip], i = 1, 2, ..., n
Se de�ne una relación entre pi y un modelo lineal mediante una función monótona
y creciente g llamada función liga,
g(pi) = β0 + β
T
1 xi, (3.1)
tal que,
βT1 = [β1, β2, ..., βp]
58
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
es el vector de coe�cientes de las variables explicativas del modelo y β0 la ordenada
en el origen. La función liga que se aplica, conocida como la transformación logito,
es el logaritmo del cociente de las probabilidades pi y (1− pi)
g(pi) = logpi
1− pi
= β0 + β
T
1 xi, (3.2)
El modelo en términos de g(pi) se puede escribir como g(pi) = β0 + βT1 xi + ε, con ε,
variable aleatoria tal que E(ε) = 0 y V (ε) = σ2.La función de distribución logística
dada por la transformación inversa de g se escribe como,
pi =
eβ0+β
T
1 xi
1 + eβ0+β
T
1 xi
(3.3)
la cual cumple 0 ≤ pi ≤ 1. Por lo que,
1− pi =
1
1 + eβ0+β
T
1 xi
(3.4)
A veces, también se utilizan como parámetro exp(β0) y exp(β1), que se denominan
como odds o momio, e indican cuanto se modi�can las probabilidades por unidad de
cambio en las variables de xi. El momio asociado a un evento es el cociente de la
probabilidad de que ocurra entre la probabilidad de que no ocurra.
Oi =
pi
1− pi
(3.5)
En el caso particular en el que todas las variables explicativas sean representadas
como binarias independientes, a cada variable se le asocia una probabilidad según sea
la población a la que pertenecen. Sean P (xi|y = 1) y P (xi|y = 0) las probabilidades
de observar los atributos xi dado que un cliente es moroso o no, respectivamente. Bajo
el supuesto de que las entradas de xi = (xi1, xi2, ..., xip) son binarias e independientes,
se tiene que,
59
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
P (xi|y = 1) = P [(xi1, xi2, ..., xip|y = 1]
=
p∏
j=1
P (xij|y = 1)
=
p∏
j=1
p
xij
1j (1− p1j)1−xij
y por lo tanto
P (xi|y = 0) =
p∏
j=1
p
xij
2j (1− p2j)1−xij (3.6)
Suponiendo que las probabilidades a priori son las mismas, es decir
P (y = 0) = P (y = 1)
además, cosiderando que el modelo es construido sobre la misma cantidad de datos
para las dos poblaciones. La probabilidad condicional está dada por,
P (y = 1|xi) =
P (xi|y = 1)P (y = 1)
P (xi)
=
P (y = 1)
P (xi)
p∏
j=1
p
xij
1j (1− p1j)1−xij
y para 1− P (y = 1|xi) = P (y = 0|xi), donde,
P (y = 0|xi) =
P (xi|y = 0)P (y = 0)
P (xi)
=
P (y = 0)
P (xi)
p∏
j=1
p
xij
2j (1− p2j)1−xij (3.7)
Con los resultados obtenidos (3.7), calculamos la distribución logística,
60
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
P (y = 1|xi)
1− P (y = 1|xi)
=
P (y=1)
P (xi)
∏p
j=1 p
xij
1j (1− p1j)1−xij
P (y=0)
P (xi)
∏p
j=1 p
xij
2j (1− p2j)1−xij
=
p∏
j=1
(
p1j
p2j
)xij (1− p1j
1− p2j
)1−xij
La transformación logito,
gi(xi) = log
P (y = 1|xi)
1− P (y = 1|xi)
=
p∑
j=1
xijlog
(
p1j
p2j
)
+
p∑
j=1
(1− xij)log
(
1− p1j
1− p2j
)
=
p∑
j=1
[
log
(
p1j
p2j
)
− log
(
1− p1j
1− p2j
)]
xij +
p∑
j=1
log
(
1− p1j
1− p2j
)
gi(xi) =
p∑
j=1
[
log
p1j(1− p2j)
p2j(1− p1j)
]
xij +
p∑
j=1
log
(
1− p1j
1− p2j
)
(3.8)
Se observa que gi(xi) es una función lineal que coincide con la ecuación (3.1), donde,
β0 =
p∑
j=1
log
(
1− p1j
1− p2j
)
y
βT1 =
[
log
p11(1− p21)
p21(1− p11)
, ..., log
p11(1− p2p)
p21(1− p1p)
]
para el modelo gi(xi) = β0 + βT1 xi. El parámetro β0 nos da la ordenada al origen, y
β1 = (β1, ..., βp)
T , es el vector de las pendientes. Por lo que,
log
pi
1− pi
= β0 + β1xi1 + ...+ βpxip (3.9)
y βj con j = 0, 1, ..., p, ayudan a analizar la cantidad de cambio del momio de
probabilidades y de�ne la razón de momios (RM),
61
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
RM = exp(βj)
Dado que el modelo gi(xi) = β0 +βT1 xi es una transformación lineal, podemos utilizar
algunas técnicas utilizadas en la regresión lineal, como la regresión backward, forward
o introduction.
3.1.2. Estimación de la Regresión Logística por Máxima Ve-
rosimilitud
Los parámetros del modelo logístico se estiman con el método de máxima verosim-
militud. Dado que yi toma valores de 1 con probabilidad pi y 0 con probabilidad
1− pi, esta tendrá como función de distribución una Bernoulli. Es decir,
P (yi) = p
yi
i (1− pi)(1−yi) yi = 0, 1
La función de verosimilitud para una muestra aleatoria con n datos (xi, yi) se calcula
como,
P (y1, ..., yn) =
n∏
i=1
pyii (1− pi)(1−yi)
aplicando logaritmos,
logP (y) =
n∑
i=1
yilog
(
pi
1− pi
)
+
n∑
i=1
log(1− pi) (3.10)
La función soporte (de verosimilitud en logaritmos) puede escribirse como,
logP (β) =
n∑
i=1
(yilogpi + (1− yi)log(1− pi)) (3.11)
donde βT = (β0,β1, ..., βp) es un vector de p+1 componentes, incluyendo la constante
β0 que determina las probabilidades pi.
Para maximizar la verosimilitud, en términos de los parámetros de interés β en la
62
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
ecuación (3.10), obtenemos la función soporte:
L(β) =
n∑
i=1
yix
T
i β −
n∑
i=1
log(1 + ex
T
i β) (3.12)
Para obtener los estimadores de β de máxima verosimilitud, derivamos L(β) con
respecto a cada uno de los parámetros βi con j = 1, 2, ..., p y se iguala a cero:

∂L(β)
∂β0
∂L(β)
∂β1
...
∂L(β)
∂βj
...
∂L(β)
∂βp

=

∑n
i=1 yi(1)∑n
i=1 yixi1
...∑n
i=1 yixij
...∑n
i=1 yixip

−

∑n
i=1(1)
(
ex
T
i β
1+ex
T
i
β
)
∑n
i=1 xi1
(
ex
T
i β
1+ex
T
i
β
)
...∑n
i=1 xij
(
ex
T
i β
1+ex
T
i
β
)
...∑n
i=1 xip
(
ex
T
i β
1+ex
T
i
β
)

(3.13)
cada una de las derivadas se expresa en un vector columna de la forma,
∂L(β)
∂β0
=
n∑
i=1
yixi −
n∑
i=1
xi
(
ex
T
i β
1 + ex
T
i β
)
e igualando este vector a cero, se obtiene β̂ el vector de parámetros que satisfacen el
sistema de ecuaciones (3.13),
n∑
i=1
yixi =
n∑
i=1
xi
(
ex
T
i β
1 + ex
T
i β
)
=
n∑
i=1
pixi
Posteriormente, calculamos pi en términos de esos estimadores y de aquí se obtiene
una estimación para yi, tal que ŷi = p̂i, por lo que
n∑
i=1
yixij =
n∑
i=1
xij ŷi
de lo que obtenemos,
n∑
i=1
xijei =
n∑
i=1
xij(yi − ŷi) = 0
63
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
donde ei representa los residuos del modelo, los cuales deben ser ortogonales en el
espacio de observaciones x, similar a la regresión estándar (mínimos cuadrados).
El sistema de ecuaciones (3.13) no es lineal en los parámetros β y para obtener
los estimadores por Máxima Verosimilitud es común recurrir al método Newton-
Raphson.
3.1.3. Pruebas Estadísticas del Modelo Logístico
3.1.3.1. Devianza
La devianza1 es un estadístico que ayuda a evaluar la bondad de ajuste del modelo
de regresión logística y lo hace comparando la log verosimilitud del modelo ajustado
con la del modelo saturado. El modelo saturado es aquel que se ajusta perfectamente
a la muestra, es decir,
P (Y = 1|X1 = x1i, ..., Xk = xki) = Yi i = 1, ..., n
Este modelo asigna la probabilidad de 0 ó 1 a la Y dependiendo del valor real de
Yi. La devianza calcula la diferencia entre los logaritmos de las verosimilitudes del
modelo ajustado y el modelo saturado,
D = −2logL(β̂) + 2logL(βsaturado)
Debido a que la verosimilitud del modelo saturado es 1, entonces la devianza es
simplemente,
D = −2logL(β̂)
La devianza toma valores mayores o iguales a cero, valores grandes indican que
el modelo ajustado es pobre por lo que se busca valores pequeños, de preferencia
cercanos a cero.
3.1.3.2. Estadístico de Wald
El estadístico de Wald ayuda a determinar si una variable cuenta con un peso signi-
�cativo tal que le permita ser incluida en el modelo. La prueba resulta de contrastar
1https://bookdown.org/egarpor/SSS2-UC3M/logreg-deviance.html. [22]
64
CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO
DEL SCORE DE CRÉDITO
la hipótesis nula,
H0 : βi = 0
y la hipótesis alternativa,
H1 : βi 6= 0
con un estadístico de prueba de�nido como
wj =
β̂i
s(β̂i)
el cual, bajo el supuesto de que H0 es cierto, siguen la distribución t con n − p − 1
grados de libertad, lo cual para muestras grandes se distribuye como una normal
estándar. Cuando wi tiene un valor alejado de 0 se tiene evidencia de que H0 es falsa.
Dado un nivel α de�nido, la región crítica de la prueba es de la forma |wi| > tα
2
. En
caso de que H0 se acepte, esto implicaría que βi es igual a cero y la variable xi debe
de excluirse del modelo. La mayoría de los sofwares estadísticos describen

Continuar navegando