Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DEMÉXICO FACULTAD DE CIENCIAS Uso de árboles de decisión para la transformación de variables en el modelaje de un score de crédito. T E S I S QUE PARA OBTENER EL TÍTULO DE: Actuaria PRESENTA: Vianney Karen Espinoza Godínez TUTOR M. en A. R. Jesús Esteban Castañeda Martínez Margarita Texto escrito a máquina Ciudad de México 2019 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 1. Datos del alumno Espinoza Godínez Vianney Karen 57 14 75 97 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 307030085 2. Datos del tutor M en A R Jesús Esteban Castañeda Martínez 3. Datos del sinodal 1 Dra Lizbeth Naranjo Albarrán 4. Datos del sinodal 2 Mat Margarita Elvira Chávez Cano 2 5. Datos del sinodal 3 M en C Fernando Daniel Pérez Arriaga 6. Datos del sinodal 3 M en F María del Rosario Espinosa Tu�ño 7. Datos del trabajo escrito Uso de árboles de decisión para la transformación de variables en el modelaje de un score de crédito. 132 p 2019 3 Dedicado a mis padres y hermanos. Los amo. 4 Agradecimientos A mi director de tesis, M. en A. R. Jesús Esteban Catañeda Martínez, por compartir sus conocimientos y tiempo en el desarrollo y revisión de este trabajo, gracias por la con�anza y el ánimo. Gracias por todo. A mis sinodales Dra. Lizbeth Naranjo, Mat. Margarita Elvira Chávez, M. en F. María del Rosario Espinosa y M. en C. Fernando Daniel Pérez, gracias por su tiempo dedicado a leer este trabajo, así como sus comentarios y consejos que enriquecieron esta tesis. Gracias a la UNAM por todo lo que me ha dado. 5 Índice general Introducción 9 1. Antecedentes del Crédito 11 1.1. Características Principales del Contrato de Crédito . . . . . . . . . . 11 1.1.1. Tipos de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2. Riesgo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3. Evolución del Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.3.1. Entorno Internacional . . . . . . . . . . . . . . . . . . . . . . 15 1.3.2. México . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4. Marco Regulatorio Nacional e Internacional . . . . . . . . . . . . . . 18 1.4.1. Comisión Nacional Bancaria y de Valores . . . . . . . . . . . . 18 1.4.2. Basilea III: Marco Regulatorio Internacional para los Bancos . 19 1.4.2.1. Pilar I: Cobertura de Riesgo . . . . . . . . . . . . . . 19 2. Análisis de Variables para el Score de Crédito 21 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5. Análisis de Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.6. Análisis Inicial de Variables . . . . . . . . . . . . . . . . . . . . . . . 33 2.6.1. Técnica de Segmentación: Fine & Coarse Classing . . . . . . . 34 2.6.1.1. Aplicación de la Técnica de Segmentación Fine & Coarse Classing . . . . . . . . . . . . . . . . . . . . 36 6 ÍNDICE GENERAL 2.6.2. Técnica de Segmentación: CHAID . . . . . . . . . . . . . . . . 45 2.6.2.1. El algoritmo CHAID . . . . . . . . . . . . . . . . . . 45 2.6.2.2. Aplicación de la Técnica de Segmentación CHAID . 46 3. Uso de la Regresión logística en el Desarrollo del Score de Crédito 56 3.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.1.1. El Modelo de Regresión Logística . . . . . . . . . . . . . . . . 58 3.1.2. Estimación de la Regresión Logística por Máxima Verosimilitud 62 3.1.3. Pruebas Estadísticas del Modelo Logístico . . . . . . . . . . . 64 3.1.3.1. Devianza . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1.3.2. Estadístico de Wald . . . . . . . . . . . . . . . . . . 64 3.1.3.3. Estadísticos R2 de Cox-Snell y R2 de Negelkerke . . 65 3.1.3.4. Criterio de Información de Akaike . . . . . . . . . . . 66 3.1.3.5. Criterio de Información Bayesiano . . . . . . . . . . 67 3.1.3.6. Matriz de Consfusión . . . . . . . . . . . . . . . . . . 67 3.1.4. Pruebas de Diferencias de Dos Poblaciones . . . . . . . . . . . 68 3.1.4.1. Índice de Gini . . . . . . . . . . . . . . . . . . . . . . 68 3.1.4.2. Prueba Kolmogorov-Smirnov . . . . . . . . . . . . . 70 3.1.5. Curva de ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2. LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.1. Estimación de Regresión logística por LASSO . . . . . . . . . 72 4. Aplicación de la Regresión Logística 75 4.1. Estimación por Máxima Verosimilitud sobre Variables Segmentadas con CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.2. Estimación por Máxima Verosimilitud sobre Variables Segmentadas con Fine & Coarse Classing . . . . . . . . . . . . . . . . . . . . . . . 79 4.3. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.3.1. Interpretación de los Parámetros Estimados . . . . . . . . . . 86 4.4. Pruebas de Diferenciación de Poblaciones . . . . . . . . . . . . . . . . 87 4.5. Prueba de los Supuestos de la Regresión Logística . . . . . . . . . . . 95 7 ÍNDICE GENERAL 4.6. K-fold Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.7. Estimación por LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5. Comparación de los Modelos 108 6. Conclusiones 111 A. Primer Apéndice 112 B. Segundo Apéndice 119 8 Introducción La estimación de la probabilidad de incumplimiento es una técnica comúnmente empleada por las instituciones de crédito en todo el mundo para medir el nivel de riesgo de los solicitantes de crédito. Las técnicas de cali�cación más utilizadas para la administración del riesgo crediticio son el credit scoring para mejorar el otorgamiento del crédito y el behavioral score para analizar el comportamiento crediticio. Los dos objetivos principales estas técnicas de cali�cación crediticia son: identi�car y medir el riesgo de crédito, así como disminuir el porcentaje de clientes incumplidos, con lo cual las instituciones de crédito optimizan y mejoran la rentabilidad de sus carteras. La estimación incorrecta de la probabilidad de incumplimiento puede derivar en otorgamiento de precios incorrectos a productos �nancieros, lo cual generó la crisis �nanciera global del 2008. Asimismo, la estimación de probabilidad de incumplimien- to es un parámetro crucial en el cálculo del capital regulatorio bajo los estatutos de Basilea III. Existen varios modelos multivariados que utilizan indicadores �nancieros o características de los clientes como insumos para la estimación de la probabilidad de default. Los modelos multivariados se pueden agrupar en tres categorías: 1) análi- sis discriminante (lineal y cuadrático), 2) modelos de regresión (lineal, logit y probit) y 3) modelos inductivos (redes neuronales, algoritmos genéticos, árboles de decisión). Este trabajo se conforma por seis capítulos a través de los cuales se plantean los antecedentes, metodologías, aplicación y resultados del análisis. El primer capítulo, denominado Antecedentesdel crédito tiene como objetivo describir las característi- cas principales del crédito, la situación actual de la regulación en México y a nivel internacional, así como la evolución de los mercados. En el segundo capítulo, deno- minado Análisis de Variables para el Score de Crédito, plantea el problema y realiza el análisis inicial de variables donde se aplican las técnicas estadísticas de segmen- tación de variables: �ne & coarse classing, la cual es la más común para segmentar 9 ÍNDICE GENERAL datos en un modelo de scoring, y la técnica de segmentación con árboles de decisión con la técnica CHAID, una alternativa de segmentación que se incorpora en este trabajo de tesis. En tercer capítulo denominado Uso de la Regresión Logística en el Desarrollo del Score de Crédito describe el marco teórico de la regresión logística y LASSO, técnicas que ayudan en la generación del modelo predictivo, así como las pruebas que ayudan a demostrar la robustez y efectividad de los modelos. El capítulo cuatro denominado Aplicación de la Regresión Logística, muestra la aplicación de las técnicas y pruebas planteadas en el capítulo tres a los datos considerados en el estudio. El último capítulo denominado Comparación de los Modelos contrasta los modelos obtenidos con las diferentes técnicas planteadas en este trabajo. Finalmente, el último capítulo muestra las conclusiones principales obtenidas a partir del análisis realizado. 10 Capítulo 1 Antecedentes del Crédito 1.1. Características Principales del Contrato de Cré- dito Un crédito es un acuerdo entre dos partes, en virtud del cual una de ellas (el acreedor) le presta una cantidad de dinero a la otra (el deudor). Los créditos se formalizan a través de contratos que establecen el plazo, los pagos, las comisiones y los seguros, así como otras condiciones que se deben cumplir. El crédito se conforma por el capital, los accesorios, el pago periódico y el saldo insoluto principal (Figura 1.1). Figura 1.1: Características del crédito Fuente: Elaboración propia con información de Banxico 11 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO Para el otorgamiento de un crédito se deben considerar algunos factores acerca del deudor, como capacidad de pago, solvencia1 y patrimonio2, nivel de endeudamiento, historial crediticio y estabilidad laboral. 3 1.1.1. Tipos de Crédito Existen diversos tipos de crédito que le permiten a las personas �nanciar la adquisi- ción de bienes o servicios que por su costo podrían afectar la liquidez del consumidor, tales como casas, autos, negocios, etc. Asimismo, los créditos se pueden clasi�ca con base en sus características en: consumo revolvente, hipotecario, de auto, de nómina y ABC (Tabla 1.1 y 1.2).4 Tabla 1.1: Tipos de crédito Tipo de Crédito De�nición Consumo Revol- vente Es aquel que se puede utilizar repetidamente y retirar fondos hasta un límite pre-aprobado. La cantidad de crédito disponible disminuye cada vez que pedimos prestado y aumenta cuando lo pagamos. La tarjeta de crédito es el crédito revolvente más utilizado. Hipotecario Es el producto �nanciero que se crea para asegurar el cumplimiento de una obligación sobre un bien (generalmente un inmueble). En otras palabras, la hipoteca se re�ere a un préstamo o un crédito que una entidad otorga a una persona. Dicha entidad toma el bien como garantía en caso del incumplimiento de los pagos del acreditado. Nómina Crédito clasi�cado como de consumo destinado a personas físicas a quie- nes les depositan su sueldo en las entidades �nancieras otorgantes del crédito. Fuente: Glosario de términos, portfolio de información de la CNBV 1La capacidad de una persona para hacer frente a sus obligaciones de pago. 2Es la diferencia entre el valor de los bienes y las deudas de una persona. 3Información de Banco de México. http://www.anterior.banxico.org.mx/servicios/index.html 4https://portafolioinfdoctos.cnbv.gob.mx/Documentacion/minfo/00_DOC_R1.pdf 12 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO Tabla 1.2: Tipos de crédito Tipo de Crédito De�nición Auto Son préstamos a través de los cuales los bancos entregan a los clientes una cantidad de dinero para la adquisición de automóviles. Este es un tipo de crédito prendario. Por lo general, el bien que se deja en prenda es el automóvil que se adquiere con el crédito. El deudor está obligado a adquirir el vehículo con el crédito, a devolver la cantidad (principal) que se le prestó, así como a pagar los intereses que se hayan pactado. En algunas ocasiones los bancos otorgan estos préstamos directamente a las empresas distribuidoras de automóviles para que éstas sean las que otorguen a su vez el crédito a los clientes para la compra de los vehículos. ABCD Los créditos ABCD son créditos para la adquisición de bienes de con- sumo duradero, de ahí sus siglas. Estos créditos se otorgan para que las personas adquieran bienes muebles que normalmente se consumen por varios años, como los enseres domésticos, los aparatos electrodomésticos (refrigeradores, hornos de microondas, etc.) y las computadoras, entre muchos otros. Fuente: Glosario de términos, portfolio de información de la CNBV 1.2. Riesgo de Crédito Se de�ne como riesgo de crédito a la posibilidad de que, dado un contrato de crédito, una de las partes no sea capaz de cumplir con las obligaciones adquiridas lo cual derivaría en una pérdida de la contraparte. Además del incumplimiento del deudor hay otros factores que afectan el valor del crédito como el cambio en la calidad crediticia medida a nivel mundial por las cali�cadoras, quienes emiten cali�caciones en función de la probabilidad de incumplimiento de la entidad emisora5. Dichas cali�caciones in�uyen en la tasa de interés del crédito. El crédito es una actividad con una larga historia, pero, el credit scoring es algo relativamente nuevo que tuvo sus inicios aproximadamente hace seis décadas [19] (Thomas, L. C. et al, (2002)). Antes de que se introdujera el credit scoring a los pro- 5Es la medida de qué tan probable es que un acreditado deje de cumplir con sus obligaciones contractuales. Su mínimo valor es cero, lo cual indicaría que es imposible que incumpla con sus obligaciones, y su máximo valor es uno cuando es seguro que incumpla. 13 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO cesos de generación de crédito, los créditos se otorgaban con base en la percepción y en la experiencia de los ejecutivos encargados. La evaluación del crédito es un proceso crucial en la toma de decisiones de las instituciones de crédito, el proceso incluye la recolección y el análisis de variables relacionadas con el cliente y su comportamiento crediticio. El credit scoring determina el score (puntaje) para los clientes que solici- tan un crédito y permite identi�car a aquellos que tienen posibilidad de incumplir con sus pagos; los métodos estadísticos y el avance en las tecnologías de la infor- mación han permitido que las entidades �nancieras crediticias automaticen la toma de decisiones sobre la aceptación o rechazo de una solicitud de crédito. Las técnicas del credit score se han expandido y tienen aplicaciones en diferentes campos ya que ofrecen la ventaja de reducir el riesgo de impago de un cliente, lo cual les permite maximizar el bene�cio esperado. 1.3. Evolución del Crédito El crédito ha ido evolucionado de la mano con la industria, para 1920 la producción en masa, electri�cación, construcción de carreteras, comunicación accesible y expansión del �nanciamiento al consumo se estaban dando en Estados Unidos. A inicios del siglo XX los fabricantes de automóviles perfeccionaron la producción con las líneas de ensamblaje lo que permitió la producción de automóviles a un precio más accesible, esto sumado a la inversión pública en un sistema federal de carreteras permitió que el mercado automovilístico se expandiera aún más. Otros fabricantes adaptaron las técnicas de la línea de ensamblaje para producir electrodomésticos asequibles y productos electrónicos de consumo:hornos, refrigeradores, lavadoras, fonógrafos, radios, teléfonos. etc. El uso ampliado del crédito a plazos fue el catalizador que ayudó a poner nuevos productos al alcance de los consumidores. El gran avance se produjo en 1919 cuando General Motors Acceptance Corporation (GMAC) se convirtió en la primera empresa en poner el �nanciamiento a disposición de los compradores de automóviles con el �n de acceder a clientes de ingresos medios. En lugar de liquidar el monto de la compra de inmediato en una sola exhibición, fue a partir de los años 60 cuando el uso generalizado del crédito de consumo se convirtió en una parte de las �nanzas personales de los consumidores, los compradores de auto solo necesitaban un pago inicial y un ingreso su�cientemente grande para cubrir los pagos mensuales durante 14 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO la vida del préstamo. La aceptación de las tarjetas de crédito de uso general en el mercado fue lenta en sus inicios debido a que dos obstáculos se interponían en el camino: (1) los gran- des minoristas con programas de tarjetas de crédito propios se mostraban reacios a participar en los programas de tarjetas bancarias; (2) atraer a titulares de tarjetas y comerciantes desde fuera del área de comercialización de un banco emisor era proble- mático. El primer problema se resolvió sin ningún tipo de intervención, los grandes minoristas dejaron de lado su renuencia cuando se dieron cuenta que las tarjetas de uso general aumentaban el gasto per cápita de los clientes. Por otro lado, la tecno- logía ayudó a superar el problema de atracción de titulares. Las telecomunicaciones y las computadoras dieron a los bancos y comerciantes las herramientas para mover la información rápidamente y administrarla de manera más e�ciente. Los rápidos intercambios de información fueron la clave para que todo el sistema funcionara. 6 1.3.1. Entorno Internacional Ha pasado una década desde el colapso de Lehman Brothers y la primera observación relacionada con el crédito es que la deuda global equivale a aproximadamente $164 billones de dólares o cerca del 225 por ciento del GDP global, siendo las economías más fuertes las más endeudadas. China, Japón y Estados Unidos de América juntos tienen más de la mitad de la deuda global. China es un caso interesante ya que en los últimos 15 años pasó de tener el 3% de los créditos a tener el 15.5% (Figura 1.2). La deuda pública y privada muestran un comportamiento diferente, mientras que la deuda pública en su mayoría está concentrada en países desarrollados, la deuda privada está concentrada en países emergentes. A partir de la Segunda Guerra Mundial los índices de deuda global han marcado una tendencia ascendente. El desarrollo global estuvo dominado por las economías avanzadas hasta después de la Crisis Global Financiera (CGF) cuando las economías emergentes tomaron el liderazgo, sin embargo, la brecha entre estas economías y el G20 permanece signi�cativa ya que mantienen en promedio el 90% del GDP en deuda. La fuerza impulsora del endeudamiento global ha sido el sector privado que desde 1950 casi ha triplicado su deuda. Durante casi seis décadas las economías 6Credit History: The Evolution of Consumer Credit in America; https://www.bostonfed.org/- /media/Documents/ledger/spring-summer2004/credhistory.pdf. [23] 15 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO avanzadas han dominado el apalancamiento global alcanzando su máximo en 2009 con el 170% del GDP, así mismo el ascenso de las economías emergentes comenzó en 2005, siendo el 2009 el año en el que se convertirían en la principal fuerza dentro de las tendencias globales. Figura 1.2: Deudores más grandes por grupo de ingreso 2016 Fuente: Elaboración propia con información IMF Working Paper, Global Debt Database: Methodo- logy and sources Aunque el sector privado ha dominado la deuda global, la deuda pública también ha desempeñado un papel importante para cada uno de los grupos por ingreso: En las economías avanzadas la deuda pública ha mantenido un aumento con- tinúo alcanzado más de un 100 por ciento durante los últimos años. Entre las economías de mercados emergentes, la deuda pública alcanzó su má- ximo del 63% del GDP a �nales de 1980 el cual �nalmente disminuyó debido a la consolidación, reestructuración y condiciones cíclicas favorables. En los últimos años la deuda pública ha vuelto a subir. La deuda pública en los países en desarrollo de bajos ingresos alcanzó su punto máximo en la década de 1990. Posteriormente la deuda bajó gracias a iniciati- vas en bene�cio de este grupo de economías. No obstante, los elevados dé�cits primarios y la caída de los precios de los productos básicos en 2014 han pro- ducido un aumento en los índices de deuda ([10] Mbaye S. et al, (2018)). 16 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO 1.3.2. México La cartera de crédito en México7 ha presentado un crecimiento casi constante al igual que el PIB (Figura 1.3). De 2011 a 2018 el crecimiento anual en promedio fue de 6.3%, muy similar al que hubo de 2017 a 2018, cabe señalar que el promedio no re�eja estrictamente el comportamiento general de los años ya que de 2011 a 2012 y de 2012 a 2013 se dio el mayor crecimiento del crédito con incrementos de 12.8% y 13.9% respectivamente, mientras que el peor año fue 2015 al presentarse un decremento del 2.2% con respecto a 2014. Figura 1.3: Evolución del PIB y el crédito en México Fuente: Elaboración propia con datos de la CNBV Durante los últimos años, el número de créditos ha aumentado para todos los tipos de crédito con excepción del crédito de nómina, el cual disminuyó durante el último periodo. Los créditos que se colocan con más frecuencia son las tarjetas de crédito, mientras que el crédito hipotecario es el menos solicitado debido al monto y a sus condiciones (Figura 1.4). 7La información analizada corresponde a bancos, instituciones de crédito, tiendas departamen- tales y automotoras de México. La información se obtuvo de la Comisión Nacional Bancaria y de Valores. 17 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO Figura 1.4: Evolución por tipo de crédito Fuente: Elaboración propia con datos de la CNBV 1.4. Marco Regulatorio Nacional e Internacional La Crisis Global Financiera comenzó a mediados de 2007 en EE. UU. y ha impulsado el análisis de las causas que la desencadenaron, dentro de los debates cientí�cos se ha resaltado la importancia de la gestión del riesgo de crédito en la banca comercial. Las consecuencias derivadas de la crisis �nanciera muestran que los métodos y los sistemas utilizados deben ser reevaluados con el objetivo de mejorar la gestión de riesgo de crédito, así como de minimizar las posibles pérdidas. 1.4.1. Comisión Nacional Bancaria y de Valores La Comisión Nacional Bancaria y de Valores es la encargada de establecer los li- neamientos bajo los cuales las instituciones �nancieras de México desarrollarán sus modelos de scoring y constituirán sus reservas. La entidad �nanciera debe desarro- llar sus modelos de acuerdo con los objetivos del banco y su tolerancia al riesgo. Al respecto la Circular Única de Bancos establece lo siguiente en relación con los modelos internos de las instituciones �nancieras: Las instituciones podrán cali�car su cartera crediticia8 utilizando una metodología 8Capítulo V, Cali�cación de Cartera Crediticia, Sección Primera De la Cartera Crediticia de Consumo, Apartado B. Circular Única de Bancos de la CNBV. 18 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO distinta a la señalada en el Apartado A de la sección9 , considerando el tipo de crédito, la estimación de la probabilidad de incumplimiento de los acreditados, la severidad de la pérdida asociada al valor y la naturaleza de la garantía del crédito, así como la exposición de incumplimiento, siempre que se obtenga previa autorización de la Comisión quién la podrá otorgar una vez analizados los requisitos referidos en el Anexo 15 de la CUB. 1.4.2. Basilea III: Marco Regulatorio Internacionalpara los Bancos El Comité de Supervisión Bancaria de Basilea desarrolló Basilea III10, un conjunto de medidas acordadas internacionalmente en respuesta a la crisis �nanciera del 2008- 09, cuyo principal objetivo es reforzar la regulación, supervisión y gestión de riesgos en los bancos. Al igual que el resto de las normas del Comité de Basilea, los requerimientos de Basilea III constituyen mínimos aplicables a bancos con actividad internacional. Los miembros se comprometen a implementar y aplicar las normas en sus jurisdicciones nacionales o regionales dentro de los plazos establecidos por el Comité. Basilea III se fundamenta en tres pilares siendo el pilar I el que está relacionado con la regulación del riesgo de crédito. 1.4.2.1. Pilar I: Cobertura de Riesgo El pilar I se basa en los siguientes principios: 1. Las revisiones de los métodos estándar para calcular el riesgo de crédito, riesgo de mercado, riesgo de ajuste de valoración del crédito y riesgo operacional mejoran la sensibilidad del riesgo y la comparabilidad. 2. Las restricciones del uso de modelos internos tienen por objeto reducir la variabilidad injusti�cada de los activos ponderados por riesgo de los bancos. 3. Riesgo de crédito de contraparte, se tendrán requisitos más estrictos para la exposición; incentivos de capital para utilizar entidades de contrapartida 9Capítulo V, Cali�cación de Cartera Crediticia, Sección Primera De la Cartera Crediticia de Consumo. Circular Única de Bancos de la CNBV. [23] 10Documentación de Basilea III; https://www.bis.org/bcbs/basel3_es.html. [24] 19 CAPÍTULO 1. ANTECEDENTES DEL CRÉDITO central al operar con derivados; un nuevo método estándar y aumento de los requerimientos para las exposiciones dentro del sector �nanciero. 4. Titulizaciones11, reducción de la dependencia de cali�caciones externas, sim- pli�cación y limitación del número de métodos para calcular los requerimientos de capital e incremento de los requerimientos para las exposiciones más arries- gadas. 5. Requerimientos de capital para exposiciones de contrapartida cen- tral e inversiones accionarias en fondos para garantizar una adecuada capitalización y sustentar un sistema �nanciero resiliente. 6. Un suelo de capital revisado (output �oor), basado en los métodos están- dar de Basilea III, limita la reducción del capital regulador que un banco puede disfrutar por utilizar sus modelos internos en vez de los modelos estándar. 11La titulización, también conocida por el anglicismo securitizacion, es una técnica �nanciera que consiste en la transferencia de activos �nancieros que proporcionan derechos de crédito (como por ejemplo facturas emitidas y no saldadas o préstamos en vigor) hacia un inversionista, transformando esos derechos de crédito, mediante el paso a través de una sociedad ad hoc, en títulos �nancieros emitidos en los mercados de capitales. 20 Capítulo 2 Análisis de Variables para el Score de Crédito 2.1. Introducción Existen varios métodos que pueden ser utilizados para el desarrollo de un scorecard, estos implican de�nir y cuanti�car la relación entre las variables de cumplimiento de pagos (independiente) y el de comportamiento de los clientes que tienen obligacio- nes del pago de un crédito. El desarrollo del modelo contempla el uso de atributos agrupados y la aplicación de regresión logística. El �ujo del desarrollo del scorecard consiste en cuatro partes: transformación de las variables, modelo de entrenamiento mediante la regresión logística, validación e interpretación (Figura 2.1). Figura 2.1: Proceso estándar del desarrollo de un scorecard Fuente: Elaboración propia 21 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO 2.2. Datos Los datos utilizados en este estudio se obtuvieron de Kaggle1, una plataforma dedi- cada a fomentar el análisis de datos a través de competencias en las que estadistas y expertos en minería de datos buscan desarrollar modelos predictivos. Especí�camen- te los datos analizados en este estudio pertenecen al concurso Give Me Some Credit, el cual tiene como meta mejorar el proceso de asignación de créditos a partir de un modelo que estime la probabilidad de que alguien incumpla el pago de un crédito en los próximos dos años. La muestra cuenta 150,000 registros y se utilizó la técnica de cross validation para seleccionar aleatoriamente 120,000 observaciones para la cons- trucción del modelo y 30,000 para realizar las pruebas predictivas. Se compararon las distribuciones de incumplimientos crediticios de los dos subconjuntos (muestra de entrenamiento y muestra de prueba) con respecto a la muestra completa a �n de validar que dicha distribución se mantenga homogénea en ambos subconjuntos (Tabla 2.1). Tabla 2.1: Distribución del cumplimiento de los clientes Muestras Completa Entrenamiento Prueba y Recuento % Recuento % Recuento % 0 139,974 93% 112,041 93% 27,933 93% 1 10,026 7% 7,959 7% 2,067 7% Total 150,000 100% 120,000 100% 30,000 100% Nota el valor de y = { 0 clientes que cumplen con obligaciones del crédito 1 clientes que no cumplen con obligaciones del crédito Fuente: Elaboración propia con datos de Kaggle 2.3. Variables La muestra cuenta con diez variables potencialmente explicativas y una variable dependiente. Las descripciones se obtuvieron directamente de la página de Kaggle (Tablas 2.2 y 2.3). 1https://www.kaggle.com 22 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.2: Descripción de las variables (parte I) Variable Id Descripción y y Variable dicotómica que toma valor de 1 cuando el cliente incurrió en mora de 90 días o más y 0 en caso contrario. Es la variable de interés que se tratará de modelar a través del modelo predictivo. Edad V1 Edad del prestatario en años. Número de De- pendientes V2 Número de dependientes en la familia excluyéndose (cónyuge, hijos, etc.). La variable cuenta con 3% de valores faltantes, se mantiene la misma proporción en las tres muestras. Líneas de crédi- to y Préstamos abiertos V3 Número de préstamos abiertos (cuotas como préstamos o hipotecas para automóviles) y líneas de crédito (por ejemplo, tarjetas de crédi- to). Veces en mora de 30-59 días V4 La variable indica el número de veces que el cliente incurrió en mora de 30 a 59 días. En otras palabras, cuando un cliente adquiere una deuda tiene el compromiso de pagar en una fecha determinada, al incumplimiento de este en tiempo se le llama mora y es clasi�cada por el número de días que tarda en ser cubierto. En este caso se trata del número de veces que una persona no cumplió con su obligación en la fecha acordada, pero la cubrió en el lapso de 30 a 59 días siguientes y no más; el evento debió ocurrir durante los últimos dos años. Veces en mora de 60-89 días V5 Al igual que la variable anterior, indica el número de veces que una persona incurrió en mora de 60 a 89 días. Lo que implicaría que el cliente no cubrió el compromiso en la fecha acordada ni en el lapso de 30 a 59 días, sino que el pago se realizó en el intervalo de 60 a 89 días después de que la fecha acordada, y no más; el evento debió ocurrir durante los últimos dos años. Veces en mora de 90 días V6 También indica el número de veces que una persona incurrió mora de 90 días. De igual modo que en las dos variables anteriores indica el número de veces que un cliente no cumplió con su compromiso ni en la fecha acordada ni en el lapso de 30 a 89 días, sino que fue cubierto después de haber transcurrido 90 días. Préstamos Inmobiliarios e Hipotecarios V7 Indica el número de obligaciones hipotecarias o inmobiliarias con las que cuenta el cliente. Fuente: Traducción propia elaborada con base en las descripciones publicadas en Kaggle 23 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.3: Descripción de las variables (parte II) Variable Id Descripción Razón de uso de crédito V8 Esta variable se calcula dividiendo el saldo total utilizado de las tar- jetas de créditoy créditos personales excepto bienes raíces y deudas a plazo, entre la suma de los límites de crédito. El indicador calcula- do ayuda a medir qué proporción de los créditos disponibles de una persona se están usando. Este es uno de los factores más importantes del score de crédito. Razón de deuda V9 Representa el número de pagos mensuales de la deuda, pensión ali- menticia y costos de vida divididos entreq el ingreso bruto mensual. La variable cuenta con un 20% de valores faltantes, se comprobó que se mantiene la misma proporción de valores faltantes en las tres mues- tras. Ingreso mensual V10 Ingreso mensual del prestatario. Fuente: Traducción propia elaborada con base en las descripciones publicadas en Kaggle 2.4. Análisis Descriptivo La exploración de los datos debe comenzar por el análisis descriptivo con estadísti- cas simples como la media, mediana y rango, etc. ([18] Siddiqi, N., (2006)) (Tabla 2.4), esto permitirá tener una mejor visión del negocio. Asimismo, es recomendable comparar el comportamiento de las muestras (de entrenamiento y de prueba) con el conjunto de datos completo para validar que efectivamente se trata de una muestra representativa (Apéndice A., Tabla A.1). A continuación, se muestra el análisis descriptivo para cada una de las variables explicativas, así como para la variable de interés. El número de incumplimientos (variable de interés y) re�eja el comporta- miento �nal de 120,000 clientes pertenecientes a la muestra de entrenamiento, de los cuales se sabe que 112, 041 (93 %) cumplieron con sus obligaciones en tiempo y se identi�caron como clientes con buen comportamiento, los 7, 959 (7 %) restantes incumplieron en el pago por más de 90 días, y se catalogaron como los clientes con mal comportamiento (Figura 2.2). 24 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.4: Estadísticos descriptivos de la muestra de entrenamiento (120,000 regis- tros) Id Perdidos Media Mediana Moda Desv. est. Varianza Asimetría Curtosis Mínimo Máximo y 0 0.07 0 0 0.250 0.06 3.49 10.15 0 1 V1 0 52.3 52 49 14.77 218.16 0.19 -0.49 21 109 V2 3095 0.76 0 0 1.11 1.24 1.59 3.12 0 20 V3 0 8.46 8 6 5.14 26.47 1.21 3.02 0 57 V4 0 0.41 0 0 4.09 16.69 23.16 549.51 0 98 V5 0 0.23 0 0 4.05 16.37 23.96 575.62 0 98 V6 0 0.26 0 0 4.06 16.49 23.69 566.62 0 98 V7 0 1.02 1 0 1.12 1.26 2.82 27.92 0 32 V8 0 6.15 0.15 0 265.57 70529.49 98.74 14140.05 0 50708 V9 23795 0.39 0.29 0 1.11 1.23 65.82 7457.68 0 170 V10 0 5693.5 4500 5000 13110.8 171894258.6 131.51 26295.0 0 3008750 Fuente: Elaboración propia con datos de Kaggle Figura 2.2: Histograma y Fuente: Elaboración propia con datos de Kaggle Las edades de los clientes van de los 21 a los 109 años, la media se localiza en 25 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO los 52.30 años y la moda en los 49; la desviación estándar de 14.77, junto con la curtosis de −0.49 indica que los datos presentan cierta tendencia platicúrtica, asimismo el valor positivo de la asimetría 0.19 mostró un sesgo menor a la derecha (Figura 2.3). Figura 2.3: Histograma de Edad Fuente: Elaboración propia con datos de Kaggle El número de dependientes tiene un 3 % (3, 095) de datos faltantes. El rango va de 0 a 20, la media es de 0.76, la moda de 0 y la mediana de 0, es decir, la mayoría de los clientes no tienen dependientes. La desviación estándar es de 1.11, la curtosis de 3.12, y la asimetría de 1.59, es decir los datos se concentran cerca de la media y están sesgados a la derecha (Figura 2.4). 26 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.4: Histograma de número de Dependientes Fuente: Elaboración propia con datos de Kaggle El número de préstamos abiertos y líneas de crédito va de 0 a 57, la media está en 8.56, la mediana en 8 y la moda en 6. La desviación estándar es de 5.14, la curtosis de 3.02 y la asimetría de 1.21, por lo que los datos están próximos a la media con sesgo a la derecha (Figura 2.5). 27 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.5: Histograma de Número de préstamos abiertos y líneas de crédito Fuente: Elaboración propia con datos de Kaggle Para el número de veces que se presentaron los tres tipos de mora:Mora de 30 a 59 días, Mora de 60 a 89 días y Mora de 90 días las estadísticas resultaron muy similares. La media es de 0.41, 0.23 y 0.26, respectivamente, mientras que la mediana y la moda es 0 en los tres casos. Con esta información se in�rió que la mora de 30 a 59 días se presenta una vez o más con mayor frecuencia que las demás, esto debido al valor de su media (Figura 2.6). La desviación estándar de las tres variables varía por centésimas, por lo que se puede decir que su dispersión es casi la misma. La curtosis es de 549.51 para la mora de 30 a 59, de 575.62 para la de 60 a 89 y de 566.62 para la de 90 días, es decir la variable de 60 a 89 días de mora es la más apuntalada (Figura 2.7) mientras que la de 30 a 59 es la menos, de cualquier manera los datos se concentran cerca de la media. La asimetría indica un sesgo marcado hacia la derecha en los tres casos (Figura 2.8). 28 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.6: Histograma de Número de veces en mora de 30-59 días Fuente: Elaboración propia con datos de Kaggle Figura 2.7: Histograma de Número de veces en mora de 60-89 días Fuente: Elaboración propia con datos de Kaggle 29 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.8: Histograma de Número de veces en mora de 90 días Fuente: Elaboración propia con datos de Kaggle El número de préstamos hipotecarios e inmobiliarios va de 0 a 32; la media es de 1.02, la mediana de 1 y la moda de 0. La desviación estándar es de 1.12 y la curtosis de 27.92, es decir, los valores se encuentran concentrados cerca de la media, la asimetría es positiva (2.82), por lo que los datos están sesgados a la derecha (Figura 2.9). 30 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.9: Histograma de Número de préstamos hipotecarios e inmobiliarios Fuente: Elaboración propia con datos de Kaggle La razón de uso de crédito arrojó una media de 6.15, grande comparada con la mediana 0.15 y la moda 0.0, asimismo el valor de la desviación estándar es elevado con 265.57; el rango de la variable va de 0 a 50,708, por lo que se sospecha de la in�uencia de los valores extremos en la media y la desviación estándar. Se elaboró un análisis de percentiles (Apéndice A., tabla A.2) y se determinó que un 0.17% tiene valores mayores a 4.44, lo que incrementó la media y la desviación estándar, por este motivo se consideró la mediana como principal medida de tendencia central. La curtosis 14,140.05 indica una gran concentración de los valores alrededor de la media, mientras que la asimetría de 98.7 indica un sesgo a la derecha. La variable razón de deuda tiene 20% (23,795) de valores perdidos con res- pecto a los 120,000 que integran la muestra completa. Toma valores de 0 a 170 y la media se encuentra en 0.39, mientras que la mediana en 0.29; la desviación estándar es de 1.11, la curtosis de 7,457.68 y la asimetría es de 65.82, por lo que los valores se encuentran concentrados cerca de la media y con un sesgo a la derecha. 31 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO El ingreso mensual de los clientes tiene un rango de 0 hasta 3,008,750, mues- tra una desviación estándar grande, lo que implica mayor dispersión en los datos lo cual parece contradictorio con el valor de la curtosis positiva 26,295.09 que indica mayor concentración de valores cerca de la media y sesgo a la derecha, debido a su asimetría positiva. Se concluyó que la desviación estándar está siendo afectada por valores extremos grandes; la mediana está en 4,000 y esta medida de tendencia central no se ve afectada por los valores atípicos. 2.5. Análisis de Correlación A continuación, se muestran los coe�cientes de correlación de Pearson. Se identi�cancon ** aquellos cuya correlación es signi�cativa con α = 0.01 y con * aquellos cuya correlación es signi�cativa con α = 0.05. La prueba realizada considera las siguientes hipótesis: H0 : ρ = 0 vs H1 : ρ 6= 0 Se observó que la única variable que no guarda una relación signi�cativa con la va- riable de interés es la Razón de uso de crédito y también es la que menos se relaciona con las otras variables independientes. La mayoría de las relaciones tienen signi�- cancia en el nivel de α = 0.01, así como valores de correlación de Pearson menores, lo que indica una relación baja (Tabla 2.5). Asimismo, existen tres relaciones altas, lo cual se asocia a la relación natural de las variables, ya que se trata del número de veces en mora de 30 a 59 días, de 60 a 89 días y de 90 días. La relación entre Préstamos Inmobiliarios e Hipotecarios y Líneas de Crédito y Prestamos abiertos se asocia de igual manera a la naturaleza de las variables. 32 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.5: Correlaciones de las variables (muestra de entrenamiento) y V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 y ρxy 1 -.112** .046** -.031** .128** .104** .119** -.007* -.002 -.004 -.014** ∗p 0.000 .000 .000 0.000 .000 0.000 .013 .549 .176 .000 V1 ρxy -.112** 1 -.213** .147** -.062** -.056** -.060** .034** -.006* .057** .010** ∗p 0.000 0.000 0.000 .000 .000 .000 .000 .033 .000 .001 V2 ρxy .046** -.213** 1 .065** -.002 -.011** -.010** .127** .001 -.071** .086** ∗p .000 0.000 .000 .434 .000 .001 0.000 .717 .000 .000 V3 ρxy -.031** .147** .065** 1 -.053** -.069** -.079** .435** -.011** -.137** .113** ∗p .000 0.000 .000 .000 .000 .000 0.000 .000 0.000 0.000 V4 ρxy .128** -.062** -.002 -.053** 1 .986** .983** -.030** -.001 -.011** -.012** ∗p 0.000 .000 .434 .000 0.000 0.000 .000 .675 .001 .000 V5 ρxy .104** -.056** -.011** -.069** .986** 1 .992** -.039** -.001 -.005 -.014** ∗p .000 .000 .000 .000 0.000 0.000 .000 .737 .136 .000 V6 ρxy .119** -.060** -.010** -.079** .983** .992** 1 -.045** -.001 -.002 -.016** ∗p 0.000 .000 .001 .000 0.000 0.000 .000 .743 .472 .000 V7 ρxy -.007* .034** .127** .435** -.030** -.039** -.045** 1 .005 -.208** .141** ∗p .013 .000 0.000 0.000 .000 .000 .000 .102 0.000 0.000 V8 ρxy -.002 -.006* .001 -.011** -.001 -.001 -.001 .005 1 -.003 .007* ∗p .549 .033 .717 .000 .675 .737 .743 .102 .328 .015 V9 ρxy -.004 .057** -.071** -.137** -.011** -.005 -.002 -.208** -.003 1 .002 ∗p .176 .000 .000 0.000 .001 .136 .472 0.000 .328 .493 V10 ρxy -.014** .010** .086** .113** -.012** -.014** -.016** .141** .007* .002 1 ∗p .000 .001 .000 0.000 .000 .000 .000 0.000 .015 .493 Fuente: Elaboración propia con datos de Kaggle 2.6. Análisis Inicial de Variables El análisis inicial de variables permite detectar el tipo de relación que existe entre la variable de interés y las variables explicativas. La fuerza de la relación se puede medir a través de la segmentación de variables, misma que es recomendable para la generación del scorecard. Cabe mencionar que los scorecards también se pueden trabajar con variables continuas (desagrupadas) y no están limitados al uso exclusi- vo de variables agrupadas, aunque estas ofrecen algunas ventajas ([18] Siddiqi, N., (2006)) : Control y manejo de valores atípicos, y los efectos que tengan en el modelo. Detección de relaciones lineales y no lineales. 33 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Manejo de valores perdidos sin imputación. Clasi�cación de las variables en términos de la fuerza predictiva que cada una de las variables explicativas ejerza sobre la variable de interés. 2.6.1. Técnica de Segmentación: Fine & Coarse Classing El binning o reagrupamiento es un paso comúnmente utilizado en el credit scoring para la transformación de variables continuas en un conjunto de grupos o bins. El objetivo de este proceso es colocar atributos (valores) con comportamientos similares en un mismo grupo con el �n de mejorar el poder predictivo del modelo. Dos conceptos que se relacionan con el reagrupamiento de variables son el Weight of evidence (WOE) y el Information value (IV), los cuales han evolucionado a partir de la regresión logística y se utilizan como punto de referencia en la selección de variables en modelos de riesgo de crédito, especialmente aquellos relacionados con la probabilidad de incumplimiento. A su vez, el Fine y Coarse Classing son dos termi- nologías que se relacionan con el WOE, donde el �ne classing consiste en la división de la variable independiente continua en n grupos (generalmente 10 o 20), a los cua- les se les calcula el WOE y el IV para determinar el tipo relación y comportamiento de las variables independientes con respecto a la variable de interés. El Coarse Clas- sing combina las categorías adyacentes con valores de WOE similares para generar grupos más diferenciados. El Weigth Of Evidence y el Information Value juegan dos papeles distintos en el análisis de datos, mientras que el WOE describe la relación entre una variable predictiva y una variable objeto binaria, el IV mide la fuerza de la relación.2 El WOE se de�ne matemáticamente como: WOE = ln ( Distribución casos negativos Distribución casos positivos ) La distribución se re�ere a la proporción de casos positivos y negativos (por grupo) en relación con el total por columna, donde bi es el número de casos negativos por grupo, gi el número de casos positivos e i el número de grupos en los que se segmentó la variable. 2https://www.listendata.com/2015/03/weight-of-evidence-woe-and-information.html. [26] 34 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Distribución casos negativos = b1 (b1 + b2 + . . . + bk+1) El WOE es el logaritmo de la razón de las distribuciones de los casos negativos sobre los positivos, o bien de la presencia o ausencia del evento de interés ([21] Guoping Zeng, (2014)). En la tabla (2.6) se ilustra el cálculo del WOE. Dada la de�nición del WOE, entre más positivo sea, las distribución de casosa negativosdominará la de casos negativos y la probabilidad será mayor. Tabla 2.6: Calculo de WOE por grupo Grupo x Casos positivos Casos negativos WOE 1 x1, . . . , xn1 g1 b1 ln ( b1 (b1+b2+...+bk+1) / g1 (g1+g2+...+gk+1) ) ... ... ... ... ... k xnk−1+1, . . . , xnk gk bk ln ( bk (b1+b2+...+bk+1) / gk (g1+g2+...+gk+1) ) k+1 xnk+1, . . . , xnk+1 gk+1 bk+1 ln ( bk+1 (b1+b2+...+bk+1) / gk+1 (g1+g2+...+gk+1) ) Fuente: Zeng El valor del IV se calcula con la fórmula: IV = k+1∑ i=1 ( bi (b1 + b2 + . . . + bk+1) − gi (g1 + g2 + . . . + gk+1) ) ×WOE (2.1) La ecuación (2.1) describe la suma ponderada de todos los valores individuales del WOE donde se incorpora como pesos la diferencia absoluta entre el numerador y el denominador (el WOE capta la diferencia relativa). Con base en esta metodología, Siddiqi plantea una regla empírica que describe el poder predictivo del IV la cual se ilustra en la tabla (2.7). 35 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.7: Regla empírica de IV Valor de IV Fuerza predictiva < 0.02 Impredecible 0.02 ≤ IV < 0.1 Débil 0.1 ≤ IV < 0.3 Mediana 0.3 ≤ IV Fuerte 0.5 ≤ IV Uso controlado por sobre predicción Fuente: Siddiqi 2006 En general, los diferentes algoritmos para reagrupar los datos deben de cumplir lo siguiente: Separar los valores perdidos. Generar grupos con al menos un caso positivo y negativo. Agrupar de manera que se maximice la diferencia entre los casos positivos y negativos. Medir la fuerza estadística en términos de Weight Of Evidence e Information Value no se debe considerar como el único factor en la selección de variables a incluir en el modelo predictivo, la relación entre el WOE de los grupos generados por la segmentación y la variable de interés debe tener orden lógico y sentido operacional, el cual no debe ser necesariamente lineal. El proceso para llegar a una tendencia lógica es de prueba y error, y busca equilibrar la creación de tendencias lógicasy la obtención de un IV su�ciente ([18] Siddiqi, N., (2006)). 2.6.1.1. Aplicación de la Técnica de Segmentación Fine & Coarse Clas- sing A continuación se ejempli�ca el cálculo del WOE para la variable Número de De- pendientes, usando las recomendaciones mencionadas en la sección previa. 1. Se separaron los valores perdidos y se colocaron en un sólo grupo. 2. Los últimos 10 grupos propuestos (del 5 al 14) no cumplieron con el mínimo de observaciones requerido (5 %) además de que los últimos 5 grupos (del 10 al 14) 36 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO no cuentan con clientes malos, por lo que las categorías de la 5 a la 14 fueron fu- sionadas. El nuevo grupo quedó conformado por {5, 6, 7, 8, 9, 10, 11, 12, 13, 14} con 8.862 % del total de las observaciones (Tabla 2.8). 3. El nuevo grupo propuesto ya cuenta con clientes malos. 4. La diferencia absoluta entre el primero y segundo grupo, el segundo y tercero y el tercero con el cuarto fue mayor a una décima lo cual les permitió per- manecer como grupos separados. La diferencia entre el cuarto y quinto grupo es menor por lo que se fusionaron y el nuevo grupo quedó conformado por {4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14}. Tabla 2.8: Cálculo I del WOE para la variable número de dependientes Grupos x Prop. observaciones Clientes buenos Clientes malos WOEi Dif |WOEi −WOEi−1| 1 Valores perdidos 2.579% 2,954 141 -0.398 2 0 58.013% 65,571 4045 -0.141 0.257 3 1 17.510% 19,470 1542 0.109 0.250 4 2 13.036% 14,380 1263 0.212 0.103 5 3 6.293% 6,904 648 0.279 0.066 6 4 1.921% 2065 240 0.492 0.214 7 5 0.492% 532 58 0.428 0.064 8 6 0.100% 102 18 0.910 0.482 9 7 0.033% 35 4 0.476 0.434 10 8 0.016% 19 0 11 9 0.003% 4 0 12 10 0.003% 3 0 13 13 0.001% 1 0 14 20 0.001% 1 0 Fuente: Elaboración propia con datos de Kaggle En la tabla (2.9) se muestran las categorías obtenidas de la agrupación de la variable: 37 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.9: Cálculo I del WOE para la variable número de dependientes Grupos x Prop. observaciones Clientes buenos Clientes malos WOEi Dif |WOEi −WOEi−1| 1 Valores perdidos 2.579% 2954 141 -0.398 2 0 58.013% 65571 4045 -0.141 0.257 3 1 17.510% 19470 1542 0.109 0.250 4 [2, 20] 21.898% 24046 2231 0.267 0.16 Fuente: Elaboración propia con datos de Kaggle Se aplicaron las técnicas de agrupación de variables con el software estadístico R utilizando la biblioteca Information. El código empleado se puede consultar en el apéndice (B). La tabla (2.10) muestra los resultados obtenidos. Tabla 2.10: Information Value de las variables predictoras Variable IV Razón de uso de Crédito 1.0991843 Veces en mora de 90 días 0.8404520 Veces en mora de 30-59 días 0.6633518 Veces en mora de 6089 días 0.5776242 Edad 0.2437523 Líneas de crédito y préstamos abiertos 0.0817081 Razón de deuda 0.0792224 Ingreso mensual 0.0468336 Préstamos inmobiliarios e hipotecarios 0.0393269 Número de dependientes 0.0340194 Fuente: Elaboración propia con datos de Kaggle De acuerdo con el criterio de Siddiqi, hay cinco variables con poder predictivo débil, una con poder predictivo mediano y cuatro con sobre predicción, para estas cuatro será necesario supervisar el comportamiento y efecto que pueda tener en el modelo predictivo, con el �n de decidir si se conservan o se excluyen. La biblioteca Infor- mation también proporciona el WOE para cada uno de los grupos, este determina si la variable independiente guarda una relación lógica (con tendencia) con la varia- ble dependiente. En los siguientes párrafos se describe el análisis de los resultados 38 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO obtenidos. La edad (Figura 2.10), cuyo poder predictivo es el más estable mantiene una rela- ción negativa con el WOE, por lo que a mayor edad menor será la probabilidad de incumplimiento. Figura 2.10: Grá�co de IV y WOE de Edad Fuente: Elaboración propia con datos de Kaggle Las variables: número de dependientes (Figura 2.11), mora 30-59 días (Figura 2.12), mora 60-89 días (Figura 2.13) y mora 90 días (Figura 2.14) mantienen una relación positiva con el WOE, por lo que se puede concluir que mientras más altas sean estas variables mayor será la probabilidad de que el cliente incumpla con sus obligaciones. 39 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.11: Grá�co de IV y WOE de Número de dependientes Fuente: Elaboración propia con datos de Kaggle Figura 2.12: Grá�co de IV y WOE de Mora de 30 a 59 días Fuente: Elaboración propia con datos de Kaggle 40 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.13: Grá�co de IV y WOE de Mora de 60 a 89 días Fuente: Elaboración propia con datos de Kaggle Figura 2.14: Grá�co de IV y WOE de Mora 90 días Fuente: Elaboración propia con datos de Kaggle Por otro lado las variables: razón de deuda (Figura 2.15), líneas de crédito y présta- mos abiertos (Figura 2.16) y préstamos inmobiliarios e hipotecarios (Figura 2.17) , no muestran alguna tendencia con respecto a la variable de interés. 41 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.15: Grá�co de IV y WOE de Razón de deuda Fuente: Elaboración propia con datos de Kaggle Figura 2.16: Grá�co de IV y WOE de Líneas de crédito y préstamos abiertos Fuente: Elaboración propia con datos de Kaggle 42 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.17: Grá�co de IV y WOE de Préstamos inmobiliarios e hipotecarios Fuente: Elaboración propia con datos de Kaggle El ingreso mensual (Figura 2.18) tiene un comportamiento interesante ya que en el primer grupo, el de menor ingreso, la probabilidad de ser un cliente incumplido es menor pero a partir del segundo grupo esta va creciendo de manera constante hasta el cuarto grupo donde el ingreso está entre 2800 y 3601 unidades. Posteriormente, la probabilidad decrece continuamente hasta llegar al último grupo donde la pro- babilidad de incumplimiento es la más pequeña, es decir los clientes con mayores ingresos. 43 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.18: Grá�co de IV y WOE de Ingreso mensual Fuente: Elaboración propia con datos de Kaggle La razón de uso de crédito (Figura 2.19) muestra que a partir del segundo grupo la probabilidad de ser un cliente incumplido aumenta conforme la razón lo hace, lo que implica que a mayor uso del crédito disponible mayor será la probabilidad de convertirse en un cliente moroso. 44 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.19: Grá�co de IV y WOE de Razón uso de crédito Fuente: Elaboración propia con datos de Kaggle 2.6.2. Técnica de Segmentación: CHAID La técnica de segmentación Tree CHAID (Chi-squared Automatic Interaction De- tection) es un algoritmo basado en el estadístico Ji − cuadrada (χ2). El objetivo principal de la técnica es segmentar la variable independiente y encontrar grupos que sean muy distintos en un determinado aspecto ([15] Ritschard, G., (2013)). 2.6.2.1. El algoritmo CHAID El algoritmo de asignación de grupos de categorías homogéneas se basa en el esta- dístico Ji− cuadrada. Los pasos son los siguientes ([6] Escobar, M., (1998)): 1. Se forman todos los pares posibles de categorías. Esto dependerá del tipo de pronosticador que se tenga: variables nominales, ordinales, ordinales con valores perdidos y cuantitativas. En el apéndice (A) se describe a detalle cuáles son sus características. En el caso de las variables nominales se generan todas las combinaciones posibles de los valores de la variable, mientras que las del tipo ordinal únicamente se puede combinar valores contiguos; es decir, regularmente se tiene n− 1 pares, siendo n el número de categorías. 45 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO 2. Para cada posible pareja de categorías se calcula el Ji− cuadrada correspon- diente a su cruce con la variable dependiente. La pareja con el Ji−cuadrada más bajo, y que además no sea signi�cativo, se fusionará en una nueva catego- ría. La condición de que no sea signi�cativo es muy importante ya que en caso de que lo fuese, indicaría que las dos categorías que se pretenden fusionar no lo pueden hacer debido a que son heterogéneas entre sí con respecto a valores de la variable dependiente lo cual contradice el objetivo de la técnica. 3. Si se ha fusionado un determinado par de categorías, se repiten los pasos uno y dos, pero esta vez con una categoría menos, pues dos de las antiguas han sido reducidas a una sola. 4. El proceso se acaba cuando ya no pueden realizarse más fusiones porque los valores de la Ji− cuadrada ofrecen resultados signi�cativos. A continuación, se presenta con mayor detalle el algoritmo CHAID (Chi-squared Automatic Interaction Detection) aplicado a la variable veces en mora de 30-59 días. Esta técnica, desarrollada por Cellard et al. (1967), Bourouche, Tennenhaus (1972) y Kass (1980) así como Magidson (1989, 1993a y 1993b) quien la adaptó para SPSS, tiene como principal característica que la muestra no es necesariamente segmentada de modo binario sino en más categorías. 2.6.2.2. Aplicación de la Técnica de Segmentación CHAID Para las variables independientes (predictores) del tipo escala, el algoritmo CHAID en el software estadístico SPSS, las agrupa en grupos discretos (p.ej. 0-10, 11-20, 21- 30, etc.) antes del análisis. El número de grupos inicial se puede controlar (aunque el procedimiento puede fusionar grupos contiguos después de la división inicial), el valor por default es 10.3 De acuerdo al algoritmo descrito la variable recibió tratamiento de tipo ordinal por lo que los pares posibles de categorías son 12 (número de categorías menos 1), cabe mencionar que se fusionaron en una sola categoría los valores {10, 11, 12, 13} debido a que las categorías {10, 11, 13} no presentaban observaciones con clientes morosos (i.e. y = 1). En la tabla (2.11) se muestra para cada par de categorías el valor del Ji− cuadrada y p-value correspondiente a su cruce con la variable dependiente. 3IBM SPSS Decision Trees 21 © Copyright IBM Corporation 1989, 2012.[27] 46 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Resultado del cruce entre las categorías se obtuvieron varios pares con valores de Ji−cuadrada pequeños y con p-values mayores a 0.05. Es decir, son categorías pareci- das, por lo que se propuso la siguiente fusión: {4, 5}, {6, 7}, {8, 9}, {10, 11, 12, 13, 96}. Las categorías {0}, {1}, {2}, {3} son adyacentes y los pares formados resultaron sig- ni�cativamente distintos, por lo que no se fusionaron y se conservan como categorías con un solo valor. Tabla 2.11: Valores de Ji − cuadrada y p-values por par de la categoría ordinal, veces en mora de 30-59 días I Categorías de la variable veces en mora de 30-59 días 0 1 2 3 4 5 6 7 8 9 {10,11,12,13} 96 98 0 0 2757.50 1 0.00 0 246.01 2 0.00 0 43.53 3 0.00 0 9.65 4 0.00 0 0.24 5 0.62 0 1.32 6 0.25 0 0.08 7 0.78 0 2.75 8 0.10 0 0.09 9 0.77 0 4.43 {10,11,12,13} 0.06 0 0.07 96 0.79 0 1.16 98 0.28 0 Fuente: Elaboración propia con datos de Kaggle Dado que la categoría {3} es adyacente al par {4, 5} se le realizó la prueba para comprobar que fueran signi�cativamente diferentes, lo cual fue con�rmado al obtener un p-value menor a 0.05. Las pruebas realizadas entre los pares {4, 5}, {6, 7} y {8, 9} resultaron con valores pequeños de Ji − cuadrada y p-values mayores a 0.05. Para los grupos de categorías {4, 5} y {6, 7}, el p-value de la prueba resultó un poco mayor que 0.05 por lo que se probará la categoría {4, 5} con el grupo conformado por {{6, 7}, {8, 9}}. Asimismo, se puede observar en la tabla (2.12) los valores resultantes de la prueba Ji− cuadrada son pequeños y el p-value mayor a 0.05 por lo que el par de categorías{10, 11, 12, 13, 96} y {98} deben ser fusionadas. 47 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.12: Valores deJi− cuadrada y p-values por par de la categoría ordinal, veces en mora de 30-59 días II Categorías de la variable veces en mora de 30-59 días 3 {4,5} {6,7} {8,9} {10,11,12,13,96} 98 3 0 14.267 {4,5} 0.000 0 3.739 {6,7} 0.053 0 3.360 {8,9} 0.066 0 8.590 {10,11,12,13,96} 0.003 0 3.512 98 0.060 0 Fuente: Elaboración propia con datos de Kaggle De acuerdo a los valores de Ji − cuadrada y el p-value obtenidos (Tabla 2.13), las categorías {4, 5} y{6, 7, 8, 9} fueron fusionada, mientras que el par de categorías {6, 7, 8, 9} y {10, 11, 12, 13, 96, 98} deben permanecer separadas. Las categorías que- daron conformadas de la siguiente manera: {4, 5, 6, 7, 8, 9} y {10, 11, 12, 13, 96, 98}. Tabla 2.13: Valores deJi− cuadrada y p-values por par de la categoría ordinal,veces en mora de 30-59 días III Categorías de la variable veces en mora de 30-59 días {4,5} {6,7,8,9} {10,11,12,13,96,98} {4,5} 0 1.06 {6,7,8,9} 0.30 0 7.17 {10,11,12,13,96,98} 0.01 0 Fuente: Elaboración propia con datos de Kaggle Finalmente se le realizó la prueba Ji−cuadrada a las categorías {3} vs {4, 5, 6, 7, 8, 9} y {4, 5, 6, 7, 8, 9} vs {10, 11, 12, 13, 96, 98} para con�rmar que en ninguno de los dos casos existen grupos con comportamientos similares, lo cual se puede comprobar en la tabla (2.14). 48 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Tabla 2.14: Valores deJi − cuadrada y p-values por par de la categoría ordinal, Veces en mora de 30-59 días IV Categorías de la variable veces en mora de 30-59 días 3 4,5,6,7,8,9 {10,11,12,13,96,98} 3 0 22.93 4,5,6,7,8,9 0.0000 0 12.42 {10,11,12,13,96,98} 0.0000 0 Fuente: Elaboración propia con datos de Kaggle En la tabla (2.15) se muestra la segmentación obtenida derivada de las pruebas realizadas a la variable Veces en mora de 30-59 días : Tabla 2.15: Categorías �nales de la variable veces en mora de 30-59 días. Categorías de la variable Veces en mora de 30-59 días 0 1 2 3 {4,5,6,7,8,9} {10,11,12,13,96,98} Fuente: Elaboración propia con datos de Kaggle Se aplicaron las técnicas de segmentación Tree CHAID con el software estadístico SPSS. Los códigos se presentan en el apéndice (B). Derivado de los resultados obte- nidos, a continuación se presentan los grá�cos que re�ejan el comportamiento de la variables agrupadas y su relación con la probabilidad de impago por grupo así como el Weight Of Evidence . Las variables Edad (Figura 2.20) y Dependientes (Figura 2.21) muestran una relación casi lineal con respecto a la variable dependiente, con la diferencia de que una es negativa y la otra positiva respectivamente. En términos de negocio, de la variable Edad se puede inferir que mientras más joven sea el cliente mayor será la probabilidad de que se vuelva moroso y conforme la edad incrementa la probabilidad disminuye; por otro lado cuando el número de dependientes crece también lo hace la probabilidad 49 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO de impago, por lo que mientras mayor sea el número de dependientes del cliente mayor será su probabilidad de incumplimiento del crédito. Figura 2.20: Segmentación CHAID Edad (frecuencia de impago por grupo y WOE por grupo).Fuente: Elaboración propia con datos de Kaggle Fuente: Elaboración propia con datos de Kaggle Figura 2.21: Segmentación CHAID Dependientes (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle 50 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO El número de veces en mora tiene el mismo comportamiento en los tres tipos (Figuras 2.22, 2.23 y 2.24), ya que a medida que crece el número de veces en mora también lo hace la probabilidad de impago. Figura 2.22: Segmentación CHAID Veces en mora 30-59 días (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle Figura 2.23: Segmentación CHAID Veces en mora 60-89 días (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle 51 CAPÍTULO 2. ANÁLISISDE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.24: Segmentación CHAID Veces en mora 90 días (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle El número de líneas de crédito y préstamos abiertos (Figura 2.25) muestran un com- portamiento particular ya que en la primer categoría, donde el número de líneas de crédito o préstamos es menor, la probabilidad de impago es mayor que en las de- más categorías, incluso más que las personas que cuentan con más de 13 líneas de crédito o préstamos abiertos. Lo anterior puede deberse a que en el primer grupo se encuentran todos los clientes sin experiencia crediticia. 52 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.25: Segmentación CHAID Líneas de crédito (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle La probabilidad de impago mantiene una relación creciente con respecto a las va- riables de Razón de uso de crédito (Figura 2.26), y Razón de deuda (Figura 2.27); mientras que para el Ingreso mensual (Figura 2.28) no hay un patrón, la probabili- dad crece en los grupos con ingreso menor 4499 unidades y decrece en el resto de los grupos. 53 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.26: Segmentación CHAID Razón de uso de crédito (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle Figura 2.27: Segmentación CHAID Razón de deuda (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle 54 CAPÍTULO 2. ANÁLISIS DE VARIABLES PARA EL SCORE DE CRÉDITO Figura 2.28: Segmentación CHAID Ingreso mensual (frecuencia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle La variable Préstamos inmobiliarios e hipotecarios muestra un comportamiento par- ticular (Figura 2.29), ya que solo los clientes con menor probabilidad de incumpli- miento son los que cuentan con un préstamo. Figura 2.29: Segmentación CHAID Préstamos inmobiliarios e hipotecarios (frecuen- cia de impago por grupo y WOE por grupo). Fuente: Elaboración propia con datos de Kaggle 55 Capítulo 3 Uso de la Regresión logística en el Desarrollo del Score de Crédito La selección de variables es un paso importante en la de�nición del modelo y usual- mente se busca elegir un número reducido de variables explicativas que puedan des- cribir a la variable de interés. La razón principal de la selección de variables es que proporciona ventajas como: Facilita la interpretación del modelo. Elimina variables redundantes que no proporcionan información. Reduce la dimensión del problema lo que agiliza los algoritmos. Reduce el sobre ajuste. En la literatura existen varios tipos de métodos para realizar la selección de variables. Los métodos de �ltro o �lter methods realizan la selección a través de una ordenación o rankeo de las variables y su importancia en el modelo, para calcular la utilidad de las variables se utilizan pruebas estadísticas y resultados de correlación (ej. Ji-cuadrada, ANOVA, correlación de Pearson, etc.). En este trabajo se utiliza el Information Value, el cual ya fue descrito en la sección previa. Los métodos de envoltura o wrapped methods generan un subconjunto de variables que son utilizados para generar los modelos y entrenar algoritmos de aprendizaje. El mejor modelo se selecciona a través de pruebas al algoritmo. Para seleccionar variables se utilizan diferentes criterios (ej. Forward y Backward selection). 56 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO Finalmente, los métodos incrustados o embedded methods son una combinación entre los dos métodos previos y la técnica LASSO es una aplicación de este tipo de métodos ([4] Fonti V. , (2017)). En esta sección se trabajan los tres tipos de métodos para generar el modelo para la probabilidad de impago de los clientes. La primera aplicación es con regresión logística por máxima verosimilitud donde se proponen modelos con el método de �ltro al elegir las mejores variables de acuerdo con el information value calculado previamente. La segunda aplicación es con el método wrapped al realizar regresiones logísticas hacia atrás. Por último, se realizó el ejercicio de modelaje con la técnica LASSO aplicada a la regresión logística. La aplicación de las técnicas se realizó con los paquetes estadísticos SPSS y R en el caso de LASSO. 3.1. Regresión Logística Los modelos multivariados exploran la relación entre uno o más predictores (varia- bles independientes) y un resultado (variable dependiente o de interés). El modelo describe la relación expresando el valor de la variable de interés como una suma de productos, donde cada producto es resultado de la multiplicación del valor del pre- dictor y su coe�ciente, mismo que se obtuvo a través del modelo ajustado a los datos; los coe�cientes indican el impacto de los predictores sobre la variable dependiente. Los dos principales propósitos de los modelos multivariados son: (1) predecir el va- lor de la variable dependiente para nuevos individuos o valores independientes y (2) ayudar a describir la contribución relativa de cada variable independiente en el resultado. La regresión logística es una técnica multivariada comúnmente usada en el desarrollo de scorecards ; este modelo es una generalización del modelo de regresión lineal clási- co para variables dependientes categóricas (dicotómicas o politómicas). Una ventaja radica en la similitud que tiene con la regresión múltiple ya que permite el uso de variables independientes continuas y categóricas (estas últimas por medio de su co- di�cación a variables indicadoras). Asimismo, cuenta con la capacidad de incorporar efectos no lineales y existen contrastes estadísticos directos para probar su robustez. La capacidad predictiva del modelo logístico se valora mediante la comparación entre el grupo de pertenencia observado y el pronosticado por el modelo. El objetivo prin- 57 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO cipal del modelo es clasi�car correctamente a los individuos en cada grupo, clientes buenos o malos de acuerdo con las variables que de�nen las características de los individuos. La regresión logística tiene tres en común con la regresión lineal: Linealidad: cualquier variable explicativa tiene una relación lineal con respecto al cociente de probabilidades. Independencia: los errores no deben de correlacionarse para dos observaciones. Mo multicolinealidad: las variables explicativas no están altamente correlacio- nadas entre sí. 3.1.1. El Modelo de Regresión Logística El objetivo de la regresión logística es discriminar entre dos poblaciones, en el caso del score de crédito, los clientes buenos y los clientes malos. Se de�nen como clientes buenos los que cumplen con sus obligaciones en tiempo y como malos los que no (Nieto, 2010). Sea y la variable de interés, la cual toma valores de 0 y 1, y = 1 representa a los clientes malos mientras que y = 0 a los clientes buenos. La regresión logística discrimina las poblaciones a través de la estimación de la probabilidad de que y sea 0 ó 1, dado xi, donde xi es un vector de variables explicativas categóricas o continuas y representan las características del cliente que se pretende clasi�car. Es decir, P (y = 0|xi) = pi dónde xTi = [xi1, xi2,..., xip], i = 1, 2, ..., n Se de�ne una relación entre pi y un modelo lineal mediante una función monótona y creciente g llamada función liga, g(pi) = β0 + β T 1 xi, (3.1) tal que, βT1 = [β1, β2, ..., βp] 58 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO es el vector de coe�cientes de las variables explicativas del modelo y β0 la ordenada en el origen. La función liga que se aplica, conocida como la transformación logito, es el logaritmo del cociente de las probabilidades pi y (1− pi) g(pi) = logpi 1− pi = β0 + β T 1 xi, (3.2) El modelo en términos de g(pi) se puede escribir como g(pi) = β0 + βT1 xi + ε, con ε, variable aleatoria tal que E(ε) = 0 y V (ε) = σ2.La función de distribución logística dada por la transformación inversa de g se escribe como, pi = eβ0+β T 1 xi 1 + eβ0+β T 1 xi (3.3) la cual cumple 0 ≤ pi ≤ 1. Por lo que, 1− pi = 1 1 + eβ0+β T 1 xi (3.4) A veces, también se utilizan como parámetro exp(β0) y exp(β1), que se denominan como odds o momio, e indican cuanto se modi�can las probabilidades por unidad de cambio en las variables de xi. El momio asociado a un evento es el cociente de la probabilidad de que ocurra entre la probabilidad de que no ocurra. Oi = pi 1− pi (3.5) En el caso particular en el que todas las variables explicativas sean representadas como binarias independientes, a cada variable se le asocia una probabilidad según sea la población a la que pertenecen. Sean P (xi|y = 1) y P (xi|y = 0) las probabilidades de observar los atributos xi dado que un cliente es moroso o no, respectivamente. Bajo el supuesto de que las entradas de xi = (xi1, xi2, ..., xip) son binarias e independientes, se tiene que, 59 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO P (xi|y = 1) = P [(xi1, xi2, ..., xip|y = 1] = p∏ j=1 P (xij|y = 1) = p∏ j=1 p xij 1j (1− p1j)1−xij y por lo tanto P (xi|y = 0) = p∏ j=1 p xij 2j (1− p2j)1−xij (3.6) Suponiendo que las probabilidades a priori son las mismas, es decir P (y = 0) = P (y = 1) además, cosiderando que el modelo es construido sobre la misma cantidad de datos para las dos poblaciones. La probabilidad condicional está dada por, P (y = 1|xi) = P (xi|y = 1)P (y = 1) P (xi) = P (y = 1) P (xi) p∏ j=1 p xij 1j (1− p1j)1−xij y para 1− P (y = 1|xi) = P (y = 0|xi), donde, P (y = 0|xi) = P (xi|y = 0)P (y = 0) P (xi) = P (y = 0) P (xi) p∏ j=1 p xij 2j (1− p2j)1−xij (3.7) Con los resultados obtenidos (3.7), calculamos la distribución logística, 60 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO P (y = 1|xi) 1− P (y = 1|xi) = P (y=1) P (xi) ∏p j=1 p xij 1j (1− p1j)1−xij P (y=0) P (xi) ∏p j=1 p xij 2j (1− p2j)1−xij = p∏ j=1 ( p1j p2j )xij (1− p1j 1− p2j )1−xij La transformación logito, gi(xi) = log P (y = 1|xi) 1− P (y = 1|xi) = p∑ j=1 xijlog ( p1j p2j ) + p∑ j=1 (1− xij)log ( 1− p1j 1− p2j ) = p∑ j=1 [ log ( p1j p2j ) − log ( 1− p1j 1− p2j )] xij + p∑ j=1 log ( 1− p1j 1− p2j ) gi(xi) = p∑ j=1 [ log p1j(1− p2j) p2j(1− p1j) ] xij + p∑ j=1 log ( 1− p1j 1− p2j ) (3.8) Se observa que gi(xi) es una función lineal que coincide con la ecuación (3.1), donde, β0 = p∑ j=1 log ( 1− p1j 1− p2j ) y βT1 = [ log p11(1− p21) p21(1− p11) , ..., log p11(1− p2p) p21(1− p1p) ] para el modelo gi(xi) = β0 + βT1 xi. El parámetro β0 nos da la ordenada al origen, y β1 = (β1, ..., βp) T , es el vector de las pendientes. Por lo que, log pi 1− pi = β0 + β1xi1 + ...+ βpxip (3.9) y βj con j = 0, 1, ..., p, ayudan a analizar la cantidad de cambio del momio de probabilidades y de�ne la razón de momios (RM), 61 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO RM = exp(βj) Dado que el modelo gi(xi) = β0 +βT1 xi es una transformación lineal, podemos utilizar algunas técnicas utilizadas en la regresión lineal, como la regresión backward, forward o introduction. 3.1.2. Estimación de la Regresión Logística por Máxima Ve- rosimilitud Los parámetros del modelo logístico se estiman con el método de máxima verosim- militud. Dado que yi toma valores de 1 con probabilidad pi y 0 con probabilidad 1− pi, esta tendrá como función de distribución una Bernoulli. Es decir, P (yi) = p yi i (1− pi)(1−yi) yi = 0, 1 La función de verosimilitud para una muestra aleatoria con n datos (xi, yi) se calcula como, P (y1, ..., yn) = n∏ i=1 pyii (1− pi)(1−yi) aplicando logaritmos, logP (y) = n∑ i=1 yilog ( pi 1− pi ) + n∑ i=1 log(1− pi) (3.10) La función soporte (de verosimilitud en logaritmos) puede escribirse como, logP (β) = n∑ i=1 (yilogpi + (1− yi)log(1− pi)) (3.11) donde βT = (β0,β1, ..., βp) es un vector de p+1 componentes, incluyendo la constante β0 que determina las probabilidades pi. Para maximizar la verosimilitud, en términos de los parámetros de interés β en la 62 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO ecuación (3.10), obtenemos la función soporte: L(β) = n∑ i=1 yix T i β − n∑ i=1 log(1 + ex T i β) (3.12) Para obtener los estimadores de β de máxima verosimilitud, derivamos L(β) con respecto a cada uno de los parámetros βi con j = 1, 2, ..., p y se iguala a cero: ∂L(β) ∂β0 ∂L(β) ∂β1 ... ∂L(β) ∂βj ... ∂L(β) ∂βp = ∑n i=1 yi(1)∑n i=1 yixi1 ...∑n i=1 yixij ...∑n i=1 yixip − ∑n i=1(1) ( ex T i β 1+ex T i β ) ∑n i=1 xi1 ( ex T i β 1+ex T i β ) ...∑n i=1 xij ( ex T i β 1+ex T i β ) ...∑n i=1 xip ( ex T i β 1+ex T i β ) (3.13) cada una de las derivadas se expresa en un vector columna de la forma, ∂L(β) ∂β0 = n∑ i=1 yixi − n∑ i=1 xi ( ex T i β 1 + ex T i β ) e igualando este vector a cero, se obtiene β̂ el vector de parámetros que satisfacen el sistema de ecuaciones (3.13), n∑ i=1 yixi = n∑ i=1 xi ( ex T i β 1 + ex T i β ) = n∑ i=1 pixi Posteriormente, calculamos pi en términos de esos estimadores y de aquí se obtiene una estimación para yi, tal que ŷi = p̂i, por lo que n∑ i=1 yixij = n∑ i=1 xij ŷi de lo que obtenemos, n∑ i=1 xijei = n∑ i=1 xij(yi − ŷi) = 0 63 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO donde ei representa los residuos del modelo, los cuales deben ser ortogonales en el espacio de observaciones x, similar a la regresión estándar (mínimos cuadrados). El sistema de ecuaciones (3.13) no es lineal en los parámetros β y para obtener los estimadores por Máxima Verosimilitud es común recurrir al método Newton- Raphson. 3.1.3. Pruebas Estadísticas del Modelo Logístico 3.1.3.1. Devianza La devianza1 es un estadístico que ayuda a evaluar la bondad de ajuste del modelo de regresión logística y lo hace comparando la log verosimilitud del modelo ajustado con la del modelo saturado. El modelo saturado es aquel que se ajusta perfectamente a la muestra, es decir, P (Y = 1|X1 = x1i, ..., Xk = xki) = Yi i = 1, ..., n Este modelo asigna la probabilidad de 0 ó 1 a la Y dependiendo del valor real de Yi. La devianza calcula la diferencia entre los logaritmos de las verosimilitudes del modelo ajustado y el modelo saturado, D = −2logL(β̂) + 2logL(βsaturado) Debido a que la verosimilitud del modelo saturado es 1, entonces la devianza es simplemente, D = −2logL(β̂) La devianza toma valores mayores o iguales a cero, valores grandes indican que el modelo ajustado es pobre por lo que se busca valores pequeños, de preferencia cercanos a cero. 3.1.3.2. Estadístico de Wald El estadístico de Wald ayuda a determinar si una variable cuenta con un peso signi- �cativo tal que le permita ser incluida en el modelo. La prueba resulta de contrastar 1https://bookdown.org/egarpor/SSS2-UC3M/logreg-deviance.html. [22] 64 CAPÍTULO 3. USO DE LA REGRESIÓN LOGÍSTICA EN EL DESARROLLO DEL SCORE DE CRÉDITO la hipótesis nula, H0 : βi = 0 y la hipótesis alternativa, H1 : βi 6= 0 con un estadístico de prueba de�nido como wj = β̂i s(β̂i) el cual, bajo el supuesto de que H0 es cierto, siguen la distribución t con n − p − 1 grados de libertad, lo cual para muestras grandes se distribuye como una normal estándar. Cuando wi tiene un valor alejado de 0 se tiene evidencia de que H0 es falsa. Dado un nivel α de�nido, la región crítica de la prueba es de la forma |wi| > tα 2 . En caso de que H0 se acepte, esto implicaría que βi es igual a cero y la variable xi debe de excluirse del modelo. La mayoría de los sofwares estadísticos describen
Compartir