El uso de un sistema lógico o de inteligencia artificial para la obtención de puntajes de riesgo crediticio supone un gran reto para las entidades financieras, pues se debe hacer uso de herramientas como la analítica, estadística y manejo de datos para la correcta selección de caracteristicas de los prestamos y un modelamiento que permita clasificar un nuevo credito como viable o riesgoso. Actualmente se encuentran en el mercado modelos de riesgo crediticio que involucran muchas variables para clasificar un prestamo, haciendolos dificiles de aplicar y con un tiempo de respuesta elevado, por lo que es un reto encontrar modelos simples que tengan una buena precision y sean faciles de utilizar.
En el presente trabajo se analizaran datos de prestamos, se seleccionaran variables relevantes con metodos como como el IV (Information Value) y se utilizaran estas caracteristicas para entrenar un modelo probabilistico de regresión logistica con el cual se construira un scoreboard que permitira clasificar una nueva solicitud crediticia como viable o riesgosa.
Se utilizará información de un dataset suministrado por el profesor Juan David Ospina Arango en la asignatura Tecnicas en Aprendizaje Estadistico para el primer semestre del año 2022. Este conjunto de datos cuenta con 466285 prestamos o creditos recopilados en el periodo 2007 - 2014. Del total de datos, 87.7% tienen un estado positivo, es decir se estan pagando (Current) o que ya han sido pagados en su totalidad (Fully Paid).
TABLA 1
F-Score y valores p de prueba ANOVA y Chi-Cuadrado
Para las características numéricas se realizó un análisis de correlación con la métrica de Pearson y se eliminaron aquellas variables cuya correlación superara el 0.9, eliminando así las características de emp_length, out_prncp_inv, total_pymnt_inv y total_pymnt. Luego de esta eliminación se tienen veintiún características, dieciséis numéricas y cinco categóricas.
Se realiza una transformación de variables a WoE, lo que permite conocer el poder predictivo de una variable independiente con relación a la variable dependiente. Para esto, se clasifican las variables numéricas dentro de cinco intervalos y se mira dentro de cada intervalo la distribución de préstamos al dia y en default. En el caso de las variables categóricas no es necesario hacer un agrupamiento, pues este método permite trabajar con este tipo de variables sin necesidad de crear variables indicadoras. La ecuación utilizada para calcular el WoE se puede observar a la izquierda en la figura 1.
FIGURA 1
Ecuaciónes para la transformación de variables en WoE e IV
TABLA 2
Rango de valores para elección de predictoras segun el IV
En nuestro caso se conservarán las características cuyo IV esté entre 0.1 y 0.5 inclusive, esto debido a que más allá de 0.5 se consideran “demasiado buenas para ser verdad” y menores a 0.1 tienen un poder predictivo debil. Las variables seleccionadas por su buen IV y por lo tanto las que mejor sirven para predecir el riesgo crediticio son las siguientes:
IV: 0.316
TABLA 3
Ejemplo de WoE para caracteristica grade
FIGURA 2
Metricas de desempeño y curva ROC
El modelo construido presenta un recall bastante elevado, indicando que para situaciones en las que el usuario no cumple con sus obligaciones financieras, es detectado exitosamente como incumplido en el 99.02% de los casos. También, la precisión del modelo nos indica que de todos los préstamos que se clasificaron como incumplidos, el 89.84% de ellos fueron clasificados correctamente. A pesar de que la precisión y el recall son buenos, la curva ROC nos permite evidenciar que el AUC no es el mejor al no estar tan cercano a 1. Sin embargo, para propósitos académicos y de aprendizaje se valida que este modelo es adecuado y se sigue adelante con la construcción del scoreboard.
FIGURA 3
Score crediticio por caracteristica
TABLA 4
ScoreBoard
Así, si por ejemplo un usuario solicita un crédito de grado B con subgrado B2, el puntaje parcial seria de 146 + 144. A este valor se le debe sumar el obtenido en las otras dos características que son out_prncp e int_rate. Si la suma de estos puntajes sobrepasa los 600 entonces el usuario no incumplirá, de lo contrario, lo hara.
El modelo desarrollado arroja unas buenas metricas y puede servir para identificar de manera correcta si un usuario va a incumplir o no con sus obligaciones crediticias. Sin embargo, el proceso de desarrollo de estos modelos es mas complejo que el que aqui se muestra; suelen incluir variables mas relevantes con un peso determinado y siguen el estandar de score FICO, lo que hace que sean mas acertados en su aprobación o denegación de creditos.
La categorización de variables con el metodo de WoE y el posterior estudio de su relevancia en la predicción de la variable objetivo con el information value (IV), permiten simplificar procesos de creación de variables indicadoras, tratamiento de datos atipicos o tratamiento de datos faltantes, por lo que su uso es muy positivo y recomendado para cualquier tipo de modelo estadistico. “Simple, yet powerful techniques to perform variable transformation and selection. These concepts have huge connection with the logistic regression modeling technique” (Sundar Krishnan, Medium, 2018)
Construir un sistema de riesgo crediticio basado en un puntaje es una tarea ardua pero bastante útil, en donde se benefician tanto los usuarios como las corporaciones que los utilizan. Debido a que estos modelos agrupan clientes, productos o compañias en condiciones similares, permiten resumir grandes cantidades de datos, facilitando su modelamiento y ganando conocimiento de los creditos otorgados. (Yury Wallet, Medium, 2020)