Introducción

El uso de un sistema lógico o de inteligencia artificial para la obtención de puntajes de riesgo crediticio supone un gran reto para las entidades financieras, pues se debe hacer uso de herramientas como la analítica, estadística y manejo de datos para la correcta selección de caracteristicas de los prestamos y un modelamiento que permita clasificar un nuevo credito como viable o riesgoso. Actualmente se encuentran en el mercado modelos de riesgo crediticio que involucran muchas variables para clasificar un prestamo, haciendolos dificiles de aplicar y con un tiempo de respuesta elevado, por lo que es un reto encontrar modelos simples que tengan una buena precision y sean faciles de utilizar.

En el presente trabajo se analizaran datos de prestamos, se seleccionaran variables relevantes con metodos como como el IV (Information Value) y se utilizaran estas caracteristicas para entrenar un modelo probabilistico de regresión logistica con el cual se construira un scoreboard que permitira clasificar una nueva solicitud crediticia como viable o riesgosa.

Datos

Se utilizará información de un dataset suministrado por el profesor Juan David Ospina Arango en la asignatura Tecnicas en Aprendizaje Estadistico para el primer semestre del año 2022. Este conjunto de datos cuenta con 466285 prestamos o creditos recopilados en el periodo 2007 - 2014. Del total de datos, 87.7% tienen un estado positivo, es decir se estan pagando (Current) o que ya han sido pagados en su totalidad (Fully Paid).

Desarrollo y resultados

Selección preliminar de caracteristicas

Para la selección preliminar de características se utilizaron las pruebas de ANOVA en el caso de variables numéricas y Chi-Cuadrado para las variables categóricas. Debido a la gran cantidad de características presentes en el conjunto de datos, se decidieron escoger únicamente veinticinco de ellas. En el caso de variables continuas se decidió elegir las veinte mejores y en el caso de las categóricas las cinco mejores. Las variables seleccionadas se pueden ver en la tabla 1.



TABLA 1
F-Score y valores p de prueba ANOVA y Chi-Cuadrado


Para las características numéricas se realizó un análisis de correlación con la métrica de Pearson y se eliminaron aquellas variables cuya correlación superara el 0.9, eliminando así las características de emp_length, out_prncp_inv, total_pymnt_inv y total_pymnt. Luego de esta eliminación se tienen veintiún características, dieciséis numéricas y cinco categóricas.

Transformación de variables en WoE y selección de final de caracteristicas con IV

Se realiza una transformación de variables a WoE, lo que permite conocer el poder predictivo de una variable independiente con relación a la variable dependiente. Para esto, se clasifican las variables numéricas dentro de cinco intervalos y se mira dentro de cada intervalo la distribución de préstamos al dia y en default. En el caso de las variables categóricas no es necesario hacer un agrupamiento, pues este método permite trabajar con este tipo de variables sin necesidad de crear variables indicadoras. La ecuación utilizada para calcular el WoE se puede observar a la izquierda en la figura 1.



FIGURA 1
Ecuaciónes para la transformación de variables en WoE e IV


Luego, se calculó el IV (Information value) para cada característica, lo que permite seleccionar variables basándose en su importancia para el modelo. La ecuación utilizada para calcular el IV se puede observar a la derecha en la figura 1.

Una vez calculado el IV para cada característica, se seleccionarán aquellas que sean buenas predictoras de la variable objetivo basándonos en la tabla 2.



TABLA 2
Rango de valores para elección de predictoras segun el IV


En nuestro caso se conservarán las características cuyo IV esté entre 0.1 y 0.5 inclusive, esto debido a que más allá de 0.5 se consideran “demasiado buenas para ser verdad” y menores a 0.1 tienen un poder predictivo debil. Las variables seleccionadas por su buen IV y por lo tanto las que mejor sirven para predecir el riesgo crediticio son las siguientes:

  • Grade | IV: 0.3167
  • Sub_grade | IV: 0.3438
  • Int_rate | IV: 0.3547
  • Out_prncp | IV: 0.3088

A modo de ejemplo se presenta la tabla 3, en donde se muestra el IV de la caracteristica grade y la transformación a los valores WoE para todas las posibles categorías que toma esta variable.


IV: 0.316

TABLA 3
Ejemplo de WoE para caracteristica grade

Modelo y metricas

Con las cuatro características seleccionadas por su IV se construyo un modelo de regresión logística que fue probado utilizando validación cruzada con cinco grupos. Este modelo fue entrenado con variables indicadoras construidas a partir de las categorías o intervalos en los que se clasificaron cada una de las cuatro variables de interés. En total se obtuvieron 51 variables indicadoras empleando el método de dummie variables. Las métricas arrojadas por el modelo junto con la curva ROC y el AUC se pueden observar en la figura 2.



FIGURA 2
Metricas de desempeño y curva ROC


El modelo construido presenta un recall bastante elevado, indicando que para situaciones en las que el usuario no cumple con sus obligaciones financieras, es detectado exitosamente como incumplido en el 99.02% de los casos. También, la precisión del modelo nos indica que de todos los préstamos que se clasificaron como incumplidos, el 89.84% de ellos fueron clasificados correctamente. A pesar de que la precisión y el recall son buenos, la curva ROC nos permite evidenciar que el AUC no es el mejor al no estar tan cercano a 1. Sin embargo, para propósitos académicos y de aprendizaje se valida que este modelo es adecuado y se sigue adelante con la construcción del scoreboard.

ScoreBoard

Utilizando los coeficientes de la regresión logistica, el numero de caracteristicas que fueron escogidas con el IV y los valores WoE, se construye un puntaje crediticio cuyo valor decisor es el 600, es decir, en todos aquellos prestamos en los que el score crediticio sea igual o sobrepase los 600 puntos, se espera con gran precisión que el usuario no incumpla con sus obligaciones crediticias. Por otro lado, si el credito o prestamo se situa por debajo de 600, entonces no se podra otorgar el credito puesto que el usuario incumplira sus obligaciones. La ecuación utilizada para calcular el score crediticio se puede ver en la figura 3.



FIGURA 3
Score crediticio por caracteristica


En la tabla 4 se puede ver una parte del scoreboard generado. En esta tabla se alcanzan a observar los puntajes de riesgo crediticio para 2 de las 4 caracteristicas seleccionadas utilizando el valor IV.



TABLA 4
ScoreBoard


Así, si por ejemplo un usuario solicita un crédito de grado B con subgrado B2, el puntaje parcial seria de 146 + 144. A este valor se le debe sumar el obtenido en las otras dos características que son out_prncp e int_rate. Si la suma de estos puntajes sobrepasa los 600 entonces el usuario no incumplirá, de lo contrario, lo hara.

Conclusiones y recomendaciones

  • El modelo desarrollado arroja unas buenas metricas y puede servir para identificar de manera correcta si un usuario va a incumplir o no con sus obligaciones crediticias. Sin embargo, el proceso de desarrollo de estos modelos es mas complejo que el que aqui se muestra; suelen incluir variables mas relevantes con un peso determinado y siguen el estandar de score FICO, lo que hace que sean mas acertados en su aprobación o denegación de creditos.

  • La categorización de variables con el metodo de WoE y el posterior estudio de su relevancia en la predicción de la variable objetivo con el information value (IV), permiten simplificar procesos de creación de variables indicadoras, tratamiento de datos atipicos o tratamiento de datos faltantes, por lo que su uso es muy positivo y recomendado para cualquier tipo de modelo estadistico. “Simple, yet powerful techniques to perform variable transformation and selection. These concepts have huge connection with the logistic regression modeling technique” (Sundar Krishnan, Medium, 2018)

  • Construir un sistema de riesgo crediticio basado en un puntaje es una tarea ardua pero bastante útil, en donde se benefician tanto los usuarios como las corporaciones que los utilizan. Debido a que estos modelos agrupan clientes, productos o compañias en condiciones similares, permiten resumir grandes cantidades de datos, facilitando su modelamiento y ganando conocimiento de los creditos otorgados. (Yury Wallet, Medium, 2020)

Bibliografía