En el sistema financiero a nivel mundial y regional han existido y siguen existiendo cambios y patrones a lo largo del tiempo, todos ellos han permitido otorgar un aprendizaje que se puede recopilar y permite, a su vez, mejorar los procesos y procedimientos llevados a cabo en el mismo; por ello, respecto a préstamos y créditos bancarios, se debe tener en cuenta que existen factores que pueden influir en la capacidad de pago de los clientes y hacer que sus escenarios cambien, estos podrían ser; por ejemplo, una disminución de su utilidad bruta, entre otros factores relevantes para el caso.
El riesgo relacionado a la voluntad de pago por parte de los clientes, misma que podría ser modificada voluntaria o involuntariamente; es decir, actuando de manera consciente o cuando existen factores externos que hacen que se modifiquen las prioridades del cliente, haciendo que el pago de sus obligaciones no sea considerado como una prioridad.
Por ello, es importante que las instituciones financieras elaboren estrategias y políticas adecuadas, de modo que puedan ser lo suficientemente solventes y puedan afrontar un una crisis ocacionada por un posible impago la cartera de créditos. Todo esto permitirá afirmar que la institución financiera cuenta con los respaldos monetarios y las inversiones necesarias para poder continuar con su operación haciendo frente a un apalancamiento en la cartera de créditos.
Dentro de estas poloticas, el generar un mayor control y una mayor eficiencia a la hora de clasificar adecuadamente a los nuevos posibles clientes es una de las más importantes, la cual se abordara en el presente trabajo, ya que genera un equilibrio y a su vez es una herramienta eficaz para la administración.
Para medirla política, existen varios indicadores financieros que contribuyen al análisis del riesgo en el que puede incurrir una institución financiera al otorgar préstamos, pues esta podría tener tanto buenos como malos clientes, si la cantidad de clientes morosos es alta, la institución podría verse afectada. Dichos indicadores no se muestran en este trabajo, dado que sale del estudio del curso.
Para realizar el presente análisis es importante realizar una revisión de a literatura previa o bien, de los documentos publicados por instituciones financieras, misma que ya determina cuáles son las variables relevantes para la aprobación o no de un crédito y que, también sirven para estimar y anticipar la posibilidad de impago de los clientes (morosidad - incertidumbre) y, con ello, poder tomar medidas adecuadas frente a los riesgos existentes.
Según los requerimientos para realizar una solicitud de un crédito en un Banco, las variables categóricas para este objeto son: educación, sexo; mientras que las numéricas son: edad, dirección, empleo, ingresos, deudacred, deudangr, deudaotro.
Así mismo, existen otras variables que pueden ser consideradas, dada la experiencia del mercado financiero y a un consenso al que se llega gracias a la revisión de la literatura sobre el tema, estas son:
Género: La literatura sugiere que, en Ecuador, por lo general, existen más mujeres deudoras que hombres.
Nivel de educación: las personas que no tienen ningún nivel de instrucción resultar ser malos clientes en comparación a si estos tuviesen algún nivel de instrucción más alto al nulo; mientras que las personas con niveles de educación superior son buenos clientes, estos últimos presentan mayor probabilidad de ser buenos clientes en comparación con las demás categorías.
Estado Civil: Los solteros resultan ser buenos clientes en comparación con las personas que tienen otro tipo de estado como casados o en unión libre.
Edad: Cuando se trata de la la edad de los clientes que se encuentran entre los 20 y 35 años no existe ninguna diferencia significativa en ser considerados como buenos o malos clientes; sin embargo, existe una mayor cantidad de malos clientes que buenos clientes para todas las otras categorías de edad.
Ingresos: A medida los clientes ganan más de 800 dólares tienen mayor porcentaje de ser buenos clientes en comparación con los que tienen ingresos menores a los 800 dólares.
Antigüedad de los clientes: Las personas que tienen entre 16 y 19 años de antigüedad tienen mayor probabilidad de ser considerados como buenos clientes, seguido por los clientes que tienen entre 13 y 16 años de antigüedad en comparación a las demás categorías, sin embargo, es importante recalcar que los clientes con antigüedad entre 19 y 22 años tienen mayor probabilidad de ser considerados como malos clientes.
En las siguientes secciones se especificarán las variables que se utilizaron para el presente estudio en específico y se podrá comprender los motivos para dicha elección.
El objeto de este trabajo es categorizar como “buenos” y “malos” clíentes a 150 casos de clientes nuevos de acuerdo a la información financiera y demográfica de ellos y de 700 casos de clientes anteriores a los que ya se les ha concedido un préstamo.
De estos 150 clientes nuevos, por la dínamica de la base y la literatura estudiada se espera que almenos alrededor del 65% sean catálogados como buenos clientes.
Para abordar la problemática que general para una institución los clientes morosos, se presenta, a continuación, un modelo de clasificación haciendo uso de datos de solicitudes de clientes nuevos y la inforamacion de clientes antiguos, para adquirir préstamos bancarios.
Se construye un modelo de Scoring a partir de la metodología logit, y otro por medio de arboles de decisión. Como variables independientes, se incluyen las variables que recogen características del cliente, tales como edad, educación, ingresos, etc. Además, se dispone de una muestra de clientes los cuales son identificados si han incumplido o no sus pagos, el comportamiento del cliente será inferido individualmente en función de sus características.
La base de datos a utilizar, es una base de datos hipotéticos disponibles en el programa SPSS, dicha base poseeposee un total de 850 datos y presenta información financiaera y demográfica de los clientes (edad, educación, dirección , ingresos , etc.). Se dispone de 700 clientes anteriores ya catalogados, de donde 183 clientes son impagos, y 517 clientes no lo son, los otros 150 casos corresponde a la información de nuevos clientes a los que debemos clasificar.
Las distintas variables a emplear se presentan en la siguiente tabla se puede ver las variables con su respectiva etiqueta, de las cuales tres son cualitativas y las demas cuantitativas.
| Variable | Etiqueta |
|---|---|
| edad | Edad en años |
| educ | Nivel de educación |
| empleo | Años con la empresa actual |
| direccion | Años en la dirección actual |
| ingresos | Ingresos familiares en miles |
| deudangr | Tasa de deuda sobre ingresos |
| deudacred | Deuda de la tarjeta de crédito en miles |
| deudaotro | Otras deudas en miles |
| impago | Impagos anteriores |
La variable impago, es nuestra variable target binaria a la cual se desea probeer de una regla que permita la clasificación entre buen pagador y mal pagador (buen y mal cliente)
Se espera que con la variable edad, mientras más años tenga el cliente mejor pagador sea, pues a priori la edad es sinonímo de responsabilidad. Así mismo se espera que suceda mientras el Nivel de educación sea más alto y los años con la empresa actual sea mayores, pues estos factores implican mayor estabilidad financiera del cliente. Similar comportamiento se espera con las variables direccion e ingresos,
En cambio, con las variables: deudangr, deudacred y deudaotr, se espera que entre mayor valor posean la posibilidad de que sea un mal cliente aumentan, esto dado que representan que el cliente se encuentre sobreendeudado con otras entidades financieras. ## Análisis estadístico descriptivo
En esta sección se realiza un análisis de descriptivo de la base de datos que corresponde a las solicitudes de clientes para adquirir préstamos bancarios. Las variables cualitativas son la educación, sexo e impago, y las variables cuantitativas son:la edad, años de empleo, ingresos,dirección, deudacred, deudangr, deudaotro.
Cargamos la base de datos y se categoriza las variables además, se presenta un resumen de las variables demográficas.
Data <- read_excel("~/Desktop/epn/Mineria de datos/2do bimestre/taller clasificacion /MD_Grupo4_Taller_Clasificacion/base.xlsx")
Data <- Data %>% mutate(impago=factor(impago),
educ=factor(educ,ordered = T,labels = c(1,2,3,4,5)),
sexo = factor(sexo))
dim(Data)
## [1] 850 10
summary(Data)
## edad educ empleo direccion
## Min. :20.00 1:460 Min. : 0.000 Min. : 0.000
## 1st Qu.:29.00 2:235 1st Qu.: 3.000 1st Qu.: 3.000
## Median :34.00 3:101 Median : 7.000 Median : 7.000
## Mean :35.03 4: 49 Mean : 8.566 Mean : 8.372
## 3rd Qu.:41.00 5: 5 3rd Qu.:13.000 3rd Qu.:12.000
## Max. :56.00 Max. :33.000 Max. :34.000
## ingresos deudaingr deudacred deudaotro
## Min. : 13.00 Min. : 0.10 Min. : 0.0117 Min. : 0.04558
## 1st Qu.: 24.00 1st Qu.: 5.10 1st Qu.: 0.3822 1st Qu.: 1.04594
## Median : 35.00 Median : 8.70 Median : 0.8851 Median : 2.00324
## Mean : 46.68 Mean :10.17 Mean : 1.5768 Mean : 3.07879
## 3rd Qu.: 55.75 3rd Qu.:13.80 3rd Qu.: 1.8984 3rd Qu.: 3.90300
## Max. :446.00 Max. :41.30 Max. :20.5613 Max. :35.19750
## sexo impago
## F:352 0 :517
## M:498 1 :183
## NA's:150
##
##
##
| Impago; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
|---|---|---|---|---|---|
| 0 | 517 | 73.86 | 73.86 | 60.82 | 60.82 |
| 1 | 183 | 26.14 | 100.00 | 21.53 | 82.35 |
| <NA> | 150 | 17.65 | 100.00 | ||
| Total | 850 | 100.00 | 100.00 | 100.00 | 100.00 |
Se observa que la base posee un total de 10 variables, 850 observaciones y que la variable de interés correspondiente al impago o pago tiene un total de 150 faltantes que corresponden a solicitudes que no han sido calificadas, 183 registraron impago y 517 clientes realizaron que no son impago es decir realizaron pago del credito. Por otro lado en la vaiable empleo la cual representa los años de empleo se tiene que en promedio los clientes poseen una vida laboral de 8 años, el minimo es cero lo cual quiere decir que no se consideran personas sin empleo y el maximo correponde a un cliente que esta empleado con 33 años. También se puede notar la presencia de ciertos datos atípicos que serán filtrados de la base. Por último se tiene que el número de clientes de sexo masculino es mayor al femenino.
Como se menciono se tiene un total de 150 solicitudes que aun no han sido calificadas por lo que no seran tomadas en consideración para el estudio y serán filtradas de la base de datos teniendo así un total de 700 observaciones y obteniendo los siguientes resultados.
Data <- Data %>% dplyr::filter(!(is.na(Data$impago)))
dim(Data)
## [1] 700 10
summary(Data$impago)
## 0 1
## 517 183
summary(Data$sexo)
## F M
## 287 413
summary(Data$educ)
## 1 2 3 4 5
## 372 198 87 38 5
| Variable | N.Valid | Min | Q1 | Median | Mean | Std.Dev | Q3 | Max | IQR |
|---|---|---|---|---|---|---|---|---|---|
| deudacred | 700.00 | 0.01 | 0.37 | 0.85 | 1.55 | 2.12 | 1.91 | 20.56 | 1.53 |
| deudaingr | 700.00 | 0.40 | 5.00 | 8.60 | 10.26 | 6.83 | 14.15 | 41.30 | 9.12 |
| deudaotro | 700.00 | 0.05 | 1.04 | 1.99 | 3.06 | 3.29 | 3.93 | 27.03 | 2.88 |
| direccion | 700.00 | 0.00 | 3.00 | 7.00 | 8.28 | 6.82 | 12.00 | 34.00 | 9.00 |
| edad | 700.00 | 20.00 | 29.00 | 34.00 | 34.86 | 8.00 | 40.00 | 56.00 | 11.00 |
| empleo | 700.00 | 0.00 | 3.00 | 7.00 | 8.39 | 6.66 | 12.00 | 31.00 | 9.00 |
| ingresos | 700.00 | 14.00 | 24.00 | 34.00 | 45.60 | 36.81 | 55.00 | 446.00 | 31.00 |
En esta sección se realizará una inspección gráfica de las variables demográficas con respecto a la variable de interés que corresponde al pago o impago de crédito en donde se corrobora ciertos resultados obtenidos en la anterior sección.
Se puede observar que los clientes de sexo masculino son mayores que las de sexo femenino por consecuencia también hay un mayor grupo de clientes con impago y sin impago que representa una mayor partición dentro de los clientes de sexo masculino aunque también los clientes con impago es levemente mayor que el femenino.
ggplot(Data,aes(x=sexo,fill=impago))+
geom_bar()+
labs(y="Apariciones",title="Sexo")
Se tiene también que los clientes impago es menor que los pagadores.Así pues, clientes con edad entre los 28-38 registran mayor clientes pagadores que el resto de las edades.
ggplot(Data,aes(x=edad,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="Edad")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Esta variable resulta interesante, ya que pasar de no ser grande el numero de observaciones a medida que se incrementa el ingreso el numero de clientes impagadores se reduce.
ggplot(Data,aes(x=ingresos,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="Ingresos")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
El patrón es claro a medida que se incrementa el numero de años de empleo el cliente impagador se reduce a excepción de ciertos atípicos es clave entender que de cierta forma el empleo se traduce en estabilidad laboral por ende los clientes responderán de mejor forma con sus obligaciones de pago.
ggplot(Data,aes(x=empleo,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="Empleo")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#### Variable Educación
De manera similar a los anteriores gráficos se tiene que a mayor educción los clientes con impago se reduce.
ggplot(Data,aes(x=educ,fill=impago))+
geom_bar()+
labs(y="Apariciones",title="Educación")
El mismo comportamiento a mayor años de estabilidad mejor clientes impagadores, es decir clientes que no han vivido en la misma dirección por mas de un cierto periodo representan mas a los impagadores.
ggplot(Data,aes(x=direccion,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="Dirección")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(Data,aes(x=deudaingr,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="deudaingr")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(Data,aes(x=deudaotro,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="deudaotro")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(Data,aes(x=deudacred,fill=impago))+
geom_histogram()+
labs(y="Apariciones",title="deudacred")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se puede descubrir un patrón interesante al igual que el resto de los variables, en estas variables que capturan informacion correspondiente a deudas que tengan los clientes, se tiene que a medida de que la deuda es menor el numero de clientes pagadores es superior a los impagadores, mientras que los clientes que mantienen un mayor porcentaje con respecto a las deudas pertenecen al grupo de los impagadores.
Primero realizamos un análisis univariante de las variables más explicativas para el evento de default. Las funciones que se utilizarán para el análisis son la función de valor de información para variables categóricas y el test de Kolmogorov y Smirnov para las variables numéricas.
El Valor de información es una medida de entropía muy popular en la construcción de scorecards. Con este estadístico se puede medir el poder de predicción de agrupar los atributos de una variable. Además, es un buen indicador a la hora de seleccionar variables para un modelo de regresión logística binario, como es el caso de un modelo de scoring.\
Generalmente, se establecen los siguientes criterios en cuanto al valor de informción (VI) :
Menor a 0,02: La variable no es predictiva.
Entre 0,02 y 0,1: La variable es débilmente predictiva.
Entre 0,1 y 0,3: La variable es predictiva media.
Más de 0,3: La variable es fuertemente predictiva.
No se tendrán en cuenta para el modelo aquellas variables cuyo VI sea mayor que 0.5 porque significa que la variable es sobre predictiva ni menor a 0.05 pues predice muy débilmente. A continuación presentamos el resultado de este test:
## Variable VI
## 1 educ 0.08359147
## 2 sexo 0.02227626
En este caso la variable sexo no es significativa y no se la incluirá en el modelo.
Es un test no paramétrico de bondad de ajuste que permite comprobar si dos muestras independientes tienen la misma distribución. El estadístico se calcula como la máxima diferencia absoluta entre las funciones de distribución acumuladas empíricas de ambas muestras, en nuestro caso de los clientes que tienen impago y los que no. Tenemos la siguiente tabla como resultado de aplicar este test sobre las variables numéricas:
## Variable KS
## 1 deudaingr 0.3751
## 2 empleo 0.3315
## 3 deudacred 0.2264
## 4 direccion 0.2080
## 5 edad 0.1908
## 6 ingresos 0.1648
## 7 deudaotro 0.1612
Una vez que se han analizado las variables, serán introducidas en un modelo de regresión logística binaria. La regresión logística binaria estima la variable dependiente en términos de probabilidad utilizando la función logit. La ventaja de este modeleo que permite que las variables independientes sean cuantitativas, discretas o continuas; o categóricas, sin que hay ninguna restricción
La capacidad predictiva se mide mediante la comparación entre el grupo de pertenencia observado y estimado por el modelo, que clasifica a los individuos en función de un punto de corte establecido, que por defecto será 0,5. Es decir, si la probabilidad estimada es mayor a 0,5, el individuo será clasificado como 1, y viceversa. La capacidad predictiva se mide por el porcentaje de individuos que siendo 0 o 1, el modelo los clasifica como tal.
En este caso, la variable dependiente representa el evento de impago, es decir, el modelo de regresión logística pretenderá predecir la probabilidad de default o impago.
Se toma en cuenta los criterios planteados anteriormente, se eliminaran del modelo las variables que no son explicativas hasta obtener un modelo adecuado.
Obtenemos el siguiente modelo:
.
aux
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.93135443 0.57729885 -3.345502 8.213378e-04
## edad 0.04327299 0.01958323 2.209696 2.712626e-02
## empleo -0.25729349 0.03343698 -7.694878 1.416293e-14
## direccion -0.10166646 0.02563413 -3.966058 7.307098e-05
## deudaingr 0.08416912 0.02210796 3.807187 1.405566e-04
## deudacred 0.57250538 0.09923964 5.768918 7.978203e-09
Veamos la matriz de confusión y la curva ROC.
Una matriz de confusión es una herramienta que permite la visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está confundiendo dos clases.
Valores
mc1
## res pago impago
## 0 pago 92 18
## 1 impago 11 19
probabilidad.
mc2
## res pago impago
## 0 pago 0.65714286 0.1285714
## 1 impago 0.07857143 0.1357143
Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación. Otra interpretación de este gráfico es la representación de la razón o ratio de verdaderos positivos (VPR = Razón de Verdaderos Positivos) frente a la razón o ratio de falsos positivos (FPR = Razón de Falsos Positivos) también según se varía el umbral de discriminación (valor a partir del cual decidimos que un caso es un positivo).
Para nuestro modelo el gráfico de la curva ROC es la siguiente:
plot(ROC)
Otra forma de clasificar es mediante un árbol de decisión, como por ejemplo, un árbol de decisión simple usando las variables: edad, empleo, direccion, deudaingr y deudacred.
plot(arbol, type="simple")
| Variable | Tipo de Variable | Detalle | Signo Esperado/ Hipótesis | Conclusión |
|---|---|---|---|---|
| Impago | Endógena | Binaria | ||
| Nivel de Educación | Exógena | Categórica | - | No significativa |
| Sexo | Exógena | Binaria | ||
| Edad | Exógena | Cuantitativa | - | + |
| Empleo | Exógena | Cuantitativa | - | - |
| Dirección | Exógena | Cuantitativa | - | - |
| Ingresos Familiares | Exógena | Cuantitativa | - | No significativa |
| Tasa de deuda sobre Ingresos | Exógena | Cuantitativa | + | + |
| Deuda de la tarjeta de creédito | Exógena | Cuantitativa | + | + |
| Otras deudas | Exógena | Cuantitativa | + | No significativa |
A lo largo de los diferentes tests y los nuevos planteamientos de modelos se ha obtenido las sigientes conclusiones. Como se observa en la tabla, las variables que resultaron ser no significativas son: Nivel de Educación, Sexo, Ingresos Familiares y Otras deudas. La hipótesis que se planteó para la variable Edad se rechazó con el modelo, por lo que a mayor edad, mayor probabilidad de impago. Para las variables Empleo, Dirección. Tasa de deuda sobre Ingresos y Deuda de la tarjeta de crédito se han aprobado las hipótesis establecidas.
En el siguiente gráfico se puede ver que los clientes pagadores son mayores a los clientes impagos mas específicamente los pagadores representa el 74% de buenos clientes lo que probablemente se podría interpretar que el banco no presentaría problemas en cuanto al riesgo de crédito que a la larga se traduciría que el banco no presentaría problemas de liquidez, ya que debido a los pagos de sus créditos podría cubrir las obligaciones como por ejemplo los plazos fijos.
barplot(table(Data$impago), # datos género
main="Distribución impago", # título
col=c("red","blue"), # damos color a las barras
ylab="Frecuencia") # etiqueta de las ordenadas
Siguiendo los resultados obtenidos al momento de clasificar a los 150 clientes restantes es probable que de acuerdo a sus carteristas demográficas los clientes con mayor nivel de educación, mayor ingreso, mayor estabilidad laboral, menor obligaciones de deudas sean clasificados como buenos pagadores y sean aceptados para recibir el crédito por parte del banco.
El Riesgo de impago es uno de los principales riesgos del sistema financiero, ya que pueden causar problemas de liquidez a las instituciones bancarias. Las estrategias de reducción de riesgo están orientadas a maximizar las utilidades y beneficios incurriendo a un menor riesgo. Actualmente el desarrollo de buenos perfiles crediticios otorga a las instituciones un mayor conocimiento en cuanto a las características a tomar en cuenta de los q¡clientes que planean adquirir un crédito, sea este comercial, hipotecario o de consumo. Dada la base de datos estudiada se observa que un cliente que posea las siguientes características tendrá una menor probabilidad de impago. Las características bajo las que se concluye este estudio son:
Dadas las variables anteriormente descritas, las acciones deben estar orientadas a tener una mejor y más completa información de estas para cada cliente.
Edad: Para la atraer personas jóvenes y adultos/jóvenes, se puede hacer uso de la tecnología, proporcionando servicios mediante aplicaciones móviles. Tambíen planes diferenciados orientados a créditos educativos y de consumo.
Dirección: Para esta variable se pueden ofrecer tasas diferenciadas y también evaluar planes para reducir las tasas de interés en los créditos hipotecarios. De esta manera se incentiva a los clientes a adquirir viviendas.
Tasa de deuda sobre los Ingresos: La institución financiera debe analizar los ingresos de los clientes, de tal manera que no sobrepasen su capacidad de pago. Este debe ser un análisis profundo y detallado para establecer el monto al cual es apto cada cliente, con el fin de reducir un riesgo de impago.
Deuda de la Tarjeta de Crédito: El manejo de la tarjeta de crédito revela la capacidad administrativa y financiera de los clientes, un mal manejo de esta, puede revelar información pertinente. Reducir los tiempos de recepción de información de compras y balances es una buena opción para tener informada la institución financiera.