Taller Clasificación

Descripción del problema

En el sistema financiero a nivel mundial y regional han existido y siguen existiendo cambios y patrones a lo largo del tiempo, todos ellos han permitido otorgar un aprendizaje que se puede recopilar y permite, a su vez, mejorar los procesos y procedimientos llevados a cabo en el mismo; por ello, respecto a préstamos y créditos bancarios, se debe tener en cuenta que existen factores que pueden influir en la capacidad de pago de los clientes y hacer que sus escenarios cambien, estos podrían ser; por ejemplo, una disminución de su utilidad bruta, entre otros factores relevantes para el caso.

El riesgo relacionado a la voluntad de pago por parte de los clientes, misma que podría ser modificada voluntaria o involuntariamente; es decir, actuando de manera consciente o cuando existen factores externos que hacen que se modifiquen las prioridades del cliente, haciendo que el pago de sus obligaciones no sea considerado como una prioridad.

Por ello, es importante que las instituciones financieras elaboren estrategias y políticas adecuadas, de modo que puedan ser lo suficientemente solventes y puedan afrontar un una crisis ocacionada por un posible impago la cartera de créditos. Todo esto permitirá afirmar que la institución financiera cuenta con los respaldos monetarios y las inversiones necesarias para poder continuar con su operación haciendo frente a un apalancamiento en la cartera de créditos.

Dentro de estas poloticas, el generar un mayor control y una mayor eficiencia a la hora de clasificar adecuadamente a los nuevos posibles clientes es una de las más importantes, la cual se abordara en el presente trabajo, ya que genera un equilibrio y a su vez es una herramienta eficaz para la administración.

Para medirla política, existen varios indicadores financieros que contribuyen al análisis del riesgo en el que puede incurrir una institución financiera al otorgar préstamos, pues esta podría tener tanto buenos como malos clientes, si la cantidad de clientes morosos es alta, la institución podría verse afectada. Dichos indicadores no se muestran en este trabajo, dado que sale del estudio del curso.

Descripción de los controles

Para realizar el presente análisis es importante realizar una revisión de a literatura previa o bien, de los documentos publicados por instituciones financieras, misma que ya determina cuáles son las variables relevantes para la aprobación o no de un crédito y que, también sirven para estimar y anticipar la posibilidad de impago de los clientes (morosidad - incertidumbre) y, con ello, poder tomar medidas adecuadas frente a los riesgos existentes.

Según los requerimientos para realizar una solicitud de un crédito en un Banco, las variables categóricas para este objeto son: educación, sexo; mientras que las numéricas son: edad, dirección, empleo, ingresos, deudacred, deudangr, deudaotro.

Así mismo, existen otras variables que pueden ser consideradas, dada la experiencia del mercado financiero y a un consenso al que se llega gracias a la revisión de la literatura sobre el tema, estas son:

Género: La literatura sugiere que, en Ecuador, por lo general, existen más mujeres deudoras que hombres.
Nivel de educación: las personas que no tienen ningún nivel de instrucción resultar ser malos clientes en comparación a si estos tuviesen algún nivel de instrucción más alto al nulo; mientras que las personas con niveles de educación superior son buenos clientes, estos últimos presentan mayor probabilidad de ser buenos clientes en comparación con las demás categorías.
Estado Civil: Los solteros resultan ser buenos clientes en comparación con las personas que tienen otro tipo de estado como casados o en unión libre.
Edad: Cuando se trata de la la edad de los clientes que se encuentran entre los 20 y 35 años no existe ninguna diferencia significativa en ser considerados como buenos o malos clientes; sin embargo, existe una mayor cantidad de malos clientes que buenos clientes para todas las otras categorías de edad.
Ingresos: A medida los clientes ganan más de 800 dólares tienen mayor porcentaje de ser buenos clientes en comparación con los que tienen ingresos menores a los 800 dólares.
Antigüedad de los clientes: Las personas que tienen entre 16 y 19 años de antigüedad tienen mayor probabilidad de ser considerados como buenos clientes, seguido por los clientes que tienen entre 13 y 16 años de antigüedad en comparación a las demás categorías, sin embargo, es importante recalcar que los clientes con antigüedad entre 19 y 22 años tienen mayor probabilidad de ser considerados como malos clientes.

En las siguientes secciones se especificarán las variables que se utilizaron para el presente estudio en específico y se podrá comprender los motivos para dicha elección.

Descripción de las Hipótesis sobre la problemática

El objeto de este trabajo es categorizar como “buenos” y “malos” clíentes a 150 casos de clientes nuevos de acuerdo a la información financiera y demográfica de ellos y de 700 casos de clientes anteriores a los que ya se les ha concedido un préstamo.

De estos 150 clientes nuevos, por la dínamica de la base y la literatura estudiada se espera que almenos alrededor del 65% sean catálogados como buenos clientes.

Fuentes de información involucradas

Para abordar la problemática que general para una institución los clientes morosos, se presenta, a continuación, un modelo de clasificación haciendo uso de datos de solicitudes de clientes nuevos y la inforamacion de clientes antiguos, para adquirir préstamos bancarios.

Se construye un modelo de Scoring a partir de la metodología logit, y otro por medio de arboles de decisión. Como variables independientes, se incluyen las variables que recogen características del cliente, tales como edad, educación, ingresos, etc. Además, se dispone de una muestra de clientes los cuales son identificados si han incumplido o no sus pagos, el comportamiento del cliente será inferido individualmente en función de sus características.

La base de datos a utilizar, es una base de datos hipotéticos disponibles en el programa SPSS, dicha base poseeposee un total de 850 datos y presenta información financiaera y demográfica de los clientes (edad, educación, dirección , ingresos , etc.). Se dispone de 700 clientes anteriores ya catalogados, de donde 183 clientes son impagos, y 517 clientes no lo son, los otros 150 casos corresponde a la información de nuevos clientes a los que debemos clasificar.

Hipótesis vs Variables crudas y derivadas

Las distintas variables a emplear se presentan en la siguiente tabla se puede ver las variables con su respectiva etiqueta, de las cuales tres son cualitativas y las demas cuantitativas.

Variable	Etiqueta
edad	Edad en años
educ	Nivel de educación
empleo	Años con la empresa actual
direccion	Años en la dirección actual
ingresos	Ingresos familiares en miles
deudangr	Tasa de deuda sobre ingresos
deudacred	Deuda de la tarjeta de crédito en miles
deudaotro	Otras deudas en miles
impago	Impagos anteriores

La variable impago, es nuestra variable target binaria a la cual se desea probeer de una regla que permita la clasificación entre buen pagador y mal pagador (buen y mal cliente)

Se espera que con la variable edad, mientras más años tenga el cliente mejor pagador sea, pues a priori la edad es sinonímo de responsabilidad. Así mismo se espera que suceda mientras el Nivel de educación sea más alto y los años con la empresa actual sea mayores, pues estos factores implican mayor estabilidad financiera del cliente. Similar comportamiento se espera con las variables direccion e ingresos,

En cambio, con las variables: deudangr, deudacred y deudaotr, se espera que entre mayor valor posean la posibilidad de que sea un mal cliente aumentan, esto dado que representan que el cliente se encuentre sobreendeudado con otras entidades financieras. ## Análisis estadístico descriptivo

En esta sección se realiza un análisis de descriptivo de la base de datos que corresponde a las solicitudes de clientes para adquirir préstamos bancarios. Las variables cualitativas son la educación, sexo e impago, y las variables cuantitativas son:la edad, años de empleo, ingresos,dirección, deudacred, deudangr, deudaotro.

Descripción de la base

Cargamos la base de datos y se categoriza las variables además, se presenta un resumen de las variables demográficas.

Data <- read_excel("~/Desktop/epn/Mineria de datos/2do bimestre/taller clasificacion /MD_Grupo4_Taller_Clasificacion/base.xlsx")
Data <- Data %>% mutate(impago=factor(impago),
                        educ=factor(educ,ordered = T,labels = c(1,2,3,4,5)),
                        sexo = factor(sexo))
dim(Data)

## [1] 850  10

summary(Data)

##       edad       educ        empleo         direccion     
##  Min.   :20.00   1:460   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:29.00   2:235   1st Qu.: 3.000   1st Qu.: 3.000  
##  Median :34.00   3:101   Median : 7.000   Median : 7.000  
##  Mean   :35.03   4: 49   Mean   : 8.566   Mean   : 8.372  
##  3rd Qu.:41.00   5:  5   3rd Qu.:13.000   3rd Qu.:12.000  
##  Max.   :56.00           Max.   :33.000   Max.   :34.000  
##     ingresos        deudaingr       deudacred         deudaotro       
##  Min.   : 13.00   Min.   : 0.10   Min.   : 0.0117   Min.   : 0.04558  
##  1st Qu.: 24.00   1st Qu.: 5.10   1st Qu.: 0.3822   1st Qu.: 1.04594  
##  Median : 35.00   Median : 8.70   Median : 0.8851   Median : 2.00324  
##  Mean   : 46.68   Mean   :10.17   Mean   : 1.5768   Mean   : 3.07879  
##  3rd Qu.: 55.75   3rd Qu.:13.80   3rd Qu.: 1.8984   3rd Qu.: 3.90300  
##  Max.   :446.00   Max.   :41.30   Max.   :20.5613   Max.   :35.19750  
##  sexo     impago   
##  F:352   0   :517  
##  M:498   1   :183  
##          NA's:150  
##                    
##                    
##

Impago;	Freq	% Valid	% Valid Cum.	% Total	% Total Cum.
0	517	73.86	73.86	60.82	60.82
1	183	26.14	100.00	21.53	82.35
<NA>	150			17.65	100.00
Total	850	100.00	100.00	100.00	100.00

Se observa que la base posee un total de 10 variables, 850 observaciones y que la variable de interés correspondiente al impago o pago tiene un total de 150 faltantes que corresponden a solicitudes que no han sido calificadas, 183 registraron impago y 517 clientes realizaron que no son impago es decir realizaron pago del credito. Por otro lado en la vaiable empleo la cual representa los años de empleo se tiene que en promedio los clientes poseen una vida laboral de 8 años, el minimo es cero lo cual quiere decir que no se consideran personas sin empleo y el maximo correponde a un cliente que esta empleado con 33 años. También se puede notar la presencia de ciertos datos atípicos que serán filtrados de la base. Por último se tiene que el número de clientes de sexo masculino es mayor al femenino.

Datos faltantes

Como se menciono se tiene un total de 150 solicitudes que aun no han sido calificadas por lo que no seran tomadas en consideración para el estudio y serán filtradas de la base de datos teniendo así un total de 700 observaciones y obteniendo los siguientes resultados.

Data <- Data %>% dplyr::filter(!(is.na(Data$impago)))
dim(Data)

## [1] 700  10

summary(Data$impago)

##   0   1 
## 517 183

summary(Data$sexo)

##   F   M 
## 287 413

summary(Data$educ)

##   1   2   3   4   5 
## 372 198  87  38   5

Variable	N.Valid	Min	Q1	Median	Mean	Std.Dev	Q3	Max	IQR
deudacred	700.00	0.01	0.37	0.85	1.55	2.12	1.91	20.56	1.53
deudaingr	700.00	0.40	5.00	8.60	10.26	6.83	14.15	41.30	9.12
deudaotro	700.00	0.05	1.04	1.99	3.06	3.29	3.93	27.03	2.88
direccion	700.00	0.00	3.00	7.00	8.28	6.82	12.00	34.00	9.00
edad	700.00	20.00	29.00	34.00	34.86	8.00	40.00	56.00	11.00
empleo	700.00	0.00	3.00	7.00	8.39	6.66	12.00	31.00	9.00
ingresos	700.00	14.00	24.00	34.00	45.60	36.81	55.00	446.00	31.00

Análisis gráfico

En esta sección se realizará una inspección gráfica de las variables demográficas con respecto a la variable de interés que corresponde al pago o impago de crédito en donde se corrobora ciertos resultados obtenidos en la anterior sección.

Variable Sexo

Se puede observar que los clientes de sexo masculino son mayores que las de sexo femenino por consecuencia también hay un mayor grupo de clientes con impago y sin impago que representa una mayor partición dentro de los clientes de sexo masculino aunque también los clientes con impago es levemente mayor que el femenino.

ggplot(Data,aes(x=sexo,fill=impago))+
  geom_bar()+
  labs(y="Apariciones",title="Sexo")

Variable Edad

Se tiene también que los clientes impago es menor que los pagadores.Así pues, clientes con edad entre los 28-38 registran mayor clientes pagadores que el resto de las edades.

ggplot(Data,aes(x=edad,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="Edad")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Variable ingresos

Esta variable resulta interesante, ya que pasar de no ser grande el numero de observaciones a medida que se incrementa el ingreso el numero de clientes impagadores se reduce.

ggplot(Data,aes(x=ingresos,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="Ingresos")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Variable Empleo

El patrón es claro a medida que se incrementa el numero de años de empleo el cliente impagador se reduce a excepción de ciertos atípicos es clave entender que de cierta forma el empleo se traduce en estabilidad laboral por ende los clientes responderán de mejor forma con sus obligaciones de pago.

ggplot(Data,aes(x=empleo,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="Empleo")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

#### Variable Educación

De manera similar a los anteriores gráficos se tiene que a mayor educción los clientes con impago se reduce.

ggplot(Data,aes(x=educ,fill=impago))+
  geom_bar()+
  labs(y="Apariciones",title="Educación")

Variable dirección

El mismo comportamiento a mayor años de estabilidad mejor clientes impagadores, es decir clientes que no han vivido en la misma dirección por mas de un cierto periodo representan mas a los impagadores.

ggplot(Data,aes(x=direccion,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="Dirección")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Variable que capturan información de las deudas

ggplot(Data,aes(x=deudaingr,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="deudaingr")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(Data,aes(x=deudaotro,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="deudaotro")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(Data,aes(x=deudacred,fill=impago))+
  geom_histogram()+
  labs(y="Apariciones",title="deudacred")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se puede descubrir un patrón interesante al igual que el resto de los variables, en estas variables que capturan informacion correspondiente a deudas que tengan los clientes, se tiene que a medida de que la deuda es menor el numero de clientes pagadores es superior a los impagadores, mientras que los clientes que mantienen un mayor porcentaje con respecto a las deudas pertenecen al grupo de los impagadores.

Aplicación y validación:

Análisis previo

Primero realizamos un análisis univariante de las variables más explicativas para el evento de default. Las funciones que se utilizarán para el análisis son la función de valor de información para variables categóricas y el test de Kolmogorov y Smirnov para las variables numéricas.

Función valor de información (VI)

El Valor de información es una medida de entropía muy popular en la construcción de scorecards. Con este estadístico se puede medir el poder de predicción de agrupar los atributos de una variable. Además, es un buen indicador a la hora de seleccionar variables para un modelo de regresión logística binario, como es el caso de un modelo de scoring.\

Generalmente, se establecen los siguientes criterios en cuanto al valor de informción (VI) :

Menor a 0,02: La variable no es predictiva.
Entre 0,02 y 0,1: La variable es débilmente predictiva.
Entre 0,1 y 0,3: La variable es predictiva media.
Más de 0,3: La variable es fuertemente predictiva.

No se tendrán en cuenta para el modelo aquellas variables cuyo VI sea mayor que 0.5 porque significa que la variable es sobre predictiva ni menor a 0.05 pues predice muy débilmente. A continuación presentamos el resultado de este test:

##   Variable         VI
## 1     educ 0.08359147
## 2     sexo 0.02227626

En este caso la variable sexo no es significativa y no se la incluirá en el modelo.

Test de Kolmogorov-Smirnov

Es un test no paramétrico de bondad de ajuste que permite comprobar si dos muestras independientes tienen la misma distribución. El estadístico se calcula como la máxima diferencia absoluta entre las funciones de distribución acumuladas empíricas de ambas muestras, en nuestro caso de los clientes que tienen impago y los que no. Tenemos la siguiente tabla como resultado de aplicar este test sobre las variables numéricas:

##    Variable     KS
## 1 deudaingr 0.3751
## 2    empleo 0.3315
## 3 deudacred 0.2264
## 4 direccion 0.2080
## 5      edad 0.1908
## 6  ingresos 0.1648
## 7 deudaotro 0.1612

Modelos

Modelo Logit

Una vez que se han analizado las variables, serán introducidas en un modelo de regresión logística binaria. La regresión logística binaria estima la variable dependiente en términos de probabilidad utilizando la función logit. La ventaja de este modeleo que permite que las variables independientes sean cuantitativas, discretas o continuas; o categóricas, sin que hay ninguna restricción

La capacidad predictiva se mide mediante la comparación entre el grupo de pertenencia observado y estimado por el modelo, que clasifica a los individuos en función de un punto de corte establecido, que por defecto será 0,5. Es decir, si la probabilidad estimada es mayor a 0,5, el individuo será clasificado como 1, y viceversa. La capacidad predictiva se mide por el porcentaje de individuos que siendo 0 o 1, el modelo los clasifica como tal.

En este caso, la variable dependiente representa el evento de impago, es decir, el modelo de regresión logística pretenderá predecir la probabilidad de default o impago.

Se toma en cuenta los criterios planteados anteriormente, se eliminaran del modelo las variables que no son explicativas hasta obtener un modelo adecuado.

Obtenemos el siguiente modelo:

aux

##                Estimate Std. Error   z value     Pr(>|z|)
## (Intercept) -1.93135443 0.57729885 -3.345502 8.213378e-04
## edad         0.04327299 0.01958323  2.209696 2.712626e-02
## empleo      -0.25729349 0.03343698 -7.694878 1.416293e-14
## direccion   -0.10166646 0.02563413 -3.966058 7.307098e-05
## deudaingr    0.08416912 0.02210796  3.807187 1.405566e-04
## deudacred    0.57250538 0.09923964  5.768918 7.978203e-09

Validación

Veamos la matriz de confusión y la curva ROC.

Matriz de confusión:

Una matriz de confusión es una herramienta que permite la visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está confundiendo dos clases.

Valores

mc1

##      res pago impago
## 0   pago   92     18
## 1 impago   11     19

probabilidad.

mc2

##      res       pago    impago
## 0   pago 0.65714286 0.1285714
## 1 impago 0.07857143 0.1357143

ROC

Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación. Otra interpretación de este gráfico es la representación de la razón o ratio de verdaderos positivos (VPR = Razón de Verdaderos Positivos) frente a la razón o ratio de falsos positivos (FPR = Razón de Falsos Positivos) también según se varía el umbral de discriminación (valor a partir del cual decidimos que un caso es un positivo).

Para nuestro modelo el gráfico de la curva ROC es la siguiente:

plot(ROC)

Arbol de decisión

Otra forma de clasificar es mediante un árbol de decisión, como por ejemplo, un árbol de decisión simple usando las variables: edad, empleo, direccion, deudaingr y deudacred.

plot(arbol, type="simple")

Conclusión de la hipótesis: Se aprueba o se niega

Variable	Tipo de Variable	Detalle	Signo Esperado/ Hipótesis	Conclusión
Impago	Endógena	Binaria
Nivel de Educación	Exógena	Categórica	-	No significativa
Sexo	Exógena	Binaria
Edad	Exógena	Cuantitativa	-	+
Empleo	Exógena	Cuantitativa	-	-
Dirección	Exógena	Cuantitativa	-	-
Ingresos Familiares	Exógena	Cuantitativa	-	No significativa
Tasa de deuda sobre Ingresos	Exógena	Cuantitativa	+	+
Deuda de la tarjeta de creédito	Exógena	Cuantitativa	+	+
Otras deudas	Exógena	Cuantitativa	+	No significativa

A lo largo de los diferentes tests y los nuevos planteamientos de modelos se ha obtenido las sigientes conclusiones. Como se observa en la tabla, las variables que resultaron ser no significativas son: Nivel de Educación, Sexo, Ingresos Familiares y Otras deudas. La hipótesis que se planteó para la variable Edad se rechazó con el modelo, por lo que a mayor edad, mayor probabilidad de impago. Para las variables Empleo, Dirección. Tasa de deuda sobre Ingresos y Deuda de la tarjeta de crédito se han aprobado las hipótesis establecidas.

Gráfico o tabla de datos soporte de la hipótesis

En el siguiente gráfico se puede ver que los clientes pagadores son mayores a los clientes impagos mas específicamente los pagadores representa el 74% de buenos clientes lo que probablemente se podría interpretar que el banco no presentaría problemas en cuanto al riesgo de crédito que a la larga se traduciría que el banco no presentaría problemas de liquidez, ya que debido a los pagos de sus créditos podría cubrir las obligaciones como por ejemplo los plazos fijos.

barplot(table(Data$impago), # datos género
        main="Distribución impago", # título
        col=c("red","blue"), # damos color a las barras
        ylab="Frecuencia") # etiqueta de las ordenadas

Siguiendo los resultados obtenidos al momento de clasificar a los 150 clientes restantes es probable que de acuerdo a sus carteristas demográficas los clientes con mayor nivel de educación, mayor ingreso, mayor estabilidad laboral, menor obligaciones de deudas sean clasificados como buenos pagadores y sean aceptados para recibir el crédito por parte del banco.

Conclusiones de Negocio

El Riesgo de impago es uno de los principales riesgos del sistema financiero, ya que pueden causar problemas de liquidez a las instituciones bancarias. Las estrategias de reducción de riesgo están orientadas a maximizar las utilidades y beneficios incurriendo a un menor riesgo. Actualmente el desarrollo de buenos perfiles crediticios otorga a las instituciones un mayor conocimiento en cuanto a las características a tomar en cuenta de los q¡clientes que planean adquirir un crédito, sea este comercial, hipotecario o de consumo. Dada la base de datos estudiada se observa que un cliente que posea las siguientes características tendrá una menor probabilidad de impago. Las características bajo las que se concluye este estudio son:

Edad: a mayor edad, menor riesgo de impago.
Dirección: A menor cantidad de años de una persona viviendo en una misma dirección, menor riesgo de impago.
Tasa de deuda sobre Ingresos: A menor tasa de deuda sobre Ingresos, menor riesgo de impago.
Deuda de la Tarjeta de Crédito: A menor deuda de la tarjeta de crédito, menor riesgo de impago.

Acciones de Negocio

Dadas las variables anteriormente descritas, las acciones deben estar orientadas a tener una mejor y más completa información de estas para cada cliente.

Edad: Para la atraer personas jóvenes y adultos/jóvenes, se puede hacer uso de la tecnología, proporcionando servicios mediante aplicaciones móviles. Tambíen planes diferenciados orientados a créditos educativos y de consumo.
Dirección: Para esta variable se pueden ofrecer tasas diferenciadas y también evaluar planes para reducir las tasas de interés en los créditos hipotecarios. De esta manera se incentiva a los clientes a adquirir viviendas.
Tasa de deuda sobre los Ingresos: La institución financiera debe analizar los ingresos de los clientes, de tal manera que no sobrepasen su capacidad de pago. Este debe ser un análisis profundo y detallado para establecer el monto al cual es apto cada cliente, con el fin de reducir un riesgo de impago.
Deuda de la Tarjeta de Crédito: El manejo de la tarjeta de crédito revela la capacidad administrativa y financiera de los clientes, un mal manejo de esta, puede revelar información pertinente. Reducir los tiempos de recepción de información de compras y balances es una buena opción para tener informada la institución financiera.