FACULTAD DE CIENCIAS

Modelos de Supervivencia y Series de Tiempo

Séptimo Semestre (2020-1)

PROYECTO 1
Integrantes del equipo:
Descripción del Proyecto.

El cliente de este proyecto es un banco qué busca entender la transición de sus clientes hacia un estado de alto riesgo de crédito.

Como parte de su estrategia de mitigación de riesgos el banco evalua a potenciales clientes mediante un sistema de clasificación que le permite seleccionar a aquellas personas con mejor perspectiva de riesgo crediticio, sin embargo en una revisión de su cartera de clientes notó una mayor proporción de ellos en estado de “alto riesgo crediticio”. Alarmado por la situación, y aconsejado por la consultora de la que usted forma parte, el banco hizo un seguimiento a una muestra representativa de sus clientes con la finalidad de entender mejor este fenómeno.

El banco le ha compartido los datos del seguimiento, cuya descripción encuentra en el archivo “vars_description.txt” el cual cargamos a continuación para su uso.

Se tiene una muestra de 1000 clientes, teniendo en cuenta que nuestro principal objetivo es determinar las variables que influyen para que un cliente represente un riesgo para el banco. Para asi poder recomendar al banco medidas que puede implementar para que sus clientes permanezcan mayor tiempo en un buen estado de riesgo crediticio. Es decir, primero debemos clasificar que tipo de clientes que tiene el banco, es decir, son clientes solventes que tienen la posibilidad de responder a sus deudas o el banco tiene clientes que no podrían pagar el credito otorgado.

library(readr)
  credit_g_csv <- read_csv("credit-g_csv.csv")
  bd<- credit_g_csv
Flujo de trabajo.

El trabajo a realizar e verá fragmentado en tres etapas importantes, en dónde la primer etapa consistirá en hacer una revisión exhaustiva de las variables presentadas en la base de datos para así con un previo análisis descriptivo de éstas podamos seleccionar cuáles son las variables de mayor importancia para nuestro estudio, de forma que, al seleccionar las variables que pueden tener mayor relación con el riesgo de crédito de los clientes, podamos sugerir un mejor análisis de perfil de los clientes para decidir otorgar el crédito o no.

En segunda instancia, ya con nuestras variables seleccionadas procederemos a hacer análisis de las curvas de supervivencia, para realizar ésto nos ayudaremos de una funciòn que nos ayude a determinar si a una curva de supervivencia estimada con KM le subyace algún modelo paramétrico creando gráficos de diagnóstico, ademàs , también realizaremos comparaciones de distancias entre curvas de supervivencia para subgrupos o estratos, tomando en cuenta que tenemos datos que pueden estar censurados o truncados , por ésta razón mostraremos como se comportan nuestros datos de supervivencia.

Finalmente, con los resultados expuestos, podremos dar una conclusión basada en nuestro previo análisis en el cuál podremos hacer una recomendación a nuestro “cliente”.

Análisis descriptivo de los datos.

En primer instancia, vemos cuales son las variables que nos proporcionan en la base de datos.

+ Status of existing checking account: Estado de la cuenta corriente existente 
+ Duration in months: Duración en meses.
+ Credit history (credits taken, paid back duly, delays, critical accounts) : Historial de crédito (créditos tomados, devueltos debidamente, demoras, cuentas críticas)
+ Purpose of the credit (car, television,…): Propósito del crédito (automóvil, televisión, ...)
+ Credit amount : Monto de crédito
+ Status of savings account/bonds: Estado de la cuenta de ahorro / bonos.
+ Present employment, in number of years: Empleo actual, en número de años.
+ Installment rate in percentage of disposable:  Tasa de pago en porcentaje del ingreso disponible
+ Personal status (married, single,…) and sex:  Estado civil (casado, soltero, ...) y sexo
+ Other debtors / guarantors :  Otros deudores / garantes
+ Present residence since X years:Residencia actual desde hace X años
+ Age in years:  Edad en años
+ Property (e.g. real estate): Propiedad (por ejemplo, bienes inmuebles)
+ Other installment plans (banks, stores): Otros planes de cuotas (bancos, tiendas)
+ Housing (rent, own,…): Vivienda (alquiler, propia, ...)
+ Number of existing credits at this bank:  Número de créditos existentes en este banco
+ Job :  Trabajo
+ Number of people being liable to provide maintenance for :  Número de personas que pueden proporcionar mantenimiento
+ Telephone (yes,no): Teléfono (si, no)
+ Foreign worker (yes,no): Trabajador extranjero (sí, no)

La mayoría de las variables que el banco recolecto de sus clientes pueden describir y ayudarnos a clasificar a los clientes que el banco ha tenido, pues una de las principales variables que nos describen es el historial crediticio donde podemos observar si el cliente es deudor, si paga con demoras, si ha pagado su credito, etc.

Si el cliente pide un monto alto de crédito, puede resultar más dificil o tardado para realizar el pago. La variable que nos habla en particular de la solvencia de un cliente es si se encuentra trabajando y la duración que lleva en su empleo pues al tener un trabajo estable tenemos mayor posibilidad de pago que un cliente sin empleo.

Uno de los principios modificados en el diario oficial es sobre la residencia de un cliente, pues se desea evitar acciones ilicitas tales como el lavado de dinero o uso de los créditos para actos delictivos, pues como variable de observación se debe tener enfasis en la residencia del ciente, cuando se tienen clientes del extranjero se les debe preguntar la razón para invertir en una nación distinta a la de su residencia. Con nuestros datos observados podemos enfatizar que debe ser más seguro otorgar créditos a clientes con viviendas propias que clientes cuya vivienda es rentada pues es más sencillo deshabitar.

El número de creditos que el cliente tiene comprometidos con el banco, puede hablarnos sobre si el banco ha dado créditos excesivos a clientes que no tienen la posibilidad de pagarlos o cual ha sido la variable tomada en cuenta por el banco para decidir otorgar multiples créditos a los clientes.

Procedamos a realizar un breve analisis de las variables que nos dan, de donde obtenemos que:

##     checking_status    duration                           credit_history
##  no checking:394    Min.   : 4.0   all paid                      : 49   
##  <0         :274    1st Qu.:12.0   critical/other existing credit:293   
##  0<=X<200   :269    Median :18.0   delayed previously            : 88   
##  >=200      : 63    Mean   :20.9   existing paid                 :530   
##                     3rd Qu.:24.0   no credits/all paid           : 40   
##                     Max.   :72.0                                        
##                                                                         
##                 purpose    credit_amount            savings_status
##  radio/tv           :280   Min.   :  250   no known savings:183   
##  new car            :234   1st Qu.: 1366   <100            :603   
##  furniture/equipment:181   Median : 2320   100<=X<500      :103   
##  used car           :103   Mean   : 3271   500<=X<1000     : 63   
##  business           : 97   3rd Qu.: 3972   >=1000          : 48   
##  education          : 50   Max.   :18424                          
##  (Other)            : 55                                          
##       employment  installment_commitment           personal_status
##  unemployed: 62   Min.   :1.000          female div/dep/mar:310   
##  <1        :172   1st Qu.:2.000          male div/sep      : 50   
##  1<=X<4    :339   Median :3.000          male mar/wid      : 92   
##  4<=X<7    :174   Mean   :2.973          male single       :548   
##  >=7       :253   3rd Qu.:4.000                                   
##                   Max.   :4.000                                   
##                                                                   
##       other_parties residence_since         property_magnitude
##  co applicant: 41   Min.   :1.000   car              :332     
##  guarantor   : 52   1st Qu.:2.000   life insurance   :232     
##  none        :907   Median :3.000   no known property:154     
##                     Mean   :2.845   real estate      :282     
##                     3rd Qu.:4.000                             
##                     Max.   :4.000                             
##                                                               
##       age        other_payment_plans     housing    existing_credits
##  Min.   :19.00   bank  :139          for free:108   Min.   :1.000   
##  1st Qu.:27.00   none  :814          own     :713   1st Qu.:1.000   
##  Median :33.00   stores: 47          rent    :179   Median :1.000   
##  Mean   :35.55                                      Mean   :1.407   
##  3rd Qu.:42.00                                      3rd Qu.:2.000   
##  Max.   :75.00                                      Max.   :4.000   
##                                                                     
##                         job      num_dependents  own_telephone
##  high qualif/self emp/mgmt:148   Min.   :1.000   none:596     
##  skilled                  :630   1st Qu.:1.000   yes :404     
##  unemp/unskilled non res  : 22   Median :1.000                
##  unskilled resident       :200   Mean   :1.155                
##                                  3rd Qu.:1.000                
##                                  Max.   :2.000                
##                                                               
##  foreign_worker  class    
##  no : 37        bad :300  
##  yes:963        good:700  
##                           
##                           
##                           
##                           
## 

La mayoría de nuestras variables son categoricas, es decir, describen una clasificación a la que pertenecen los clientes como su estado civil, propiedades, empleo, proposito del crédito, etc. Y otras variables cuantitativas entre las que vamos a destacar:

La edad del cliente, donde es de notar que la persona más joven a la que se le ha otorgado un crédito tiene 19 años, pues a esa edad es muy probable que no se cuente con un historial crediticio.

El monto del credito, pues el crédito mayor es de 18,424 y tiene un promedio de monto en crédito de 3,271 *

La duración de cada cliente con el banco, nos describe la lealtad de los clientes y los beneficios que ellos han obtenido para estar satisfechos, pues el cliente con mayor tiempo de participación con el banco es de 6 años. Teniendo en cuenta que es necesario evaluar el estado del cliente (en riesgo o fuera de riesgo) comparado con el tiempo de participación en el banco.

Una vez analizada la base de datos, nos podemos percatar que nuestra variable a utilizar para el tiempo sería “duration” la cual viene dada en meses y nuestro indicador para censura y falla vendria dada por “class” donde “good” es que no esta en alto riesgo y “bad” es que se encuentra en alto riesgo

Haciendo una revisión de la variable class, notamos que:

##  bad good 
##  300  700

Una ves visto lo anterior podemos notar que ademas de las variables anteriores hay otras que nos podrián resultar de interes por ello hagamos un analisís de las correlaciones entre las distintas variables porporcionadas por el banco.

El grafico anterior muestra las variables de interes que se considera de mayor interes para el estudio y tienen alguna relación entre ellas o que podría categorizar un riesgo a futuro por lo cual. Se agregan otro tipo de grafico para que sea mas facil de visualizar asi como la tabla de correlaciones entre las variables importantes para el equipo de analistas.

## Computing correlation using pearson-method with listwise-deletion...
## Warning: Removed 66 rows containing missing values (geom_text).

sjt.corr(M,remove.spaces = F,corr.method = "kendall")
  class duration job savings_status existing_credits credit_history credit_amount employment installment_commitment num_dependents housing
class   -0.215 0.033 0.160 0.046 -0.097 -0.155 0.057 -0.072 0.003 -0.019
duration -0.215   -0.215 0.063 -0.011 0.029 0.625 0.056 0.075 -0.024 -0.157
job 0.033 -0.215   -0.030 0.005 -0.014 -0.261 -0.082 -0.078 0.127 0.107
savings_status 0.160 0.063 -0.030   -0.042 -0.017 0.071 0.020 0.006 0.027 -0.008
existing_credits 0.046 -0.011 0.005 -0.042   -0.388 0.021 0.035 0.022 0.110 -0.049
credit_history -0.097 0.029 -0.014 -0.017 -0.388   0.029 -0.059 -0.060 -0.070 0.084
credit_amount -0.155 0.625 -0.261 0.071 0.021 0.029   0.093 -0.271 0.017 -0.136
employment 0.057 0.056 -0.082 0.020 0.035 -0.059 0.093   -0.050 -0.009 -0.058
installment_commitment -0.072 0.075 -0.078 0.006 0.022 -0.060 -0.271 -0.050   -0.071 -0.089
num_dependents 0.003 -0.024 0.127 0.027 0.110 -0.070 0.017 -0.009 -0.071   -0.115
housing -0.019 -0.157 0.107 -0.008 -0.049 0.084 -0.136 -0.058 -0.089 -0.115  
Computed correlation used kendall-method with listwise-deletion.

Según la tabla de correlaciones que tenemos anterior podemos ver que las variables que nos gustara comparar serian:

-cheaking_status con class: Debido a que su correlacion es positiva lo cual nos inidcaría que si el número de personas con la caracteristicas “good”, aquellos con estados positivos en su cuenta de cheque aumentarán en un razón pequeña, para que quede mas claro se hara un histograma para poder ilustrar a nuestro clientes.

-credit_amount con duration: Esto tiene una relacion positiva pero sabemos que según los criterios del banco es logico debido a que las personas que necesiten pagar más dinero ocuparan mayor tiempo.

-duration con class: Como se puede observar hay una correlacion negativa pequeña que nos indicaría en palabras vanales que a mayores personas con larga duracion, disminuira la calificación de no riesgosos. Y esto puede deberse a que se les pueden aumentar los montos de credito o que pidan varios.

-employment con class: Esto nos ayudara a ver como influye que una persona este trabajando o desempleado para ver como se le clasifica en class.

Algo Importante: Nos hemos percatado que si hoy en día se tiene que para algunas personas que tienen en credit_history la clasificación critical y son categorizada en el momento de la recabación de información como no de alto riego, en un futuro podría ser de alto riesgo por lo cual se le recomienda al cliente guardar precaución con esta categoría de datos. Además Según la clasificación obtenida por el banco, de los 1000 clientes en muestra otorgados en la base de datos 300 de ellos son clientes clasificados con altos riesgos crediticios, pues bajo el supuesto de que se tomo una muestra aleatoria que representa a la población de clientes del banco; solo el 70% de los clientes no representan un riesgo financiero para el banco.

## unemployed         <1     1<=X<4     4<=X<7        >=7 
##         62        172        339        174        253

Pues es importante conocer el porcentaje de clientes que se encuentran desempleados, ya que por ende no tendrán recursos para cubrir su deuda con el banco. Pues según los datos obtenidos, 62 clientes son desempleados lo cual representa un número alto para otorgar créditos a personas sin recursos. Este podria ser uno de los problemas del banco, el analisis de la sovencia de sus clientes es fundamental para otorgar un credito y en este caso el 6.2% de sus clientes ni siquiera cuentan con un empleo.

Analisis de las variables relacionadas

Dadas las comparaciones citadas anteriormente Primero partamos con la de Employment con class

Podemos observar que aqui el Empleoyment Status esta relacionado con el gran número en la categoría de “good” debido a que aquellos que tienen un empleo tienen tendencia a ser considerados de bajo riesgo crediticio como lo podemos apreciar en la comporativa mostrada en el histograma anterior

Ahora lo haremos con la de duration con class

Aqui podemos ver como igual mente hay una tendencia mayor a tener mayor cantidad de población en la categoria “good”, pero lo realmente destacable en dicho grafico es como el maximo para los dos se encuentra en el mismo periodo entre 20 a 30 meses lo cual resulta interesante puesto que no tener una mayor antigueda nos grantiza mayor seguridad ante los posibles riesgo

Por ultimo lo haremos con la de duration con credit amount

Aca podemos percatarnos la relación que exite entre la duración del usuario contra el monto de credito, lo cual nos indica que hay una mayor utilización del credito de 0 a 5000 es decir el menor plan de credito que existe a cambio los creditos grandes son minimos debido a que el banco no lo esta autorizando, esto vendria a ser un factor positivo debido a que si se llega a incummplir el pago no sería de tan alta garantía pero algo de suma importancia sería ver que las personas con duracion entre 20 y 30 cumplan con el pago, ya que si un porcentaje grande no paga. Se revertiria la baja cantidad de personas con riesgo relativamente bajo

Hipótesis iniciales.

El riesgo crediticio esta influido por la duración que tienen los creditos pues la capitalización del banco es tardía, la posibilidad de pago se ve reducida segun si el cliente tenga o no empleo, incluso de cuantas personas tiene que mantener, puesto que el último puede influir en menor porcentaje que el primero al tener un máximo de dos personas a mantener.