Analisis default crediticio de un banco

El director del área está interesado en conocer el perfil de cliente con mayor y menor riesgo para con ello generar una estrategia de selección de clientes, es decir, ¿puede la institución hacer la adquisición del cliente, cómo? o bien ¿debería rechazar el banco a clientes con ciertas características por tener alto riesgo crediticio?

Características determinantes en el riesgo

En el presente reporte presentado al director del banco se utilizan herramientas estadisticas tales como la Regresión Logistica, de las cuales se presentarán resultados obtenidos de estas herramientas.

Una vista rápida a los datos que tenemos

Para realizar la regresión se cuentan con los siguientes datos:

*La duración del crédito

*Historial crediticio

*Proposito del credito

*Monto del credito

*Edad del cliente

*Número de pagos

*Estado civil

*Años en su residencia

*Propiedades en posesión

*Otros planes de deuda

*Puesto de trabajo

*Propietario de casa

*Creditos existentes

*Numero de dependientes de la prsona

*Telefono propio

*Si es un tabajador foraneo

Un breve resumen de algunas variables nos dirán el tipo de clientes existentes en el banco.

library(knitr)
datos <- read.csv("C:/Users/Pamel/Downloads/Default.csv")

###Proposito del credito

kable(table(datos$purpose))
Var1 Freq
business 97
domestic appliance 12
education 50
furniture/equipment 181
new car 234
other 12
radio/tv 280
repairs 22
retraining 9
used car 103
### Trabajadores extra njeros

La mayoría de los clientes son trabajadores extranjeros

kable(table(datos$foreign_worker))
Var1 Freq
no 37
yes 963

Historial crediticio

kable(table(datos$credit_history))
Var1 Freq
all paid 49
critical/other existing credit 293
delayed previously 88
existing paid 530
no credits/all paid 40

Monto del credito

summary(datos$credit_amount)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     250    1366    2320    3271    3972   18424

Estado civil

kable(table(datos$personal_status))
Var1 Freq
female div/dep/mar 310
male div/sep 50
male mar/wid 92
male single 548

Analisis y correción de variabes

Se realizó la corrección de algunas variables asi como la elección del nivel base cada variable categorica para un mejor ajuste en nuestro modelo.

Posteriormente se realizaron distintos modelos y priebas para identificar las variables que resultaban significativas en el modelo.

Es decir, se buscaron las caracteristicas con las cuales podriamos determinar que un cliente del banco tenga probabilidad de no pagar su credito.

Las variables que se encontraron significativas son las siguientes:

*Historial crditicio

*Proposito del credito

*Duración

*Monto del credito

*Edad

*Otras planes de deuda

*trabajor extranjero

reg4 <- glm(default ~ credit_history + purpose + duration + credit_amount +installment_commitment + personal_status + age + other_payment_plans+foreign_worker, data = datos, family = binomial)
#drop1(reg4,  test = "Chisq")

Prueba de significancia del modelo

Se tenian 5 modelos como propuesa y se eligio el que mejor se ajustaba a los datos, la prueba de dicho modelo sobre significancia es aceptada.

dev <- reg4$deviance
nullDev <- reg4$null.deviance
modelChi <- nullDev - dev
modelChi
## [1] 185.1767
chidf <- reg4$df.null - reg4$df.residual
chisq.prob <- 1 - pchisq(modelChi, chidf)
chisq.prob #El modelo es significativo
## [1] 0
datos <- cbind(datos, reg4$fitted.values)

Respondiendo preguntas principales sobre el problema

¿Cuál es el valor en riesgo de la cartera?

El banco tiene un valor total de $ $3,271,258$ entre los clientes analizados, mediante el modelo de regresión logistica se obtuvieron las probabilidades de que los clientes no pagaran su deuda con el banco. Por lo que, se puede resumir para el director del banco en que el valor en riesgo de la cartera de clientes es de $ $ 1,181,438$ lo cual es poco menos de una tercera parte de la cartera total.

¿Cuál es el tamaño en riesgo de la cartera?

Para contestaresta pregunta definamos como tamaño en riesgo el número de clientes que caeran en incumplimiento con su deuda. Es decir, el director del banco busca el número de clientes que no pagarán su prestamo. Dicha cantidad, es aproximadamente el \(30%\) de los clientes en esta cartera.

#Estrategia actual Es claro que la estrategia actual para otorgar creditos a los clientes no ha sido tan egectiva, pues el director buscará minimizar el número de clientes que no paguen su crédito.

Ahora, será importante plantear un esquema de evualuzación al cliente para poder otrogar el credito.

Observaciones sobre los clientes

A continuación incluiremos algunas gráficas ue nos ayudaran a entender de mejor manera la relación que existe entre las características del cliente y su probabilidad de caer en incumplimiento.

##Probabilidad de caer en Default

Con este grafico es posible observar la dispersion de los clientes entre la probabilidad d caer en default. Es decir, podemos visualizar que aproximadamente el 30 % de los clientes es probable que caigan en default.

plot(reg4$fitted.values, 
     main="Probabilidad de default",
     ylab="probabilidad de defalut")

##Probabilidad de caer en Default segun el monto de credito y clasidicado por el proposito.

library(ggplot2)

ggplot(datos, aes(x = reg4$fitted.values, y =credit_amount, color = purpose)) + geom_point() + 
  ggtitle("Probabilidad de default", subtitle = "Segun edad y si es foraneo")+ xlab("Probabilidad")+
  ylab("Monto del credito")

En este grafico de dispersion podemos notar que aparentemente las personas que piden el prestamo con proposito de comprar un auto nuevo o pagar la educación de sus hijos tienen una mayor probabilidad de caer en Default aunque el monto es no es muy grande.

Probabilidad de caer en Default segun el monto de credito y clasidicado por si tiene otros planes de deuda.

ggplot(datos, aes(x = reg4$fitted.values, y =credit_amount, color = other_payment_plans)) + geom_point() + 
  ggtitle("Probabilidad de default", subtitle = "Según monto de credito y otros planes")+ xlab("Probabilidad")+
  ylab("Monto del credito")

Podemos observar que los clientes que tienen un monto de prestamo relativamente bajo y No tienen ningún otro plan de deuda serán clientes que tengan una probabilidad del 80% de cumplir con sus deudas.

Probabilidad de caer en Default segun la duración del prestamo

ggplot(datos, aes(x = reg4$fitted.values, y =duration, col=foreign_worker)) + geom_point() + 
  ggtitle("Probabilidad de default", subtitle = "Segun duracion")+ xlab("Probabilidad")+
  ylab("Duracion")

Notemos que los clientes que no son trabajadores extrajeros tiene probabilidades muy altas de cumplir con sus deudas, auqnue es algo que dificilmente podriamos asegirar debido a que contamos con muy pocos clientes pertenecientes a esta clasificación para considerarlos una muestra representativa de todos los clientes del banco. Aunque la infuencia de la duración no es tan notoria, si puede ser más probable que los clientes quienes piden un prestamo con una duración corta, tienen mayor probabilidad de cumplir con sus deudas.

Probabilidad de caer en Default segun la edad del cliente.

ggplot(datos, aes(x = reg4$fitted.values, y =age)) + geom_point() + 
  ggtitle("Probabilidad de default", subtitle = "Segun edad y si es foraneo")+ xlab("Probabilidad")+
  ylab("Edad")

Los clientes con mayor edad tienen probabilidades más altas de cimplir con sus deudas mientras los juvenes tienen menos, podriamos decir que las personas menores a 40 años tienen un \(70%\) de probabilidad de cumplir con sus deudas