El director del área está interesado en conocer el perfil de cliente con mayor y menor riesgo para con ello generar una estrategia de selección de clientes, es decir, ¿puede la institución hacer la adquisición del cliente, cómo? o bien ¿debería rechazar el banco a clientes con ciertas características por tener alto riesgo crediticio?
En el presente reporte presentado al director del banco se utilizan herramientas estadisticas tales como la Regresión Logistica, de las cuales se presentarán resultados obtenidos de estas herramientas.
Para realizar la regresión se cuentan con los siguientes datos:
*La duración del crédito
*Historial crediticio
*Proposito del credito
*Monto del credito
*Edad del cliente
*Número de pagos
*Estado civil
*Años en su residencia
*Propiedades en posesión
*Otros planes de deuda
*Puesto de trabajo
*Propietario de casa
*Creditos existentes
*Numero de dependientes de la prsona
*Telefono propio
*Si es un tabajador foraneo
Un breve resumen de algunas variables nos dirán el tipo de clientes existentes en el banco.
library(knitr)
datos <- read.csv("C:/Users/Pamel/Downloads/Default.csv")
###Proposito del credito
kable(table(datos$purpose))
| Var1 | Freq |
|---|---|
| business | 97 |
| domestic appliance | 12 |
| education | 50 |
| furniture/equipment | 181 |
| new car | 234 |
| other | 12 |
| radio/tv | 280 |
| repairs | 22 |
| retraining | 9 |
| used car | 103 |
| ### Trabajadores extra | njeros |
La mayoría de los clientes son trabajadores extranjeros
kable(table(datos$foreign_worker))
| Var1 | Freq |
|---|---|
| no | 37 |
| yes | 963 |
kable(table(datos$credit_history))
| Var1 | Freq |
|---|---|
| all paid | 49 |
| critical/other existing credit | 293 |
| delayed previously | 88 |
| existing paid | 530 |
| no credits/all paid | 40 |
summary(datos$credit_amount)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 250 1366 2320 3271 3972 18424
kable(table(datos$personal_status))
| Var1 | Freq |
|---|---|
| female div/dep/mar | 310 |
| male div/sep | 50 |
| male mar/wid | 92 |
| male single | 548 |
Se realizó la corrección de algunas variables asi como la elección del nivel base cada variable categorica para un mejor ajuste en nuestro modelo.
Posteriormente se realizaron distintos modelos y priebas para identificar las variables que resultaban significativas en el modelo.
Es decir, se buscaron las caracteristicas con las cuales podriamos determinar que un cliente del banco tenga probabilidad de no pagar su credito.
Las variables que se encontraron significativas son las siguientes:
*Historial crditicio
*Proposito del credito
*Duración
*Monto del credito
*Edad
*Otras planes de deuda
*trabajor extranjero
reg4 <- glm(default ~ credit_history + purpose + duration + credit_amount +installment_commitment + personal_status + age + other_payment_plans+foreign_worker, data = datos, family = binomial)
#drop1(reg4, test = "Chisq")
Se tenian 5 modelos como propuesa y se eligio el que mejor se ajustaba a los datos, la prueba de dicho modelo sobre significancia es aceptada.
dev <- reg4$deviance
nullDev <- reg4$null.deviance
modelChi <- nullDev - dev
modelChi
## [1] 185.1767
chidf <- reg4$df.null - reg4$df.residual
chisq.prob <- 1 - pchisq(modelChi, chidf)
chisq.prob #El modelo es significativo
## [1] 0
datos <- cbind(datos, reg4$fitted.values)
El banco tiene un valor total de $ $3,271,258$ entre los clientes analizados, mediante el modelo de regresión logistica se obtuvieron las probabilidades de que los clientes no pagaran su deuda con el banco. Por lo que, se puede resumir para el director del banco en que el valor en riesgo de la cartera de clientes es de $ $ 1,181,438$ lo cual es poco menos de una tercera parte de la cartera total.
Para contestaresta pregunta definamos como tamaño en riesgo el número de clientes que caeran en incumplimiento con su deuda. Es decir, el director del banco busca el número de clientes que no pagarán su prestamo. Dicha cantidad, es aproximadamente el \(30%\) de los clientes en esta cartera.
#Estrategia actual Es claro que la estrategia actual para otorgar creditos a los clientes no ha sido tan egectiva, pues el director buscará minimizar el número de clientes que no paguen su crédito.
Ahora, será importante plantear un esquema de evualuzación al cliente para poder otrogar el credito.
A continuación incluiremos algunas gráficas ue nos ayudaran a entender de mejor manera la relación que existe entre las características del cliente y su probabilidad de caer en incumplimiento.
##Probabilidad de caer en Default
Con este grafico es posible observar la dispersion de los clientes entre la probabilidad d caer en default. Es decir, podemos visualizar que aproximadamente el 30 % de los clientes es probable que caigan en default.
plot(reg4$fitted.values,
main="Probabilidad de default",
ylab="probabilidad de defalut")
##Probabilidad de caer en Default segun el monto de credito y clasidicado por el proposito.
library(ggplot2)
ggplot(datos, aes(x = reg4$fitted.values, y =credit_amount, color = purpose)) + geom_point() +
ggtitle("Probabilidad de default", subtitle = "Segun edad y si es foraneo")+ xlab("Probabilidad")+
ylab("Monto del credito")
En este grafico de dispersion podemos notar que aparentemente las personas que piden el prestamo con proposito de comprar un auto nuevo o pagar la educación de sus hijos tienen una mayor probabilidad de caer en Default aunque el monto es no es muy grande.
ggplot(datos, aes(x = reg4$fitted.values, y =credit_amount, color = other_payment_plans)) + geom_point() +
ggtitle("Probabilidad de default", subtitle = "Según monto de credito y otros planes")+ xlab("Probabilidad")+
ylab("Monto del credito")
Podemos observar que los clientes que tienen un monto de prestamo relativamente bajo y No tienen ningún otro plan de deuda serán clientes que tengan una probabilidad del 80% de cumplir con sus deudas.
ggplot(datos, aes(x = reg4$fitted.values, y =duration, col=foreign_worker)) + geom_point() +
ggtitle("Probabilidad de default", subtitle = "Segun duracion")+ xlab("Probabilidad")+
ylab("Duracion")
Notemos que los clientes que no son trabajadores extrajeros tiene probabilidades muy altas de cumplir con sus deudas, auqnue es algo que dificilmente podriamos asegirar debido a que contamos con muy pocos clientes pertenecientes a esta clasificación para considerarlos una muestra representativa de todos los clientes del banco. Aunque la infuencia de la duración no es tan notoria, si puede ser más probable que los clientes quienes piden un prestamo con una duración corta, tienen mayor probabilidad de cumplir con sus deudas.
ggplot(datos, aes(x = reg4$fitted.values, y =age)) + geom_point() +
ggtitle("Probabilidad de default", subtitle = "Segun edad y si es foraneo")+ xlab("Probabilidad")+
ylab("Edad")
Los clientes con mayor edad tienen probabilidades más altas de cimplir con sus deudas mientras los juvenes tienen menos, podriamos decir que las personas menores a 40 años tienen un \(70%\) de probabilidad de cumplir con sus deudas