Se presenta en esta base de datos informacion referente a una institucion de prestamos en el Reino Unido en un periodo determinado de tiempo, esto sobre el estado del mismo en distintos parametros. De esta manera podriamos determinar riesgos de impago o aspectos referentes. Esta base ademas fue creada por RAUSHAN, y cumple con los parametros de analisis indicados para este trabajo, ya que sobrepasa los 150,000 datos. Resaltando que se puede descargar de la siguiente liga “https://www.kaggle.com/datasets/prakashraushan/loan-dataset/data”
La base de datos incluye las siguiente variables:
Customer_id: identificador unico para cada cliente
Customer_age: edad del cliente
Customer_income: ingresos anuales del cliente en libras esterlinas
Home_ownership: estatus de la propiedad de residencia
Employment_duration: duracion en meses del empleo actual
Loan_intent: Intencion de uso del prestamo
Loan_grade: Calificacion asignada para el prestamos, en donde A representa un estatus positivo, B de estabilidad, C un nivel de riesgo moderado, D con un nivel de riesgo elevado y E con riesgo inminente de caer en default.
Loan_amnt: Cantidad en libras esterlinas del prestamo solicitado
Loan_int_rate: Tasa de interes asignada al prestamo
Term_years: Plazo del prestamo en años
Historical_default: Indica si el cliente posee un historial de incumplimiento
Cred_hist_length: Duración del historial de crédito del cliente en años
Current_loan_status: Estado actual del prestamo, es decir si continua realizandose el pago con regularidad o se estan incumpliendo los acuerdos
Podriamos sugerir que las variableas Customer_age, Customer_income, Employment_duration y en una menor medida Home_ownership son las determinantes del estatus del resto de las variables presentes, es decir, que determinan en mayor medida en que condiciones han accedido al prestamo los clientes que se señalan en la primera variable denominada como Customer_id
¿A mayor cantidad de prestamo solicitado refleja una mayor tasa de interes? Para poder dar respuesta a esta pregunta de manera simplificada se tomaran en cuenta dos variables: “Loan_amnt” y “Loan_in_rate”, y de esta manera expresado visualmente en una grafica de dispersion podemos obtener mejores resultados, y sobre todo llegar a una mayor cantidad de personas en cuanto a su comprension.
library(tidyverse)
library(ggplot2)
library(readr)
LoanDataset_LoansDatasest <- read_csv("Downloads/LoanDataset - LoansDatasest.csv")
Prestamos <- LoanDataset_LoansDatasest
ggplot(Prestamos, aes(x=loan_amnt, y=loan_int_rate))+
geom_point(size=0.9, color="blue")+
facet_wrap(~loan_intent, scales = "free_x")+
labs(title = "Prestamos asignados conforme a los intereses acordados") +
xlab("Prestamo solicitado en Libras Esterlinas")+
ylab("Intereses asignados al prestamo")
Respuesta: la respuesta simple seria no, sin embargo lo indicado en estos analisis es poder profundizar en la respuesta, y aqui se destacada que para que fuese mas certero se considero adiccional a la variable loan_intent para de esta manera segmentar la intencion a la que va dirigida el prestamo: esto arrojo que en todas las intenciones de prestamo los intereses mas altos no se presentan en las cifras mas elevadas de prestamo, si no en su mayoria en el punto intermedio de las dispersiones que se observan. Teniendo como caso excpecional el del segmento Education en donde los intereses mas altos si se acercan a la cifra mas elevada de prestamo, sin embargo no llega a ser las mas altas.
¿Que tipo de prestamo tardo mas de un lustro para poder ser cubierto? Para poder dar respuesta a esta pregunta se tendran que considerar las variables term_years que hace referencia a cuanto tiempo se tardo en liquidar la deuda, y la de loan_intent que nos expresa para que fue solicitado el credito. Usando las antes mencionadas nos arrojara una tabla para poderlo observar de mejor manera, y en donde podremos obtener de manera resumida los años que tardo en liquidarse la deuda, en que se enfoco el prestamo y cuantos clientes entraron en esta categoria.
duracion=print(Prestamos%>% group_by(term_years, loan_intent) %>% summarise(n=length(loan_intent)))
## # A tibble: 60 × 3
## # Groups: term_years [10]
## term_years loan_intent n
## <dbl> <chr> <int>
## 1 1 DEBTCONSOLIDATION 391
## 2 1 EDUCATION 492
## 3 1 HOMEIMPROVEMENT 264
## 4 1 MEDICAL 489
## 5 1 PERSONAL 433
## 6 1 VENTURE 465
## 7 2 DEBTCONSOLIDATION 686
## 8 2 EDUCATION 1135
## 9 2 HOMEIMPROVEMENT 239
## 10 2 MEDICAL 777
## # ℹ 50 more rows
print(duracion)
## # A tibble: 60 × 3
## # Groups: term_years [10]
## term_years loan_intent n
## <dbl> <chr> <int>
## 1 1 DEBTCONSOLIDATION 391
## 2 1 EDUCATION 492
## 3 1 HOMEIMPROVEMENT 264
## 4 1 MEDICAL 489
## 5 1 PERSONAL 433
## 6 1 VENTURE 465
## 7 2 DEBTCONSOLIDATION 686
## 8 2 EDUCATION 1135
## 9 2 HOMEIMPROVEMENT 239
## 10 2 MEDICAL 777
## # ℹ 50 more rows
Respuesta: la intencion del prestamo que fueron pagados por encima de los 5 años, es decir un lustro, serian los medical con una cifra de 2,988 prestamos, seguidos por Education con 2,751, muy de cerca se encuentran los Venture con 2,743, los personal con 2,688, los que corresponden a la variable de Debtconsolidation con 2,542 y por ultimo los que se encuentran en la variable Homeimprovement con 2,107.
¿En que calificacion de deuda se encuentra catalogado el cliente con mayores ingresos segun la variable Loan_grade? Para dar respuesta a esta pregunta deben de considerarse dos variables “Loan_Grade” que nos indica la calificacion de deuda con base a los parametros A,B,C,D,E donde la primera letra representa sin riesgo y al llegar a la ultima indica riesgo de default. La otra variable a considerar es “Customer_Income”, es decir el ingreso que percibe cada uno de estos clientes al momento de contraer la deuda. Donde para que se exprese de manera adecuada este nivel de calificacion es visible a traves de una grafica de dispersion, en donde ademas se podra obtener informacion secundaria.
ggplot(Prestamos, aes(x=customer_income, y=loan_grade))+
geom_point(size=3, color="blue")+
scale_x_continuous(breaks = seq(0,6000000, by=400000))+
theme(axis.text.x = element_text(angle = 30)) +
labs(title = "Salarios de los clientes en Libras Esterlinas de acuerdo a la calificacion crediticia") +
xlab("Salario anual de los clientes en Libras Esterlinas")+
ylab("Calificacion crediticia")
Respuesta: Se puede observar con claridad que el cliente 32303 posee un ingreso anual de 6,000,0000 millones de libras esterlinas, lo que le corresponderia al de mayor ingresos y ademas segun la variable Loan_Grade se situa en la categoria C, es decir un nivel de riesgo moderado. Ademas como informacion secundaria se puede observar que existe una tendencia a que mayor salario aleja de la clasificacion de mayor riesgo, es decir E, esto por lo menos hasta la clasificacion B. Ya que salvo casos extraordinarios que se observan en la clasificacion C y A, la tendencia se cumple hasta la zona mencionada.
Como podemos observar a lo largo del analisis esta es una base de datos con la suficiente cantidad de informacion cuantitativa y cualitativa para realizar un analisis a la altura de esta investigacion, ya que la cantidad de datos que se suman en conjunto superan los 300,000. Lo anterior nos permite decir que es completa para señalar correlaciones: en nuestro caso la primera pregunta busca generar la correlacion entre la variable que nos indica la cantidad de prestamo solicitado y el el interes asignado por parte del banco, buscando señalar si a mayor cantidad de prestamos hay una mayor tasa de interes, y a traves de los procesos que vienen indicados con anterioridad se puede señalar que ello no es asi, ya que al filtrarlo hacia que iba dirigido el prestamo se puede observar que en ningun caso lleva esa relacion. En la pregunta dos se busca generar una respuesta para analizar que tipo de prestamo genera una deuda mas tardia de un lustro, es decir de cinco años, lo que suele ser la fecha aproximada en que se liquidan los prestamos a mediano plazo a lo largo del mundo, para ello se empleo la variable del tipo de prestamos (la misma de la pregunta uno) y el tiempo que tardo en liquidarse esta, arrojandonos una tabla que nos indica que estos son los medicos, lo cual lo entenderiamos ya que estos suelen ser por grande sumas (exceptuando casos extraordinarios en la propia informacion). Para la pregunta tres, se emplean la variable de los ingresos del cliente y la calificacion crediticia que le otorga la banca, esto buscando primero encontrar al cliente que posee mayores ingresos y observar cual es su condicion crediticia, para de esta manera destacar de manera preeliminar si a mayores ingresos es una mejor calificacion crediticia, observando que esta hipotesis inicial es erronea, ya que el de mayor ingreso lo arrojo en una posicion intermedia de su calificacion crediticia situandolo con un “riesgo moderado”, a diferencia de algunos otros con menores ingresos situados en la calificacion “positiva”. Esto se observa en su respectiva grafica de dispersion. Por lo cual se podria señalar que solo considerando los parametros para dar respuesta a estas interrogantes, se requiere la interregalcion de cada una de las variables para que el banco acceda a realizar los prestamos, ya que considerar unicamente dos o tres variables resulta insuficiente para la toma de decisiones del personal bancario.