Integrantes:
Sosa Pérez, Sebastián Alonso
Rivera Camacho, Priscila Yamilet

CLASIFICACIÓN DE CRÉDITOS UTILIZANDO TÉCNICAS DE REGULACIÓN SOBRE LA BASE DE DATOS CREDIT GERMAN

Creado: 23/09/2021

Resumen

Con el objetivo de determinar un modelo de credit scoring para la base de datos Credit German, se utilizaron las técnicas de regulación: Ridge, Lasso y Elastic Net. Utilizando el modelo principal Logit, analizamos en base a este sus parámetros β, encontramos los resultados donde, el modelo Logit tiene una precisión del 37.2%, el modelo lasso presenta una precisión del 76.7%, el modelo Ridge de 75.6% y el modelo Elastic net de 69.2%. Finalmente, llegamos a la conclusión que el modelo Lasso presenta una mejor predicción de los datos, con una precisión en los datos de entrenamiento de 82.9% y para los datos de prueba 76.7%, siendo este superior a los modelos propuestos.

Palabras claves: Ridge, Lasso y Elastic Net, Beta y Logit

Abstrac

In order to determine a credit scoring model for the Credit German database, the following regulation techniques were used: Ridge, Lasso and Elastic Net. Using the main Logit model, we analyzed its β parameters based on this, we found the results where, the Logit model has an accuracy of 37.2%, the lasso model has an accuracy of 76.7%, the Ridge model of 75.6% and the Elastic net model of 69.2%. Finally, we reached the conclusion that the Lasso model presents a better prediction of the data, with a precision in the training data of 82.9% and for the test data 76.7%, this being superior to the proposed models.

Keywords: Ridge, Lasso and Elastic Net, Beta and Logit

Introducción

Una compañía financiera es una entidad que cuenta como objetivo principal percibir la mayor cantidad de recursos de capital para poder tener solvencia y realizar la facilitación tanto de servicios como de bienes, por medio de operaciones de crédito. (Tigreros, 2020) Las instituciones financieras consideran importante la liquidez que le admita cumplir sus obligaciones de prestar crédito a sus clientes. Estas instituciones también tienen como finalidad evitar el menor riesgo que se enfrentan ante la aprobación de un crédito. En Perú, el buen desarrollo y el boom de las Micro finanzas se ha fundamentado en importantes puntos como: transparencia de centrales de riesgo y normas de información financiera, apropiados sistemas de tecnologías crediticias, un marco regulatorio de apoyo institucional, alta promoción de transparencia en precios y por último la competencia en el mercado. No obstante, estas instituciones se ven amenazadas por el ingreso de nuevas empresas oligopólicas con mayores capitales y por supuesto, mejores tecnologías para la detección de los riesgos crediticios. (Calderón, 2020) Es por eso, que es fundamental desarrollar mecanismos que ayuden a reducir este problema de riesgo crediticio, para así poder identificar clientes que no cumplan con sus obligaciones, es decir que presenten insolvencia para culminar satisfactoriamente un crédito. Pues la mayor inquietud de estas instituciones financieras es terminar en casos jurídicos con el fin de recuperar solo su capital e ideando procesos de gestión de carteras a los clientes deudores. (Tigreros, 2020) La problemática identificada es ¿Cómo aplicar las técnicas de regulación para la clasificación crediticia de los futuros clientes de Credit German? En el presente informe se analiza la dataset de la entidad alemana de préstamos particulares llamada Credict German, aplicando las técnicas de regulación (lasso, rigde y elastic net) con el objetivo de determinar el pronóstico de clasificación crediticia para futuros clientes de Credit German, para lograrlo identificaremos el mejor modelo con las técnicas de regulación para la clasificación crediticia, analizaremos los atributos crediticios de los clientes de Credit German. En el ámbito internacional, Qin, C. (2021) en su investigación propone el uso de eXtreme Gradient Boosting como modelo para la evaluación crediticia, basado en una optimización de partículas, además realiza una comparación de clasificadores normalmente usados en similares investigaciones, métodos hiperparámetros de optimización y algoritmos tradicionales utilizados en el aprendizaje automático. Los resultados arrojaron que el modelo eXtreme Gradient Boosting fue superior al resto de modelos analizados, incluso la optimización del enjambre de partículas del modelo resulta ser mejor que otras estrategias de optimización. Se obtuvo como conclusión que a nivel de rendimiento XGBoost optimizado con las técnicas RS, GS Y TPE es inferior al rendimiento de APSO-XGBoost. Pardo, O. (2020) En su trabajo realizó un modelo logit para evaluar el riesgo crediticio de una cooperativa en Villavicencio, para esta investigación utilizaron un modelo cualitativo, el modelo logit, se trabaja una variable tipo binario, cuando el número tiende a 1 quiere decir que los clientes asociados no tienen buen desempeño, y por lo contrario el 0 representa el buen desempeño en su cartera. El resultado es que los factores de riesgo de los socios varones fueron la corta edad y ser soltero, los bajos recursos, además del tiempo limitado de pertenencia a la cooperativa, trabajar en entidades privadas, y tener préstamos grandes con amplios plazos de pago. El porcentaje de aciertos buenos del modelo es de 63.95%, es decir el nivel de predicción es aceptable, se encontró que los asociados reducen en un 0.45% el riesgo de incumplimiento cada año y si aumentan sus ingresos, por cada 1% adicional su nivel de incumplimiento disminuye en 6.74%. Por último, se afirma la importancia del modelo logit como herramienta cuantitativa para predecir posibles riesgos. Guevara K. (2020) En su trabajo de investigación realiza un análisis de la dataset de LendingClub, una entidad financiera estadounidense, con la finalidad de clasificar sus clientes mediante modelos de regresión, es por eso que aplica como metodología una máquina de soporte vectorial que le permita catalogar a los usuarios como ‘’malos o buenos’’ y así realizar la asignación crediticia a cada uno de ellos. Los resultados obtenidos con Kernel radial representan un 96% de la clasificación de la base que fue creada, de estos el 83% de vectores corresponde a una clasificación ‘’C’’. Eso quiere decir que existe un desbalance en los datos utilizados. Se concluyó con una tasa de positivos mayor a 50 puntos porcentuales. El error de la base balanceada representó un 0,4614, mientras que la original fue menor y fue de 0,1486. Leal A. (2018). En su investigación, tuvo como propósito el análisis de riesgo crediticio de un modelo Credit Scoring para la empresa Fantasía S.A. Utilizó un método de estudio Delphi el cual le permitió establecer variables tanto cuantitativas como cualitativas para recurrir a la evaluación de la calidad de cada cliente, algunas de sus variables cualitativas fueron los temas legales y comerciales, la antigüedad y contribución de la empresa. Los resultados mostraron que el 81,82% de clientes cumplían los mínimos requisitos para el crédito, mientras que el 18,18% no lo hacían. Finalmente, los autores concluyeron que el sistema de gestión que presenta dicha empresa no cumple correctamente su función, el modelo Credit Scoring le será de mayor eficiencia a Fantasía S.A., pues presenta más flexibilidad y objetividad en la clasificación de créditos. Sánchez S. 2016 Desarrolla un estudio que le permite calcular la eficiencia relativa de los actores de crédito en un banco. La investigación utilizó la programación lineal, mediante el DEA con un proceso doble para la optimización, el banco colombiano fue el objeto de estudio, el cual contaba con cinco bandas de actividades de crédito. Los resultados arrojaron que las zonas geográficas con mejor desempeño fueron Sur y Cafetera, por otro lado, la banda con mayor eficiencia fueron la oficial y la agropecuaria. Mientras que la banca y zona más ineficientes fueron la personal y la Costa, respectivamente. La investigación concluye con la validación del método utilizado, ya que sirve para analizar situaciones reales para la cooperativa. López Rodríguez, (2016). propuso en su investigación realizar un modelo ontológico con el modelo relacional para analizar créditos financieros mediante la relación de distintas bases de datos. Se hizo uso de sistemas para realizar la evaluación apoyado en ontologías con la herramienta Protégé 5.5 para el Banco Nacional de Cuba, aplicando el método se modeló un sistema flexible sencillo mantenimiento y a la vez reutilizable. Finalmente se pudieron obtener a partir de los métodos, 2 ontologías que cumplen el objetivo de clasificar las variables del financiamiento y por lo tanto el riesgo crediticio en las entidades. Banda, O. (2014). En su informe, ante el problema del credit scoring de las instituciones de microfinanzas realiza la aplicación teórica del método Holt-Winters para evaluar adecuadamente los créditos. Como método metodológico teórico para analizar el riesgo crediticio de concebir microcréditos fue a partir de flujos de efectivo esperados, incluyendo la estacionalidad de ellos, se empleó el método Holt-Winters de pronóstico no lineal. Los resultados revelan que los clientes de las IMF poseen distintas características para encontrar la probabilidad de que cumplan con el pago del crédito, es por eso que sus modelos deben ser distintos. Concluyó que el conocimiento del cliente sea fundamental en el proceso de otorgamiento de crédito, también es de suma importancia que las imf cuenten con una metodología que les permita discriminar objetivamente las solicitudes de crédito. (Medina & Selva, 2013) En su investigación realiza un análisis del Credit Scoring partiendo de información existente entre el cliente y la operación. Utilizó un sistema de puntuación cualitativo para obtener como respuesta la probabilidad de pago de cada cliente, dependiendo si la función fue conocida o no, pudieron aplicar modelos paramétricos o no paramétricos. Como resultado se obtuvo que, de la evaluación de 1446 individuos, 984 fueron clasificados como no morosos y 462 fueron morosos. Para este análisis el cliente era moroso si tenía más de 2 meses de retraso en el pago del crédito. Finalmente se concluye que el modelo no paramétrico usado, el algoritmo CART presenta mayor eficiencia que los paramétricos, pues no lanza porcentajes elevados de clientes dudosos. Honglian, H. (2018) realiza su investigación con la finalidad de probar un novedoso método para la clasificación crediticia de mayor eficiencia, para ello genera subconjuntos que se pueden ajustar y los amplía utilizando el BalanceCascade, después se asegura de disminuir los datos negativos y mejora el rendimiento de la predicción. Este modelo tiene como clasificadores el aumento de gradiente a nivel extremo y el bosque aleatorio, se obtuvo como resultados que la media de desempeño del modelo realizado es superior ya que desarrolla satisfactoriamente el análisis crediticio, y es mejor que otros sistemas ya que se evidencia al medir el conjunto de datos. Wang, G. (2012) en su investigación presenta dos modelos de árbol de conjuntos de estrategia dual para disminuir el riesgo de trabajar con datos redundantes y el exceso de datos de ruido, los árboles estratégicos con los que se trabaja son RS-Bagging DT y Bagging-RS DT, se utiliza una evaluación integral y experimental con el fin de ratificar lo eficaz de los métodos. Se obtuvo como resultado que uno de los DT presenta la menor media entre los únicos 5 clasificadores, por otro lado, se obtiene que los mejores métodos gracia a su precisión son RS-Bagging DT y Bagging-RS DT. Finalmente se concluye que ambos métodos pueden ser usados para el análisis crediticio de instituciones financieras pues son eficaces en la práctica del credit scoring. A nivel nacional: Quiroz, B. (2020) realizó su investigación basada en el planteamiento de un modelo credit Scoring para reducir el riesgo crediticio en la Caja Municipal Piura, para lograr su objetivo utilizó la regresión logística tipo binaria la cual le permita realizar un modelo que resulte una variable dependiente discreta dicotómica. A partir de todo el procedimiento se obtuvo que el uso de la data de la Caja municipal Piura posee una probabilidad de default. Finalmente concluyó con el modelo que le permite calificar estadísticamente y realizar predicciones con un 96,7% de exactitud los créditos otorgados. Siguas, A. (2019) en su investigación tuvo como finalidad establecer la relación entre la clasificación crediticia de los clientes deudores y el proceso para brindar el crédito en una empresa de servicios para el hogar S.A.C. La investigación es cuantitativa correlacional, con una muestra de 91 documentos escogidos aleatoriamente, para realizar un análisis documental que permita clasificar a los clientes deudores de la institución como normal, deficiente, dudoso o pérdida. Los resultados mostraron que el 49.5% representa a los deudores normales, el 26,3% es considerado deficiente y el 6.3% clasifica como pérdida o cliente dudoso. Después de analizar los resultados se concluye que si existe la relación entre la clasificación crediticia y el proceso de brindar el financiamiento y fue comprobado con chi cuadrado siendo el alfa el nivel de significancia diferente al p valor=0.000. Flores, (2019) Utilizó como metodología la técnica intuitiva regresión logística utilizando muestras de entrenamiento intramuestral y fuera de muestra. Se obtuvo como resultado intramuestral un coeficiente de Gini de 0.515, y fuera de muestra se obtiene un coeficiente de Gini de 0.48, ambos modelos al cruzarlos en un diagrama de dispersión obtienen 0.85 de correlación, eso quiere decir que ambos modelos pueden cumplir correctamente el objetivo y lograr la clasificación crediticia. Finalmente, se concluyó que ambos modelos analizados, tanto el revolvente que considera variables del titular y socios, y el modelo que usa sólo variables del titular cumplen con altos niveles de correcta predicción. Romero, L. (2017) en su investigación, presenta un modelo de credit scoring con la finalidad de evaluar el riesgo crediticio en la entidad Agrobanco, puesto que la evaluación de crédito se desarrolló de manera lenta y deficiente. Para ello, se pantlea una metodología de efectos marginales y que permita evaluar entre los años de 2009 al 2015, a partir de un modelo de Credit Scoring. Se obtuvo como resultado la determinación de siete variables independientes: garantía, periodo, edad, antigüedad, soltero y calificación normal, las cuales en la morosidad de créditos dados son significativamente estadísticas, por otro lado, las variables no representativas son: mujer, monto y hectárea. Finalmente concluyó las variables: periodo, soltero, edad, garantía antigüedad, soltero y calificación normal, cumplen como determinantes socioeconómicas.

Material y métodos

Como metodología se aplicó los modelos de regulación como técnica para aplicar un modelo cuya variable de respuesta es de tipo binaria en donde con valores de 0 cuando el cliente no es apto para el crédito y 1 cuando si puede acceder al crédito. La población es de 1000 clientes de la base datos Credict German que se encuentra dentro de UCI machine learning repository. Estas fueron las variables de estudios:

   
Variable   
   
Descripción   
   
Tipo   
   
Atributo   1   
   
Estado de la cuenta corriente    
   
Cualitativa   
   
Atributo   2   
   
Duración   en mes   
   
Cuantitativa   
   
Atributo   3   
   
Historial de crédito   
   
Cualitativa   
   
Atributo   4   
   
Propósito   
   
Cualitativa   
   
Atributo   5   
   
Monto del crédito   
   
Cuantitativa   
   
Atributo   6   
   
Cuenta de ahorros/bonos   
   
Cualitativa   
   
Atributo   7   
   
Empleo actual desde (tiempo)   
   
Cualitativa   
   
Atributo   8   
   
Tasa de pago en porcentaje de la renta disponible   
   
Cuantitativa   
   
Atributo   9   
   
Situación personal y sexo   
   
Cualitativa   
   
Atributo   10   
   
Otros deudores / garantes   
   
Cualitativa   
   
Atributo   11   
   
Residencia actual desde   
   
Cuantitativa   
   
Atributo   12   
   
Propiedad   
   
Cualitativa   
   
Atributo   13   
   
Edad en   años   
   
Cuantitativa   
   
Atributo   14   
   
Otros   planes de pago a plazos   
   
Cualitativa   
   
Atributo   15   
   
Vivienda   
   
Cualitativa   
   
Atributo   16   
   
Número   de créditos existentes en este banco   
   
Cuantitativa   
   
Atributo   17   
   
Trabajo   
   
Cualitativa   
   
Atributo   18   
   
Número de personas susceptibles de mantenimiento   
   
Cuantitativa   
   
Atributo   19   
   
Teléfono   
   
Cualitativa   
   
Atributo   20   
   
Trabajador   extranjero   
   
Cualitativa   


Se utilizo el lenguaje de programación R y el editor de código Rstudio para el procesamiento de datos y se utilizó la precisión, la curva ROC y el accuracy. El modelo para la regresión lasso es la siguiente:

\[ \beta_{Lasso}= argmin\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^p\beta_ix_{il})^z+\lambda\sum_{j=1}^p|\beta_1| \]

En el cual el valor de λ hace que los parámetros del modelo lleguen a tomar el valor de 0. Para el modelo rigde se expresa el siguiente modelo:

\[ \beta_{Lasso}= argmin\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^p\beta_ix_{il})^z+\lambda\sum_{j=1}^p\beta_1^2 \]


En el cual el valor de λ hace que los parámetros del modelo se aproximen a 0. El modelo elastic-net se representa de la siguiente manera:

\[ \frac{(y_i-\beta_0-\sum_{j=1}^p\beta_ix_{il})^2}{2n}+\lambda\alpha\sum_{j=1}^p|\beta_1|+\frac{1-\alpha}{2}\sum_{j=1}^p\beta_j^2 \]

El modelo elastic-net es una combinación del modelo rigde como el modelo lasso, los valores del parámetro α están dentro del intervalo de 0 a 1. Cuando el parámetro α toma el valor de cero es una regresión rigde y cuando es igual a 1 es una regresión lasso.

Resultados

Se puede ver que las variables no poseen ningún dato faltante, si tuviera algún dato faltante se tendría que completar esos valores mediante la media, moda o mediana según el tipo de variable que sea.

El siguiente paso es determinar si los datos de tipo numérico poseen datos atípicos para esta detección de forma multivariable se usa variación del método de los k-vecinos más cercanos. El resultado de este método arroja que solo poseen datos atípicos, esto se puede apreciar de una mejor manera en el siguiente grafico:

Después de haber detectado estos 25 valores atípicos se procede a eliminar los 25 datos atípicos pues estos valores complican nuestro análisis.

Se puede ver que la data posee un desbalanceo de clases, la clase 1 que representan aquellas personas que son aprobadas en el préstamo supera a la clase 0 que representan a las personas que no son accesibles al préstamo. Esta clase de problema genera un sesgo en el modelo pues este es entrenado con una mayor cantidad de una clase, esto ocasiona que no pueda detectar con una mejor precisión a la clase minoritaria, para dar solución a esto se aplican técnicas de balanceo a la data de entrenamiento.

Después de haber realizado el preprocesamiento de la data se comienza a aplicar los modelos el primer modelo es el modelo de regresión logística también conocido como logit, este modelo se utiliza pues se trata de clasificar aquellas personas que pueden ser calificadas a un crédito.

Ahora se comienzan a aplicar los modelos de regulación para la selección de predictores en el caso de la regresión ridge solo se aproxima a los predictores β a 0, la regresión lasso trata de seleccionar parámetros dando como valor a las β y el modelo de regresión elastic-net combina los métodos de las dos técnicas para así superar sus limitaciones.

En esta tabla se puede los valores de cada parámetro de los modelos ya dichos, se toma el modelo logit pues también se toma dentro de los modelos de regresión lineal y además es usado para estos tipos de problemas que consisten en clasificación.

   
Modelo    
   
λ   
   
Α   
   
Logit   
   
-   
   
-   
   
Lasso   
   
0.0178148   
   
1   
   
Rigde   
   
0.1286373   
   
0   
   
Elastic-net   
   
0.128461   
   
0.1   

Después de halar los parámetros del modelo se comienza a evaluar su desempeño tanto para los datos de entrenamiento como para los datos de prueba:

   
Modelo    
   
Precisión   
   
Accuracy   
   
Logit   
   
0.811   
   
0.834   
   
Lasso   
   
0.829   
   
0.806   
   
Rigde   
   
0.829   
   
0.806   
   
Elastic-net   
   
0.792   
   
0.813   

Podemos ver en esta tabla que el modelo que se desempeña de una mejor forma son 2 los cuales son el modelo lasso y el modelo rigde, esto es con los datos de entrenamiento. Ahora se evalúa con los datos de prueba:

   
Modelo    
   
Precisión   
   
Accuracy   
   
Logit   
   
0.372   
   
0.265   
   
Lasso   
   
0.767   
   
0.714   
   
Rigde   
   
0.756   
   
0.704   
   
Elastic-net   
   
0.692   
   
0.711   

En este caso el mejor modelo es el modelo Lasso pues tiene una precisión superior a los demás modelos con un valor de 0.767.
Esto también se puede evaluar con la curva ROC que se presenta en la siguiente figura:


El modelo que presenta el mayor valor auc es el modelo lasso.

# Concluciones

La conclusión global que se obtiene en este trabajo, es que las técnicas utilizadas para el estudio y modelización del incumplimiento para un cliente que pertenece a esta base de datos, lo anterior, se respalda por un alto índice de la precisión. Adicionalmente, se considera que dentro de estas técnicas probadas, la mejor es la técnica de regulación es Lasso que posee una alta precisión de 0.7667 es Lasso debido a que predice de una mejor manera a los clientes no aptos para el crédito y el área bajo la curva es igual a 0.779 lo cual lo hace el mayor de todos los modelos probados. Estos modelos superan con una alta presión al modelo logit, pues según los datos de prueba el modelo Logit presenta una precisión de 0.372, a comparación de los modelos Lasso y Rigde que presentan 0.767 y 0.756 en precisión respectivamente.

Finalmente, cabe mencionar que estos modelos utilizan 20 variables de las cuales selecciona 3 solo tres fueron seleccionadas.

Como sirven estos modelos en el ámbito internacional y en el ámbito nacional. Para disminuir sus riesgos y aumentar las tasas de niveles- tomarlo como alternativa para analizar los riesgos de sus futuros clientes.
Los modelos de regulación es para la selección de variables.

Discusión

Una revisión bibliográfica de la literatura sobre los modelos de Credit Scoring, arrojan que uno de los modelos más implementados para este tipo de problemas es el modelo Logit por autores como Pardo, O. (2020), revelando que este modelo es aceptable puesto que su porcentaje de aciertos es de 63.95%, por otro lado, los estudios que utilizaron las técnicas de regresión para realizar el riesgo de análisis crediticio son Quiroz, B. (2020), Flores, (2019). El modelo más preciso en esta investigación es el modelo Lasso, con una precisión del 76.7%, siendo este un método paramétrico. Otros autores utilizan los modelos no paramétricos como es el caso de Guevara, K (2020) que usa un modelo de máquinas de soporte vectorial que tiene una precisión de 85.1%,

Codigo

data<- read.table("C:/Users/atita/Downloads/german (2).data", quote="\"", comment.char="")

str(data)

head(data)


library(tidyverse)

data[,21]<- ifelse(data[,21]==1,1,0)
data[,21] %>% head()

table(data[,1])

as.factor(data[,1]) %>% head()

data[,1]<- factor(data[,1],labels  = c(1:4))

table(data[,3])
data[,3]<- factor(data[,3],labels  = c(1:5))

table(data[,4])
data[,4]<- factor(data[,4],labels  = c(1:10))

table(data[,6])
data[,6]<- factor(data[,6],labels  = c(1:5))

table(data[,7])
data[,7]<- factor(data[,7],labels  = c(1:5))

table(data[,9])
data[,9]<- factor(data[,9],labels  = c(1:4))

table(data[,10])
data[,10]<- factor(data[,10],labels  = c(1:3))

table(data[,12])
data[,12]<- factor(data[,12],labels  = c(1:4))

table(data[,14])
data[,14]<- factor(data[,14],labels  = c(1:3))

table(data[,15])
data[,15]<- factor(data[,15],labels  = c(1:3))

table(data[,17])
data[,17]<- factor(data[,17],labels  = c(1:4))

table(data[,19])
data[,19]<- factor(data[,19],labels  = c(1:2))

table(data[,20])
data[,20]<- factor(data[,20],labels  = c(1:2))

sapply(data,function( x) class(x))

data[,21]<- as.factor(data[,21])

library(naniar)

vis_miss(data)

data %>% select(V21) %>% group_by(V21) %>% count() %>% 
  as.data.frame() %>% ggplot(aes(V21,n))+geom_col(fill=c("blue","red"),alpha=0.3)+
  theme_elegante()

# Datos atipicos 

library(PCAmixdata)

corte<-splitmix(data)
dquanti<-as.data.frame(corte$X.quanti)
dcuali<-as.data.frame(corte$X.quali)

head(dquanti)

library(FNN)
X<-get.knn(data = dquanti,k=5)
score<-rowMeans(X$nn.dist)

cota<-quantile(score,c(0.75,0.975))[2]
index<-which(score>cota)
Out<-score[index]
length(Out)

valores<-as.factor(ifelse(score>cota,"Atípico","No atipico"))
obs<-c(1:length(score))
pd<-data.frame(score,valores,obs) 
ggplot(pd, aes(x=obs,y=score, col=valores)) +geom_point()+
  theme_elegante()+labs(title="Valores atípicos",color="",x="",caption = "Elaboración propia")

Datos<-data
Datos<-Datos[-index,]
str(Datos)

# Correlacion entre variables

library(GGally)

ggcorr(dquanti, palette = "RdBu", label = TRUE)


# Variables

library(rsample)
set.seed(2021)
corte<- initial_split(Datos, prop = 0.7, strata = "V21")
train <- training(corte)
test  <- testing(corte)

table(train$V21) %>% prop.table()

dim(train)

library(ROSE)
Dtrain<-train
Dtrain <- ovun.sample(V21 ~ ., data = Dtrain, method = "both", p=0.5, N=700, seed = 1)$data
table(Dtrain$V21) %>% prop.table()

# Modelos 

library(caret)

library(glmnet)

# Logit 
library(glm2)

modelo_lg<- glm2(V21~.,data = Dtrain,family = binomial)
modelo_lg

df_coeficientes <- coef(modelo_lg) %>%
  as.matrix() %>%
  as_tibble(rownames = "predictor")

df_coeficientes %>%
  filter(predictor != "(Intercept)") %>%
  ggplot(aes(x = predictor, y = V1)) +
  geom_col() +
  labs(title = "Coeficientes del modelo Lasso") +
  theme_bw() +
  theme(axis.text.x = element_text(size = 6, angle = 45))

df_lg<- df_coeficientes %>%
  filter(predictor != "(Intercept)") 

# Rigde

x_train <- model.matrix(V21~., data = Dtrain)[, -1]
y_train <- Dtrain$V21

modelo_r <- glmnet(
  x           = x_train,
  y           = y_train,
  alpha       = 0,
  nlambda     = 100,
  standardize = TRUE,
  family = "binomial"
)

modelo_r

## Elegir los paremetros 

regularizacion <- modelo_r$beta %>% 
  as.matrix() %>%
  t() %>% 
  as_tibble() %>%
  mutate(lambda = modelo_r$lambda)

regularizacion <- regularizacion %>%
  pivot_longer(
    cols = !lambda, 
    names_to = "predictor",
    values_to = "coeficientes"
  )

library(scales)

regularizacion %>%
  ggplot(aes(x = lambda, y = coeficientes, color = predictor)) +
  geom_line() +
  scale_x_log10(
    breaks = trans_breaks("log10", function(x) 10^x),
    labels = trans_format("log10", math_format(10^.x))
  ) +
  labs(title = "Coeficientes del modelo en función de la regularización") +
  theme_bw() +
  theme(legend.position = "none")

set.seed(123)
cv_error <- cv.glmnet(
  x      = x_train,
  y      = y_train,
  alpha  = 0,
  nfolds = 10,
  type.measure = "mse",
  standardize  = TRUE,
  family="binomial"
)

plot(cv_error)

modelo_r <- glmnet(
  x           = x_train,
  y           = y_train,
  alpha       = 0,
  lambda      = cv_error$lambda.1se,
  standardize = TRUE,
  family = "binomial"
)

summary(modelo_r)

df_coeficientes <- coef(modelo_r) %>%
  as.matrix() %>%
  as_tibble(rownames = "predictor") %>%
  rename(coeficiente = s0)

df_coeficientes %>%
  filter(predictor != "(Intercept)") %>%
  ggplot(aes(x = predictor, y = coeficiente)) +
  geom_col() +
  labs(title = "Coeficientes del modelo Ridge") +
  theme_bw() +
  theme(axis.text.x = element_text(size = 6, angle = 45))

df_r<- df_coeficientes %>%
  filter(predictor != "(Intercept)")

# Modelo Lasso 

modelo_ls <- glmnet(
  x           = x_train,
  y           = y_train,
  alpha       = 1,
  nlambda     = 100,
  standardize = TRUE,
  family = "binomial"
)

regularizacion <- modelo_ls$beta %>% 
  as.matrix() %>%
  t() %>% 
  as_tibble() %>%
  mutate(lambda = modelo_ls$lambda)

regularizacion <- regularizacion %>%
  pivot_longer(
    cols = !lambda, 
    names_to = "predictor",
    values_to = "coeficientes"
  )

regularizacion %>%
  ggplot(aes(x = lambda, y = coeficientes, color = predictor)) +
  geom_line() +
  scale_x_log10(
    breaks = trans_breaks("log10", function(x) 10^x),
    labels = trans_format("log10", math_format(10^.x))
  ) +
  labs(title = "Coeficientes del modelo en función de la regularización") +
  theme_bw() +
  theme(legend.position = "none")

# Evolución del error en función de lambda
# ==============================================================================
set.seed(123)
cv_error <- cv.glmnet(
  x      = x_train,
  y      = y_train,
  alpha  = 1,
  nfolds = 10,
  type.measure = "mse",
  standardize  = TRUE,
  family="binomial"
)

plot(cv_error)

modelo_ls <- glmnet(
  x           = x_train,
  y           = y_train,
  alpha       = 1,
  lambda      = cv_error$lambda.1se,
  standardize = TRUE,
  family="binomial"
)

# Coeficientes del modelo
# ==============================================================================
df_coeficientes <- coef(modelo_ls) %>%
  as.matrix() %>%
  as_tibble(rownames = "predictor") %>%
  rename(coeficiente = s0)

df_coeficientes %>%
  filter(predictor != "(Intercept)") %>%
  ggplot(aes(x = predictor, y = coeficiente)) +
  geom_col() +
  labs(title = "Coeficientes del modelo Lasso") +
  theme_bw() +
  theme(axis.text.x = element_text(size = 6, angle = 45))

df_ls<- df_coeficientes %>%
  filter(predictor != "(Intercept)")


# Elasticnet

set.seed(123)

modelo_el <- train(
  V21 ~., data = Dtrain, method = "glmnet",
  trControl = trainControl("cv", number = 10),
  tuneLength = 10
)
coef(modelo_el$finalModel, modelo_el$bestTune$lambda)

df_coeficientes <- coef(modelo_el$finalModel,modelo_el$bestTune$lambda) %>%
  as.matrix() %>%
  as_tibble(rownames = "predictor")

colnames(df_coeficientes)[2]<-  "V1"

df_coeficientes %>%
  filter(predictor != "(Intercept)") %>%
  ggplot(aes(x = predictor, y = V1)) +
  geom_col() +
  labs(title = "Coeficientes del modelo Elastic-net") +
  theme_bw() +
  theme(axis.text.x = element_text(size = 6, angle = 45))

df_elc<- df_coeficientes %>%
  filter(predictor != "(Intercept)")

df<- cbind(df_lg ,df_r,df_ls,df_elc)
print(df)
write_excel_csv(df,"data.csv")
#### Vamos a validar 

## Modelo logit 

p_lg<- predict(modelo_lg,newdata = Dtrain[,-21],type = "response")
p_lg<- ifelse(p_lg>0.5,1,0)
p_lg
class(Dtrain$V21)
p_lg<- p_lg%>% as.data.frame()
draw_confusion_matrix(confusionMatrix(Dtrain$V21,p_lg %>% as.factor()))
a<-ConfusionMatrix(Dtrain$V21,p_lg$.)
confusionMatrix(data = Dtrain$V21,reference = p_lg$.)
table(Dtrain$V21,as.factor(p_lg$.))
length(Dtrain$V1)
length(p_lg)

## Modelo elastinec 

p_nect<- predict(modelo_el,newdata = Dtrain[,-21])
p_lg<- ifelse(p_lg>0.5,1,0)
p_nect %>% class()
class(Dtrain$V21)
p_lg$. %>% class()
draw_confusion_matrix(confusionMatrix(Dtrain$V21,p_nect))

table(Dtrain$V21,p_nect)

## Modelo Rigde

predicciones_train <- predict(modelo_r, newx = x_train,type = "class")
a<- predicciones_train %>% as.data.frame()
a
draw_confusion_matrix(confusionMatrix(Dtrain$V21,a$s0))

## Modelo lasso

predicciones_train_l <- predict(modelo_ls, newx = x_train,type = "class")
a<- predicciones_train %>% as.data.frame()
a
draw_confusion_matrix(confusionMatrix(Dtrain$V21,a$s0))

### Test

## Modelo elastic:

t_nect<- predict(modelo_el,newdata = test[,-21])
draw_confusion_matrix(confusionMatrix(test$V21,t_nect))

## Lasso;

x_test <- model.matrix(V21~., data = test)[, -1]
y_test <- test$V21
predicciones_test_l <- predict(modelo_ls, newx = x_test,type = "class")
a<- predicciones_test_l %>% as.data.frame()
a
draw_confusion_matrix(confusionMatrix(test$V21,a$s0))

# Rigde

predicciones_test_l <- predict(modelo_r, newx = x_test,type = "class")
a<- predicciones_test_l %>% as.data.frame()
a
draw_confusion_matrix(confusionMatrix(test$V21,a$s0))

## logid

t_lg<- predict(modelo_lg,newdata = test[,-21])
t_lg<- ifelse(t_lg>0.5,1,0)
draw_confusion_matrix(confusionMatrix(test$V21,t_lg %>% as.factor()))
table(test$V21,t_lg %>% as.factor())
####
DataExplorer::plot_missing(data,geom_label_args = list("size" = 4, "label.padding" = unit(0.2, "lines")))

## 

AUC(t_lg,test$V21)

library(ROCR)

library(pROC)

library(pROC)
curva_ROC <- roc(modelo_logit_viv$y,modelo_logit_viv$fitted.values)
plot(curva_ROC,col = "blue",xlim = c(1,0),ylim = c(0,1),
     xlab = "Especifidad", ylab ="Sensibilidad", main = "Curva de ROC")
auc(curva_ROC) # 0.8445

curva_ROC<-roc(t_nect,test$V21)

## Grsficos roc 

## Elastinet

t_nect<- predict(modelo_el,newdata = test[,-21],type = "prob")
roc (prueba $ predeterminado, predicho)
a<- roc(test$V21,t_nect[,2])
ggroc(a)
AUC()
## lasso

predicciones_test_l <- predict(modelo_ls, newx = x_test,type = "response")

a1<- roc(test$V21,predicciones_test_l)
ggroc(a1)

## rigde 

predicciones_test_r <- predict(modelo_r, newx = x_test,type = "response")
a2<- roc(test$V21,predicciones_test_r)
ggroc(a2)

results_bag <- list(lasso = modelo_ls, rigde = modelo_r)

## Logit

p_log<- predict(modelo_lg,test[,-21],type = "response")
a3<- roc(test$V21,p_log)
ggroc(a3)

## Funcion 

graf<- function(a,title){
  b<- ggroc(a,color="blue")+labs(title=title,subtitle = 
              paste("El area bajo la curva: ",round(a$auc,3)),
              caption = "Fuente: Elaboración propia")+
  theme_elegante()
  return(b)
}

z<- graf(a,"Curva ROC del modelo elastic-net")
z1<- graf(a1,"Curva ROC del modelo Lasso")
z2<- graf(a2,"Curva ROC del modelo Rigde")
z3<- graf(a3,"Curva ROC del modelo Logit")

ggarrange(z3,z1,z2,z)
