title: “Laboratorio 3 - Markdown”
author: “Diana Carolina Echavarria Cardenas y Oscar Fernando Penafiel”
date: ‘2022-07-14’
output: html_document
              Universidad del Valle - Escuela de Estadistica              
                       Programa Academico de:                             
   Esp. en Estadistica Aplicada, Maestria en Analitica e Int Negocios     
   Asignatura : Tecnicas de Mineria de Datos y Aprendizaje Automatico     
                         Laboratorio 3                                    
               Estudiantes: Diana Carolina Echavarria                     
                            Oscar Fernando Penafiel                    
              0. Configuracion inicial-Librerias requeridas                      

Punto 1

Verifique la estructura de los datos. Realice las transformaciones y ajustes pertinentes para obtener una hoja de datos limpia.

## tibble [4,117 x 11] (S3: tbl_df/tbl/data.frame)
##  $ ID            : num [1:4117] 100756 100668 100418 100416 100590 ...
##  $ EDAD          : num [1:4117] 44 35 34 34 39 41 42 31 28 30 ...
##  $ INGRESOS      : num [1:4117] 59944 59692 59508 59463 59393 ...
##  $ GENERO        : chr [1:4117] "m" NA "m" "m" ...
##  $ ESTADO_CIVIL  : chr [1:4117] "married" "married" "married" "married" ...
##  $ NUM_HIJOS     : num [1:4117] 1 1 1 0 0 1 0 1 1 1 ...
##  $ NUM_TARJETAS  : num [1:4117] 2 1 1 2 2 2 1 2 1 1 ...
##  $ MODALIDAD_PAGO: chr [1:4117] "monthly" "monthly" "monthly" "monthly" ...
##  $ HIPOTECA      : chr [1:4117] "y" "y" "y" "y" ...
##  $ PRESTAMOS     : num [1:4117] 0 0 1 1 0 1 0 1 1 1 ...
##  $ RIESGO        : chr [1:4117] "V" "F" "V" "F" ...

Formato corregido de la base de datos

## 'data.frame':    4117 obs. of  11 variables:
##  $ ID            : num  100756 100668 100418 100416 100590 ...
##  $ EDAD          : num  44 35 34 34 39 41 42 31 28 30 ...
##  $ INGRESOS      : num  59944 59692 59508 59463 59393 ...
##  $ GENERO        : Factor w/ 2 levels "Female","Male": 2 NA 2 2 1 2 2 1 2 2 ...
##  $ ESTADO_CIVIL  : Factor w/ 3 levels "Divsepwid","Married",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ NUM_HIJOS     : num  1 1 1 0 0 1 0 1 1 1 ...
##  $ NUM_TARJETAS  : num  2 1 1 2 2 2 1 2 1 1 ...
##  $ MODALIDAD_PAGO: Factor w/ 2 levels "Monthly","Weekly": 1 1 1 1 1 1 1 1 1 1 ...
##  $ HIPOTECA      : Factor w/ 2 levels "No tiene","Tiene": 2 2 2 2 2 2 2 2 2 2 ...
##  $ PRESTAMOS     : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ RIESGO        : Factor w/ 2 levels "Cumplimiento",..: 2 1 2 1 2 2 2 2 1 2 ...

Visualizacion e identificacion de los registros que presentan datos faltantes

En el gráfico se puede observar que la variable “GENERO” presenta un valor ausente, el cual representa menos del 1% del total de los registros. Este registro será eliminado del análisis.

Punto 2

Realice un analisis exploratorio de los datos para identificar las potenciales variables predictoras para la condicion de impago. Muestre sus hallazgos en representaciones graficas y tablas resumen contundentes.

Graficos individuales de todas las variables (Cuantitativas) vs Riesgo

De acuerdo con los siguientes gráficos podemos inferir lo siguiente:

Edad: Mientras las personas tengan mas edad, la mediana de la edad de las personas que caen en impago ronda los 35 años. Por otro lado, las personas que tienen mayor cumplimiento son más jóvenes con una endad cercana a los 25.

Ingresos: Se observa que las personas con mayores ingresos tienen una mediana de ingresos mas alta que los que tienen menores ingresos.

Numero de hijos : El número de hijos no parece influir en el hecho de que una persona tenga o no un impago.No obstante, el mayor número de incumplimiento de pago se da en personas que no tienen o tienen un hijo.

Numero de tarjetas : El número tarjetas no muestra una clara diferenciación entre las personas que caen en impago respecto a los que se encuentran al día con sus obligaciones.

Prestamos: Aunque las medianas de los resultados parecen indicar que no hay diferencias, sus distribuciones si, las personas que han caido en impago por lo general no han tenido otros créditos, mientras las que estan en un estado de cumplimiento pueden tener mas de uno.

## [[1]]
## NULL
## 
## [[2]]
## NULL
## 
## [[3]]
## NULL
## 
## [[4]]
## NULL
## 
## [[5]]
## NULL

Visualizacion Variable Genero por Riesgo

Genero: Esta variable no muestra ninguna influencia en la determinación de si una persona cae en impago o no.

Visualizacion Variable Estado Civil por Riesgo

Estado civil: Las personas que se encuentran en un estado de impago son divorciadas, seguido de las personas solteras y por último los casados.

Visualizacion Variable Modalidad de Pago por Riesgo

Modalidad de pago: Las personas que pagan mensualmente, tien mayor probabilidad de incumplir sus obligaciones financieras comparadas con las que tienen una modalidad de pago semanal.

Visualizacion Variable Hipoteca por Riesgo

Hipoteca : Las personas que tienen alguna hipoteca presentan tasas de incumplimiento mas altas que los que no tienen.

Visualizacion Multivariada apoyada en Componentes principales

El análisis de componentes principales que recoge el 81% de la varianza en sus primeras dos componentes, muestra una clara separación de los clientes que tienen impago de los que se encuentran en cumplimiento. En este gráfico se puede observar que aquellos clientes que se encuentran en el lado superior izquierdo, estan representados por clientes que en su mayoría tienen impago, estos se caracterizan por tener ingresos elevados y a su vez por tener un número bajo de préstamos y número de hijos.

Punto 3

Entrene y compare la bondad de ajuste y poder predictivo de multiples modelos de clasificacion.

Un Modelo Estdistico - Regresion Logistica

El primer modelo planteado con regresión logística muestra un AIC de 2268.1. Este modelo encuentra que la variable género no es significativa ya que no agrega información adicional para clasificar si un cliente incumple o no.

## 
## Call:
## glm(formula = RIESGO ~ ., family = "binomial", data = Base.tr)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.3196  -0.4668  -0.3183  -0.1924   3.0354  
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)           5.353e-01  6.775e-01   0.790 0.429465    
## EDAD                  3.701e-02  8.893e-03   4.162 3.16e-05 ***
## INGRESOS              7.201e-05  8.468e-06   8.503  < 2e-16 ***
## GENEROMale            3.341e-02  1.082e-01   0.309 0.757473    
## ESTADO_CIVILMarried  -4.103e+00  3.560e-01 -11.527  < 2e-16 ***
## ESTADO_CIVILSingle   -4.072e+00  4.247e-01  -9.587  < 2e-16 ***
## NUM_HIJOS            -3.512e-01  8.665e-02  -4.053 5.06e-05 ***
## NUM_TARJETAS         -3.265e-01  7.039e-02  -4.638 3.51e-06 ***
## MODALIDAD_PAGOWeekly -5.481e-01  1.984e-01  -2.762 0.005739 ** 
## HIPOTECATiene         6.380e-01  1.656e-01   3.854 0.000116 ***
## PRESTAMOS            -9.441e-01  1.190e-01  -7.931 2.18e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3263.2  on 3292  degrees of freedom
## Residual deviance: 2246.1  on 3282  degrees of freedom
## AIC: 2268.1
## 
## Number of Fisher Scoring iterations: 6

Matriz de confusion Regresión logística

El modelo tiene un f1 score del 60,87% no obstante, cuando se revisa el indicador de sensibilidad y especificidad se observa que el modelo logra predecir en un 93.27% el cumplimiento de un cliente, sin embargo, cuando se trata de identificar a un cliente incumplido, lo logra hacer en un 55.79%.

##          Sensitivity          Specificity       Pos Pred Value 
##            0.5579598            0.9327286            0.6697588 
##       Neg Pred Value            Precision               Recall 
##            0.8961511            0.6697588            0.5579598 
##                   F1           Prevalence       Detection Rate 
##            0.6087690            0.1964774            0.1096265 
## Detection Prevalence    Balanced Accuracy 
##            0.1636805            0.7453442

Regresion losgistica utilizando Backward

Haciendo un modelo de regresión logística aplicando Backward, se llega a un modelo con un AIC de 2266.15 en el que la variable género se elimina, tal como se había resaltado en el anterior modelo.

## Start:  AIC=2268.06
## RIESGO ~ EDAD + INGRESOS + GENERO + ESTADO_CIVIL + NUM_HIJOS + 
##     NUM_TARJETAS + MODALIDAD_PAGO + HIPOTECA + PRESTAMOS
## 
##                  Df Deviance    AIC
## - GENERO          1   2246.2 2266.2
## <none>                2246.1 2268.1
## - MODALIDAD_PAGO  1   2254.0 2274.0
## - HIPOTECA        1   2261.5 2281.5
## - NUM_HIJOS       1   2262.8 2282.8
## - EDAD            1   2263.3 2283.3
## - NUM_TARJETAS    1   2268.1 2288.1
## - PRESTAMOS       1   2311.8 2331.8
## - INGRESOS        1   2323.8 2343.8
## - ESTADO_CIVIL    2   2427.1 2445.1
## 
## Step:  AIC=2266.15
## RIESGO ~ EDAD + INGRESOS + ESTADO_CIVIL + NUM_HIJOS + NUM_TARJETAS + 
##     MODALIDAD_PAGO + HIPOTECA + PRESTAMOS
## 
##                  Df Deviance    AIC
## <none>                2246.2 2266.2
## - MODALIDAD_PAGO  1   2254.1 2272.1
## - HIPOTECA        1   2261.6 2279.6
## - NUM_HIJOS       1   2262.8 2280.8
## - EDAD            1   2263.3 2281.3
## - NUM_TARJETAS    1   2268.2 2286.2
## - PRESTAMOS       1   2311.8 2329.8
## - INGRESOS        1   2324.6 2342.6
## - ESTADO_CIVIL    2   2427.2 2443.2
## 
## Call:
## glm(formula = RIESGO ~ EDAD + INGRESOS + ESTADO_CIVIL + NUM_HIJOS + 
##     NUM_TARJETAS + MODALIDAD_PAGO + HIPOTECA + PRESTAMOS, family = "binomial", 
##     data = Base.tr)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.3133  -0.4677  -0.3183  -0.1921   3.0300  
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)           5.443e-01  6.770e-01   0.804 0.421398    
## EDAD                  3.695e-02  8.891e-03   4.156 3.24e-05 ***
## INGRESOS              7.218e-05  8.450e-06   8.542  < 2e-16 ***
## ESTADO_CIVILMarried  -4.102e+00  3.559e-01 -11.526  < 2e-16 ***
## ESTADO_CIVILSingle   -4.069e+00  4.246e-01  -9.583  < 2e-16 ***
## NUM_HIJOS            -3.501e-01  8.657e-02  -4.045 5.24e-05 ***
## NUM_TARJETAS         -3.268e-01  7.038e-02  -4.643 3.43e-06 ***
## MODALIDAD_PAGOWeekly -5.470e-01  1.984e-01  -2.757 0.005832 ** 
## HIPOTECATiene         6.390e-01  1.655e-01   3.860 0.000113 ***
## PRESTAMOS            -9.427e-01  1.189e-01  -7.926 2.26e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3263.2  on 3292  degrees of freedom
## Residual deviance: 2246.2  on 3283  degrees of freedom
## AIC: 2266.2
## 
## Number of Fisher Scoring iterations: 6

El valor p indica que el modelo reducido tiene similar ajuste al modelo saturado con menos variables.

## Analysis of Deviance Table
## 
## Model 1: RIESGO ~ EDAD + INGRESOS + ESTADO_CIVIL + NUM_HIJOS + NUM_TARJETAS + 
##     MODALIDAD_PAGO + HIPOTECA + PRESTAMOS
## Model 2: RIESGO ~ EDAD + INGRESOS + GENERO + ESTADO_CIVIL + NUM_HIJOS + 
##     NUM_TARJETAS + MODALIDAD_PAGO + HIPOTECA + PRESTAMOS
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1      3283     2246.2                     
## 2      3282     2246.1  1 0.095358   0.7575

Cuando se realiza la prueba de ANOVA del modelo reducido frente al modelo nulo, se rechaza la hipótesis nula por lo que el modelo reducido es mejor que el modelo nulo.

## Analysis of Deviance Table
## 
## Model 1: RIESGO ~ 1
## Model 2: RIESGO ~ EDAD + INGRESOS + ESTADO_CIVIL + NUM_HIJOS + NUM_TARJETAS + 
##     MODALIDAD_PAGO + HIPOTECA + PRESTAMOS
##   Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
## 1      3292     3263.2                          
## 2      3283     2246.2  9   1017.1 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación de los parametros del modelo

Se observa que un incremento en la edad y los ingresos genera mayores probabilidades de impago, por el contrario, un ingremento en el número de hijos, tarjetas y préstamos la reduce. Respecto a las variables categóricas, los clientes casados y solteros tienen menos probabilidad de impago que los clientes divorciados. El tener hipoteca aumenta la probabilidad de impago respecto de los que no la tienen y por último, tener un acuerdo de modalidad de pago semanal disminuye la probabilidad de impago respecto a los clientes que pagan mensualmente.

## $Coeficientes
##                               Coef         2.5 %        97.5 %
## (Intercept)           5.442723e-01 -7.765953e-01  1.878490e+00
## EDAD                  3.695034e-02  1.951265e-02  5.438493e-02
## INGRESOS              7.217754e-05  5.578498e-05  8.893057e-05
## ESTADO_CIVILMarried  -4.102395e+00 -4.817946e+00 -3.421755e+00
## ESTADO_CIVILSingle   -4.068917e+00 -4.916455e+00 -3.250893e+00
## NUM_HIJOS            -3.501394e-01 -5.209592e-01 -1.814086e-01
## NUM_TARJETAS         -3.267773e-01 -4.656470e-01 -1.895863e-01
## MODALIDAD_PAGOWeekly -5.469568e-01 -9.442576e-01 -1.646212e-01
## HIPOTECATiene         6.389663e-01  3.178516e-01  9.673886e-01
## PRESTAMOS            -9.426873e-01 -1.177675e+00 -7.112156e-01
## 
## $OR
##                          e-beta       2.5 %     97.5 %
## (Intercept)          1.72335378 0.459969428 6.54361665
## EDAD                 1.03764149 1.019704265 1.05589097
## INGRESOS             1.00007218 1.000055787 1.00008893
## ESTADO_CIVILMarried  0.01653303 0.008083375 0.03265508
## ESTADO_CIVILSingle   0.01709589 0.007325052 0.03873959
## NUM_HIJOS            0.70458985 0.593950585 0.83409445
## NUM_TARJETAS         0.72124431 0.627728818 0.82730136
## MODALIDAD_PAGOWeekly 0.57870824 0.388968232 0.84821497
## HIPOTECATiene        1.89452153 1.374172323 2.63106472
## PRESTAMOS            0.38957952 0.307993942 0.49104691

Matriz de confusion utilizando Backward

En el caso del modelo reducido, se identifica una disminución de la sensibilidad y un aumento de la especificidad. En este caso, el objetivo del modelo es incrementar la sensibilidad, por lo que el modelo aún no es óptimo.

## Confusion Matrix and Statistics
## 
##               RIESGO - Obs
## RIESGO - RLred Cumplimiento Impago
##   Cumplimiento         2469    289
##   Impago                177    358
##                                           
##                Accuracy : 0.8585          
##                  95% CI : (0.8461, 0.8702)
##     No Information Rate : 0.8035          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.5205          
##                                           
##  Mcnemar's Test P-Value : 2.719e-07       
##                                           
##             Sensitivity : 0.5533          
##             Specificity : 0.9331          
##          Pos Pred Value : 0.6692          
##          Neg Pred Value : 0.8952          
##               Precision : 0.6692          
##                  Recall : 0.5533          
##                      F1 : 0.6058          
##              Prevalence : 0.1965          
##          Detection Rate : 0.1087          
##    Detection Prevalence : 0.1625          
##       Balanced Accuracy : 0.7432          
##                                           
##        'Positive' Class : Impago          
## 

Evaluación de los puntos de corte de las probabilidades predichas vs la Densidad

El gráfico muestra una distribución positiva para los clientes que cumplen, mientras que las probabilidades predichas para las personas incumplidas tienen una distribucíon con una leve asimetría negativa.

Exploración del mejor punte de corte

Al revisar la curva ROC, se observa que un mejor punto de corte es el de 0.192

Matriz de Confusion con el nuevo punto de corte

Se observa que con el nuevo punto de corte, se mejora notablemente la sensibilidad sacrificando la especificidad del modelo. Ahora la sensibilidad es del 79.13%

## Confusion Matrix and Statistics
## 
##               Reference
## Prediction     Cumplimiento Impago
##   Cumplimiento         2196    135
##   Impago                450    512
##                                           
##                Accuracy : 0.8224          
##                  95% CI : (0.8089, 0.8353)
##     No Information Rate : 0.8035          
##     P-Value [Acc > NIR] : 0.0032          
##                                           
##                   Kappa : 0.5248          
##                                           
##  Mcnemar's Test P-Value : <2e-16          
##                                           
##             Sensitivity : 0.7913          
##             Specificity : 0.8299          
##          Pos Pred Value : 0.5322          
##          Neg Pred Value : 0.9421          
##              Prevalence : 0.1965          
##          Detection Rate : 0.1555          
##    Detection Prevalence : 0.2921          
##       Balanced Accuracy : 0.8106          
##                                           
##        'Positive' Class : Impago          
## 

Algoritmo de Aprendizaje Automatico - SVM

##    (Intercept)           EDAD       INGRESOS         GENERO   ESTADO_CIVIL 
##   -0.013985811    0.223508160    0.514489099    0.001580848   -0.001580848 
##      NUM_HIJOS   NUM_TARJETAS MODALIDAD_PAGO       HIPOTECA      PRESTAMOS 
##   -1.445537782   -1.353076925   -0.204436813   -0.338729225   -0.165220381 
##           <NA>           <NA> 
##    0.252774474   -0.459105154

El modelo de soporte vectorial se construyó con un Kernel lineal y con un costo de 1. Adicionalmente el número de soportes es de 1077; 537 para la categoría cumplimiento y 541 para la de impago.

## 
## Call:
## svm(formula = RIESGO ~ ., data = Base.tr, type = "C-classification", 
##     kernel = "linear", cost = 1, epsilon = 0.1, scale = TRUE)
## 
## 
## Parameters:
##    SVM-Type:  C-classification 
##  SVM-Kernel:  linear 
##        cost:  1 
## 
## Number of Support Vectors:  1077
## 
##  ( 536 541 )
## 
## 
## Number of Classes:  2 
## 
## Levels: 
##  Cumplimiento Impago

Matriz de confusion SVM

El primer modelo de SVM se observa que la sensibilidad es de 67.85% y especificidad del 92.29% por debajo del modelo de regresión logística reducido. Se realizará un tuning de los hiperparametros de penalidad e intensidad buscando encontrar un mejor resultado.

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6785162            0.9229025            0.6827372 
##       Neg Pred Value            Precision               Recall 
##            0.9215094            0.6827372            0.6785162 
##                   F1           Prevalence       Detection Rate 
##            0.6806202            0.1964774            0.1333131 
## Detection Prevalence    Balanced Accuracy 
##            0.1952627            0.8007094

Tuning los hiperparametros c (penalidad) y epsilon (intensidad)

Se encuentra que los mejores hiperparámetros son costo 1 y en el que se alcanza un performance de 0.1248. No obstante, se observa que el hiperparámetro costo puede tomar cualquier valor entre 1 y 32 sin alterar el error ni la disperción del modelo, lo cual tambien se puede observar en la gráfica.

## 
## Parameter tuning of 'svm':
## 
## - sampling method: 10-fold cross validation 
## 
## - best parameters:
##  cost
##     1
## 
## - best performance: 0.1248015 
## 
## - Detailed performance results:
##   cost     error dispersion
## 1    1 0.1248015 0.01240729
## 2    2 0.1248015 0.01240729
## 3    4 0.1248015 0.01240729
## 4    8 0.1248015 0.01240729
## 5   16 0.1248015 0.01240729
## 6   32 0.1248015 0.01240729

Matriz de confusion SVM - Parametros nuevos

Con los hiperparámetros ajustados, no se observa ningún cambio respecto al modelos propuesto inicialmente.

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6785162            0.9229025            0.6827372 
##       Neg Pred Value            Precision               Recall 
##            0.9215094            0.6827372            0.6785162 
##                   F1           Prevalence       Detection Rate 
##            0.6806202            0.1964774            0.1333131 
## Detection Prevalence    Balanced Accuracy 
##            0.1952627            0.8007094

Un Modelo Ensamble - Random Forest - Bosque Aleatorio

Al realizar el modelo de ensamble a través de Random Forest, se identica que las variables mas importantes para clasificar son, los ingresos, los préstamos, la edad y el número de hijos.

Matriz de Confusion - Random Forest - Bosque Aleatorio

La matriz de confusión muestra una sensibilidad del 65.84% y especificidad del 92,32% siendo este modelo peor clasificador que los de regresión logística reducido y máquina de soporte vectorial. Se realizará un tuneo de los hiperparámetros para buscar un mejor resultado.

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6584235            0.9232804            0.6772655 
##       Neg Pred Value            Precision               Recall 
##            0.9170420            0.6772655            0.6584235 
##                   F1           Prevalence       Detection Rate 
##            0.6677116            0.1964774            0.1293653 
## Detection Prevalence    Balanced Accuracy 
##            0.1910112            0.7908520

Validacion Cruzada - Random forest

Se identifica que el valor óptimo de mtry es de 2 puesto que genera los valores más altos de Accuracy y Kappa.

## Random Forest 
## 
## 3293 samples
##    9 predictor
##    2 classes: 'Cumplimiento', 'Impago' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 10 times) 
## Summary of sample sizes: 2963, 2964, 2963, 2964, 2964, 2964, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy   Kappa    
##   2     0.8770056  0.6123568
##   3     0.8749710  0.6035356
##   4     0.8658917  0.5628447
##   5     0.8595478  0.5327528
##   6     0.8573286  0.5217786
##   7     0.8557507  0.5153559
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 2.

Indicadores de correcta clasificacion - RF tuneado

Al correr el modelo de random forest con los hiperparametros ajustados, se observa una sensibilidad del 69.49% y una especificidad del 92.17%, mejorando la sensibilidad respecto al modelo pasado.

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6939722            0.9217687            0.6844512 
##       Neg Pred Value            Precision               Recall 
##            0.9249147            0.6844512            0.6939722 
##                   F1           Prevalence       Detection Rate 
##            0.6891788            0.1964774            0.1363498 
## Detection Prevalence    Balanced Accuracy 
##            0.1992104            0.8078704

Punto 4

Genere una recomendación a la cooperativa respecto al modelo que debe emplear para el otorgamiento del crédito. Explicando las ventajas y desventajas de cada uno de los modelos que ha probado.

Comparacion con datos de entrenamiento - bondad de ajuste

Para este análisis, lo mas importante es tratar de identificar cuáles son los clientes que probablemente no cumplen con sus obligaciones financieras, por este motivo, para seleccionar el mejor modelo nos basaremos en el indicador de sensibilidad el cuál indica cuál es el nivel de clasificación del modelo en cuanto a los clientes que incumplirán.

Teniendo lo anterior en cuenta, al comparar los resultados de los modelos con los datos de entrenamiento se observa que los tres modelos logran predecir con buen desempeño los clientes cumplidos (esto provocado por la cantidad de clientes con cumplimiento) sin embargo, al tratar de identificar los clientes con impago, el mejor modelo es la regresión logística ajustada utilizando backward, seguido por Random forest y por último la Maquina de Soporte Vectorial.

##                      RL_red_adj   svm_adj    RF_adj
## Sensitivity           0.7913447 0.6785162 0.6939722
## Specificity           0.8299320 0.9229025 0.9217687
## Pos Pred Value        0.5322245 0.6827372 0.6844512
## Neg Pred Value        0.9420849 0.9215094 0.9249147
## Precision             0.5322245 0.6827372 0.6844512
## Recall                0.7913447 0.6785162 0.6939722
## F1                    0.6364201 0.6806202 0.6891788
## Prevalence            0.1964774 0.1964774 0.1964774
## Detection Rate        0.1554813 0.1333131 0.1363498
## Detection Prevalence  0.2921348 0.1952627 0.1992104
## Balanced Accuracy     0.8106383 0.8007094 0.8078704

Comparacion con datos de test - Capacidad predictiva

Al revisar la capacidad predictiva de los modelos con los datos test, nos damos cuenta que posiblemente el modelo de regresión presenta un sobreajuste, puesto que su sensibilidad disminuye significativamente con datos nuevos. Los otros dos modelos, aunque también se ven afectados, terminan teniendo un mejor desempeño en la clasificación, resaltando por encima de todos el random forest.

##                      RL_red_adj   svm_adj    RF_adj
## Sensitivity          0.43949045 0.5732484 0.5987261
## Specificity          0.94144144 0.9264264 0.9264264
## Pos Pred Value       0.63888889 0.6474820 0.6573427
## Neg Pred Value       0.87692308 0.9020468 0.9073529
## Precision            0.63888889 0.6474820 0.6573427
## Recall               0.43949045 0.5732484 0.5987261
## F1                   0.52075472 0.6081081 0.6266667
## Prevalence           0.19076549 0.1907655 0.1907655
## Detection Rate       0.08383961 0.1093560 0.1142163
## Detection Prevalence 0.13122722 0.1688943 0.1737546
## Balanced Accuracy    0.69046594 0.7498374 0.7625763

Conclusiones

La elección del mejor modelo dependerá de las necesidades del uso que se le quiera dar. 1. Cuando se trata de poder interpretar los datos, el modelo de regresión logística es el más adecuado para implementarse. 2. Cuando se trata de poder predecir correctamente si un cliente tiene puede caer en impago, el random forest es un modelo mas ajustado a esta necesidad.

Debido a que en este caso, la cooperativa necesitará identificar a los clientes que pueden caer en impago el mejor modelo que se le puede recomendar es el random forest, no obstante, este modelo no permite interpretar sus resultados y en caso de que la interpretación del análisis sea importante, se le recomienda utilizar la regresión logística que le permitirá tener una visión general de las clasificaciones de sus clientes en función de las variables optenidas.