Introducción

Este documento hace parte del trabajo del curso de Métodos multivariados aplicados de la Universidad Nacional de Colombia para la Maestría y Especialización en Estadística. El alcance de este documento reporta de manera técnica el paso a paso que se llevó a cabo para la consolidación del trabajo.

Tabla 1. Datos sin procesar

No Agencia Código de Crédito ID Cliente Estado del Cliente Calif Aplicada por Temporalidad Actividad Laboral Cliente Edad Cliente Estado Civil Cliente Estrato Cliente Ciudad de Nacimiento Cliente Nivel de Escolaridad Cliente Genero Cliente Saldo Aportes A la Fecha No Pagaré Rotativo Cupo Otorgado Crédito Rotativo Saldo Capital Crédito Rotativo Vencimiento Capital 30+ Días Vencidos Crédito a la Fecha Clasificación Tipo Crédito Fec Aprobación Crédito Vlr Cuota Crédito Periodicidad de la Cuota Altura del Crédito Fec Vencto Crédito
02 3389-02068835 74558 Asociado Activo A Independiente 18 Soltero 6 BOGOTA secundaria Femenino 28130101 02068835 15000000 7182388 0 0 1 - Consumo 41499 534940 Mensual 21 42185 1
02 7921-02067638 174262 Asociado Activo A Independiente 25 Soltero 2 BOGOTA tecnólogo Femenino 21674133 02067638 19265169 9624719 0 0 1 - Consumo 41283 556097 Mensual 28 42185 1
02 57143-02071200 1257146 Asociado Activo A Empleado 22 Soltero 3 BOGOTA técnico Femenino 53881069 02071200 15100000 12755977 0 0 1 - Consumo 42094 1376475 Mensual 2 42185 1
02 80666-02054498 1774652 Asociado Activo A Jubilado 18 Separado 4 BOGOTA tecnólogo Femenino 9250590 02054498 100000 478336 0 0 1 - Consumo 39403 93750 Mensual 5 42185 1
02 81030-02066986 1782660 Asociado Activo A Independiente 24 Viudo 1 BOGOTA secundaria Femenino 7020365 02066986 4900000 2168812 0 0 1 - Consumo 41185 146562 Mensual 31 42160 1
02 98819-02068496 2174018 Asociado Activo A Independiente 20 Viudo 6 BOGOTA Universitario Masculino 41952298 02068496 36000000 21744188 0 0 1 - Consumo 41443 1039154 Mensual 23 42185 1

Al observar los datos crudos se puede decir que hay varias oportunidades de mejora: en cuanto a los nombres des las variables (homogeneización de los nombres, eliminar tildes, eliminar espacios y demás) y a la corrección de los campos FEC_VENCTO_CREDITO FEC_APROBACION_CREDITO que son fechas pero se encuentran en formato numérico. Así mismo, se observa que la variable objetivo (a predecir) tiene un nombre poco amigable y en consecuencia se puede transformar. Otro hecho relevante es que varios campos que hacen referencia a información del usuario que toma el crédito, al consecutivo del crédito y al pagaré del rotativo por cual estos campos se pueden omitir del análisis. Y finalmente, basado en las fechas de vencimiento del crédito y la aprobación se puede construir una variable que sea la diferencia o plazo en que se debe pagar el crédito.

Tabla 2. Datos procesados

AGENCIA CLIENTE CALIF_APLICADATEMPORALIDAD ACTIVIDAD_LABORAL_CLIENTE EDAD_CLIENTE CIVIL_CLIENTE ESTRATO_CLIENTE CIUDADNACIMIENTO_CLIENTE NIVELESCOLARIDAD_CLIENTE GENERO_CLIENTE SALDO_APORTES_FECHA CUPO_OTORGADO_CREDITO_ROTATIVO SALDO_CAPITAL_CREDITO_ROTATIVO VENCIMIENTO_CAPITAL_30+ DIAS_VENCIDOS_CREDITO_FECHA CLASIFICACION_TIPO_CREDITO FEC_APROBACION_CREDITO VLR_CUOTA_CREDITO PERIODICIDAD_CUOTA ALTURACREDITO FEC_VENCTO_CREDITO Y PLAZO_CREDITO
02 Asociado Activo A Independiente 18 Soltero 6 BOGOTA secundaria Femenino 28130101 15000000 7182388 0 0 1 - Consumo 2013-08-15 534940 Mensual 21 2015-07-02 1 686
02 Asociado Activo A Independiente 25 Soltero 2 BOGOTA tecnólogo Femenino 21674133 19265169 9624719 0 0 1 - Consumo 2013-01-11 556097 Mensual 28 2015-07-02 1 902
02 Asociado Activo A Empleado 22 Soltero 3 BOGOTA técnico Femenino 53881069 15100000 12755977 0 0 1 - Consumo 2015-04-02 1376475 Mensual 2 2015-07-02 1 91
02 Asociado Activo A Jubilado 18 Separado 4 BOGOTA tecnólogo Femenino 9250590 100000 478336 0 0 1 - Consumo 2007-11-19 93750 Mensual 5 2015-07-02 1 2782
02 Asociado Activo A Independiente 24 Viudo 1 BOGOTA secundaria Femenino 7020365 4900000 2168812 0 0 1 - Consumo 2012-10-05 146562 Mensual 31 2015-06-07 1 975
02 Asociado Activo A Independiente 20 Viudo 6 BOGOTA Universitario Masculino 41952298 36000000 21744188 0 0 1 - Consumo 2013-06-20 1039154 Mensual 23 2015-07-02 1 742

Gráficos descriptivos

Gráfico 1. Distribución del Default por Agencia

Gráfico 2. Distribución del Default por Tipo de cliente

Gráfico 3. Distribución del Default por Calificación del cliente

Gráfico 4. Distribución del Default por Actividad laboral del cliente

Gráfico 5. Distribución del Default por Estado civil del cliente

Gráfico 6. Distribución del Default por Estrato del cliente

Gráfico 7. Distribución del Default por Ciudad nacimiento del cliente

Gráfico 8. Distribución del Default por Escolaridad del cliente

Gráfico 9. Distribución del Default por Genero del cliente

Gráfico 10. Distribución del Default por Tipo del crédito del cliente

Gráfico 11. Distribución del Default por Tipo del crédito del cliente

Gráfico 12. Comportamiento del valor de la cuota por Default del cliente

Gráfico 13. Comportamiento del saldo para crédito rotativo por Default del cliente

Gráfico 14. Comportamiento del cupo para crédito rotativo por Default del cliente

El análisis que se puede realizar sobre estos gráficos es interesante por lo siguiente:

1. Para el año 2005 se puede presumir que no tuvo operación todo el año sino tan solo desde agosto y donde en general las distintas medidas (Valor de la cuota, Saldos de capital para crédito rotativo y el Cupo del capital para crédito rotativo) fueron decrecientes.

2. El análisis entre años no presenta mayores variaciones o cambios que llamen la atención. Lo que sí cabe resaltar es que los valores entre años fueron crecientes para las distintas medidas (Valor de la cuota, Saldos de capital para crédito rotativo y el Cupo del capital para crédito rotativo) en favor que empezaron con valores bajos en la medida que pasaban los años estos indicadores iban creciendo.

3. En cuanto al análisis de las gráficas de barras en comparación por default se puede decir que casi todas las categorías tienen una distribución similar entre ellas en relación con el default con algunas excepciones como la ciudad de nacimiento, la agencia donde se otorgó el crédito y el tipo de crédito.

4. Otro hecho a resaltar es que las variables PERIODICIDAD_CUOTA y CLASIFICACION_TIPO_CREDITO valdría la pena realizar algún tipo de imputación en cuenta a la primera y un eliminado de variable para la segunda. Sin embargo, en el siguiente apartado se explica en detalle estos cambios y sus razones.

Tablas de contingencia

El valor de las tablas de contingencia radica en que muestra la distribución de las categorías en relación con la variable a predecir, lo cual ayuda a entender cual es la distribución de los labels, si hay variables que tienen muchos o pocos labels, si se debe o no recategorizar algunos lables y por si hay variables que tienen un solo label y se puede omitir del análisis. En el caso en particular se puede decir que las labels están más o menos iguales aunque con una breve excepción para la ciudad de nacimiento que si tiene un mayor número de labels. Un hecho relevante es la variable PERIODICIDAD_CUOTA que tiene una sola observación que hace referencia al pago Bimensual, esto puede generar un problema a la hora del entrenamiento del modelo toda vez que al ser una sola observación puede quedar en training o testing y eso por supuesto hace que (si queda en training) aprenda con este label pero no estará en testing y genera un error y al contrario si queda en testing puede que al pasarle esta observación a un modelo que no conoce este label no generé la predicción; por esta razón se decide recategorizar esta observación en Mensual y así no generar ningún problema. Por último, la variable CLASIFICACION_TIPO_CREDITO se puede ver que solo hace referencia a un mismo valor ‘1 - Consumo’ esto genera que en la etapa de entrenamiento se generé un sesgo; por tal razón se omite para la etapa de entrenamiento del modelo.

Tabla de contingencia Y ~ AGENCIA

   AGENCIA
Y     02   03   04   05   06   07   08   09   10   11   12   13   14   15   16
  0 1211  883  438  651  381  821  229  227  326  430  217  315  217  331   20
  1  207  155  323  128   52   95   41  191   30   81  259   87   31  122   19
   AGENCIA
Y     17   18   19   20   21
  0   86   36  150    4  242
  1   53    7   17    1   21

Tabla de contingencia Y ~ CLIENTE

   CLIENTE
Y   Asociado Activo Asociado Inactivo o Sancionado No asociado
  0            6591                             20         466
  1            1721                              8         159
   CLIENTE
Y   Solicitud de Retiro
  0                 138
  1                  32

Tabla de contingencia Y ~ CALIF_APLICADATEMPORALIDAD

   CALIF_APLICADATEMPORALIDAD
Y      A    B    C    D    E
  0 6337  201  114  150  413
  1 1679   37   29   46  129

Tabla de contingencia Y ~ ACTIVIDAD_LABORAL_CLIENTE

   ACTIVIDAD_LABORAL_CLIENTE
Y   Empleado Independiente Jubilado
  0     2384          2424     2407
  1      613           657      650

Tabla de contingencia Y ~ CIVIL_CLIENTE

   CIVIL_CLIENTE
Y   Casado Separado Soltero Viudo
  0   1822     1820    1776  1797
  1    316      498     648   458

Tabla de contingencia Y ~ ESTRATO_CLIENTE

   ESTRATO_CLIENTE
Y      1    2    3    4    5    6
  0 1133 1196 1226 1206 1194 1260
  1  322  303  308  305  345  337

Tabla de contingencia Y ~ CIUDADNACIMIENTO_CLIENTE

   CIUDADNACIMIENTO_CLIENTE
Y   ARMENIA BARRANCABERMEJA BARRANQUILLA BOGOTA BUCARAMANGA BUGA CALI CARTAGENA
  0     150             883           86   1211         651  821  430       438
  1      17             155           53    207         128   95   81       323
   CIUDADNACIMIENTO_CLIENTE
Y   CUCUTA IBAGUE LA DORADA MANIZALES MEDELLIN MELGAR MONTERIA NEIVA PASTO
  0    381     36       227       331      315    326      242   217   217
  1     52      7       191       122       87     30       21   259    31
   CIUDADNACIMIENTO_CLIENTE
Y   VALLEDUPAR VILLAVICENCIO YOPAL
  0         20           229     4
  1         19            41     1

Tabla de contingencia Y ~ NIVELESCOLARIDAD_CLIENTE

   NIVELESCOLARIDAD_CLIENTE
Y   Posgrado primaria secundaria técnico tecnólogo Universitario
  0      998     1065       1062    2109       994           987
  1      291      276        251     541       286           275

Tabla de contingencia Y ~ GENERO_CLIENTE

   GENERO_CLIENTE
Y   Femenino Masculino
  0     3544      3671
  1      953       967

Tabla de contingencia Y ~ CLASIFICACION_TIPO_CREDITO

   CLASIFICACION_TIPO_CREDITO
Y   1 - Consumo
  0        7215
  1        1920

Tabla de contingencia Y ~ PERIODICIDAD_CUOTA

   PERIODICIDAD_CUOTA
Y   Bimensual Mensual Quincenal
  0         0    6948       267
  1         1    1853        66

Entrenamiento del modelo

Para el entrenamiento del modelo se probaran 2 modelos (Regresion logistica y Random Forest) se toma como referencia estos algoritmos toda vez que se requiere dar interpretabilidad del modelo lo que lleva a que algortimos de caja negra y de mayor complejidad suponen una perdida de interpretabilidad.

Proporcion de clases para el data set original 
Y
       0        1 
78.98194 21.01806 
Proporcion de clases para el data set training  
Y
       0        1 
78.89667 21.10333 
Proporcion de clases para el data set testing  
Y
       0        1 
78.89667 21.10333 

Resultados de la Regresion Logistica

Generalized Linear Model 

6852 samples
  22 predictor
   2 classes: '0', '1' 

No pre-processing
Resampling: Cross-Validated (5 fold) 
Summary of sample sizes: 5482, 5481, 5482, 5482, 5481 
Resampling results:

  Accuracy   Kappa    
  0.9643895  0.8936281

Resumen Regresión Logistica


Call:
NULL

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-3.13838  -0.00004   0.00000   0.00000   2.39579  

Coefficients: (20 not defined because of singularities)
                                                Estimate       Std. Error
(Intercept)                              20.823402733291  19.301128033879
AGENCIA03                                 0.123133844137   0.353379342302
AGENCIA04                                 1.798137504716   0.357628227857
AGENCIA05                                 0.440930287581   0.409910759224
AGENCIA06                                 0.395788119640   0.510425689165
AGENCIA07                                -0.097260398964   0.404689102170
AGENCIA08                                 0.543931144149   0.528846890342
AGENCIA09                                 2.589302486753   0.456863678932
AGENCIA10                                -0.794264262219   0.612759846026
AGENCIA11                                 0.031828443078   0.487761367106
AGENCIA12                                 3.033944424334   0.495069612871
AGENCIA13                                 0.928937589475   0.483705922339
AGENCIA14                                -0.333756252701   0.603928455754
AGENCIA15                                 1.987849833218   0.483188061727
AGENCIA16                                 0.597955208580   1.370831693297
AGENCIA17                                 2.425676794669   0.880963553276
AGENCIA18                                 0.946743361798   0.993113133123
AGENCIA19                                -0.468791048239   0.752136783179
AGENCIA20                                15.356268583076 413.911400034892
AGENCIA21                                -0.938580917700   0.590721280255
`CLIENTEAsociado Inactivo o Sancionado`  -0.339192771270   1.317051764765
`CLIENTENo asociado`                      0.725253257372   0.464145263193
`CLIENTESolicitud de Retiro`              0.094741696773   0.678632413302
CALIF_APLICADATEMPORALIDADB              -0.298284269091   0.632994990272
CALIF_APLICADATEMPORALIDADC              -0.166370987864   0.899731977959
CALIF_APLICADATEMPORALIDADD              -0.025931430031   0.710375230381
CALIF_APLICADATEMPORALIDADE              -0.098199525366   0.877248235243
ACTIVIDAD_LABORAL_CLIENTEIndependiente   -0.075843451024   0.218391502191
ACTIVIDAD_LABORAL_CLIENTEJubilado         0.041775712070   0.224476288166
EDAD_CLIENTE                             -1.747756628011   0.105315641217
CIVIL_CLIENTESeparado                     0.199397091262   0.271317263780
CIVIL_CLIENTESoltero                      0.503129920220   0.268130936354
CIVIL_CLIENTEViudo                        0.114068626551   0.269483939945
ESTRATO_CLIENTE                           0.034555128505   0.053078191051
CIUDADNACIMIENTO_CLIENTEBARRANCABERMEJA               NA               NA
CIUDADNACIMIENTO_CLIENTEBARRANQUILLA                  NA               NA
CIUDADNACIMIENTO_CLIENTEBOGOTA                        NA               NA
CIUDADNACIMIENTO_CLIENTEBUCARAMANGA                   NA               NA
CIUDADNACIMIENTO_CLIENTEBUGA                          NA               NA
CIUDADNACIMIENTO_CLIENTECALI                          NA               NA
CIUDADNACIMIENTO_CLIENTECARTAGENA                     NA               NA
CIUDADNACIMIENTO_CLIENTECUCUTA                        NA               NA
CIUDADNACIMIENTO_CLIENTEIBAGUE                        NA               NA
`CIUDADNACIMIENTO_CLIENTELA DORADA`                   NA               NA
CIUDADNACIMIENTO_CLIENTEMANIZALES                     NA               NA
CIUDADNACIMIENTO_CLIENTEMEDELLIN                      NA               NA
CIUDADNACIMIENTO_CLIENTEMELGAR                        NA               NA
CIUDADNACIMIENTO_CLIENTEMONTERIA                      NA               NA
CIUDADNACIMIENTO_CLIENTENEIVA                         NA               NA
CIUDADNACIMIENTO_CLIENTEPASTO                         NA               NA
CIUDADNACIMIENTO_CLIENTEVALLEDUPAR                    NA               NA
CIUDADNACIMIENTO_CLIENTEVILLAVICENCIO                 NA               NA
CIUDADNACIMIENTO_CLIENTEYOPAL                         NA               NA
NIVELESCOLARIDAD_CLIENTEprimaria         -0.111664800043   0.333480445432
NIVELESCOLARIDAD_CLIENTEsecundaria       -0.664831063529   0.335008147339
NIVELESCOLARIDAD_CLIENTEtécnico          -0.648891435925   0.296062469716
NIVELESCOLARIDAD_CLIENTEtecnólogo        -0.406031648710   0.342057934189
NIVELESCOLARIDAD_CLIENTEUniversitario    -0.406181498841   0.336697588891
GENERO_CLIENTEMasculino                   0.277517541110   0.184309475577
SALDO_APORTES_FECHA                       0.000000037301   0.000000011838
CUPO_OTORGADO_CREDITO_ROTATIVO            0.000000001162   0.000000025240
SALDO_CAPITAL_CREDITO_ROTATIVO           -0.000000024148   0.000000022193
`\\`VENCIMIENTO_CAPITAL_30+\\``          -0.000000074824   0.000000239659
DIAS_VENCIDOS_CREDITO_FECHA               0.003230133592   0.001938984547
FEC_APROBACION_CREDITO                    0.000724773509   0.000988331658
VLR_CUOTA_CREDITO                         0.000001330658   0.000000852133
PERIODICIDAD_CUOTAQuincenal              -0.115528338385   0.560625928360
ALTURACREDITO                            -0.009246264802   0.012120797070
FEC_VENCTO_CREDITO                        0.000648723551   0.000850194511
PLAZO_CREDITO                                         NA               NA
YEAR2006                                  2.734916138704   2.270156355504
YEAR2007                                  1.092754062655   1.842040886658
YEAR2008                                  0.175101835772   2.007533952710
YEAR2009                                  1.563484909709   3.226701272668
YEAR2010                                  0.952581691734   2.463674093685
YEAR2011                                 -0.904186225198   2.684140179594
YEAR2012                                 -1.017616140385   2.937018822965
YEAR2013                                 -1.175681877874   3.208003632531
YEAR2014                                 -1.647669295179   3.512830821212
YEAR2015                                 -2.282845974934   3.698167791660
                                        z value             Pr(>|z|)    
(Intercept)                               1.079              0.28065    
AGENCIA03                                 0.348              0.72750    
AGENCIA04                                 5.028       0.000000495746 ***
AGENCIA05                                 1.076              0.28207    
AGENCIA06                                 0.775              0.43810    
AGENCIA07                                -0.240              0.81007    
AGENCIA08                                 1.029              0.30370    
AGENCIA09                                 5.668       0.000000014485 ***
AGENCIA10                                -1.296              0.19490    
AGENCIA11                                 0.065              0.94797    
AGENCIA12                                 6.128       0.000000000888 ***
AGENCIA13                                 1.920              0.05480 .  
AGENCIA14                                -0.553              0.58051    
AGENCIA15                                 4.114       0.000038881209 ***
AGENCIA16                                 0.436              0.66269    
AGENCIA17                                 2.753              0.00590 ** 
AGENCIA18                                 0.953              0.34043    
AGENCIA19                                -0.623              0.53310    
AGENCIA20                                 0.037              0.97040    
AGENCIA21                                -1.589              0.11209    
`CLIENTEAsociado Inactivo o Sancionado`  -0.258              0.79676    
`CLIENTENo asociado`                      1.563              0.11816    
`CLIENTESolicitud de Retiro`              0.140              0.88897    
CALIF_APLICADATEMPORALIDADB              -0.471              0.63748    
CALIF_APLICADATEMPORALIDADC              -0.185              0.85330    
CALIF_APLICADATEMPORALIDADD              -0.037              0.97088    
CALIF_APLICADATEMPORALIDADE              -0.112              0.91087    
ACTIVIDAD_LABORAL_CLIENTEIndependiente   -0.347              0.72838    
ACTIVIDAD_LABORAL_CLIENTEJubilado         0.186              0.85236    
EDAD_CLIENTE                            -16.595 < 0.0000000000000002 ***
CIVIL_CLIENTESeparado                     0.735              0.46239    
CIVIL_CLIENTESoltero                      1.876              0.06060 .  
CIVIL_CLIENTEViudo                        0.423              0.67209    
ESTRATO_CLIENTE                           0.651              0.51503    
CIUDADNACIMIENTO_CLIENTEBARRANCABERMEJA      NA                   NA    
CIUDADNACIMIENTO_CLIENTEBARRANQUILLA         NA                   NA    
CIUDADNACIMIENTO_CLIENTEBOGOTA               NA                   NA    
CIUDADNACIMIENTO_CLIENTEBUCARAMANGA          NA                   NA    
CIUDADNACIMIENTO_CLIENTEBUGA                 NA                   NA    
CIUDADNACIMIENTO_CLIENTECALI                 NA                   NA    
CIUDADNACIMIENTO_CLIENTECARTAGENA            NA                   NA    
CIUDADNACIMIENTO_CLIENTECUCUTA               NA                   NA    
CIUDADNACIMIENTO_CLIENTEIBAGUE               NA                   NA    
`CIUDADNACIMIENTO_CLIENTELA DORADA`          NA                   NA    
CIUDADNACIMIENTO_CLIENTEMANIZALES            NA                   NA    
CIUDADNACIMIENTO_CLIENTEMEDELLIN             NA                   NA    
CIUDADNACIMIENTO_CLIENTEMELGAR               NA                   NA    
CIUDADNACIMIENTO_CLIENTEMONTERIA             NA                   NA    
CIUDADNACIMIENTO_CLIENTENEIVA                NA                   NA    
CIUDADNACIMIENTO_CLIENTEPASTO                NA                   NA    
CIUDADNACIMIENTO_CLIENTEVALLEDUPAR           NA                   NA    
CIUDADNACIMIENTO_CLIENTEVILLAVICENCIO        NA                   NA    
CIUDADNACIMIENTO_CLIENTEYOPAL                NA                   NA    
NIVELESCOLARIDAD_CLIENTEprimaria         -0.335              0.73774    
NIVELESCOLARIDAD_CLIENTEsecundaria       -1.985              0.04720 *  
NIVELESCOLARIDAD_CLIENTEtécnico          -2.192              0.02840 *  
NIVELESCOLARIDAD_CLIENTEtecnólogo        -1.187              0.23522    
NIVELESCOLARIDAD_CLIENTEUniversitario    -1.206              0.22768    
GENERO_CLIENTEMasculino                   1.506              0.13214    
SALDO_APORTES_FECHA                       3.151              0.00163 ** 
CUPO_OTORGADO_CREDITO_ROTATIVO            0.046              0.96328    
SALDO_CAPITAL_CREDITO_ROTATIVO           -1.088              0.27657    
`\\`VENCIMIENTO_CAPITAL_30+\\``          -0.312              0.75488    
DIAS_VENCIDOS_CREDITO_FECHA               1.666              0.09574 .  
FEC_APROBACION_CREDITO                    0.733              0.46336    
VLR_CUOTA_CREDITO                         1.562              0.11839    
PERIODICIDAD_CUOTAQuincenal              -0.206              0.83674    
ALTURACREDITO                            -0.763              0.44556    
FEC_VENCTO_CREDITO                        0.763              0.44545    
PLAZO_CREDITO                                NA                   NA    
YEAR2006                                  1.205              0.22831    
YEAR2007                                  0.593              0.55303    
YEAR2008                                  0.087              0.93049    
YEAR2009                                  0.485              0.62800    
YEAR2010                                  0.387              0.69901    
YEAR2011                                 -0.337              0.73622    
YEAR2012                                 -0.346              0.72898    
YEAR2013                                 -0.366              0.71400    
YEAR2014                                 -0.469              0.63904    
YEAR2015                                 -0.617              0.53704    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 7062.0  on 6851  degrees of freedom
Residual deviance:  828.3  on 6792  degrees of freedom
AIC: 948.3

Number of Fisher Scoring iterations: 12

Matrix de confusión de la Regresión Logistica

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1768   41
         1   35  439
                                             
               Accuracy : 0.9667             
                 95% CI : (0.9585, 0.9737)   
    No Information Rate : 0.7898             
    P-Value [Acc > NIR] : <0.0000000000000002
                                             
                  Kappa : 0.8993             
                                             
 Mcnemar's Test P-Value : 0.5663             
                                             
            Sensitivity : 0.9806             
            Specificity : 0.9146             
         Pos Pred Value : 0.9773             
         Neg Pred Value : 0.9262             
             Prevalence : 0.7898             
         Detection Rate : 0.7744             
   Detection Prevalence : 0.7924             
      Balanced Accuracy : 0.9476             
                                             
       'Positive' Class : 0                  
                                             

Curva ROC de la Regresión Logistica

Resultados del Random Forest

Random Forest 

6852 samples
  22 predictor
   2 classes: '0', '1' 

No pre-processing
Resampling: Cross-Validated (5 fold) 
Summary of sample sizes: 5482, 5482, 5482, 5480, 5482 
Resampling results across tuning parameters:

  mtry  Accuracy   Kappa    
   2    0.8152357  0.1843619
  40    0.9677477  0.9035163
  79    0.9674555  0.9026031

Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 40.
Time difference of 3.077597 mins

Matrix de confusión del Random Forest

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1770   39
         1   32  442
                                             
               Accuracy : 0.9689             
                 95% CI : (0.9609, 0.9756)   
    No Information Rate : 0.7893             
    P-Value [Acc > NIR] : <0.0000000000000002
                                             
                  Kappa : 0.906              
                                             
 Mcnemar's Test P-Value : 0.4764             
                                             
            Sensitivity : 0.9822             
            Specificity : 0.9189             
         Pos Pred Value : 0.9784             
         Neg Pred Value : 0.9325             
             Prevalence : 0.7893             
         Detection Rate : 0.7753             
   Detection Prevalence : 0.7924             
      Balanced Accuracy : 0.9506             
                                             
       'Positive' Class : 0                  
                                             

Curva ROC del Random Forest

Al observar los resultados de estos 2 algoritmos se puede observar que no hay mucha diferencia entre y uno lo cual hace pensar que por simplicidad y por la razón de interpretabilidad se puede tomar la regresión logística como el algoritmo a escoger como el mejor modelo que generaliza los resultados de los datos obtenidos.

Preguntas a resolver

Cómo se mencionó anteriormente la metodología estadística elegida para el desarrollo del modelo es una regresión logística toda vez que se busca que haya una interpretabilidad en el modelo. Si bien se podía probar con otros algoritmos (que quizás ofrecieron mejores resultados) el hecho de tener un modelo más simple y con una mejor capacidad de interpretabilidad hacía pensar que se optará por algo menos complejo.

Con la regresión logística se obtienen los coeficientes (betas) de la regresión y el nivel de significancia de estos mismos lo cual le aporta la interpretabilidad de lo resultados sobretodo con los coeficientes y la función que se puede construir.

Dentro de la etapa de entrenamiento del modelo se optimizo el Accuracy como métrica que se estaba siguiendo para medir el performance del modelo y luego dentro de la evaluación se tomó la matriz de confusión y la curva ROC como las otras métricas que se estaban siguiendo para la etapa de prueba El accuracy del modelo elegido (regresión logística) fue de 96.38% para los datos de entrenamiento y cuando se construyó esta misma métrica para los datos de prueba el resultado fue de 96.54% esto puede llevar a pensar a que no hay indicios de un sobreentrenamiento, puesto que la diferencia entre estas 2 medidas no es grande. Así mismo, la matriz de confusión obtenida para los datos de prueba muestra que el modelo se equivoca en 41 observaciones que no representaban un riesgo y el modelo dijo que sí y en 38 que representan un riesgo y el modelo dijo que no.

Para el cálculo del score se debe aplicar la función de la regresión logística \[f(x) = \frac{1}{1+e^{-x \beta}}\] y que además es la función que describe el proceso del resultado. Para los puntos de corte se calculan los quantiles del scoring construido para mirar cual debe ser el punto de corte donde se perciba el riesgo que un usuario entre en default 500, 500, 500, 500, 527.9955146, 730.7565288, 731.0580782 basados en los resultados de los quantiles se puede decir que resulta complejo tomar la decisión basados solo en este scoring ya que cerca del 50% de las observaciones tiene un score de 500 por lo que decir que score superiores o inferiores a 500 fácilmente inducirá en un error por lo que hace necesario que se tengan en cuenta otras variables para tomar la decisión.