Este documento hace parte del trabajo del curso de Métodos multivariados aplicados de la Universidad Nacional de Colombia para la Maestría y Especialización en Estadística. El alcance de este documento reporta de manera técnica el paso a paso que se llevó a cabo para la consolidación del trabajo.
| No Agencia | Código de Crédito | ID Cliente | Estado del Cliente | Calif Aplicada por Temporalidad | Actividad Laboral Cliente | Edad Cliente | Estado Civil Cliente | Estrato Cliente | Ciudad de Nacimiento Cliente | Nivel de Escolaridad Cliente | Genero Cliente | Saldo Aportes A la Fecha | No Pagaré Rotativo | Cupo Otorgado Crédito Rotativo | Saldo Capital Crédito Rotativo | Vencimiento Capital 30+ | Días Vencidos Crédito a la Fecha | Clasificación Tipo Crédito | Fec Aprobación Crédito | Vlr Cuota Crédito | Periodicidad de la Cuota | Altura del Crédito | Fec Vencto Crédito | Ever_90+mercado@12M |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 02 | 3389-02068835 | 74558 | Asociado Activo | A | Independiente | 18 | Soltero | 6 | BOGOTA | secundaria | Femenino | 28130101 | 02068835 | 15000000 | 7182388 | 0 | 0 | 1 - Consumo | 41499 | 534940 | Mensual | 21 | 42185 | 1 |
| 02 | 7921-02067638 | 174262 | Asociado Activo | A | Independiente | 25 | Soltero | 2 | BOGOTA | tecnólogo | Femenino | 21674133 | 02067638 | 19265169 | 9624719 | 0 | 0 | 1 - Consumo | 41283 | 556097 | Mensual | 28 | 42185 | 1 |
| 02 | 57143-02071200 | 1257146 | Asociado Activo | A | Empleado | 22 | Soltero | 3 | BOGOTA | técnico | Femenino | 53881069 | 02071200 | 15100000 | 12755977 | 0 | 0 | 1 - Consumo | 42094 | 1376475 | Mensual | 2 | 42185 | 1 |
| 02 | 80666-02054498 | 1774652 | Asociado Activo | A | Jubilado | 18 | Separado | 4 | BOGOTA | tecnólogo | Femenino | 9250590 | 02054498 | 100000 | 478336 | 0 | 0 | 1 - Consumo | 39403 | 93750 | Mensual | 5 | 42185 | 1 |
| 02 | 81030-02066986 | 1782660 | Asociado Activo | A | Independiente | 24 | Viudo | 1 | BOGOTA | secundaria | Femenino | 7020365 | 02066986 | 4900000 | 2168812 | 0 | 0 | 1 - Consumo | 41185 | 146562 | Mensual | 31 | 42160 | 1 |
| 02 | 98819-02068496 | 2174018 | Asociado Activo | A | Independiente | 20 | Viudo | 6 | BOGOTA | Universitario | Masculino | 41952298 | 02068496 | 36000000 | 21744188 | 0 | 0 | 1 - Consumo | 41443 | 1039154 | Mensual | 23 | 42185 | 1 |
Al observar los datos crudos se puede decir que hay varias oportunidades de mejora: en cuanto a los nombres des las variables (homogeneización de los nombres, eliminar tildes, eliminar espacios y demás) y a la corrección de los campos FEC_VENCTO_CREDITO FEC_APROBACION_CREDITO que son fechas pero se encuentran en formato numérico. Así mismo, se observa que la variable objetivo (a predecir) tiene un nombre poco amigable EVER_90+MERCADO@12M y en consecuencia se puede transformar. Otro hecho relevante es que varios campos que hacen referencia a información del usuario que toma el crédito, al consecutivo del crédito y al pagaré del rotativo por cual estos campos se pueden omitir del análisis. Y finalmente, basado en las fechas de vencimiento del crédito y la aprobación se puede construir una variable que sea la diferencia o plazo en que se debe pagar el crédito.
| AGENCIA | CLIENTE | CALIF_APLICADATEMPORALIDAD | ACTIVIDAD_LABORAL_CLIENTE | EDAD_CLIENTE | CIVIL_CLIENTE | ESTRATO_CLIENTE | CIUDADNACIMIENTO_CLIENTE | NIVELESCOLARIDAD_CLIENTE | GENERO_CLIENTE | SALDO_APORTES_FECHA | CUPO_OTORGADO_CREDITO_ROTATIVO | SALDO_CAPITAL_CREDITO_ROTATIVO | VENCIMIENTO_CAPITAL_30+ | DIAS_VENCIDOS_CREDITO_FECHA | CLASIFICACION_TIPO_CREDITO | FEC_APROBACION_CREDITO | VLR_CUOTA_CREDITO | PERIODICIDAD_CUOTA | ALTURACREDITO | FEC_VENCTO_CREDITO | Y | PLAZO_CREDITO |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 02 | Asociado Activo | A | Independiente | 18 | Soltero | 6 | BOGOTA | secundaria | Femenino | 28130101 | 15000000 | 7182388 | 0 | 0 | 1 - Consumo | 2013-08-15 | 534940 | Mensual | 21 | 2015-07-02 | 1 | 686 |
| 02 | Asociado Activo | A | Independiente | 25 | Soltero | 2 | BOGOTA | tecnólogo | Femenino | 21674133 | 19265169 | 9624719 | 0 | 0 | 1 - Consumo | 2013-01-11 | 556097 | Mensual | 28 | 2015-07-02 | 1 | 902 |
| 02 | Asociado Activo | A | Empleado | 22 | Soltero | 3 | BOGOTA | técnico | Femenino | 53881069 | 15100000 | 12755977 | 0 | 0 | 1 - Consumo | 2015-04-02 | 1376475 | Mensual | 2 | 2015-07-02 | 1 | 91 |
| 02 | Asociado Activo | A | Jubilado | 18 | Separado | 4 | BOGOTA | tecnólogo | Femenino | 9250590 | 100000 | 478336 | 0 | 0 | 1 - Consumo | 2007-11-19 | 93750 | Mensual | 5 | 2015-07-02 | 1 | 2782 |
| 02 | Asociado Activo | A | Independiente | 24 | Viudo | 1 | BOGOTA | secundaria | Femenino | 7020365 | 4900000 | 2168812 | 0 | 0 | 1 - Consumo | 2012-10-05 | 146562 | Mensual | 31 | 2015-06-07 | 1 | 975 |
| 02 | Asociado Activo | A | Independiente | 20 | Viudo | 6 | BOGOTA | Universitario | Masculino | 41952298 | 36000000 | 21744188 | 0 | 0 | 1 - Consumo | 2013-06-20 | 1039154 | Mensual | 23 | 2015-07-02 | 1 | 742 |
El análisis que se puede realizar sobre estos gráficos es interesante por lo siguiente:
1. Para el año 2005 se puede presumir que no tuvo operación todo el año sino tan solo desde agosto y donde en general las distintas medidas (Valor de la cuota, Saldos de capital para crédito rotativo y el Cupo del capital para crédito rotativo) fueron decrecientes.
2. El análisis entre años no presenta mayores variaciones o cambios que llamen la atención. Lo que sí cabe resaltar es que los valores entre años fueron crecientes para las distintas medidas (Valor de la cuota, Saldos de capital para crédito rotativo y el Cupo del capital para crédito rotativo) en favor que empezaron con valores bajos en la medida que pasaban los años estos indicadores iban creciendo.
3. En cuanto al análisis de las gráficas de barras en comparación por default se puede decir que casi todas las categorías tienen una distribución similar entre ellas en relación con el default con algunas excepciones como la ciudad de nacimiento, la agencia donde se otorgó el crédito y el tipo de crédito.
4. Otro hecho a resaltar es que las variables PERIODICIDAD_CUOTA y CLASIFICACION_TIPO_CREDITO valdría la pena realizar algún tipo de imputación en cuenta a la primera y un eliminado de variable para la segunda. Sin embargo, en el siguiente apartado se explica en detalle estos cambios y sus razones.
El valor de las tablas de contingencia radica en que muestra la distribución de las categorías en relación con la variable a predecir, lo cual ayuda a entender cual es la distribución de los labels, si hay variables que tienen muchos o pocos labels, si se debe o no recategorizar algunos lables y por si hay variables que tienen un solo label y se puede omitir del análisis. En el caso en particular se puede decir que las labels están más o menos iguales aunque con una breve excepción para la ciudad de nacimiento que si tiene un mayor número de labels. Un hecho relevante es la variable PERIODICIDAD_CUOTA que tiene una sola observación que hace referencia al pago Bimensual, esto puede generar un problema a la hora del entrenamiento del modelo toda vez que al ser una sola observación puede quedar en training o testing y eso por supuesto hace que (si queda en training) aprenda con este label pero no estará en testing y genera un error y al contrario si queda en testing puede que al pasarle esta observación a un modelo que no conoce este label no generé la predicción; por esta razón se decide recategorizar esta observación en Mensual y así no generar ningún problema. Por último, la variable CLASIFICACION_TIPO_CREDITO se puede ver que solo hace referencia a un mismo valor ‘1 - Consumo’ esto genera que en la etapa de entrenamiento se generé un sesgo; por tal razón se omite para la etapa de entrenamiento del modelo.
AGENCIA
Y 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
0 1211 883 438 651 381 821 229 227 326 430 217 315 217 331 20
1 207 155 323 128 52 95 41 191 30 81 259 87 31 122 19
AGENCIA
Y 17 18 19 20 21
0 86 36 150 4 242
1 53 7 17 1 21
CLIENTE
Y Asociado Activo Asociado Inactivo o Sancionado No asociado
0 6591 20 466
1 1721 8 159
CLIENTE
Y Solicitud de Retiro
0 138
1 32
CALIF_APLICADATEMPORALIDAD
Y A B C D E
0 6337 201 114 150 413
1 1679 37 29 46 129
ACTIVIDAD_LABORAL_CLIENTE
Y Empleado Independiente Jubilado
0 2384 2424 2407
1 613 657 650
CIVIL_CLIENTE
Y Casado Separado Soltero Viudo
0 1822 1820 1776 1797
1 316 498 648 458
ESTRATO_CLIENTE
Y 1 2 3 4 5 6
0 1133 1196 1226 1206 1194 1260
1 322 303 308 305 345 337
CIUDADNACIMIENTO_CLIENTE
Y ARMENIA BARRANCABERMEJA BARRANQUILLA BOGOTA BUCARAMANGA BUGA CALI CARTAGENA
0 150 883 86 1211 651 821 430 438
1 17 155 53 207 128 95 81 323
CIUDADNACIMIENTO_CLIENTE
Y CUCUTA IBAGUE LA DORADA MANIZALES MEDELLIN MELGAR MONTERIA NEIVA PASTO
0 381 36 227 331 315 326 242 217 217
1 52 7 191 122 87 30 21 259 31
CIUDADNACIMIENTO_CLIENTE
Y VALLEDUPAR VILLAVICENCIO YOPAL
0 20 229 4
1 19 41 1
NIVELESCOLARIDAD_CLIENTE
Y Posgrado primaria secundaria técnico tecnólogo Universitario
0 998 1065 1062 2109 994 987
1 291 276 251 541 286 275
GENERO_CLIENTE
Y Femenino Masculino
0 3544 3671
1 953 967
CLASIFICACION_TIPO_CREDITO
Y 1 - Consumo
0 7215
1 1920
PERIODICIDAD_CUOTA
Y Bimensual Mensual Quincenal
0 0 6948 267
1 1 1853 66
Para el entrenamiento del modelo se probaran 2 modelos (Regresion logistica y Random Forest) se toma como referencia estos algoritmos toda vez que se requiere dar interpretabilidad del modelo lo que lleva a que algortimos de caja negra y de mayor complejidad suponen una perdida de interpretabilidad.
Proporcion de clases para el data set original
Y
0 1
78.98194 21.01806
Proporcion de clases para el data set training
Y
0 1
78.89667 21.10333
Proporcion de clases para el data set testing
Y
0 1
78.89667 21.10333
Generalized Linear Model
6852 samples
22 predictor
2 classes: '0', '1'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 5482, 5481, 5482, 5482, 5481
Resampling results:
Accuracy Kappa
0.9643895 0.8936281
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-3.13838 -0.00004 0.00000 0.00000 2.39579
Coefficients: (20 not defined because of singularities)
Estimate Std. Error
(Intercept) 20.823402733291 19.301128033879
AGENCIA03 0.123133844137 0.353379342302
AGENCIA04 1.798137504716 0.357628227857
AGENCIA05 0.440930287581 0.409910759224
AGENCIA06 0.395788119640 0.510425689165
AGENCIA07 -0.097260398964 0.404689102170
AGENCIA08 0.543931144149 0.528846890342
AGENCIA09 2.589302486753 0.456863678932
AGENCIA10 -0.794264262219 0.612759846026
AGENCIA11 0.031828443078 0.487761367106
AGENCIA12 3.033944424334 0.495069612871
AGENCIA13 0.928937589475 0.483705922339
AGENCIA14 -0.333756252701 0.603928455754
AGENCIA15 1.987849833218 0.483188061727
AGENCIA16 0.597955208580 1.370831693297
AGENCIA17 2.425676794669 0.880963553276
AGENCIA18 0.946743361798 0.993113133123
AGENCIA19 -0.468791048239 0.752136783179
AGENCIA20 15.356268583076 413.911400034892
AGENCIA21 -0.938580917700 0.590721280255
`CLIENTEAsociado Inactivo o Sancionado` -0.339192771270 1.317051764765
`CLIENTENo asociado` 0.725253257372 0.464145263193
`CLIENTESolicitud de Retiro` 0.094741696773 0.678632413302
CALIF_APLICADATEMPORALIDADB -0.298284269091 0.632994990272
CALIF_APLICADATEMPORALIDADC -0.166370987864 0.899731977959
CALIF_APLICADATEMPORALIDADD -0.025931430031 0.710375230381
CALIF_APLICADATEMPORALIDADE -0.098199525366 0.877248235243
ACTIVIDAD_LABORAL_CLIENTEIndependiente -0.075843451024 0.218391502191
ACTIVIDAD_LABORAL_CLIENTEJubilado 0.041775712070 0.224476288166
EDAD_CLIENTE -1.747756628011 0.105315641217
CIVIL_CLIENTESeparado 0.199397091262 0.271317263780
CIVIL_CLIENTESoltero 0.503129920220 0.268130936354
CIVIL_CLIENTEViudo 0.114068626551 0.269483939945
ESTRATO_CLIENTE 0.034555128505 0.053078191051
CIUDADNACIMIENTO_CLIENTEBARRANCABERMEJA NA NA
CIUDADNACIMIENTO_CLIENTEBARRANQUILLA NA NA
CIUDADNACIMIENTO_CLIENTEBOGOTA NA NA
CIUDADNACIMIENTO_CLIENTEBUCARAMANGA NA NA
CIUDADNACIMIENTO_CLIENTEBUGA NA NA
CIUDADNACIMIENTO_CLIENTECALI NA NA
CIUDADNACIMIENTO_CLIENTECARTAGENA NA NA
CIUDADNACIMIENTO_CLIENTECUCUTA NA NA
CIUDADNACIMIENTO_CLIENTEIBAGUE NA NA
`CIUDADNACIMIENTO_CLIENTELA DORADA` NA NA
CIUDADNACIMIENTO_CLIENTEMANIZALES NA NA
CIUDADNACIMIENTO_CLIENTEMEDELLIN NA NA
CIUDADNACIMIENTO_CLIENTEMELGAR NA NA
CIUDADNACIMIENTO_CLIENTEMONTERIA NA NA
CIUDADNACIMIENTO_CLIENTENEIVA NA NA
CIUDADNACIMIENTO_CLIENTEPASTO NA NA
CIUDADNACIMIENTO_CLIENTEVALLEDUPAR NA NA
CIUDADNACIMIENTO_CLIENTEVILLAVICENCIO NA NA
CIUDADNACIMIENTO_CLIENTEYOPAL NA NA
NIVELESCOLARIDAD_CLIENTEprimaria -0.111664800043 0.333480445432
NIVELESCOLARIDAD_CLIENTEsecundaria -0.664831063529 0.335008147339
NIVELESCOLARIDAD_CLIENTEtécnico -0.648891435925 0.296062469716
NIVELESCOLARIDAD_CLIENTEtecnólogo -0.406031648710 0.342057934189
NIVELESCOLARIDAD_CLIENTEUniversitario -0.406181498841 0.336697588891
GENERO_CLIENTEMasculino 0.277517541110 0.184309475577
SALDO_APORTES_FECHA 0.000000037301 0.000000011838
CUPO_OTORGADO_CREDITO_ROTATIVO 0.000000001162 0.000000025240
SALDO_CAPITAL_CREDITO_ROTATIVO -0.000000024148 0.000000022193
`\\`VENCIMIENTO_CAPITAL_30+\\`` -0.000000074824 0.000000239659
DIAS_VENCIDOS_CREDITO_FECHA 0.003230133592 0.001938984547
FEC_APROBACION_CREDITO 0.000724773509 0.000988331658
VLR_CUOTA_CREDITO 0.000001330658 0.000000852133
PERIODICIDAD_CUOTAQuincenal -0.115528338385 0.560625928360
ALTURACREDITO -0.009246264802 0.012120797070
FEC_VENCTO_CREDITO 0.000648723551 0.000850194511
PLAZO_CREDITO NA NA
YEAR2006 2.734916138704 2.270156355504
YEAR2007 1.092754062655 1.842040886658
YEAR2008 0.175101835772 2.007533952710
YEAR2009 1.563484909709 3.226701272668
YEAR2010 0.952581691734 2.463674093685
YEAR2011 -0.904186225198 2.684140179594
YEAR2012 -1.017616140385 2.937018822965
YEAR2013 -1.175681877874 3.208003632531
YEAR2014 -1.647669295179 3.512830821212
YEAR2015 -2.282845974934 3.698167791660
z value Pr(>|z|)
(Intercept) 1.079 0.28065
AGENCIA03 0.348 0.72750
AGENCIA04 5.028 0.000000495746 ***
AGENCIA05 1.076 0.28207
AGENCIA06 0.775 0.43810
AGENCIA07 -0.240 0.81007
AGENCIA08 1.029 0.30370
AGENCIA09 5.668 0.000000014485 ***
AGENCIA10 -1.296 0.19490
AGENCIA11 0.065 0.94797
AGENCIA12 6.128 0.000000000888 ***
AGENCIA13 1.920 0.05480 .
AGENCIA14 -0.553 0.58051
AGENCIA15 4.114 0.000038881209 ***
AGENCIA16 0.436 0.66269
AGENCIA17 2.753 0.00590 **
AGENCIA18 0.953 0.34043
AGENCIA19 -0.623 0.53310
AGENCIA20 0.037 0.97040
AGENCIA21 -1.589 0.11209
`CLIENTEAsociado Inactivo o Sancionado` -0.258 0.79676
`CLIENTENo asociado` 1.563 0.11816
`CLIENTESolicitud de Retiro` 0.140 0.88897
CALIF_APLICADATEMPORALIDADB -0.471 0.63748
CALIF_APLICADATEMPORALIDADC -0.185 0.85330
CALIF_APLICADATEMPORALIDADD -0.037 0.97088
CALIF_APLICADATEMPORALIDADE -0.112 0.91087
ACTIVIDAD_LABORAL_CLIENTEIndependiente -0.347 0.72838
ACTIVIDAD_LABORAL_CLIENTEJubilado 0.186 0.85236
EDAD_CLIENTE -16.595 < 0.0000000000000002 ***
CIVIL_CLIENTESeparado 0.735 0.46239
CIVIL_CLIENTESoltero 1.876 0.06060 .
CIVIL_CLIENTEViudo 0.423 0.67209
ESTRATO_CLIENTE 0.651 0.51503
CIUDADNACIMIENTO_CLIENTEBARRANCABERMEJA NA NA
CIUDADNACIMIENTO_CLIENTEBARRANQUILLA NA NA
CIUDADNACIMIENTO_CLIENTEBOGOTA NA NA
CIUDADNACIMIENTO_CLIENTEBUCARAMANGA NA NA
CIUDADNACIMIENTO_CLIENTEBUGA NA NA
CIUDADNACIMIENTO_CLIENTECALI NA NA
CIUDADNACIMIENTO_CLIENTECARTAGENA NA NA
CIUDADNACIMIENTO_CLIENTECUCUTA NA NA
CIUDADNACIMIENTO_CLIENTEIBAGUE NA NA
`CIUDADNACIMIENTO_CLIENTELA DORADA` NA NA
CIUDADNACIMIENTO_CLIENTEMANIZALES NA NA
CIUDADNACIMIENTO_CLIENTEMEDELLIN NA NA
CIUDADNACIMIENTO_CLIENTEMELGAR NA NA
CIUDADNACIMIENTO_CLIENTEMONTERIA NA NA
CIUDADNACIMIENTO_CLIENTENEIVA NA NA
CIUDADNACIMIENTO_CLIENTEPASTO NA NA
CIUDADNACIMIENTO_CLIENTEVALLEDUPAR NA NA
CIUDADNACIMIENTO_CLIENTEVILLAVICENCIO NA NA
CIUDADNACIMIENTO_CLIENTEYOPAL NA NA
NIVELESCOLARIDAD_CLIENTEprimaria -0.335 0.73774
NIVELESCOLARIDAD_CLIENTEsecundaria -1.985 0.04720 *
NIVELESCOLARIDAD_CLIENTEtécnico -2.192 0.02840 *
NIVELESCOLARIDAD_CLIENTEtecnólogo -1.187 0.23522
NIVELESCOLARIDAD_CLIENTEUniversitario -1.206 0.22768
GENERO_CLIENTEMasculino 1.506 0.13214
SALDO_APORTES_FECHA 3.151 0.00163 **
CUPO_OTORGADO_CREDITO_ROTATIVO 0.046 0.96328
SALDO_CAPITAL_CREDITO_ROTATIVO -1.088 0.27657
`\\`VENCIMIENTO_CAPITAL_30+\\`` -0.312 0.75488
DIAS_VENCIDOS_CREDITO_FECHA 1.666 0.09574 .
FEC_APROBACION_CREDITO 0.733 0.46336
VLR_CUOTA_CREDITO 1.562 0.11839
PERIODICIDAD_CUOTAQuincenal -0.206 0.83674
ALTURACREDITO -0.763 0.44556
FEC_VENCTO_CREDITO 0.763 0.44545
PLAZO_CREDITO NA NA
YEAR2006 1.205 0.22831
YEAR2007 0.593 0.55303
YEAR2008 0.087 0.93049
YEAR2009 0.485 0.62800
YEAR2010 0.387 0.69901
YEAR2011 -0.337 0.73622
YEAR2012 -0.346 0.72898
YEAR2013 -0.366 0.71400
YEAR2014 -0.469 0.63904
YEAR2015 -0.617 0.53704
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 7062.0 on 6851 degrees of freedom
Residual deviance: 828.3 on 6792 degrees of freedom
AIC: 948.3
Number of Fisher Scoring iterations: 12
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 1768 41
1 35 439
Accuracy : 0.9667
95% CI : (0.9585, 0.9737)
No Information Rate : 0.7898
P-Value [Acc > NIR] : <0.0000000000000002
Kappa : 0.8993
Mcnemar's Test P-Value : 0.5663
Sensitivity : 0.9806
Specificity : 0.9146
Pos Pred Value : 0.9773
Neg Pred Value : 0.9262
Prevalence : 0.7898
Detection Rate : 0.7744
Detection Prevalence : 0.7924
Balanced Accuracy : 0.9476
'Positive' Class : 0
Random Forest
6852 samples
22 predictor
2 classes: '0', '1'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 5482, 5482, 5482, 5480, 5482
Resampling results across tuning parameters:
mtry Accuracy Kappa
2 0.8152357 0.1843619
40 0.9677477 0.9035163
79 0.9674555 0.9026031
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 40.
Time difference of 3.077597 mins
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 1770 39
1 32 442
Accuracy : 0.9689
95% CI : (0.9609, 0.9756)
No Information Rate : 0.7893
P-Value [Acc > NIR] : <0.0000000000000002
Kappa : 0.906
Mcnemar's Test P-Value : 0.4764
Sensitivity : 0.9822
Specificity : 0.9189
Pos Pred Value : 0.9784
Neg Pred Value : 0.9325
Prevalence : 0.7893
Detection Rate : 0.7753
Detection Prevalence : 0.7924
Balanced Accuracy : 0.9506
'Positive' Class : 0
Al observar los resultados de estos 2 algoritmos se puede observar que no hay mucha diferencia entre y uno lo cual hace pensar que por simplicidad y por la razón de interpretabilidad se puede tomar la regresión logística como el algoritmo a escoger como el mejor modelo que generaliza los resultados de los datos obtenidos.
Cómo se mencionó anteriormente la metodología estadística elegida para el desarrollo del modelo es una regresión logística toda vez que se busca que haya una interpretabilidad en el modelo. Si bien se podía probar con otros algoritmos (que quizás ofrecieron mejores resultados) el hecho de tener un modelo más simple y con una mejor capacidad de interpretabilidad hacía pensar que se optará por algo menos complejo.
Con la regresión logística se obtienen los coeficientes (betas) de la regresión y el nivel de significancia de estos mismos lo cual le aporta la interpretabilidad de lo resultados sobretodo con los coeficientes y la función que se puede construir.
Dentro de la etapa de entrenamiento del modelo se optimizo el Accuracy como métrica que se estaba siguiendo para medir el performance del modelo y luego dentro de la evaluación se tomó la matriz de confusión y la curva ROC como las otras métricas que se estaban siguiendo para la etapa de prueba El accuracy del modelo elegido (regresión logística) fue de 96.38% para los datos de entrenamiento y cuando se construyó esta misma métrica para los datos de prueba el resultado fue de 96.54% esto puede llevar a pensar a que no hay indicios de un sobreentrenamiento, puesto que la diferencia entre estas 2 medidas no es grande. Así mismo, la matriz de confusión obtenida para los datos de prueba muestra que el modelo se equivoca en 41 observaciones que no representaban un riesgo y el modelo dijo que sí y en 38 que representan un riesgo y el modelo dijo que no.
Para el cálculo del score se debe aplicar la función de la regresión logística \[f(x) = \frac{1}{1+e^{-x \beta}}\] y que además es la función que describe el proceso del resultado. Para los puntos de corte se calculan los quantiles del scoring construido para mirar cual debe ser el punto de corte donde se perciba el riesgo que un usuario entre en default 500, 500, 500, 500, 527.9955146, 730.7565288, 731.0580782 basados en los resultados de los quantiles se puede decir que resulta complejo tomar la decisión basados solo en este scoring ya que cerca del 50% de las observaciones tiene un score de 500 por lo que decir que score superiores o inferiores a 500 fácilmente inducirá en un error por lo que hace necesario que se tengan en cuenta otras variables para tomar la decisión.