INTRODUCCION

En esta presentación se expondrá el análisis y aplicación del Modelo Logit para intentar obtener un modelo que prediga de la mejor manera la probabilidad que un individuo cumpla una deuda que tenga con el banco, para lograr esto se usara una base de datos que contiene informacion de la caracteristca de ciertos individuos y su comportamiento frente al cumplimiento de pago de sus deudas.

Este trabajo estara dividido en cinco grandes partes:

  1. La primera parte esta destinada para el analisis de la base de datos que se utilizara para generar los datos, tambien en esta parte se buscara tener definidas ciertas variables que se utilizaran para desarrollar el modelo logistico.

  2. En la siguiente parte del traajo se expondra el modelo logistico, se explicara brevemente la idea que se aplicara para obtener los valores deseados.

  3. En la tercera parte se desarrollaran diferentes modelos logit utilizando distintas combinaciones de variables, con el fin de escoger el mejor y desarrollar un analisis profundo de el modelo elegido.

  4. En esta seccion se va analizar la capaidad del modelo para predecir con precision la probabildad de default de los clientes.

  5. En esta ultima seccion se compararan los resultados obtenidos por el modelo desarrollado en clase con el modelo desarrollado en esta presentacion.

Por ultimo, es importante destacar que para realizar el trabajo sera necesario instalar los siguientes paquetes:

  • mfx
  • pROC
  • tidyverse
  • forecast
  • data.table
  • ggplot2
  • plyr
  • scales
  • cowplot
  • dplyr
  • stargazer

ANALISIS DE DATOS

En esta seccion se va analizar las variables contenidas en la base de datos, con el fin de conocer las caracteristicas que tienen y poder tener un conjunto de vaiables preliminares para desarrollar el modelo logit en la siguiente seccion.

Para ello primero se obtiene la base de datos, que sera guardada en el objeto Credit.Card, ademas como se logra ver muestra contienen las siguientes variables:

##  [1] "ID"                         "LIMIT_BAL"                 
##  [3] "SEX"                        "EDUCATION"                 
##  [5] "MARRIAGE"                   "AGE"                       
##  [7] "PAY_0"                      "PAY_2"                     
##  [9] "PAY_3"                      "PAY_4"                     
## [11] "PAY_5"                      "PAY_6"                     
## [13] "BILL_AMT1"                  "BILL_AMT2"                 
## [15] "BILL_AMT3"                  "BILL_AMT4"                 
## [17] "BILL_AMT5"                  "BILL_AMT6"                 
## [19] "PAY_AMT1"                   "PAY_AMT2"                  
## [21] "PAY_AMT3"                   "PAY_AMT4"                  
## [23] "PAY_AMT5"                   "PAY_AMT6"                  
## [25] "default.payment.next.month"

Y cada variable significa:

  • ID: Numero ID del cliente.
  • LIMIT_BAL: Monto del credito otorgado en Nuevo Dolar Taiwanes.
  • SEX: Genero del cliente. (1 = masculito, 2 = femenino)
  • EDUCATION: Nivel de estudios que tiene el cliente. (1 = Graduado del Colegio, 2 = Universitario, 3 = Solo Secundaria , 4 = Otros estudios, 5 = No se Conoce, 6 = No se tiene resgistro)
  • MARRIAGE: Estado Civil. (0 = NA, 1 = Casado, 2 = Soltero, 3 = Otros)
  • AGE: Edad
  • PAY_0: Estado de pago en Septiembre del 2005
  • PAY_2: Estado de pago en Agosto del 2005
  • PAY_3: Estado de pago en Julio del 2005
  • PAY_4: Estado de pago en Junio del 2005
  • PAY_5: Estado de pago en Mayo del 2005
  • PAY_6: Estado de pago en Abril del 2005 Para las variables de pago las escalas significa (-1 = Pago a tiempo, 1 = retraso de pago for un mes, 2 = retraso de pago por dos meses, 8 = retraso de pago por ocho meses, 9 = Retraso de pago por nueve o mas)
  • BILL_AMT1: Cantidad del estado de cuenta en Septiembre del 2005 en Nuevo Dolar Taiwanes.
  • BILL_AMT2: Cantidad del estado de cuenta en Agosto del 2005 en Nuevo Dolar Taiwanes.
  • BILL_AMT3: Cantidad del estado de cuenta en Julio del 2005 en Nuevo Dolar Taiwanes.
  • BILL_AMT4: Cantidad del estado de cuenta en Junio del 2005 en Nuevo Dolar Taiwanes.
  • BILL_AMT5: Cantidad del estado de cuenta en Mayo del 2005 en Nuevo Dolar Taiwanes.
  • BILL_AMT6: Cantidad del estado de cuenta en Abril del 2005 en Nuevo Dolar Taiwanes.
  • PAY_AMT1: Monto pagado anteriormente de Septiembre del 2005 en Nuebo Dolar Taiwanes.
  • PAY_AMT2: Monto pagado anteriormente de Agosto del 2005 en Nuebo Dolar Taiwanes.
  • PAY_AMT3: Monto pagado anteriormente de Julio del 2005 en Nuebo Dolar Taiwanes.
  • PAY_AMT4: Monto pagado anteriormente de Junio del 2005 en Nuebo Dolar Taiwanes.
  • PAY_AMT5: Monto pagado anteriormente de Mayo del 2005 en Nuebo Dolar Taiwanes.
  • PAY_AMT6: Monto pagado anteriormente de Abril del 2005 en Nuebo Dolar Taiwanes.
  • default.payment.next.month: Incumplio con el pago del credito (1 = Si, 0 = No)

Como se va ha comprobar, la base de datos que se utilizara para desarrollar el trabajo no contienen datos incompletos, es decir no existen datos NA. Sin embargo, se autocompletaran si encaso existieran datos sin registrar. Por ultimo, se enlista las variables para conocer su clase.

## [1] FALSE
## 'data.frame':    30000 obs. of  25 variables:
##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ LIMIT_BAL                 : num  20000 120000 90000 50000 50000 50000 500000 100000 140000 20000 ...
##  $ SEX                       : int  2 2 2 2 1 1 1 2 2 1 ...
##  $ EDUCATION                 : int  2 2 2 2 2 1 1 2 3 3 ...
##  $ MARRIAGE                  : int  1 2 2 1 1 2 2 2 1 2 ...
##  $ AGE                       : int  24 26 34 37 57 37 29 23 28 35 ...
##  $ PAY_0                     : int  2 -1 0 0 -1 0 0 0 0 -2 ...
##  $ PAY_2                     : int  2 2 0 0 0 0 0 -1 0 -2 ...
##  $ PAY_3                     : int  -1 0 0 0 -1 0 0 -1 2 -2 ...
##  $ PAY_4                     : int  -1 0 0 0 0 0 0 0 0 -2 ...
##  $ PAY_5                     : int  -2 0 0 0 0 0 0 0 0 -1 ...
##  $ PAY_6                     : int  -2 2 0 0 0 0 0 -1 0 -1 ...
##  $ BILL_AMT1                 : num  3913 2682 29239 46990 8617 ...
##  $ BILL_AMT2                 : num  3102 1725 14027 48233 5670 ...
##  $ BILL_AMT3                 : num  689 2682 13559 49291 35835 ...
##  $ BILL_AMT4                 : num  0 3272 14331 28314 20940 ...
##  $ BILL_AMT5                 : num  0 3455 14948 28959 19146 ...
##  $ BILL_AMT6                 : num  0 3261 15549 29547 19131 ...
##  $ PAY_AMT1                  : num  0 0 1518 2000 2000 ...
##  $ PAY_AMT2                  : num  689 1000 1500 2019 36681 ...
##  $ PAY_AMT3                  : num  0 1000 1000 1200 10000 657 38000 0 432 0 ...
##  $ PAY_AMT4                  : num  0 1000 1000 1100 9000 ...
##  $ PAY_AMT5                  : num  0 0 1000 1069 689 ...
##  $ PAY_AMT6                  : num  0 2000 5000 1000 679 ...
##  $ default.payment.next.month: int  1 1 0 0 0 0 0 0 0 0 ...

A continuacion de cambiaran los nombres de las variables para hacer as mas facil su manejar; por ejemplo, la variable default.payment.next.month sera renombrada por simplemente default.

##  [1] "ID"        "credito"   "sex"       "edu"       "est.civil" "edad"     
##  [7] "PAY_0"     "PAY_2"     "PAY_3"     "PAY_4"     "PAY_5"     "PAY_6"    
## [13] "BILL_AMT1" "BILL_AMT2" "BILL_AMT3" "BILL_AMT4" "BILL_AMT5" "BILL_AMT6"
## [19] "PAY_AMT1"  "PAY_AMT2"  "PAY_AMT3"  "PAY_AMT4"  "PAY_AMT5"  "PAY_AMT6" 
## [25] "default"

Donde: * LIMIT_BAL = credito * SEX = sex * EDUCATION = edu * MARRIAGE = est.civil * AGE = edad * default.payment.next.month = default

Luego como se logra ver en los siguientes graficos, la mayoria de creditos otorgados son montos entre 10000 NT Dolares y 500000 NT Dolares, la mayoria de prestamos se otorgaron a mujeres, la mayoria de los prestamos otorgados fueron para individuos con estudios universitarios, tambien se logra observar que la mayoria de prestamos son para individuos solteros y casados, finalmente la mayoria de prestamos fueron otorgados a individuos con edades entre 21 y 41 años.

Por otro lado, como se obseva en los siguientes graficos, la mayoria de los clientes realizaron sus pagos de manera puntual esto omitiendo los valores que no estan registrados como el 0 para cada variable.

Sobre los estados de cuenta entre los meses de Abril hasta Septiembre del año 20015 en Nuevo Dolares Taiwanes, la media es de 44997 Dolares NT entre el periodo mencionado; por otro lado, durante el periodo analizado los pagos anteriores a Abril del año 2005 fueron en promedio mayores comparando la media de pagos para los meses siguientes siendo 38872 Dolares NT y el mayor monto pagado por un individo durante lso meses analizados fue antes del mes de Agosto, pagando 1684259 Dolares NT.

##    BILL_AMT1         BILL_AMT2        BILL_AMT3         BILL_AMT4      
##  Min.   :-165580   Min.   :-69777   Min.   :-157264   Min.   :-170000  
##  1st Qu.:   3559   1st Qu.:  2985   1st Qu.:   2666   1st Qu.:   2327  
##  Median :  22382   Median : 21200   Median :  20088   Median :  19052  
##  Mean   :  51223   Mean   : 49179   Mean   :  47013   Mean   :  43263  
##  3rd Qu.:  67091   3rd Qu.: 64006   3rd Qu.:  60165   3rd Qu.:  54506  
##  Max.   : 964511   Max.   :983931   Max.   :1664089   Max.   : 891586  
##    BILL_AMT5        BILL_AMT6          PAY_AMT1         PAY_AMT2      
##  Min.   :-81334   Min.   :-339603   Min.   :     0   Min.   :      0  
##  1st Qu.:  1763   1st Qu.:   1256   1st Qu.:  1000   1st Qu.:    833  
##  Median : 18104   Median :  17071   Median :  2100   Median :   2009  
##  Mean   : 40311   Mean   :  38872   Mean   :  5664   Mean   :   5921  
##  3rd Qu.: 50190   3rd Qu.:  49198   3rd Qu.:  5006   3rd Qu.:   5000  
##  Max.   :927171   Max.   : 961664   Max.   :873552   Max.   :1684259  
##     PAY_AMT3         PAY_AMT4         PAY_AMT5         PAY_AMT6     
##  Min.   :     0   Min.   :     0   Min.   :     0   Min.   :     0  
##  1st Qu.:   390   1st Qu.:   296   1st Qu.:   252   1st Qu.:   118  
##  Median :  1800   Median :  1500   Median :  1500   Median :  1500  
##  Mean   :  5226   Mean   :  4826   Mean   :  4799   Mean   :  5216  
##  3rd Qu.:  4505   3rd Qu.:  4013   3rd Qu.:  4032   3rd Qu.:  4000  
##  Max.   :896040   Max.   :621000   Max.   :426529   Max.   :528666

Finalmente, como se esta exponiendo en el siguiente grafico la mayoria de clientes no han incumplido en el pago de su deuda para el mes de Octubre del año 2005.

Sin embargo, al exporar los datos de manera grafica se observaron ciertas categorias que no tienen mucho sentido y podrian afectar en la modelacion de preccion para el incunplimiento de pago para el siguiente mes, esto sucede por ejemplo en la variable est.civil pues 1 significa que el inidivido esta casado, 2 que se encuentra soltero y las categorias 3 es otro estado, sin embargo, la categoria 0 que no se tiene idea de que estado sea puede agregarse detro de la categoria de otros, es decir juntar ambos datos en la categoria otros.

Tambien, dentro de la variable edu se tiene registrado categorias del 1 al 6, sin embargo al momento de explorar esta variable se encuentran datos con caategoria 0 que se puede entender como no registrado y lo mismo significan las categorias 5 y 6, por lo que se juntaran los datos de las categorias 0, 5 y 6 dentro de las categoria de Otros, es decir dentro de la categoria 4.

Como se observa, se logro agrupar los valores que tenias las mismas caracteristicas y ahoras las variables est.civil y ëdu tendran las siguientes categorias:

  • Est.civil = (1 = Casado, 2 = Soltero, 3 = Otros), donde otros puede ser viudo.
  • Edu = (1 = Eduacion Primaria, 2 = Estudios Universitarios, 3 = Eduacion Secundaria, 4 = Otros), donde otros puede ser estudios tecnicos.

Por otro lado, cual la variable PAY_n significa el periodo de retraso que tuvo el inidividuo con su pago en cada mes, sin embargo al graficar las variables se vieron categorias extras como -2 y 0, por lo que se puede entender que estas categorias tambien explican que pagaron a tiempo puede que previo a la fecha de pago pero SE puede considerar igualmEnte como puntual, por esa razon se podrias agrupar estos datos para asi tener solo una categoria que represente la puntualidad del cliente dentro de la categoria 0.

Por lo tanto, el analisis previo igual no varia pues se sigue teniendo que la mayoria de clientes ha pagado a tiempo con su deuda.

A continuacion, analizaremos la correlacion de la variable dependiente (default) con las variables independientes, esto con el fin de ver las relaciones que tiene el incumplimineto del pago de la deuda para el siguiente mes con las distintas variables como sexo, nivel educativo, etc.

Luego de obtener las correlaciones de las variables independientes respector al default de los clientes, se puede destacar que el estado del pago en el ultimo mes, decir en Septiembre del 2005, tiene una alta correlacion con el incumplimiento de la variable default incluso positiva, esto puede sustentarse con la idea que el individuo puede seguir pagando puntual pues al estar al dia en los meses anteriores puede continuar la conducta en el siguiente mes, esta idea tambien se sustenta al ver que con respecto vayan pasando pagos para los meses analisados va bajando el nivel de correlacion.

Por otro lado, entre las variables menos correlaciondas con el incumplimineto de pago para el mes de Octubre del año 2005 se encuentran el estado de cuenta para los distintos meses previos a Octubre, esto tiene sentido pues el cliente no tiene facilidad para obtener esta informacion y en caso lo tenga no le toma importancia para evaluar si cumplira o no con el pago de su deuda el siguiente mes, a pesar de tener baja correlacion respecto al default.

A pesar de tener una correlacion baja es importante detallar que la relacion entre el incumplimineto de pagos y el nivel de eduacion es directa, por lo tanto a mayores estudios tenga el cliente mayor sera la probabilidad de que este no incumpla.

Finalmente, es de importancia destacar el credito otorgado tiene una correlacion negativa respecto al incumplimineto, esto tiene sentido pues al ser la viriable a estudiar el incumplimiento del pago para el siguiente mes la correlacion negativa da a entender que mientras menor sea el monto del credito mayor probabilidad de cumplimineto por parte del cliente, pues este tiene pocos incentivos de retrasarse en sus pago, en comparacion a que si su credito es un monto muy alto habran mas posibilidades que el clinete incumpla en los pagos.

Correlacion entre variable default y variables independientes
ID -0.010
credito -0.150
sex -0.040
edu 0.030
est.civil -0.030
edad 0.010
PAY_0 0.400
PAY_2 0.330
PAY_3 0.290
PAY_4 0.270
PAY_5 0.260
PAY_6 0.240
BILL_AMT1 -0.020
BILL_AMT2 -0.010
BILL_AMT3 -0.010
BILL_AMT4 -0.010
BILL_AMT5 -0.010
BILL_AMT6 -0.010
PAY_AMT1 -0.070
PAY_AMT2 -0.060
PAY_AMT3 -0.060
PAY_AMT4 -0.060
PAY_AMT5 -0.060
PAY_AMT6 -0.050
default 1

Por otro lado, como se logra obervar en ambos graficos, se cumple lo mencionado previamente respecto aumente el nivel de estudio mas probababilidades que el cliente pague y en el grafico se muestra que la mayor parte de los clientes con estudios universitarios ha cumplido con el pago de su deuda, es importante resaltar que la mujeres son las que cumplen con sus deudas en comparacion de los hombresv, ademas las personas solteras y casadas se tiene la misma proporcion de incumplir con el pago y finalmente mientras mas joven sea el cliente habra mas posibilidades que este cumpla con sus deudas.

Por lo tanto, para concluir esta parte exploratoria, dado el analisis desarrollado a partir de la informaicon brindada en la base de datos podria decir que existen 4 variables relevantes a considerar para ser parte del modelo por desarrollar, estas variables candidatas son:

  • Credito otorgado.
  • Edad
  • Nivel de Estudio
  • Estado de pago en el ultimo mes.

MODELO LOGIT

El análisis logit es el complemento natural de la regresión lineal ordinaria siempre que la regresión no sea una variable continua sino un estado que puede contener una categoría en una clasificación dada.

El análisis logit o la regresión logística proporciona una alternativa innovadoras a la regresin lineal ordinaria. A primera vista, es bastante diferente del modelo familiar de regresión lineal, y ligeramente aterrador por su aparente complejidad. Sin embargo, los dos modelos tienen mucho en común.

En primer lugar, ambos modelos pertenecen al ámbito de las relaciones causales, en oposición a la asociación estadística; existe una clara asimetría entre las variables independientes con nombres extraños, o covariables, que son las variables explicativas o determinantes, y la variable dependiente o el resultado.

Dentro de este contexto causal, el modelo de regresión lineal ordinario ofrece un marco burdo pero casi universal para el análisis empírico. Es cierto que a menudo no es más que una aproximación simplificada a otra cosa que presumiblemente sería mejor; pero sirve, dentro de sus limitaciones, para la detección empírica de la evidencia. La regresión logística se puede usar de la misma manera para fenómenos categóricos.

Sin embargo, a diferencia de la regresión, el modelo logit permite una interpretación económica específica en términos de maximización de la utilidad en situaciones de elección discreta.

Finalmente, al igual que el modelo de regresión, el modelo logit permite todo tipo de extensiones y variantes bastante sofisticadas. Algunos de estos se abordan en los capítulos posteriores, pero el presente texto se refiere principalmente a la regresión logística simple como un vehículo conveniente para estudiar la determinación de variables categóricas.

La regresión logística no requiere de ciertas condiciones como linealidad, normalidad y homocedasticidad de los residuos que sí lo son para la regresión lineal. Las principales condiciones que este modelo requiere son:

  • Respuesta binaria: La variable dependiente ha de ser binaria.

  • Independencia: las observaciones han de ser independientes.

  • Multicolinealidad: se requiere de muy poca a ninguna multicolinealidad entre los predictores (para regresión logística múltiple).

  • Linealidad entre la variable independiente y el logaritmo natural de odds.

  • Tamaño muestral: como regla general, se requiere un mínimo de 10 casos con el resultado menos frecuente para cada variable independiente del modelo.

Finalmente, mientras que en regresión lineal β1 se corresponde con el cambio promedio en Y asociado a un incremento de una unidad en X, en regresión logística β1 es el valor que indica cuanto cambia el logaritmo de odds cuando X se incrementa en una unidad, eso equivale a como multiplica los odds por exp(β1). La cantidad con la que p(X) cambia debido a un cambio en X dependerá del valor actual de X, pero independientemente de ello, si β1 es positivo, entonces aumentar X provocará un aumento de p(X). La intersección β0 corresponde con el resultado predicho para el nivel de referencia.

Desarrollo y Eleccion de Modelo

Modelo 1

Entonces, continuando con el analisis a partir del analisis dasarrollado en la seccion anterior se aplicara el modelo logit utilizando las 4 variables mencionadas como posibles candidatas y la variable sexo, entonces el primer modelo a desarrollar utilizara las siguientes variables:

  • Credito otorgado
  • Edad
  • Nivel de Estudio
  • Estado de pago en el ultimo mes
  • Sexo

Con estas variables se tienen los siguientes resultados para predecir el incumplimieno del cliente en el siguente mes:

Modelo Logit 1
Dependent variable:
default
credito -0.00000*** (0.00000)
edad 0.009*** (0.002)
factor(edu)2 0.021 (0.036)
factor(edu)3 -0.049 (0.049)
factor(edu)4 -1.258*** (0.194)
factor(PAY_0)1 1.110*** (0.040)
factor(PAY_0)2 2.529*** (0.047)
factor(PAY_0)3 2.783*** (0.133)
factor(PAY_0)4 2.389*** (0.250)
factor(PAY_0)5 1.614*** (0.397)
factor(PAY_0)6 1.825*** (0.609)
factor(PAY_0)7 2.987*** (0.806)
factor(PAY_0)8 1.979*** (0.470)
factor(sex)2 -0.138*** (0.031)
Constant -1.685*** (0.070)
Observations 30,000
Log Likelihood -13,414.000
Akaike Inf. Crit. 26,858.000
Note: p<0.1; p<0.05; p<0.01

El resultado es un modelo con un beta significativos, al igual que varias covariables, sin embargo puede merjorarse este modelo con el fin de que las predicciones sean mas confiables. Se puede resaltar que el modelo 1 tiene un AIC de 26858, sin embargo este nivel no se puede nalizar por si solo sino se necesita comparar con otro nivel.

Modelo 2

Para tratar de mejorar el modelo 1 se podrian eliminar las variables edad y credito pues al ser tan diversas seria una mejor obcion el delimitar estas variables por intervalos pero eso es tema para otro trabajo, por esa razon simplemente se eliminaran estas dos variables y agregar el estado civil del cliente.

Entonces teniendo las siguientes variables:

  • Credito
  • Estado civil
  • Nivel de Estudio
  • Estado de pago en el ultimo mes
  • Sexo

Se tiene el siguiente resultado:

Modelo Logit 2
Dependent variable:
default
credito -0.00000*** (0.00000)
factor(est.civil)2 -0.209*** (0.032)
factor(est.civil)3 -0.158 (0.136)
factor(edu)2 -0.003 (0.036)
factor(edu)3 -0.046 (0.048)
factor(edu)4 -1.263*** (0.194)
factor(PAY_0)1 1.105*** (0.040)
factor(PAY_0)2 2.524*** (0.047)
factor(PAY_0)3 2.786*** (0.133)
factor(PAY_0)4 2.384*** (0.250)
factor(PAY_0)5 1.646*** (0.397)
factor(PAY_0)6 1.862*** (0.609)
factor(PAY_0)7 2.975*** (0.806)
factor(PAY_0)8 1.981*** (0.471)
factor(sex)2 -0.161*** (0.031)
Constant -1.239*** (0.050)
Observations 30,000
Log Likelihood -13,405.000
Akaike Inf. Crit. 26,843.000
Note: p<0.1; p<0.05; p<0.01

Sorprendiendo los resultados, el segundo modelo arrojo un resultado con coeficientes significativos sin embargo con un AIC mayor al primer modelo, por lo que teniendo en cuenta unicamente este criterio se tendria que utilizar el primer modelo pero viendo la significacion de las covariables se tendria que elegir el modelo 2.

Modelo 3

Siguiendo en la busquede de un mejor modelo, seria interesantes mezclar los dos modelos, es decir al primer modelo agregar la variable estado civil y ver que resultados obtendremos.

Entonces teninedo las siguientes variables:

  • Credito otorgado.
  • Edad
  • Nivel de Estudio
  • Estado de pago en el ultimo mes.
  • Sexo
  • Estado civil.

Se tienen el siguiente resultado:

Modelo Logit 3
Dependent variable:
default
credito -0.00000*** (0.00000)
edad 0.005** (0.002)
factor(edu)2 -0.003 (0.036)
factor(edu)3 -0.069 (0.049)
factor(edu)4 -1.271*** (0.194)
factor(PAY_0)1 1.106*** (0.040)
factor(PAY_0)2 2.525*** (0.047)
factor(PAY_0)3 2.785*** (0.133)
factor(PAY_0)4 2.385*** (0.250)
factor(PAY_0)5 1.639*** (0.397)
factor(PAY_0)6 1.850*** (0.609)
factor(PAY_0)7 2.968*** (0.806)
factor(PAY_0)8 1.977*** (0.471)
factor(sex)2 -0.151*** (0.032)
factor(est.civil)2 -0.171*** (0.036)
factor(est.civil)3 -0.167 (0.137)
Constant -1.421*** (0.090)
Observations 30,000
Log Likelihood -13,402.000
Akaike Inf. Crit. 26,839.000
Note: p<0.1; p<0.05; p<0.01

Al utilizar las variables mencionadas se tiene el 3 variables no significativas, se tiene un modelo mas robusto tomando la significacia pero se tendra que comparar los estadisticos AIC de los tres modelos obtenidos para poder elegir uno.

Comparacion de Estadistico AIC
modelo aic
Modelo 1 26858
Modelo 2 26843
Modelo 3 26839

Dado estos resultados de los estadisticos AIC, el tercer modelo teniendo que tiene un AIC menor que los tres seria el modelo elegio, a pesar de poseer coeficientes no significativos.

Por otro lado como se explico al observar los resultados del primer modelo un mejor tratamiento de la variables credito y edad mejorarian las condicioens del modelo y sus parametros serian significativas.

Finalmente, la eleccion del segundo modelo se dio a pesar de tener un estadistico AIC alto en comparacion de los demas modelos, pues tienen las caracteristcas mas relevante sobre el cliente para poder tener una idea sobre su comportamiento futuro de los pagos de las deudas que son:

  • Credito
  • Estado civil
  • Nivel de Estudio
  • Estado de pago en el ultimo mes
  • Sexo

Por otra parte, como se logra ver se expone el histograma de los valores ajustados del tercer modelo.

Ratio de Odss.

Es el cociente que se obtiene entre la probabilidad de que ocurra un suceso de exito frente a la probabilidad de que no ocurra, teniendo en cuenta otro evento.

En otras palabras, es la medida estadistica que define que tantas veces mayor es un posible evento frene a que no ocurra dicho evento teniendo encuenta una caracteristica.

Para calcular esta medida se utiliza la siguiente ecuacion: \[Ratiode Odds = \frac{\rho}{1 - \rho}=e^{\beta x} - 1\] Entonces para el modelo elegido, los Ratios de Odds sera:

Y estos Raios de Odds dan a entender que:

  • La posibilidad de que caiga en default dado que el nivel del credito aumente de un individuo “se reduce” en 0.0002%.

  • La posibilidad de que caiga en default dado que sea un individuo soltera “se reduce” en 18.8698%.

  • La posibilidad de que caiga en default dado que sea un individuo con otro tipo de estado civil distinto a soltero y casado “se reduce” en 14.5733 porciento.

  • La posibilidad de que caiga en default dado que sea un individuo con estudios universitarios “se reduce” en 0.3175%.

  • La posibilidad de que caiga en default dado que sea un individuo con estudios secundarios “se reduce” en 4.4782%.

  • La posibilidad de que caiga en default dado que sea un individuo con otros tipos de estudios, distinto a primarios, secundatios y universitarios, “se reduce” en 71.7151%.

  • La posibilidad de que caiga en default dado que sea un individuo con un mes de atraso en su pago del mes de Septiembre “aumenta” en 202.0516%.

  • La posibilidad de que caiga en default dado que sea un individuo con dos meses de atraso en su pago del mes de Septiembre “aumenta” en 1147.4955%

  • La posibilidad de que caiga en default dado que sea un individuo con tres meses de atraso en su pago del mes de Septiembre “aumenta” en 1521.3088%.

  • La posibilidad de que caiga en default dado que sea un individuo con cuatro meses de atraso en su pago del mes de Septiembre “aumenta” en 984.2818%.

  • La posibilidad de que caiga en default dado que sea un individuo con cinco meses de atraso en su pago del mes de Septiembre “aumenta” en 418.5869%.

  • La posibilidad de que caiga en default dado que sea un individuo con seis meses de atraso en su pago del mes de Septiembre “aumenta” en 543.6696%.

  • La posibilidad de que caiga en default dado que sea un individuo con siete meses de atraso en su pago del mes de Septiembre “aumenta” en 1859.6175%.

  • La posibilidad de que caiga en default dado que sea un individuo con ocho meses de atraso en su pago del mes de Septiembre “aumenta” en 624.6433%.

  • La posibilidad de que caiga en default dado que sea un individuo del genero femenino “se reduce” en 14.8896%.

Probabilida Default

En esta seccion se mostrara la probabilidad de caer en default el siguiente mes segun la caracteristica de distintas personas, estas probabilidades para cada caso son las siguientes:

  • Un hombre soltero que tiene una linea de credito de 6100 dolares NT, con estudios universitarios y estando al dia en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 18.2644 porciento.

  • Una mujer soltera que tiene una linea de credito de 31000 dolares NT, con estudios universitarios y estando al dia en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 15.1306 porciento.

  • Un hombre soltero que tiene una linea de credito de 900 dolares NT, con educacion primaria y estando dos meses atrasado en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 79.6782 porciento.

  • Una mujer soltera que tiene una linea de credito de 950 dolares NT, con educacion primaria y estando dos meses atrasada en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 76.7715 porciento.

  • Un hombre casado que tiene una linea de credito de 9035 dolares NT, con otro tipo de eduacion y estando cinco meses atrasado en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 81.9769 porciento.

  • Una mujer casada que tiene una linea de credito de 10541 dolares NT, con otro tipo de eduacion y estando cinco meses atrasada en su pago del mes de Septiembre, tiene una probabilidad de incumplir en su pago del siguiente mes de 79.2608 porciento.

Capacidad del Modelo

Para determinar la capacidad predictiva del modelo elegido se estudiaran los siguientes puntos:

Punto de Corte

Al graficas las curvas de sensibilidad y especificidad se puede hallar el punto de corte, este punto es el punto donde las dos curva se cruzan. En otras palabras, se encuentra el punto donde la sensibilidad es igual a la especificidad y el modelo tiene una alta precision para determinar si un cliente incumplira en el pago del siguiente mes.

Entonces para el modelo el punto de corte optimo sera 0.1675.

Matriz de Confusion

Este analisis compara la probabilidad de exito sobre arrojar valores correctos, es decir va a comparar la variable default estimada con la variable default real, para desarrollar este analisis de utiliza la matriz de confusion.

Matriz de Confusion
Default No Default
0 0.32 0.68
1 0.68 0.32

Se puede observar a través de la matriz de confusion, que en la sensibilidad existe un \(68\%\) de probabilidad de que el modelo detecte los casos que no caen en morosidad si en realidad estos casos no están en morosidad; y en la especificidad existe un \(67\%\) de probabilidad de que el modelo detecte los casos morosos que en realidad estos casos están en morosidad.

Curva ROC

Al dasarrollar la curva ROC tenemos:

## Area under the curve: 0.742

Es decir el modelo desarrollado es medianamente aceptable para explicar y predecir si un cliente caera en default en el siguiente mes.

embargo, lo optimo seria obtener un modelo que este cerca al 100%, dado que el desarrollado presenta 74.2% con las mejoras sobre las variables edad y creditos se podria llegar a lo optimo.

Ahora se muestra la curva de ROC del modelo desarrollado.

Variaciones Marginales

Estas variaciones muestran como cambiaria la probabilidad de caer en incumplimiento de pago cuando una persona presenta determinada variable.

Por ejemplo, como cambiaria la probabilidad para un individuo que es solero o un individuo con estudios de primaria.

Entonces para el modelo elegido las variaciones marginales seran:

Variaciones Marginales
dF.dx
credito -0.00000
edad 0.001
factor(edu)2 -0.0005
factor(edu)3 -0.010
factor(edu)4 -0.131
factor(PAY_0)1 0.213
factor(PAY_0)2 0.543
factor(PAY_0)3 0.601
factor(PAY_0)4 0.528
factor(PAY_0)5 0.358
factor(PAY_0)6 0.409
factor(PAY_0)7 0.630
factor(PAY_0)8 0.439
factor(sex)2 -0.024
factor(est.civil)2 -0.027
factor(est.civil)3 -0.025

Comparacion de modelos

A continuacion se aplicara el modelo generado en clase y se va ha comparar con el modelo escogido luego de desarrollar el trabajo.

## Start:  AIC=27889
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6 + BILL_AMT1 + 
##     BILL_AMT2 + BILL_AMT3 + BILL_AMT4 + BILL_AMT5 + BILL_AMT6 + 
##     PAY_AMT1 + PAY_AMT2 + PAY_AMT3 + PAY_AMT4 + PAY_AMT5 + PAY_AMT6
## 
##             Df Deviance   AIC
## - BILL_AMT4  1    27827 27887
## - BILL_AMT6  1    27827 27887
## - PAY_6      1    27827 27887
## - BILL_AMT5  1    27828 27888
## - PAY_4      1    27828 27888
## - BILL_AMT3  1    27828 27888
## - PAY_5      1    27829 27889
## <none>            27827 27889
## - PAY_AMT3   1    27830 27890
## - BILL_AMT2  1    27830 27890
## - PAY_AMT6   1    27830 27890
## - PAY_AMT5   1    27831 27891
## - PAY_AMT4   1    27833 27893
## - AGE        1    27836 27896
## - PAY_3      1    27837 27897
## - SEX        1    27841 27901
## - PAY_2      1    27843 27903
## - LIMIT_BAL  1    27847 27907
## - PAY_AMT2   1    27853 27913
## - BILL_AMT1  1    27854 27914
## - MARRIAGE   3    27865 27921
## - PAY_AMT1   1    27874 27934
## - EDUCATION  6    27887 27937
## - PAY_0      1    28886 28946
## 
## Step:  AIC=27887
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6 + BILL_AMT1 + 
##     BILL_AMT2 + BILL_AMT3 + BILL_AMT5 + BILL_AMT6 + PAY_AMT1 + 
##     PAY_AMT2 + PAY_AMT3 + PAY_AMT4 + PAY_AMT5 + PAY_AMT6
## 
##             Df Deviance   AIC
## - BILL_AMT6  1    27827 27885
## - PAY_6      1    27827 27885
## - BILL_AMT5  1    27828 27886
## - PAY_4      1    27828 27886
## - BILL_AMT3  1    27828 27886
## - PAY_5      1    27829 27887
## <none>            27827 27887
## - BILL_AMT2  1    27830 27888
## - PAY_AMT6   1    27830 27888
## - PAY_AMT3   1    27830 27888
## - PAY_AMT5   1    27831 27889
## - PAY_AMT4   1    27834 27892
## - AGE        1    27836 27894
## - PAY_3      1    27837 27895
## - SEX        1    27841 27899
## - PAY_2      1    27843 27901
## - LIMIT_BAL  1    27847 27905
## - PAY_AMT2   1    27853 27911
## - BILL_AMT1  1    27854 27912
## - MARRIAGE   3    27865 27919
## - PAY_AMT1   1    27874 27932
## - EDUCATION  6    27887 27935
## - PAY_0      1    28886 28944
## 
## Step:  AIC=27885
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6 + BILL_AMT1 + 
##     BILL_AMT2 + BILL_AMT3 + BILL_AMT5 + PAY_AMT1 + PAY_AMT2 + 
##     PAY_AMT3 + PAY_AMT4 + PAY_AMT5 + PAY_AMT6
## 
##             Df Deviance   AIC
## - PAY_6      1    27827 27883
## - PAY_4      1    27828 27884
## - BILL_AMT3  1    27828 27884
## - BILL_AMT5  1    27829 27885
## - PAY_5      1    27829 27885
## <none>            27827 27885
## - BILL_AMT2  1    27830 27886
## - PAY_AMT6   1    27830 27886
## - PAY_AMT3   1    27831 27887
## - PAY_AMT5   1    27832 27888
## - PAY_AMT4   1    27834 27890
## - AGE        1    27836 27892
## - PAY_3      1    27837 27893
## - SEX        1    27841 27897
## - PAY_2      1    27844 27900
## - LIMIT_BAL  1    27847 27903
## - PAY_AMT2   1    27853 27909
## - BILL_AMT1  1    27854 27910
## - MARRIAGE   3    27865 27917
## - PAY_AMT1   1    27874 27930
## - EDUCATION  6    27887 27933
## - PAY_0      1    28886 28942
## 
## Step:  AIC=27883
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + BILL_AMT1 + 
##     BILL_AMT2 + BILL_AMT3 + BILL_AMT5 + PAY_AMT1 + PAY_AMT2 + 
##     PAY_AMT3 + PAY_AMT4 + PAY_AMT5 + PAY_AMT6
## 
##             Df Deviance   AIC
## - PAY_4      1    27828 27882
## - BILL_AMT3  1    27829 27883
## - BILL_AMT5  1    27829 27883
## <none>            27827 27883
## - BILL_AMT2  1    27830 27884
## - PAY_AMT6   1    27830 27884
## - PAY_5      1    27830 27884
## - PAY_AMT3   1    27831 27885
## - PAY_AMT5   1    27832 27886
## - PAY_AMT4   1    27834 27888
## - AGE        1    27836 27890
## - PAY_3      1    27837 27891
## - SEX        1    27841 27895
## - PAY_2      1    27844 27898
## - LIMIT_BAL  1    27848 27902
## - PAY_AMT2   1    27853 27907
## - BILL_AMT1  1    27855 27909
## - MARRIAGE   3    27865 27915
## - PAY_AMT1   1    27875 27929
## - EDUCATION  6    27887 27931
## - PAY_0      1    28888 28942
## 
## Step:  AIC=27882
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_5 + BILL_AMT1 + BILL_AMT2 + 
##     BILL_AMT3 + BILL_AMT5 + PAY_AMT1 + PAY_AMT2 + PAY_AMT3 + 
##     PAY_AMT4 + PAY_AMT5 + PAY_AMT6
## 
##             Df Deviance   AIC
## - BILL_AMT3  1    27829 27881
## - BILL_AMT5  1    27830 27882
## <none>            27828 27882
## - BILL_AMT2  1    27831 27883
## - PAY_AMT6   1    27831 27883
## - PAY_AMT3   1    27832 27884
## - PAY_AMT5   1    27833 27885
## - PAY_AMT4   1    27835 27887
## - PAY_5      1    27836 27888
## - AGE        1    27837 27889
## - SEX        1    27842 27894
## - PAY_3      1    27844 27896
## - PAY_2      1    27845 27897
## - LIMIT_BAL  1    27849 27901
## - PAY_AMT2   1    27854 27906
## - BILL_AMT1  1    27855 27907
## - MARRIAGE   3    27866 27914
## - PAY_AMT1   1    27875 27927
## - EDUCATION  6    27888 27930
## - PAY_0      1    28897 28949
## 
## Step:  AIC=27881
## default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE + 
##     AGE + PAY_0 + PAY_2 + PAY_3 + PAY_5 + BILL_AMT1 + BILL_AMT2 + 
##     BILL_AMT5 + PAY_AMT1 + PAY_AMT2 + PAY_AMT3 + PAY_AMT4 + PAY_AMT5 + 
##     PAY_AMT6
## 
##             Df Deviance   AIC
## <none>            27829 27881
## - PAY_AMT6   1    27832 27882
## - BILL_AMT5  1    27834 27884
## - PAY_AMT5   1    27834 27884
## - PAY_AMT3   1    27835 27885
## - BILL_AMT2  1    27836 27886
## - PAY_AMT4   1    27838 27888
## - PAY_5      1    27838 27888
## - AGE        1    27838 27888
## - SEX        1    27843 27893
## - PAY_3      1    27845 27895
## - PAY_2      1    27846 27896
## - LIMIT_BAL  1    27850 27900
## - PAY_AMT2   1    27857 27907
## - BILL_AMT1  1    27857 27907
## - MARRIAGE   3    27867 27913
## - PAY_AMT1   1    27878 27928
## - EDUCATION  6    27889 27929
## - PAY_0      1    28898 28948

Entonces el histograma del modelo de la clase sera:

La matriz de confusion es:

Matriz de Confusion del Modelo en Clase
0 1
0 0.45 0.55
1 0.23 0.77
Matriz de Confusion del Modelo de la presentacion
Default No Default
0 0.32 0.68
1 0.68 0.32
El es tadistico AIC del modelo trabajado en la clase es:
## [1] 27881

Por lo tanto, se concluye que:

  • Como modelo trabajado en clase tiene un estadistico AIC de 27881.4818 y el modelo trabajado en esta presentacion tiene un estadistico AIC de 26842.7402, por lo que, tomando este estadistico como criterio de eleccion se puede decir que el modelo desarrollado en esta presentacion es mejor que el trabajado en clase.

  • El punto de corte del modelo trabajado en clase es de 0.22 y el del modelo desarrollado en esta presentacion es de 0.1675.

  • El modelo trabajado en clase tiene una sensibilidad de 45% y el que se desarrollo en esta presentacion tiene una sensibilidad de 32%, por lo que se prefiere el modelo desarrollado en esta presnetacion.

  • El modelo trabajado en clase tiene una sensibilidad de 77% y el que se desarrollo en esta presentacion tiene una especificidad de 32%, por lo que se prefiere el modelo desarrollado en clase.

  • El valor del área bajo la curva ROC en el modelo trabajo en clase es del 72.6% y el del modelo trabajado en esta presentacion es de 74.2%, lo que hace mejor elección el modelo desarrollado en esta presentacion.

En suma, al evaluar que modelo elegir tomando en cuenta los puntos expuesto previamente, se decide usar el modelo desarrollado en esta presentacion.