Modelo Logístico de regresión

Modelo Logit

Antecedentes

Es necesario tomar en consideración distintas referencias que puedan servir como base para llevar a cabo un modelo que determine dentro del campo financiero la probabilidad de otorgar créditos teniendo en cuenta diferentes aspectos relevantes que le permitan a las entidades financieras tener certeza sobre sus posibles clientes a los cuales les brindará el apoyo económico solicitado y que, por ende, tendrá rendimientos y ganancias. En “El modelo logístico: Una herramienta estadística para evaluar el riesgo de crédito” (Fernández, Perez, 2005) se nos desribe cómo el uso de un modelo eficiente puede marcar la diferencia dentro de alguna entidad financiera a la hora de otorgar créditos a sus respectivos clientes, en donde deben “evaluar la probabilidad de que el cliente devuelva el dinero, lo cual será un hecho positivo para la entidad, o bien que el cliente llegue a ser moroso, y esto será un hecho negativo para la entidad.”

Es así como se realiza un modelo dicotómico que permita evaluar la probabilidad de brindar estos prestamos haciendo uso de variables como el salario, el estrato socio-económico, los niveles de escolaridad, entre otros que le permitan mermar el riesgo al que se enfrentan estas entidades financieras. Implementándose entonces un modelo logístico que satisfaga con lo propuesto por estos autores de generar un mecanismo que evalúe el riesgo de préstamos se identifica que “el riesgo, como la probabilidad de obtener un resultado no esperado, hace necesario que en su estudio se incluyan las matemáticas como herramienta para modelar los procesos de optimización, dado que las características de las variables se ven reflejadas mediante procesos estocásticos; y para ello se deben considerar como pilares: Estadística multivariada, Procesos Estocásticos, Simulación, Series de Tiempo y Econometría”, es decir, que no basta con brindar un calificación de riesgo a estos prestamos sino que también hace falta poder establecer diferentes mecanismos que brinden mayor certeza al estudio de entidades financieras no solo comerciales sino también de orden nacional e internacional que sustenten sus préstamos en aspectos un poco más específicos para recibir remuneraciones y pagos oportunos por dichos créditos.

Factores determinantes de la probabilidad de tener o no una calificación financiera perfecta

Se pretende construir un modelo que muestre de qué depende que una persona tenga “calificación perfecta” o no, la cual se definió que ocurre cuando una persona tiene calificación interna y externa igual a “A”. Para ello, se utilizan segmentos como los ingresos, pasivos, activos, género, entre otras.

Supuesto económico

  • Particularmente en la base de datos se tienen variables socioeconómicas, cuantitativas y otras cualitativas, por lo cual el objetivo planteado será significativo estadísticamente hablando, a su vez será útil para verificar la causalidad que tienen factores independientes para explicar que una persona tenga una calificación financiera positiva en las diferentes centrales de información, cabe resaltar que la variable dependiente se denomina “calificación perfecta”.Al hablar de calificaciones ante centrales de información, es importante definir las categorías que según la escala Fitch vienen dadas entre las letra A y D, donde A corresponde a la calificación más alta y D la más baja, es importante mencionar que hay multiples variaciones en las combinaciones de estas letras.

  • Es importante mencionar que para justificar el objetivo planteado en el presente informe, se tienen niveles de calificación financiera, que de hecho cumplen con los estandares mencionados anteriormente, para el caso colombiano, según el periodico El Tiempo estas categorías funcionan para “evaluar el riesgo crediticio [..] pues, existe una clasificación que le permite saber a la autoridad de supervisión y vigilancia y a las propias instituciones cómo está su cartera en cuanto a la morosidad.” (El Tiempo, 2011) por tanto las personas que deseen acceder a un crédito seguirán la tendencia a querer mejorar su calificación tambien llamada Score, lo cual se traduce en aumentar la probabilidad de poder contar con un crédito.

Formulación teórica del modelo

Fórmula Modelo Logit

El modelo Logit está determinado por una regresión que predice el resultado de una variable categórica en función de variables ‘independientes’ o explicativas predictoras escogidas por el investigador. Este modelo Logit, como se da en todas las distribuciones estadísticas, no predice determinísticamente el valor ya sea de 0 o 1, sino que esta regresión logística genera una probabilidad con un valor entre 0 y/o 1.

Este modelo logístico generalmente se encuentra asociado a estudios financieros ya que sirve como una herramienta estadística (y econométrica) para evaluar el riesgo de crédito, siendo en estos casos, útil para modelar la probabilidad de que se establezca según la variable de interés en función de otros factores (o variables) como se verá a continuación.

Gráfica Modelo Logit

library(AER)

#install.packages("systemfit")
library(systemfit
        )
#install.packages("lmtest")
library(lmtest)

#install.packages("haven")
library(haven)

#install.packages("stargazer")
library(stargazer)

library(plyr)
library(dplyr)
library(MASS)
library(psych)
library(caret)
  • Se corre la base logit
base1 = read.csv("C:/Users/juan1/Documents/modulo2/B.D/01 PlanoR.csv", header = T, sep= ";", stringsAsFactors =  T )

Presentación de las variables

  • Naturaleza de las variables
 knitr::kable( head(base1,10))
ID INGRESOS EGRESOS ACTIVOS PASIVOS APORTES.SOCIALES SALDO_AHORRO_CONTRACTUAL ACTIVIDAD_ECONOMICA ANTIGUEDAD_ENTIDAD DEPARTAMENTO PERSONAS_CARGO GENERO PROPIEDAD_VIVIENDA SALDO_INTERNO MORA_MAX_12M CALIFICACION_INTERNA CALIFICACION_EXTERNA SCORE_EXTERNO ENDEUDAMIENTO_TOTAL GARANTIA VALOR.GARANTIA SALDO.VENCIDO
534792 7126566 4700000 117676500 118656000 1480668 0 EMPLEADO_PUBLICO 2 TOLIMA 0 MASCULINO PROPIA 3931308 0 A A 787 86577305 PERSONAL - 0
486490 2242820 2409000 58838250 43646000 10127389 7112235 EMPLEADO_PUBLICO 12 TOLIMA 1 FEMENINO PROPIA 1771318 0 A A 916 45058517 PERSONAL - 0
903998 1747013 490000 110772812 0 4067254 3676132 EMPLEADO_PUBLICO 18 TOLIMA 2 MASCULINO PROPIA 1126510 20 A A 889 7722309 PERSONAL - 0
684474 3171401 2805000 138697445 17377000 7221654 6110352 MICROEMPRESARIO 18 TOLIMA 3 FEMENINO PROPIA 6474374 0 A A 928 17623337 PERSONAL - 0
779498 4968563 3721000 8047169 14390000 692164 3675111 MICROEMPRESARIO 18 TOLIMA 0 MASCULINO PROPIA 2918888 0 A A 953 19494131 PERSONAL - 0
769855 2220163 1667000 378133820 11540000 354582 9209150 EMPLEADO_PUBLICO 18 TOLIMA 1 FEMENINO PROPIA 8860985 0 A A 852 30305458 PERSONAL - 0
550712 1847117 1846412 3142747 33092000 2685465 3838772 EMPLEADO_PUBLICO 18 TOLIMA 2 MASCULINO PROPIA 10945546 38 A A 910 30579520 PERSONAL - 0
814935 1300486 1135000 41579030 27730000 4904034 3538399 EMPLEADO_PUBLICO 10 TOLIMA 3 FEMENINO PROPIA 5275611 20 A A 979 23140986 PERSONAL - 0
893998 4483861 4376000 524052680 137407460 649244 0 EMPLEADO_PUBLICO 22 TOLIMA 0 MASCULINO ARRIENDO 32534336 0 A C 41 144851834 PERSONAL - 0
793396 2175871 1433750 173141357 11504000 690006 7635814 EMPLEADO_PUBLICO 22 TOLIMA 2 FEMENINO PROPIA 6776000 0 A A 770 10967888 PERSONAL - 0
 knitr::kable( str(base1))
## 'data.frame':    1998 obs. of  22 variables:
##  $ ID                      : int  534792 486490 903998 684474 779498 769855 550712 814935 893998 793396 ...
##  $ INGRESOS                : int  7126566 2242820 1747013 3171401 4968563 2220163 1847117 1300486 4483861 2175871 ...
##  $ EGRESOS                 : int  4700000 2409000 490000 2805000 3721000 1667000 1846412 1135000 4376000 1433750 ...
##  $ ACTIVOS                 : int  117676500 58838250 110772812 138697445 8047169 378133820 3142747 41579030 524052680 173141357 ...
##  $ PASIVOS                 : int  118656000 43646000 0 17377000 14390000 11540000 33092000 27730000 137407460 11504000 ...
##  $ APORTES.SOCIALES        : int  1480668 10127389 4067254 7221654 692164 354582 2685465 4904034 649244 690006 ...
##  $ SALDO_AHORRO_CONTRACTUAL: int  0 7112235 3676132 6110352 3675111 9209150 3838772 3538399 0 7635814 ...
##  $ ACTIVIDAD_ECONOMICA     : Factor w/ 5 levels "EMPLEADO_PRIVADO",..: 2 2 2 3 3 2 2 2 2 2 ...
##  $ ANTIGUEDAD_ENTIDAD      : int  2 12 18 18 18 18 18 10 22 22 ...
##  $ DEPARTAMENTO            : Factor w/ 8 levels "ANTIOQUIA","CALDAS",..: 8 8 8 8 8 8 8 8 8 8 ...
##  $ PERSONAS_CARGO          : int  0 1 2 3 0 1 2 3 0 2 ...
##  $ GENERO                  : Factor w/ 2 levels "FEMENINO","MASCULINO": 2 1 2 1 2 1 2 1 2 1 ...
##  $ PROPIEDAD_VIVIENDA      : Factor w/ 2 levels "ARRIENDO","PROPIA": 2 2 2 2 2 2 2 2 1 2 ...
##  $ SALDO_INTERNO           : int  3931308 1771318 1126510 6474374 2918888 8860985 10945546 5275611 32534336 6776000 ...
##  $ MORA_MAX_12M            : int  0 0 20 0 0 0 38 20 0 0 ...
##  $ CALIFICACION_INTERNA    : Factor w/ 5 levels "A","B","C","D",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ CALIFICACION_EXTERNA    : Factor w/ 5 levels "A","B","C","D",..: 1 1 1 1 1 1 1 1 3 1 ...
##  $ SCORE_EXTERNO           : int  787 916 889 928 953 852 910 979 41 770 ...
##  $ ENDEUDAMIENTO_TOTAL     : int  86577305 45058517 7722309 17623337 19494131 30305458 30579520 23140986 144851834 10967888 ...
##  $ GARANTIA                : Factor w/ 4 levels "ADMISIBLE","ADMISIBLE ",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ VALOR.GARANTIA          : Factor w/ 358 levels " -   "," 1.267.041 ",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ SALDO.VENCIDO           : int  0 0 0 0 0 0 0 0 0 0 ...

|| || || ||

  • Estas tablas están mostrando cómo están compuestas las variables, nos muestra su clase en R, y además, nos permite visualizar su naturaleza, sean categóricas, numéricas, cualitativas, etc.

  • Estadística descriptiva

knitr::kable( describe(base1))
vars n mean sd median trimmed mad min max range skew kurtosis se
ID 1 1998 7.231166e+05 1.581956e+05 715640.5 7.226799e+05 2.054194e+05 452193 999333 547140 0.0327959 -1.2145494 3.539131e+03
INGRESOS 2 1998 2.992333e+06 4.936963e+06 2129049.5 2.300409e+06 1.375524e+06 420184 162950964 162530780 18.7503310 558.1157272 1.104491e+05
EGRESOS 3 1998 2.216525e+06 3.204723e+06 1480000.0 1.680504e+06 1.150864e+06 0 60943000 60943000 8.3213145 109.4045969 7.169565e+04
ACTIVOS 4 1998 1.259448e+08 1.331952e+08 88649630.0 1.026069e+08 9.591391e+07 0 1049674380 1049674380 2.3941595 8.3344628 2.979826e+06
PASIVOS 5 1998 3.210671e+07 5.370694e+07 12257761.0 2.035310e+07 1.744243e+07 0 780658000 780658000 4.3101941 33.3869233 1.201525e+06
APORTES.SOCIALES 6 1998 1.756760e+06 2.901975e+06 671581.0 1.115192e+06 8.122194e+05 0 27555571 27555571 3.6893490 19.7471716 6.492261e+04
SALDO_AHORRO_CONTRACTUAL 7 1998 4.227315e+06 3.204681e+06 4077277.5 4.106953e+06 4.335023e+06 0 9983810 9983810 0.1480500 -1.2857553 7.169471e+04
ACTIVIDAD_ECONOMICA* 8 1998 3.467468e+00 1.041306e+00 4.0 3.560625e+00 1.482600e+00 1 5 4 -0.8018075 0.3772876 2.329600e-02
ANTIGUEDAD_ENTIDAD 9 1998 9.934935e+00 9.036163e+00 8.0 8.669375e+00 8.895600e+00 0 40 40 1.1268364 0.7096947 2.021559e-01
DEPARTAMENTO* 10 1998 5.307808e+00 2.272354e+00 6.0 5.445000e+00 2.965200e+00 1 8 7 -0.3199740 -1.1968606 5.083680e-02
PERSONAS_CARGO 11 1998 1.338338e+00 1.271640e+00 1.0 1.298125e+00 1.482600e+00 0 3 3 0.1890806 -1.6459244 2.844900e-02
GENERO* 12 1998 1.471472e+00 4.993104e-01 1.0 1.464375e+00 0.000000e+00 1 2 1 0.1142145 -1.9879493 1.117050e-02
PROPIEDAD_VIVIENDA* 13 1998 1.460460e+00 4.985590e-01 1.0 1.450625e+00 0.000000e+00 1 2 1 0.1585359 -1.9758545 1.115370e-02
SALDO_INTERNO 14 1998 8.698316e+06 1.246582e+07 4207736.5 6.011668e+06 4.480118e+06 11323 123147605 123136282 3.5657751 18.4519226 2.788836e+05
MORA_MAX_12M 15 1998 3.261712e+01 1.196383e+02 0.0 4.181250e+00 0.000000e+00 0 1165 1165 5.1824394 29.4562491 2.676533e+00
CALIFICACION_INTERNA* 16 1998 1.263263e+00 9.143390e-01 1.0 1.000000e+00 0.000000e+00 1 5 4 3.5193217 10.9582882 2.045550e-02
CALIFICACION_EXTERNA* 17 1998 1.612112e+00 1.339733e+00 1.0 1.266875e+00 0.000000e+00 1 5 4 1.9274787 1.9621547 2.997230e-02
SCORE_EXTERNO 18 1998 7.604950e+02 2.569813e+02 847.0 8.098006e+02 1.171254e+02 0 1000 1000 -1.6015630 1.3360969 5.749151e+00
ENDEUDAMIENTO_TOTAL 19 1998 3.537560e+07 4.886253e+07 18107027.5 2.487819e+07 2.009678e+07 112793 404044596 403931803 3.1328524 13.2738142 1.093146e+06
GARANTIA* 20 1998 2.791291e+00 4.736251e-01 3.0 2.883125e+00 0.000000e+00 1 4 3 -1.8294682 3.2654418 1.059590e-02
VALOR.GARANTIA* 21 1998 3.300901e+01 8.125737e+01 1.0 8.882500e+00 0.000000e+00 1 358 357 2.5672439 5.4081561 1.817879e+00
SALDO.VENCIDO 22 1998 6.242423e+05 4.161921e+06 0.0 0.000000e+00 0.000000e+00 0 123147605 123147605 16.9956284 416.2872193 9.310995e+04

Este comando, nos permite ver algunas de las características estadísticas que presentan las variables a estudiar, dentro de las cuales, se tiene, por ejemplo, la media, moda, desviación estándar, mediana, kurtosis, tamaño de la muestra, entre otras. Dado que, se presentan algunas variables de naturaleza categórica, se hace difícil aplicar este tipo de medidas a la interpretación de la misma. Por otro lado, como lo muestra la tabla, la base está compuesta por una muestra para todas las variables de n=1998. A su vez, se cuenta con un total de 22 variables relacionadas en el data frame.

Descripción de variablas relevantes

  • Ingresos: Es una variable numérica que muestra el nivel de ingresos de los individuos.

  • Egresos: Es una variable numérica que muestra el nivel de Egresos de los individuos.

  • Propiedad_vivienda: Es categórica y muestra si el individuo tiene casa propia o vive en arriendo.

  • Actividad Económica: Es una variable categórica y muestra si es empleado público, privado, pensionado, entre otras.

  • Calificación Interna: Es la calificación financiera que presenta el individuo respecto al banco que realice el análisis.

  • Calificación Externa: Es la calificación financiera del individuo en las demás entidades financieras.

  • Se convierten en factor las variables necesarias para realizar el modelo.

base1$PROPIEDAD_VIVIENDA <- factor (base1$PROPIEDAD_VIVIENDA)
class(base1$PROPIEDAD_VIVIENDA)
## [1] "factor"
base1$ACTIVIDAD_ECONOMICA = factor(base1$ACTIVIDAD_ECONOMICA)
class(base1$ACTIVIDAD_ECONOMICA)
## [1] "factor"
base1$ACTIVIDAD_ECONOMICA1= ifelse(base1$ACTIVIDAD_ECONOMICA != "EMPLEADO_PUBLICO"  & base1$ACTIVIDAD_ECONOMICA != "PENSIONADO", "OTRASACTIVIDADES", "PUBLICOYPENSIONADO") 

base1$GENERO = factor(base1$GENERO)

base1$DEPARTAMENTO = factor(base1$DEPARTAMENTO)
  • Se crea la variable dependiente del modelo, la cual, tiene el condicional de ser califación perfecta si las variables CALIFICACION_INTERNA y CALIFICACION_EXTERNA son iguales a “A”. En caso de no cumplirlas estrictamente, se describen como una calificación no perfecta.
base1$NUEVACAL= ifelse(base1$CALIFICACION_INTERNA== "A" & base1$CALIFICACION_EXTERNA== "A",  "CALIFICACIÓN PERFECTA","CALIFICACIÓN NO PERFECTA")
  • Se le asigna un valor de 1 si cumple la condición, y de 0 si no la cumple.
base1$NUEVACAL= ifelse(base1$NUEVACAL== "CALIFICACIÓN PERFECTA",1,0)
  • Se continúa generando condicionales para ajustar el modelo a una categoria binaria.
base1$GENERO1 = ifelse(base1$GENERO == "FEMENINO", 0, 1)

Estimación del modelo con las variables seleccionadas.

  • La variable NUEVACAL, es una variable binaria que está comprendida entre 0 y 1. La misma, denota la probabilidad de que un individuo tenga una calificación perfecta o no, lo que la convierte a su vez en dicotómica, dependiente de las variables seleccionadas.

  • A continuación, se procede a estimar el modelo con una variable dependiente llamada “NUEVA CAL”, que evalúa la probabilidad de obtener la calificación perfecta, con unas variables independientes como INGRESOS, PASIVOS, ACTIVIDAD ECONÓMICA, entre otras.

Mod1 = glm(NUEVACAL ~ INGRESOS + PASIVOS + ACTIVOS + SALDO_AHORRO_CONTRACTUAL +ACTIVIDAD_ECONOMICA + 
             ANTIGUEDAD_ENTIDAD + GENERO1 + PERSONAS_CARGO, data= base1 , family = binomial)
summary(Mod1)
## 
## Call:
## glm(formula = NUEVACAL ~ INGRESOS + PASIVOS + ACTIVOS + SALDO_AHORRO_CONTRACTUAL + 
##     ACTIVIDAD_ECONOMICA + ANTIGUEDAD_ENTIDAD + GENERO1 + PERSONAS_CARGO, 
##     family = binomial, data = base1)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.5164   0.0603   0.2126   0.4653   2.1100  
## 
## Coefficients:
##                                         Estimate Std. Error z value Pr(>|z|)
## (Intercept)                           -1.689e+00  2.946e-01  -5.734 9.79e-09
## INGRESOS                              -3.581e-08  2.799e-08  -1.279  0.20075
## PASIVOS                               -4.971e-09  1.747e-09  -2.846  0.00442
## ACTIVOS                                3.209e-09  7.759e-10   4.136 3.53e-05
## SALDO_AHORRO_CONTRACTUAL               5.258e-07  3.233e-08  16.261  < 2e-16
## ACTIVIDAD_ECONOMICAEMPLEADO_PUBLICO   -7.138e-02  4.787e-01  -0.149  0.88147
## ACTIVIDAD_ECONOMICAMICROEMPRESARIO    -2.048e-01  2.748e-01  -0.745  0.45606
## ACTIVIDAD_ECONOMICAPENSIONADO          8.538e-01  2.784e-01   3.067  0.00217
## ACTIVIDAD_ECONOMICAPROFESION LIBERAL   7.995e-03  3.361e-01   0.024  0.98102
## ANTIGUEDAD_ENTIDAD                     2.156e-02  8.318e-03   2.591  0.00956
## GENERO1                                7.328e-02  1.465e-01   0.500  0.61701
## PERSONAS_CARGO                         9.032e-01  7.113e-02  12.697  < 2e-16
##                                          
## (Intercept)                           ***
## INGRESOS                                 
## PASIVOS                               ** 
## ACTIVOS                               ***
## SALDO_AHORRO_CONTRACTUAL              ***
## ACTIVIDAD_ECONOMICAEMPLEADO_PUBLICO      
## ACTIVIDAD_ECONOMICAMICROEMPRESARIO       
## ACTIVIDAD_ECONOMICAPENSIONADO         ** 
## ACTIVIDAD_ECONOMICAPROFESION LIBERAL     
## ANTIGUEDAD_ENTIDAD                    ** 
## GENERO1                                  
## PERSONAS_CARGO                        ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2052.2  on 1997  degrees of freedom
## Residual deviance: 1218.8  on 1986  degrees of freedom
## AIC: 1242.8
## 
## Number of Fisher Scoring iterations: 6
format(coefficients(Mod1), scientific = F)
##                           (Intercept)                              INGRESOS 
##                  "-1.689362119551547"                  "-0.000000035806551" 
##                               PASIVOS                               ACTIVOS 
##                  "-0.000000004971434"                  " 0.000000003209351" 
##              SALDO_AHORRO_CONTRACTUAL   ACTIVIDAD_ECONOMICAEMPLEADO_PUBLICO 
##                  " 0.000000525794112"                  "-0.071380125993904" 
##    ACTIVIDAD_ECONOMICAMICROEMPRESARIO         ACTIVIDAD_ECONOMICAPENSIONADO 
##                  "-0.204785628688441"                  " 0.853813960905172" 
## ACTIVIDAD_ECONOMICAPROFESION LIBERAL                     ANTIGUEDAD_ENTIDAD 
##                  " 0.007995212705432"                  " 0.021556349362360" 
##                               GENERO1                        PERSONAS_CARGO 
##                  " 0.073284162785042"                  " 0.903184420477470"
  • Estimando el modelo, se puede notar que, en principio, solo 2 variables no son signifactivas,las cuales son GENERO e INGRESOS.

Considerando efectos

  • El hecho de tener mayores pasivos, disminuye la probabilidad de tener calificación perfecta.

  • El hecho de tener mayo Ahorro contractual, aumenta la probabilidad de tener calificación perfecta.

  • El hecho de tener vivienda propia, disminuye la probabilidad de tener calificación perfecta (puede deberse a que, las personas que dicen tener vivienda propia, pueden haberla pagado o estar pagándola a crédito, y haber tenido una costumbre de pago no tan buena).

  • El hecho de tener la actividad economica publico o pensionado, aumenta la probabilidad de tener puntaje perfecto.

  • El hecho de tener más años de antiguedad en la entidad, aumenta la probabilidad de tener puntaje perfecto.

  • El hecho de tener más personas a cargo, aumenta la probabilidad de tener puntaje perfecto.

A continuación, se realiza un filtro para luego estimar un modelo que pueda ser corregido por el criterio Akaike, seleccionando las mejores variables para el modelo.

base0 = subset(base1, select = c("NUEVACAL","PASIVOS", "SALDO_AHORRO_CONTRACTUAL", 
                                 "INGRESOS", "PROPIEDAD_VIVIENDA",
                                 "ACTIVIDAD_ECONOMICA1", "GENERO1", "ACTIVOS", "ANTIGUEDAD_ENTIDAD", "PERSONAS_CARGO"))
Mod33 = glm(NUEVACAL ~  
             . , data= base0 , family = binomial)
summary(Mod33)
## 
## Call:
## glm(formula = NUEVACAL ~ ., family = binomial, data = base0)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.7917   0.0397   0.1805   0.4379   2.7756  
## 
## Coefficients:
##                                          Estimate Std. Error z value Pr(>|z|)
## (Intercept)                            -1.585e+00  2.088e-01  -7.592 3.15e-14
## PASIVOS                                -5.352e-09  1.769e-09  -3.026 0.002482
## SALDO_AHORRO_CONTRACTUAL                4.796e-07  3.195e-08  15.011  < 2e-16
## INGRESOS                               -4.946e-08  2.856e-08  -1.732 0.083315
## PROPIEDAD_VIVIENDAPROPIA               -2.754e+00  3.280e-01  -8.396  < 2e-16
## ACTIVIDAD_ECONOMICA1PUBLICOYPENSIONADO  9.696e-01  1.736e-01   5.584 2.35e-08
## GENERO1                                 8.379e-02  1.519e-01   0.552 0.581192
## ACTIVOS                                 3.223e-09  7.694e-10   4.189 2.80e-05
## ANTIGUEDAD_ENTIDAD                      3.166e-02  8.860e-03   3.573 0.000352
## PERSONAS_CARGO                          1.909e+00  1.542e-01  12.386  < 2e-16
##                                           
## (Intercept)                            ***
## PASIVOS                                ** 
## SALDO_AHORRO_CONTRACTUAL               ***
## INGRESOS                               .  
## PROPIEDAD_VIVIENDAPROPIA               ***
## ACTIVIDAD_ECONOMICA1PUBLICOYPENSIONADO ***
## GENERO1                                   
## ACTIVOS                                ***
## ANTIGUEDAD_ENTIDAD                     ***
## PERSONAS_CARGO                         ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2052.2  on 1997  degrees of freedom
## Residual deviance: 1132.1  on 1988  degrees of freedom
## AIC: 1152.1
## 
## Number of Fisher Scoring iterations: 6
format(coefficients(Mod33), scientific = F)
##                            (Intercept)                                PASIVOS 
##                   "-1.585019171539792"                   "-0.000000005351805" 
##               SALDO_AHORRO_CONTRACTUAL                               INGRESOS 
##                   " 0.000000479599724"                   "-0.000000049456584" 
##               PROPIEDAD_VIVIENDAPROPIA ACTIVIDAD_ECONOMICA1PUBLICOYPENSIONADO 
##                   "-2.754096784079752"                   " 0.969598898271747" 
##                                GENERO1                                ACTIVOS 
##                   " 0.083790048841318"                   " 0.000000003223178" 
##                     ANTIGUEDAD_ENTIDAD                         PERSONAS_CARGO 
##                   " 0.031659694786298"                   " 1.909313606891377"
step.model = stepAIC(Mod33 , direction = "backward")
## Start:  AIC=1152.08
## NUEVACAL ~ PASIVOS + SALDO_AHORRO_CONTRACTUAL + INGRESOS + PROPIEDAD_VIVIENDA + 
##     ACTIVIDAD_ECONOMICA1 + GENERO1 + ACTIVOS + ANTIGUEDAD_ENTIDAD + 
##     PERSONAS_CARGO
## 
##                            Df Deviance    AIC
## - GENERO1                   1   1132.4 1150.4
## <none>                          1132.1 1152.1
## - INGRESOS                  1   1135.8 1153.8
## - PASIVOS                   1   1142.2 1160.2
## - ANTIGUEDAD_ENTIDAD        1   1145.4 1163.4
## - ACTIVOS                   1   1152.0 1170.0
## - ACTIVIDAD_ECONOMICA1      1   1164.5 1182.5
## - PROPIEDAD_VIVIENDA        1   1224.5 1242.5
## - PERSONAS_CARGO            1   1399.1 1417.1
## - SALDO_AHORRO_CONTRACTUAL  1   1481.5 1499.5
## 
## Step:  AIC=1150.38
## NUEVACAL ~ PASIVOS + SALDO_AHORRO_CONTRACTUAL + INGRESOS + PROPIEDAD_VIVIENDA + 
##     ACTIVIDAD_ECONOMICA1 + ACTIVOS + ANTIGUEDAD_ENTIDAD + PERSONAS_CARGO
## 
##                            Df Deviance    AIC
## <none>                          1132.4 1150.4
## - INGRESOS                  1   1136.2 1152.2
## - PASIVOS                   1   1142.4 1158.4
## - ANTIGUEDAD_ENTIDAD        1   1145.7 1161.7
## - ACTIVOS                   1   1152.4 1168.4
## - ACTIVIDAD_ECONOMICA1      1   1164.7 1180.7
## - PROPIEDAD_VIVIENDA        1   1224.7 1240.7
## - PERSONAS_CARGO            1   1399.2 1415.2
## - SALDO_AHORRO_CONTRACTUAL  1   1481.7 1497.7
  • El Criterio de informacion de Akaike nos revela que, el mejor modelo escogido es el cual tiene todas las variables escogidas en la base0, a pesar de que incluye las variables GENERO E INGRESOS, las cuales no son significativas dentro del modelo.

  • NUEVACAL ~ INGRESOS + PASIVOS + ACTIVOS + SALDO_AHORRO_CONTRACTUAL +ACTIVIDAD_ECONOMICA + ANTIGUEDAD_ENTIDAD + GENERO1 + PERSONAS_CARGO

Conclusiones

  • En el presente informe se obtuvo, que en efecto la información contenida en la base de datos no solamente brinda información de las condiciones socioeconómicas sino también condiciones demográficas y geográficas de cada una de las personas analizadas, sin embargo las geográficas no generaron una significancia estadística, por lo cual se excluyeron de la estimación del modelo incial del modelo y en el desarrollo en sí.

  • “La calificación perfecta” o “NUEVACAL” tiene ligada una causalidad directa con los ingresos de las personas, sus deudas, bienes y activos , ahorros, actividad económica, personas a cargo y el genero. Es evidente que a su vez existe una relación entre variables como los ingresos, activos y actividad económica, pues se denota que personas con una actividad económica ligada a ser independiente o empleado, presentan un nivel de ingresos mejor comparado con otras actividades y de hecho tienen una mayor probabilidad de tener una “calificación perfecta”

  • Se concluye que tener mayores pasivos, disminuye la probabilidad de tener calificación perfecta, porque al tener un mayor nivel de endeudamiento las calificadoras asignan categorías que tienden a ser inferiores. Para contrarestar, justamente este efecto o probabilidad se recomienda que las personas realicen periodicamente un ahorro o se enfoquen en mejorar su flujo de caja. Igualmente buscar la posibilidad de cambiar su actividad económica con el objetivo de migrar a trabajos con un salario mejor.