Este modelo nos da la facilidad para analizar las posibilidades de exito y fracaso, para datos con forma binomial o de 2 opciones.
Su forma es la siguiente.
\[Log(\frac{P}{1-P})\]
Luego de cargar los paquetes y ejecutarlos se procede a cargar la carpeta de datos usando el comando read.csv con la direccion en donde se encuentra nuestra carpeta hasta renombrar los datos y completar espacios requeridos.
plot1 <- ggplot(data = datos, aes(x=factor(SEX), fill =factor(default.payment.next.month))) +
geom_bar() +
ylab("Observations count") +
scale_x_discrete(labels = c('Male','Female')) +
xlab("")
plot1plot2 <- ggplot(data = datos, aes(x=factor(EDUCATION), fill =factor(SEX))) +
geom_bar() +
ylab("Observations count") +
xlab("(1=graduate school, 2=university, 3=high school, 4=others, 5=unknown, 6=unknown)")
plot2#https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
#
# ID: ID of each client
# LIMIT_BAL: Amount of given credit in NT dollars (includes individual and family/supplementary credit
# SEX: Gender (1=male, 2=female)
# EDUCATION: (1=graduate school, 2=university, 3=high school, 4=others, 5=unknown, 6=unknown)
# MARRIAGE: Marital status (1=married, 2=single, 3=others)
# AGE: Age in years
# PAY_0: Repayment status in September, 2005
# (-1=pay duly,
# 1=payment delay for one month,
# 2=payment delay for two months, â¦
# 8=payment delay for eight months,
# 9=payment delay for nine months and above)
# PAY_2: Repayment status in August, 2005 (scale same as above)
# PAY_3: Repayment status in July, 2005 (scale same as above)
# PAY_4: Repayment status in June, 2005 (scale same as above)
# PAY_5: Repayment status in May, 2005 (scale same as above)
# PAY_6: Repayment status in April, 2005 (scale same as above)
# BILL_AMT1: Amount of bill statement in September, 2005 (NT dollar)
# BILL_AMT2: Amount of bill statement in August, 2005 (NT dollar)
# BILL_AMT3: Amount of bill statement in July, 2005 (NT dollar)
# BILL_AMT4: Amount of bill statement in June, 2005 (NT dollar)
# BILL_AMT5: Amount of bill statement in May, 2005 (NT dollar)
# BILL_AMT6: Amount of bill statement in April, 2005 (NT dollar)
# PAY_AMT1: Amount of previous payment in September, 2005 (NT dollar)
# PAY_AMT2: Amount of previous payment in August, 2005 (NT dollar)
# PAY_AMT3: Amount of previous payment in July, 2005 (NT dollar)
# PAY_AMT4: Amount of previous payment in June, 2005 (NT dollar)
# PAY_AMT5: Amount of previous payment in May, 2005 (NT dollar)
# PAY_AMT6: Amount of previous payment in April, 2005 (NT dollar)
# default.payment.next.month: Default payment (1=yes, 0=no)Se han determinado 5 variables; siendo las siguientes:
SEX (sexo), MARRIAGE(estado civil), LIMIT_BAL (credito), PAY_0 (reembolso a setiembre 2005), PAY_3 (reembolso a julio 2005) .
La eleccion de variables se basa en el resultado de 5 pruebas aleatorias, de las cuales las variables con menor AIC fue elegida, con el presente modelo se llego a tener un AIC de 26521, siendo el mas bajo para este caso.
No hemos reproducido los modelos de prueba por considerarlo no relevante, por lo que solo reproducimos el modelo final para nuestro trabajo.
cred <- datos[,-1]
XB <- as.formula("default.payment.next.month ~
factor(SEX)+
factor(MARRIAGE)+
LIMIT_BAL+
factor(PAY_0)+
factor(PAY_3)")
modelo2 <- glm(XB,data = cred,
family = binomial(link = "logit"))
summary(modelo2)##
## Call:
## glm(formula = XB, family = binomial(link = "logit"), data = cred)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.9336 -0.5862 -0.5140 -0.3882 2.6466
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.5702435726 0.5114328880 -5.026 0.0000005019303 ***
## factor(SEX)2 -0.1592499752 0.0316916431 -5.025 0.0000005034765 ***
## factor(MARRIAGE)1 1.4076659853 0.5076863854 2.773 0.005559 **
## factor(MARRIAGE)2 1.2133420053 0.5076168471 2.390 0.016836 *
## factor(MARRIAGE)3 1.4089106512 0.5265430245 2.676 0.007456 **
## LIMIT_BAL -0.0000020632 0.0000001411 -14.627 < 0.0000000000000002 ***
## factor(PAY_0)-1 0.3353017875 0.0839231101 3.995 0.0000646000811 ***
## factor(PAY_0)0 -0.2206487877 0.0845675100 -2.609 0.009077 **
## factor(PAY_0)1 0.8850085821 0.0774683660 11.424 < 0.0000000000000002 ***
## factor(PAY_0)2 2.1860512214 0.0896505835 24.384 < 0.0000000000000002 ***
## factor(PAY_0)3 2.2457994528 0.1550877631 14.481 < 0.0000000000000002 ***
## factor(PAY_0)4 1.7395576205 0.2654921115 6.552 0.0000000000567 ***
## factor(PAY_0)5 0.9926487969 0.4287230805 2.315 0.020593 *
## factor(PAY_0)6 1.4085416551 0.6710564217 2.099 0.035818 *
## factor(PAY_0)7 3.0894257323 1.0168057927 3.038 0.002379 **
## factor(PAY_0)8 0.7817987981 1.2865740650 0.608 0.543413
## factor(PAY_3)-1 -0.3319230911 0.0688985574 -4.818 0.0000014532274 ***
## factor(PAY_3)0 -0.0846708684 0.0668616278 -1.266 0.205384
## factor(PAY_3)1 -0.1643912590 1.1706680453 -0.140 0.888324
## factor(PAY_3)2 0.5762059766 0.0687928927 8.376 < 0.0000000000000002 ***
## factor(PAY_3)3 0.5942189515 0.1605339632 3.702 0.000214 ***
## factor(PAY_3)4 0.3416555107 0.2799874166 1.220 0.222369
## factor(PAY_3)5 -0.2240439360 0.6183704463 -0.362 0.717118
## factor(PAY_3)6 1.0939959955 1.1966676458 0.914 0.360611
## factor(PAY_3)7 0.9400827351 0.5086835913 1.848 0.064592 .
## factor(PAY_3)8 0.3674852771 1.3061168451 0.281 0.778437
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 31705 on 29999 degrees of freedom
## Residual deviance: 26469 on 29974 degrees of freedom
## AIC: 26521
##
## Number of Fisher Scoring iterations: 4
El ratio de Odds indica las chances de que suceda un evento, el OR no indica probabilidades ni causalidad entre una variable y otra. Estos eventos pueden aumentar o disminuir tantas veces indice el OR. Siendo que es la probabilidad de exito sobre la de fracaso.
Su formulacion es la siguiente:
\[Odds = \frac{P}{1-P} = e^{\beta x}\]
Se han calculado para los parametros Beta (\(\beta\)) de los coeficientes de nuestro modelo.
Se han hecho análisis individuales mecanicos con un resumen al final y posteriormente se ha automatizado para todos los parametros usando el comando FOR para crear un Bucle repetitivo mostrado en los resultados.
Cabe precisar que para la lectura o significado de las categorias de cada variable se debe usar las referencias indicadas al principio de nuestro modelo.
#Estimacion individual del ratio de Odds
#para SEX 2
#exp(-0.1592499752)-1
#-0.1472168 resultado para SEX 2
#para MARRIAGE (1)
#exp(1.4076659853)-1
#3.086407 resultado para MARRIAGE (1)
#para MARRIAGE (2)
#exp(1.2133420053)-1
#2.364711 resultado para MARRIAGE (2)
#para MARRIAGE (3)
#exp(1.4089106512)-1
#3.091496 resultado para MARRIAGE (3)
#Desarrollando bucle para todos los parametros
F1 <- "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de"
F2 <- "%. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
for (i in 2:length(modelo2)) {
Odds <- (exp(modelo2$coef[i])-1)
Odds1 <- Odds*100
print(paste(F1,round(Odds1,2),F2))
print(Odds)
print("----------------------------------------------------------------------")
}## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -14.72 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(SEX)2
## -0.1472168
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 308.64 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(MARRIAGE)1
## 3.086407
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 236.47 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(MARRIAGE)2
## 2.364711
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 309.15 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(MARRIAGE)3
## 3.091496
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 0 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## LIMIT_BAL
## -0.000002063203
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 39.84 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)-1
## 0.3983623
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -19.8 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)0
## -0.1980017
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 142.3 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)1
## 1.423005
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 790 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)2
## 7.9
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 844.8 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)3
## 8.447966
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 469.48 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)4
## 4.694824
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 169.84 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)5
## 1.698372
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 309 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)6
## 3.089986
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 2096.45 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)7
## 20.96446
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 118.54 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_0)8
## 1.1854
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -28.25 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)-1
## -0.2824575
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -8.12 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)0
## -0.08118535
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -15.16 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)1
## -0.15159
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 77.93 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)2
## 0.779275
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 81.16 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)3
## 0.8116154
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 40.73 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)4
## 0.4072754
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de -20.07 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)5
## -0.20072
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 198.62 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)6
## 1.986183
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 156.02 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)7
## 1.560193
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de 44.41 %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## factor(PAY_3)8
## 0.4440985
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de NA %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## <NA>
## NA
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de NA %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## <NA>
## NA
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de NA %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## <NA>
## NA
## [1] "----------------------------------------------------------------------"
## [1] "Existe una reduccion(aumento) de la chance de caer en morosidad dado el cambio negativo (positivo) segun el signo del siguiente cambio porcentual de NA %. Estando considerado, perteneciendo en la categoria o estando en la condicion de:"
## <NA>
## NA
## [1] "----------------------------------------------------------------------"
De los resultados individuales:
14.72% es la reduccion de la chance de caer en morosidad dado que se es mujer.
308.64% es el aumento de la chance de caer en morosidad si se es casada.
236.47% es el aumento de la chance de caer en morosidad si se esta soltera.
309.149% es el aumento de la chance de caer en morosidad si se tiene una condicion diferente a soltera o casada.
0.000002063203% es la reduccion chance de caer en morosidad ante un cambio positivo en la linea de credito (Limit ball)
39.84 % es la reduccion de la chance de caer en morosidad dado que se realizan los pagos a tiempo (Pay_0(-1)) con reembolso en setiembre.
142.3 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 1 mes de atraso (Pay_0(1)) con reembolso en setiembre.
790 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 2 meses de atraso (Pay_0(2)) con reembolso en setiembre.
844.8 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 3 meses de atraso (Pay_0(2)) con reembolso en setiembre.
469.48 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 4 meses de atraso (Pay_0(2)) con reembolso en setiembre.
169.84 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 5 meses de atraso (Pay_0(2)) con reembolso en setiembre.
309 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 6 meses de atraso (Pay_0(2)) con reembolso en setiembre.
2096.45 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 7 meses de atraso (Pay_0(2)) con reembolso en setiembre.
118.54 % es el aumento de la chance de caer en morosidad dado que se realizan los pagos con 8 meses de atraso (Pay_0(2)) con reembolso en setiembre.
28.25 % es la reduccion de la chance de caer en morosidad dado que se realizan pagos a tiempo (Pay_(-1)) con reembolso en Julio.
15.16 % es la reduccion de la chance de caer en morosidad dado que se realizan los pagos con 1 mes de atraso (Pay_3(1)) con reembolso en Julio.
20.07 % es la reduccion de la chance de caer en morosidad dado que se realizan los pagos con 5 meses de atraso (Pay_3(5)) con reembolso en Julio.
Para el análisis de las demás variables Pay_3 en meses que no son 1 y 5 son aumentos de la chance de caer en morosidad dado el reembolso sea en Julio.
Se sugiere revisar las referencias de las variables y sus categorias, y ver los resultados para Pay_0 y Pay_03 y analizar la similar interpretacion.
Se analizará la probabilidad de caer en default dada una condición acorde a sus covariables para determinados parametros.
Se hará un análisis individual para 7 casos resumidos al final, posteriormente se ha desarrollado un comando FOR para todas las demás variables y se puede visualizar en los mismos resultados.
Para el calculo de probabilidad:
\[P = \frac{e^{x\beta}}{1+e^{x\beta}}\]
Variables
5 situaciones
Se considera lo siguiente para todas las variables: -1 y 0 = paga debidamente, 1 = retraso en el pago durante un mes, 2 = retraso en el pago durante dos meses, … 9 = retraso en el pago por nueve meses y más.
#Ejemplos individuales del calculo de probabilidad de covariables para (PAY_0)-1
#SumCoe <- modelo2$coefficients[1]+modelo2$coefficients[2]*1+modelo2$coefficients[3]*1+modelo2$coefficients[7]*1
#SumCoe
#-0.9865258
#Con datos numericos de cada parametro
#Prusc <- -2.5702435726 + -0.1592499752*1 + 1.4076659853*1 + 0.3353017875*1
#Prusc
#-0.9865258
#Desarrollando exponencial individual
#exp(Prusc)/(1+exp(Prusc))
#exp(Prusc)/(1+exp(Prusc))*100
#27.15988
#Desarrollando bucle para las combinaciones de variables
F3 <- "La probabilidad de caer en default es de"
F4 <- "% para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
for (i in 7:16) {
SumCoef <- modelo2$coefficients[i]*1+
modelo2$coefficients[1]+
modelo2$coefficients[2]*1+
modelo2$coefficients[3]*1
probc <- exp(SumCoef)/(1+exp(SumCoef))
probc1 <- probc*100
print((paste(F3,round(probc1,2),F4)))
print(probc1)
print("-------------------------------------------------------------------------------")
}## [1] "La probabilidad de caer en default es de 27.16 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)-1
## 27.15988
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 17.62 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)0
## 17.61756
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 39.25 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)1
## 39.24992
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 70.35 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)2
## 70.35423
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 71.59 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)3
## 71.58507
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 60.29 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)4
## 60.29399
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 41.84 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)5
## 41.84405
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 52.17 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)6
## 52.16649
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 85.42 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)7
## 85.41587
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 36.82 % para una mujer casada y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)8
## 36.81809
## [1] "-------------------------------------------------------------------------------"
Variables
5 situaciones
#Ejemplos individuales del calculo de probabilidad de covariables para (PAY_0)-1
#SumCoe2 <- modelo2$coefficients[1]+modelo2$coefficients[2]*1+modelo2$coefficients[4]*1+modelo2$coefficients[7]*1
#SumCoe2
#-1.18085
#Con datos numericos de cada parametro
#Prusc2 <- -2.5702435726 + -0.1592499752*1 + 1.2133420053*1 + 0.3353017875*1
#Prusc2
#-1.18085
#Desarrollando exponencial individual
#exp(Prusc2)/(1+exp(Prusc2))
#exp(Prusc2)/(1+exp(Prusc2))*100
#23.48994
#Desarrollando bucle para las combinaciones de variables
F3 <- "La probabilidad de caer en default es de"
F4 <- "% para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
for (i in 7:16) {
SumCoef2 <- modelo2$coefficients[i]*1+
modelo2$coefficients[1]+
modelo2$coefficients[2]*1+
modelo2$coefficients[4]*1
probc2 <- exp(SumCoef2)/(1+exp(SumCoef2))
probc3 <- probc2*100
print((paste(F3,round(probc3,2),F4)))
print(probc2)
print("-------------------------------------------------------------------------------")
}## [1] "La probabilidad de caer en default es de 23.49 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)-1
## 0.2348994
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 14.97 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)0
## 0.1497198
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 34.73 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)1
## 0.3472514
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 66.15 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)2
## 0.6614807
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 67.47 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)3
## 0.674728
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 55.56 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)4
## 0.5556204
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 37.2 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)5
## 0.3720335
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 47.31 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)6
## 0.4731235
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 82.82 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)7
## 0.8282499
## [1] "-------------------------------------------------------------------------------"
## [1] "La probabilidad de caer en default es de 32.42 % para una mujer soltera y teniendo el estado de su reembolso a septiembre del 2005 en el nivel de retraso para la siguiente categoria:"
## factor(PAY_0)8
## 0.3242403
## [1] "-------------------------------------------------------------------------------"
La probabilidad de caer en default siendo mujer casada teniendo el estado reembolso a septiembre del 2005 con pago a tiempo es de 27.16 %
La probabilidad de caer en default siendo mujer casada teniendo el estado reembolso a septiembre del 2005 con un retraso de 1 mes es de 39.25 %
La probabilidad de caer en default siendo mujer casada teniendo el estado reembolso a septiembre del 2005 con un retraso de 2 meses es de 70.35 %
La probabilidad de caer en default siendo mujer casada teniendo el estado reembolso a septiembre del 2005 con un retraso de 3 meses es de 71.59 %
La probabilidad de caer en default siendo mujer casada teniendo el estado reembolso a septiembre del 2005 con un retraso de 4 meses es de 60.29 %
La probabilidad de caer en default siendo mujer soltera teniendo el estado reembolso a septiembre del 2005 con pago a tiempo es de 23.49 %
La probabilidad de caer en default siendo mujer soltera teniendo el estado reembolso a septiembre del 2005 con un retraso de 1 mes es de 34.73 %
Para el análisis de las demás covariables se sugiere revisar las referencias de las variables y sus categorias listadas en el apartado de importacion de datos.
Se entiende la sensibilidad como la fracción de verdaderos positivos y la especificidad la fracción de verdaderos negativos.
\[Sensibilidad = \frac{VP}{VP+FN}\]
\[Especificidad = \frac{VN}{VN+FP}\]
El punto de corte nos indica el cruce de la especificidad y sensibilidad para determinar el porcentaje de la especificidad y sensiblidad.
c<-seq(0.01,0.4,by=0.015)
sens<-c()
spec<-c()
for (i in 1:length(c)){
y.pred<-ifelse(modelo2$fitted.values > c[i], yes = 1, no = 0)
spec[i]<-prop.table(table(cred$default.payment.next.month,y.pred),1)[1]
sens[i]<-prop.table(table(cred$default.payment.next.month,y.pred),1)[4]
}
o.cut<-mean(c[which(round(spec,1)==round(sens,1))],na.rm = T)
plot(c,sens,type="l",col=2,main=c("Especificidad vs Sensibilidad"),ylab=c("Especificidad/Sensibilidad"))
lines(c,spec,col=3)
abline(v=o.cut)## [1] 0.16
Para ello haremos uso de una matriz de confusion
Nos permite la ver el la capacidad de nuestro modelo o algoritmo sobre su nivel de prediccion.
y.pred<-ifelse(modelo2$fitted.values > o.cut, yes = 1, no = 0)
matriz_confusion <- table(cred$default.payment.next.month, y.pred,
dnn = c("observaciones", "predicciones"))
prop.table(matriz_confusion,1)## predicciones
## observaciones 0 1
## 0 0.6890087 0.3109913
## 1 0.3170585 0.6829415
La curva ROC y AUC nos dicen que tan fuerte es el nivel de prediccion del modelo, mientras mas cecano este a 1 mayor es su nivel de prediccion, la prediccion tiene que ser mayor a 0.7 para ser considerado aceptable, una prediccion a 0.9 es optima.
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
##
## Call:
## roc.default(response = cred$default.payment.next.month, predictor = yhat1)
##
## Data: yhat1 in 23364 controls (cred$default.payment.next.month 0) < 6636 cases (cred$default.payment.next.month 1).
## Area under the curve: 0.7558
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases