Los datos
- Default es un conjunto de datos ya existente que viene con las librerías cargadas.
## default student balance income
## 1 No No 729.5265 44361.625
## 2 No Yes 817.1804 12106.135
## 3 No No 1073.5492 31767.139
## 4 No No 529.2506 35704.494
## 5 No No 785.6559 38463.496
## 6 No Yes 919.5885 7491.559
## default student balance income
## 9995 No Yes 172.4130 14955.94
## 9996 No No 711.5550 52992.38
## 9997 No No 757.9629 19660.72
## 9998 No No 845.4120 58636.16
## 9999 No No 1569.0091 36669.11
## 10000 No Yes 200.9222 16862.95
Recodificar valores
## default balance
## 1 0 729.5265
## 2 0 817.1804
## 3 0 1073.5492
## 4 0 529.2506
## 5 0 785.6559
## 6 0 919.5885
## default balance
## 9995 0 172.4130
## 9996 0 711.5550
## 9997 0 757.9629
## 9998 0 845.4120
## 9999 0 1569.0091
## 10000 0 200.9222
Modelo de regresión lineal lm()
- No es recomendable para este conjunto de datos.
- Representación gráfica del modelo.
- Al tratarse de una recta, si por ejemplo, se predice la probabilidad de default para alguien que tiene un balance de 10000, el valor obtenido es mayor que 1.
- No es del todo recomendable y eficiente: 1.22235

## default balance
## 1 0 729.5265
## 2 0 817.1804
## 3 0 1073.5492
## 4 0 529.2506
## 5 0 785.6559
## 6 0 919.5885
Regresión Logística
- La regresión logística transforma el valor devuelto por la regresión lineal (β0+β1X) empleando una función cuyo resultado está siempre comprendido entre 0 y 1.
- Determina la probabilidad de que sea de un grupo o de otro.
- El coeficiente estimado asociado con un predictor presenta el cambio en la función de enlace por cada cambio de unidad en el predictor.
- balance = 5.499e-03 ¿Qué representa?. La probabilidad aumenta un % por cada unidad de balance.
- Probabilidad_logit = 1.065e + 01 + 5.499e-03 * Balance
- El coeficiente es positivo y es significativo, lo cual se puede afirmar que a mayor balance, mayor es la probabilidad de Pago de un cliente.
##
## Call:
## glm(formula = default ~ balance, family = "binomial", data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.2697 -0.1465 -0.0589 -0.0221 3.7589
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.065e+01 3.612e-01 -29.49 <2e-16 ***
## balance 5.499e-03 2.204e-04 24.95 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2920.6 on 9999 degrees of freedom
## Residual deviance: 1596.5 on 9998 degrees of freedom
## AIC: 1600.5
##
## Number of Fisher Scoring iterations: 8
Representación gráfica del modelo probabilidad

Determinando una probabilidad
- Cliente con balance = 1,500 y 2,000 en Balance
## $fit
## 1 2
## -2.4029552 0.3465032
##
## $se.fit
## 1 2
## 0.07202836 0.10955473
##
## $residual.scale
## [1] 1
## 1 2
## 0.08294762 0.58576937
Estimación de probabilidad Cliente
- Cliente con balance = 1000, 1500, 2000, 2500
## $fit
## 1 2 3 4
## -5.1524137 -2.4029552 0.3465032 3.0959617
##
## $se.fit
## 1 2 3 4
## 0.15051722 0.07202836 0.10955473 0.20760034
##
## $residual.scale
## [1] 1
## 1 2 3 4
## 0.005752145 0.082947624 0.585769370 0.956725862
Interpretación Personal
- Cargamos un conjunto de datos llamado default que viene precargado en RStudio.
- Recodificamos los valores, quitando los campos de student e income, además de que cambiamos el formato de YES/NO a 1/0 en el campo default.
- El Modelo de Regresión Líneal NO es recomendable para este conjunto de datos ya que se trata de una recta y al momento de tratar de predecir, el valor obtenido sería mayor que 1.