En este caso usaremos la variable Ingresos ya que esta es discreta, de igual forma realizando un histograma de los datos, podemos notar que no tienen una forma simetrica, por lo que se podria modelar con una poisson.
Calculando el modelo de regresión Poisson completo (usando todas las covariables de la base de datos), tenemos:
model = glm(INGRESOS ~ ., family = "poisson", Datos_Creditos)
summary(model)
##
## Call:
## glm(formula = INGRESOS ~ ., family = "poisson", data = Datos_Creditos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -4650.5 -390.5 -9.0 321.2 4644.0
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.525e+01 9.609e-05 158686 <2e-16 ***
## DEFAULT -1.449e-02 8.093e-05 -179 <2e-16 ***
## DIAS_MORA 9.976e-04 6.093e-07 1637 <2e-16 ***
## ANTIUEDAD 9.014e-03 2.060e-06 4377 <2e-16 ***
## EDAD 2.899e-03 1.985e-06 1461 <2e-16 ***
## CUOTA_TOTAL 4.382e-07 3.287e-11 13332 <2e-16 ***
## CARTERA_TOTAL 2.135e-09 6.531e-13 3269 <2e-16 ***
## COMPROMISO -3.481e-02 2.106e-06 -16524 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 941064377 on 779 degrees of freedom
## Residual deviance: 364679253 on 772 degrees of freedom
## AIC: 364692695
##
## Number of Fisher Scoring iterations: 5
En donde todas las covariables dan significativas dentro del modelo.
Verificando si la variable Ingresos sigue una distribución Poisson recordemos que en esta \(Mean(x) = Var(x) = \lambda\), de esta forma calculando la media y la varianza de Ingresos tenemos:
options(scipen=999)
mean(Datos_Creditos$INGRESOS)
## [1] 5366430
var(Datos_Creditos$INGRESOS)
## [1] 7034090660280
Vemos que la varianza es muchisimo mayor a la media, a esto se le llama sobredisposición. Sin la necesidad de hacer test de hipotesis concluimos que estas son distintas y que variable Ingresos no parece seguir una distribución Poisson.
Test
En este caso el valor-P da aproximado a 0, por lo que existe suficiente evidencia para rechazar \(H_0\) y se concluye que los datos no distribuyen poisson, por lo que el modelo no se ajustaria.