Punto 1. (2 puntos) En el paquete AER se encuentra la base de datos llamado CreditCard que contiene el historial de crédito para una muestra de personas que aplicaron a un tipo de tarjeta de crédito. Las variables de esta base son:
Ajusta un modelo de regresión logit con card como variable respuesta y reports, income, owner, dependents y selfemp como variables explicativas.
(1) Adjunté los códigos computacionales utilizados, escriba la ecuación del modelo estimado. Recuerda cargar la base con data(“CreditCard”)
library(AER)
data("CreditCard")
attach(CreditCard)
modelo_logit <- glm(card ~ reports + income + owner + dependents + selfemp ,data = CreditCard, family = binomial)
summary(modelo_logit)
##
## Call:
## glm(formula = card ~ reports + income + owner + dependents +
## selfemp, family = binomial, data = CreditCard)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.04186 0.19141 5.443 5.24e-08 ***
## reports -1.36457 0.11424 -11.945 < 2e-16 ***
## income 0.26557 0.06364 4.173 3.01e-05 ***
## owneryes 0.78625 0.18026 4.362 1.29e-05 ***
## dependents -0.26301 0.06679 -3.938 8.23e-05 ***
## selfempyes -0.67449 0.28051 -2.404 0.0162 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1404.6 on 1318 degrees of freedom
## Residual deviance: 1052.5 on 1313 degrees of freedom
## AIC: 1064.5
##
## Number of Fisher Scoring iterations: 6
Ecuacion del modelo Estimado
\[ \ln\left(\frac{P}{1 - P}\right) = 1.04186 - 1.36457\,(\text{reports}) + 0.26557\,(\text{income}) + 0.78625\,(\text{owner}_{\text{yes}}) - 0.26301\,(\text{dependents})\\ - 0.67449\,(\text{selfemp}_{\text{yes}}) \]
(2) ¿Cuáles son los factores que favorecen/desfavorecen la aceptación de la solicitud de la tarjeta de crédito?
Los factores que favorecen la aceptación de la solicitud de tarjeta de crédito son aquellos cuyos coeficientes estimados resultan positivos en el modelo logit. En este caso, las variables income y owner presentan efectos positivos sobre la probabilidad de aceptación.
Por otro lado, los factores que desfavorecen la aceptación corresponden a aquellos con coeficientes negativos, como reports, dependents y selfemp.
(3) ¿Cuál es la probabilidad de aceptación de solicitud de tarjeta para una persona con 50 mil dólares de ingreso, dueño de su casa, con 5 reportes negativos y con 3 dependientes?
predict(modelo_logit, newdata = data.frame( reports = 5,income = 5, owner = "yes", dependents = 3, selfemp = "no"),type = "response")
## 1
## 0.01147686
Respuesta: La probabilidad de aceptacion de solicitud de tarjeta de credito para una persona con las caracteristicas anteriores es de 0.01147686
(4) ¿Cuál es la probabilidad de aceptación de solicitud de tarjeta para una persona con 20 mil dólares de ingreso, no es dueño de su casa, con 5 reportes negativos y con 1 dependientes?
predict(modelo_logit, newdata = data.frame( reports = 5,income = 2, owner = "no", dependents = 1, selfemp = "no"),type = "response")
## 1
## 0.004018445
Punto 2. (2 puntos) En el paquete AER se encuentra la base de datos llamado ShipAccidents que contiene 40 observaciones de 5 tipos de barcos en 4 epocas y 2 periodos de servicio. Las variables de esta base son:
(1) Ajustar un modelo de regresión Poisson para explicar el número de accidentes en función de las demás variables, escriba la ecuación del modelo estimado. Recuerda cargar la base con data(“ShipAccidents”)
data("ShipAccidents")
attach(ShipAccidents)
modelo_poisson <- glm(incidents ~ type + construction + operation + service ,data = ShipAccidents, family = poisson)
summary(modelo_poisson)
##
## Call:
## glm(formula = incidents ~ type + construction + operation + service,
## family = poisson, data = ShipAccidents)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 5.492e-04 2.787e-01 0.002 0.998427
## typeB 5.933e-01 2.163e-01 2.743 0.006092 **
## typeC -1.190e+00 3.275e-01 -3.635 0.000278 ***
## typeD -8.210e-01 2.877e-01 -2.854 0.004321 **
## typeE -2.900e-01 2.351e-01 -1.233 0.217466
## construction1965-69 1.148e+00 1.793e-01 6.403 1.53e-10 ***
## construction1970-74 1.596e+00 2.242e-01 7.122 1.06e-12 ***
## construction1975-79 5.670e-01 2.809e-01 2.018 0.043557 *
## operation1975-79 8.619e-01 1.317e-01 6.546 5.92e-11 ***
## service 7.270e-05 8.488e-06 8.565 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 730.253 on 39 degrees of freedom
## Residual deviance: 99.793 on 30 degrees of freedom
## AIC: 217.66
##
## Number of Fisher Scoring iterations: 5
Ecuacion del modelo Estimado
\[ \begin{aligned} \ln\left(\mathbb{E}[\text{incidents} \mid X]\right) ={}& 0.0005492 + 0.5933\,\text{typeB} - 1.1900\,\text{typeC} - 0.8210\,\text{typeD} - 0.2900\,\text{typeE} + 1.1480\,\text{construction1965-69} + 1.5960\,\text{construction1970-74} \\ & + 0.5670\,\text{construction1975-79} + 0.8619\,\text{operation1975-79} + 0.0000727\,\text{service} \end{aligned} \]
(2) ¿Cómo se interpreta el coeficiente de la variable Service y de la variable Operation?
Interpretacion del coeficiente de la variable Service
\[ \begin{aligned} &= (e^{0.0000727} - 1)\times 100 \\ &= (1.0000727 - 1)\times 100 \\ &\approx 0.00727\% \\[1em] \end{aligned} \]Respuesta: Por cada año adicional del servicio del barco significa que el numero esperado de incidentes o daños ocurridos aumenta en 0.00727%
Interpretacion del coeficiente de la variable operation
\[ \begin{aligned} &= (e^{0.8619} - 1)\times 100 \\ &= (2.368 - 1)\times 100 \\ &\approx 136.8\% \end{aligned} \]
Respuesta: Los barcos operados en el periodo de 1975 a 1979 tienen una tasa de 136.8% mayor de accidentes que los barcos que estaban operando en el periodo de 1960 a 1974, al mantener constantes las demas covariables.
(3) Lleva a cabo la prueba de sobre dispersión.
dispersiontest(modelo_poisson)
##
## Overdispersion test
##
## data: modelo_poisson
## z = 3.3419, p-value = 0.000416
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion
## 2.372137
De acuerdo con la prueba el modelo tiene sobredispersion dado que su p valor es menor que 0.05 y por lo tanto se deberia ajustar con un modelo binomial negativo
Punto 3. (1 punto) Para el ejercicio del punto anterior, ajusta un modelo de regresión Poisson inflado en cero, utilizando solo las variables explicativas necesarias. Escriba la fórmula de ambas ecuación. ¿Cuál es la probabilidad de no sufrir ningún accidente para un barco tipo B, de construcción 1960-64, operación 1960-74 y con Service = 1000?
library(pscl)
modelo_inflado <- zeroinfl(
incidents ~ construction + operation + service | service + construction + type,
data = ShipAccidents,
dist = "poisson"
)
summary(modelo_inflado)
##
## Call:
## zeroinfl(formula = incidents ~ construction + operation + service | service +
## construction + type, data = ShipAccidents, dist = "poisson")
##
## Pearson residuals:
## Min 1Q Median 3Q Max
## -3.058e+00 -4.574e-01 -1.222e-08 2.637e-01 5.835e+00
##
## Count model coefficients (poisson with log link):
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.810e-01 NA NA NA
## construction1965-69 1.345e+00 NA NA NA
## construction1970-74 1.704e+00 NA NA NA
## construction1975-79 1.003e+00 NA NA NA
## operation1975-79 9.584e-01 NA NA NA
## service 9.626e-05 NA NA NA
##
## Zero-inflation model coefficients (binomial with logit link):
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 81.5016 NA NA NA
## service -0.3147 NA NA NA
## construction1965-69 3.6179 NA NA NA
## construction1970-74 -27.6972 NA NA NA
## construction1975-79 6.3639 NA NA NA
## typeB 52.6003 NA NA NA
## typeC -31.3678 NA NA NA
## typeD 13.2583 NA NA NA
## typeE 37.5150 NA NA NA
##
## Number of iterations in BFGS optimization: 32
## Log-likelihood: -96.35 on 15 Df
barcoNuevo <- data.frame(
type = "B",
construction = "1960-64",
operation = "1960-74",
service = 1000
)
pi_zero <- predict(modelo_inflado, newdata = barcoNuevo, type = "zero") # prob. de cero estructural
lambda <- predict(modelo_inflado, newdata = barcoNuevo, type = "count") # media Poisson
# Probabilidad ZIP de cero accidentes:
p_total_0 <- pi_zero + (1 - pi_zero) * exp(-lambda)
p_total_0
## 1
## 0.4354652
Componente de conteo (Poisson, enlace log)
\[ \ln(\lambda_i)= -0.2810 + 1.345\,\text{construction}_{1965-69} + 1.704\,\text{construction}_{1970-74} + 1.003\,\text{construction}_{1975-79} + 0.9584\,\text{operation}_{1975-79} + 9.626 \times 10^{-5}\,\text{service}. \]
Componente de inflación en ceros (modelo logit)
\[ \operatorname{ln}(\frac{P}{1 - P})= 81.5016 - 0.3147\,\text{service} + 3.6179\,\text{construction}_{1965-69} - 27.6972\,\text{construction}_{1970-74} + 6.3639\,\text{construction}_{1975-79} + 52.6003\,\text{typeB} - 31.3678\,\text{typeC}\\ + 13.2583\,\text{typeD} + 37.5150\,\text{typeE}. \]
Respuesta: La probabilidad de no sufrir ningun accidcente para un barco de tipo B, de construcción 1960-64, operación 1960-74 y con Service = 1000, es de:
\[ \begin{aligned} 0.4354652 &\approx 43.54\% \end{aligned} \]