Solucion Parcial 3 - Gilbert Fabian Rodriguez

Punto 1. (2 puntos) En el paquete AER se encuentra la base de datos llamado CreditCard que contiene el historial de crédito para una muestra de personas que aplicaron a un tipo de tarjeta de crédito. Las variables de esta base son:

Ajusta un modelo de regresión logit con card como variable respuesta y reports, income, owner, dependents y selfemp como variables explicativas.

(1) Adjunté los códigos computacionales utilizados, escriba la ecuación del modelo estimado. Recuerda cargar la base con data(“CreditCard”)

library(AER)
data("CreditCard")
attach(CreditCard)
modelo_logit <- glm(card ~ reports + income + owner + dependents + selfemp ,data = CreditCard, family = binomial)
summary(modelo_logit)
## 
## Call:
## glm(formula = card ~ reports + income + owner + dependents + 
##     selfemp, family = binomial, data = CreditCard)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  1.04186    0.19141   5.443 5.24e-08 ***
## reports     -1.36457    0.11424 -11.945  < 2e-16 ***
## income       0.26557    0.06364   4.173 3.01e-05 ***
## owneryes     0.78625    0.18026   4.362 1.29e-05 ***
## dependents  -0.26301    0.06679  -3.938 8.23e-05 ***
## selfempyes  -0.67449    0.28051  -2.404   0.0162 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1404.6  on 1318  degrees of freedom
## Residual deviance: 1052.5  on 1313  degrees of freedom
## AIC: 1064.5
## 
## Number of Fisher Scoring iterations: 6

Ecuacion del modelo Estimado

\[ \ln\left(\frac{P}{1 - P}\right) = 1.04186 - 1.36457\,(\text{reports}) + 0.26557\,(\text{income}) + 0.78625\,(\text{owner}_{\text{yes}}) - 0.26301\,(\text{dependents})\\ - 0.67449\,(\text{selfemp}_{\text{yes}}) \]

(2) ¿Cuáles son los factores que favorecen/desfavorecen la aceptación de la solicitud de la tarjeta de crédito?

Los factores que favorecen la aceptación de la solicitud de tarjeta de crédito son aquellos cuyos coeficientes estimados resultan positivos en el modelo logit. En este caso, las variables income y owner presentan efectos positivos sobre la probabilidad de aceptación.

Por otro lado, los factores que desfavorecen la aceptación corresponden a aquellos con coeficientes negativos, como reports, dependents y selfemp.

(3) ¿Cuál es la probabilidad de aceptación de solicitud de tarjeta para una persona con 50 mil dólares de ingreso, dueño de su casa, con 5 reportes negativos y con 3 dependientes?

predict(modelo_logit, newdata = data.frame( reports = 5,income = 5, owner = "yes", dependents = 3, selfemp = "no"),type = "response")
##          1 
## 0.01147686

Respuesta: La probabilidad de aceptacion de solicitud de tarjeta de credito para una persona con las caracteristicas anteriores es de 0.01147686

(4) ¿Cuál es la probabilidad de aceptación de solicitud de tarjeta para una persona con 20 mil dólares de ingreso, no es dueño de su casa, con 5 reportes negativos y con 1 dependientes?

predict(modelo_logit, newdata = data.frame( reports = 5,income = 2, owner = "no", dependents = 1, selfemp = "no"),type = "response")
##           1 
## 0.004018445

Punto 2. (2 puntos) En el paquete AER se encuentra la base de datos llamado ShipAccidents que contiene 40 observaciones de 5 tipos de barcos en 4 epocas y 2 periodos de servicio. Las variables de esta base son:

(1) Ajustar un modelo de regresión Poisson para explicar el número de accidentes en función de las demás variables, escriba la ecuación del modelo estimado. Recuerda cargar la base con data(“ShipAccidents”)

data("ShipAccidents")
attach(ShipAccidents)
modelo_poisson <- glm(incidents ~ type + construction + operation + service ,data = ShipAccidents, family = poisson)
summary(modelo_poisson)
## 
## Call:
## glm(formula = incidents ~ type + construction + operation + service, 
##     family = poisson, data = ShipAccidents)
## 
## Coefficients:
##                       Estimate Std. Error z value Pr(>|z|)    
## (Intercept)          5.492e-04  2.787e-01   0.002 0.998427    
## typeB                5.933e-01  2.163e-01   2.743 0.006092 ** 
## typeC               -1.190e+00  3.275e-01  -3.635 0.000278 ***
## typeD               -8.210e-01  2.877e-01  -2.854 0.004321 ** 
## typeE               -2.900e-01  2.351e-01  -1.233 0.217466    
## construction1965-69  1.148e+00  1.793e-01   6.403 1.53e-10 ***
## construction1970-74  1.596e+00  2.242e-01   7.122 1.06e-12 ***
## construction1975-79  5.670e-01  2.809e-01   2.018 0.043557 *  
## operation1975-79     8.619e-01  1.317e-01   6.546 5.92e-11 ***
## service              7.270e-05  8.488e-06   8.565  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 730.253  on 39  degrees of freedom
## Residual deviance:  99.793  on 30  degrees of freedom
## AIC: 217.66
## 
## Number of Fisher Scoring iterations: 5

Ecuacion del modelo Estimado

\[ \begin{aligned} \ln\left(\mathbb{E}[\text{incidents} \mid X]\right) ={}& 0.0005492 + 0.5933\,\text{typeB} - 1.1900\,\text{typeC} - 0.8210\,\text{typeD} - 0.2900\,\text{typeE} + 1.1480\,\text{construction1965-69} + 1.5960\,\text{construction1970-74} \\ & + 0.5670\,\text{construction1975-79} + 0.8619\,\text{operation1975-79} + 0.0000727\,\text{service} \end{aligned} \]

(2) ¿Cómo se interpreta el coeficiente de la variable Service y de la variable Operation?

Interpretacion del coeficiente de la variable Service

\[ \begin{aligned} &= (e^{0.0000727} - 1)\times 100 \\ &= (1.0000727 - 1)\times 100 \\ &\approx 0.00727\% \\[1em] \end{aligned} \]

Respuesta: Por cada año adicional del servicio del barco significa que el numero esperado de incidentes o daños ocurridos aumenta en 0.00727%

Interpretacion del coeficiente de la variable operation

\[ \begin{aligned} &= (e^{0.8619} - 1)\times 100 \\ &= (2.368 - 1)\times 100 \\ &\approx 136.8\% \end{aligned} \]

Respuesta: Los barcos operados en el periodo de 1975 a 1979 tienen una tasa de 136.8% mayor de accidentes que los barcos que estaban operando en el periodo de 1960 a 1974, al mantener constantes las demas covariables.

(3) Lleva a cabo la prueba de sobre dispersión.

dispersiontest(modelo_poisson)
## 
##  Overdispersion test
## 
## data:  modelo_poisson
## z = 3.3419, p-value = 0.000416
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##   2.372137

De acuerdo con la prueba el modelo tiene sobredispersion dado que su p valor es menor que 0.05 y por lo tanto se deberia ajustar con un modelo binomial negativo

Punto 3. (1 punto) Para el ejercicio del punto anterior, ajusta un modelo de regresión Poisson inflado en cero, utilizando solo las variables explicativas necesarias. Escriba la fórmula de ambas ecuación. ¿Cuál es la probabilidad de no sufrir ningún accidente para un barco tipo B, de construcción 1960-64, operación 1960-74 y con Service = 1000?

library(pscl)

modelo_inflado <- zeroinfl(
  incidents ~  construction + operation + service | service + construction + type,
  data = ShipAccidents,
  dist = "poisson"
)

summary(modelo_inflado)
## 
## Call:
## zeroinfl(formula = incidents ~ construction + operation + service | service + 
##     construction + type, data = ShipAccidents, dist = "poisson")
## 
## Pearson residuals:
##        Min         1Q     Median         3Q        Max 
## -3.058e+00 -4.574e-01 -1.222e-08  2.637e-01  5.835e+00 
## 
## Count model coefficients (poisson with log link):
##                       Estimate Std. Error z value Pr(>|z|)
## (Intercept)         -2.810e-01         NA      NA       NA
## construction1965-69  1.345e+00         NA      NA       NA
## construction1970-74  1.704e+00         NA      NA       NA
## construction1975-79  1.003e+00         NA      NA       NA
## operation1975-79     9.584e-01         NA      NA       NA
## service              9.626e-05         NA      NA       NA
## 
## Zero-inflation model coefficients (binomial with logit link):
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)          81.5016         NA      NA       NA
## service              -0.3147         NA      NA       NA
## construction1965-69   3.6179         NA      NA       NA
## construction1970-74 -27.6972         NA      NA       NA
## construction1975-79   6.3639         NA      NA       NA
## typeB                52.6003         NA      NA       NA
## typeC               -31.3678         NA      NA       NA
## typeD                13.2583         NA      NA       NA
## typeE                37.5150         NA      NA       NA
## 
## Number of iterations in BFGS optimization: 32 
## Log-likelihood: -96.35 on 15 Df
barcoNuevo <- data.frame(
  type = "B",
  construction = "1960-64",
  operation = "1960-74",
  service = 1000
)

pi_zero   <- predict(modelo_inflado, newdata = barcoNuevo, type = "zero")   # prob. de cero estructural
lambda    <- predict(modelo_inflado, newdata = barcoNuevo, type = "count")  # media Poisson

# Probabilidad ZIP de cero accidentes:
p_total_0 <- pi_zero + (1 - pi_zero) * exp(-lambda)

p_total_0
##         1 
## 0.4354652

Componente de conteo (Poisson, enlace log)

\[ \ln(\lambda_i)= -0.2810 + 1.345\,\text{construction}_{1965-69} + 1.704\,\text{construction}_{1970-74} + 1.003\,\text{construction}_{1975-79} + 0.9584\,\text{operation}_{1975-79} + 9.626 \times 10^{-5}\,\text{service}. \]

Componente de inflación en ceros (modelo logit)

\[ \operatorname{ln}(\frac{P}{1 - P})= 81.5016 - 0.3147\,\text{service} + 3.6179\,\text{construction}_{1965-69} - 27.6972\,\text{construction}_{1970-74} + 6.3639\,\text{construction}_{1975-79} + 52.6003\,\text{typeB} - 31.3678\,\text{typeC}\\ + 13.2583\,\text{typeD} + 37.5150\,\text{typeE}. \]

Respuesta: La probabilidad de no sufrir ningun accidcente para un barco de tipo B, de construcción 1960-64, operación 1960-74 y con Service = 1000, es de:

\[ \begin{aligned} 0.4354652 &\approx 43.54\% \end{aligned} \]