\(\hspace{1cm}\)Presentado por: Cristian Restrepo Morales
\(\hspace{1cm}\)Universidad Nacional de Colombia
\(\hspace{1cm}\)Estadística II
\(\hspace{1cm}\)Grupo: 2
\(\hspace{1cm}\)Correo: crrestrepo@unal.edu.co
1. Estimación del modelo de regresión lineal múltiple. Analisis de la significancia de la regresión y de los parámetros individuales con su respectiva interpretación. Calculo e interpretación del coeficiente de determinación múltiple.
En un estudio a gran escala realizado en EE.UU sobre la eficacia en el control de infecciones hospitalarias se recogió información en 65 hospitales.
La información recolectada consta de 7 variables cuantitativas, las cuales podemos observar en la tabla con su respectiva descripción:
Consideramos el riesgo de infección como variable de respuesta puesto que se sospecha que la duración de la estadía de un paciente, la rutina de cultivos, el número de camas, el censo promedio diario y el número de enfermeras en el hospital pueden explicar el comportamiento del riesgo de infección.
Con la información recolectada y teniendo en cuenta quienes son las variables predictoras y de respuesta de la situación, procedemos a plantear nuestro modelo de regresión lineal múltiple como se sigue:
\[Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4} + \beta_5X_{i5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\]
En nuestro caso, ajustaremos el modelo RLM
\[\widehat{y_i} = \widehat{\beta_0} + \widehat{\beta_1}X_{i1} + \widehat{\beta_2}X_{i2} + \widehat{\beta_3}X_{i3} + \widehat{\beta_4}X_{i4}+ \widehat{\beta_5}X_{i5}\]
Ajuste del modelo RLM y estadísticos de resumen
# Modelo estimado
modelo=lm(Y ~ ., data = bd)
# Tablas summary y ANOVA del modelo estimado
summary(modelo)
##
## Call:
## lm(formula = Y ~ ., data = bd)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.03944 -0.80043 -0.00266 0.60450 2.23292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.5986009 1.5159559 -0.395 0.694365
## X1 0.2106683 0.0785765 2.681 0.009501 **
## X2 0.0197512 0.0277108 0.713 0.478803
## X3 0.0470925 0.0132888 3.544 0.000779 ***
## X4 0.0105604 0.0073166 1.443 0.154213
## X5 0.0008996 0.0007379 1.219 0.227679
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared: 0.4468, Adjusted R-squared: 0.3999
## F-statistic: 9.53 on 5 and 59 DF, p-value: 1.058e-06
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 27.872 27.8721 26.0185 3.770e-06 ***
## X2 1 0.499 0.4995 0.4662 0.4974
## X3 1 19.028 19.0275 17.7621 8.703e-05 ***
## X4 1 2.054 2.0542 1.9176 0.1713
## X5 1 1.592 1.5919 1.4861 0.2277
## Residuals 59 63.203 1.0712
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En base a la información suministrada por la tabla summary que resume la información del modelo, el modelo estimado es:
\[\widehat{y_i} = -0.5986 + 0.2106X_{i1} + 0.0197X_{i2} + 0.0470X_{i3} + 0.0105X_{i4} + 0.0008X_{i5}\] Analisis de la significancia de la regresión
Para analizar la significancia de nuestra regresión, planteamos las siguientes hipótesis:
\[H_0:\beta_1 = \beta_2 =\beta_3 = \beta_4=\beta_5=0\] \[H_1:\text{Al menos un }\beta_j \not= 0, j=1,2,3,4,5\]
Y el estadístico de prueba:
\[F_0= \frac{MSR}{MSE}\overset{}{\sim}f_{k,n-p}\] El cual tiene como valor-p de acuerdo a nuestra tabla summary, un valor de 1.058e-06 por lo que rechazamos la hipótesis nula para un nivel de confianza del 95% y concluimos que la regresión es significativa, pues al menos uno de los coeficientes individuales de la regresión es distinto de cero.
Analisis de la significancia de los parámetros individuales con su respectiva interpretanción
Para analizar la significancia de los parámetros individuales consideramos el juego de hipótesis:
\[H_0:\beta_j = 0\] \[H_1:\beta_j \not= 0 \text{ con } j=0,1,2,3,4,5\] Y el estadístico de prueba:
\[t_0= \frac{\widehat{\beta_j}}{Se(\widehat{\beta_j})}\overset{}{\sim}t_{n-2}\] Identificamos de la tabla summary que se conocen sus respectivos valor-p y se hacen las siguientes observaciones para un nivel de significancia del 5%:
Calculo e interpretación del coeficiente de determinación múltiple
Calculamos los coeficientes de determinación normal y ajustado de la siguiente manera:
\[R^2 = \frac{SSR}{SST}\] \[R^2_{adj} = 1-\frac{MSE}{MST}\] Obtenidos de la tabla summary, estos son 0.4468 y 0.3999 respectivamente. Ya que estos valores se encuentran relativamente cerca, podemos decir que el modelo explica realmente casi el 44.68% de la variabilidad total del riesgo de infección en un hospital. A pesar de tener coeficientes de determinación bajos puede pensarse en otros caminos para ajustar el modelo de regresión, este valor puede ser causado por el tamaño de muestra o quizá las variables usadas en la base de datos no son las mas indicadas.
2. Prueba de la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior.
De la información obtenida en el punto anterior el subconjunto de tres variables con los valor-p mas altos son: \(X_2,X_4\text{ y } X_5\).
Planteamos las hipótesis:
\[H_0:\beta_2 = 0, \beta_4=0,\beta_5=0\text{ vs } H_1:\beta_2 \not= 0, \beta_4\not=0,\beta_5\not=0\] Bajo la hipotesis nula obtenemos el modelo reducido:
\[M.R:Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] Y el estadístico de prueba es:
\[F_o=\frac{\frac{SSE(M.R)-SSE(M.C)}{r}}{MSE(M.C)}\overset{}{\sim}f_{m,n-p}\] Donde r es el número de parámetros probados en \(H_0\), o sea, r = 3.
Tabla con todas las regresiones posibles
# Todas las regresiones posibles
myAllRegTable(modelo)
## k R_sq adj_R_sq SSE Cp Variables_in_model
## 1 1 0.249 0.237 85.813 19.106 X3
## 2 1 0.244 0.232 86.376 19.632 X1
## 3 1 0.182 0.169 93.468 26.252 X4
## 4 1 0.068 0.053 106.508 38.425 X5
## 5 1 0.001 -0.014 114.090 45.503 X2
## 6 2 0.411 0.392 67.257 3.784 X1 X3
## 7 2 0.319 0.297 77.804 13.629 X3 X4
## 8 2 0.311 0.289 78.739 14.503 X1 X4
## 9 2 0.293 0.270 80.764 16.392 X3 X5
## 10 2 0.276 0.253 82.667 18.169 X2 X3
## 11 2 0.258 0.235 84.721 20.087 X1 X5
## 12 2 0.248 0.224 85.877 21.166 X1 X2
## 13 2 0.234 0.209 87.519 22.698 X4 X5
## 14 2 0.182 0.156 93.416 28.203 X2 X4
## 15 2 0.071 0.041 106.102 40.046 X2 X5
## 16 3 0.430 0.402 65.108 3.778 X1 X3 X4
## 17 3 0.422 0.393 66.088 4.693 X1 X3 X5
## 18 3 0.415 0.386 66.850 5.404 X1 X2 X3
## 19 3 0.359 0.327 73.279 11.405 X3 X4 X5
## 20 3 0.336 0.303 75.868 13.822 X2 X3 X4
## 21 3 0.328 0.295 76.791 14.684 X1 X4 X5
## 22 3 0.325 0.292 77.090 14.963 X2 X3 X5
## 23 3 0.314 0.280 78.400 16.186 X1 X2 X4
## 24 3 0.261 0.224 84.459 21.842 X1 X2 X5
## 25 3 0.236 0.198 87.321 24.514 X2 X4 X5
## 26 4 0.442 0.405 63.748 4.508 X1 X3 X4 X5
## 27 4 0.433 0.395 64.795 5.486 X1 X2 X3 X4
## 28 4 0.427 0.389 65.435 6.083 X1 X2 X3 X5
## 29 4 0.379 0.338 70.904 11.188 X2 X3 X4 X5
## 30 4 0.329 0.284 76.656 16.558 X1 X2 X4 X5
## 31 5 0.447 0.400 63.203 6.000 X1 X2 X3 X4 X5
De la tabla “Regresión de todos los modelos posibles” calculamos el valor del estadístico de prueba teniendo en cuenta que \(SSE(M.R)=67.257\), \(SSE(M.C) =63.203\) y \(MSE(M.C) =1.0712\), por lo tanto \(F_o=1.2615\).
Región de rechazo
# Region de rechazo
r=3
n=65
p=6
alpha=0.05
qf(alpha,r,n-p,lower.tail = F)
## [1] 2.760767
Por último, cuando comparamos nuestro estadístico de prueba con la región de rechazo, notamos que \(F_o=1.2615<f_{0.05,3,59}=2.7608\), entonces, no se rechaza la hipótesis nula y se concluye que al menos uno de los parámetros \(\beta_2\), \(\beta_4\) o \(\beta_5\) es igual a cero.
No es posible descartar variables en el modelo según los resultados puesto que no se sabe de la prueba el parámetro que es igual a cero y tampoco es el criterio adecuado para determinar si se deben eliminar variables o no del modelo ajustado. Para tal caso debemos recurrir a un método de selección de variables.
3. Se desea probar si el efecto del parámetro asociado a la rutina de cultivos es significativo y si los efectos asociados a los parámetros del censo promedio diario y el número de enfermeras son iguales.
Queremos probar las siguientes hipótesis:
\[H_0:\beta_2 = 0, \beta_4=\beta_5\text{ vs } H_1:\beta_2 \not= 0\text{ o } \beta_4\not=\beta_5\] Primero que todo, igualamos las ecuaciones a cero y tenemos:
\[H_0:\beta_2 = 0, \beta_4-\beta_5=0\text{ vs } H_1:\beta_2 \not= 0\text{ o } \beta_4-\beta_5\not=0\] Estamos probando m = 2 ecuaciones distintas, entonces contruimos nuestra matriz L de orden m x p como se sigue:
\[L=\begin{equation}\begin{pmatrix} 0 & 0 & 1 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & -1 \end{pmatrix} \end{equation} \] \[\beta=\begin{equation}\begin{pmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \beta_3\\ \beta_4\\ \beta_5\\ \end{pmatrix} \end{equation} \] Y de forma matricial la hipótesis lineal general toma la forma: \[H_0:L\beta=0\text{ vs } H_1:L\beta\not=0\] Planteamos el modelo reducido bajo la hipótesis nula:
\[M.R: Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4X_{i4} + \beta_4X_{i5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] \[Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4(X_{i4}+X_{i5})+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] \[Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4Z_{i4,5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] Y el estadístico de prueba:
\[F_o=\frac{\frac{SSE(M.R)-SSE(M.C)}{m}}{MSE(M.C)}\overset{}{\sim}f_{m,n-p}\] Estadísticos de prueba
# Creacion de nueva variavle Z45 y estadisticos del modelo completo y reducido
Z45=bd$X4+bd$X5
modelor=lm(Y~X1+X3+Z45,data = bd)
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 27.872 27.8721 26.0185 3.770e-06 ***
## X2 1 0.499 0.4995 0.4662 0.4974
## X3 1 19.028 19.0275 17.7621 8.703e-05 ***
## X4 1 2.054 2.0542 1.9176 0.1713
## X5 1 1.592 1.5919 1.4861 0.2277
## Residuals 59 63.203 1.0712
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(modelor)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 27.872 27.8721 25.8593 3.752e-06 ***
## X3 1 19.119 19.1194 17.7387 8.487e-05 ***
## Z45 1 1.509 1.5090 1.4001 0.2413
## Residuals 61 65.748 1.0778
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
De las tablas anteriores obtenemos que \(SSE(M.C)=63.203\), \(SSE(M.R)=65.748\) y \(MSE(M.C)=1.0712\), sabemos que m = 2, n = 65 y p = 6, con estos resultamos calculamanos nuestro estadístico de prueba \(F_o=1.1879\).
Región de Rechazo
# Región de rechazo
m = 2
n = 65
p = 6
alpha = 0.05
qf(alpha,m,n-p)
## [1] 0.05133791
Comparando el valor del estadístico de prueba con la región de rechazo \(f_{0.05,2,59}=0.0513\) tenemos que el estadístico de prueba cae sobre la región de rechazo, por lo tanto rechazamos nuestra hipótesis nula y concluimos que \(\beta_2 \not= 0\text{ o } \beta_4\not=\beta_5\), o bien, el efecto de la rutina de cultivos no es cero mientras que las demás covariables permanecen constantes o el efecto del censo promedio diario es diferente al efecto sobre la variables de respuesta del número de enfermeras.
4. Validación de los supuestos en los errores y verificación de valores atípicos, de balanceo e influenciales.
a. Los errores del modelo tienen media cero
Se plantean las siguientes hipótesis: \[H_0:\text{Los errores del modelo tienen media cero}\] \[H_1:\text{Los errores del modelo no tienen media cero}\] No rechazamos \(H_o\) puesto que el supuesto de media cero se cumple por defecto y determinamos que los errores del modelo tienen media cero.
b. Los errores del modelo tienen varianza constante
Se quiere verificar las siguientes hipotesis:
\[H_0:V[\epsilon_i]=\sigma^2\] \[H_1:V[\epsilon_i]\not=\sigma^2\]
# Grafico de varianza
restud=round(rstudent(modelo),4)
plot(fitted(modelo),restud,xlab="Valores Ajustados",ylab="Residuales Estudentizados",main="Residuales Estudentizados vs.Valores Ajustados",cex=2)
abline(h=0,lty=2,col=2)
Cuando observamos el gráfico de residuales estudentizados vs. valores ajustados notamos un comportamiento aleatorio de la varianza y no sigue un patrón, se concluye que el modelo puede ser mejor ajustado pero daremos por cumplido el supuesto varianza constante.
c. Los errores del modelo se distribuyen normal
Consideremos las hipótesis: \[H_0:\epsilon_i\overset{}{\sim}Normal\] \[H_1:\epsilon_i\overset{not}{\sim}Normal\]
# Grafico de normalidad
myQQnorm(modelo)
De acuerdo al gráfico de normalidad a pesar de que cerca del centro todos los puntos se ajustan a la recta, en las colas hay mucho mas del 10% de puntos un poco alejados de ella, lo que nos lleva a pensar que para el número de observaciones consideradas y el modelo ajustado, se cumple medianamente el supuesto de normalidad.
Según el valor-p arrojado por el test de Shapiro-Wilk, este es grande, por lo que no se tiene suficiente evidencia para rechazar la hipótesis nula y los errores del modelo se distribuyen normal, sin embargo, el criterio gráfico pesa mas y diremos que este supuesto se cumple medianamente.
d. Los errores del modelo son independientes
Se plantean las hipótesis: \[H_0:\text{Los errores del modelo son independientes}\] \[H_1:\text{Los errores del modelo no son independientes}\]
Ya que de estos registros no se conoce el orden de la observaciones en el tiempo, no tenemos forma de validar este supuesto por medio del gráfico residuales vs. tiempo. Asumimos como válido el supuesto, o bien, se valida por definición del tipo de datos de corte transversal.
Estadísticos de salida
t1<-predict(modelo,se.fit=T)
t2<-round(residuals(modelo),4)
t3<-round(cooks.distance(modelo),4)
t4<-round(hatvalues(modelo),4)
t5<-round(dffits(modelo),4)
data.frame(bd$Y,yhat=round(t1$fit,4),se.yhat=round(t1$se.fit,6),residuals=t2,res.estud=restud,Cooks.D=t3,hii.value=t4,Dffits=t5)
## bd.Y yhat se.yhat residuals res.estud Cooks.D hii.value Dffits
## 1 3.7 4.1143 0.281627 -0.4143 -0.4130 0.0023 0.0740 -0.1168
## 2 2.8 4.3171 0.223854 -1.5171 -1.5179 0.0184 0.0468 -0.3362
## 3 4.2 3.9570 0.193758 0.2430 0.2371 0.0003 0.0350 0.0452
## 4 6.2 4.4732 0.306929 1.7268 1.7787 0.0490 0.0879 0.5523
## 5 5.7 4.7749 0.352663 0.9251 0.9499 0.0198 0.1161 0.3443
## 6 4.5 4.1448 0.265863 0.3552 0.3525 0.0015 0.0660 0.0937
## 7 1.6 3.2059 0.293548 -1.6059 -1.6411 0.0382 0.0804 -0.4854
## 8 5.1 5.1539 0.287489 -0.0539 -0.0537 0.0000 0.0772 -0.0155
## 9 4.1 3.8323 0.218296 0.2677 0.2625 0.0005 0.0445 0.0566
## 10 4.4 4.1014 0.237148 0.2986 0.2941 0.0008 0.0525 0.0692
## 11 5.0 4.5792 0.162106 0.4208 0.4088 0.0007 0.0245 0.0648
## 12 4.3 3.6955 0.249986 0.6045 0.5986 0.0037 0.0583 0.1490
## 13 5.3 3.7137 0.201230 1.5863 1.5822 0.0160 0.0378 0.3136
## 14 4.8 4.6769 0.402158 0.1231 0.1280 0.0005 0.1510 0.0540
## 15 4.4 5.0460 0.185804 -0.6460 -0.6312 0.0022 0.0322 -0.1152
## 16 5.3 4.5319 0.318533 0.7681 0.7774 0.0106 0.0947 0.2514
## 17 2.9 3.7425 0.213885 -0.8425 -0.8298 0.0051 0.0427 -0.1753
## 18 4.3 4.2522 0.356599 0.0478 0.0488 0.0001 0.1187 0.0179
## 19 2.0 3.1731 0.259816 -1.1731 -1.1747 0.0154 0.0630 -0.3046
## 20 2.7 3.7208 0.314166 -1.0208 -1.0358 0.0181 0.0921 -0.3300
## 21 5.6 4.6666 0.343458 0.9334 0.9553 0.0188 0.1101 0.3360
## 22 4.1 4.7862 0.463640 -0.6862 -0.7387 0.0230 0.2007 -0.3701
## 23 6.6 6.1065 0.490120 0.4935 0.5380 0.0141 0.2242 0.2893
## 24 5.1 4.6535 0.189494 0.4465 0.4358 0.0011 0.0335 0.0812
## 25 4.5 5.3635 0.287627 -0.8635 -0.8667 0.0105 0.0772 -0.2507
## 26 4.3 3.9189 0.398923 0.3811 0.3962 0.0046 0.1486 0.1655
## 27 6.5 6.9911 0.692102 -0.4911 -0.6350 0.0549 0.4471 -0.5711
## 28 2.9 3.6824 0.421061 -0.7824 -0.8252 0.0226 0.1655 -0.3675
## 29 4.5 3.3066 0.280221 1.1934 1.2022 0.0189 0.0733 0.3381
## 30 4.9 6.1056 0.464484 -1.2056 -1.3114 0.0714 0.2014 -0.6586
## 31 5.6 5.0062 0.213415 0.5938 0.5831 0.0025 0.0425 0.1229
## 32 3.0 3.9295 0.380628 -0.9295 -0.9652 0.0243 0.1352 -0.3817
## 33 5.7 5.1266 0.381952 0.5734 0.5928 0.0093 0.1362 0.2354
## 34 5.0 5.0027 0.208808 -0.0027 -0.0026 0.0000 0.0407 -0.0005
## 35 2.9 3.8205 0.230729 -0.9205 -0.9110 0.0073 0.0497 -0.2083
## 36 4.5 4.8777 0.208361 -0.3777 -0.3698 0.0010 0.0405 -0.0760
## 37 2.5 4.5394 0.270130 -2.0394 -2.0993 0.0508 0.0681 -0.5676
## 38 3.4 3.8490 0.271107 -0.4490 -0.4464 0.0025 0.0686 -0.1212
## 39 5.8 5.1913 0.403037 0.6087 0.6353 0.0121 0.1516 0.2686
## 40 4.8 5.6004 0.307301 -0.8004 -0.8075 0.0106 0.0882 -0.2511
## 41 5.4 3.7884 0.409678 1.6116 1.7237 0.0890 0.1567 0.7429
## 42 6.3 4.0671 0.146814 2.2329 2.2535 0.0163 0.0201 0.3229
## 43 6.3 4.7184 0.291469 1.5816 1.6141 0.0364 0.0793 0.4737
## 44 3.4 3.6644 0.418980 -0.2644 -0.2772 0.0025 0.1639 -0.1227
## 45 7.8 6.5282 0.501587 1.2718 1.4167 0.1010 0.2349 0.7849
## 46 6.4 5.2820 0.234490 1.1180 1.1112 0.0111 0.0513 0.2585
## 47 4.6 4.3703 0.191635 0.2297 0.2240 0.0003 0.0343 0.0422
## 48 3.1 3.3435 0.241952 -0.2435 -0.2400 0.0006 0.0546 -0.0577
## 49 4.1 4.3027 0.156387 -0.2027 -0.1965 0.0002 0.0228 -0.0300
## 50 2.9 3.9397 0.285121 -1.0397 -1.0458 0.0149 0.0759 -0.2997
## 51 4.7 3.1953 0.276387 1.5047 1.5255 0.0291 0.0713 0.4227
## 52 5.4 6.9902 0.606346 -1.5902 -1.9397 0.3130 0.3432 -1.4021
## 53 4.8 4.7744 0.240466 0.0256 0.0252 0.0000 0.0540 0.0060
## 54 2.3 3.0423 0.246426 -0.7423 -0.7356 0.0055 0.0567 -0.1803
## 55 2.0 3.5318 0.209103 -1.5318 -1.5281 0.0162 0.0408 -0.3152
## 56 5.5 4.6228 0.252506 0.8772 0.8721 0.0081 0.0595 0.2194
## 57 1.4 2.7058 0.298558 -1.3058 -1.3261 0.0263 0.0832 -0.3995
## 58 4.7 4.9103 0.201498 -0.2103 -0.2055 0.0003 0.0379 -0.0408
## 59 3.9 4.2621 0.211224 -0.3621 -0.3547 0.0009 0.0416 -0.0739
## 60 5.5 3.4066 0.215746 2.0934 2.1291 0.0324 0.0435 0.4538
## 61 3.7 3.8963 0.213522 -0.1963 -0.1922 0.0003 0.0426 -0.0405
## 62 3.9 5.0371 0.224410 -1.1371 -1.1280 0.0104 0.0470 -0.2505
## 63 4.2 4.0350 0.378101 0.1650 0.1698 0.0008 0.1335 0.0667
## 64 2.9 3.7372 0.372875 -0.8372 -0.8652 0.0187 0.1298 -0.3342
## 65 5.6 4.4172 0.156936 1.1828 1.1596 0.0052 0.0230 0.1779
Observaciones atipicas
Puesto que en la tabla de “Estadísticos de salida” no hay valores \(|r_i|>3\), no hay observaciones atipicas en nuestra base de datos.
Puntos de balanceo
Sabemos de antemano que p = 6 y n = 65, por lo tanto, decimos que una observación es un punto de balanceo si \(h_{ii}>\frac{2p}{n}=0.1846\).
Se identifica de la tabla que las observaciones 22, 23, 27, 30, 45 y 52 son puntos de balanceo. Estos son puntos alejados de las predictoras y pueden ser parte de la causa de nuestro pequeño coeficiente de determinación.
Puntos influyentes
Podemos identificar los puntos influyentes usando el criterio Distancias de Cook y DFFITS.
Usando distancias de cook, en la tabla observamos que no hay \(cook.di>1\) entonces por medio de este criterio no detectamos puntos influyentes.
Ahora bien, de acuerdo al criterio de DFFITS, vemos que las observaciones 30, 41, 45 y 52 son puntos influyentes puesto que \(|\text{ Dffits } |> 2*\sqrt{\frac{p}{n}} =0.6076\) y entonces estos valores halan el modelo en su dirección. Son valores inusuales tanto en las predictoras como la respuesta.
Finalmente puede concluirse que el modelo a pesar de tener un coeficiente de determinación bajo, los errores cumplen moderadamente con los supuestos, son pocos los valores atípicos y entonces parece ser un modelo bueno, sin embargo, podemos obtener uno mejor usando selección de variables, o bien, detectando problemas de multicolinealidad y solucionarlos junto con los expertos en el tema.
5. Presencia de multicolinealidad usando graficos y/o indicadores apropiados.
Primero que todo, analizamos los posibles problemas de multicolinealidad graficamente y matricialmente:
Grafica de correlacion de Pearson
# Grafico de correlaciones
mat_cor=cor(bd,method="pearson")
corrplot(mat_cor, type="upper", order="hclust", tl.col="black", tl.srt=45)
Matriz de correlaciones de Pearson
# Matriz de correlaciones
mat_cor
## Y X1 X2 X3 X4 X5
## Y 1.0000000 0.4939233 0.03723050 0.4988930 0.42648615 0.26029349
## X1 0.4939233 1.0000000 0.20636081 0.1982719 0.37908182 0.29406162
## X2 0.0372305 0.2063608 1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997 1.0000000 0.35967155 0.10258439
## X4 0.4264861 0.3790818 0.03743146 0.3596716 1.00000000 0.07684465
## X5 0.2602935 0.2940616 -0.08511824 0.1025844 0.07684465 1.00000000
Examinando el gráfico de multicolinealidad y la matriz, notamos que no hay \(\rho>0.5\) entre variables predictoras y nos da indicios de que posiblemente no hay multicolinealidad.
Tabla mis coeficientes
# Tabla mis coeficientes
myCoefficients(modelo,bd)
## Estimated and standardized coefficients, their 95% CI's and VIF's
## Estimation Coef.Std Limit_2.5% Limit_97.5% Vif
## (Intercept) -0.5986008691 0.00000000 -3.632021689 2.434819951 0.000000
## X1 0.2106683091 0.30449605 0.053437116 0.367899502 1.375666
## X2 0.0197512078 0.07487653 -0.035697988 0.075200403 1.176970
## X3 0.0470924905 0.38685413 0.020501581 0.073683400 1.270949
## X4 0.0105603543 0.15949429 -0.004080114 0.025200822 1.302309
## X5 0.0008995893 0.12518477 -0.000577038 0.002376217 1.124675
Bajo el criterio de factores de inflación de varianza (VIF) y los valores observados en la tabla, no detectamos problemas de multicolinealidad, pues \(VIF_j<5\) para todas las variables.
Tabla indices de condición
# Tabla indices de condicion sin centrar y centrada
myCollinDiag(modelo,center = F)
## Collinearity Diagnostics
## Variance Decomposition Proportions
## Eigen_Value Condition_Index Intercept X1 X2 X3 X4
## 1 5.4018256 1.000000 0.000239 0.000882 0.000250 0.006425 0.001403
## 2 0.3025937 4.225132 0.000186 0.000115 0.000186 0.155729 0.003353
## 3 0.2365402 4.778789 0.002390 0.004999 0.003835 0.640772 0.004296
## 4 0.0343352 12.542973 0.022346 0.003719 0.028546 0.114363 0.920851
## 5 0.0207865 16.120536 0.039926 0.976147 0.029334 0.004189 0.065410
## 6 0.0039187 37.127569 0.934914 0.014139 0.937849 0.078522 0.004686
## X5
## 1 0.007901
## 2 0.776606
## 3 0.124325
## 4 0.002073
## 5 0.067694
## 6 0.021401
myCollinDiag(modelo,center = T)
## Collinearity Diagnostics (intercept adjusted)
## Variance Decomposition Proportions
## Eigen_Value Condition_Index X1 X2 X3 X4 X5
## 1 1.73237 1.000000 0.132674 0.000165 0.107417 0.142121 0.064845
## 2 1.23968 1.182127 0.084396 0.443369 0.131654 0.001073 0.000002
## 3 0.98749 1.324506 0.009577 0.028267 0.056622 0.136118 0.637512
## 4 0.54613 1.781035 0.013604 0.206505 0.645686 0.572581 0.002663
## 5 0.49433 1.872015 0.759749 0.321693 0.058621 0.148107 0.294978
Usando el criterio de índices de condición, identificamos que en la tabla de datos sin centrar existen dos problemas de multicolinealidad moderada y uno de multicolinealidad severa. En la tabla de datos centrados no se hallan problemas.
Finalmente, usando la proporción de descomposición de varianza y estudiando la tabla centrada y sin centrar, encontramos que existe un problema de multicoliealidad moderada debido a una relación entre las variables \(X_3\) y \(X_4\) las cuales corresponden al número de camas y censo promedio diario, pues \(\pi_{i,j}>0.5\).
De acuerdo a los resultados, debido a la multicolinealidad del modelo, podemos tener efectos en la inflación de la varianza de los estimadores, parámetros de la regresión distorsionados, entre otros. Estos problemas pueden ser corregidos usando selección de variables y revisando posibles causas como lo son el método de recolección de muestras, las restricciones que fueron aplicadas en la población y tal vez tenemos un modelo sobredefinido.