1) Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en términos de todas las variables predictoras. Analice la significancia de la regresión y de los parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el coeficiente de determinación múltiple R2. Comente los resultados.
Consideramos las siguientes variables: X1 como la Duración promedio de la estadía de todos los pacientes en el hospital (días), X2 como la Razón del número de cultivos realizados en pacientes sin síntomas de infección hospitalaria, X3 como el Número promedio de camas en el hospital durante el periodo del estudio, X4 como el Número promedio de pacientes en el hospital por día durante el periodo del estudio y X5 como el Número promedio de enfermeras, equivalentes a tiempo completo, durante el periodo del estudio. X1, X2, X3, X4 y X5 son las variables explicativas del modelo y la variable Y como variable respuesta que representa la Probabilidad promedio estimada de adquirir infección en el hospital (%).
Datos Tabulados
## Y X1 X2 X3 X4 X5
## 1 3.7 7.58 56.7 20.8 88.0 97
## 2 2.8 9.97 58.2 16.5 76.5 90
## 3 4.2 8.88 51.5 10.1 86.9 305
## 4 6.2 10.15 51.9 16.4 59.2 568
## 5 5.7 11.18 51.0 18.8 55.9 595
## 6 4.5 9.61 52.4 6.9 87.2 487
## 7 1.6 8.82 58.2 3.8 51.7 80
## 8 5.1 10.30 59.6 27.8 88.9 175
## 9 4.1 10.47 53.2 5.7 69.1 196
## 10 4.4 10.02 49.5 8.3 93.0 265
## 11 5.0 9.78 52.3 17.6 95.9 270
## 12 4.3 7.65 47.1 16.4 65.7 318
## 13 5.3 8.15 54.9 12.3 79.8 99
## 14 4.8 9.84 62.2 12.0 82.3 600
## 15 4.4 11.65 54.5 18.6 96.1 248
## 16 5.3 11.77 54.1 17.3 56.0 196
## 17 2.9 8.86 51.3 9.5 87.5 100
## 18 4.3 9.89 45.2 11.8 108.7 190
## 19 2.0 7.08 52.0 12.3 56.4 87
## 20 2.7 7.14 57.6 13.1 92.6 92
## 21 5.6 8.95 53.7 18.9 122.8 147
## 22 4.1 9.35 53.8 15.9 80.9 833
## 23 6.6 13.95 65.9 15.6 133.5 356
## 24 5.1 9.76 50.9 21.9 97.0 150
## 25 4.5 10.05 52.0 36.7 87.5 184
## 26 4.3 9.23 51.6 11.6 42.6 620
## 27 6.5 19.56 59.9 17.2 113.7 306
## 28 2.9 10.79 44.2 2.6 56.6 461
## 29 4.5 6.70 48.6 13.0 80.8 76
## 30 4.9 11.07 53.2 28.5 122.0 768
## 31 5.6 11.48 57.6 20.3 82.0 252
## 32 3.0 11.20 45.0 7.0 78.9 130
## 33 5.7 11.80 53.8 9.1 116.9 571
## 34 5.0 11.03 49.9 19.7 102.1 318
## 35 2.9 8.90 49.7 12.7 86.9 52
## 36 4.5 11.46 56.9 15.6 97.7 191
## 37 2.5 8.54 56.1 27.0 82.5 98
## 38 3.4 10.42 58.0 8.0 59.0 119
## 39 5.8 9.50 49.3 42.0 70.9 98
## 40 4.8 10.24 49.0 36.3 112.6 195
## 41 5.4 7.93 64.1 7.5 98.1 68
## 42 6.3 9.74 54.4 11.4 76.1 221
## 43 6.3 8.84 56.3 29.6 82.6 85
## 44 3.4 8.45 38.8 12.9 85.0 235
## 45 7.8 12.07 43.7 52.4 105.3 157
## 46 6.4 11.62 53.9 25.5 99.2 133
## 47 4.6 9.68 57.8 16.7 79.0 186
## 48 3.1 8.63 54.0 8.4 56.2 76
## 49 4.1 9.05 51.2 20.5 79.8 195
## 50 2.9 7.91 52.8 11.9 79.5 477
## 51 4.7 8.77 54.5 5.2 47.0 143
## 52 5.4 11.18 45.7 60.5 85.8 640
## 53 4.8 12.01 52.8 10.8 96.9 298
## 54 2.3 7.95 51.8 4.6 54.9 163
## 55 2.0 8.93 56.0 6.2 72.5 95
## 56 5.5 11.08 50.2 18.6 63.6 387
## 57 1.4 7.14 51.7 4.1 45.7 115
## 58 4.7 10.72 53.8 23.2 94.1 113
## 59 3.9 11.15 56.5 7.7 73.9 281
## 60 5.5 7.63 52.1 11.6 61.1 197
## 61 3.7 8.48 51.1 12.1 92.8 166
## 62 3.9 10.73 50.6 19.3 101.0 445
## 63 4.2 7.53 42.0 23.1 98.9 95
## 64 2.9 10.80 63.9 1.6 57.4 130
## 65 5.6 10.12 51.7 14.9 79.1 362
Modelo de regresión Líneal Múltiple y sumario del modelo
modelo = lm(Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones)
summary(modelo)
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.03944 -0.80043 -0.00266 0.60450 2.23292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.5986009 1.5159559 -0.395 0.694365
## X1 0.2106683 0.0785765 2.681 0.009501 **
## X2 0.0197512 0.0277108 0.713 0.478803
## X3 0.0470925 0.0132888 3.544 0.000779 ***
## X4 0.0105604 0.0073166 1.443 0.154213
## X5 0.0008996 0.0007379 1.219 0.227679
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared: 0.4468, Adjusted R-squared: 0.3999
## F-statistic: 9.53 on 5 and 59 DF, p-value: 1.058e-06
Significancia de la regresión y sus parámentros
Bajo la hipótesis de que las variables explican bien el modelo y basado en los datos arrojados por el resumen del modelo, se encontró que : - Para X1 con una significancia del 0.001 puede afirmarse que dicha variable explica bien el modelo, para esta variable se encontró un valor p de 0.009501, dado que este valor es menor que 0.001, se rechaza la hipótesis alternativa lo que implica que esta variable explica bien el modelo. - Para X3 con una significancia del 0 puede afirmarse que dicha variable explica bien el modelo, para esta variable se encontró un valor p de 0.000779, dado que este valor es muy cercano a 0, se rechaza la hipótesis alternativa lo que implica que esta variable explica bien el modelo. - Para X2, X4, X5, dado que su valor p es mayor que 0.1, se acepta la hipótesis alternativa, lo que implica que estas variables no explican bien el modelo.
Interpretación de los parametros de la regresión líneal
Yi = β0 + β1 * Xi1 + β2 * Xi2 + β3 * Xi3 + β4 * Xi4 + β5 * Xi5 + Ei
Para β0: el valor obtenido para este coeficiente fue de -0.5986009, dado esto la probabilidad de que te contagies sin tener en cuenta las demás variables es casi de 0%.
Para β1: por cada día adicional recluido en el hospital, la probabilidad de contagio aumenta un 0.2106683%.
Para β2: por cada rutina de cultivo realizada a un grupo de 100 pacientes asintomáticos, la probabilidad de que alguno de estos se contagie es del 0.0197512%.
Para β3: por cada cama adicional durante el estudio, la probabilidad de contagio es del 0.0470925%.
Para β4: por cada paciente adicional en el hospital por día de estudio, la probabilidad de contagio de este, es de 0.0105604%.
Para β5: por cada enfermera adicional que hace parte del estudio, la probabilidad de contagio aumenta en un 0.0008996%.
Analisis del R^2 Ajustado
Dado que el valor obtenido para este parámetro es 0.3999 puede afirmarse que el conjunto de las variables explicativas usadas tan solo justifican aproximadamente el 40% de la variación de la variable dependiente Y, lo que implica que conjuntamente, no representan bien el modelo. Es posible que alguna de estas variables explicativa no aporte al modelo puesto que puede tener algún grado de correlación con otras variables del modelo.
2) Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior. Según el resultado de la prueba es posible descartar del modelo las variables del subconjunto?
A continuación se presenta la tabla con todas las posibles combinaciones de las variables del modelo de regresión lineal:
myAllRegTable(modelo)
## k R_sq adj_R_sq SSE Cp ABS_CP_1 Variables_in_model
## 1 1 0.249 0.237 85.813 19.106 18.106 X3
## 2 1 0.244 0.232 86.376 19.632 18.632 X1
## 3 1 0.182 0.169 93.468 26.252 25.252 X4
## 4 1 0.068 0.053 106.508 38.425 37.425 X5
## 5 1 0.001 -0.014 114.090 45.503 44.503 X2
## 6 2 0.411 0.392 67.257 3.784 1.784 X1 X3
## 7 2 0.319 0.297 77.804 13.629 11.629 X3 X4
## 8 2 0.311 0.289 78.739 14.503 12.503 X1 X4
## 9 2 0.293 0.270 80.764 16.392 14.392 X3 X5
## 10 2 0.276 0.253 82.667 18.169 16.169 X2 X3
## 11 2 0.258 0.235 84.721 20.087 18.087 X1 X5
## 12 2 0.248 0.224 85.877 21.166 19.166 X1 X2
## 13 2 0.234 0.209 87.519 22.698 20.698 X4 X5
## 14 2 0.182 0.156 93.416 28.203 26.203 X2 X4
## 15 2 0.071 0.041 106.102 40.046 38.046 X2 X5
## 16 3 0.430 0.402 65.108 3.778 0.778 X1 X3 X4
## 17 3 0.422 0.393 66.088 4.693 1.693 X1 X3 X5
## 18 3 0.415 0.386 66.850 5.404 2.404 X1 X2 X3
## 19 3 0.359 0.327 73.279 11.405 8.405 X3 X4 X5
## 20 3 0.336 0.303 75.868 13.822 10.822 X2 X3 X4
## 21 3 0.328 0.295 76.791 14.684 11.684 X1 X4 X5
## 22 3 0.325 0.292 77.090 14.963 11.963 X2 X3 X5
## 23 3 0.314 0.280 78.400 16.186 13.186 X1 X2 X4
## 24 3 0.261 0.224 84.459 21.842 18.842 X1 X2 X5
## 25 3 0.236 0.198 87.321 24.514 21.514 X2 X4 X5
## 26 4 0.442 0.405 63.748 4.508 0.508 X1 X3 X4 X5
## 27 4 0.433 0.395 64.795 5.486 1.486 X1 X2 X3 X4
## 28 4 0.427 0.389 65.435 6.083 2.083 X1 X2 X3 X5
## 29 4 0.379 0.338 70.904 11.188 7.188 X2 X3 X4 X5
## 30 4 0.329 0.284 76.656 16.558 12.558 X1 X2 X4 X5
## 31 5 0.447 0.400 63.203 6.000 1.000 X1 X2 X3 X4 X5
Evaluando los criterios de R^2, R^2 ajustado y el de CP se evidencia que:
-Cuando se incluye en el modelo las 3 variables con mayor valor p (X2, X3, X4) se obtienen valores no muy buenos para los indicadores R^2, R^2 ajustado y CP (0.236, 0.198, 21.514 respectivamente).
-Cuando se incluyen las variables X1, X3, X4, X5 y se retira la variable X2 del modelo, se obtienen los mejores valores para los indicadores R^2, R^2 ajustado y CP (0.442, 0.405, 0.508 respectivamente), siendo este el modelo óptimo para todas las combinaciones posibles.
-Por ello se sugiere retirar la variable predictora X2 del modelo pues dicha variable no lo explica.
3) Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión para el estadístico de prueba.
Pregunta
Se quiere saber si el conjunto de variables usado afecta de igual manera en el riesgo de infección dentro del hospital ?
Matriz
Se quiere probar la siguiente hipótesis:
H0 : β1 = β3, β4 = β5, β2 = 0.
VS
H1 : β1 != β3, β4 != β5, β2 != 0.
Igualamos a 0 todas las ecuaciones y tenemos:
H0 : β1 - β3 = 0, β4 - β5 = 0, β2 = 0
vs
H1 : β1 - β3 != 0 , β4 - β5 != 0, β2 != 0.
A continuación se presenta la matriz con los valores para la pregunta planteada, de izquierda a derecha estan β0, β1, β2, β3, β4 y β5 respectivamente.
Tenemos m=3 ecuaciones y p=6 coeficientes, entonces:
\[ L=\left(\begin{array}{ccc} 0 & 1 & 0 & -1 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & -1\\ 0 & 0 & 1 & 0 & 0 & 0 \end{array}\right) \]
Planteamos el modelo reducido bajo la hipótesis nula:
Yi = β0 + B1 (Xi1 + xi3) + β4(Xi4 + xi5)
Estadístico de prueba:
modelo_reducido = lm(Y ~ X1 + X4, data = datos_eficacia_control_infecciones)
summary(modelo_reducido)
##
## Call:
## lm(formula = Y ~ X1 + X4, data = datos_eficacia_control_infecciones)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.96785 -0.73461 -0.07917 0.80156 2.38245
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.229406 0.803002 0.286 0.77607
## X1 0.268447 0.078828 3.405 0.00116 **
## X4 0.018499 0.007544 2.452 0.01703 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.127 on 62 degrees of freedom
## Multiple R-squared: 0.3108, Adjusted R-squared: 0.2886
## F-statistic: 13.98 on 2 and 62 DF, p-value: 9.741e-06
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 27.872 27.8721 26.0185 3.770e-06 ***
## X2 1 0.499 0.4995 0.4662 0.4974
## X3 1 19.028 19.0275 17.7621 8.703e-05 ***
## X4 1 2.054 2.0542 1.9176 0.1713
## X5 1 1.592 1.5919 1.4861 0.2277
## Residuals 59 63.203 1.0712
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(modelo_reducido)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 27.872 27.8721 21.9467 1.577e-05 ***
## X4 1 7.637 7.6371 6.0135 0.01703 *
## Residuals 62 78.739 1.2700
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SSE_MR = 78.739 SSE_MC = 63.203 MSE_MC = 1.0712 m = 3
Aplicando la formula F0 = ((SSE_MR-SSE_MC)/ m)/MSE_MC se tiene :
F0 = 4.8344
Comparando con la tabla F:
F0 = 4.8344
Fcritico=qf(p = 0.95,df1 = 3,df2 = 65)
F0>Fcritico
## [1] TRUE
Dado lo anterior se rechaza H0, por ende se acepta H1, lo que implica que no todas las variables tienen el mismo efecto sobre el riesgo de contagio de un paciente en el hospital.
4) Realice una validación de los supuestos en los errores y examine si hay valores atípicos, de balanceo e influenciales. Qué puede decir acerca de la validez de éste modelo?. Argumente.
Validación de Supuestos
1) Linealidad
Dadas las gráficas se evidencia que la variable predictora X1 no cumple el supuesto de linealidad, mientras las demás sí.
2) Normalidad
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.98462, p-value = 0.5979
Dadas las dos pruebas de normalidad realizadas, se encontró que el error residual distribuye de forma normal y por ende se cumple el supuesto.
3) Homocedasticidad
Dada la gráfica anterior, se puede concluir que no se cumple el supuesto de Homocedasticidad, esto implica que no es un modelo confiable.
4) Independencia
Dado la gráfica anterior se observa que no hay una varianza constante y por ello no se puede garantizar independencia.
Valores Influenciales
## Potentially influential observations of
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones) :
##
## dfb.1_ dfb.X1 dfb.X2 dfb.X3 dfb.X4 dfb.X5 dffit cov.r cook.d hat
## 22 0.04 0.14 -0.08 0.00 -0.02 -0.35 -0.37 1.31_* 0.02 0.20
## 23 -0.23 0.05 0.15 -0.04 0.16 0.03 0.29 1.39_* 0.01 0.22
## 27 0.21 -0.52 0.01 0.09 0.02 0.13 -0.57 1.92_* 0.05 0.45_*
## 42 0.01 0.02 0.04 -0.09 -0.06 -0.04 0.32 0.68_* 0.02 0.02
## 44 -0.11 0.00 0.11 0.05 -0.02 0.01 -0.12 1.31_* 0.00 0.16
## 52 0.00 0.03 0.04 -1.15_* 0.39 -0.50 -1.40_* 1.16 0.31 0.34_*
Dado el anterior resumen de los valores influenciables del modelo y usando el criterio HAT, donde de consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de variables predictores y n el número de observaciones. En este caso 2.5((5+1)/65) = ** 0.2365 **, entonces las observaciones 23 con Y=6.6, X1=13.95, X2=65.9, X3=15.6, X4=133.5, X5=356 y 52 con Y=5.4, X1=11.18, X2=45.7, X3=60.5, X4=85.8, X5=640.
Valores Atípicos
Se consideran valores atípicos las observaciones que se encuentran a más de 3 desviaciones estándar del promedio. Con el siguiente bloque de código, se pretende obtener los índices de las observaciones que cumplen condición anterior.
datos_eficacia_control_infecciones$studentized_residual <- rstudent(modelo)
which(abs(datos_eficacia_control_infecciones$studentized_residual) > 3)
## integer(0)
Dado el resultado anterior, se demuestra que dentro de las observaciones no existen valores atípicos.
Valores de Balanceo
hats <- as.data.frame (hatvalues(modelo))
hats
## hatvalues(modelo)
## 1 0.07403918
## 2 0.04677812
## 3 0.03504559
## 4 0.08794014
## 5 0.11609965
## 6 0.06598246
## 7 0.08043955
## 8 0.07715329
## 9 0.04448387
## 10 0.05249917
## 11 0.02453078
## 12 0.05833706
## 13 0.03780051
## 14 0.15097529
## 15 0.03222717
## 16 0.09471531
## 17 0.04270431
## 18 0.11870555
## 19 0.06301496
## 20 0.09213603
## 21 0.11011812
## 22 0.20066598
## 23 0.22424222
## 24 0.03352007
## 25 0.07722715
## 26 0.14855571
## 27 0.44714871
## 28 0.16550175
## 29 0.07330171
## 30 0.20139722
## 31 0.04251692
## 32 0.13524245
## 33 0.13618482
## 34 0.04070117
## 35 0.04969523
## 36 0.04052706
## 37 0.06811724
## 38 0.06861107
## 39 0.15163544
## 40 0.08815380
## 41 0.15667378
## 42 0.02012077
## 43 0.07930427
## 44 0.16386938
## 45 0.23485738
## 46 0.05132866
## 47 0.03428162
## 48 0.05464747
## 49 0.02283046
## 50 0.07588759
## 51 0.07130939
## 52 0.34320435
## 53 0.05397813
## 54 0.05668717
## 55 0.04081600
## 56 0.05951895
## 57 0.08320898
## 58 0.03790127
## 59 0.04164848
## 60 0.04345069
## 61 0.04255967
## 62 0.04701047
## 63 0.13345286
## 64 0.12978936
## 65 0.02299108
Podemos ver que el mayor valor de balanceo es la observación 27 con un valor hat de 0.44714871. Dado que este no es mayor que 2, sabemos que ninguna de las observaciones de datos tiene un alto balanceo.
Validez del modelo
Puesto que no se encontraron datos atípicos ni de balanceo, y la escases de datos influenciables podría dar la impresión de que este sería un buen modelo, para un determinado momento en el tiempo por ejemplo, si fuese un buen modelo. Pero al hacer la validación de los supuestos, se concluye que no es un buen modelo para predecir eventos futuros, sin embargo, si explica comportamientos en determinado momento.
5) Verificar la presencia de multicolinealidad usando graficos y/o indicadores apropiados.
Gráfica Correlación
Interpretando los resultados de la gráfica anterior, se concluye que:
Se evidencia una correlación mediana entre X1 y X4, y entre X3 y X4. No se deja de lado la existencia de correlación entre las otras variables, pero se resalta la que hay entre estas porque es donde es más evidente, lo que implica la existencia de multicolinealidad en el modelo.