En un estudio a gran escala realizado en EE.UU sobre la eficacia en el control de infecciones hospitalarias se recogió información en 113 hospitales, los datos se encuentran en publicados junto con el este archivo (datos2.txt). La base de datos contiene las siguientes columnas (variables): \[ Y:Riesgo ~\thinspace de ~\thinspace infección\\ X_1: Duración ~\thinspace de ~\thinspace la ~\thinspace estadía \\ X_2: Rutina ~\thinspace de ~\thinspace cultivos\\ X_3: Número ~\thinspace de ~\thinspace camas\\ X_4: Censo ~\thinspace promedio ~\thinspace diarios\\ X_5: Número ~\thinspace de ~\thinspace enfermeras \]
## Registered S3 methods overwritten by 'tibble':
## method from
## format.tbl pillar
## print.tbl pillar
##
## Call:
## lm(formula = Y ~ ., data = datos2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.03944 -0.80043 -0.00266 0.60450 2.23292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.5986009 1.5159559 -0.395 0.694365
## X1 0.2106683 0.0785765 2.681 0.009501 **
## X2 0.0197512 0.0277108 0.713 0.478803
## X3 0.0470925 0.0132888 3.544 0.000779 ***
## X4 0.0105604 0.0073166 1.443 0.154213
## X5 0.0008996 0.0007379 1.219 0.227679
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared: 0.4468, Adjusted R-squared: 0.3999
## F-statistic: 9.53 on 5 and 59 DF, p-value: 1.058e-06
Ajuste del modelo
Ajustamos un modelo de regresion lineal multiple, donde nuestra variable a explicar es la probabilidad promedio estimada de adquirir infección en el hospital (en porcentaje) y su abreviacion es Y, incluyendo las 5 variables predictoras obtenemos el modelo. \[
Y=-0.597 +0.211X_1+0.0198X_2+0.0471X_3+0.0106X_4+0.001X_5+1.035
\]
Significancia de la regresión
Para la significancia de la regrecion planteamos las hipótesis
\[
H_0:\beta_1=\beta_2=\beta_3=\beta_4=\beta_5=0 ~\thinspace vs ~\thinspace H_1: ~\thinspace Algún ~\thinspace \beta_j \not=0 ~\thinspace con ~\thinspace j=1,2,3,4,5
\] y tenemos que el valor \(P=1.058e-06\) que es muy pequeño por lo^cual podemos rechazar la hipotesis nula y decir que la regresion es significativa.
Significancia de los párametros individuales
En la tabla podemos ver que la variable del número de camas promedio en el hospital \(X_3\) es la que tiene el nivel de significancia mas baja, entre mas baja sea esta variable, mayor es la evidencia contra la hipótesis \(H_0 : \beta_3 = 0\), lo que quiere decir que esta variable explica muy bien linealmente la probabilidad promedio de adquirir infección \(Y\). Las siguientes variables con un buen nivel de significacion son la duración promedio de la estadía de todos los pacientes en el hospital (en días) \(X_1\).
El resto de variables parecen tener un valor muy alto, lo que podria significar que podrian ser descartadas del modelo.
Interpretación del \(R^2\)
El valor que obtuvimos para \(R^2\) se interpreta como que aproximadamente \(44.6\%\) de la variabilidad total de probabilidad de adquirir la enfermedad es explicada por el modelo y adjustando \(R^2_{ajustado}\) para que tenga en cuenta el numero de variables predictoras, el modelo explica el \(39.9\%\) de la variabilida y además indicaque el modelocuenta con vaibeles que no son significativas y no le aportan.
Comentraios
Se podria considerar descartar algunas variables predictoras ya que no parecen aportar a la presición del modelo.
Los valores que obtuvimos para \(R^2\) y \(R^2_{ajustado}\) es menor a \(0.5\), este valor es muy bajo y nos muestra que nuestro modelo no es tan bueno para predecir esta variable con gran precision.
## Warning: package 'leaps' was built under R version 4.0.5
## NoOfVars R2 adjR2 SSE Cp Variables.in.model
## 1 1 0.2489 0.2370 85.81279 19.1058 X3
## 2 1 0.2440 0.2320 86.37649 19.6320 X1
## 3 1 0.1819 0.1689 93.46789 26.2518 X4
## 4 1 0.0678 0.0530 106.50796 38.4246 X5
## 5 1 0.0014 -0.0145 114.09025 45.5027 X2
## 6 2 0.4113 0.3923 67.25707 3.7841 X1 X3
## 7 2 0.3190 0.2970 77.80379 13.6294 X3 X4
## 8 2 0.3108 0.2886 78.73944 14.5029 X1 X4
## 9 2 0.2931 0.2703 80.76368 16.3925 X3 X5
## 10 2 0.2764 0.2531 82.66685 18.1691 X2 X3
## 11 2 0.2584 0.2345 84.72111 20.0867 X1 X5
## 12 2 0.2483 0.2241 85.87703 21.1658 X1 X2
## 13 2 0.2340 0.2093 87.51862 22.6982 X4 X5
## 14 2 0.1823 0.1560 93.41614 28.2035 X2 X4
## 15 2 0.0713 0.0413 106.10210 40.0458 X2 X5
## 16 3 0.4301 0.4021 65.10822 3.7782 X1 X3 X4
## 17 3 0.4215 0.3931 66.08819 4.6930 X1 X3 X5
## 18 3 0.4149 0.3861 66.84950 5.4037 X1 X2 X3
## 19 3 0.3586 0.3271 73.27885 11.4054 X3 X4 X5
## 20 3 0.3359 0.3033 75.86787 13.8223 X2 X3 X4
## 21 3 0.3279 0.2948 76.79093 14.6839 X1 X4 X5
## 22 3 0.3252 0.2921 77.09035 14.9634 X2 X3 X5
## 23 3 0.3138 0.2800 78.39977 16.1858 X1 X2 X4
## 24 3 0.2607 0.2244 84.45854 21.8416 X1 X2 X5
## 25 3 0.2357 0.1981 87.32093 24.5136 X2 X4 X5
## 26 4 0.4420 0.4048 63.74757 4.5080 X1 X3 X4 X5
## 27 4 0.4329 0.3950 64.79529 5.4861 X1 X2 X3 X4
## 28 4 0.4273 0.3891 65.43501 6.0832 X1 X2 X3 X5
## 29 4 0.3794 0.3380 70.90354 11.1881 X2 X3 X4 X5
## 30 4 0.3290 0.2843 76.65629 16.5582 X1 X2 X4 X5
## 31 5 0.4468 0.3999 63.20335 6.0000 X1 X2 X3 X4 X5
Hipótesis
\[
H_0: \beta_2=\beta_4=\beta_5=0 ~\thinspace vs ~\thinspace H_1:Algún ~\thinspace \beta_j\not=0 ~\thinspace con ~\thinspace j=2,4,5
\]
Modelos
\[
Modelo ~\thinspace Completo.\\
Y_i=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+\beta_4X_4+\beta_5X_5+\varepsilon\\
Modelo ~\thinspace reducido ~\thinspace bajo ~\thinspace H_0\\
Y_i=\beta_0+\beta_1X_1+\beta_3X_3+\varepsilon
\]
Modelos
\[
Modelo ~\thinspace Completo.\\
Y_i=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+\beta_4X_4+\beta_5X_5+\varepsilon\\
Modelo ~\thinspace reducido ~\thinspace bajo ~\thinspace H_0\\
Y_i=\beta_0+\beta_1X_1+\beta_3X_3+\varepsilon
\]
Estadístico de prueba
\[
E.P=F_0=\frac{\frac{SSE(M.R.)-SSC(M.C)}{m}}{MSE(M.C)}=\frac{\frac{67.25707-63.20335}{3}}{1.071243}=1.261376\\
m:Número ~\thinspace de ~\thinspace parámetros ~\thinspace a ~\thinspace prueba.
\]
Región de rechazo
\[R.R.=f_{\alpha,m,n-p}=f_{0.05,3,59}=2.760767\]
Decisión
Se rechaza \(H_0\) si \(F_0>f_{0.05,3,59}\) como \(1.261376<2.760767\) Como \(F_0\) no cae en la región de rechazo, entonces no tengo suficiente evidencia muestral para rechazar \(H_0\) y se concluye que ninguna de las 3 variables predictoras consideradas es significativa en el modelo, en presencia de la otras variables.
El subconjunto de las predictoras (Rutina de cultivos(\(X_1\)), Censo promedio diario (\(X_4\)) y Numero de enfermeras (\(X_5\))) no es significativo en presencia de las demás variables (\(X_1\) y \(X_2\)).
¿Es cierto que el censo promedio diario (\(X_4\)) y el número de enfermeras (\(X_5\)) tienen el mismo peso o afectan de la misma forma al la probabilidad de adquirir una infección en el hospital y que la Razon del número de cultivos realizados en pacientes sin sintomas de infección hospitalaria, por cada 100(\(X_2\)), no es un factor de peso en este aspecto?
Se requiere probra entonces \[H_0:\beta_4 = \beta_5,\beta_2 = 0 ~\thinspace vs ~\thinspace H_a: \beta_4 \not= \beta_5 ~\thinspace o ~\thinspace \beta_2 \not= 0\]
Reescribiendo la hipótesis, queda \[H_0:\beta_4-\beta_5=0,~\thinspace \beta_2 = 0\]
De manera matricial, tenemos que \(H_0: L\beta= 0\) \[
H_0:\left[
\begin{array}{rr}
0 & 0 & 0 & 0 & 1 & -1 \\
0 & 0 & 1 & 0 & 0 & 0 \\
\end{array}
\right] \left[
\begin{array}{rr}
\beta_0\\
\beta_1\\
\beta_2\\
\beta_3\\
\beta_4\\
\beta_5\\
\end{array}
\right]=\left[\begin{array}{rr}0 \\0 \\\end{array}\right]
\]
Por lo tanto se tiene una prueba de hipótesis lineal general, con: \[
L=\left[
\begin{array}{rr}
0 & 0 & 0 & 0 & 1 & -1 \\
0 & 0 & 1 & 0 & 0 & 0 \\
\end{array}
\right]
\]
Matriz \(L\) con 2 filas linealmente independientes, por lo tanto \(r = 2\)
El modelo reducido(\(RM\)) sería: \[RM: Y = \beta_0 + \beta_1X_1 + \beta_3X_3 + \beta_4(X_4+X_5)+\varepsilon=\beta_0 + \beta_1X_1 + \beta_3X_3 + \beta_4X_{4,5}+\varepsilon\]
donde \(X_{4,5} = X_4+X_5\)
En este modelo se tiene una suma de cuadrados del error \(SSE(RM) = SSE (\beta_0,\beta_1, \beta_3, \beta_4)\) con \(n - 4\) grados de libertad. Luego, la suma de cuadrados del error por hipotesis(SSH) se calcula como \(SSH = SSE(RM) - SSE(FM)\). Siendo \(SSE(FM) = 63.203\), teniendo 2 grados de libertad por hipótesis, y teniendo un \(MSE(FM) = 1.0712\) se define como estadístico de prueba a: \[F_0=\frac{SSH/2}{MSE}=\frac{(SSE(RM)-63.203)/2}{1.0712}\]
Supuesto de Normalidad -Grafica de normalodad y prueba de Shapiro-Wilk Para poder mirar si se distribuye normal vamos a utilizar la validación gráfica y el \(Shapiro.test(ei).\)
Gráficamente se puede observar que los puntos se en su mayoría se ajustan a la recta teórica y por lo tanto se puede decir que se cumple el supuesto de normalidad. Teniendo en cuenta el \(Shapiro.test(ei)\), nos da que \(P=0.7094\), el cual es un valor muy grande lo que indica que el modelo se distribuye normal.
El modelo se distribuye normal.
Supuesto de varianza constante -Grafica de residuales vs.valores ajustados El gráfico evidencia falta de varianza constante que puede ser causada por las pocas observaciones, se ve que crece y decrece la varianza; lo que sugiere que el modelo no es lineal.
## Y yhat se.yhat residuals res.stud Cooks.D hii.value Dffits
## 1 3.7 4.114254 0.2816274 -0.4143 -0.4159 0.0023 0.0740 -0.1168
## 2 2.8 4.317139 0.2238543 -1.5171 -1.5014 0.0184 0.0468 -0.3362
## 3 4.2 3.957025 0.1937585 0.2430 0.2390 0.0003 0.0350 0.0452
## 4 6.2 4.473227 0.3069288 1.7268 1.7469 0.0490 0.0879 0.5523
## 5 5.7 4.774901 0.3526627 0.9251 0.9507 0.0198 0.1161 0.3443
## 6 4.5 4.144786 0.2658632 0.3552 0.3551 0.0015 0.0660 0.0937
## 7 1.6 3.205903 0.2935478 -1.6059 -1.6180 0.0382 0.0804 -0.4854
## 8 5.1 5.153870 0.2874890 -0.0539 -0.0542 0.0000 0.0772 -0.0155
## 9 4.1 3.832328 0.2182958 0.2677 0.2646 0.0005 0.0445 0.0566
## 10 4.4 4.101352 0.2371484 0.2986 0.2964 0.0008 0.0525 0.0692
## 11 5.0 4.579178 0.1621062 0.4208 0.4117 0.0007 0.0245 0.0648
## 12 4.3 3.695495 0.2499864 0.6045 0.6019 0.0037 0.0583 0.1490
## 13 5.3 3.713700 0.2012301 1.5863 1.5625 0.0160 0.0378 0.3136
## 14 4.8 4.676881 0.4021582 0.1231 0.1291 0.0005 0.1510 0.0540
## 15 4.4 5.045994 0.1858040 -0.6460 -0.6345 0.0022 0.0322 -0.1152
## 16 5.3 4.531905 0.3185328 0.7681 0.7800 0.0106 0.0947 0.2514
## 17 2.9 3.742526 0.2138848 -0.8425 -0.8320 0.0051 0.0427 -0.1753
## 18 4.3 4.252187 0.3565985 0.0478 0.0492 0.0001 0.1187 0.0179
## 19 2.0 3.173099 0.2598160 -1.1731 -1.1709 0.0154 0.0630 -0.3046
## 20 2.7 3.720803 0.3141657 -1.0208 -1.0351 0.0181 0.0921 -0.3300
## 21 5.6 4.666620 0.3434578 0.9334 0.9560 0.0188 0.1101 0.3360
## 22 4.1 4.786224 0.4636400 -0.6862 -0.7416 0.0230 0.2007 -0.3701
## 23 6.6 6.106531 0.4901203 0.4935 0.5413 0.0141 0.2242 0.2893
## 24 5.1 4.653477 0.1894944 0.4465 0.4388 0.0011 0.0335 0.0812
## 25 4.5 5.363528 0.2876266 -0.8635 -0.8685 0.0105 0.0772 -0.2507
## 26 4.3 3.918919 0.3989227 0.3811 0.3990 0.0046 0.1486 0.1655
## 27 6.5 6.991146 0.6921019 -0.4911 -0.6382 0.0549 0.4471 -0.5711
## 28 2.9 3.682381 0.4210613 -0.7824 -0.8275 0.0226 0.1655 -0.3675
## 29 4.5 3.306633 0.2802213 1.1934 1.1977 0.0189 0.0733 0.3381
## 30 4.9 6.105645 0.4644840 -1.2056 -1.3035 0.0714 0.2014 -0.6586
## 31 5.6 5.006164 0.2134150 0.5938 0.5864 0.0025 0.0425 0.1229
## 32 3.0 3.929495 0.3806278 -0.9295 -0.9657 0.0243 0.1352 -0.3817
## 33 5.7 5.126613 0.3819516 0.5734 0.5961 0.0093 0.1362 0.2354
## 34 5.0 5.002659 0.2088082 -0.0027 -0.0026 0.0000 0.0407 -0.0005
## 35 2.9 3.820530 0.2307286 -0.9205 -0.9124 0.0073 0.0497 -0.2083
## 36 4.5 4.877713 0.2083611 -0.3777 -0.3726 0.0010 0.0405 -0.0760
## 37 2.5 4.539435 0.2701298 -2.0394 -2.0412 0.0508 0.0681 -0.5676
## 38 3.4 3.848985 0.2711073 -0.4490 -0.4495 0.0025 0.0686 -0.1212
## 39 5.8 5.191256 0.4030365 0.6087 0.6386 0.0121 0.1516 0.2686
## 40 4.8 5.600425 0.3073014 -0.8004 -0.8099 0.0106 0.0882 -0.2511
## 41 5.4 3.788388 0.4096776 1.6116 1.6956 0.0890 0.1567 0.7429
## 42 6.3 4.067081 0.1468136 2.2329 2.1794 0.0163 0.0201 0.3229
## 43 6.3 4.718388 0.2914690 1.5816 1.5926 0.0364 0.0793 0.4737
## 44 3.4 3.664420 0.4189797 -0.2644 -0.2794 0.0025 0.1639 -0.1227
## 45 7.8 6.528181 0.5015869 1.2718 1.4048 0.1010 0.2349 0.7849
## 46 6.4 5.282046 0.2344898 1.1180 1.1090 0.0111 0.0513 0.2585
## 47 4.6 4.370324 0.1916349 0.2297 0.2258 0.0003 0.0343 0.0422
## 48 3.1 3.343469 0.2419519 -0.2435 -0.2419 0.0006 0.0546 -0.0577
## 49 4.1 4.302741 0.1563873 -0.2027 -0.1982 0.0002 0.0228 -0.0300
## 50 2.9 3.939702 0.2851211 -1.0397 -1.0450 0.0149 0.0759 -0.2997
## 51 4.7 3.195260 0.2763869 1.5047 1.5086 0.0291 0.0713 0.4227
## 52 5.4 6.990212 0.6063459 -1.5902 -1.8958 0.3130 0.3432 -1.4021
## 53 4.8 4.774364 0.2404656 0.0256 0.0255 0.0000 0.0540 0.0060
## 54 2.3 3.042347 0.2464259 -0.7423 -0.7385 0.0055 0.0567 -0.1803
## 55 2.0 3.531795 0.2091025 -1.5318 -1.5111 0.0162 0.0408 -0.3152
## 56 5.5 4.622815 0.2525060 0.8772 0.8739 0.0081 0.0595 0.2194
## 57 1.4 2.705848 0.2985583 -1.3058 -1.3177 0.0263 0.0832 -0.3995
## 58 4.7 4.910307 0.2014981 -0.2103 -0.2072 0.0003 0.0379 -0.0408
## 59 3.9 4.262101 0.2112242 -0.3621 -0.3574 0.0009 0.0416 -0.0739
## 60 5.5 3.406566 0.2157458 2.0934 2.0681 0.0324 0.0435 0.4538
## 61 3.7 3.896305 0.2135223 -0.1963 -0.1938 0.0003 0.0426 -0.0405
## 62 3.9 5.037079 0.2244095 -1.1371 -1.1254 0.0104 0.0470 -0.2505
## 63 4.2 4.034999 0.3781011 0.1650 0.1713 0.0008 0.1335 0.0667
## 64 2.9 3.737178 0.3728753 -0.8372 -0.8671 0.0187 0.1298 -0.3342
## 65 5.6 4.417153 0.1569364 1.1828 1.1562 0.0052 0.0230 0.1779
Observaciones atípicas Existen observaciones atípicas si el valor absoluto de los residuales estudentizados \(r_i\) es mayor a 3 \[|r_i| > 3 \] De la tabla de valores para el diagnostico de salida se puede observar que no hay ningún residual estudentizado que en valor absoluto sea mayor que 3, por lo que se concluye que no hay observaciones atípicas.
Puntos de balanceo Estos son los valores alejándose las x, sabemos que es de balanceo si \[h_{ii}>\frac{2P}{n}=\frac{2*6}{65}=0.1846154\] De la tabla de valores para el diagnostico de salida se puede observar que las observaciones 22, 23, 27, 30, 45 y 52 son puntos de balanceo.
Puntos influyentes Podemos decir que es un punto influyente si \[ |DFFITS_i| > \sqrt{\frac{2P}{n}}=\sqrt{\frac{2*6}{65}}=0.4296689 \] Entonces bajo este criterio se pudo observar que las observaciones 4,7, 27, 30, 37, 41, 43, 45 y 60 son puntos influyentes.
## corrplot 0.90 loaded
## Loading required package: carData
## Estimación Limites.2.5.. Limites.97.5.. Vif Coef.Std
## (Intercept) -0.5986008691 -3.632021689 2.434819951 0.000000 0.00000000
## X1 0.2106683091 0.053437116 0.367899502 1.375666 0.30449605
## X2 0.0197512078 -0.035697988 0.075200403 1.176970 0.07487653
## X3 0.0470924905 0.020501581 0.073683400 1.270949 0.38685413
## X4 0.0105603543 -0.004080114 0.025200822 1.302309 0.15949429
## X5 0.0008995893 -0.000577038 0.002376217 1.124675 0.12518477
## Condition
## Index Variance Decomposition Proportions
## intercept X1 X2 X3 X4 X5
## 1 1.000 0.000 0.001 0.000 0.006 0.001 0.008
## 2 4.225 0.000 0.000 0.000 0.156 0.003 0.777
## 3 4.779 0.002 0.005 0.004 0.641 0.004 0.124
## 4 12.543 0.022 0.004 0.029 0.114 0.921 0.002
## 5 16.121 0.040 0.976 0.029 0.004 0.065 0.068
## 6 37.128 0.935 0.014 0.938 0.079 0.005 0.021
## Diagnósticos Multicolinealidad - Intercepto incluído
## índices de Condición y Proporciones de Varianza
## Val.propio cond.index Pi.intercept Pi.X1 Pi.X2 Pi.X3
## 1 5.40182563 1.000000 0.0002386136 0.0008820943 0.0002496554 0.006424605
## 2 0.30259372 4.225132 0.0001855077 0.0001147921 0.0001862061 0.155728657
## 3 0.23654019 4.778789 0.0023903752 0.0049986896 0.0038354112 0.640772446
## 4 0.03433520 12.542973 0.0223457381 0.0037191274 0.0285460562 0.114363084
## 5 0.02078651 16.120536 0.0399258551 0.9761466034 0.0293340090 0.004189488
## 6 0.00391875 37.127569 0.9349139102 0.0141386933 0.9378486621 0.078521720
## Pi.X4 Pi.X5
## 1 0.001403204 0.007901015
## 2 0.003353482 0.776605732
## 3 0.004296292 0.124324670
## 4 0.920850823 0.002073082
## 5 0.065410293 0.067694494
## 6 0.004685906 0.021401005
*2 de los 4 métodos, nos muestran que en el modelo existe Multicolinealida