La base de datos proporciona datos recolectados en un estudio a gran escala realizado en EE.UU sobre la eficacia en el control de infecciones hospitalarias donde se recogió información en 113 hospitales. Para darnos una idea de la base de datos que tenemos haremos un análisis descriptivo de esta. Consideramos como variable respuesta Y(Riesgo de infección) y como predictoras todas las demás variables dadas. El resultado del análisis descriptivo es el siguiente.
GRÁFICA DE CORRELACIÓN
Del gráfico se observa que algunas de las covariables aparentemente tienen indicios de explicar el modelo de regresión ya sea con tendencia positiva o tendencia negativa, además unas de las covariables que tiene más relación con la variable respuesta Y (riesgo de infección) son X1 con un 49 %, x3 con 49 % y x4 con un 42 %. Se sospecha igualmente con los gráficos de dispersión la presencia de algunas observaciones ya sean atípicas, influenciables y/o de balanceo lo cual también se diagnosticara más adelante. También se puede observar que entre las covariables existe una correlación moderada por ejemplo X1 Y X4 con una correlación de 0.37, así mismo x3 y x4 con una correlación de 0.36, ese resultado nos indica que existe una baja probabilidad de multicolinealidad entre las variables, dado que esta correlación es inferior al 50%.
1. Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en términos de todas las variables predictoras. Analice la significancia de la regresión y de los parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el coeficiente de determinación múltiple R2. Comente los resultados.
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.03944 -0.80043 -0.00266 0.60450 2.23292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.5986009 1.5159559 -0.395 0.694365
## X1 0.2106683 0.0785765 2.681 0.009501 **
## X2 0.0197512 0.0277108 0.713 0.478803
## X3 0.0470925 0.0132888 3.544 0.000779 ***
## X4 0.0105604 0.0073166 1.443 0.154213
## X5 0.0008996 0.0007379 1.219 0.227679
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared: 0.4468, Adjusted R-squared: 0.3999
## F-statistic: 9.53 on 5 and 59 DF, p-value: 1.058e-06
PARAMETROS DEL MODELO
La ecuación ajustada de la regresión es:
\(\hat{Y_i}\) =-0.5986009+ 0.2106683\(x_{i1}\)+0.0197512\(x_{i2}\)+ 0.0470925\(x_{i3}\)+0.0105604\(x_{i4}\)+0.0008996 \(x_{i5}\)+\(E_i\)\ Con Con \(E_i\sim N(0,\sigma^2)\) iid.
Calculamos la Anova del modelo para responder a las preguntas planteadas.
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## FO(X1, X2, X3, X4, X5) 5 51.045 10.2091 9.5301 1.058e-06 ***
## Residuals 59 63.203 1.0712
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANOVA MODELO COMPLETO
## [1] 2.760767
PRUEBA \(F_0 \sim f_{3,59}\)
¿Es significativo el modelo? Realizando el test de significancia:
HIPÓTESIS
\(H_0 : \beta_1 = \beta_2 = ... = \beta_5 =0 { VS } H_A : { algun } \beta_j \neq 0 { j= 1 , ... , 5}\)\
ESTADÍSTICO DE PRUEBA
\(F_0 =\frac{MSR}{MSE} \sim f_{k,n-k-1}\) bajo \(H_0\)\
\(F_0 \sim f_{3,59}\)
DECISIÓN
Con una significancia del 0.05, se rechaza la hipótesis si:
\(P(f_{k,n-k-1} > F_0)\) es pequeño.
\(P(f_{3,59} > F_0)\)
\(P\)-value = \(1.058e-06e^{-10}\)
En consecuencia, tenemos suficiente evidencia muestral para rechazar H0 lo que significa que al menos una de las covariables es distinto de 0, por lo tanto el modelo es globalmente significativo y alguna de estos parámetros ayuda a explicar el Riesgo de infección, para así poder determinar la eficiencia del control de infecciones en algunos hospitales de EE.UU ¿Qué proporción de la variabilidad total es explicada por la variable respuesta?, El modelo RLM propuesto permite una explicación real del 44,68 % de la variabilidad Total de la Probabilidad promedio estimada de adquirir infección en el hospital.
SINGNIFICANCIA INDIVIDUAL
HIPÓTESIS
Probamos la significancia individual de cada uno de los par´ametros del modelo usando la prueba t con el siguiente test de prueba de hipótesis:
\(H_0 : \beta_j =0 { VS } H_A : { algun } \beta_j \neq 0 { j= 1 , ... , 5}\)\
ESTADÍSTICO DE PRUEBA\(\hat{Y_i}\)
\(T_0 =\frac{\hat{\beta_j}}{Se({\hat{\beta_j}})} \sim t_{n-k-1}\) bajo \(H_0\)\ \(T_0 \sim t_{59}\)
DECISIÓN
se rechaza la hipotesis si con un nivel α = 0.05 si si \(| T_0 |> t_α/2,n−k−1\) \(| T_0 |> t0,025,59\) \(| T_0 |> 2.0\)
INTERPRETACIÓN DE LOS PARAMETROS.
Se tiene suficiente evidencia muestral para rechazar \(H_0\) para los parámetros significativos por tanto:
parámetros significativos los cuales son β1,β3 y su respectiva interpretación es: β1( Duración de la estadía): La Duración de la estadía promedio de los pacientes ayuda a explicar el riesgo de infección dado que las demás variables están en el modelo.
Β3(numero de camas): El número promedio de camas ayuda a explicar la Probabilidad promedio estimada de adquirir infección en el hospital dado que las demás variables están en el modelo.
Las demás variables dado que no son significativas en el modelo, no tiene sentido interpretarlas.
2.Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior. Según el resultado de la prueba es Posible descartar del modelo las variables del subconjunto?.
Según el summary, las variables cuyo valor-p es menor son X2,X4,X5.
HIPÓTESIS
\(H_0 : \beta_2 = \beta_4 = \beta_5 =0 { VS } H_A : { algun } \beta_j \neq 0 con { j= 2,4,5}\)
PLANTEAMIENTO MODELOS
MODELO COMPLETO(MC):
\({Y_i} = \beta_0 + \beta_1 Xi1 + \beta_2 Xi2 + \beta_3 Xi3 +\beta_4 Xi4+ \beta_5 Xi5 + E_i\). con \(E_i\sim\)N(0,\(\sigma^2\)) e iid
MODELO REDUCIDO (MR):
Se eliminan del modelo completo las variables predictoras sobre las cuales se está realizando esta prueba.
\({Y_i} = \beta_0 + \beta_1 Xi1 + \beta_3 Xi3 + E_i\).\ con \(E_i\sim\)N(0,\(\sigma^2\)) e iid
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## FO(X1, X3) 2 46.992 23.4958 21.659 7.354e-08 ***
## Residuals 62 67.257 1.0848
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANOVA MODELO REDUCIDO
ESTADISTICO DE PRUEBA
\({F_0}= \frac{SSE(MR)-SSE(MC)} {r *MSE(MC)} \sim f_{3,59}\), bajo \(H_o\) y supuestos sobre los \(E_i\).
DECISIÓN
Con una confianza del 0.05, se rechaza la hipótesis \(H_0\) si:
\(f_{r,n-P}>F_0\)
\(f_{3,59}=2.7607>F_0=1.447548\)
Finalmente, no tengo suficiente evidencia para rechazar \(H_o\), es decir el subconjunto de predictoras no son significativas en presencia de las demás variables y nos lleva a pensar que las podemos eliminar del modelo.
3. Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión para el estadístico de prueba.
El jefe de un hospital asegura que el número de camas y el número de enfermeras tienen el mismo efecto sobre el riesgo de infección, de igual manera menciona que la duración de la estadía y el censo diario, es decir el número promedio de pacientes en el hospital durante el día también tienen el mismo efecto, y que la rutina de cultivos no influye. se planteara un test lineal general con sus respectivas hipótesis y estadístico de prueba.
\(H_0 : \beta_1 = \beta_4 ,\beta_3 =\beta_5,\beta_2 =0 { VS } H_A : { algun } \beta_1 \neq \beta_4 ,\beta_3 \neq \beta_5 ,\beta_2 \neq 0\)
Equivalente a:
\(H_0 : \beta_1 - \beta_4 =0 ,\beta_3 -\beta_5=0,\beta_2 =0 { VS } H_A : { algun } \beta_1 - \beta_4 \neq0 ,\beta_3 - \beta_5 \neq 0 ,\beta_2 \neq 0\)
\[ \begin{bmatrix} beta_0 & beta_1 &beta_2 &beta_3 &beta_4 &beta_5 \\ 0 & 1 & 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & 1 & 0 & -1 \\ 0 & 0 & 1 & 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} beta_0 \\ beta_1 \\ beta_2 \\ beta_3 \\ beta_4 \\ beta_5 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix} \]
\(H_0 : L\beta = 0 { VS } H_A : L\beta \neq 0\)
PLANTEAMIENTO MODELOS
MODELO COMPLETO(MC)
\({Y_i} = \beta_0 + \beta_1 Xi1 + \beta_2 Xi2 + \beta_3 Xi3 +\beta_4 Xi4+ \beta_5 Xi5 + E_i\). con \(E_i\sim\)N(0,\(\sigma^2\)) e iid
MODELO REDUCIDO(MR)
nacen 2 nueva variables Z14 y Z35 resultado de la suma de Xi1+Xi4 y Xi3+Xi5 y se elimina Xi2
\({Y_i} = \beta_0 + \beta_1 Zi1,4 + \beta_3 Zi3,5 + E_i\). con \(E_i\sim\)N(0,\(\sigma^2\)) e iid
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## FO(Z14, Z35) 2 29.956 14.9780 11.017 8.056e-05 ***
## Residuals 62 84.293 1.3596
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANOVA MODELO REDUCIDO
ESTADÍSTICO DE PRUEBA
\({F_0}= \frac{SSE(MR)-SSE(MC)} {r *MSE(MC)} \sim f_{3,59}\), bajo \(H_o\) y supuestos sobre los \(E_i\).
DECISIÓN
Con una confianza del 0.05, se rechaza la hipótesis \(H_0\) si:
\(f_{r,n-P}>F_0\)
\(f_{3,59}=2.7607>F_0=7.530536\)
Como \(F_0\) cae en la región de rechazo, tengo suficiente evidencia para rechazar H0 y se concluye que el número de camas y el número de enfermeras tienen un efecto diferente sobre el riesgo de infección o que la duración de la estadía y el número de pacientes tienen un efecto diferente sobre el riesgo de infección y así mismo que la variable rutina de cultivos puede influir.
4. Realice una validación de los supuestos en los errores y examine si hay valores atípicos, de balanceo e influénciales. Qué puede decir acerca de la validez de éste modelo?. Argumente.
GRÁFICA DE RESIDUALES ESTUDENTIZADOS VS. VALORES AJUSTADOS Y CONTRA LAS VARIABLES DE REGRESIONES UTILIZADAS
Podemos concluir gráficamente que no se observa un patrón claro para decir que no se cumple el supuesto de varianza constante. Adicionalmente Presentamos la gráfica construida de probabilidad normal para los residuales estudentizados.
GRÁFICA DE PROBABILIDAD NORMAL PARA LOS RESIDUALES ESTUDENTIZADOS.
Se observa que gráficamente todos los puntos están muy cercanos a la línea de regresión, sin embargo no es suficiente para concluir sobre la normalidad. Por lo anterior se corrobora este resultado con la prueba analítica de normalidad de shappiro wilk, donde aceptamos \(H_0\) y decimos que los errores se distribuyen de manera normal.
##
## Shapiro-Wilk normality test
##
## data: rstudent(modelo)
## W = 0.98663, p-value = 0.7094
PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK
HIPÓTESIS
\(H_O\):\(e_i \sim\) normal vs \(H_1\):\(e_i \nsim\) no normal
DECISIÓN
se rechaza la hipótesis \(H_0\) si el P-value$ <$ 0.05
P-value=0.7094 > 0.05 aceptamos \(H_0\)
OBSERVACIONES INFLUENCIABLES
TABLA DE MEDIDAS DE DIAGNOSTICO
En la tabla de medidas de diagnóstico generada se recogen las observaciones que son Significativamente influenciables estas son: 22,23,27,42,44. Esto puede conllevar a que la presencia de estas cause cambios significativos en el modelo de regresión y no permitir que el modelo se ajuste bien. La visualización grafica de las observaciones influenciables es:
## StudRes Hat CookD
## 27 -0.6349722 0.44714871 0.05490568
## 42 2.2534943 0.02012077 0.01625572
## 45 1.4167248 0.23485738 0.10095571
## 52 -1.9396883 0.34320435 0.31301352
## 60 2.1290703 0.04345069 0.03237883
GRÁFICA Y TABLA DE OBSERVACIONES INFLUENCIABLES
OBSERVACIONES ATÍPICAS -OUTLIERS
GRÁFICA DE RESIDUALES ESTUDENTIZADOS
Como se puede aprecia en la gráfica de residuales estudentizados se logra observar que no hay presencia de observaciones atípicas.
GRÁFICA DE DIAGNOSTICO GENERAL
Gráficamente no se observa ningún valor atípico superior a más o menos 3. Observación de balanceo Se consideran observaciones de balanceo aquellas cuyos valores hat superen hat> 2(k+1)/n. (2*(5+1)/65)=0.1846 Observamos que las observaciones de balanceo son 22,23,27,30,45,52 A pesar de que hay algunas observaciones tanto de balanceo como influenciables, situación que influye claramente en la inflación de la varianza, sin embargo no son mas que parte de la aleatoriedad de la muestra, dado que presentamos un valido ajuste de los supuestos.
## Y X1 X2 X3 X4 X5
## Y 1.0000000 0.4939233 0.03723050 0.4988930 0.42648615 0.26029349
## X1 0.4939233 1.0000000 0.20636081 0.1982719 0.37908182 0.29406162
## X2 0.0372305 0.2063608 1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997 1.0000000 0.35967155 0.10258439
## X4 0.4264861 0.3790818 0.03743146 0.3596716 1.00000000 0.07684465
## X5 0.2602935 0.2940616 -0.08511824 0.1025844 0.07684465 1.00000000
MATRIZ DE CORRELACIONES
Se puede observar que entre las covariables existe una correlación moderada por ejemplo X1 Y X4 con una correlación de 0.37, así mismo X3 y X4 con una correlación de 0.36. Ese resultado nos indica que existe una baja probabilidad de multicolinealidad entre las variables. Dado que esta correlación es inferior al 50%.
FACTORES DE INFLACIÓN DE VARIANZA VIF’S
VALORES VIF’S
Con este diagnóstico Si VIF > 10 se detectan problemas de multicolinealidad grave en este caso vemos que no hay problemas de multicolinealidad. Utilizaremos los datos centrados para hallar las proporciones de varianza a dado que \(B_0\) no tiene interpretación en el modelo.
## Val.propio cond.index Pi.X1 Pi.X2 Pi.X3 Pi.X4
## 1 1.7323654 1.000000 0.132673811 0.0001653996 0.10741655 0.142120663
## 2 1.2396841 1.182127 0.084395758 0.4433688520 0.13165390 0.001072787
## 3 0.9874882 1.324506 0.009577422 0.0282670390 0.05662206 0.136118366
## 4 0.5461281 1.781035 0.013604334 0.2065052224 0.64568619 0.572581500
## 5 0.4943342 1.872015 0.759748675 0.3216934870 0.05862130 0.148106685
## Pi.X5
## 1 6.484536e-02
## 2 2.244896e-06
## 3 6.375120e-01
## 4 2.662746e-03
## 5 2.949776e-01
TABLA PROPORCIONES DE VARIANZA
Observando el índice de condición hay una observación 10 ≤ √Kj ≤ 31 vemos que no hay problemas de multicolinealidad, por otro lado vemos que solo hay una fila i=4 en el cual el valor propio aporta significativamente a los coeficientes de regresión estimados en las variables predictoras X3 y X4 pues π4,3 = 0.64 y π4,4 = 0.57 son > 0.5 las cuales presentan problemas de una relación multicolinealidad conjunta.