taller 2 Estadística 2

La base de datos proporciona datos recolectados en un estudio a gran escala realizado en EE.UU sobre la eficacia en el control de infecciones hospitalarias donde se recogió información en 113 hospitales. Para darnos una idea de la base de datos que tenemos haremos un análisis descriptivo de esta. Consideramos como variable respuesta Y(Riesgo de infección) y como predictoras todas las demás variables dadas. El resultado del análisis descriptivo es el siguiente.

GRÁFICA DE CORRELACIÓN

Del gráfico se observa que algunas de las covariables aparentemente tienen indicios de explicar el modelo de regresión ya sea con tendencia positiva o tendencia negativa, además unas de las covariables que tiene más relación con la variable respuesta Y (riesgo de infección) son X1 con un 49 %, x3 con 49 % y x4 con un 42 %. Se sospecha igualmente con los gráficos de dispersión la presencia de algunas observaciones ya sean atípicas, influenciables y/o de balanceo lo cual también se diagnosticara más adelante. También se puede observar que entre las covariables existe una correlación moderada por ejemplo X1 Y X4 con una correlación de 0.37, así mismo x3 y x4 con una correlación de 0.36, ese resultado nos indica que existe una baja probabilidad de multicolinealidad entre las variables, dado que esta correlación es inferior al 50%.

1. Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en términos de todas las variables predictoras. Analice la significancia de la regresión y de los parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el coeficiente de determinación múltiple R2. Comente los resultados.

## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = base)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.03944 -0.80043 -0.00266  0.60450  2.23292 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.5986009  1.5159559  -0.395 0.694365    
## X1           0.2106683  0.0785765   2.681 0.009501 ** 
## X2           0.0197512  0.0277108   0.713 0.478803    
## X3           0.0470925  0.0132888   3.544 0.000779 ***
## X4           0.0105604  0.0073166   1.443 0.154213    
## X5           0.0008996  0.0007379   1.219 0.227679    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared:  0.4468, Adjusted R-squared:  0.3999 
## F-statistic:  9.53 on 5 and 59 DF,  p-value: 1.058e-06

PARAMETROS DEL MODELO

La ecuación ajustada de la regresión es:

$\hat{Y_i}$ =-0.5986009+ 0.2106683$x_{i1}$+0.0197512$x_{i2}$+ 0.0470925$x_{i3}$+0.0105604$x_{i4}$+0.0008996 $x_{i5}$+$E_i$\ Con Con $E_i\sim N(0,\sigma^2)$ iid.

Calculamos la Anova del modelo para responder a las preguntas planteadas.

## Analysis of Variance Table
## 
## Response: Y
##                        Df Sum Sq Mean Sq F value    Pr(>F)    
## FO(X1, X2, X3, X4, X5)  5 51.045 10.2091  9.5301 1.058e-06 ***
## Residuals              59 63.203  1.0712                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANOVA MODELO COMPLETO

## [1] 2.760767

PRUEBA $F_0 \sim f_{3,59}$

¿Es significativo el modelo? Realizando el test de significancia:

HIPÓTESIS

$H_0 : \beta_1 = \beta_2 = ... = \beta_5 =0 { VS } H_A : { algun } \beta_j \neq 0 { j= 1 , ... , 5}$\

ESTADÍSTICO DE PRUEBA

$F_0 =\frac{MSR}{MSE} \sim f_{k,n-k-1}$ bajo $H_0$\

$F_0 \sim f_{3,59}$

DECISIÓN

Con una significancia del 0.05, se rechaza la hipótesis si:

$P(f_{k,n-k-1} > F_0)$ es pequeño.

$P(f_{3,59} > F_0)$

$P$-value = $1.058e-06e^{-10}$

En consecuencia, tenemos suficiente evidencia muestral para rechazar H0 lo que significa que al menos una de las covariables es distinto de 0, por lo tanto el modelo es globalmente significativo y alguna de estos parámetros ayuda a explicar el Riesgo de infección, para así poder determinar la eficiencia del control de infecciones en algunos hospitales de EE.UU ¿Qué proporción de la variabilidad total es explicada por la variable respuesta?, El modelo RLM propuesto permite una explicación real del 44,68 % de la variabilidad Total de la Probabilidad promedio estimada de adquirir infección en el hospital.

SINGNIFICANCIA INDIVIDUAL

HIPÓTESIS

Probamos la significancia individual de cada uno de los par´ametros del modelo usando la prueba t con el siguiente test de prueba de hipótesis:

$H_0 : \beta_j =0 { VS } H_A : { algun } \beta_j \neq 0 { j= 1 , ... , 5}$\

ESTADÍSTICO DE PRUEBA$\hat{Y_i}$

$T_0 =\frac{\hat{\beta_j}}{Se({\hat{\beta_j}})} \sim t_{n-k-1}$ bajo $H_0$\ $T_0 \sim t_{59}$

DECISIÓN

se rechaza la hipotesis si con un nivel α = 0.05 si si $| T_0 |> t_α/2,n−k−1$ $| T_0 |> t0,025,59$ $| T_0 |> 2.0$

INTERPRETACIÓN DE LOS PARAMETROS.

Se tiene suficiente evidencia muestral para rechazar $H_0$ para los parámetros significativos por tanto:

parámetros significativos los cuales son β1,β3 y su respectiva interpretación es: β1( Duración de la estadía): La Duración de la estadía promedio de los pacientes ayuda a explicar el riesgo de infección dado que las demás variables están en el modelo.

Β3(numero de camas): El número promedio de camas ayuda a explicar la Probabilidad promedio estimada de adquirir infección en el hospital dado que las demás variables están en el modelo.

Las demás variables dado que no son significativas en el modelo, no tiene sentido interpretarlas.

2.Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior. Según el resultado de la prueba es Posible descartar del modelo las variables del subconjunto?.

Según el summary, las variables cuyo valor-p es menor son X2,X4,X5.

HIPÓTESIS

$H_0 : \beta_2 = \beta_4 = \beta_5 =0 { VS } H_A : { algun } \beta_j \neq 0 con { j= 2,4,5}$

PLANTEAMIENTO MODELOS

MODELO COMPLETO(MC):

${Y_i} = \beta_0 + \beta_1 Xi1 + \beta_2 Xi2 + \beta_3 Xi3 +\beta_4 Xi4+ \beta_5 Xi5 + E_i$. con $E_i\sim$N(0,$\sigma^2$) e iid

MODELO REDUCIDO (MR):

Se eliminan del modelo completo las variables predictoras sobre las cuales se está realizando esta prueba.

${Y_i} = \beta_0 + \beta_1 Xi1 + \beta_3 Xi3 + E_i$.\ con $E_i\sim$N(0,$\sigma^2$) e iid

## Analysis of Variance Table
## 
## Response: Y
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## FO(X1, X3)  2 46.992 23.4958  21.659 7.354e-08 ***
## Residuals  62 67.257  1.0848                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANOVA MODELO REDUCIDO

ESTADISTICO DE PRUEBA

${F_0}= \frac{SSE(MR)-SSE(MC)} {r *MSE(MC)} \sim f_{3,59}$, bajo $H_o$ y supuestos sobre los $E_i$.

DECISIÓN

Con una confianza del 0.05, se rechaza la hipótesis $H_0$ si:

$f_{r,n-P}>F_0$

$f_{3,59}=2.7607>F_0=1.447548$

Finalmente, no tengo suficiente evidencia para rechazar $H_o$, es decir el subconjunto de predictoras no son significativas en presencia de las demás variables y nos lleva a pensar que las podemos eliminar del modelo.

3. Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión para el estadístico de prueba.

El jefe de un hospital asegura que el número de camas y el número de enfermeras tienen el mismo efecto sobre el riesgo de infección, de igual manera menciona que la duración de la estadía y el censo diario, es decir el número promedio de pacientes en el hospital durante el día también tienen el mismo efecto, y que la rutina de cultivos no influye. se planteara un test lineal general con sus respectivas hipótesis y estadístico de prueba.

$H_0 : \beta_1 = \beta_4 ,\beta_3 =\beta_5,\beta_2 =0 { VS } H_A : { algun } \beta_1 \neq \beta_4 ,\beta_3 \neq \beta_5 ,\beta_2 \neq 0$

Equivalente a:

$H_0 : \beta_1 - \beta_4 =0 ,\beta_3 -\beta_5=0,\beta_2 =0 { VS } H_A : { algun } \beta_1 - \beta_4 \neq0 ,\beta_3 - \beta_5 \neq 0 ,\beta_2 \neq 0$

\[ \begin{bmatrix} beta_0 & beta_1 &beta_2 &beta_3 &beta_4 &beta_5 \\ 0 & 1 & 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & 1 & 0 & -1 \\ 0 & 0 & 1 & 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} beta_0 \\ beta_1 \\ beta_2 \\ beta_3 \\ beta_4 \\ beta_5 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix} \]

$H_0 : L\beta = 0 { VS } H_A : L\beta \neq 0$

PLANTEAMIENTO MODELOS

MODELO COMPLETO(MC)

${Y_i} = \beta_0 + \beta_1 Xi1 + \beta_2 Xi2 + \beta_3 Xi3 +\beta_4 Xi4+ \beta_5 Xi5 + E_i$. con $E_i\sim$N(0,$\sigma^2$) e iid

MODELO REDUCIDO(MR)

nacen 2 nueva variables Z14 y Z35 resultado de la suma de Xi1+Xi4 y Xi3+Xi5 y se elimina Xi2

${Y_i} = \beta_0 + \beta_1 Zi1,4 + \beta_3 Zi3,5 + E_i$. con $E_i\sim$N(0,$\sigma^2$) e iid

## Analysis of Variance Table
## 
## Response: Y
##              Df Sum Sq Mean Sq F value    Pr(>F)    
## FO(Z14, Z35)  2 29.956 14.9780  11.017 8.056e-05 ***
## Residuals    62 84.293  1.3596                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANOVA MODELO REDUCIDO

ESTADÍSTICO DE PRUEBA

${F_0}= \frac{SSE(MR)-SSE(MC)} {r *MSE(MC)} \sim f_{3,59}$, bajo $H_o$ y supuestos sobre los $E_i$.

DECISIÓN

Con una confianza del 0.05, se rechaza la hipótesis $H_0$ si:

$f_{r,n-P}>F_0$

$f_{3,59}=2.7607>F_0=7.530536$

Como $F_0$ cae en la región de rechazo, tengo suficiente evidencia para rechazar H0 y se concluye que el número de camas y el número de enfermeras tienen un efecto diferente sobre el riesgo de infección o que la duración de la estadía y el número de pacientes tienen un efecto diferente sobre el riesgo de infección y así mismo que la variable rutina de cultivos puede influir.

4. Realice una validación de los supuestos en los errores y examine si hay valores atípicos, de balanceo e influénciales. Qué puede decir acerca de la validez de éste modelo?. Argumente.

GRÁFICA DE RESIDUALES ESTUDENTIZADOS VS. VALORES AJUSTADOS Y CONTRA LAS VARIABLES DE REGRESIONES UTILIZADAS

Podemos concluir gráficamente que no se observa un patrón claro para decir que no se cumple el supuesto de varianza constante. Adicionalmente Presentamos la gráfica construida de probabilidad normal para los residuales estudentizados.

GRÁFICA DE PROBABILIDAD NORMAL PARA LOS RESIDUALES ESTUDENTIZADOS.

Se observa que gráficamente todos los puntos están muy cercanos a la línea de regresión, sin embargo no es suficiente para concluir sobre la normalidad. Por lo anterior se corrobora este resultado con la prueba analítica de normalidad de shappiro wilk, donde aceptamos $H_0$ y decimos que los errores se distribuyen de manera normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  rstudent(modelo)
## W = 0.98663, p-value = 0.7094

PRUEBA ANALITICA DE NORMALIDAD SHAPIRO WILK

HIPÓTESIS

$H_O$:$e_i \sim$ normal vs $H_1$:$e_i \nsim$ no normal

DECISIÓN

se rechaza la hipótesis $H_0$ si el P-value$ <$ 0.05

P-value=0.7094 > 0.05 aceptamos $H_0$

OBSERVACIONES INFLUENCIABLES

TABLA DE MEDIDAS DE DIAGNOSTICO

En la tabla de medidas de diagnóstico generada se recogen las observaciones que son Significativamente influenciables estas son: 22,23,27,42,44. Esto puede conllevar a que la presencia de estas cause cambios significativos en el modelo de regresión y no permitir que el modelo se ajuste bien. La visualización grafica de las observaciones influenciables es:

##       StudRes        Hat      CookD
## 27 -0.6349722 0.44714871 0.05490568
## 42  2.2534943 0.02012077 0.01625572
## 45  1.4167248 0.23485738 0.10095571
## 52 -1.9396883 0.34320435 0.31301352
## 60  2.1290703 0.04345069 0.03237883

GRÁFICA Y TABLA DE OBSERVACIONES INFLUENCIABLES

OBSERVACIONES ATÍPICAS -OUTLIERS

GRÁFICA DE RESIDUALES ESTUDENTIZADOS

Como se puede aprecia en la gráfica de residuales estudentizados se logra observar que no hay presencia de observaciones atípicas.

GRÁFICA DE DIAGNOSTICO GENERAL

Gráficamente no se observa ningún valor atípico superior a más o menos 3. Observación de balanceo Se consideran observaciones de balanceo aquellas cuyos valores hat superen hat> 2(k+1)/n. (2*(5+1)/65)=0.1846 Observamos que las observaciones de balanceo son 22,23,27,30,45,52 A pesar de que hay algunas observaciones tanto de balanceo como influenciables, situación que influye claramente en la inflación de la varianza, sin embargo no son mas que parte de la aleatoriedad de la muestra, dado que presentamos un valido ajuste de los supuestos.

##            Y        X1          X2         X3         X4          X5
## Y  1.0000000 0.4939233  0.03723050  0.4988930 0.42648615  0.26029349
## X1 0.4939233 1.0000000  0.20636081  0.1982719 0.37908182  0.29406162
## X2 0.0372305 0.2063608  1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997  1.0000000 0.35967155  0.10258439
## X4 0.4264861 0.3790818  0.03743146  0.3596716 1.00000000  0.07684465
## X5 0.2602935 0.2940616 -0.08511824  0.1025844 0.07684465  1.00000000

MATRIZ DE CORRELACIONES

Se puede observar que entre las covariables existe una correlación moderada por ejemplo X1 Y X4 con una correlación de 0.37, así mismo X3 y X4 con una correlación de 0.36. Ese resultado nos indica que existe una baja probabilidad de multicolinealidad entre las variables. Dado que esta correlación es inferior al 50%.

FACTORES DE INFLACIÓN DE VARIANZA VIF’S

VALORES VIF’S

Con este diagnóstico Si VIF > 10 se detectan problemas de multicolinealidad grave en este caso vemos que no hay problemas de multicolinealidad. Utilizaremos los datos centrados para hallar las proporciones de varianza a dado que $B_0$ no tiene interpretación en el modelo.

##   Val.propio cond.index       Pi.X1        Pi.X2      Pi.X3       Pi.X4
## 1  1.7323654   1.000000 0.132673811 0.0001653996 0.10741655 0.142120663
## 2  1.2396841   1.182127 0.084395758 0.4433688520 0.13165390 0.001072787
## 3  0.9874882   1.324506 0.009577422 0.0282670390 0.05662206 0.136118366
## 4  0.5461281   1.781035 0.013604334 0.2065052224 0.64568619 0.572581500
## 5  0.4943342   1.872015 0.759748675 0.3216934870 0.05862130 0.148106685
##          Pi.X5
## 1 6.484536e-02
## 2 2.244896e-06
## 3 6.375120e-01
## 4 2.662746e-03
## 5 2.949776e-01

TABLA PROPORCIONES DE VARIANZA

Observando el índice de condición hay una observación 10 ≤ √Kj ≤ 31 vemos que no hay problemas de multicolinealidad, por otro lado vemos que solo hay una fila i=4 en el cual el valor propio aporta significativamente a los coeficientes de regresión estimados en las variables predictoras X3 y X4 pues π4,3 = 0.64 y π4,4 = 0.57 son > 0.5 las cuales presentan problemas de una relación multicolinealidad conjunta.

taller 2 Estadística 2

John Daniel hoyos cc: 1017221659:grupo1 ,Jose david ruiz romero cc: 1066188274:Grupo 1, Leivys David Campo Peñate cc:1063284720: Grupo 2

18/8/2021