Informe 2 - Estadística II

1) Estime un modelo de regresión lineal múltiple que explique el Riesgo de Infección en términos de todas las variables predictoras. Analice la significancia de la regresión y de los parámetros individuales. Interprete los parámetros estimados. Calcule e interprete el coeficiente de determinación múltiple R2. Comente los resultados.

Consideramos las siguientes variables: X1 como la Duración promedio de la estadía de todos los pacientes en el hospital (días), X2 como la Razón del número de cultivos realizados en pacientes sin síntomas de infección hospitalaria, X3 como el Número promedio de camas en el hospital durante el periodo del estudio, X4 como el Número promedio de pacientes en el hospital por día durante el periodo del estudio y X5 como el Número promedio de enfermeras, equivalentes a tiempo completo, durante el periodo del estudio. X1, X2, X3, X4 y X5 son las variables explicativas del modelo y la variable Y como variable respuesta que representa la Probabilidad promedio estimada de adquirir infección en el hospital (%).

Datos Tabulados

##      Y    X1   X2   X3    X4  X5
## 1  3.7  7.58 56.7 20.8  88.0  97
## 2  2.8  9.97 58.2 16.5  76.5  90
## 3  4.2  8.88 51.5 10.1  86.9 305
## 4  6.2 10.15 51.9 16.4  59.2 568
## 5  5.7 11.18 51.0 18.8  55.9 595
## 6  4.5  9.61 52.4  6.9  87.2 487
## 7  1.6  8.82 58.2  3.8  51.7  80
## 8  5.1 10.30 59.6 27.8  88.9 175
## 9  4.1 10.47 53.2  5.7  69.1 196
## 10 4.4 10.02 49.5  8.3  93.0 265
## 11 5.0  9.78 52.3 17.6  95.9 270
## 12 4.3  7.65 47.1 16.4  65.7 318
## 13 5.3  8.15 54.9 12.3  79.8  99
## 14 4.8  9.84 62.2 12.0  82.3 600
## 15 4.4 11.65 54.5 18.6  96.1 248
## 16 5.3 11.77 54.1 17.3  56.0 196
## 17 2.9  8.86 51.3  9.5  87.5 100
## 18 4.3  9.89 45.2 11.8 108.7 190
## 19 2.0  7.08 52.0 12.3  56.4  87
## 20 2.7  7.14 57.6 13.1  92.6  92
## 21 5.6  8.95 53.7 18.9 122.8 147
## 22 4.1  9.35 53.8 15.9  80.9 833
## 23 6.6 13.95 65.9 15.6 133.5 356
## 24 5.1  9.76 50.9 21.9  97.0 150
## 25 4.5 10.05 52.0 36.7  87.5 184
## 26 4.3  9.23 51.6 11.6  42.6 620
## 27 6.5 19.56 59.9 17.2 113.7 306
## 28 2.9 10.79 44.2  2.6  56.6 461
## 29 4.5  6.70 48.6 13.0  80.8  76
## 30 4.9 11.07 53.2 28.5 122.0 768
## 31 5.6 11.48 57.6 20.3  82.0 252
## 32 3.0 11.20 45.0  7.0  78.9 130
## 33 5.7 11.80 53.8  9.1 116.9 571
## 34 5.0 11.03 49.9 19.7 102.1 318
## 35 2.9  8.90 49.7 12.7  86.9  52
## 36 4.5 11.46 56.9 15.6  97.7 191
## 37 2.5  8.54 56.1 27.0  82.5  98
## 38 3.4 10.42 58.0  8.0  59.0 119
## 39 5.8  9.50 49.3 42.0  70.9  98
## 40 4.8 10.24 49.0 36.3 112.6 195
## 41 5.4  7.93 64.1  7.5  98.1  68
## 42 6.3  9.74 54.4 11.4  76.1 221
## 43 6.3  8.84 56.3 29.6  82.6  85
## 44 3.4  8.45 38.8 12.9  85.0 235
## 45 7.8 12.07 43.7 52.4 105.3 157
## 46 6.4 11.62 53.9 25.5  99.2 133
## 47 4.6  9.68 57.8 16.7  79.0 186
## 48 3.1  8.63 54.0  8.4  56.2  76
## 49 4.1  9.05 51.2 20.5  79.8 195
## 50 2.9  7.91 52.8 11.9  79.5 477
## 51 4.7  8.77 54.5  5.2  47.0 143
## 52 5.4 11.18 45.7 60.5  85.8 640
## 53 4.8 12.01 52.8 10.8  96.9 298
## 54 2.3  7.95 51.8  4.6  54.9 163
## 55 2.0  8.93 56.0  6.2  72.5  95
## 56 5.5 11.08 50.2 18.6  63.6 387
## 57 1.4  7.14 51.7  4.1  45.7 115
## 58 4.7 10.72 53.8 23.2  94.1 113
## 59 3.9 11.15 56.5  7.7  73.9 281
## 60 5.5  7.63 52.1 11.6  61.1 197
## 61 3.7  8.48 51.1 12.1  92.8 166
## 62 3.9 10.73 50.6 19.3 101.0 445
## 63 4.2  7.53 42.0 23.1  98.9  95
## 64 2.9 10.80 63.9  1.6  57.4 130
## 65 5.6 10.12 51.7 14.9  79.1 362

Modelo de regresión Líneal Múltiple y sumario del modelo

modelo = lm(Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones)
summary(modelo)

## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.03944 -0.80043 -0.00266  0.60450  2.23292 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.5986009  1.5159559  -0.395 0.694365    
## X1           0.2106683  0.0785765   2.681 0.009501 ** 
## X2           0.0197512  0.0277108   0.713 0.478803    
## X3           0.0470925  0.0132888   3.544 0.000779 ***
## X4           0.0105604  0.0073166   1.443 0.154213    
## X5           0.0008996  0.0007379   1.219 0.227679    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared:  0.4468, Adjusted R-squared:  0.3999 
## F-statistic:  9.53 on 5 and 59 DF,  p-value: 1.058e-06

Significancia de la regresión y sus parámentros

Bajo la hipótesis de que las variables explican bien el modelo y basado en los datos arrojados por el resumen del modelo, se encontró que : - Para X1 con una significancia del 0.001 puede afirmarse que dicha variable explica bien el modelo, para esta variable se encontró un valor p de 0.009501, dado que este valor es menor que 0.001, se rechaza la hipótesis alternativa lo que implica que esta variable explica bien el modelo. - Para X3 con una significancia del 0 puede afirmarse que dicha variable explica bien el modelo, para esta variable se encontró un valor p de 0.000779, dado que este valor es muy cercano a 0, se rechaza la hipótesis alternativa lo que implica que esta variable explica bien el modelo. - Para X2, X4, X5, dado que su valor p es mayor que 0.1, se acepta la hipótesis alternativa, lo que implica que estas variables no explican bien el modelo.

Interpretación de los parametros de la regresión líneal

Yi = β0 + β1 * Xi1 + β2 * Xi2 + β3 * Xi3 + β4 * Xi4 + β5 * Xi5 + Ei

Para β0: el valor obtenido para este coeficiente fue de -0.5986009, dado esto la probabilidad de que te contagies sin tener en cuenta las demás variables es casi de 0%.
Para β1: por cada día adicional recluido en el hospital, la probabilidad de contagio aumenta un 0.2106683%.
Para β2: por cada rutina de cultivo realizada a un grupo de 100 pacientes asintomáticos, la probabilidad de que alguno de estos se contagie es del 0.0197512%.
Para β3: por cada cama adicional durante el estudio, la probabilidad de contagio es del 0.0470925%.
Para β4: por cada paciente adicional en el hospital por día de estudio, la probabilidad de contagio de este, es de 0.0105604%.
Para β5: por cada enfermera adicional que hace parte del estudio, la probabilidad de contagio aumenta en un 0.0008996%.

Analisis del R^2 Ajustado

Dado que el valor obtenido para este parámetro es 0.3999 puede afirmarse que el conjunto de las variables explicativas usadas tan solo justifican aproximadamente el 40% de la variación de la variable dependiente Y, lo que implica que conjuntamente, no representan bien el modelo. Es posible que alguna de estas variables explicativa no aporte al modelo puesto que puede tener algún grado de correlación con otras variables del modelo.

2) Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior. Según el resultado de la prueba es posible descartar del modelo las variables del subconjunto?

A continuación se presenta la tabla con todas las posibles combinaciones de las variables del modelo de regresión lineal:

myAllRegTable(modelo)

##    k  R_sq adj_R_sq     SSE     Cp ABS_CP_1 Variables_in_model
## 1  1 0.249    0.237  85.813 19.106   18.106                 X3
## 2  1 0.244    0.232  86.376 19.632   18.632                 X1
## 3  1 0.182    0.169  93.468 26.252   25.252                 X4
## 4  1 0.068    0.053 106.508 38.425   37.425                 X5
## 5  1 0.001   -0.014 114.090 45.503   44.503                 X2
## 6  2 0.411    0.392  67.257  3.784    1.784              X1 X3
## 7  2 0.319    0.297  77.804 13.629   11.629              X3 X4
## 8  2 0.311    0.289  78.739 14.503   12.503              X1 X4
## 9  2 0.293    0.270  80.764 16.392   14.392              X3 X5
## 10 2 0.276    0.253  82.667 18.169   16.169              X2 X3
## 11 2 0.258    0.235  84.721 20.087   18.087              X1 X5
## 12 2 0.248    0.224  85.877 21.166   19.166              X1 X2
## 13 2 0.234    0.209  87.519 22.698   20.698              X4 X5
## 14 2 0.182    0.156  93.416 28.203   26.203              X2 X4
## 15 2 0.071    0.041 106.102 40.046   38.046              X2 X5
## 16 3 0.430    0.402  65.108  3.778    0.778           X1 X3 X4
## 17 3 0.422    0.393  66.088  4.693    1.693           X1 X3 X5
## 18 3 0.415    0.386  66.850  5.404    2.404           X1 X2 X3
## 19 3 0.359    0.327  73.279 11.405    8.405           X3 X4 X5
## 20 3 0.336    0.303  75.868 13.822   10.822           X2 X3 X4
## 21 3 0.328    0.295  76.791 14.684   11.684           X1 X4 X5
## 22 3 0.325    0.292  77.090 14.963   11.963           X2 X3 X5
## 23 3 0.314    0.280  78.400 16.186   13.186           X1 X2 X4
## 24 3 0.261    0.224  84.459 21.842   18.842           X1 X2 X5
## 25 3 0.236    0.198  87.321 24.514   21.514           X2 X4 X5
## 26 4 0.442    0.405  63.748  4.508    0.508        X1 X3 X4 X5
## 27 4 0.433    0.395  64.795  5.486    1.486        X1 X2 X3 X4
## 28 4 0.427    0.389  65.435  6.083    2.083        X1 X2 X3 X5
## 29 4 0.379    0.338  70.904 11.188    7.188        X2 X3 X4 X5
## 30 4 0.329    0.284  76.656 16.558   12.558        X1 X2 X4 X5
## 31 5 0.447    0.400  63.203  6.000    1.000     X1 X2 X3 X4 X5

Evaluando los criterios de R^2, R^2 ajustado y el de CP se evidencia que:

-Cuando se incluye en el modelo las 3 variables con mayor valor p (X2, X3, X4) se obtienen valores no muy buenos para los indicadores R^2, R^2 ajustado y CP (0.236, 0.198, 21.514 respectivamente).

-Cuando se incluyen las variables X1, X3, X4, X5 y se retira la variable X2 del modelo, se obtienen los mejores valores para los indicadores R^2, R^2 ajustado y CP (0.442, 0.405, 0.508 respectivamente), siendo este el modelo óptimo para todas las combinaciones posibles.

-Por ello se sugiere retirar la variable predictora X2 del modelo pues dicha variable no lo explica.

3) Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de hipótesis lineal general de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y no SSextra), donde especifique claramente la matriz L, el modelo reducido y la expresión para el estadístico de prueba.

Pregunta

Se quiere saber si el conjunto de variables usado afecta de igual manera en el riesgo de infección dentro del hospital ?

Matriz

Se quiere probar la siguiente hipótesis:

H0 : β1 = β3, β4 = β5, β2 = 0.

H1 : β1 != β3, β4 != β5, β2 != 0.

Igualamos a 0 todas las ecuaciones y tenemos:

H0 : β1 - β3 = 0, β4 - β5 = 0, β2 = 0

H1 : β1 - β3 != 0 , β4 - β5 != 0, β2 != 0.

A continuación se presenta la matriz con los valores para la pregunta planteada, de izquierda a derecha estan β0, β1, β2, β3, β4 y β5 respectivamente.

Tenemos m=3 ecuaciones y p=6 coeficientes, entonces:

\[ L=\left(\begin{array}{ccc} 0 & 1 & 0 & -1 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & -1\\ 0 & 0 & 1 & 0 & 0 & 0 \end{array}\right) \]

Planteamos el modelo reducido bajo la hipótesis nula:

Yi = β0 + B1 (Xi1 + xi3) + β4(Xi4 + xi5)

Estadístico de prueba:

modelo_reducido = lm(Y ~ X1 + X4, data = datos_eficacia_control_infecciones)
summary(modelo_reducido)

## 
## Call:
## lm(formula = Y ~ X1 + X4, data = datos_eficacia_control_infecciones)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.96785 -0.73461 -0.07917  0.80156  2.38245 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 0.229406   0.803002   0.286  0.77607   
## X1          0.268447   0.078828   3.405  0.00116 **
## X4          0.018499   0.007544   2.452  0.01703 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.127 on 62 degrees of freedom
## Multiple R-squared:  0.3108, Adjusted R-squared:  0.2886 
## F-statistic: 13.98 on 2 and 62 DF,  p-value: 9.741e-06

anova(modelo)

## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X1         1 27.872 27.8721 26.0185 3.770e-06 ***
## X2         1  0.499  0.4995  0.4662    0.4974    
## X3         1 19.028 19.0275 17.7621 8.703e-05 ***
## X4         1  2.054  2.0542  1.9176    0.1713    
## X5         1  1.592  1.5919  1.4861    0.2277    
## Residuals 59 63.203  1.0712                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(modelo_reducido)

## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X1         1 27.872 27.8721 21.9467 1.577e-05 ***
## X4         1  7.637  7.6371  6.0135   0.01703 *  
## Residuals 62 78.739  1.2700                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SSE_MR = 78.739 SSE_MC = 63.203 MSE_MC = 1.0712 m = 3

Aplicando la formula F0 = ((SSE_MR-SSE_MC)/ m)/MSE_MC se tiene :

F0 = 4.8344

Comparando con la tabla F:

F0 = 4.8344
Fcritico=qf(p = 0.95,df1 = 3,df2 = 65)
F0>Fcritico

## [1] TRUE

Dado lo anterior se rechaza H0, por ende se acepta H1, lo que implica que no todas las variables tienen el mismo efecto sobre el riesgo de contagio de un paciente en el hospital.

4) Realice una validación de los supuestos en los errores y examine si hay valores atípicos, de balanceo e influenciales. Qué puede decir acerca de la validez de éste modelo?. Argumente.

Validación de Supuestos

1) Linealidad

Dadas las gráficas se evidencia que la variable predictora X1 no cumple el supuesto de linealidad, mientras las demás sí.

2) Normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.98462, p-value = 0.5979

Dadas las dos pruebas de normalidad realizadas, se encontró que el error residual distribuye de forma normal y por ende se cumple el supuesto.

3) Homocedasticidad

Dada la gráfica anterior, se puede concluir que no se cumple el supuesto de Homocedasticidad, esto implica que no es un modelo confiable.

4) Independencia

Dado la gráfica anterior se observa que no hay una varianza constante y por ello no se puede garantizar independencia.

Valores Influenciales

## Potentially influential observations of
##   lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = datos_eficacia_control_infecciones) :
## 
##    dfb.1_ dfb.X1 dfb.X2 dfb.X3  dfb.X4 dfb.X5 dffit   cov.r   cook.d hat    
## 22  0.04   0.14  -0.08   0.00   -0.02  -0.35  -0.37    1.31_*  0.02   0.20  
## 23 -0.23   0.05   0.15  -0.04    0.16   0.03   0.29    1.39_*  0.01   0.22  
## 27  0.21  -0.52   0.01   0.09    0.02   0.13  -0.57    1.92_*  0.05   0.45_*
## 42  0.01   0.02   0.04  -0.09   -0.06  -0.04   0.32    0.68_*  0.02   0.02  
## 44 -0.11   0.00   0.11   0.05   -0.02   0.01  -0.12    1.31_*  0.00   0.16  
## 52  0.00   0.03   0.04  -1.15_*  0.39  -0.50  -1.40_*  1.16    0.31   0.34_*

Dado el anterior resumen de los valores influenciables del modelo y usando el criterio HAT, donde de consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de variables predictores y n el número de observaciones. En este caso 2.5((5+1)/65) = ** 0.2365 **, entonces las observaciones 23 con Y=6.6, X1=13.95, X2=65.9, X3=15.6, X4=133.5, X5=356 y 52 con Y=5.4, X1=11.18, X2=45.7, X3=60.5, X4=85.8, X5=640.

Valores Atípicos

Se consideran valores atípicos las observaciones que se encuentran a más de 3 desviaciones estándar del promedio. Con el siguiente bloque de código, se pretende obtener los índices de las observaciones que cumplen condición anterior.

datos_eficacia_control_infecciones$studentized_residual <- rstudent(modelo)
which(abs(datos_eficacia_control_infecciones$studentized_residual) > 3)

## integer(0)

Dado el resultado anterior, se demuestra que dentro de las observaciones no existen valores atípicos.

Valores de Balanceo

hats <- as.data.frame (hatvalues(modelo))
hats

##    hatvalues(modelo)
## 1         0.07403918
## 2         0.04677812
## 3         0.03504559
## 4         0.08794014
## 5         0.11609965
## 6         0.06598246
## 7         0.08043955
## 8         0.07715329
## 9         0.04448387
## 10        0.05249917
## 11        0.02453078
## 12        0.05833706
## 13        0.03780051
## 14        0.15097529
## 15        0.03222717
## 16        0.09471531
## 17        0.04270431
## 18        0.11870555
## 19        0.06301496
## 20        0.09213603
## 21        0.11011812
## 22        0.20066598
## 23        0.22424222
## 24        0.03352007
## 25        0.07722715
## 26        0.14855571
## 27        0.44714871
## 28        0.16550175
## 29        0.07330171
## 30        0.20139722
## 31        0.04251692
## 32        0.13524245
## 33        0.13618482
## 34        0.04070117
## 35        0.04969523
## 36        0.04052706
## 37        0.06811724
## 38        0.06861107
## 39        0.15163544
## 40        0.08815380
## 41        0.15667378
## 42        0.02012077
## 43        0.07930427
## 44        0.16386938
## 45        0.23485738
## 46        0.05132866
## 47        0.03428162
## 48        0.05464747
## 49        0.02283046
## 50        0.07588759
## 51        0.07130939
## 52        0.34320435
## 53        0.05397813
## 54        0.05668717
## 55        0.04081600
## 56        0.05951895
## 57        0.08320898
## 58        0.03790127
## 59        0.04164848
## 60        0.04345069
## 61        0.04255967
## 62        0.04701047
## 63        0.13345286
## 64        0.12978936
## 65        0.02299108

Podemos ver que el mayor valor de balanceo es la observación 27 con un valor hat de 0.44714871. Dado que este no es mayor que 2, sabemos que ninguna de las observaciones de datos tiene un alto balanceo.

Validez del modelo

Puesto que no se encontraron datos atípicos ni de balanceo, y la escases de datos influenciables podría dar la impresión de que este sería un buen modelo, para un determinado momento en el tiempo por ejemplo, si fuese un buen modelo. Pero al hacer la validación de los supuestos, se concluye que no es un buen modelo para predecir eventos futuros, sin embargo, si explica comportamientos en determinado momento.

5) Verificar la presencia de multicolinealidad usando graficos y/o indicadores apropiados.

Gráfica Correlación

Interpretando los resultados de la gráfica anterior, se concluye que:

Se evidencia una correlación mediana entre X1 y X4, y entre X3 y X4. No se deja de lado la existencia de correlación entre las otras variables, pero se resalta la que hay entre estas porque es donde es más evidente, lo que implica la existencia de multicolinealidad en el modelo.

Informe 2 - Estadística II

Paula Andrea Majana Basilio (pamajanab@unal.edu.co), Angélica María Escobar García (anescobarg@unal.edu.co), Luis Alberto Grajales Cano (lagrajalesc@unal.edu.co), Anderson Alvarez Vásquez (aalvarezv@unal.edu.co)

03/9/2021