##
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.03944 -0.80043 -0.00266 0.60450 2.23292
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.5986009 1.5159559 -0.395 0.694365
## X1 0.2106683 0.0785765 2.681 0.009501 **
## X2 0.0197512 0.0277108 0.713 0.478803
## X3 0.0470925 0.0132888 3.544 0.000779 ***
## X4 0.0105604 0.0073166 1.443 0.154213
## X5 0.0008996 0.0007379 1.219 0.227679
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared: 0.4468, Adjusted R-squared: 0.3999
## F-statistic: 9.53 on 5 and 59 DF, p-value: 1.058e-06
## Y X1 X2 X3 X4 X5
## Y 1.0000000 0.4939233 0.03723050 0.4988930 0.42648615 0.26029349
## X1 0.4939233 1.0000000 0.20636081 0.1982719 0.37908182 0.29406162
## X2 0.0372305 0.2063608 1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997 1.0000000 0.35967155 0.10258439
## X4 0.4264861 0.3790818 0.03743146 0.3596716 1.00000000 0.07684465
## X5 0.2602935 0.2940616 -0.08511824 0.1025844 0.07684465 1.00000000
## Tabla ANOVA Modelo de Regresión
## Estimated and standardized coefficients, their 95% CI's and VIF's
n=65, k=5, p=6 de la tabla anova tenemos que F0= 9.35
## [1] 2.370977
se rechaza 𝐻0 ya que 𝐹0> 𝑓𝛼,𝑘,𝑛−p , almenos unas de las 5 variables es significativa en el modelo.
Se rechaza 𝐻0 si |𝑡0| > t𝛼/2,𝑛−𝑝
## [1] -2.000995
t𝛼/2,𝑛−𝑝= 2.00
De la tabla #1 tenemos que |𝑡0| = 0.395, luego se tiene que la variabale riesgo de infección no es significativa.
|𝑡0| = 2.681, la variable duración de la estadía si es significativa, por un aumento unitario en la duración de la estadía se espera que el riesgo de infección aumente en promedio 0.2106 unidades, siempre que las demás variables permanezcan constantes.
|𝑡0| = 0.713 , la variable rutina de cultivos no es significativa.
|𝑡0| =3.544, la variable Número de camas es significativa, por un aumento unitario en el número de camas se espera que el riesgo de infección aumente en promedio 0.047 unidades , siempre que las otras variabes permanezcan constantes.
|𝑡0| =1.443, la variable Censo en promedio diario no es significativa.
|𝑡0| =1.219, la variable Número de enfermeras tampoco es significativa.
R2: 0.4468, R2 ajustado: 0.3999 Cómo R2 ajustado es un valor cercano a R2, puede concluirse que el modelo de regresión lineal múltiple propuesto permite explicar el 44,68% de la variablidad total de el riesgo de infección.
Con base al punto aterior las tres variables con los valores p mayores son: X2, X4 Y X5
𝐻0: El conjunto de 𝜷 = 𝟎 vs 𝐻1: Al menos un 𝜷 del grupo ≠ 0
Yi = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽4 𝑋𝑖4 +𝛽5 𝑋𝑖5 + 𝜀𝑖
Yi = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽3 𝑋𝑖3 + 𝜀𝑖
## [1] 0.02138084
## [1] 2.760767
cómo 𝐹0< 𝑓𝛼,𝑟,𝑛−p(𝐹0=0.02138084< (𝑓(𝛼= 0.05,𝑟=3,𝑛−p=59)=2.760767)) no hay suficiente evidencia muestral para rechazar H0, es decir que el subcnjunto de las tres variables predictoras X2,X4,X5 no es significativo en el modelo en presencia de los otras variables y por ende se puede descartar del modelo las 3 variables del subconjunto
Un medico asegura tres hipotesis la primera es que frente al censo promedio diario es igual a la rutina de cultivos, de la misma manera asocia el mismo censo con la duración de la estadía y que estos causan el mismo efecto en el riesgo de infeccion; mas sin embargo aclara que el numero de camas no es relevante; para dar respuesta a las hipotesis se plantea el siguiente modelo:
H0: X1=X4,X4=X2,X3=0 vs H1= X1≠X4,X2≠X4,X3≠0
X1-X4=0,X4-X2=0,X3=0 vs X1-X4≠0,X4-X2≠0,X3≠0
## [,1] [,2] [,3] [,4] [,5]
## [1,] 1 0 0 -1 0
## [2,] 0 -1 0 1 0
## [3,] 0 0 1 0 0
H0:Lβ = 0 vs H1:Lβ ≠ 0
Inicialmente tenemos el Modelo completo:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽4 𝑋𝑖4 +𝛽5 𝑋𝑖5 + 𝜀i
𝜀𝑖 ~ 𝑁(0, 𝜎^(2)) ^ 𝑖=1,2,3,4…..n.
El siguiente es el modelo reducido con las hipotesis de la pregunta
𝑌𝑖 = 𝛽0 + 𝛽1*(𝑋𝑖1+𝑋𝑖4+𝑋𝑖2) +𝛽5 𝑋𝑖5 + 𝜀i
𝜀𝑖 ~ 𝑁(0, 𝜎^(2)) ^ 𝑖=1,2,3,4…..n. Z𝑖(1,4,3)=(𝑋𝑖1+𝑋𝑖4+𝑋𝑖2)
##
## Call:
## lm(formula = Y ~ ZI + X5)
##
## Coefficients:
## (Intercept) ZI X5
## 1.45805 0.02761 -0.02605
## Tabla ANOVA Modelo de Regresión
en busca de dar solucion a la pregunta del medico por su suposicion se plantea que un estadistico de prueba F0:
## [1] 6.85761
modelo de desicion:
𝐻0 si 𝐹0> 𝑓𝛼,𝑚,𝑛-p
tal que 𝑓𝛼,3,65-6 y se desea probar con un nivel de significancia del 0,05 arrojando lo que es igual a
## [1] 0.01492756
Dado que la prueba nos arroja un resultado de (6.85761>0.01492756) positivo y por mucha diferencia podemos suponer que la pregunta y hipotesis que sugeria el medico era incorrecta ya que a grandes rasgos se ve la gran diferencia que existe entre los dos valores lo que apoya la H alternativa.
##
## Shapiro-Wilk normality test
##
## data: restud
## W = 0.98663, p-value = 0.7094
Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:
Media: Se cumple por defecto que es 0.
Varianza constante: Sabemos que el grafico Residuals vs fitted nos muestra una leve curvatura alrededor de 0 lo que nos permite interpretar que no es constante.
Normalidad: En las colas se logra visualizar unas deformaciones lo que nos permite interpretar que no hay normalidad, aunque la prueba de p-ficher nos de grande lo que dice que es posible que haya normalidad.
Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto.
## rstudent unadjusted p-value Bonferroni p
## 42 2.253494 0.028024 NA
## 60 2.129070 0.037506 NA
## 37 -2.099309 0.040152 NA
## 52 -1.939688 0.057286 NA
## 4 1.778692 0.080531 NA
## 41 1.723672 0.090094 NA
## 7 -1.641077 0.106190 NA
## 43 1.614087 0.111940 NA
## 13 1.582242 0.119030 NA
## 55 -1.528147 0.131910 NA
La primera parte es un test para ver el valor p de los datos, con esto identificamos los posibles datos atipicos que hay. Tenemos los 10 menores valores P que arroja el test y con esto verificamos si son o no son datos atipicos. En la segunda parte con la gráfica vemos que no hay datos atipicos.
Tenemos como datos influyentes los siguientes:30,41,45,52. Son aquellos que se alejan tanto en el eje x y Y
Con está grafica evidenciamos los valores de balanceo, que son: 22,23,27,45,52
¿Qué podemos decir acerca de la validez de éste modelo?
Apoyandono con lo anterior concluimos que si deberia haber un ajuste del modelo para mejorar supuestos del error y mirar si los puntos tanto de balanceo e influyentes cambian.
En este caso, el gráfico de correlación de pearson que proviene de la matriz de correlación nos reafirma la información allí escrita; con relaciones posibles entre la variable x1 y x4, al igual que x3 y x4. Lo que se estudia en profundidad a continuacion en el diagnostico de multicolinialidad
## Diagnósticos Multicolinealidad -Intercepto incluído
## Índices de Condición y Proporciones de Varianza
## Diagnósticos Multicolinealidad -Intercepto ajustado
## Índices de Condición y Proporciones de Varianza
Teniendo en cuenta los criterios de diagnostico de multicolinealidad, y según la información obtenida de las proporciones de descomposición de varianza para los datos centrados y sin centrar, finalmente se puede concluir En el modelo existe un problema de multicolinealidad severa; debido a que no presenta relacion moderada entre ninguna de sus variables inicialmente; ademas en los modelos interceptado y no interceptado presenta valores (𝝅ij) muy pequeños.