1 Punto

1.1 Modelo

1.2 Resumen

## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.03944 -0.80043 -0.00266  0.60450  2.23292 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.5986009  1.5159559  -0.395 0.694365    
## X1           0.2106683  0.0785765   2.681 0.009501 ** 
## X2           0.0197512  0.0277108   0.713 0.478803    
## X3           0.0470925  0.0132888   3.544 0.000779 ***
## X4           0.0105604  0.0073166   1.443 0.154213    
## X5           0.0008996  0.0007379   1.219 0.227679    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared:  0.4468, Adjusted R-squared:  0.3999 
## F-statistic:  9.53 on 5 and 59 DF,  p-value: 1.058e-06

1.3 matriz de correlaciones

##            Y        X1          X2         X3         X4          X5
## Y  1.0000000 0.4939233  0.03723050  0.4988930 0.42648615  0.26029349
## X1 0.4939233 1.0000000  0.20636081  0.1982719 0.37908182  0.29406162
## X2 0.0372305 0.2063608  1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997  1.0000000 0.35967155  0.10258439
## X4 0.4264861 0.3790818  0.03743146  0.3596716 1.00000000  0.07684465
## X5 0.2602935 0.2940616 -0.08511824  0.1025844 0.07684465  1.00000000
## Tabla ANOVA Modelo de Regresión

1.4 funcíon de coeficientes estimados, sus IC del 95%, VIF´s y coefiecientes estandarizados.

## Estimated and standardized coefficients, their 95% CI's and VIF's

1.5 Función para todas las regresiones posibles

1.6 Prueba de Significancia de la Regresion

n=65, k=5, p=6 de la tabla anova tenemos que F0= 9.35

## [1] 2.370977

se rechaza 𝐻0 ya que 𝐹0> 𝑓𝛼,𝑘,𝑛−p , almenos unas de las 5 variables es significativa en el modelo.

1.7 Prueba de la significancia de los parametros:

Se rechaza 𝐻0 si |𝑡0| > t𝛼/2,𝑛−𝑝

## [1] -2.000995

t𝛼/2,𝑛−𝑝= 2.00

1.7.1 Para Y:

De la tabla #1 tenemos que |𝑡0| = 0.395, luego se tiene que la variabale riesgo de infección no es significativa.

1.7.2 Para X1:

|𝑡0| = 2.681, la variable duración de la estadía si es significativa, por un aumento unitario en la duración de la estadía se espera que el riesgo de infección aumente en promedio 0.2106 unidades, siempre que las demás variables permanezcan constantes.

1.7.3 Para X2:

|𝑡0| = 0.713 , la variable rutina de cultivos no es significativa.

1.7.4 Para X3:

|𝑡0| =3.544, la variable Número de camas es significativa, por un aumento unitario en el número de camas se espera que el riesgo de infección aumente en promedio 0.047 unidades , siempre que las otras variabes permanezcan constantes.

1.7.5 Para X4:

|𝑡0| =1.443, la variable Censo en promedio diario no es significativa.

1.7.6 Para X5:

|𝑡0| =1.219, la variable Número de enfermeras tampoco es significativa.

1.8 Coeficiente de determinación múltiple R2

R2: 0.4468, R2 ajustado: 0.3999 Cómo R2 ajustado es un valor cercano a R2, puede concluirse que el modelo de regresión lineal múltiple propuesto permite explicar el 44,68% de la variablidad total de el riesgo de infección.

2 Punto

Con base al punto aterior las tres variables con los valores p mayores son: X2, X4 Y X5

𝐻0: El conjunto de 𝜷 = 𝟎 vs 𝐻1: Al menos un 𝜷 del grupo ≠ 0

2.1 Modelo completo:

Yi = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽4 𝑋𝑖4 +𝛽5 𝑋𝑖5 + 𝜀𝑖

2.2 Modelo reducido:

Yi = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽3 𝑋𝑖3 + 𝜀𝑖

2.3 Función para todas las regresiones posibles

2.3.1 datos importantes:

## [1] 0.02138084
## [1] 2.760767

cómo 𝐹0< 𝑓𝛼,𝑟,𝑛−p(𝐹0=0.02138084< (𝑓(𝛼= 0.05,𝑟=3,𝑛−p=59)=2.760767)) no hay suficiente evidencia muestral para rechazar H0, es decir que el subcnjunto de las tres variables predictoras X2,X4,X5 no es significativo en el modelo en presencia de los otras variables y por ende se puede descartar del modelo las 3 variables del subconjunto

3 punto

Un medico asegura tres hipotesis la primera es que frente al censo promedio diario es igual a la rutina de cultivos, de la misma manera asocia el mismo censo con la duración de la estadía y que estos causan el mismo efecto en el riesgo de infeccion; mas sin embargo aclara que el numero de camas no es relevante; para dar respuesta a las hipotesis se plantea el siguiente modelo:

3.1 hipotesis:

H0: X1=X4,X4=X2,X3=0 vs H1= X1≠X4,X2≠X4,X3≠0

X1-X4=0,X4-X2=0,X3=0 vs X1-X4≠0,X4-X2≠0,X3≠0

3.1.1 Matriz L

##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    0    0   -1    0
## [2,]    0   -1    0    1    0
## [3,]    0    0    1    0    0

3.1.2 modelo reducido:

H0:Lβ = 0 vs H1:Lβ ≠ 0

Inicialmente tenemos el Modelo completo:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 +𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽4 𝑋𝑖4 +𝛽5 𝑋𝑖5 + 𝜀i

𝜀𝑖 ~ 𝑁(0, 𝜎^(2)) ^ 𝑖=1,2,3,4…..n.

El siguiente es el modelo reducido con las hipotesis de la pregunta

𝑌𝑖 = 𝛽0 + 𝛽1*(𝑋𝑖1+𝑋𝑖4+𝑋𝑖2) +𝛽5 𝑋𝑖5 + 𝜀i

𝜀𝑖 ~ 𝑁(0, 𝜎^(2)) ^ 𝑖=1,2,3,4…..n. Z𝑖(1,4,3)=(𝑋𝑖1+𝑋𝑖4+𝑋𝑖2)

## 
## Call:
## lm(formula = Y ~ ZI + X5)
## 
## Coefficients:
## (Intercept)           ZI           X5  
##     1.45805      0.02761     -0.02605

3.2 Estadistico de prueba

## Tabla ANOVA Modelo de Regresión

en busca de dar solucion a la pregunta del medico por su suposicion se plantea que un estadistico de prueba F0:

## [1] 6.85761

modelo de desicion:

𝐻0 si 𝐹0> 𝑓𝛼,𝑚,𝑛-p

tal que 𝑓𝛼,3,65-6 y se desea probar con un nivel de significancia del 0,05 arrojando lo que es igual a

## [1] 0.01492756

Dado que la prueba nos arroja un resultado de (6.85761>0.01492756) positivo y por mucha diferencia podemos suponer que la pregunta y hipotesis que sugeria el medico era incorrecta ya que a grandes rasgos se ve la gran diferencia que existe entre los dos valores lo que apoya la H alternativa.

4 punto

4.1 Validación de supuestos

## 
##  Shapiro-Wilk normality test
## 
## data:  restud
## W = 0.98663, p-value = 0.7094

Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:

Media: Se cumple por defecto que es 0.

Varianza constante: Sabemos que el grafico Residuals vs fitted nos muestra una leve curvatura alrededor de 0 lo que nos permite interpretar que no es constante.

Normalidad: En las colas se logra visualizar unas deformaciones lo que nos permite interpretar que no hay normalidad, aunque la prueba de p-ficher nos de grande lo que dice que es posible que haya normalidad.

Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto.

4.2 Datos atipicos, influenciales y de balanceo

##     rstudent unadjusted p-value Bonferroni p
## 42  2.253494           0.028024           NA
## 60  2.129070           0.037506           NA
## 37 -2.099309           0.040152           NA
## 52 -1.939688           0.057286           NA
## 4   1.778692           0.080531           NA
## 41  1.723672           0.090094           NA
## 7  -1.641077           0.106190           NA
## 43  1.614087           0.111940           NA
## 13  1.582242           0.119030           NA
## 55 -1.528147           0.131910           NA

4.2.1 Datos Atipicos

La primera parte es un test para ver el valor p de los datos, con esto identificamos los posibles datos atipicos que hay. Tenemos los 10 menores valores P que arroja el test y con esto verificamos si son o no son datos atipicos. En la segunda parte con la gráfica vemos que no hay datos atipicos.

4.2.2 Puntos influyentes

Tenemos como datos influyentes los siguientes:30,41,45,52. Son aquellos que se alejan tanto en el eje x y Y

4.2.3 Valores de balanceo

Con está grafica evidenciamos los valores de balanceo, que son: 22,23,27,45,52

4.3 RESUMEN

¿Qué podemos decir acerca de la validez de éste modelo?

Apoyandono con lo anterior concluimos que si deberia haber un ajuste del modelo para mejorar supuestos del error y mirar si los puntos tanto de balanceo e influyentes cambian.

5 Punto

En este caso, el gráfico de correlación de pearson que proviene de la matriz de correlación nos reafirma la información allí escrita; con relaciones posibles entre la variable x1 y x4, al igual que x3 y x4. Lo que se estudia en profundidad a continuacion en el diagnostico de multicolinialidad

5.1 diagnostico de multicolinealidad

## Diagnósticos Multicolinealidad -Intercepto incluído 
##  Índices de Condición y Proporciones de Varianza
## Diagnósticos Multicolinealidad -Intercepto ajustado 
##  Índices de Condición y Proporciones de Varianza

Teniendo en cuenta los criterios de diagnostico de multicolinealidad, y según la información obtenida de las proporciones de descomposición de varianza para los datos centrados y sin centrar, finalmente se puede concluir En el modelo existe un problema de multicolinealidad severa; debido a que no presenta relacion moderada entre ninguna de sus variables inicialmente; ademas en los modelos interceptado y no interceptado presenta valores (𝝅ij) muy pequeños.