Informe 2 - Regresión Lineal Multiple

\(\hspace{1cm}\)Presentado por: Cristian Restrepo Morales
\(\hspace{1cm}\)Universidad Nacional de Colombia
\(\hspace{1cm}\)Estadística II
\(\hspace{1cm}\)Grupo: 2
\(\hspace{1cm}\)Correo:


Desarrollo del Informe


1. Estimación del modelo de regresión lineal múltiple. Analisis de la significancia de la regresión y de los parámetros individuales con su respectiva interpretación. Calculo e interpretación del coeficiente de determinación múltiple.

En un estudio a gran escala realizado en EE.UU sobre la eficacia en el control de infecciones hospitalarias se recogió información en 65 hospitales.

La información recolectada consta de 7 variables cuantitativas, las cuales podemos observar en la tabla con su respectiva descripción:

Consideramos el riesgo de infección como variable de respuesta puesto que se sospecha que la duración de la estadía de un paciente, la rutina de cultivos, el número de camas, el censo promedio diario y el número de enfermeras en el hospital pueden explicar el comportamiento del riesgo de infección.

Con la información recolectada y teniendo en cuenta quienes son las variables predictoras y de respuesta de la situación, procedemos a plantear nuestro modelo de regresión lineal múltiple como se sigue:

\[Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4} + \beta_5X_{i5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\]

En nuestro caso, ajustaremos el modelo RLM

\[\widehat{y_i} = \widehat{\beta_0} + \widehat{\beta_1}X_{i1} + \widehat{\beta_2}X_{i2} + \widehat{\beta_3}X_{i3} + \widehat{\beta_4}X_{i4}+ \widehat{\beta_5}X_{i5}\]

Ajuste del modelo RLM y estadísticos de resumen

# Modelo estimado
modelo=lm(Y ~ ., data = bd)
# Tablas summary y ANOVA del modelo estimado
summary(modelo)
## 
## Call:
## lm(formula = Y ~ ., data = bd)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.03944 -0.80043 -0.00266  0.60450  2.23292 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.5986009  1.5159559  -0.395 0.694365    
## X1           0.2106683  0.0785765   2.681 0.009501 ** 
## X2           0.0197512  0.0277108   0.713 0.478803    
## X3           0.0470925  0.0132888   3.544 0.000779 ***
## X4           0.0105604  0.0073166   1.443 0.154213    
## X5           0.0008996  0.0007379   1.219 0.227679    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.035 on 59 degrees of freedom
## Multiple R-squared:  0.4468, Adjusted R-squared:  0.3999 
## F-statistic:  9.53 on 5 and 59 DF,  p-value: 1.058e-06
anova(modelo)
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X1         1 27.872 27.8721 26.0185 3.770e-06 ***
## X2         1  0.499  0.4995  0.4662    0.4974    
## X3         1 19.028 19.0275 17.7621 8.703e-05 ***
## X4         1  2.054  2.0542  1.9176    0.1713    
## X5         1  1.592  1.5919  1.4861    0.2277    
## Residuals 59 63.203  1.0712                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En base a la información suministrada por la tabla summary que resume la información del modelo, el modelo estimado es:

\[\widehat{y_i} = -0.5986 + 0.2106X_{i1} + 0.0197X_{i2} + 0.0470X_{i3} + 0.0105X_{i4} + 0.0008X_{i5}\] Analisis de la significancia de la regresión

Para analizar la significancia de nuestra regresión, planteamos las siguientes hipótesis:

\[H_0:\beta_1 = \beta_2 =\beta_3 = \beta_4=\beta_5=0\] \[H_1:\text{Al menos un }\beta_j \not= 0, j=1,2,3,4,5\]

Y el estadístico de prueba:

\[F_0= \frac{MSR}{MSE}\overset{}{\sim}f_{k,n-p}\] El cual tiene como valor-p de acuerdo a nuestra tabla summary, un valor de 1.058e-06 por lo que rechazamos la hipótesis nula para un nivel de confianza del 95% y concluimos que la regresión es significativa, pues al menos uno de los coeficientes individuales de la regresión es distinto de cero.

Analisis de la significancia de los parámetros individuales con su respectiva interpretanción

Para analizar la significancia de los parámetros individuales consideramos el juego de hipótesis:

\[H_0:\beta_j = 0\] \[H_1:\beta_j \not= 0 \text{ con } j=0,1,2,3,4,5\] Y el estadístico de prueba:

\[t_0= \frac{\widehat{\beta_j}}{Se(\widehat{\beta_j})}\overset{}{\sim}t_{n-2}\] Identificamos de la tabla summary que se conocen sus respectivos valor-p y se hacen las siguientes observaciones para un nivel de significancia del 5%:

  • Los parámetros \(\beta_0\), \(\beta_2\), \(\beta_4\) y \(\beta_5\) no son significativos puesto que su valor-p es grande, no se tiene suficiente evidencia para rechazar la hipótesis nula, son iguales a cero y entonces no pueden interpretarse.
  • El parámetro \(\beta_1\) es significativo porque su valor-p es pequeño, se rechaza la hipótesis nula y determinamos que \(\beta_1\) es diferente de cero, su interpretación es que por cada aumento unitario en los días de estadía se espera que la probabilidad del riesgo de infección aumente en promedio 0.2107, siempre que las demás variables predictoras permanezcan constantes.
  • Por último, notamos que el el valor-p asociado al parámetro \(\beta_3\) es significativo puesto que dicho valor se encuentra por debajo del 5% y se interpreta como por un aumento unitario en el número de camas se espera que la probabilidad del riesgo de infección aumente en promedio 0.0471 unidades, siempre y cuando las demás predictoras permanezcan constantes.

Calculo e interpretación del coeficiente de determinación múltiple

Calculamos los coeficientes de determinación normal y ajustado de la siguiente manera:

\[R^2 = \frac{SSR}{SST}\] \[R^2_{adj} = 1-\frac{MSE}{MST}\] Obtenidos de la tabla summary, estos son 0.4468 y 0.3999 respectivamente. Ya que estos valores se encuentran relativamente cerca, podemos decir que el modelo explica realmente casi el 44.68% de la variabilidad total del riesgo de infección en un hospital. A pesar de tener coeficientes de determinación bajos puede pensarse en otros caminos para ajustar el modelo de regresión, este valor puede ser causado por el tamaño de muestra o quizá las variables usadas en la base de datos no son las mas indicadas.


2. Prueba de la significancia simultánea del subconjunto de tres variables con los valores p mayores del punto anterior.

De la información obtenida en el punto anterior el subconjunto de tres variables con los valor-p mas altos son: \(X_2,X_4\text{ y } X_5\).

Planteamos las hipótesis:

\[H_0:\beta_2 = 0, \beta_4=0,\beta_5=0\text{ vs } H_1:\beta_2 \not= 0, \beta_4\not=0,\beta_5\not=0\] Bajo la hipotesis nula obtenemos el modelo reducido:

\[M.R:Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] Y el estadístico de prueba es:

\[F_o=\frac{\frac{SSE(M.R)-SSE(M.C)}{r}}{MSE(M.C)}\overset{}{\sim}f_{m,n-p}\] Donde r es el número de parámetros probados en \(H_0\), o sea, r = 3.

Tabla con todas las regresiones posibles

# Todas las regresiones posibles
myAllRegTable(modelo)
##    k  R_sq adj_R_sq     SSE     Cp Variables_in_model
## 1  1 0.249    0.237  85.813 19.106                 X3
## 2  1 0.244    0.232  86.376 19.632                 X1
## 3  1 0.182    0.169  93.468 26.252                 X4
## 4  1 0.068    0.053 106.508 38.425                 X5
## 5  1 0.001   -0.014 114.090 45.503                 X2
## 6  2 0.411    0.392  67.257  3.784              X1 X3
## 7  2 0.319    0.297  77.804 13.629              X3 X4
## 8  2 0.311    0.289  78.739 14.503              X1 X4
## 9  2 0.293    0.270  80.764 16.392              X3 X5
## 10 2 0.276    0.253  82.667 18.169              X2 X3
## 11 2 0.258    0.235  84.721 20.087              X1 X5
## 12 2 0.248    0.224  85.877 21.166              X1 X2
## 13 2 0.234    0.209  87.519 22.698              X4 X5
## 14 2 0.182    0.156  93.416 28.203              X2 X4
## 15 2 0.071    0.041 106.102 40.046              X2 X5
## 16 3 0.430    0.402  65.108  3.778           X1 X3 X4
## 17 3 0.422    0.393  66.088  4.693           X1 X3 X5
## 18 3 0.415    0.386  66.850  5.404           X1 X2 X3
## 19 3 0.359    0.327  73.279 11.405           X3 X4 X5
## 20 3 0.336    0.303  75.868 13.822           X2 X3 X4
## 21 3 0.328    0.295  76.791 14.684           X1 X4 X5
## 22 3 0.325    0.292  77.090 14.963           X2 X3 X5
## 23 3 0.314    0.280  78.400 16.186           X1 X2 X4
## 24 3 0.261    0.224  84.459 21.842           X1 X2 X5
## 25 3 0.236    0.198  87.321 24.514           X2 X4 X5
## 26 4 0.442    0.405  63.748  4.508        X1 X3 X4 X5
## 27 4 0.433    0.395  64.795  5.486        X1 X2 X3 X4
## 28 4 0.427    0.389  65.435  6.083        X1 X2 X3 X5
## 29 4 0.379    0.338  70.904 11.188        X2 X3 X4 X5
## 30 4 0.329    0.284  76.656 16.558        X1 X2 X4 X5
## 31 5 0.447    0.400  63.203  6.000     X1 X2 X3 X4 X5

De la tabla “Regresión de todos los modelos posibles” calculamos el valor del estadístico de prueba teniendo en cuenta que \(SSE(M.R)=67.257\), \(SSE(M.C) =63.203\) y \(MSE(M.C) =1.0712\), por lo tanto \(F_o=1.2615\).

Región de rechazo

# Region de rechazo
r=3
n=65
p=6
alpha=0.05
qf(alpha,r,n-p,lower.tail = F)
## [1] 2.760767

Por último, cuando comparamos nuestro estadístico de prueba con la región de rechazo, notamos que \(F_o=1.2615<f_{0.05,3,59}=2.7608\), entonces, no se rechaza la hipótesis nula y se concluye que al menos uno de los parámetros \(\beta_2\), \(\beta_4\) o \(\beta_5\) es igual a cero.

No es posible descartar variables en el modelo según los resultados puesto que no se sabe de la prueba el parámetro que es igual a cero y tampoco es el criterio adecuado para determinar si se deben eliminar variables o no del modelo ajustado. Para tal caso debemos recurrir a un método de selección de variables.


3. Se desea probar si el efecto del parámetro asociado a la rutina de cultivos es significativo y si los efectos asociados a los parámetros del censo promedio diario y el número de enfermeras son iguales.

Queremos probar las siguientes hipótesis:

\[H_0:\beta_2 = 0, \beta_4=\beta_5\text{ vs } H_1:\beta_2 \not= 0\text{ o } \beta_4\not=\beta_5\] Primero que todo, igualamos las ecuaciones a cero y tenemos:

\[H_0:\beta_2 = 0, \beta_4-\beta_5=0\text{ vs } H_1:\beta_2 \not= 0\text{ o } \beta_4-\beta_5\not=0\] Estamos probando m = 2 ecuaciones distintas, entonces contruimos nuestra matriz L de orden m x p como se sigue:

\[L=\begin{equation}\begin{pmatrix} 0 & 0 & 1 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & -1 \end{pmatrix} \end{equation} \] \[\beta=\begin{equation}\begin{pmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \beta_3\\ \beta_4\\ \beta_5\\ \end{pmatrix} \end{equation} \] Y de forma matricial la hipótesis lineal general toma la forma: \[H_0:L\beta=0\text{ vs } H_1:L\beta\not=0\] Planteamos el modelo reducido bajo la hipótesis nula:

\[M.R: Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4X_{i4} + \beta_4X_{i5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] \[Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4(X_{i4}+X_{i5})+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] \[Y_i = \beta_0 + \beta_1X_{i1} + \beta_3X_{i3} + \beta_4Z_{i4,5}+\varepsilon_i\ \text{ con }\ \varepsilon_i \overset{iid}{\sim} N(0, \sigma^2)\ \forall i,\ i=1, \ldots,65.\] Y el estadístico de prueba:

\[F_o=\frac{\frac{SSE(M.R)-SSE(M.C)}{m}}{MSE(M.C)}\overset{}{\sim}f_{m,n-p}\] Estadísticos de prueba

# Creacion de nueva variavle Z45 y estadisticos del modelo completo y reducido
Z45=bd$X4+bd$X5
modelor=lm(Y~X1+X3+Z45,data = bd)
anova(modelo)
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X1         1 27.872 27.8721 26.0185 3.770e-06 ***
## X2         1  0.499  0.4995  0.4662    0.4974    
## X3         1 19.028 19.0275 17.7621 8.703e-05 ***
## X4         1  2.054  2.0542  1.9176    0.1713    
## X5         1  1.592  1.5919  1.4861    0.2277    
## Residuals 59 63.203  1.0712                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(modelor)
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X1         1 27.872 27.8721 25.8593 3.752e-06 ***
## X3         1 19.119 19.1194 17.7387 8.487e-05 ***
## Z45        1  1.509  1.5090  1.4001    0.2413    
## Residuals 61 65.748  1.0778                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De las tablas anteriores obtenemos que \(SSE(M.C)=63.203\), \(SSE(M.R)=65.748\) y \(MSE(M.C)=1.0712\), sabemos que m = 2, n = 65 y p = 6, con estos resultamos calculamanos nuestro estadístico de prueba \(F_o=1.1879\).

Región de Rechazo

# Región de rechazo
m = 2 
n = 65 
p = 6
alpha = 0.05
qf(alpha,m,n-p)
## [1] 0.05133791

Comparando el valor del estadístico de prueba con la región de rechazo \(f_{0.05,2,59}=0.0513\) tenemos que el estadístico de prueba cae sobre la región de rechazo, por lo tanto rechazamos nuestra hipótesis nula y concluimos que \(\beta_2 \not= 0\text{ o } \beta_4\not=\beta_5\), o bien, el efecto de la rutina de cultivos no es cero mientras que las demás covariables permanecen constantes o el efecto del censo promedio diario es diferente al efecto sobre la variables de respuesta del número de enfermeras.


4. Validación de los supuestos en los errores y verificación de valores atípicos, de balanceo e influenciales.

a. Los errores del modelo tienen media cero

Se plantean las siguientes hipótesis: \[H_0:\text{Los errores del modelo tienen media cero}\] \[H_1:\text{Los errores del modelo no tienen media cero}\] No rechazamos \(H_o\) puesto que el supuesto de media cero se cumple por defecto y determinamos que los errores del modelo tienen media cero.

b. Los errores del modelo tienen varianza constante

Se quiere verificar las siguientes hipotesis:

\[H_0:V[\epsilon_i]=\sigma^2\] \[H_1:V[\epsilon_i]\not=\sigma^2\]

# Grafico de varianza 
restud=round(rstudent(modelo),4)
plot(fitted(modelo),restud,xlab="Valores Ajustados",ylab="Residuales Estudentizados",main="Residuales Estudentizados vs.Valores Ajustados",cex=2)
abline(h=0,lty=2,col=2)

Cuando observamos el gráfico de residuales estudentizados vs. valores ajustados notamos un comportamiento aleatorio de la varianza y no sigue un patrón, se concluye que el modelo puede ser mejor ajustado pero daremos por cumplido el supuesto varianza constante.

c. Los errores del modelo se distribuyen normal

Consideremos las hipótesis: \[H_0:\epsilon_i\overset{}{\sim}Normal\] \[H_1:\epsilon_i\overset{not}{\sim}Normal\]

# Grafico de normalidad
myQQnorm(modelo)

De acuerdo al gráfico de normalidad a pesar de que cerca del centro todos los puntos se ajustan a la recta, en las colas hay mucho mas del 10% de puntos un poco alejados de ella, lo que nos lleva a pensar que para el número de observaciones consideradas y el modelo ajustado, se cumple medianamente el supuesto de normalidad.

Según el valor-p arrojado por el test de Shapiro-Wilk, este es grande, por lo que no se tiene suficiente evidencia para rechazar la hipótesis nula y los errores del modelo se distribuyen normal, sin embargo, el criterio gráfico pesa mas y diremos que este supuesto se cumple medianamente.

d. Los errores del modelo son independientes

Se plantean las hipótesis: \[H_0:\text{Los errores del modelo son independientes}\] \[H_1:\text{Los errores del modelo no son independientes}\]

Ya que de estos registros no se conoce el orden de la observaciones en el tiempo, no tenemos forma de validar este supuesto por medio del gráfico residuales vs. tiempo. Asumimos como válido el supuesto, o bien, se valida por definición del tipo de datos de corte transversal.

Estadísticos de salida

t1<-predict(modelo,se.fit=T)
t2<-round(residuals(modelo),4)
t3<-round(cooks.distance(modelo),4)
t4<-round(hatvalues(modelo),4)
t5<-round(dffits(modelo),4)
data.frame(bd$Y,yhat=round(t1$fit,4),se.yhat=round(t1$se.fit,6),residuals=t2,res.estud=restud,Cooks.D=t3,hii.value=t4,Dffits=t5)
##    bd.Y   yhat  se.yhat residuals res.estud Cooks.D hii.value  Dffits
## 1   3.7 4.1143 0.281627   -0.4143   -0.4130  0.0023    0.0740 -0.1168
## 2   2.8 4.3171 0.223854   -1.5171   -1.5179  0.0184    0.0468 -0.3362
## 3   4.2 3.9570 0.193758    0.2430    0.2371  0.0003    0.0350  0.0452
## 4   6.2 4.4732 0.306929    1.7268    1.7787  0.0490    0.0879  0.5523
## 5   5.7 4.7749 0.352663    0.9251    0.9499  0.0198    0.1161  0.3443
## 6   4.5 4.1448 0.265863    0.3552    0.3525  0.0015    0.0660  0.0937
## 7   1.6 3.2059 0.293548   -1.6059   -1.6411  0.0382    0.0804 -0.4854
## 8   5.1 5.1539 0.287489   -0.0539   -0.0537  0.0000    0.0772 -0.0155
## 9   4.1 3.8323 0.218296    0.2677    0.2625  0.0005    0.0445  0.0566
## 10  4.4 4.1014 0.237148    0.2986    0.2941  0.0008    0.0525  0.0692
## 11  5.0 4.5792 0.162106    0.4208    0.4088  0.0007    0.0245  0.0648
## 12  4.3 3.6955 0.249986    0.6045    0.5986  0.0037    0.0583  0.1490
## 13  5.3 3.7137 0.201230    1.5863    1.5822  0.0160    0.0378  0.3136
## 14  4.8 4.6769 0.402158    0.1231    0.1280  0.0005    0.1510  0.0540
## 15  4.4 5.0460 0.185804   -0.6460   -0.6312  0.0022    0.0322 -0.1152
## 16  5.3 4.5319 0.318533    0.7681    0.7774  0.0106    0.0947  0.2514
## 17  2.9 3.7425 0.213885   -0.8425   -0.8298  0.0051    0.0427 -0.1753
## 18  4.3 4.2522 0.356599    0.0478    0.0488  0.0001    0.1187  0.0179
## 19  2.0 3.1731 0.259816   -1.1731   -1.1747  0.0154    0.0630 -0.3046
## 20  2.7 3.7208 0.314166   -1.0208   -1.0358  0.0181    0.0921 -0.3300
## 21  5.6 4.6666 0.343458    0.9334    0.9553  0.0188    0.1101  0.3360
## 22  4.1 4.7862 0.463640   -0.6862   -0.7387  0.0230    0.2007 -0.3701
## 23  6.6 6.1065 0.490120    0.4935    0.5380  0.0141    0.2242  0.2893
## 24  5.1 4.6535 0.189494    0.4465    0.4358  0.0011    0.0335  0.0812
## 25  4.5 5.3635 0.287627   -0.8635   -0.8667  0.0105    0.0772 -0.2507
## 26  4.3 3.9189 0.398923    0.3811    0.3962  0.0046    0.1486  0.1655
## 27  6.5 6.9911 0.692102   -0.4911   -0.6350  0.0549    0.4471 -0.5711
## 28  2.9 3.6824 0.421061   -0.7824   -0.8252  0.0226    0.1655 -0.3675
## 29  4.5 3.3066 0.280221    1.1934    1.2022  0.0189    0.0733  0.3381
## 30  4.9 6.1056 0.464484   -1.2056   -1.3114  0.0714    0.2014 -0.6586
## 31  5.6 5.0062 0.213415    0.5938    0.5831  0.0025    0.0425  0.1229
## 32  3.0 3.9295 0.380628   -0.9295   -0.9652  0.0243    0.1352 -0.3817
## 33  5.7 5.1266 0.381952    0.5734    0.5928  0.0093    0.1362  0.2354
## 34  5.0 5.0027 0.208808   -0.0027   -0.0026  0.0000    0.0407 -0.0005
## 35  2.9 3.8205 0.230729   -0.9205   -0.9110  0.0073    0.0497 -0.2083
## 36  4.5 4.8777 0.208361   -0.3777   -0.3698  0.0010    0.0405 -0.0760
## 37  2.5 4.5394 0.270130   -2.0394   -2.0993  0.0508    0.0681 -0.5676
## 38  3.4 3.8490 0.271107   -0.4490   -0.4464  0.0025    0.0686 -0.1212
## 39  5.8 5.1913 0.403037    0.6087    0.6353  0.0121    0.1516  0.2686
## 40  4.8 5.6004 0.307301   -0.8004   -0.8075  0.0106    0.0882 -0.2511
## 41  5.4 3.7884 0.409678    1.6116    1.7237  0.0890    0.1567  0.7429
## 42  6.3 4.0671 0.146814    2.2329    2.2535  0.0163    0.0201  0.3229
## 43  6.3 4.7184 0.291469    1.5816    1.6141  0.0364    0.0793  0.4737
## 44  3.4 3.6644 0.418980   -0.2644   -0.2772  0.0025    0.1639 -0.1227
## 45  7.8 6.5282 0.501587    1.2718    1.4167  0.1010    0.2349  0.7849
## 46  6.4 5.2820 0.234490    1.1180    1.1112  0.0111    0.0513  0.2585
## 47  4.6 4.3703 0.191635    0.2297    0.2240  0.0003    0.0343  0.0422
## 48  3.1 3.3435 0.241952   -0.2435   -0.2400  0.0006    0.0546 -0.0577
## 49  4.1 4.3027 0.156387   -0.2027   -0.1965  0.0002    0.0228 -0.0300
## 50  2.9 3.9397 0.285121   -1.0397   -1.0458  0.0149    0.0759 -0.2997
## 51  4.7 3.1953 0.276387    1.5047    1.5255  0.0291    0.0713  0.4227
## 52  5.4 6.9902 0.606346   -1.5902   -1.9397  0.3130    0.3432 -1.4021
## 53  4.8 4.7744 0.240466    0.0256    0.0252  0.0000    0.0540  0.0060
## 54  2.3 3.0423 0.246426   -0.7423   -0.7356  0.0055    0.0567 -0.1803
## 55  2.0 3.5318 0.209103   -1.5318   -1.5281  0.0162    0.0408 -0.3152
## 56  5.5 4.6228 0.252506    0.8772    0.8721  0.0081    0.0595  0.2194
## 57  1.4 2.7058 0.298558   -1.3058   -1.3261  0.0263    0.0832 -0.3995
## 58  4.7 4.9103 0.201498   -0.2103   -0.2055  0.0003    0.0379 -0.0408
## 59  3.9 4.2621 0.211224   -0.3621   -0.3547  0.0009    0.0416 -0.0739
## 60  5.5 3.4066 0.215746    2.0934    2.1291  0.0324    0.0435  0.4538
## 61  3.7 3.8963 0.213522   -0.1963   -0.1922  0.0003    0.0426 -0.0405
## 62  3.9 5.0371 0.224410   -1.1371   -1.1280  0.0104    0.0470 -0.2505
## 63  4.2 4.0350 0.378101    0.1650    0.1698  0.0008    0.1335  0.0667
## 64  2.9 3.7372 0.372875   -0.8372   -0.8652  0.0187    0.1298 -0.3342
## 65  5.6 4.4172 0.156936    1.1828    1.1596  0.0052    0.0230  0.1779

Observaciones atipicas

Puesto que en la tabla de “Estadísticos de salida” no hay valores \(|r_i|>3\), no hay observaciones atipicas en nuestra base de datos.

Puntos de balanceo

Sabemos de antemano que p = 6 y n = 65, por lo tanto, decimos que una observación es un punto de balanceo si \(h_{ii}>\frac{2p}{n}=0.1846\).

Se identifica de la tabla que las observaciones 22, 23, 27, 30, 45 y 52 son puntos de balanceo. Estos son puntos alejados de las predictoras y pueden ser parte de la causa de nuestro pequeño coeficiente de determinación.

Puntos influyentes

Podemos identificar los puntos influyentes usando el criterio Distancias de Cook y DFFITS.

Usando distancias de cook, en la tabla observamos que no hay \(cook.di>1\) entonces por medio de este criterio no detectamos puntos influyentes.

Ahora bien, de acuerdo al criterio de DFFITS, vemos que las observaciones 30, 41, 45 y 52 son puntos influyentes puesto que \(|\text{ Dffits } |> 2*\sqrt{\frac{p}{n}} =0.6076\) y entonces estos valores halan el modelo en su dirección. Son valores inusuales tanto en las predictoras como la respuesta.

Finalmente puede concluirse que el modelo a pesar de tener un coeficiente de determinación bajo, los errores cumplen moderadamente con los supuestos, son pocos los valores atípicos y entonces parece ser un modelo bueno, sin embargo, podemos obtener uno mejor usando selección de variables, o bien, detectando problemas de multicolinealidad y solucionarlos junto con los expertos en el tema.


5. Presencia de multicolinealidad usando graficos y/o indicadores apropiados.

Primero que todo, analizamos los posibles problemas de multicolinealidad graficamente y matricialmente:

Grafica de correlacion de Pearson

# Grafico de correlaciones
mat_cor=cor(bd,method="pearson")
corrplot(mat_cor, type="upper", order="hclust", tl.col="black", tl.srt=45)

Matriz de correlaciones de Pearson

# Matriz de correlaciones
mat_cor
##            Y        X1          X2         X3         X4          X5
## Y  1.0000000 0.4939233  0.03723050  0.4988930 0.42648615  0.26029349
## X1 0.4939233 1.0000000  0.20636081  0.1982719 0.37908182  0.29406162
## X2 0.0372305 0.2063608  1.00000000 -0.2476300 0.03743146 -0.08511824
## X3 0.4988930 0.1982719 -0.24762997  1.0000000 0.35967155  0.10258439
## X4 0.4264861 0.3790818  0.03743146  0.3596716 1.00000000  0.07684465
## X5 0.2602935 0.2940616 -0.08511824  0.1025844 0.07684465  1.00000000

Examinando el gráfico de multicolinealidad y la matriz, notamos que no hay \(\rho>0.5\) entre variables predictoras y nos da indicios de que posiblemente no hay multicolinealidad.

Tabla mis coeficientes

# Tabla mis coeficientes
myCoefficients(modelo,bd)
## Estimated and standardized coefficients, their 95% CI's and VIF's
##                Estimation   Coef.Std   Limit_2.5% Limit_97.5%      Vif
## (Intercept) -0.5986008691 0.00000000 -3.632021689 2.434819951 0.000000
## X1           0.2106683091 0.30449605  0.053437116 0.367899502 1.375666
## X2           0.0197512078 0.07487653 -0.035697988 0.075200403 1.176970
## X3           0.0470924905 0.38685413  0.020501581 0.073683400 1.270949
## X4           0.0105603543 0.15949429 -0.004080114 0.025200822 1.302309
## X5           0.0008995893 0.12518477 -0.000577038 0.002376217 1.124675

Bajo el criterio de factores de inflación de varianza (VIF) y los valores observados en la tabla, no detectamos problemas de multicolinealidad, pues \(VIF_j<5\) para todas las variables.

Tabla indices de condición

# Tabla indices de condicion sin centrar y centrada
myCollinDiag(modelo,center = F)
## Collinearity Diagnostics 
##                               Variance Decomposition Proportions
##   Eigen_Value Condition_Index Intercept       X1       X2       X3       X4
## 1   5.4018256        1.000000  0.000239 0.000882 0.000250 0.006425 0.001403
## 2   0.3025937        4.225132  0.000186 0.000115 0.000186 0.155729 0.003353
## 3   0.2365402        4.778789  0.002390 0.004999 0.003835 0.640772 0.004296
## 4   0.0343352       12.542973  0.022346 0.003719 0.028546 0.114363 0.920851
## 5   0.0207865       16.120536  0.039926 0.976147 0.029334 0.004189 0.065410
## 6   0.0039187       37.127569  0.934914 0.014139 0.937849 0.078522 0.004686
##         X5
## 1 0.007901
## 2 0.776606
## 3 0.124325
## 4 0.002073
## 5 0.067694
## 6 0.021401
myCollinDiag(modelo,center = T)
## Collinearity Diagnostics (intercept adjusted) 
##                               Variance Decomposition Proportions
##   Eigen_Value Condition_Index       X1       X2       X3       X4       X5
## 1     1.73237        1.000000 0.132674 0.000165 0.107417 0.142121 0.064845
## 2     1.23968        1.182127 0.084396 0.443369 0.131654 0.001073 0.000002
## 3     0.98749        1.324506 0.009577 0.028267 0.056622 0.136118 0.637512
## 4     0.54613        1.781035 0.013604 0.206505 0.645686 0.572581 0.002663
## 5     0.49433        1.872015 0.759749 0.321693 0.058621 0.148107 0.294978

Usando el criterio de índices de condición, identificamos que en la tabla de datos sin centrar existen dos problemas de multicolinealidad moderada y uno de multicolinealidad severa. En la tabla de datos centrados no se hallan problemas.

Finalmente, usando la proporción de descomposición de varianza y estudiando la tabla centrada y sin centrar, encontramos que existe un problema de multicoliealidad moderada debido a una relación entre las variables \(X_3\) y \(X_4\) las cuales corresponden al número de camas y censo promedio diario, pues \(\pi_{i,j}>0.5\).

De acuerdo a los resultados, debido a la multicolinealidad del modelo, podemos tener efectos en la inflación de la varianza de los estimadores, parámetros de la regresión distorsionados, entre otros. Estos problemas pueden ser corregidos usando selección de variables y revisando posibles causas como lo son el método de recolección de muestras, las restricciones que fueron aplicadas en la población y tal vez tenemos un modelo sobredefinido.