datos%>%DT::datatable()
Aplicar un Modelo de Regresión Lineal Múltiple a una base de datos que incluye la información de 98 mujeres atletas de élite que fueron entrenadas en el Instituto Australiano de Deporte.
Diagnosticar si el modelo cumple con todos los test estadísticos.
En el siguiente taller se desea observar el comportamiento de la masa corporal magra (lbm), por medio de las variables predictoras: Estatura en centimetros (ht), el peso en kilogramos (wt) y el conteo de glóbulos rojos (rec).
A continuación, se describe cada variable con su respectiva unidad de medida, denotando a la variable respuesta masa corporal magra (lbm), con la letra \(y\), mientras que a cada variable predictora con la letra \(x_{i}\).
\(x_{1}\)= Estatura en centimetros (ht)
\(x_{2}\)= Peso en kilogramos (wt)
\(x_{3}\)= Conteo de glóbulos rojos (rcc)
\(y\)= Masa corporal magra (lbm)
\(\epsilon\)= Error
Por lo tanto, la ecuación que se requiere estimar por medio del modelo de regresión lineal múltiple tiene la siguiente forma:
\[\hat{y}=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\epsilon\]
Donde:
\(\beta_{0}\)= Representa el intercepto
\(\beta_{1}\)= El coeficiente del predictor \(x_{1}\)
\(\beta_{2}\)= El coeficiente del predictor \(x_{2}\)
\(\beta_{3}\)= El coeficiente del predictor \(x_{3}\)
De este modo se analiza una base de datos que contiene información de 98 mujeres atletas de élite que fueron entrenadas en el Instituto Australiano de Deporte, con el objetivo de establecer relaciones entre las variables y encontrar un modelo de regresión lineal multiple que mejor se ajuste a la información.
# Resumen estadístico de la base de datos
summary(datos)
## lbm ht wt rcc
## Min. :34.36 Min. :148.9 Min. :37.80 Min. :3.800
## 1st Qu.:51.81 1st Qu.:170.9 1st Qu.:60.02 1st Qu.:4.162
## Median :55.20 Median :175.0 Median :67.70 Median :4.385
## Mean :54.91 Mean :174.6 Mean :67.08 Mean :4.406
## 3rd Qu.:59.52 3rd Qu.:179.7 3rd Qu.:74.38 3rd Qu.:4.553
## Max. :72.98 Max. :195.9 Max. :96.30 Max. :5.330
# Nombres de las variables de la base de datos
names(datos)
## [1] "lbm" "ht" "wt" "rcc"
# Estructura de la base de datos
str(datos)
## tibble [98 x 4] (S3: tbl_df/tbl/data.frame)
## $ lbm: num [1:98] 60.2 41.5 48.3 47.6 61.9 ...
## $ ht : num [1:98] 186 156 174 162 189 ...
## $ wt : num [1:98] 75.2 49.8 62.3 52.8 75.5 51.9 74.3 96.3 74.4 64.7 ...
## $ rcc: num [1:98] 4.31 4.21 4.42 4.2 4.62 4.52 4.44 4.71 4.41 5.31 ...
# Dimensión de la base de datos
dim(datos)
## [1] 98 4
# Renombrando las variables
y<-c(datos$lbm) # y: Variable respuesta masa corporal magra (lbm)
x1<-c(datos$ht) # x1: Variable predictora estatura en centimetros (ht)
x2<-c(datos$wt) # x2: Variable predictora peso en kilogramos (wt)
x3<-c(datos$rcc) # x3: Variable predictora conteo de glóbulos rojos (rcc)
# Resumen estadístico de la variable masa corporal magra (lbm)
summary(y)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 34.36 51.81 55.20 54.91 59.52 72.98
# Resumen estadístico de la variable estatura en centimetros (ht)
summary(x1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 148.9 170.9 175.0 174.6 179.7 195.9
# Resumen estadístico de la variable peso en kilogramos (wt)
summary(x2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 37.80 60.02 67.70 67.08 74.38 96.30
# Resumen estadístico de la variable conteo de glóbulos rojos (rcc)
summary(x3)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 4.162 4.385 4.406 4.553 5.330
# Histogramas
par(mfrow=c(2,2))
hist(y, freq=FALSE, main ="Histograma", xlab = "masa corporal magra (lbm)",
ylab = "Frecuencia",
col = "green")
curve(dnorm(x,
mean=mean(y),
sd=sd(y)),
add=TRUE, col="red")
hist(x1, freq=FALSE, main ="Histograma", xlab = "estatura en centimetros (ht)",
ylab = "Frecuencia",
col = "sky blue")
curve(dnorm(x,
mean=mean(x1),
sd=sd(x1)),
add=TRUE, col="red")
hist(x2, freq=FALSE, main ="Histograma", xlab = "peso en kilogramos (wt)",
ylab = "Frecuencia",
col = "yellow")
curve(dnorm(x,
mean=mean(x2),
sd=sd(x2)),
add=TRUE, col="red")
hist(x3, freq=FALSE, main ="Histograma",
xlab = "conteo de glóbulos rojos (rcc)",
ylab = "Frecuencia",
col = "red")
curve(dnorm(x,
mean=mean(x3),
sd=sd(x3)),
add=TRUE, col="red")
La variable masa corporal magra (lbm) sigue una distribución normal sesgada a la izquierda.
La variable peso en kilogramos (wt) se ajusta a una distribución normal sesgada a la izquierda.
La variable estatura en centimetros (ht) aparenta seguir una distribución normal sesgada a la izquierda.
La variable conteo de globulos rojos (rcc) aparenta presentar una distribución normal sesgada a la derecha.
# Matriz de dispersión
plot(datos, main="Matriz de dispersión")
# Grafica de dispersión
ggplot(datos, mapping = aes(x1 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión",
x = "Estatura en centimetros (ht)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# Grafica de dispersión
ggplot(datos, mapping = aes(x2 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", x = "Peso en
kilogramos (wt)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# Grafica de dispersión
ggplot(datos, mapping = aes(x3 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión",
x = "conteo de glóbulos rojos (rcc).", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# Gráficos Boxplot de las variables
par(mfrow=c(2,2))
boxplot(x1, col="blue", main = " Boxplot de Estatura en centimetros", cex.main=1 )
boxplot(x2,col="green", main = " Boxplot de Peso en kilogramos", cex.main=1)
boxplot(x3, col="red", main = "Boxplot de Conteo de glóbulos rojos", cex.main=1)
boxplot(y, col = "yellow", main = "Boxplot de Masa corporal magra", cex.main=1)
# Matriz de dispersión con correlaciones
ggpairs(datos) +
labs(title = "Diagrama de dispersión con correlaciones")+
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# Matriz de correlación redondeada a 7 decimales
round(cor(datos),7)
## lbm ht wt rcc
## lbm 1.0000000 0.7113271 0.9391796 0.0852420
## ht 0.7113271 1.0000000 0.7150643 0.0146028
## wt 0.9391796 0.7150643 1.0000000 0.0205492
## rcc 0.0852420 0.0146028 0.0205492 1.0000000
# Correlación entre variables regresoras x1 y x2
cor(x1, x2)
## [1] 0.7150643
# Correlación entre variables regresoras x1 y x3
cor(x1,x3)
## [1] 0.01460278
# Correlación entre variables regresoras x2 y x3
cor(x2,x3)
## [1] 0.02054923
# Correlación entre variable regresora x1 y variable respuesta y
cor(x1,y)
## [1] 0.7113271
# Correlación entre variable regresora x2 y variable respuesta y
cor(x2,y)
## [1] 0.9391796
# Correlación entre variable regresora x3 y variable respuesta y
cor(x3,y)
## [1] 0.08524203
cor.test (x1,y)
##
## Pearson's product-moment correlation
##
## data: x1 and y
## t = 9.916, df = 96, p-value = 2.253e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5971957 0.7972257
## sample estimates:
## cor
## 0.7113271
cor.test (x2, y)
##
## Pearson's product-moment correlation
##
## data: x2 and y
## t = 26.795, df = 96, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9104177 0.9589057
## sample estimates:
## cor
## 0.9391796
cor.test (x3,y)
##
## Pearson's product-moment correlation
##
## data: x3 and y
## t = 0.83825, df = 96, p-value = 0.404
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1151260 0.2789448
## sample estimates:
## cor
## 0.08524203
Al analizar las correlaciones entre las varibles observamos que:
Las variables \(x_{1}\) y \(x_{2}\) tienen una correlación positiva y significativa, por lo que ambas variables estan asociadas de forma significativamente lineal y directamente proporcional.
Las variables \(x_{1}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no existe relación lineal entre ambas variables.
Las variables \(x_{2}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no exite relación lineal entre ambas variables.
Las variables \(x_{1}\) y \(y\) tienen una correlación positiva y significativa, por lo que ambas variables presentan una relación significativamente lineal. Por otro lado, el p-valor asociado a este contraste es de \(2.253e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.
Las variables \(x_{2}\) y \(y\) tienen una relación fuerte y positiva, por lo que ambas variable tienen una relación lineal directamente proporcional. Además, el p-valor asociado a este contraste es de \(2.2e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.
Las variables \(x_{3}\) y \(y\) tienen un bajo grado de correlación cercano a cero, por lo que no exite relación lineal entre ambas variables. Por otro lado, el p-valor asociado a este contraste es de \(0.404>0.05\), por lo que no rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.
# Ajuste del modelo
modelo <- lm(y ~ x1 + x2 + x3, data = datos)
# Resumen del modelo ajustado
summary(modelo)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.0163 -1.8628 0.1932 1.8690 6.0228
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.30797 6.71133 -0.195 0.8459
## x1 0.06848 0.04126 1.660 0.1003
## x2 0.56637 0.03156 17.945 <2e-16 ***
## x3 1.42480 0.74008 1.925 0.0572 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.359 on 94 degrees of freedom
## Multiple R-squared: 0.8896, Adjusted R-squared: 0.8861
## F-statistic: 252.6 on 3 and 94 DF, p-value: < 2.2e-16
names(modelo)
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
# Coeficientes de regresión
coef(modelo)
## (Intercept) x1 x2 x3
## -1.30797273 0.06848076 0.56637440 1.42479676
# Varianza estimada
sigma(modelo)^2
## [1] 5.566424
# Desviación estándar
sigma(modelo)
## [1] 2.359327
# Residuales
modelo$df.residual
## [1] 94
El coeficiente \(\beta_{2}\) estimado en el modelo tiene un valor mayor a cero, lo cual indica una relación positiva entre el predictor \(x_{2}\) y la variable respuesta \(y\), es decir a medida que el peso de una persona aumenta, se incrementa su masa corporal magra.
El Residual standar error del modelo (RSE) indica que cualquier prediccion se aleja 2.359 unidades del valor verdadero y el coeficiente de determinación \(R^2\) establece que 88.96% de la variabilidad observada en la variable respuesta \(y\), es explicado por los predictores \(x_{1}\), \(x_{2}\) y \(x_{3}\), con un \(R_{ajustado}^2 =0.8861\). Es decir que 88.96% de la masa corporal magra (lbm), es explicada por la estatura en centimetros (ht),el peso en kilogramos (wt) y el conteo de glóobulos rojos (rec).
El p-value del modelo es significativo \(2.2e^−16<0.05\), por lo que rechazamos la hipotesis nula, esto quiere decir que algun coeficiente es distinto de cero. Esto implica que al menos una de las variables predictoras contribuye de forma significativa a la explicación de la variable respuesta, por lo que el modelo puede ser útil.
La variable predictora \(x_{2}\) (peso en kilogramos wt) tiene una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), porque el p-value <0.05.
Las variables \(x_{1}\) (estatura en centimetros ht) y \(x_{3}\) (conteo de glóbulos rojos rcc) no tienen una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), dado que tienen un p-value 0.1003 y 0.0572 respectivamente, ambos mayores a 0.05, por lo que no rechazamos la hipotesis nula de significación de ambas variables. Estas variables aportan poca información al momento de explicar la variabilidad de la variable respuesta \(y\).
Los coeficientes de regresión de las variables son: \(\beta_0=-1.30797\) , \(\beta_1=0.06848\), \(\beta_2=0.06848\) y \(\beta_3=1.42480\).
la ecuación de la recta del modelo es:
\[\hat{y}=0.06848 x_{1} + 0.56637 x_{2}+ 1.42480 x_{3} -1.30797\].
\[\hat{lbm}=0.06848 ht + 0.56637 wt + 1.42480 rcc -1.30797\].
Esta ecuación indica que juntas estas tres variables ht, wt y rcc explican de manera aproximada el 88.96% de la variación en lbm.
Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora peso (wt), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un alto grado de correlación lineal, lo que indica la dependencia entre ambas variables.
Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora estatura (ht), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un grado de correlación lineal significativo, lo que indica la dependencia entre ambas variables.
No hay una clara dependencia entre estas dos variables, porque al observar el gráfico de dispersión se puede notar que los puntos se encuentran muy dispersos y no parecen tener algun tipo de tendencia. Además ambas variables presentan un grado de correlación muy bajo que se puede considerar nulo, es decir la variable predictora (rcc) y la variable respuesta (lbm) son incorrelacionadas.
datos$lbm_Est=fitted.values(modelo)
df<-data.frame(datos)
df
## lbm ht wt rcc lbm_Est
## 1 60.17 186.2 75.2 4.31 60.17537
## 2 41.54 156.0 49.8 4.21 43.57887
## 3 48.33 173.8 62.3 4.42 52.17671
## 4 47.57 162.0 52.8 4.20 45.67462
## 5 61.85 188.7 75.5 4.62 60.95817
## 6 42.96 168.6 51.9 4.52 46.07280
## 7 61.29 179.5 74.3 4.44 59.39204
## 8 68.53 193.4 96.3 4.71 73.18885
## 9 58.55 189.7 74.4 4.41 60.10444
## 10 57.54 174.1 64.7 5.31 54.82462
## 11 64.62 180.2 73.6 4.46 59.07201
## 12 65.45 184.7 79.7 4.26 62.55010
## 13 63.04 171.1 78.9 4.81 61.94930
## 14 55.73 175.0 63.9 4.31 53.00836
## 15 59.89 171.6 74.4 5.33 60.17575
## 16 48.57 170.3 55.1 4.51 47.98736
## 17 49.13 166.1 57.3 4.24 48.56107
## 18 53.11 163.9 60.1 4.82 50.82265
## 19 45.23 171.4 49.2 4.11 44.15116
## 20 54.63 170.8 65.2 4.71 54.02694
## 21 41.93 157.9 45.8 4.66 42.08464
## 22 57.18 185.0 74.9 4.11 59.63832
## 23 53.42 179.9 62.9 4.51 53.06250
## 24 56.05 183.0 72.9 4.06 58.29737
## 25 61.46 180.5 83.8 4.23 64.54187
## 26 62.39 179.3 74.5 4.46 59.52011
## 27 54.57 171.4 66.5 4.30 54.22015
## 28 57.30 174.4 70.0 4.02 56.00896
## 29 72.98 172.3 94.8 4.75 70.95134
## 30 57.58 182.7 66.9 4.83 55.97568
## 31 54.18 173.3 74.0 4.39 58.72631
## 32 58.27 178.7 75.3 4.27 59.66141
## 33 53.11 177.3 67.5 4.17 55.00534
## 34 55.97 173.6 68.2 3.96 54.84922
## 35 55.36 177.8 69.1 4.14 55.90304
## 36 61.63 173.3 75.6 4.23 59.40454
## 37 62.46 186.3 78.5 4.87 62.84914
## 38 51.75 172.5 61.1 4.08 50.92360
## 39 56.45 178.2 67.9 4.12 55.22228
## 40 56.01 177.5 69.7 4.40 56.59276
## 41 62.96 185.2 80.5 4.37 63.19416
## 42 51.99 165.0 60.0 4.13 49.85823
## 43 46.96 162.0 53.6 4.27 46.22746
## 44 68.86 175.0 87.5 4.58 66.75949
## 45 51.48 168.0 57.3 5.16 50.00200
## 46 63.32 195.9 78.9 3.96 62.43654
## 47 52.78 179.7 67.2 4.57 55.56970
## 48 55.35 171.7 68.8 4.03 55.15866
## 49 53.54 167.3 63.7 4.44 52.55300
## 50 38.30 156.9 43.8 4.53 40.69819
## 51 63.03 172.7 83.9 4.51 64.46330
## 52 48.78 169.9 60.7 4.32 50.86096
## 53 66.24 177.9 80.5 4.26 62.53753
## 54 53.65 183.3 66.4 5.02 56.00429
## 55 63.05 175.3 75.4 3.95 59.02928
## 56 46.12 173.0 52.5 4.32 46.42898
## 57 53.41 177.0 59.7 4.77 51.42195
## 58 59.33 180.5 72.1 4.17 57.82980
## 59 54.41 174.1 74.1 3.80 57.99710
## 60 48.32 169.1 63.0 4.35 52.15158
## 61 63.39 173.5 71.4 4.46 57.36716
## 62 56.68 177.3 72.9 4.90 59.10386
## 63 55.06 178.0 61.9 4.76 52.72221
## 64 54.11 179.6 64.1 3.95 52.92372
## 65 52.72 180.9 66.0 4.87 55.39967
## 66 48.76 175.0 56.0 5.16 49.74508
## 67 53.20 172.0 59.6 4.97 51.30787
## 68 61.70 182.1 79.5 4.41 62.47249
## 69 56.48 176.0 75.0 4.49 59.62006
## 70 52.23 170.0 59.0 4.07 49.54877
## 71 53.44 176.0 66.3 4.16 54.22242
## 72 39.03 149.0 45.1 4.42 40.73675
## 73 42.95 158.9 47.8 4.19 42.61621
## 74 56.05 174.0 69.5 4.46 56.32529
## 75 60.22 181.0 69.7 4.38 56.80395
## 76 51.17 169.8 58.0 4.48 49.55286
## 77 51.62 173.7 68.8 4.44 55.87979
## 78 47.09 172.6 63.0 4.15 52.10630
## 79 60.05 180.2 78.7 4.16 61.53308
## 80 59.59 178.9 78.1 4.45 61.51742
## 81 66.85 175.6 82.8 4.77 64.40933
## 82 55.39 170.0 64.8 4.36 53.24693
## 83 54.78 181.3 73.2 3.91 58.13715
## 84 57.28 183.3 67.4 3.90 54.97489
## 85 53.77 174.0 63.7 4.10 52.52740
## 86 57.92 177.5 71.3 4.63 57.82667
## 87 56.52 179.6 70.5 4.36 57.13268
## 88 34.36 148.9 37.8 4.09 36.12518
## 89 46.52 162.5 56.1 4.38 47.83436
## 90 53.14 176.8 59.9 4.56 51.22233
## 91 57.20 176.0 74.3 4.46 59.18085
## 92 42.15 166.7 47.4 4.98 44.04940
## 93 56.58 167.9 71.5 4.00 56.38490
## 94 53.71 176.0 60.0 3.90 50.28381
## 95 46.31 163.0 50.9 4.09 44.51027
## 96 54.46 174.0 74.1 4.25 58.63141
## 97 56.31 179.7 68.7 4.51 56.33377
## 98 53.20 184.6 64.6 4.45 54.26171
y_Est<-(datos$lbm_Est)
n=98
p=4
attach(datos)
SCRes=sum((y-y_Est)^2)
SCRes
## [1] 523.2438
gl_SCRes = n-p # grados libertad
s2=SCRes/gl_SCRes
s=sqrt(s2)
Fuentes=c("Regresión","Residual","Total")
Fuentes
## [1] "Regresión" "Residual" "Total"
SCTotal=sum((y-mean(y))^2)
SCTotal
## [1] 4741.395
gl_SCTotal=n-1
gl_SCTotal
## [1] 97
SCReg=sum((y_Est - mean(y))^2)
SCReg
## [1] 4218.151
gl_SCReg=2
gl_SCReg
## [1] 2
Fuentes=c("Regresión","Residual","Total")
Suma_Cuadrados=c(SCReg,SCRes,SCTotal)
Suma_Cuadrados
## [1] 4218.1514 523.2438 4741.3952
gl=c(gl_SCReg,gl_SCRes,gl_SCTotal)
Cuadrados_Medios=c(SCReg/gl_SCReg,SCRes/gl_SCRes,NA)
F0=c(Cuadrados_Medios[1]/Cuadrados_Medios[2],NA,NA)
F0
## [1] 378.8924 NA NA
TABLA_ANOVA=tibble(Fuentes,Suma_Cuadrados,gl,Cuadrados_Medios,F0)
TABLA_ANOVA
## # A tibble: 3 x 5
## Fuentes Suma_Cuadrados gl Cuadrados_Medios F0
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Regresión 4218. 2 2109. 379.
## 2 Residual 523. 94 5.57 NA
## 3 Total 4741. 97 NA NA
anova(modelo)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 2399.08 2399.08 430.9914 < 2e-16 ***
## x2 1 1798.44 1798.44 323.0871 < 2e-16 ***
## x3 1 20.63 20.63 3.7063 0.05723 .
## Residuals 94 523.24 5.57
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(R^2=1-(SCR\div SCT)\)
# Sumas de cuadrados residuales
SCR=sum((datos$lbm-datos$lbm_Est)^2)
SCR
## [1] 523.2438
# Sumas de cuadrados totales
SCT=sum((datos$lbm-mean(datos$lbm))^2)
SCT
## [1] 4741.395
# Sea CDM el coeficiente de determinación multiple
CDM=1-(SCR/SCT)
CDM
## [1] 0.8896435
cat("El coeficiente de determinación del modelo es:",CDM," ")
## El coeficiente de determinación del modelo es: 0.8896435
\(R^2_{ajustado}=1-[(n-1)\div (n-p)]\times (1-R^2)\)
donde n es el número de observaciones y p es el número de variables.
# Sea CDMA el coeficiente de determinación multiple ajustado
n=98
p=4
CDMA=1-((98-1) /(98-4))*(1-(0.8896435))
CDMA
## [1] 0.8861215
cat("El coeficiente de determinación ajustado del modelo es:",CDMA," ")
## El coeficiente de determinación ajustado del modelo es: 0.8861215
# I.C al 95%
confint(modelo, conf.level=0.95)
## 2.5 % 97.5 %
## (Intercept) -14.63346824 12.0175228
## x1 -0.01343245 0.1503940
## x2 0.50370761 0.6290412
## x3 -0.04465812 2.8942516
Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{1}\) está entre -0.0134 y 0.1504. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.06848.
Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{2}\) está entre 0.504 y 0.630. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.56637.
Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{3}\) está entre -0.045 y 2.894. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 1.42480.
y_pred=predict(modelo,data.frame(x1=180, x2=78 , x3=4.50), interval=
"confidence", data=datos, level =0.95)
y_pred
## fit lwr upr
## 1 61.60735 60.92091 62.29379
Al analizar el modelo de regresión, se obtuvo que cumple con los test de hipotesis para ser válido.
La variable predictora peso en kilogramos (wt) es la variable que aporta mas información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).
La variable predictora conteo de globulos rojos (rcc) es la variable que aporta menos información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).
Linear Regression Analysis, Douglas C. Montgomery. Fifth edition