datos%>%DT::datatable()

Objetivos

Resumen

En el siguiente taller se desea observar el comportamiento de la masa corporal magra (lbm), por medio de las variables predictoras: Estatura en centimetros (ht), el peso en kilogramos (wt) y el conteo de glóbulos rojos (rec).

A continuación, se describe cada variable con su respectiva unidad de medida, denotando a la variable respuesta masa corporal magra (lbm), con la letra \(y\), mientras que a cada variable predictora con la letra \(x_{i}\).

\(x_{1}\)= Estatura en centimetros (ht)

\(x_{2}\)= Peso en kilogramos (wt)

\(x_{3}\)= Conteo de glóbulos rojos (rcc)

\(y\)= Masa corporal magra (lbm)

\(\epsilon\)= Error

Por lo tanto, la ecuación que se requiere estimar por medio del modelo de regresión lineal múltiple tiene la siguiente forma:

\[\hat{y}=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\epsilon\]

Donde:

\(\beta_{0}\)= Representa el intercepto

\(\beta_{1}\)= El coeficiente del predictor \(x_{1}\)

\(\beta_{2}\)= El coeficiente del predictor \(x_{2}\)

\(\beta_{3}\)= El coeficiente del predictor \(x_{3}\)

De este modo se analiza una base de datos que contiene información de 98 mujeres atletas de élite que fueron entrenadas en el Instituto Australiano de Deporte, con el objetivo de establecer relaciones entre las variables y encontrar un modelo de regresión lineal multiple que mejor se ajuste a la información.

1. Análisis descríptivo de la base de datos

# Resumen estadístico de la base de datos

summary(datos)
##       lbm              ht              wt             rcc       
##  Min.   :34.36   Min.   :148.9   Min.   :37.80   Min.   :3.800  
##  1st Qu.:51.81   1st Qu.:170.9   1st Qu.:60.02   1st Qu.:4.162  
##  Median :55.20   Median :175.0   Median :67.70   Median :4.385  
##  Mean   :54.91   Mean   :174.6   Mean   :67.08   Mean   :4.406  
##  3rd Qu.:59.52   3rd Qu.:179.7   3rd Qu.:74.38   3rd Qu.:4.553  
##  Max.   :72.98   Max.   :195.9   Max.   :96.30   Max.   :5.330
# Nombres de las variables de la base de datos

names(datos)
## [1] "lbm" "ht"  "wt"  "rcc"
# Estructura de la base de datos

str(datos)
## tibble [98 x 4] (S3: tbl_df/tbl/data.frame)
##  $ lbm: num [1:98] 60.2 41.5 48.3 47.6 61.9 ...
##  $ ht : num [1:98] 186 156 174 162 189 ...
##  $ wt : num [1:98] 75.2 49.8 62.3 52.8 75.5 51.9 74.3 96.3 74.4 64.7 ...
##  $ rcc: num [1:98] 4.31 4.21 4.42 4.2 4.62 4.52 4.44 4.71 4.41 5.31 ...
# Dimensión de la base de datos

dim(datos)
## [1] 98  4
# Renombrando las variables


y<-c(datos$lbm) # y: Variable respuesta masa corporal magra (lbm)

x1<-c(datos$ht) # x1: Variable predictora estatura en centimetros (ht)

x2<-c(datos$wt) # x2: Variable predictora peso en kilogramos (wt)

x3<-c(datos$rcc) # x3: Variable predictora conteo de glóbulos rojos (rcc)
# Resumen estadístico de la variable masa corporal magra (lbm)

summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   34.36   51.81   55.20   54.91   59.52   72.98
# Resumen estadístico de la variable estatura en centimetros (ht)

summary(x1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   148.9   170.9   175.0   174.6   179.7   195.9
# Resumen estadístico de la variable peso en kilogramos (wt)

summary(x2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   37.80   60.02   67.70   67.08   74.38   96.30
# Resumen estadístico de la variable conteo de glóbulos rojos (rcc)

summary(x3)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   4.162   4.385   4.406   4.553   5.330

Histogramas

# Histogramas

par(mfrow=c(2,2))

hist(y, freq=FALSE, main ="Histograma", xlab = "masa corporal magra (lbm)", 
  ylab = "Frecuencia", 
     col = "green")

curve(dnorm(x, 
            mean=mean(y), 
            sd=sd(y)), 
      add=TRUE, col="red")



hist(x1, freq=FALSE, main ="Histograma", xlab = "estatura en centimetros (ht)",
     ylab = "Frecuencia", 
     col = "sky blue")


curve(dnorm(x, 
            mean=mean(x1), 
            sd=sd(x1)), 
      add=TRUE, col="red")





hist(x2, freq=FALSE,  main ="Histograma", xlab = "peso en kilogramos (wt)", 
     ylab = "Frecuencia", 
     col = "yellow")


curve(dnorm(x, 
            mean=mean(x2), 
            sd=sd(x2)), 
      add=TRUE, col="red")





hist(x3, freq=FALSE, main ="Histograma", 
     xlab = "conteo de glóbulos rojos (rcc)",
     ylab = "Frecuencia", 
     col = "red")


curve(dnorm(x, 
            mean=mean(x3), 
            sd=sd(x3)), 
      add=TRUE, col="red")

Interpretación
  • La variable masa corporal magra (lbm) sigue una distribución normal sesgada a la izquierda.

  • La variable peso en kilogramos (wt) se ajusta a una distribución normal sesgada a la izquierda.

  • La variable estatura en centimetros (ht) aparenta seguir una distribución normal sesgada a la izquierda.

  • La variable conteo de globulos rojos (rcc) aparenta presentar una distribución normal sesgada a la derecha.

Diagramas de dispersión

# Matriz de dispersión

plot(datos, main="Matriz de dispersión")

# Grafica de dispersión

ggplot(datos, mapping = aes(x1 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", 
x = "Estatura en centimetros (ht)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5)) 

Interpretación

  • El diagrama de dispersión indica una posible relación lineal positiva entre ambas variables.
# Grafica de dispersión

ggplot(datos, mapping = aes(x2 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", x = "Peso en
kilogramos (wt)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5)) 

Interpretación

  • El diagrama de dispersión indica una alta relación lineal positiva entre ambas variables.
# Grafica de dispersión

ggplot(datos, mapping = aes(x3 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", 
x = "conteo de glóbulos rojos (rcc).", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))

Interpretación

  • El diagrama de dispersión no parece indicar una relación lineal entre ambas variables.

Gráficos Boxplot

# Gráficos Boxplot de las variables
par(mfrow=c(2,2))

boxplot(x1, col="blue", main = " Boxplot de Estatura en centimetros", cex.main=1 )

boxplot(x2,col="green", main = " Boxplot de Peso en kilogramos", cex.main=1)

boxplot(x3, col="red", main = "Boxplot de Conteo de glóbulos rojos", cex.main=1)

boxplot(y, col = "yellow", main = "Boxplot de Masa corporal magra", cex.main=1)

Interpretación

  • En los diagramas de cajas de cada variable se observan datos atípicos que posiblemente pueden influir y representar grandes cambios en la estimación de los parámetros de localización.

Correlaciones entre variables

# Matriz de dispersión con correlaciones

ggpairs(datos) +
labs(title = "Diagrama de dispersión con correlaciones")+
theme_bw() +
theme(plot.title = element_text(hjust = 0.5)) 

# Matriz de correlación redondeada a 7 decimales

round(cor(datos),7)
##           lbm        ht        wt       rcc
## lbm 1.0000000 0.7113271 0.9391796 0.0852420
## ht  0.7113271 1.0000000 0.7150643 0.0146028
## wt  0.9391796 0.7150643 1.0000000 0.0205492
## rcc 0.0852420 0.0146028 0.0205492 1.0000000
# Correlación entre variables regresoras x1 y x2

cor(x1, x2)
## [1] 0.7150643
# Correlación entre variables regresoras x1 y x3

cor(x1,x3)
## [1] 0.01460278
# Correlación entre variables regresoras x2 y x3

cor(x2,x3)
## [1] 0.02054923
# Correlación entre variable regresora x1 y variable respuesta y

cor(x1,y)
## [1] 0.7113271
# Correlación entre variable regresora x2 y variable respuesta y

cor(x2,y)
## [1] 0.9391796
# Correlación entre variable regresora x3 y variable respuesta y

cor(x3,y)
## [1] 0.08524203
cor.test (x1,y)
## 
##  Pearson's product-moment correlation
## 
## data:  x1 and y
## t = 9.916, df = 96, p-value = 2.253e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5971957 0.7972257
## sample estimates:
##       cor 
## 0.7113271
cor.test (x2, y)
## 
##  Pearson's product-moment correlation
## 
## data:  x2 and y
## t = 26.795, df = 96, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9104177 0.9589057
## sample estimates:
##       cor 
## 0.9391796
cor.test (x3,y)
## 
##  Pearson's product-moment correlation
## 
## data:  x3 and y
## t = 0.83825, df = 96, p-value = 0.404
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1151260  0.2789448
## sample estimates:
##        cor 
## 0.08524203

Interpretación de las correlaciones entre variables

Al analizar las correlaciones entre las varibles observamos que:

  • Las variables \(x_{1}\) y \(x_{2}\) tienen una correlación positiva y significativa, por lo que ambas variables estan asociadas de forma significativamente lineal y directamente proporcional.

  • Las variables \(x_{1}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no existe relación lineal entre ambas variables.

  • Las variables \(x_{2}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no exite relación lineal entre ambas variables.

  • Las variables \(x_{1}\) y \(y\) tienen una correlación positiva y significativa, por lo que ambas variables presentan una relación significativamente lineal. Por otro lado, el p-valor asociado a este contraste es de \(2.253e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.

  • Las variables \(x_{2}\) y \(y\) tienen una relación fuerte y positiva, por lo que ambas variable tienen una relación lineal directamente proporcional. Además, el p-valor asociado a este contraste es de \(2.2e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.

  • Las variables \(x_{3}\) y \(y\) tienen un bajo grado de correlación cercano a cero, por lo que no exite relación lineal entre ambas variables. Por otro lado, el p-valor asociado a este contraste es de \(0.404>0.05\), por lo que no rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.

2. Ajuste un modelo de regresión lineal múltiple

# Ajuste del modelo 

modelo <- lm(y ~ x1 + x2 + x3, data = datos)
# Resumen del modelo ajustado

summary(modelo)
## 
## Call:
## lm(formula = y ~ x1 + x2 + x3, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.0163 -1.8628  0.1932  1.8690  6.0228 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.30797    6.71133  -0.195   0.8459    
## x1           0.06848    0.04126   1.660   0.1003    
## x2           0.56637    0.03156  17.945   <2e-16 ***
## x3           1.42480    0.74008   1.925   0.0572 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.359 on 94 degrees of freedom
## Multiple R-squared:  0.8896, Adjusted R-squared:  0.8861 
## F-statistic: 252.6 on 3 and 94 DF,  p-value: < 2.2e-16
names(modelo)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"
# Coeficientes de regresión

coef(modelo)
## (Intercept)          x1          x2          x3 
## -1.30797273  0.06848076  0.56637440  1.42479676
# Varianza estimada

sigma(modelo)^2   
## [1] 5.566424
# Desviación estándar 

sigma(modelo) 
## [1] 2.359327
# Residuales

modelo$df.residual
## [1] 94

Interpretación del modelo de regresión lineal multiple

  • El coeficiente \(\beta_{2}\) estimado en el modelo tiene un valor mayor a cero, lo cual indica una relación positiva entre el predictor \(x_{2}\) y la variable respuesta \(y\), es decir a medida que el peso de una persona aumenta, se incrementa su masa corporal magra.

  • El Residual standar error del modelo (RSE) indica que cualquier prediccion se aleja 2.359 unidades del valor verdadero y el coeficiente de determinación \(R^2\) establece que 88.96% de la variabilidad observada en la variable respuesta \(y\), es explicado por los predictores \(x_{1}\), \(x_{2}\) y \(x_{3}\), con un \(R_{ajustado}^2 =0.8861\). Es decir que 88.96% de la masa corporal magra (lbm), es explicada por la estatura en centimetros (ht),el peso en kilogramos (wt) y el conteo de glóobulos rojos (rec).

  • El p-value del modelo es significativo \(2.2e^−16<0.05\), por lo que rechazamos la hipotesis nula, esto quiere decir que algun coeficiente es distinto de cero. Esto implica que al menos una de las variables predictoras contribuye de forma significativa a la explicación de la variable respuesta, por lo que el modelo puede ser útil.

  • La variable predictora \(x_{2}\) (peso en kilogramos wt) tiene una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), porque el p-value <0.05.

  • Las variables \(x_{1}\) (estatura en centimetros ht) y \(x_{3}\) (conteo de glóbulos rojos rcc) no tienen una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), dado que tienen un p-value 0.1003 y 0.0572 respectivamente, ambos mayores a 0.05, por lo que no rechazamos la hipotesis nula de significación de ambas variables. Estas variables aportan poca información al momento de explicar la variabilidad de la variable respuesta \(y\).

  • Los coeficientes de regresión de las variables son: \(\beta_0=-1.30797\) , \(\beta_1=0.06848\), \(\beta_2=0.06848\) y \(\beta_3=1.42480\).

  • la ecuación de la recta del modelo es:

\[\hat{y}=0.06848 x_{1} + 0.56637 x_{2}+ 1.42480 x_{3} -1.30797\].

\[\hat{lbm}=0.06848 ht + 0.56637 wt + 1.42480 rcc -1.30797\].

Esta ecuación indica que juntas estas tres variables ht, wt y rcc explican de manera aproximada el 88.96% de la variación en lbm.

3. ¿La masa corporal magra depende del peso del atleta?

Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora peso (wt), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un alto grado de correlación lineal, lo que indica la dependencia entre ambas variables.

4. ¿La masa corporal magra depende de la estatura del atleta?

Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora estatura (ht), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un grado de correlación lineal significativo, lo que indica la dependencia entre ambas variables.

5. ¿La masa corporal magra depende del conteo de glóbulos rojos del atleta?

No hay una clara dependencia entre estas dos variables, porque al observar el gráfico de dispersión se puede notar que los puntos se encuentran muy dispersos y no parecen tener algun tipo de tendencia. Además ambas variables presentan un grado de correlación muy bajo que se puede considerar nulo, es decir la variable predictora (rcc) y la variable respuesta (lbm) son incorrelacionadas.

6. Tabla de análisis de varianza y significancia de la regresión.

Crea una nueva a columna ala base de datos
datos$lbm_Est=fitted.values(modelo)
df<-data.frame(datos)
df
##      lbm    ht   wt  rcc  lbm_Est
## 1  60.17 186.2 75.2 4.31 60.17537
## 2  41.54 156.0 49.8 4.21 43.57887
## 3  48.33 173.8 62.3 4.42 52.17671
## 4  47.57 162.0 52.8 4.20 45.67462
## 5  61.85 188.7 75.5 4.62 60.95817
## 6  42.96 168.6 51.9 4.52 46.07280
## 7  61.29 179.5 74.3 4.44 59.39204
## 8  68.53 193.4 96.3 4.71 73.18885
## 9  58.55 189.7 74.4 4.41 60.10444
## 10 57.54 174.1 64.7 5.31 54.82462
## 11 64.62 180.2 73.6 4.46 59.07201
## 12 65.45 184.7 79.7 4.26 62.55010
## 13 63.04 171.1 78.9 4.81 61.94930
## 14 55.73 175.0 63.9 4.31 53.00836
## 15 59.89 171.6 74.4 5.33 60.17575
## 16 48.57 170.3 55.1 4.51 47.98736
## 17 49.13 166.1 57.3 4.24 48.56107
## 18 53.11 163.9 60.1 4.82 50.82265
## 19 45.23 171.4 49.2 4.11 44.15116
## 20 54.63 170.8 65.2 4.71 54.02694
## 21 41.93 157.9 45.8 4.66 42.08464
## 22 57.18 185.0 74.9 4.11 59.63832
## 23 53.42 179.9 62.9 4.51 53.06250
## 24 56.05 183.0 72.9 4.06 58.29737
## 25 61.46 180.5 83.8 4.23 64.54187
## 26 62.39 179.3 74.5 4.46 59.52011
## 27 54.57 171.4 66.5 4.30 54.22015
## 28 57.30 174.4 70.0 4.02 56.00896
## 29 72.98 172.3 94.8 4.75 70.95134
## 30 57.58 182.7 66.9 4.83 55.97568
## 31 54.18 173.3 74.0 4.39 58.72631
## 32 58.27 178.7 75.3 4.27 59.66141
## 33 53.11 177.3 67.5 4.17 55.00534
## 34 55.97 173.6 68.2 3.96 54.84922
## 35 55.36 177.8 69.1 4.14 55.90304
## 36 61.63 173.3 75.6 4.23 59.40454
## 37 62.46 186.3 78.5 4.87 62.84914
## 38 51.75 172.5 61.1 4.08 50.92360
## 39 56.45 178.2 67.9 4.12 55.22228
## 40 56.01 177.5 69.7 4.40 56.59276
## 41 62.96 185.2 80.5 4.37 63.19416
## 42 51.99 165.0 60.0 4.13 49.85823
## 43 46.96 162.0 53.6 4.27 46.22746
## 44 68.86 175.0 87.5 4.58 66.75949
## 45 51.48 168.0 57.3 5.16 50.00200
## 46 63.32 195.9 78.9 3.96 62.43654
## 47 52.78 179.7 67.2 4.57 55.56970
## 48 55.35 171.7 68.8 4.03 55.15866
## 49 53.54 167.3 63.7 4.44 52.55300
## 50 38.30 156.9 43.8 4.53 40.69819
## 51 63.03 172.7 83.9 4.51 64.46330
## 52 48.78 169.9 60.7 4.32 50.86096
## 53 66.24 177.9 80.5 4.26 62.53753
## 54 53.65 183.3 66.4 5.02 56.00429
## 55 63.05 175.3 75.4 3.95 59.02928
## 56 46.12 173.0 52.5 4.32 46.42898
## 57 53.41 177.0 59.7 4.77 51.42195
## 58 59.33 180.5 72.1 4.17 57.82980
## 59 54.41 174.1 74.1 3.80 57.99710
## 60 48.32 169.1 63.0 4.35 52.15158
## 61 63.39 173.5 71.4 4.46 57.36716
## 62 56.68 177.3 72.9 4.90 59.10386
## 63 55.06 178.0 61.9 4.76 52.72221
## 64 54.11 179.6 64.1 3.95 52.92372
## 65 52.72 180.9 66.0 4.87 55.39967
## 66 48.76 175.0 56.0 5.16 49.74508
## 67 53.20 172.0 59.6 4.97 51.30787
## 68 61.70 182.1 79.5 4.41 62.47249
## 69 56.48 176.0 75.0 4.49 59.62006
## 70 52.23 170.0 59.0 4.07 49.54877
## 71 53.44 176.0 66.3 4.16 54.22242
## 72 39.03 149.0 45.1 4.42 40.73675
## 73 42.95 158.9 47.8 4.19 42.61621
## 74 56.05 174.0 69.5 4.46 56.32529
## 75 60.22 181.0 69.7 4.38 56.80395
## 76 51.17 169.8 58.0 4.48 49.55286
## 77 51.62 173.7 68.8 4.44 55.87979
## 78 47.09 172.6 63.0 4.15 52.10630
## 79 60.05 180.2 78.7 4.16 61.53308
## 80 59.59 178.9 78.1 4.45 61.51742
## 81 66.85 175.6 82.8 4.77 64.40933
## 82 55.39 170.0 64.8 4.36 53.24693
## 83 54.78 181.3 73.2 3.91 58.13715
## 84 57.28 183.3 67.4 3.90 54.97489
## 85 53.77 174.0 63.7 4.10 52.52740
## 86 57.92 177.5 71.3 4.63 57.82667
## 87 56.52 179.6 70.5 4.36 57.13268
## 88 34.36 148.9 37.8 4.09 36.12518
## 89 46.52 162.5 56.1 4.38 47.83436
## 90 53.14 176.8 59.9 4.56 51.22233
## 91 57.20 176.0 74.3 4.46 59.18085
## 92 42.15 166.7 47.4 4.98 44.04940
## 93 56.58 167.9 71.5 4.00 56.38490
## 94 53.71 176.0 60.0 3.90 50.28381
## 95 46.31 163.0 50.9 4.09 44.51027
## 96 54.46 174.0 74.1 4.25 58.63141
## 97 56.31 179.7 68.7 4.51 56.33377
## 98 53.20 184.6 64.6 4.45 54.26171
y_Est<-(datos$lbm_Est)
Estimación de la varianza del modelo
n=98
  
p=4

attach(datos)
SCRes=sum((y-y_Est)^2) 

SCRes
## [1] 523.2438
gl_SCRes = n-p  # grados libertad

s2=SCRes/gl_SCRes

s=sqrt(s2)
Construccion de Tabla ANOVA
Fuentes=c("Regresión","Residual","Total") 

Fuentes
## [1] "Regresión" "Residual"  "Total"
Suma de Cuadrados Total
SCTotal=sum((y-mean(y))^2) 

SCTotal
## [1] 4741.395
gl_SCTotal=n-1

gl_SCTotal
## [1] 97
Suma de Cuadrados de la regresión
SCReg=sum((y_Est - mean(y))^2) 

SCReg
## [1] 4218.151
gl_SCReg=2

gl_SCReg
## [1] 2
Fuentes=c("Regresión","Residual","Total")

Suma_Cuadrados=c(SCReg,SCRes,SCTotal)

Suma_Cuadrados
## [1] 4218.1514  523.2438 4741.3952
Tercera Columna: grados de libertad
gl=c(gl_SCReg,gl_SCRes,gl_SCTotal)
Cuarta Columna: cuadrados medios
Cuadrados_Medios=c(SCReg/gl_SCReg,SCRes/gl_SCRes,NA)
Columna del estadistico
F0=c(Cuadrados_Medios[1]/Cuadrados_Medios[2],NA,NA)


F0
## [1] 378.8924       NA       NA
TABLA_ANOVA=tibble(Fuentes,Suma_Cuadrados,gl,Cuadrados_Medios,F0)

TABLA_ANOVA
## # A tibble: 3 x 5
##   Fuentes   Suma_Cuadrados    gl Cuadrados_Medios    F0
##   <chr>              <dbl> <dbl>            <dbl> <dbl>
## 1 Regresión          4218.     2          2109.    379.
## 2 Residual            523.    94             5.57   NA 
## 3 Total              4741.    97            NA      NA
anova(modelo)
## Analysis of Variance Table
## 
## Response: y
##           Df  Sum Sq Mean Sq  F value  Pr(>F)    
## x1         1 2399.08 2399.08 430.9914 < 2e-16 ***
## x2         1 1798.44 1798.44 323.0871 < 2e-16 ***
## x3         1   20.63   20.63   3.7063 0.05723 .  
## Residuals 94  523.24    5.57                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación

  • El p-value del modelo es significativo \(2.2e^−16<0.05\), por lo que rechazamos la hipotesis nula, esto quiere decir que algun coeficiente es distinto de cero. Esto implica que al menos una de las variables predictoras contribuye de forma significativa al modelo de regresión, siendo la variable peso en kilogramos (wt) la variable con mayor significancia.

7. Calcular \(R^2\) y \(R_{ajustado}^2\) para este modelo. Interprete los resultados.

Coeficiente de determinación multiple

\(R^2=1-(SCR\div SCT)\)

# Sumas de cuadrados residuales

SCR=sum((datos$lbm-datos$lbm_Est)^2) 

SCR
## [1] 523.2438
# Sumas de cuadrados totales
SCT=sum((datos$lbm-mean(datos$lbm))^2) 

SCT
## [1] 4741.395
# Sea CDM el coeficiente de determinación multiple 
CDM=1-(SCR/SCT)

CDM
## [1] 0.8896435
cat("El coeficiente de determinación del modelo es:",CDM," ")
## El coeficiente de determinación del modelo es: 0.8896435
Coeficiente de determinación multiple ajustado

\(R^2_{ajustado}=1-[(n-1)\div (n-p)]\times (1-R^2)\)

donde n es el número de observaciones y p es el número de variables.

# Sea CDMA el coeficiente de determinación multiple ajustado

n=98           
p=4

CDMA=1-((98-1) /(98-4))*(1-(0.8896435))

CDMA
## [1] 0.8861215
cat("El coeficiente de determinación ajustado del modelo es:",CDMA," ")
## El coeficiente de determinación ajustado del modelo es: 0.8861215

Interpretación

  • El coeficiente de determinación \(R^2\) establece que 88.96% de la variabilidad observada en la variable respuesta \(y\), es explicado por los predictores \(x_{1}\), \(x_{2}\) y \(x_{3}\), con un \(R_{ajustado}^2 =0.8861\).

8. Intervalo de confíanza de 95% para los parámetros del modelo.

# I.C al 95%

confint(modelo, conf.level=0.95)  
##                    2.5 %     97.5 %
## (Intercept) -14.63346824 12.0175228
## x1           -0.01343245  0.1503940
## x2            0.50370761  0.6290412
## x3           -0.04465812  2.8942516

Interpretación

  • Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{1}\) está entre -0.0134 y 0.1504. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.06848.

  • Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{2}\) está entre 0.504 y 0.630. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.56637.

  • Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{3}\) está entre -0.045 y 2.894. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 1.42480.

9. Determinar un intervalo de confíanza de 95% para la masa corporal magra promedio de una atleta cuya estatura es 180 cms, con un peso de 78 kilogramos y un conteo de globulos rojos de 4.50 (millones de globulos rojos por microlitro de sangre).

y_pred=predict(modelo,data.frame(x1=180, x2=78 , x3=4.50), interval=
"confidence", data=datos, level =0.95) 

y_pred
##        fit      lwr      upr
## 1 61.60735 60.92091 62.29379

Interpretación

  • Se espera que en promedio un atleta tenga una masa corporal magra de 61.60735 lbm. Podemos afirmar con un 95% de confianza que el verdadero valor promedio se encuentra entre (60.92091 – 62.29379).

Conclusión

  • Al analizar el modelo de regresión, se obtuvo que cumple con los test de hipotesis para ser válido.

  • La variable predictora peso en kilogramos (wt) es la variable que aporta mas información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).

  • La variable predictora conteo de globulos rojos (rcc) es la variable que aporta menos información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).