TRABAJO DE ANÁLISIS DE REGRESIÓN LINEAL MULTIPLE

Resumen

En el siguiente taller se desea observar el comportamiento de la masa corporal magra (lbm), por medio de las variables predictoras: Estatura en centimetros (ht), el peso en kilogramos (wt) y el conteo de glóbulos rojos (rec).

A continuación, se describe cada variable con su respectiva unidad de medida, denotando a la variable respuesta masa corporal magra (lbm), con la letra \(y\), mientras que a cada variable predictora con la letra \(x_{i}\).

\(x_{1}\)= Estatura en centimetros (ht)

\(x_{2}\)= Peso en kilogramos (wt)

\(x_{3}\)= Conteo de glóbulos rojos (rcc)

\(y\)= Masa corporal magra (lbm)

\(\epsilon\)= Error

Por lo tanto, la ecuación que se requiere estimar por medio del modelo de regresión lineal múltiple tiene la siguiente forma:

\[\hat{y}=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\epsilon\]

Donde:

\(\beta_{0}\)= Representa el intercepto

\(\beta_{1}\)= El coeficiente del predictor \(x_{1}\)

\(\beta_{2}\)= El coeficiente del predictor \(x_{2}\)

\(\beta_{3}\)= El coeficiente del predictor \(x_{3}\)

De este modo se analiza una base de datos que contiene información de 98 mujeres atletas de élite que fueron entrenadas en el Instituto Australiano de Deporte, con el objetivo de establecer relaciones entre las variables y encontrar un modelo de regresión lineal multiple que mejor se ajuste a la información.

1. Análisis descríptivo de la base de datos

# Resumen estadístico de la base de datos

summary(datos)

##       lbm              ht              wt             rcc       
##  Min.   :34.36   Min.   :148.9   Min.   :37.80   Min.   :3.800  
##  1st Qu.:51.81   1st Qu.:170.9   1st Qu.:60.02   1st Qu.:4.162  
##  Median :55.20   Median :175.0   Median :67.70   Median :4.385  
##  Mean   :54.91   Mean   :174.6   Mean   :67.08   Mean   :4.406  
##  3rd Qu.:59.52   3rd Qu.:179.7   3rd Qu.:74.38   3rd Qu.:4.553  
##  Max.   :72.98   Max.   :195.9   Max.   :96.30   Max.   :5.330

# Nombres de las variables de la base de datos

names(datos)

## [1] "lbm" "ht"  "wt"  "rcc"

# Estructura de la base de datos

str(datos)

## tibble [98 x 4] (S3: tbl_df/tbl/data.frame)
##  $ lbm: num [1:98] 60.2 41.5 48.3 47.6 61.9 ...
##  $ ht : num [1:98] 186 156 174 162 189 ...
##  $ wt : num [1:98] 75.2 49.8 62.3 52.8 75.5 51.9 74.3 96.3 74.4 64.7 ...
##  $ rcc: num [1:98] 4.31 4.21 4.42 4.2 4.62 4.52 4.44 4.71 4.41 5.31 ...

# Dimensión de la base de datos

dim(datos)

## [1] 98  4

# Renombrando las variables


y<-c(datos$lbm) # y: Variable respuesta masa corporal magra (lbm)

x1<-c(datos$ht) # x1: Variable predictora estatura en centimetros (ht)

x2<-c(datos$wt) # x2: Variable predictora peso en kilogramos (wt)

x3<-c(datos$rcc) # x3: Variable predictora conteo de glóbulos rojos (rcc)

# Resumen estadístico de la variable masa corporal magra (lbm)

summary(y)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   34.36   51.81   55.20   54.91   59.52   72.98

# Resumen estadístico de la variable estatura en centimetros (ht)

summary(x1)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   148.9   170.9   175.0   174.6   179.7   195.9

# Resumen estadístico de la variable peso en kilogramos (wt)

summary(x2)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   37.80   60.02   67.70   67.08   74.38   96.30

# Resumen estadístico de la variable conteo de glóbulos rojos (rcc)

summary(x3)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   4.162   4.385   4.406   4.553   5.330

Histogramas

# Histogramas

par(mfrow=c(2,2))

hist(y, freq=FALSE, main ="Histograma", xlab = "masa corporal magra (lbm)", 
  ylab = "Frecuencia", 
     col = "green")

curve(dnorm(x, 
            mean=mean(y), 
            sd=sd(y)), 
      add=TRUE, col="red")



hist(x1, freq=FALSE, main ="Histograma", xlab = "estatura en centimetros (ht)",
     ylab = "Frecuencia", 
     col = "sky blue")


curve(dnorm(x, 
            mean=mean(x1), 
            sd=sd(x1)), 
      add=TRUE, col="red")





hist(x2, freq=FALSE,  main ="Histograma", xlab = "peso en kilogramos (wt)", 
     ylab = "Frecuencia", 
     col = "yellow")


curve(dnorm(x, 
            mean=mean(x2), 
            sd=sd(x2)), 
      add=TRUE, col="red")





hist(x3, freq=FALSE, main ="Histograma", 
     xlab = "conteo de glóbulos rojos (rcc)",
     ylab = "Frecuencia", 
     col = "red")


curve(dnorm(x, 
            mean=mean(x3), 
            sd=sd(x3)), 
      add=TRUE, col="red")

Interpretación

La variable masa corporal magra (lbm) sigue una distribución normal sesgada a la izquierda.
La variable peso en kilogramos (wt) se ajusta a una distribución normal sesgada a la izquierda.
La variable estatura en centimetros (ht) aparenta seguir una distribución normal sesgada a la izquierda.
La variable conteo de globulos rojos (rcc) aparenta presentar una distribución normal sesgada a la derecha.

Diagramas de dispersión

# Matriz de dispersión

plot(datos, main="Matriz de dispersión")

# Grafica de dispersión

ggplot(datos, mapping = aes(x1 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", 
x = "Estatura en centimetros (ht)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))

Interpretación

El diagrama de dispersión indica una posible relación lineal positiva entre ambas variables.

# Grafica de dispersión

ggplot(datos, mapping = aes(x2 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", x = "Peso en
kilogramos (wt)", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))

Interpretación

El diagrama de dispersión indica una alta relación lineal positiva entre ambas variables.

# Grafica de dispersión

ggplot(datos, mapping = aes(x3 , y)) +
geom_point(color = "firebrick", size = 1) +
labs(title = "Diagrama de dispersión", 
x = "conteo de glóbulos rojos (rcc).", y = "Masa corporal magra (lbm)") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))

Interpretación

El diagrama de dispersión no parece indicar una relación lineal entre ambas variables.

Gráficos Boxplot

# Gráficos Boxplot de las variables
par(mfrow=c(2,2))

boxplot(x1, col="blue", main = " Boxplot de Estatura en centimetros", cex.main=1 )

boxplot(x2,col="green", main = " Boxplot de Peso en kilogramos", cex.main=1)

boxplot(x3, col="red", main = "Boxplot de Conteo de glóbulos rojos", cex.main=1)

boxplot(y, col = "yellow", main = "Boxplot de Masa corporal magra", cex.main=1)

Interpretación

En los diagramas de cajas de cada variable se observan datos atípicos que posiblemente pueden influir y representar grandes cambios en la estimación de los parámetros de localización.

Correlaciones entre variables

# Matriz de dispersión con correlaciones

ggpairs(datos) +
labs(title = "Diagrama de dispersión con correlaciones")+
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))

# Matriz de correlación redondeada a 7 decimales

round(cor(datos),7)

##           lbm        ht        wt       rcc
## lbm 1.0000000 0.7113271 0.9391796 0.0852420
## ht  0.7113271 1.0000000 0.7150643 0.0146028
## wt  0.9391796 0.7150643 1.0000000 0.0205492
## rcc 0.0852420 0.0146028 0.0205492 1.0000000

# Correlación entre variables regresoras x1 y x2

cor(x1, x2)

## [1] 0.7150643

# Correlación entre variables regresoras x1 y x3

cor(x1,x3)

## [1] 0.01460278

# Correlación entre variables regresoras x2 y x3

cor(x2,x3)

## [1] 0.02054923

# Correlación entre variable regresora x1 y variable respuesta y

cor(x1,y)

## [1] 0.7113271

# Correlación entre variable regresora x2 y variable respuesta y

cor(x2,y)

## [1] 0.9391796

# Correlación entre variable regresora x3 y variable respuesta y

cor(x3,y)

## [1] 0.08524203

cor.test (x1,y)

## 
##  Pearson's product-moment correlation
## 
## data:  x1 and y
## t = 9.916, df = 96, p-value = 2.253e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5971957 0.7972257
## sample estimates:
##       cor 
## 0.7113271

cor.test (x2, y)

## 
##  Pearson's product-moment correlation
## 
## data:  x2 and y
## t = 26.795, df = 96, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9104177 0.9589057
## sample estimates:
##       cor 
## 0.9391796

cor.test (x3,y)

## 
##  Pearson's product-moment correlation
## 
## data:  x3 and y
## t = 0.83825, df = 96, p-value = 0.404
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1151260  0.2789448
## sample estimates:
##        cor 
## 0.08524203

Interpretación de las correlaciones entre variables

Al analizar las correlaciones entre las varibles observamos que:

Las variables \(x_{1}\) y \(x_{2}\) tienen una correlación positiva y significativa, por lo que ambas variables estan asociadas de forma significativamente lineal y directamente proporcional.
Las variables \(x_{1}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no existe relación lineal entre ambas variables.
Las variables \(x_{2}\) y \(x_{3}\) tienen una correlación muy pequeña cercana a cero, lo que significa que no exite relación lineal entre ambas variables.
Las variables \(x_{1}\) y \(y\) tienen una correlación positiva y significativa, por lo que ambas variables presentan una relación significativamente lineal. Por otro lado, el p-valor asociado a este contraste es de \(2.253e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.
Las variables \(x_{2}\) y \(y\) tienen una relación fuerte y positiva, por lo que ambas variable tienen una relación lineal directamente proporcional. Además, el p-valor asociado a este contraste es de \(2.2e-16< 0.05\), por lo que rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.
Las variables \(x_{3}\) y \(y\) tienen un bajo grado de correlación cercano a cero, por lo que no exite relación lineal entre ambas variables. Por otro lado, el p-valor asociado a este contraste es de \(0.404>0.05\), por lo que no rechazamos la hipótesis de que la correlación lineal entre estas dos variables sea 0.

2. Ajuste un modelo de regresión lineal múltiple

# Ajuste del modelo 

modelo <- lm(y ~ x1 + x2 + x3, data = datos)

# Resumen del modelo ajustado

summary(modelo)

## 
## Call:
## lm(formula = y ~ x1 + x2 + x3, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.0163 -1.8628  0.1932  1.8690  6.0228 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.30797    6.71133  -0.195   0.8459    
## x1           0.06848    0.04126   1.660   0.1003    
## x2           0.56637    0.03156  17.945   <2e-16 ***
## x3           1.42480    0.74008   1.925   0.0572 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.359 on 94 degrees of freedom
## Multiple R-squared:  0.8896, Adjusted R-squared:  0.8861 
## F-statistic: 252.6 on 3 and 94 DF,  p-value: < 2.2e-16

names(modelo)

##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

# Coeficientes de regresión

coef(modelo)

## (Intercept)          x1          x2          x3 
## -1.30797273  0.06848076  0.56637440  1.42479676

# Varianza estimada

sigma(modelo)^2

## [1] 5.566424

# Desviación estándar 

sigma(modelo)

## [1] 2.359327

# Residuales

modelo$df.residual

## [1] 94

Interpretación del modelo de regresión lineal multiple

El coeficiente \(\beta_{2}\) estimado en el modelo tiene un valor mayor a cero, lo cual indica una relación positiva entre el predictor \(x_{2}\) y la variable respuesta \(y\), es decir a medida que el peso de una persona aumenta, se incrementa su masa corporal magra.
El Residual standar error del modelo (RSE) indica que cualquier prediccion se aleja 2.359 unidades del valor verdadero y el coeficiente de determinación \(R^2\) establece que 88.96% de la variabilidad observada en la variable respuesta \(y\), es explicado por los predictores \(x_{1}\), \(x_{2}\) y \(x_{3}\), con un \(R_{ajustado}^2 =0.8861\). Es decir que 88.96% de la masa corporal magra (lbm), es explicada por la estatura en centimetros (ht),el peso en kilogramos (wt) y el conteo de glóobulos rojos (rec).
El p-value del modelo es significativo \(2.2e^−16<0.05\), por lo que rechazamos la hipotesis nula, esto quiere decir que algun coeficiente es distinto de cero. Esto implica que al menos una de las variables predictoras contribuye de forma significativa a la explicación de la variable respuesta, por lo que el modelo puede ser útil.
La variable predictora \(x_{2}\) (peso en kilogramos wt) tiene una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), porque el p-value <0.05.
Las variables \(x_{1}\) (estatura en centimetros ht) y \(x_{3}\) (conteo de glóbulos rojos rcc) no tienen una relación estadisticamente significativa con la variable respuesta \(y\) (masa corporal magra lbm), dado que tienen un p-value 0.1003 y 0.0572 respectivamente, ambos mayores a 0.05, por lo que no rechazamos la hipotesis nula de significación de ambas variables. Estas variables aportan poca información al momento de explicar la variabilidad de la variable respuesta \(y\).
Los coeficientes de regresión de las variables son: \(\beta_0=-1.30797\) , \(\beta_1=0.06848\), \(\beta_2=0.06848\) y \(\beta_3=1.42480\).
la ecuación de la recta del modelo es:

\[\hat{y}=0.06848 x_{1} + 0.56637 x_{2}+ 1.42480 x_{3} -1.30797\].

\[\hat{lbm}=0.06848 ht + 0.56637 wt + 1.42480 rcc -1.30797\].

Esta ecuación indica que juntas estas tres variables ht, wt y rcc explican de manera aproximada el 88.96% de la variación en lbm.

3. ¿La masa corporal magra depende del peso del atleta?

Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora peso (wt), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un alto grado de correlación lineal, lo que indica la dependencia entre ambas variables.

4. ¿La masa corporal magra depende de la estatura del atleta?

Si, porque al observar el gráfico de dispersión entre las dos variables se puede notar que existe una relación directamente proporcional entre ambas variables, es decir a medida que aumenta la variable predictora estatura (ht), aumenta la variable respuesta masa corporal magra (lbm). Además ambas variables tienen un grado de correlación lineal significativo, lo que indica la dependencia entre ambas variables.

5. ¿La masa corporal magra depende del conteo de glóbulos rojos del atleta?

No hay una clara dependencia entre estas dos variables, porque al observar el gráfico de dispersión se puede notar que los puntos se encuentran muy dispersos y no parecen tener algun tipo de tendencia. Además ambas variables presentan un grado de correlación muy bajo que se puede considerar nulo, es decir la variable predictora (rcc) y la variable respuesta (lbm) son incorrelacionadas.

6. Tabla de análisis de varianza y significancia de la regresión.

Crea una nueva a columna ala base de datos

datos$lbm_Est=fitted.values(modelo)
df<-data.frame(datos)
df

##      lbm    ht   wt  rcc  lbm_Est
## 1  60.17 186.2 75.2 4.31 60.17537
## 2  41.54 156.0 49.8 4.21 43.57887
## 3  48.33 173.8 62.3 4.42 52.17671
## 4  47.57 162.0 52.8 4.20 45.67462
## 5  61.85 188.7 75.5 4.62 60.95817
## 6  42.96 168.6 51.9 4.52 46.07280
## 7  61.29 179.5 74.3 4.44 59.39204
## 8  68.53 193.4 96.3 4.71 73.18885
## 9  58.55 189.7 74.4 4.41 60.10444
## 10 57.54 174.1 64.7 5.31 54.82462
## 11 64.62 180.2 73.6 4.46 59.07201
## 12 65.45 184.7 79.7 4.26 62.55010
## 13 63.04 171.1 78.9 4.81 61.94930
## 14 55.73 175.0 63.9 4.31 53.00836
## 15 59.89 171.6 74.4 5.33 60.17575
## 16 48.57 170.3 55.1 4.51 47.98736
## 17 49.13 166.1 57.3 4.24 48.56107
## 18 53.11 163.9 60.1 4.82 50.82265
## 19 45.23 171.4 49.2 4.11 44.15116
## 20 54.63 170.8 65.2 4.71 54.02694
## 21 41.93 157.9 45.8 4.66 42.08464
## 22 57.18 185.0 74.9 4.11 59.63832
## 23 53.42 179.9 62.9 4.51 53.06250
## 24 56.05 183.0 72.9 4.06 58.29737
## 25 61.46 180.5 83.8 4.23 64.54187
## 26 62.39 179.3 74.5 4.46 59.52011
## 27 54.57 171.4 66.5 4.30 54.22015
## 28 57.30 174.4 70.0 4.02 56.00896
## 29 72.98 172.3 94.8 4.75 70.95134
## 30 57.58 182.7 66.9 4.83 55.97568
## 31 54.18 173.3 74.0 4.39 58.72631
## 32 58.27 178.7 75.3 4.27 59.66141
## 33 53.11 177.3 67.5 4.17 55.00534
## 34 55.97 173.6 68.2 3.96 54.84922
## 35 55.36 177.8 69.1 4.14 55.90304
## 36 61.63 173.3 75.6 4.23 59.40454
## 37 62.46 186.3 78.5 4.87 62.84914
## 38 51.75 172.5 61.1 4.08 50.92360
## 39 56.45 178.2 67.9 4.12 55.22228
## 40 56.01 177.5 69.7 4.40 56.59276
## 41 62.96 185.2 80.5 4.37 63.19416
## 42 51.99 165.0 60.0 4.13 49.85823
## 43 46.96 162.0 53.6 4.27 46.22746
## 44 68.86 175.0 87.5 4.58 66.75949
## 45 51.48 168.0 57.3 5.16 50.00200
## 46 63.32 195.9 78.9 3.96 62.43654
## 47 52.78 179.7 67.2 4.57 55.56970
## 48 55.35 171.7 68.8 4.03 55.15866
## 49 53.54 167.3 63.7 4.44 52.55300
## 50 38.30 156.9 43.8 4.53 40.69819
## 51 63.03 172.7 83.9 4.51 64.46330
## 52 48.78 169.9 60.7 4.32 50.86096
## 53 66.24 177.9 80.5 4.26 62.53753
## 54 53.65 183.3 66.4 5.02 56.00429
## 55 63.05 175.3 75.4 3.95 59.02928
## 56 46.12 173.0 52.5 4.32 46.42898
## 57 53.41 177.0 59.7 4.77 51.42195
## 58 59.33 180.5 72.1 4.17 57.82980
## 59 54.41 174.1 74.1 3.80 57.99710
## 60 48.32 169.1 63.0 4.35 52.15158
## 61 63.39 173.5 71.4 4.46 57.36716
## 62 56.68 177.3 72.9 4.90 59.10386
## 63 55.06 178.0 61.9 4.76 52.72221
## 64 54.11 179.6 64.1 3.95 52.92372
## 65 52.72 180.9 66.0 4.87 55.39967
## 66 48.76 175.0 56.0 5.16 49.74508
## 67 53.20 172.0 59.6 4.97 51.30787
## 68 61.70 182.1 79.5 4.41 62.47249
## 69 56.48 176.0 75.0 4.49 59.62006
## 70 52.23 170.0 59.0 4.07 49.54877
## 71 53.44 176.0 66.3 4.16 54.22242
## 72 39.03 149.0 45.1 4.42 40.73675
## 73 42.95 158.9 47.8 4.19 42.61621
## 74 56.05 174.0 69.5 4.46 56.32529
## 75 60.22 181.0 69.7 4.38 56.80395
## 76 51.17 169.8 58.0 4.48 49.55286
## 77 51.62 173.7 68.8 4.44 55.87979
## 78 47.09 172.6 63.0 4.15 52.10630
## 79 60.05 180.2 78.7 4.16 61.53308
## 80 59.59 178.9 78.1 4.45 61.51742
## 81 66.85 175.6 82.8 4.77 64.40933
## 82 55.39 170.0 64.8 4.36 53.24693
## 83 54.78 181.3 73.2 3.91 58.13715
## 84 57.28 183.3 67.4 3.90 54.97489
## 85 53.77 174.0 63.7 4.10 52.52740
## 86 57.92 177.5 71.3 4.63 57.82667
## 87 56.52 179.6 70.5 4.36 57.13268
## 88 34.36 148.9 37.8 4.09 36.12518
## 89 46.52 162.5 56.1 4.38 47.83436
## 90 53.14 176.8 59.9 4.56 51.22233
## 91 57.20 176.0 74.3 4.46 59.18085
## 92 42.15 166.7 47.4 4.98 44.04940
## 93 56.58 167.9 71.5 4.00 56.38490
## 94 53.71 176.0 60.0 3.90 50.28381
## 95 46.31 163.0 50.9 4.09 44.51027
## 96 54.46 174.0 74.1 4.25 58.63141
## 97 56.31 179.7 68.7 4.51 56.33377
## 98 53.20 184.6 64.6 4.45 54.26171

y_Est<-(datos$lbm_Est)

Estimación de la varianza del modelo

n=98
  
p=4

attach(datos)

SCRes=sum((y-y_Est)^2) 

SCRes

## [1] 523.2438

gl_SCRes = n-p  # grados libertad

s2=SCRes/gl_SCRes

s=sqrt(s2)

Construccion de Tabla ANOVA

Fuentes=c("Regresión","Residual","Total") 

Fuentes

## [1] "Regresión" "Residual"  "Total"

Suma de Cuadrados Total

SCTotal=sum((y-mean(y))^2) 

SCTotal

## [1] 4741.395

gl_SCTotal=n-1

gl_SCTotal

## [1] 97

Suma de Cuadrados de la regresión

SCReg=sum((y_Est - mean(y))^2) 

SCReg

## [1] 4218.151

gl_SCReg=2

gl_SCReg

## [1] 2

Fuentes=c("Regresión","Residual","Total")

Suma_Cuadrados=c(SCReg,SCRes,SCTotal)

Suma_Cuadrados

## [1] 4218.1514  523.2438 4741.3952

Tercera Columna: grados de libertad

gl=c(gl_SCReg,gl_SCRes,gl_SCTotal)

Cuarta Columna: cuadrados medios

Cuadrados_Medios=c(SCReg/gl_SCReg,SCRes/gl_SCRes,NA)

Columna del estadistico

F0=c(Cuadrados_Medios[1]/Cuadrados_Medios[2],NA,NA)


F0

## [1] 378.8924       NA       NA

TABLA_ANOVA=tibble(Fuentes,Suma_Cuadrados,gl,Cuadrados_Medios,F0)

TABLA_ANOVA

## # A tibble: 3 x 5
##   Fuentes   Suma_Cuadrados    gl Cuadrados_Medios    F0
##   <chr>              <dbl> <dbl>            <dbl> <dbl>
## 1 Regresión          4218.     2          2109.    379.
## 2 Residual            523.    94             5.57   NA 
## 3 Total              4741.    97            NA      NA

anova(modelo)

## Analysis of Variance Table
## 
## Response: y
##           Df  Sum Sq Mean Sq  F value  Pr(>F)    
## x1         1 2399.08 2399.08 430.9914 < 2e-16 ***
## x2         1 1798.44 1798.44 323.0871 < 2e-16 ***
## x3         1   20.63   20.63   3.7063 0.05723 .  
## Residuals 94  523.24    5.57                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación

El p-value del modelo es significativo \(2.2e^−16<0.05\), por lo que rechazamos la hipotesis nula, esto quiere decir que algun coeficiente es distinto de cero. Esto implica que al menos una de las variables predictoras contribuye de forma significativa al modelo de regresión, siendo la variable peso en kilogramos (wt) la variable con mayor significancia.

7. Calcular \(R^2\) y \(R_{ajustado}^2\) para este modelo. Interprete los resultados.

Coeficiente de determinación multiple

\(R^2=1-(SCR\div SCT)\)

# Sumas de cuadrados residuales

SCR=sum((datos$lbm-datos$lbm_Est)^2) 

SCR

## [1] 523.2438

# Sumas de cuadrados totales
SCT=sum((datos$lbm-mean(datos$lbm))^2) 

SCT

## [1] 4741.395

# Sea CDM el coeficiente de determinación multiple 
CDM=1-(SCR/SCT)

CDM

## [1] 0.8896435

cat("El coeficiente de determinación del modelo es:",CDM," ")

## El coeficiente de determinación del modelo es: 0.8896435

Coeficiente de determinación multiple ajustado

\(R^2_{ajustado}=1-[(n-1)\div (n-p)]\times (1-R^2)\)

donde n es el número de observaciones y p es el número de variables.

# Sea CDMA el coeficiente de determinación multiple ajustado

n=98           
p=4

CDMA=1-((98-1) /(98-4))*(1-(0.8896435))

CDMA

## [1] 0.8861215

cat("El coeficiente de determinación ajustado del modelo es:",CDMA," ")

## El coeficiente de determinación ajustado del modelo es: 0.8861215

Interpretación

El coeficiente de determinación \(R^2\) establece que 88.96% de la variabilidad observada en la variable respuesta \(y\), es explicado por los predictores \(x_{1}\), \(x_{2}\) y \(x_{3}\), con un \(R_{ajustado}^2 =0.8861\).

8. Intervalo de confíanza de 95% para los parámetros del modelo.

# I.C al 95%

confint(modelo, conf.level=0.95)

##                    2.5 %     97.5 %
## (Intercept) -14.63346824 12.0175228
## x1           -0.01343245  0.1503940
## x2            0.50370761  0.6290412
## x3           -0.04465812  2.8942516

Interpretación

Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{1}\) está entre -0.0134 y 0.1504. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.06848.
Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{2}\) está entre 0.504 y 0.630. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 0.56637.
Con una confianza del 95% se puede decir que el verdadero valor del coeficiente de la variable regresora \(x_{3}\) está entre -0.045 y 2.894. En el modelo ajustado para las variables, observamos que la estimación de dicho coeficiente fue 1.42480.

9. Determinar un intervalo de confíanza de 95% para la masa corporal magra promedio de una atleta cuya estatura es 180 cms, con un peso de 78 kilogramos y un conteo de globulos rojos de 4.50 (millones de globulos rojos por microlitro de sangre).

y_pred=predict(modelo,data.frame(x1=180, x2=78 , x3=4.50), interval=
"confidence", data=datos, level =0.95) 

y_pred

##        fit      lwr      upr
## 1 61.60735 60.92091 62.29379

Interpretación

Se espera que en promedio un atleta tenga una masa corporal magra de 61.60735 lbm. Podemos afirmar con un 95% de confianza que el verdadero valor promedio se encuentra entre (60.92091 – 62.29379).

Conclusión

Al analizar el modelo de regresión, se obtuvo que cumple con los test de hipotesis para ser válido.
La variable predictora peso en kilogramos (wt) es la variable que aporta mas información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).
La variable predictora conteo de globulos rojos (rcc) es la variable que aporta menos información al momento de explicar el comportamiento de la variable respuesta masa corporal magra (lbm).

Referencias

Linear Regression Analysis, Douglas C. Montgomery. Fifth edition
https://rpubs.com/Joaquin_AR/226291
https://rpubs.com/Cristina_Gil/Regresion_Lineal_Multiple
https://yuasaavedraco.github.io/Docs/Regresi%C3%B3n_lineal_m%C3%BAltiple_con_R.html#lectura_de_la_base_de_datos

TRABAJO DE ANÁLISIS DE REGRESIÓN LINEAL MULTIPLE

Arturo Jose Beltran Mendoza y Laura Estefania Mora Joaqui

2/12/2020

Objetivos

Resumen

1. Análisis descríptivo de la base de datos

Histogramas

Interpretación

Diagramas de dispersión

Interpretación

Interpretación

Interpretación

Gráficos Boxplot

Interpretación

Correlaciones entre variables

Interpretación de las correlaciones entre variables

2. Ajuste un modelo de regresión lineal múltiple

Interpretación del modelo de regresión lineal multiple

3. ¿La masa corporal magra depende del peso del atleta?

4. ¿La masa corporal magra depende de la estatura del atleta?

5. ¿La masa corporal magra depende del conteo de glóbulos rojos del atleta?

6. Tabla de análisis de varianza y significancia de la regresión.

Crea una nueva a columna ala base de datos

Estimación de la varianza del modelo

Construccion de Tabla ANOVA

Suma de Cuadrados Total

Suma de Cuadrados de la regresión

Tercera Columna: grados de libertad

Cuarta Columna: cuadrados medios

Columna del estadistico

Interpretación

7. Calcular \(R^2\) y \(R_{ajustado}^2\) para este modelo. Interprete los resultados.

Coeficiente de determinación multiple

Coeficiente de determinación multiple ajustado

Interpretación

8. Intervalo de confíanza de 95% para los parámetros del modelo.

Interpretación

9. Determinar un intervalo de confíanza de 95% para la masa corporal magra promedio de una atleta cuya estatura es 180 cms, con un peso de 78 kilogramos y un conteo de globulos rojos de 4.50 (millones de globulos rojos por microlitro de sangre).

Interpretación

Conclusión

Referencias