U1A10

Silvia Flores

21/9/2020

Análisis sobre la relación de la velocidad, peso y calorias que se queman al correr.

Regresión lineal simple

Correr

Importar

Paquetes

library("pacman")
p_load("readr")

datos

calorias <- read.csv("calorias.csv")

visualizar

  • Gráfico de correlación, gráfico de pares
head(calorias)
##   Peso Velocidad Caloriasq
## 1   57       5.6       120
## 2   70       5.6       149
## 3   84       5.6       178
## 4   57       6.4       135
## 5   70       6.4       167
## 6   84       6.4       200
pairs(calorias)

Modelar

Grado de correlación lineal

  • Matriz de coeficientes de correlación
cor(calorias)
##                    Peso     Velocidad Caloriasq
## Peso       1.000000e+00 -6.582816e-21 0.3339803
## Velocidad -6.582816e-21  1.000000e+00 0.9149345
## Caloriasq  3.339803e-01  9.149345e-01 1.0000000

Cálculo y representación de la recta de mínimos cuadrados

regresion <- lm(Caloriasq ~ Velocidad, data=calorias)
summary(regresion)
## 
## Call:
## lm(formula = Caloriasq ~ Velocidad, data = calorias)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -147.992  -40.667   -3.453   30.496  121.185 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -113.740     40.481   -2.81  0.00894 ** 
## Velocidad     47.296      3.943   11.99  1.5e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 68.82 on 28 degrees of freedom
## Multiple R-squared:  0.8371, Adjusted R-squared:  0.8313 
## F-statistic: 143.9 on 1 and 28 DF,  p-value: 1.503e-12
  • Entonces la recta de minimos cuadrados seria la siguente:

\[ y = -113.740 + 47.296 x\]

Representación gráfica de la recta

plot(calorias$Velocidad, calorias$Caloriasq, xlab = "Velocidad", ylab = "Caloriasq")
abline(regresion)

Modelación de valores

nuevas velocidades

nuevas.vel <- data.frame(Velocidad =seq(15,44))
predict(regresion, nuevas.vel)
##         1         2         3         4         5         6         7         8 
##  595.6965  642.9922  690.2880  737.5837  784.8795  832.1753  879.4710  926.7668 
##         9        10        11        12        13        14        15        16 
##  974.0625 1021.3583 1068.6541 1115.9498 1163.2456 1210.5413 1257.8371 1305.1329 
##        17        18        19        20        21        22        23        24 
## 1352.4286 1399.7244 1447.0202 1494.3159 1541.6117 1588.9074 1636.2032 1683.4990 
##        25        26        27        28        29        30 
## 1730.7947 1778.0905 1825.3862 1872.6820 1919.9778 1967.2735

Inferencia en el modelo de regresión lineal simple

Suponemos que los datos proceden de un modelo de regresión simple de la forma: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] en donde:

los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)

Bajo este modelo:

  • Los errores típicos de los estimadores de los parametros \(\beta_0\) y \(\beta_1\) se encuentran en la columna std Error de la salida anterior. Los valores son: 40.481 y 3.943 respectivamente.

  • Los intervalos de confianza de los parámetros se obtienen con el comando confint. El prámetro level permite elegir el nivel de confianza (por lo regular es 0.95)

confint(regresion)
##                  2.5 %    97.5 %
## (Intercept) -196.66245 -30.81747
## Velocidad     39.21926  55.37226
confint(regresion, level = 0.90)
##                    5 %      95 %
## (Intercept) -182.60420 -44.87572
## Velocidad     40.58851  54.00301
  • ¿Qué tan confiable es este modelo? Comparativa de datos reale vs datos predecidos

Intervalos de confianza

  • Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo el código a continuación estima y representa los dos tipos de intervalores (para el rango de velocidades de 15 a 40 km/h), los de predicción en rojo.
nuevas.vel <- data.frame(Velocidad = seq(15,44))
# Gráfico de dispersión y recta
plot(calorias$Velocidad, calorias$Caloriasq, xlab = "Velocidad", ylab = "Calorias quemadas")
abline(regresion)

#Intervalos de confianza de la respuesta media
# ic es una matriz con 3 columnas:
# la primera es a preicción, las otras son los extremos del intervalo.
ic <- predict(regresion, nuevas.vel, interval = "confidence")
lines(nuevas.vel$Velocidad, ic[, 2], lty=2) #limite inf
lines(nuevas.vel$Velocidad, ic[, 3], lty=3) #limite superior

# Intervalos de predicción
ic <- predict(regresion, nuevas.vel, interval = "prediction")
lines(nuevas.vel$Velocidad, ic[, 2], lty=2, col = "red") #limite inf
lines(nuevas.vel$Velocidad, ic[, 3], lty=3, col = "red")

ANOVA

  • La tabla de análisis de varianza se obtiene con el comando ANOVA
anova(regresion)
## Analysis of Variance Table
## 
## Response: Caloriasq
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## Velocidad  1 681562  681562  143.89 1.503e-12 ***
## Residuals 28 132627    4737                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Investigación

Intervalos de confianza

El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Esta «alta probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 95% de certeza.

ANOVA

La técnica de análisis de varianza (ANOVA) consiste en calcular la media de cada uno de los grupos para a continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, intervarianza) frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población (tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras, la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.

Coclusión

En el ejercicio fue hecho para ver la relación que había entre la velocidad con la que alguien corre, el peso de la persona y las calorias que quema. Encontramos que la velocidad y las calorias quemadas si estan relacionadas mientras que el peso nos dice que no tiene relación. correr a mayor velocidad acelerará el metabolismo, por lo que se producirá un mayor gasto calórico incluso después del entrenamiento.