Análisis sobre la relación de la velocidad, peso y calorias que se queman al correr.
Regresión lineal simple
Correr
visualizar
- Gráfico de correlación, gráfico de pares
## Peso Velocidad Caloriasq
## 1 57 5.6 120
## 2 70 5.6 149
## 3 84 5.6 178
## 4 57 6.4 135
## 5 70 6.4 167
## 6 84 6.4 200
Modelar
Grado de correlación lineal
- Matriz de coeficientes de correlación
## Peso Velocidad Caloriasq
## Peso 1.000000e+00 -6.582816e-21 0.3339803
## Velocidad -6.582816e-21 1.000000e+00 0.9149345
## Caloriasq 3.339803e-01 9.149345e-01 1.0000000
Cálculo y representación de la recta de mínimos cuadrados
##
## Call:
## lm(formula = Caloriasq ~ Velocidad, data = calorias)
##
## Residuals:
## Min 1Q Median 3Q Max
## -147.992 -40.667 -3.453 30.496 121.185
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -113.740 40.481 -2.81 0.00894 **
## Velocidad 47.296 3.943 11.99 1.5e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 68.82 on 28 degrees of freedom
## Multiple R-squared: 0.8371, Adjusted R-squared: 0.8313
## F-statistic: 143.9 on 1 and 28 DF, p-value: 1.503e-12
- Entonces la recta de minimos cuadrados seria la siguente:
\[ y = -113.740 + 47.296 x\]
Representación gráfica de la recta
plot(calorias$Velocidad, calorias$Caloriasq, xlab = "Velocidad", ylab = "Caloriasq")
abline(regresion)Modelación de valores
nuevas velocidades
## 1 2 3 4 5 6 7 8
## 595.6965 642.9922 690.2880 737.5837 784.8795 832.1753 879.4710 926.7668
## 9 10 11 12 13 14 15 16
## 974.0625 1021.3583 1068.6541 1115.9498 1163.2456 1210.5413 1257.8371 1305.1329
## 17 18 19 20 21 22 23 24
## 1352.4286 1399.7244 1447.0202 1494.3159 1541.6117 1588.9074 1636.2032 1683.4990
## 25 26 27 28 29 30
## 1730.7947 1778.0905 1825.3862 1872.6820 1919.9778 1967.2735
Inferencia en el modelo de regresión lineal simple
Suponemos que los datos proceden de un modelo de regresión simple de la forma: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] en donde:
los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)
Bajo este modelo:
Los errores típicos de los estimadores de los parametros \(\beta_0\) y \(\beta_1\) se encuentran en la columna std Error de la salida anterior. Los valores son: 40.481 y 3.943 respectivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El prámetro level permite elegir el nivel de confianza (por lo regular es 0.95)
## 2.5 % 97.5 %
## (Intercept) -196.66245 -30.81747
## Velocidad 39.21926 55.37226
## 5 % 95 %
## (Intercept) -182.60420 -44.87572
## Velocidad 40.58851 54.00301
- ¿Qué tan confiable es este modelo? Comparativa de datos reale vs datos predecidos
Intervalos de confianza
- Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo el código a continuación estima y representa los dos tipos de intervalores (para el rango de velocidades de 15 a 40 km/h), los de predicción en rojo.
nuevas.vel <- data.frame(Velocidad = seq(15,44))
# Gráfico de dispersión y recta
plot(calorias$Velocidad, calorias$Caloriasq, xlab = "Velocidad", ylab = "Calorias quemadas")
abline(regresion)
#Intervalos de confianza de la respuesta media
# ic es una matriz con 3 columnas:
# la primera es a preicción, las otras son los extremos del intervalo.
ic <- predict(regresion, nuevas.vel, interval = "confidence")
lines(nuevas.vel$Velocidad, ic[, 2], lty=2) #limite inf
lines(nuevas.vel$Velocidad, ic[, 3], lty=3) #limite superior
# Intervalos de predicción
ic <- predict(regresion, nuevas.vel, interval = "prediction")
lines(nuevas.vel$Velocidad, ic[, 2], lty=2, col = "red") #limite inf
lines(nuevas.vel$Velocidad, ic[, 3], lty=3, col = "red")ANOVA
- La tabla de análisis de varianza se obtiene con el comando ANOVA
## Analysis of Variance Table
##
## Response: Caloriasq
## Df Sum Sq Mean Sq F value Pr(>F)
## Velocidad 1 681562 681562 143.89 1.503e-12 ***
## Residuals 28 132627 4737
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Investigación
Intervalos de confianza
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Esta «alta probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 95% de certeza.
ANOVA
La técnica de análisis de varianza (ANOVA) consiste en calcular la media de cada uno de los grupos para a continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, intervarianza) frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población (tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras, la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.
Coclusión
En el ejercicio fue hecho para ver la relación que había entre la velocidad con la que alguien corre, el peso de la persona y las calorias que quema. Encontramos que la velocidad y las calorias quemadas si estan relacionadas mientras que el peso nos dice que no tiene relación. correr a mayor velocidad acelerará el metabolismo, por lo que se producirá un mayor gasto calórico incluso después del entrenamiento.