En esta actividad se presentaran ejemplos de regresión lineal, basandonos en el ejemplo de unos cereales y enfocandonos en las caracteristicas calorías, Azúcares y grasas. Descubriendo cual de las dos variables afecta mayormente en la cantidad de calorías por cereal.
Esta es la fuente de donde conseguí la información: https://www.kaggle.com/crawford/80-cereals. Esta tabla de datos contiene el registro de 80 ejemplares distintos de cereales junto con la informaciíon nutricional de estos.
cereal
## # A tibble: 77 x 3
## calories fat sugars
## <dbl> <dbl> <dbl>
## 1 70 1 6
## 2 120 5 8
## 3 70 1 5
## 4 50 0 0
## 5 110 2 8
## 6 110 2 10
## 7 110 0 14
## 8 130 2 8
## 9 90 1 6
## 10 90 0 5
## # ... with 67 more rows
Hipotesis: el azúcar tendra un mayor impacto en las calorias que contiene un cereal.
plot( cereal$fat, cereal$calories, ylab="Calorías", xlab = "Grasas")
regresion = lm(calories ~ fat, data=cereal)
abline(regresion)
Dependiente = Calorías Independiente = Grasas
plot( cereal$sugars, cereal$calories, ylab="Calorías", xlab = "Azúcares")
regresion = lm(calories ~ sugars, data=cereal)
abline(regresion)
Dependiente = Calorías Independiente = Azúcares
cor(cereal)
## calories fat sugars
## calories 1.0000000 0.4986098 0.5623403
## fat 0.4986098 1.0000000 0.2708192
## sugars 0.5623403 0.2708192 1.0000000
Como podemos comprobar con las correlaciónes de las variables los azúcares tienen un mayor impacto en la cantidad de calorías que contiene los cereales con un 56% de correlación mientras que las grasas tienen un 46% de correlación con las calorías.