library(readxl)
alimentos <- read_excel("alimentos.xlsx")
head(alimentos)
## # A tibble: 6 x 9
## desc grupo cal sersize `t.fat(g)` `col(mg)` `sod(mg)` `carb(g)`
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 mezc~ Enla~ 90 56 7 35 400 2
## 2 sopa Enla~ 60 120 2 15 890 8
## 3 corn~ Enla~ 340 213 22 70 900 20
## 4 jamo~ Enla~ 190 56 17 35 630 0
## 5 maiz Enla~ 130 123 2 0 640 25
## 6 chun~ Enla~ 50 56 0 30 180 0
## # ... with 1 more variable: `prot(g)` <dbl>
Para probar si hay alguna alguna diferencia significativa en la cantidad de sodio entre los grupos de alimentos se realizó una ANOVA. Resultó en tener una diferencia significativa en por lo menos uno de los grupos, la probabilidad es menor a 0.05.
attach(alimentos)
anova=aov(`sod(mg)`~grupo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## grupo 2 1455133 727567 19.41 5.97e-06 ***
## Residuals 27 1012280 37492
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Esto también se puede observar con una gráfica de caja y bigote, donde se ven las distribuciones de cada uno de los grupos con respecto a sodio.
library(ggplot2)
ggplot(alimentos, aes(x=grupo, y=`sod(mg)`)) + geom_boxplot(fill="gray",) +
labs(x = "Grupos de Alimentos", y = "Sodio (mg)")
Con la prueba de tukey podemos ver que en todos los grupos hay una diferencia en cuanto a sodio, excepto entre los grupos de secos y liquidos. Los enlatados tienen mas socio porue nos dió unos valores negativos.
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = `sod(mg)` ~ grupo)
##
## $grupo
## diff lwr upr p adj
## Liquido-Enlatado -515.7 -730.40055 -300.9994 0.0000070
## Secos-Enlatado -395.0 -609.70055 -180.2994 0.0002833
## Secos-Liquido 120.7 -94.00055 335.4006 0.3581355
plot(TukeyHSD(anova))
Un analisis de regresión se utiliza para saber si existe una relación entre ambas variables.
reg=lm(cal ~ `carb(g)`, data=alimentos)
summary(reg)
##
## Call:
## lm(formula = cal ~ `carb(g)`, data = alimentos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -93.56 -36.92 -15.78 24.59 219.57
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.9681 18.6109 2.846 0.00819 **
## `carb(g)` 3.3728 0.6754 4.994 2.82e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 61.87 on 28 degrees of freedom
## Multiple R-squared: 0.4711, Adjusted R-squared: 0.4522
## F-statistic: 24.94 on 1 and 28 DF, p-value: 2.82e-05
En este caso podemos ver que existe una relación significativa entre ambas variables obteniendo una P<0.05.
ggplot(data=alimentos, aes(x=alimentos$`carb(g)`, y=alimentos$`cal`)) +
geom_point(pch=19, color="black", size=1) +
geom_smooth(method="lm", color="blue", linetype=1) +
labs(x="Carbohidratos (g)", y="Calorias")