Los datos utilizados son de alimentos divididos en 3 grupos; liquidos, enlatados y secos. De cada grupo de tiene las calorias, el serving size, las grasas totales, colesterol, sodio. carbohidratos totales y proteinas.

library(readxl)
alimentos <- read_excel("alimentos.xlsx")
head(alimentos)
## # A tibble: 6 x 9
##   desc  grupo   cal sersize `t.fat(g)` `col(mg)` `sod(mg)` `carb(g)`
##   <chr> <chr> <dbl>   <dbl>      <dbl>     <dbl>     <dbl>     <dbl>
## 1 mezc~ Enla~    90      56          7        35       400         2
## 2 sopa  Enla~    60     120          2        15       890         8
## 3 corn~ Enla~   340     213         22        70       900        20
## 4 jamo~ Enla~   190      56         17        35       630         0
## 5 maiz  Enla~   130     123          2         0       640        25
## 6 chun~ Enla~    50      56          0        30       180         0
## # ... with 1 more variable: `prot(g)` <dbl>

Anova

¿Existe una diferencia en la cantidad de sodio entre los grupos?

Para probar si hay alguna alguna diferencia significativa en la cantidad de sodio entre los grupos de alimentos se realizó una ANOVA. Resultó en tener una diferencia significativa en por lo menos uno de los grupos, la probabilidad es menor a 0.05.

attach(alimentos)
anova=aov(`sod(mg)`~grupo)
summary(anova)
##             Df  Sum Sq Mean Sq F value   Pr(>F)    
## grupo        2 1455133  727567   19.41 5.97e-06 ***
## Residuals   27 1012280   37492                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Esto también se puede observar con una gráfica de caja y bigote, donde se ven las distribuciones de cada uno de los grupos con respecto a sodio.

library(ggplot2)
ggplot(alimentos, aes(x=grupo, y=`sod(mg)`)) + geom_boxplot(fill="gray",) +
  labs(x = "Grupos de Alimentos", y = "Sodio (mg)")

Tukey

Con la prueba de tukey podemos ver que en todos los grupos hay una diferencia en cuanto a sodio, excepto entre los grupos de secos y liquidos. Los enlatados tienen mas socio porue nos dió unos valores negativos.

TukeyHSD(anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = `sod(mg)` ~ grupo)
## 
## $grupo
##                    diff        lwr       upr     p adj
## Liquido-Enlatado -515.7 -730.40055 -300.9994 0.0000070
## Secos-Enlatado   -395.0 -609.70055 -180.2994 0.0002833
## Secos-Liquido     120.7  -94.00055  335.4006 0.3581355
plot(TukeyHSD(anova))

Correlación

¿Existe una relación entre la cantidad de carbohidratos y las calorias?

Un analisis de regresión se utiliza para saber si existe una relación entre ambas variables.

reg=lm(cal ~ `carb(g)`, data=alimentos)
summary(reg)
## 
## Call:
## lm(formula = cal ~ `carb(g)`, data = alimentos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -93.56 -36.92 -15.78  24.59 219.57 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  52.9681    18.6109   2.846  0.00819 ** 
## `carb(g)`     3.3728     0.6754   4.994 2.82e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 61.87 on 28 degrees of freedom
## Multiple R-squared:  0.4711, Adjusted R-squared:  0.4522 
## F-statistic: 24.94 on 1 and 28 DF,  p-value: 2.82e-05

En este caso podemos ver que existe una relación significativa entre ambas variables obteniendo una P<0.05.

Esto lo podemos observar con la siguiente gráfica de regresión:
ggplot(data=alimentos, aes(x=alimentos$`carb(g)`, y=alimentos$`cal`)) +
  geom_point(pch=19, color="black", size=1) +
  geom_smooth(method="lm", color="blue", linetype=1) +
  labs(x="Carbohidratos (g)", y="Calorias")