Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 1.
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.2.1 ✔ readr 2.2.0
## ✔ forcats 1.0.1 ✔ stringr 1.6.0
## ✔ ggplot2 4.0.3 ✔ tibble 3.3.1
## ✔ lubridate 1.9.5 ✔ tidyr 1.3.2
## ✔ purrr 1.2.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## The following object is masked from 'package:purrr':
##
## some
library(ggpubr)
library(corrplot)
## corrplot 0.95 loaded
Sayula <- c(25,25,29,27,25,29,29,29,25,29,29,29,25,25,29,29,31,31,29,27,25,25,27,29,31,29,31,29,25,29)
GomezFarias <- c(29,25,25,29,25,29,29,29,27,29,31,25,25,25,29,25,29,31,29,25,27,25,25,25,25,29,29,27,27,29)
Zacoalco <- c(29,29,29,29,29,27,27,25,29,25,31,29,25,29,27,29,25,25,29,27,27,27,25,31,25,29,29,25,27,25)
Techaluta <- c(27,31,27,25,27,25,29,27,27,25,29,29,25,25,25,25,25,29,29,25,29,27,25,25,31,29,25,25,31,25)
datos <- data.frame(
Sayula,
GomezFarias,
Zacoalco,
Techaluta
)
datos_largos <- pivot_longer(datos,
cols = everything(),
names_to = "Localidad",
values_to = "IMC")
datos_largos %>%
group_by(Localidad) %>%
summarise(
Media = mean(IMC),
Mediana = median(IMC),
SD = sd(IMC),
Minimo = min(IMC),
Maximo = max(IMC)
)
## # A tibble: 4 × 6
## Localidad Media Mediana SD Minimo Maximo
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 GomezFarias 27.3 27 2.08 25 31
## 2 Sayula 27.9 29 2.15 25 31
## 3 Techaluta 26.9 27 2.13 25 31
## 4 Zacoalco 27.5 27 1.94 25 31
ggplot(datos_largos, aes(x = IMC)) +
geom_histogram(binwidth = 1, color="black", fill="skyblue") +
facet_wrap(~Localidad) +
theme_minimal()
ggqqplot(datos_largos,
x = "IMC",
facet.by = "Localidad")
by(datos_largos$IMC,
datos_largos$Localidad,
shapiro.test)
## datos_largos$Localidad: GomezFarias
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.79961, p-value = 6.449e-05
##
## ------------------------------------------------------------
## datos_largos$Localidad: Sayula
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.81358, p-value = 0.0001171
##
## ------------------------------------------------------------
## datos_largos$Localidad: Techaluta
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.80207, p-value = 7.153e-05
##
## ------------------------------------------------------------
## datos_largos$Localidad: Zacoalco
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.84349, p-value = 0.0004543
ggplot(datos_largos,
aes(x = Localidad,
y = IMC,
fill = Localidad)) +
geom_boxplot() +
theme_minimal()
leveneTest(IMC ~ Localidad,
data = datos_largos)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.1938 0.9005
## 116
modelo_anova <- aov(IMC ~ Localidad,
data = datos_largos)
summary(modelo_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Localidad 3 13.7 4.567 1.058 0.37
## Residuals 116 500.7 4.316
correlaciones <- cor(datos)
correlaciones
## Sayula GomezFarias Zacoalco Techaluta
## Sayula 1.00000000 0.44029194 -0.19965949 -0.07738834
## GomezFarias 0.44029194 1.00000000 -0.09995974 0.03518802
## Zacoalco -0.19965949 -0.09995974 1.00000000 0.14093991
## Techaluta -0.07738834 0.03518802 0.14093991 1.00000000
corrplot(correlaciones,
method = "color",
addCoef.col = "black")
cor.test(datos$Sayula,
datos$GomezFarias,
method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos$Sayula and datos$GomezFarias
## t = 2.5949, df = 28, p-value = 0.01489
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.0951093 0.6909588
## sample estimates:
## cor
## 0.4402919
modelo_regresion <- lm(GomezFarias ~ Sayula,
data = datos)
summary(modelo_regresion)
##
## Call:
## lm(formula = GomezFarias ~ Sayula, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6064 -1.0410 0.6763 1.2488 3.2488
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.3516 4.6049 3.334 0.00242 **
## Sayula 0.4276 0.1648 2.595 0.01489 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.904 on 28 degrees of freedom
## Multiple R-squared: 0.1939, Adjusted R-squared: 0.1651
## F-statistic: 6.733 on 1 and 28 DF, p-value: 0.01489
par(mfrow=c(2,2))
plot(modelo_regresion)
¿Existe diferencia significativa entre el IMC de las muestras? No En caso de existir, ¿Cuál es la localidad diferente? No hubo diferencias significativas
¿Cuáles son las localidades que mejor se correlacionan? Existe un correlacion positiva debil entre las localidades de Sayula y Gomez Farias (0.44)
¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Gomez Farias=15.35+0.42*Sayula
A qué conclusión llega. No existieron diferencias significativas entre el IMC de las regiones. Se identifico una correlacion positiva debil entre los datos de Gomez Farias y Sayula.