title: “Análisis estadístico del IMC en municipios del Sur de Jalisco” author: “Tu nombre” date: “2026-05-10” output: html_document —
Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 2.
library(tidyverse)
library(car)
library(rstatix)
library(ggpubr)
datos <- data.frame(
Municipio = rep(c("Tuxpan", "Tamazula", "Zapotlan", "Zapotiltic"), each = 30),
IMC = c(
27,25,23,23,30,24,20,25,26,27,
32,24,22,28,25,22,23,26,26,30,
25,21,25,25,25,23,29,26,26,24,
25,18,25,19,24,26,25,25,24,26,
24,22,26,21,25,23,25,26,20,23,
20,26,23,30,31,24,27,27,26,23,
25,26,27,30,21,29,31,27,22,26,
19,21,23,26,26,25,27,28,21,26,
23,28,20,25,28,26,19,23,29,26,
24,23,30,28,27,25,24,20,24,21,
29,23,26,21,21,17,23,20,25,21,
24,21,30,24,23,20,25,29,27,27
)
)
datos$Municipio <- as.factor(datos$Municipio)
head(datos)
## Municipio IMC
## 1 Tuxpan 27
## 2 Tuxpan 25
## 3 Tuxpan 23
## 4 Tuxpan 23
## 5 Tuxpan 30
## 6 Tuxpan 24
str(datos)
## 'data.frame': 120 obs. of 2 variables:
## $ Municipio: Factor w/ 4 levels "Tamazula","Tuxpan",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ IMC : num 27 25 23 23 30 24 20 25 26 27 ...
summary(datos)
## Municipio IMC
## Tamazula :30 Min. :17.00
## Tuxpan :30 1st Qu.:23.00
## Zapotiltic:30 Median :25.00
## Zapotlan :30 Mean :24.68
## 3rd Qu.:26.00
## Max. :32.00
table(datos$Municipio)
##
## Tamazula Tuxpan Zapotiltic Zapotlan
## 30 30 30 30
La base de datos está conformada por 120 observaciones, distribuidas en cuatro municipios: Tuxpan, Tamazula, Zapotlán y Zapotiltic. Cada municipio cuenta con 30 registros de IMC. La variable IMC es cuantitativa, mientras que Municipio es una variable cualitativa nominal. # Estadística descriptiva
aggregate(IMC ~ Municipio, data = datos, FUN = mean)
## Municipio IMC
## 1 Tamazula 24.30000
## 2 Tuxpan 25.23333
## 3 Zapotiltic 24.06667
## 4 Zapotlan 25.10000
aggregate(IMC ~ Municipio, data = datos, FUN = median)
## Municipio IMC
## 1 Tamazula 25
## 2 Tuxpan 25
## 3 Zapotiltic 24
## 4 Zapotlan 26
aggregate(IMC ~ Municipio, data = datos, FUN = sd)
## Municipio IMC
## 1 Tamazula 2.878577
## 2 Tuxpan 2.712466
## 3 Zapotiltic 3.310728
## 4 Zapotlan 3.241434
aggregate(IMC ~ Municipio, data = datos, FUN = min)
## Municipio IMC
## 1 Tamazula 18
## 2 Tuxpan 20
## 3 Zapotiltic 17
## 4 Zapotlan 19
aggregate(IMC ~ Municipio, data = datos, FUN = max)
## Municipio IMC
## 1 Tamazula 31
## 2 Tuxpan 32
## 3 Zapotiltic 30
## 4 Zapotlan 31
Se calcularon medidas descriptivas del IMC por municipio, incluyendo media, mediana, desviación estándar, valor mínimo y valor máximo. Esto permite observar el comportamiento general de los datos antes de aplicar pruebas inferenciales. # Pruebas de normalidad
Antes de seleccionar la prueba estadística principal, se evaluó la normalidad de los datos. Esto es necesario porque las pruebas paramétricas, como ANOVA, requieren que los datos presenten una distribución aproximadamente normal dentro de cada grupo.
hist(datos$IMC[datos$Municipio == "Tuxpan"],
main = "Histograma de IMC - Tuxpan",
xlab = "IMC")
hist(datos$IMC[datos$Municipio == "Tamazula"],
main = "Histograma de IMC - Tamazula",
xlab = "IMC")
hist(datos$IMC[datos$Municipio == "Zapotlan"],
main = "Histograma de IMC - Zapotlán",
xlab = "IMC")
hist(datos$IMC[datos$Municipio == "Zapotiltic"],
main = "Histograma de IMC - Zapotiltic",
xlab = "IMC")
## Gráficos Q-Q
qqnorm(datos$IMC[datos$Municipio == "Tuxpan"],
main = "Q-Q plot - Tuxpan")
qqline(datos$IMC[datos$Municipio == "Tuxpan"])
qqnorm(datos$IMC[datos$Municipio == "Tamazula"],
main = "Q-Q plot - Tamazula")
qqline(datos$IMC[datos$Municipio == "Tamazula"])
qqnorm(datos$IMC[datos$Municipio == "Zapotlan"],
main = "Q-Q plot - Zapotlán")
qqline(datos$IMC[datos$Municipio == "Zapotlan"])
qqnorm(datos$IMC[datos$Municipio == "Zapotiltic"],
main = "Q-Q plot - Zapotiltic")
qqline(datos$IMC[datos$Municipio == "Zapotiltic"])
Los gráficos Q-Q permiten observar si los datos se aproximan a una distribución normal.
by(datos$IMC, datos$Municipio, shapiro.test)
## datos$Municipio: Tamazula
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.95488, p-value = 0.228
##
## ------------------------------------------------------------
## datos$Municipio: Tuxpan
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.96395, p-value = 0.3892
##
## ------------------------------------------------------------
## datos$Municipio: Zapotiltic
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.9644, p-value = 0.3992
##
## ------------------------------------------------------------
## datos$Municipio: Zapotlan
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.95285, p-value = 0.2014
Los resultados de la prueba de Shapiro-Wilk muestran valores de p mayores a 0.05 en los cuatro municipios. Por lo tanto, no se rechaza la hipótesis nula de normalidad. Esto indica que los datos presentan una distribución compatible con la normalidad.
Después de evaluar la normalidad, se analizó el supuesto de homocedasticidad. La homocedasticidad se refiere a la igualdad o similitud de varianzas entre los grupos comparados. Este supuesto es importante para poder aplicar una prueba paramétrica como ANOVA de una vía.
boxplot(IMC ~ Municipio,
data = datos,
main = "Distribución del IMC por municipio",
xlab = "Municipio",
ylab = "IMC")
El diagrama de caja permite observar de manera visual la dispersión del IMC en cada municipio.
bartlett.test(IMC ~ Municipio, data = datos)
##
## Bartlett test of homogeneity of variances
##
## data: IMC by Municipio
## Bartlett's K-squared = 1.5396, df = 3, p-value = 0.6732
La prueba de Bartlett evalúa si las varianzas son iguales entre los grupos.
El valor de p obtenido en la prueba de Bartlett fue mayor a 0.05, por lo que no se rechaza la hipótesis nula. Esto indica que las varianzas entre los municipios son homogéneas. Por lo tanto, se cumple con la homocedasticidad.
Debido a que los datos cumplen con los supuestos de normalidad y homocedasticidad, se utilizó un ANOVA de una vía. Esta prueba permite comparar las medias de una variable cuantitativa entre tres o más grupos independientes.
En este caso, se comparó el IMC promedio entre los cuatro municipios: Tuxpan, Tamazula, Zapotlán y Zapotiltic.
La hipótesis nula establece que las medias de IMC son iguales entre los municipios:
H₀: μTuxpan = μTamazula = μZapotlán = μZapotiltic
La hipótesis alternativa establece que al menos una media de IMC es diferente:
H₁: al menos una media es diferente
modelo_anova <- aov(IMC ~ Municipio, data = datos)
summary(modelo_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Municipio 3 30.1 10.031 1.081 0.36
## Residuals 116 1076.2 9.278
El resultado del ANOVA de una vía mostró un valor de F = 1.081 con un valor de p = 0.36. Debido a que p > 0.05, no se rechaza la hipótesis nula.
Esto significa que no existen diferencias estadísticamente significativas en el IMC promedio entre los municipios de Tuxpan, Tamazula, Zapotlán y Zapotiltic.
Aunque descriptivamente puede haber pequeñas diferencias entre las medias de IMC de los municipios, estas diferencias no son suficientes para considerarse significativas desde el punto de vista estadístico.
El test post-hoc de Tukey se utiliza después de un ANOVA significativo para identificar entre qué grupos existen diferencias. En este caso, el ANOVA no fue estadísticamente significativo; sin embargo, se presenta el análisis de Tukey como complemento.
TukeyHSD(modelo_anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = IMC ~ Municipio, data = datos)
##
## $Municipio
## diff lwr upr p adj
## Tuxpan-Tamazula 0.9333333 -1.116714 2.9833803 0.6364219
## Zapotiltic-Tamazula -0.2333333 -2.283380 1.8167136 0.9908727
## Zapotlan-Tamazula 0.8000000 -1.250047 2.8500470 0.7397154
## Zapotiltic-Tuxpan -1.1666667 -3.216714 0.8833803 0.4507644
## Zapotlan-Tuxpan -0.1333333 -2.183380 1.9167136 0.9982579
## Zapotlan-Zapotiltic 1.0333333 -1.016714 3.0833803 0.5560019
Aunque el ANOVA no fue estadísticamente significativo, se realizó la prueba post-hoc de Tukey como análisis complementario. Los resultados muestran que ninguna comparación entre municipios presentó valores de p ajustados menores a 0.05.
Por lo tanto, se confirma que no existen diferencias estadísticamente significativas entre pares de municipios. La comparación con menor valor de p ajustado fue Zapotiltic-Tuxpan, con p = 0.4508, pero aun así este valor es mayor a 0.05.
Debido a que los datos cumplieron el supuesto de normalidad, se utilizó la correlación de Pearson.
Para este análisis, los datos se organizaron en formato ancho, colocando cada municipio como una variable. Es importante mencionar que esta correlación se interpreta como un análisis complementario, ya que las observaciones pertenecen a grupos independientes.
datos_ancho <- data.frame(
Tuxpan = c(27,25,23,23,30,24,20,25,26,27,
32,24,22,28,25,22,23,26,26,30,
25,21,25,25,25,23,29,26,26,24),
Tamazula = c(25,18,25,19,24,26,25,25,24,26,
24,22,26,21,25,23,25,26,20,23,
20,26,23,30,31,24,27,27,26,23),
Zapotlan = c(25,26,27,30,21,29,31,27,22,26,
19,21,23,26,26,25,27,28,21,26,
23,28,20,25,28,26,19,23,29,26),
Zapotiltic = c(24,23,30,28,27,25,24,20,24,21,
29,23,26,21,21,17,23,20,25,21,
24,21,30,24,23,20,25,29,27,27)
)
cor(datos_ancho, method = "pearson")
## Tuxpan Tamazula Zapotlan Zapotiltic
## Tuxpan 1.00000000 -0.01810688 -0.5322067 0.1633216
## Tamazula -0.01810688 1.00000000 0.1334118 -0.0202623
## Zapotlan -0.53220670 0.13341175 1.0000000 -0.2962594
## Zapotiltic 0.16332161 -0.02026230 -0.2962594 1.0000000
La matriz de correlación de Pearson mostró asociaciones variables entre los municipios. La correlación más alta en magnitud fue entre Tuxpan y Zapotlán, con r = -0.5322, lo que indica una correlación negativa moderada. La correlación entre Zapotlán y Zapotiltic fue r = -0.2963, lo que indica una correlación negativa débil. La correlación entre Tuxpan y Zapotiltic fue r = 0.1633, considerada positiva débil. Las demás correlaciones fueron muy cercanas a cero: Tuxpan con Tamazula presentó r = -0.0181 y Tamazula con Zapotiltic r = -0.0203, lo que sugiere ausencia de asociación lineal.
cor.test(datos_ancho$Tuxpan, datos_ancho$Tamazula, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Tuxpan and datos_ancho$Tamazula
## t = -0.095828, df = 28, p-value = 0.9243
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3759238 0.3444090
## sample estimates:
## cor
## -0.01810688
cor.test(datos_ancho$Tuxpan, datos_ancho$Zapotlan, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Tuxpan and datos_ancho$Zapotlan
## t = -3.3264, df = 28, p-value = 0.002468
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7488862 -0.2127248
## sample estimates:
## cor
## -0.5322067
cor.test(datos_ancho$Tuxpan, datos_ancho$Zapotiltic, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Tuxpan and datos_ancho$Zapotiltic
## t = 0.87598, df = 28, p-value = 0.3885
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2092604 0.4944949
## sample estimates:
## cor
## 0.1633216
cor.test(datos_ancho$Tamazula, datos_ancho$Zapotlan, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Tamazula and datos_ancho$Zapotlan
## t = 0.71232, df = 28, p-value = 0.4822
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2383117 0.4710408
## sample estimates:
## cor
## 0.1334118
cor.test(datos_ancho$Tamazula, datos_ancho$Zapotiltic, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Tamazula and datos_ancho$Zapotiltic
## t = -0.10724, df = 28, p-value = 0.9154
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3777738 0.3425072
## sample estimates:
## cor
## -0.0202623
cor.test(datos_ancho$Zapotlan, datos_ancho$Zapotiltic, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos_ancho$Zapotlan and datos_ancho$Zapotiltic
## t = -1.6413, df = 28, p-value = 0.1119
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.59321315 0.07165807
## sample estimates:
## cor
## -0.2962594
Se aplicaron pruebas de correlación de Pearson entre los valores de IMC de los municipios, debido a que los datos cumplieron el supuesto de normalidad. La correlación entre Tuxpan y Tamazula fue r = -0.0181, con p = 0.9243. Esto indica una correlación prácticamente nula y no significativa. La correlación entre Tuxpan y Zapotlán fue r = -0.5322, con p = 0.0025. Este resultado indica una correlación negativa moderada y estadísticamente significativa. La correlación entre Tuxpan y Zapotiltic fue r = 0.1633, con p = 0.3885. Esta correlación es positiva débil y no significativa. La correlación entre Tamazula y Zapotlán fue r = 0.1334, con p = 0.4822. Esto indica una correlación positiva débil, sin significancia estadística. La correlación entre Tamazula y Zapotiltic fue r = -0.0203, con p = 0.9154. Esta correlación es prácticamente nula y no significativa. La correlación entre Zapotlán y Zapotiltic fue r = -0.2963, con p = 0.1119. Esto indica una correlación negativa débil, pero no significativa.
Se ajustó un modelo de regresión lineal utilizando el IMC como variable dependiente y el municipio como variable independiente categórica. Este modelo permite estimar las diferencias promedio de IMC entre municipios tomando un municipio como referencia.
datos$Municipio <- relevel(datos$Municipio, ref = "Tuxpan")
modelo_regresion <- lm(IMC ~ Municipio, data = datos)
summary(modelo_regresion)
##
## Call:
## lm(formula = IMC ~ Municipio, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.0667 -2.1333 -0.0667 1.7167 6.7667
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25.2333 0.5561 45.374 <2e-16 ***
## MunicipioTamazula -0.9333 0.7865 -1.187 0.238
## MunicipioZapotiltic -1.1667 0.7865 -1.483 0.141
## MunicipioZapotlan -0.1333 0.7865 -0.170 0.866
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.046 on 116 degrees of freedom
## Multiple R-squared: 0.0272, Adjusted R-squared: 0.002041
## F-statistic: 1.081 on 3 and 116 DF, p-value: 0.36
El análisis de residuos permite evaluar si el modelo de regresión cumple con los supuestos necesarios para su interpretación.
par(mfrow = c(2,2))
plot(modelo_regresion)
par(mfrow = c(1,1))
shapiro.test(residuals(modelo_regresion))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_regresion)
## W = 0.98522, p-value = 0.2148
#Preguntas
¿Existe diferencia significativa entre el IMC de las muestras? No existe diferencia estadísticamente significativa entre el IMC promedio de las muestras de los cuatro municipios. Como p > 0.05, no se rechaza la hipótesis nula. Por lo tanto, se concluye que las medias de IMC de Tuxpan, Tamazula, Zapotlán y Zapotiltic no son significativamente diferentes. En caso de existir, ¿Cuál es la localidad diferente? No hay una localidad diferente, porque el ANOVA no fue significativo. Además, la prueba post-hoc de Tukey confirmó que ninguna comparación por pares presentó diferencias significativas
¿Cuáles son las localidades que mejor se correlacionan? Las localidades que mejor se correlacionan son Tuxpan y Zapotlán. r = -0.5322 p = 0.0025 Esto indica una correlación negativa moderada y estadísticamente significativa. Es decir, en el arreglo de datos utilizado, cuando los valores de IMC de Tuxpan tienden a ser mayores, los valores de IMC de Zapotlán tienden a ser menores.
¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Como las localidades con mejor correlación fueron Tuxpan y Zapotlán, se puede modelar el IMC de Zapotlán en función del IMC de Tuxpan mediante una regresión lineal simple. La ecuación aproximada es: IMC Zapotlán = 41.1483 - 0.6360(IMC Tuxpan) Por cada unidad que aumenta el IMC registrado en Tuxpan, el IMC estimado en Zapotlán disminuye aproximadamente 0.636 unidades. El signo negativo coincide con la correlación negativa encontrada entre ambas localidades. El coeficiente de determinación es aproximadamente: R² = 0.2832 Esto significa que el IMC de Tuxpan explica aproximadamente el 28.32% de la variabilidad del IMC de Zapotlán en este modelo
¿A qué conclusión se llega? Se concluye que los datos son paramétricos, ya que cumplieron los supuestos de normalidad y homocedasticidad. La prueba de Shapiro-Wilk mostró valores de p mayores a 0.05 en los cuatro municipios. Por lo tanto, no se rechazó la normalidad. La prueba de Bartlett mostró: p = 0.6732 Como p > 0.05, no se rechazó la igualdad de varianzas. Por ello, se justificó el uso de ANOVA de una vía.
El ANOVA indicó que no existen diferencias significativas entre las medias de IMC de las cuatro localidades: F = 1.081 p = 0.36 El análisis post-hoc de Tukey confirmó que ninguna localidad fue diferente de las demás. En cuanto a la correlación, las localidades con mayor asociación fueron Tuxpan y Zapotlán, con una correlación negativa moderada y significativa: r = -0.5322 p = 0.0025 Finalmente, la regresión lineal entre estas dos localidades permitió obtener la ecuación: IMC Zapotlán = 41.1483 - 0.6360(IMC Tuxpan)
En conclusión, aunque los datos cumplen los supuestos para análisis paramétricos, no hay diferencias significativas en el IMC promedio entre los municipios. La única asociación significativa encontrada fue entre Tuxpan y Zapotlán. Aun así, este resultado debe tomarse solo como complemento, porque las muestras pertenecen a municipios diferentes e independientes.