title: “Análisis estadístico del IMC en municipios del Sur de Jalisco” author: “Tu nombre” date: “2026-05-10” output: html_document —

Introducción

Problema 2

Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 2.

library(tidyverse)
library(car)
library(rstatix)
library(ggpubr)

Base de datos

datos <- data.frame(
  Municipio = rep(c("Tuxpan", "Tamazula", "Zapotlan", "Zapotiltic"), each = 30),
  IMC = c(
    27,25,23,23,30,24,20,25,26,27,
    32,24,22,28,25,22,23,26,26,30,
    25,21,25,25,25,23,29,26,26,24,
    
    25,18,25,19,24,26,25,25,24,26,
    24,22,26,21,25,23,25,26,20,23,
    20,26,23,30,31,24,27,27,26,23,
    
    25,26,27,30,21,29,31,27,22,26,
    19,21,23,26,26,25,27,28,21,26,
    23,28,20,25,28,26,19,23,29,26,
    
    24,23,30,28,27,25,24,20,24,21,
    29,23,26,21,21,17,23,20,25,21,
    24,21,30,24,23,20,25,29,27,27
  )
)

datos$Municipio <- as.factor(datos$Municipio)

head(datos)
##   Municipio IMC
## 1    Tuxpan  27
## 2    Tuxpan  25
## 3    Tuxpan  23
## 4    Tuxpan  23
## 5    Tuxpan  30
## 6    Tuxpan  24

Revisión inicial de los datos

str(datos)
## 'data.frame':    120 obs. of  2 variables:
##  $ Municipio: Factor w/ 4 levels "Tamazula","Tuxpan",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ IMC      : num  27 25 23 23 30 24 20 25 26 27 ...
summary(datos)
##       Municipio       IMC       
##  Tamazula  :30   Min.   :17.00  
##  Tuxpan    :30   1st Qu.:23.00  
##  Zapotiltic:30   Median :25.00  
##  Zapotlan  :30   Mean   :24.68  
##                  3rd Qu.:26.00  
##                  Max.   :32.00
table(datos$Municipio)
## 
##   Tamazula     Tuxpan Zapotiltic   Zapotlan 
##         30         30         30         30

La base de datos está conformada por 120 observaciones, distribuidas en cuatro municipios: Tuxpan, Tamazula, Zapotlán y Zapotiltic. Cada municipio cuenta con 30 registros de IMC. La variable IMC es cuantitativa, mientras que Municipio es una variable cualitativa nominal. # Estadística descriptiva

aggregate(IMC ~ Municipio, data = datos, FUN = mean)
##    Municipio      IMC
## 1   Tamazula 24.30000
## 2     Tuxpan 25.23333
## 3 Zapotiltic 24.06667
## 4   Zapotlan 25.10000
aggregate(IMC ~ Municipio, data = datos, FUN = median)
##    Municipio IMC
## 1   Tamazula  25
## 2     Tuxpan  25
## 3 Zapotiltic  24
## 4   Zapotlan  26
aggregate(IMC ~ Municipio, data = datos, FUN = sd)
##    Municipio      IMC
## 1   Tamazula 2.878577
## 2     Tuxpan 2.712466
## 3 Zapotiltic 3.310728
## 4   Zapotlan 3.241434
aggregate(IMC ~ Municipio, data = datos, FUN = min)
##    Municipio IMC
## 1   Tamazula  18
## 2     Tuxpan  20
## 3 Zapotiltic  17
## 4   Zapotlan  19
aggregate(IMC ~ Municipio, data = datos, FUN = max)
##    Municipio IMC
## 1   Tamazula  31
## 2     Tuxpan  32
## 3 Zapotiltic  30
## 4   Zapotlan  31

Se calcularon medidas descriptivas del IMC por municipio, incluyendo media, mediana, desviación estándar, valor mínimo y valor máximo. Esto permite observar el comportamiento general de los datos antes de aplicar pruebas inferenciales. # Pruebas de normalidad

Antes de seleccionar la prueba estadística principal, se evaluó la normalidad de los datos. Esto es necesario porque las pruebas paramétricas, como ANOVA, requieren que los datos presenten una distribución aproximadamente normal dentro de cada grupo.

Histogramas por municipio

hist(datos$IMC[datos$Municipio == "Tuxpan"],
     main = "Histograma de IMC - Tuxpan",
     xlab = "IMC")

hist(datos$IMC[datos$Municipio == "Tamazula"],
     main = "Histograma de IMC - Tamazula",
     xlab = "IMC")

hist(datos$IMC[datos$Municipio == "Zapotlan"],
     main = "Histograma de IMC - Zapotlán",
     xlab = "IMC")

hist(datos$IMC[datos$Municipio == "Zapotiltic"],
     main = "Histograma de IMC - Zapotiltic",
     xlab = "IMC")

## Gráficos Q-Q

qqnorm(datos$IMC[datos$Municipio == "Tuxpan"],
       main = "Q-Q plot - Tuxpan")
qqline(datos$IMC[datos$Municipio == "Tuxpan"])

qqnorm(datos$IMC[datos$Municipio == "Tamazula"],
       main = "Q-Q plot - Tamazula")
qqline(datos$IMC[datos$Municipio == "Tamazula"])

qqnorm(datos$IMC[datos$Municipio == "Zapotlan"],
       main = "Q-Q plot - Zapotlán")
qqline(datos$IMC[datos$Municipio == "Zapotlan"])

qqnorm(datos$IMC[datos$Municipio == "Zapotiltic"],
       main = "Q-Q plot - Zapotiltic")
qqline(datos$IMC[datos$Municipio == "Zapotiltic"])

Los gráficos Q-Q permiten observar si los datos se aproximan a una distribución normal.

Prueba formal de normalidad: Shapiro-Wilk

by(datos$IMC, datos$Municipio, shapiro.test)
## datos$Municipio: Tamazula
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.95488, p-value = 0.228
## 
## ------------------------------------------------------------ 
## datos$Municipio: Tuxpan
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.96395, p-value = 0.3892
## 
## ------------------------------------------------------------ 
## datos$Municipio: Zapotiltic
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.9644, p-value = 0.3992
## 
## ------------------------------------------------------------ 
## datos$Municipio: Zapotlan
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.95285, p-value = 0.2014

Los resultados de la prueba de Shapiro-Wilk muestran valores de p mayores a 0.05 en los cuatro municipios. Por lo tanto, no se rechaza la hipótesis nula de normalidad. Esto indica que los datos presentan una distribución compatible con la normalidad.

Prueba de homocedasticidad

Después de evaluar la normalidad, se analizó el supuesto de homocedasticidad. La homocedasticidad se refiere a la igualdad o similitud de varianzas entre los grupos comparados. Este supuesto es importante para poder aplicar una prueba paramétrica como ANOVA de una vía.

Evaluación gráfica de homocedasticidad

boxplot(IMC ~ Municipio,
        data = datos,
        main = "Distribución del IMC por municipio",
        xlab = "Municipio",
        ylab = "IMC")

El diagrama de caja permite observar de manera visual la dispersión del IMC en cada municipio.

Prueba formal de homocedasticidad: Bartlett

bartlett.test(IMC ~ Municipio, data = datos)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  IMC by Municipio
## Bartlett's K-squared = 1.5396, df = 3, p-value = 0.6732

La prueba de Bartlett evalúa si las varianzas son iguales entre los grupos.

El valor de p obtenido en la prueba de Bartlett fue mayor a 0.05, por lo que no se rechaza la hipótesis nula. Esto indica que las varianzas entre los municipios son homogéneas. Por lo tanto, se cumple con la homocedasticidad.

ANOVA de una vía

Debido a que los datos cumplen con los supuestos de normalidad y homocedasticidad, se utilizó un ANOVA de una vía. Esta prueba permite comparar las medias de una variable cuantitativa entre tres o más grupos independientes.

En este caso, se comparó el IMC promedio entre los cuatro municipios: Tuxpan, Tamazula, Zapotlán y Zapotiltic.

La hipótesis nula establece que las medias de IMC son iguales entre los municipios:

H₀: μTuxpan = μTamazula = μZapotlán = μZapotiltic

La hipótesis alternativa establece que al menos una media de IMC es diferente:

H₁: al menos una media es diferente

modelo_anova <- aov(IMC ~ Municipio, data = datos)
summary(modelo_anova)
##              Df Sum Sq Mean Sq F value Pr(>F)
## Municipio     3   30.1  10.031   1.081   0.36
## Residuals   116 1076.2   9.278

El resultado del ANOVA de una vía mostró un valor de F = 1.081 con un valor de p = 0.36. Debido a que p > 0.05, no se rechaza la hipótesis nula.

Esto significa que no existen diferencias estadísticamente significativas en el IMC promedio entre los municipios de Tuxpan, Tamazula, Zapotlán y Zapotiltic.

Aunque descriptivamente puede haber pequeñas diferencias entre las medias de IMC de los municipios, estas diferencias no son suficientes para considerarse significativas desde el punto de vista estadístico.

Prueba post-hoc de Tukey

El test post-hoc de Tukey se utiliza después de un ANOVA significativo para identificar entre qué grupos existen diferencias. En este caso, el ANOVA no fue estadísticamente significativo; sin embargo, se presenta el análisis de Tukey como complemento.

TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = IMC ~ Municipio, data = datos)
## 
## $Municipio
##                           diff       lwr       upr     p adj
## Tuxpan-Tamazula      0.9333333 -1.116714 2.9833803 0.6364219
## Zapotiltic-Tamazula -0.2333333 -2.283380 1.8167136 0.9908727
## Zapotlan-Tamazula    0.8000000 -1.250047 2.8500470 0.7397154
## Zapotiltic-Tuxpan   -1.1666667 -3.216714 0.8833803 0.4507644
## Zapotlan-Tuxpan     -0.1333333 -2.183380 1.9167136 0.9982579
## Zapotlan-Zapotiltic  1.0333333 -1.016714 3.0833803 0.5560019

Aunque el ANOVA no fue estadísticamente significativo, se realizó la prueba post-hoc de Tukey como análisis complementario. Los resultados muestran que ninguna comparación entre municipios presentó valores de p ajustados menores a 0.05.

Por lo tanto, se confirma que no existen diferencias estadísticamente significativas entre pares de municipios. La comparación con menor valor de p ajustado fue Zapotiltic-Tuxpan, con p = 0.4508, pero aun así este valor es mayor a 0.05.

Correlación

Debido a que los datos cumplieron el supuesto de normalidad, se utilizó la correlación de Pearson.

Para este análisis, los datos se organizaron en formato ancho, colocando cada municipio como una variable. Es importante mencionar que esta correlación se interpreta como un análisis complementario, ya que las observaciones pertenecen a grupos independientes.

datos_ancho <- data.frame(
  Tuxpan = c(27,25,23,23,30,24,20,25,26,27,
             32,24,22,28,25,22,23,26,26,30,
             25,21,25,25,25,23,29,26,26,24),
  
  Tamazula = c(25,18,25,19,24,26,25,25,24,26,
               24,22,26,21,25,23,25,26,20,23,
               20,26,23,30,31,24,27,27,26,23),
  
  Zapotlan = c(25,26,27,30,21,29,31,27,22,26,
               19,21,23,26,26,25,27,28,21,26,
               23,28,20,25,28,26,19,23,29,26),
  
  Zapotiltic = c(24,23,30,28,27,25,24,20,24,21,
                 29,23,26,21,21,17,23,20,25,21,
                 24,21,30,24,23,20,25,29,27,27)
)

cor(datos_ancho, method = "pearson")
##                 Tuxpan    Tamazula   Zapotlan Zapotiltic
## Tuxpan      1.00000000 -0.01810688 -0.5322067  0.1633216
## Tamazula   -0.01810688  1.00000000  0.1334118 -0.0202623
## Zapotlan   -0.53220670  0.13341175  1.0000000 -0.2962594
## Zapotiltic  0.16332161 -0.02026230 -0.2962594  1.0000000

La matriz de correlación de Pearson mostró asociaciones variables entre los municipios. La correlación más alta en magnitud fue entre Tuxpan y Zapotlán, con r = -0.5322, lo que indica una correlación negativa moderada. La correlación entre Zapotlán y Zapotiltic fue r = -0.2963, lo que indica una correlación negativa débil. La correlación entre Tuxpan y Zapotiltic fue r = 0.1633, considerada positiva débil. Las demás correlaciones fueron muy cercanas a cero: Tuxpan con Tamazula presentó r = -0.0181 y Tamazula con Zapotiltic r = -0.0203, lo que sugiere ausencia de asociación lineal.

Pruebas de correlación de Pearson por pares

cor.test(datos_ancho$Tuxpan, datos_ancho$Tamazula, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Tuxpan and datos_ancho$Tamazula
## t = -0.095828, df = 28, p-value = 0.9243
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3759238  0.3444090
## sample estimates:
##         cor 
## -0.01810688
cor.test(datos_ancho$Tuxpan, datos_ancho$Zapotlan, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Tuxpan and datos_ancho$Zapotlan
## t = -3.3264, df = 28, p-value = 0.002468
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7488862 -0.2127248
## sample estimates:
##        cor 
## -0.5322067
cor.test(datos_ancho$Tuxpan, datos_ancho$Zapotiltic, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Tuxpan and datos_ancho$Zapotiltic
## t = 0.87598, df = 28, p-value = 0.3885
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2092604  0.4944949
## sample estimates:
##       cor 
## 0.1633216
cor.test(datos_ancho$Tamazula, datos_ancho$Zapotlan, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Tamazula and datos_ancho$Zapotlan
## t = 0.71232, df = 28, p-value = 0.4822
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2383117  0.4710408
## sample estimates:
##       cor 
## 0.1334118
cor.test(datos_ancho$Tamazula, datos_ancho$Zapotiltic, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Tamazula and datos_ancho$Zapotiltic
## t = -0.10724, df = 28, p-value = 0.9154
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3777738  0.3425072
## sample estimates:
##        cor 
## -0.0202623
cor.test(datos_ancho$Zapotlan, datos_ancho$Zapotiltic, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos_ancho$Zapotlan and datos_ancho$Zapotiltic
## t = -1.6413, df = 28, p-value = 0.1119
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.59321315  0.07165807
## sample estimates:
##        cor 
## -0.2962594

Interpretación de la correlación

Se aplicaron pruebas de correlación de Pearson entre los valores de IMC de los municipios, debido a que los datos cumplieron el supuesto de normalidad. La correlación entre Tuxpan y Tamazula fue r = -0.0181, con p = 0.9243. Esto indica una correlación prácticamente nula y no significativa. La correlación entre Tuxpan y Zapotlán fue r = -0.5322, con p = 0.0025. Este resultado indica una correlación negativa moderada y estadísticamente significativa. La correlación entre Tuxpan y Zapotiltic fue r = 0.1633, con p = 0.3885. Esta correlación es positiva débil y no significativa. La correlación entre Tamazula y Zapotlán fue r = 0.1334, con p = 0.4822. Esto indica una correlación positiva débil, sin significancia estadística. La correlación entre Tamazula y Zapotiltic fue r = -0.0203, con p = 0.9154. Esta correlación es prácticamente nula y no significativa. La correlación entre Zapotlán y Zapotiltic fue r = -0.2963, con p = 0.1119. Esto indica una correlación negativa débil, pero no significativa.

Regresión lineal

Se ajustó un modelo de regresión lineal utilizando el IMC como variable dependiente y el municipio como variable independiente categórica. Este modelo permite estimar las diferencias promedio de IMC entre municipios tomando un municipio como referencia.

datos$Municipio <- relevel(datos$Municipio, ref = "Tuxpan")

modelo_regresion <- lm(IMC ~ Municipio, data = datos)
summary(modelo_regresion)
## 
## Call:
## lm(formula = IMC ~ Municipio, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.0667 -2.1333 -0.0667  1.7167  6.7667 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          25.2333     0.5561  45.374   <2e-16 ***
## MunicipioTamazula    -0.9333     0.7865  -1.187    0.238    
## MunicipioZapotiltic  -1.1667     0.7865  -1.483    0.141    
## MunicipioZapotlan    -0.1333     0.7865  -0.170    0.866    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 116 degrees of freedom
## Multiple R-squared:  0.0272, Adjusted R-squared:  0.002041 
## F-statistic: 1.081 on 3 and 116 DF,  p-value: 0.36

Análisis de residuos del modelo

El análisis de residuos permite evaluar si el modelo de regresión cumple con los supuestos necesarios para su interpretación.

Gráficos diagnósticos

par(mfrow = c(2,2))
plot(modelo_regresion)

par(mfrow = c(1,1))

Prueba de normalidad de los residuos

shapiro.test(residuals(modelo_regresion))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_regresion)
## W = 0.98522, p-value = 0.2148

#Preguntas

  1. ¿Existe diferencia significativa entre el IMC de las muestras? No existe diferencia estadísticamente significativa entre el IMC promedio de las muestras de los cuatro municipios. Como p > 0.05, no se rechaza la hipótesis nula. Por lo tanto, se concluye que las medias de IMC de Tuxpan, Tamazula, Zapotlán y Zapotiltic no son significativamente diferentes. En caso de existir, ¿Cuál es la localidad diferente? No hay una localidad diferente, porque el ANOVA no fue significativo. Además, la prueba post-hoc de Tukey confirmó que ninguna comparación por pares presentó diferencias significativas

  2. ¿Cuáles son las localidades que mejor se correlacionan? Las localidades que mejor se correlacionan son Tuxpan y Zapotlán. r = -0.5322 p = 0.0025 Esto indica una correlación negativa moderada y estadísticamente significativa. Es decir, en el arreglo de datos utilizado, cuando los valores de IMC de Tuxpan tienden a ser mayores, los valores de IMC de Zapotlán tienden a ser menores.

  3. ¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Como las localidades con mejor correlación fueron Tuxpan y Zapotlán, se puede modelar el IMC de Zapotlán en función del IMC de Tuxpan mediante una regresión lineal simple. La ecuación aproximada es: IMC Zapotlán = 41.1483 - 0.6360(IMC Tuxpan) Por cada unidad que aumenta el IMC registrado en Tuxpan, el IMC estimado en Zapotlán disminuye aproximadamente 0.636 unidades. El signo negativo coincide con la correlación negativa encontrada entre ambas localidades. El coeficiente de determinación es aproximadamente: R² = 0.2832 Esto significa que el IMC de Tuxpan explica aproximadamente el 28.32% de la variabilidad del IMC de Zapotlán en este modelo

  4. ¿A qué conclusión se llega? Se concluye que los datos son paramétricos, ya que cumplieron los supuestos de normalidad y homocedasticidad. La prueba de Shapiro-Wilk mostró valores de p mayores a 0.05 en los cuatro municipios. Por lo tanto, no se rechazó la normalidad. La prueba de Bartlett mostró: p = 0.6732 Como p > 0.05, no se rechazó la igualdad de varianzas. Por ello, se justificó el uso de ANOVA de una vía.

El ANOVA indicó que no existen diferencias significativas entre las medias de IMC de las cuatro localidades: F = 1.081 p = 0.36 El análisis post-hoc de Tukey confirmó que ninguna localidad fue diferente de las demás. En cuanto a la correlación, las localidades con mayor asociación fueron Tuxpan y Zapotlán, con una correlación negativa moderada y significativa: r = -0.5322 p = 0.0025 Finalmente, la regresión lineal entre estas dos localidades permitió obtener la ecuación: IMC Zapotlán = 41.1483 - 0.6360(IMC Tuxpan)

En conclusión, aunque los datos cumplen los supuestos para análisis paramétricos, no hay diferencias significativas en el IMC promedio entre los municipios. La única asociación significativa encontrada fue entre Tuxpan y Zapotlán. Aun así, este resultado debe tomarse solo como complemento, porque las muestras pertenecen a municipios diferentes e independientes.