Problema 2

Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 2.

Tabla 2. Municipios del Sur de Jalisco.

Tuxpan Tamazula Zapotlán Zapotiltic
27 25 25 24
25 18 26 23
23 25 27 30
23 19 30 28
30 24 21 27
24 26 29 25
20 25 31 24
25 25 27 20
26 24 22 24
27 26 26 21
32 24 19 29
24 22 21 23
22 26 23 26
28 21 26 21
25 25 26 21
22 23 25 17
23 25 27 23
26 26 28 20
26 20 21 25
30 23 26 21
25 20 23 24
21 26 28 21
25 23 20 30
25 30 25 24
25 31 28 23
23 24 26 20
29 27 19 25
26 27 23 29
26 26 29 27
24 23 26 27

Carga de datos

##      Tuxpan         Tamazula       Zapotlán      Zapotiltic   
##  Min.   :20.00   Min.   :18.0   Min.   :19.0   Min.   :17.00  
##  1st Qu.:23.25   1st Qu.:23.0   1st Qu.:23.0   1st Qu.:21.00  
##  Median :25.00   Median :25.0   Median :26.0   Median :24.00  
##  Mean   :25.23   Mean   :24.3   Mean   :25.1   Mean   :24.07  
##  3rd Qu.:26.00   3rd Qu.:26.0   3rd Qu.:27.0   3rd Qu.:26.75  
##  Max.   :32.00   Max.   :31.0   Max.   :31.0   Max.   :30.00

Prueba de normalidad

La prueba de normalidad corresponde a un paso critico en el procedimiento estadístico, ya que nos ayuda a definir el camino que vamos a seguir. Esta prueba puede ser gráfico o analítico y cuyo objetivo es determinar si los datos de una muestra provienen de una población con una distribución normal, también conocida como distribución Gaussiana.

Gráficas

Permiten observar la forma de los datos de manera intuitiva, como:

  • Histogramas: Se busca ver si la forma de las barras se asemeja a una campana simétrica.

  • Gráfica de Probabilidad Normal (Q-Q Plot): Es una de las formas más efectivas. Si los datos son normales, los puntos en la gráfica caerán aproximadamente sobre una línea recta. Si se apartan mucho de la línea, se duda de la normalidad

Formales

Pruebas de hipótesis o analíticas son pruebas formales que arrojan un valor de significancia (p-value). Las más comunes mencionadas son:

  • Shapiro-Wilk: Muy utilizada y sensible, especialmente recomendada para muestras pequeñas, algunos autores postulan que menor a 50.

  • Kolmogorov-Smirnov (K-S): Compara la distribución acumulada de la muestra con la teórica normal. No requiere agrupar los datos y es útil para muestras de cualquier tamaño.

En las pruebas analíticas, se plantean las siguientes hipótesis:

  • Hipótesis Nula (Ho): Los datos siguen una distribución normal.

  • Hipótesis Alternativa (Ha): Los datos no siguen una distribución normal.

Para decidir, se observa el valor p (p-value):

  • Si p>0.05: No hay evidencia suficiente para rechazar la normalidad; se asume que los datos son normales.

  • Si p<0.05: Se rechaza la hipótesis nula; los datos no son normales

Debido a la naturaleza de este estudio se usara Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Tuxpan
## W = 0.96395, p-value = 0.3892
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Tamazula
## W = 0.95488, p-value = 0.228
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Zapotlán
## W = 0.95285, p-value = 0.2014
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Zapotiltic
## W = 0.9644, p-value = 0.3992

Resultado

De acuerdo con las pruebas de normalidad aplicadas, las variables analizadas mostraron una distribución normal; por ello, se decidió utilizar métodos estadísticos paramétricos.

Pruebas de Homocedasticidad

Establece que la variabilidad de los datos debe ser constante entre los grupos que se comparan o a lo largo de una variable independiente

Existen dos formas principales de verificar si los datos son homocedásticos:

Gráficas

El gráfico principal que se usa es el boxplot o diagrama de cajas, porque permite comparar visualmente la distribución del IMC entre los grupos.

Formales

Para este estudio se utilizo la prueba de Levene, esta prueba se utilizan para verificar la igualdad de varianzas entre dos o más grupos indepencientes.

La prueba de Levene contrasta la hipótesis nula de igualdad de varianzas entre grupos. Si el valor de p es mayor a 0.05, no se rechaza la hipótesis nula y se concluye que las varianzas son estadísticamente similares.

En las pruebas analíticas, se plantean las siguientes hipótesis:

Para decidir, se observa el valor p (p-value):

## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   3   0.681 0.5654
##       116
## 
##  Fligner-Killeen test of homogeneity of variances
## 
## data:  datos
## Fligner-Killeen:med chi-squared = 1.8859, df = 3, p-value = 0.5964

Resultado

Se aplicó la prueba de Levene para evaluar el supuesto de homocedasticidad entre las localidades. El resultado fue p = 0.565, valor superior al nivel de significancia establecido (α = 0.05). Por lo tanto, no se rechaza la hipótesis nula y se asume que las varianzas del IMC son homogéneas entre Tuxpan, Tamazula, Zapotlán y Zapotiltic.

En consecuencia, se considera que el supuesto de homocedasticidad se cumple, lo que permite continuar con la aplicación de un ANOVA de una vía para comparar las medias del IMC entre las distintas localidades.

Prueba ANOVA

El ANOVA de una vía es una prueba estadística diseñada para comparar las medias de tres o más grupos independientes y determinar si existen diferencias significativas entre ellos. Su función es analizar si las variaciones observadas en una variable dependiente se deben a diferencias reales entre los grupos estudiados (el “factor”) o si son producto del azar.

En la prueba ANOVA, se plantean las siguientes hipótesis:

Para decidir, se observa el valor p (p-value):

##              Df Sum Sq Mean Sq F value Pr(>F)
## Localidad     3   30.1  10.031   1.081   0.36
## Residuals   116 1076.2   9.278

Resultado

El resultado del ANOVA fue p = 0.360, valor mayor al nivel de significancia de 0.05. Por lo tanto, no se rechaza la hipótesis nula y se concluye que no existen diferencias estadísticamente significativas en el IMC promedio entre las cuatro localidades analizadas.

Prueba de correlación

La correlación es un método estadístico que se utiliza para cuantificar el grado de variación conjunta o asociación lineal entre dos o más variables. Los coeficientes de correlación indican cómo se mueven las variables entre sí:

Magnitud y Escala

La fuerza de la asociación se mide en una escala que va de -1.00 a +1.00:

  • +1.00: Correlación positiva perfecta.

  • -1.00: Correlación negativa perfecta.

Se considera una asociación pequeña cerca de 0.1, mediana en 0.3, moderada en 0.5, alta en 0.7 y muy alta a partir de 0.9.

Tipos de Coeficientes

La elección de la prueba depende de la distribución y el nivel de medición de los datos:

  • Pearson (r): Se usa para variables cuantitativas que siguen una distribución normal.

  • Spearman (rho): Es una alternativa no paramétrica que se utiliza cuando los datos son ordinales o cuando las variables continuas no son normales. Se basa en los rangos de los datos.

  • Kendall (tau): Otra prueba no paramétrica recomendada cuando se tienen pocos datos o cuando hay muchos empates en los rangos.

Interpretación

  • Significancia (p-value): Para aceptar que existe una correlación, el valor p debe ser significativo (generalmente p<0.05). Si no es significativo, la correlación se considera 0, independientemente de la magnitud del coeficiente, ya que el resultado podría deberse al azar.

  • Coeficiente de determinación (R2): Es el cuadrado del coeficiente de correlación. Representa la proporción de la variabilidad de una variable que es explicada por la otra

##                 Tuxpan    Tamazula   Zapotlán Zapotiltic
## Tuxpan      1.00000000 -0.01810688 -0.5322067  0.1633216
## Tamazula   -0.01810688  1.00000000  0.1334118 -0.0202623
## Zapotlán   -0.53220670  0.13341175  1.0000000 -0.2962594
## Zapotiltic  0.16332161 -0.02026230 -0.2962594  1.0000000
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Tuxpan and datos$Tamazula
## t = -0.095828, df = 28, p-value = 0.9243
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3759238  0.3444090
## sample estimates:
##         cor 
## -0.01810688
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Tuxpan and datos$Zapotlán
## t = -3.3264, df = 28, p-value = 0.002468
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7488862 -0.2127248
## sample estimates:
##        cor 
## -0.5322067
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Tuxpan and datos$Zapotiltic
## t = 0.87598, df = 28, p-value = 0.3885
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2092604  0.4944949
## sample estimates:
##       cor 
## 0.1633216
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Tamazula and datos$Zapotlán
## t = 0.71232, df = 28, p-value = 0.4822
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2383117  0.4710408
## sample estimates:
##       cor 
## 0.1334118
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Tamazula and datos$Zapotiltic
## t = -0.10724, df = 28, p-value = 0.9154
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3777738  0.3425072
## sample estimates:
##        cor 
## -0.0202623
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Zapotlán and datos$Zapotiltic
## t = -1.6413, df = 28, p-value = 0.1119
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.59321315  0.07165807
## sample estimates:
##        cor 
## -0.2962594

Resultado

La única relación destacable fue entre Tuxpan y Zapotlán, donde se observó una correlación negativa moderada (-0.532). Esto quiere decir que, cuando los valores de IMC de Tuxpan tienden a ser mayores, los valores de IMC de Zapotlán tienden a ser menores.

Ecuación de regresión

La ecuación de regresión es un modelo matemático que describe la relación lineal entre dos o más variables, permitiendo predecir el valor de una variable dependiente (Y) a partir de una o más variables independientes (X). La regresión busca generar la “recta de mejor ajuste” que pase lo más cerca posible de todos los puntos de datos observados.

Cuando solo se utiliza un predictor para explicar una respuesta, el modelo se expresa de la siguiente manera:

Y=β0​+β1​X+ϵ

Donde sus componentes son:

## 
## Call:
## lm(formula = Tuxpan ~ Zapotlán, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.1686 -1.3872 -0.1098  1.5561  5.1675 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  36.4118     3.3875  10.749 1.91e-11 ***
## Zapotlán     -0.4454     0.1339  -3.326  0.00247 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.337 on 28 degrees of freedom
## Multiple R-squared:  0.2832, Adjusted R-squared:  0.2576 
## F-statistic: 11.06 on 1 and 28 DF,  p-value: 0.002468
##                  2.5 %    97.5 %
## (Intercept) 29.4727768 43.350765
## Zapotlán    -0.7196082 -0.171104
## `geom_smooth()` using formula = 'y ~ x'

Verificación de supuestos

Para que un modelo de regresión lineal simple sea válido y permita realizar inferencias confiables, es necesario que se cumplan ciertos supuestos relacionados principalmente con el comportamiento de los residuos.

En primer lugar, debe existir linealidad, es decir, la relación entre la variable independiente (X) y la dependiente (Y) debe ajustarse a una función lineal (Y = β₀ + β₁X + ε). Esto puede evaluarse mediante un diagrama de dispersión, verificando que los puntos sigan una tendencia recta.

Asimismo, se requiere independencia de las observaciones, lo que implica que los errores asociados a cada medición no estén correlacionados entre sí, especialmente en datos recolectados en el tiempo donde podría existir autocorrelación.

Otro supuesto fundamental es la normalidad de los residuos, los cuales deben distribuirse aproximadamente de forma normal con media cero. Esto puede comprobarse mediante histogramas o gráficos Q-Q.

Finalmente, debe cumplirse la homocedasticidad, es decir, que la varianza de los residuos sea constante a lo largo de todos los valores de X. Si la dispersión cambia sistemáticamente (por ejemplo, formando un patrón en abanico), se estaría frente a un caso de heterocedasticidad.

## # A tibble: 6 × 6
##   Tuxpan Tamazula Zapotlán Zapotiltic prediccion residuos
##    <dbl>    <dbl>    <dbl>      <dbl>      <dbl>    <dbl>
## 1     27       25       25         24       25.3   1.72  
## 2     25       18       26         23       24.8   0.167 
## 3     23       25       27         30       24.4  -1.39  
## 4     23       19       30         28       23.1  -0.0511
## 5     30       24       21         27       27.1   2.94  
## 6     24       26       29         25       23.5   0.504

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_lineal$residuals
## W = 0.98506, p-value = 0.9381

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_lineal
## BP = 0.9212, df = 1, p-value = 0.3372

Resultado

Ecuación: IMC de tuxpan = 36.4118 - 0.4454(IMC de Zapotlán)

El coeficiente asociado a Zapotlán fue estadísticamente significativo (p = 0.00247), lo que indica evidencia suficiente de una relación lineal significativa entre el IMC de ambas localidades. El valor de R² fue 0.2832, por lo que el modelo explica aproximadamente el 28.32% de la variabilidad del IMC en Tuxpan.

Para validar los supuestos del modelo, se evaluó la normalidad de los residuos mediante gráficos y la prueba de Shapiro-Wilk, así como la homocedasticidad mediante la prueba de Breusch-Pagan. La prueba de Shapiro-Wilk arrojó un valor de p = 0.9381 (> 0.05), por lo que no se rechaza la hipótesis nula y se asume normalidad de los residuos.

Por su parte, la prueba de Breusch-Pagan presentó un valor de p = 0.3372 (> 0.05), lo que indica ausencia de heterocedasticidad y, por tanto, varianza constante de los residuos.

En conjunto, el modelo cumple con los supuestos de normalidad y homocedasticidad, lo que respalda la validez estadística de la regresión realizada.

Conclusión

Este trabajo me permitió aplicar de forma práctica distintas técnicas estadísticas para analizar el IMC en cuatro localidades del Sur de Jalisco. Más que solo aplicar pruebas, el proceso consistió en seguir una secuencia lógica: verificar supuestos, elegir el análisis adecuado y justificar cada decisión con base en evidencia.

Primero, las pruebas de normalidad permitieron evaluar si los datos cumplían con uno de los supuestos necesarios para utilizar pruebas paramétricas. Posteriormente, la prueba de homocedasticidad ayudó a verificar si las varianzas entre los grupos eran similares. Estos pasos fueron importantes porque justificaron el uso del ANOVA de una vía como prueba principal para comparar las medias de IMC entre las localidades.

El resultado del ANOVA mostró que no existieron diferencias estadísticamente significativas entre las medias de IMC de Tuxpan, Tamazula, Zapotlán y Zapotiltic. Esto permitió comprender que no basta con observar diferencias numéricas entre promedios; es necesario comprobar si esas diferencias son lo suficientemente grandes en relación con la variabilidad de los datos para considerarlas significativas.

Además, el análisis de correlación permitió identificar la relación entre pares de localidades. La mayor correlación se observó entre Tuxpan y Zapotlán, con una asociación negativa moderada. A partir de esta relación se construyó un modelo de regresión lineal, el cual fue significativo.

Este ejercicio me permitió reconocer la importancia de interpretar los resultados de manera crítica, considerando no solo el valor de p, sino también el contexto, los supuestos, la magnitud de la relación y la utilidad real del modelo.

Referencias

Bautista-Díaz, M. L., Victoria-Rodríguez, E., Vargas-Estrella, L. B., & Hernández-Chamosa, C. C. (2020). Pruebas estadísticas paramétricas y no paramétricas: su clasificación, objetivos y características. Educación y Salud Boletín Científico Instituto de Ciencias de la Salud Universidad Autónoma del Estado de Hidalgo, 9(17), 78-81. https://doi.org/10.29057/icsa.v9i17.6293

Castro, M. (2019). Bioestadística aplicada en investigación clínica: conceptos básicos. Revista Médica Clínica Las Condes, 30(1), 50-65. https://doi.org/10.1016/j.rmclc.2018.12.002

Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias (7.ª ed.). Cengage Learning