Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 2.
Tabla 2. Municipios del Sur de Jalisco.
| Tuxpan | Tamazula | Zapotlán | Zapotiltic |
|---|---|---|---|
| 27 | 25 | 25 | 24 |
| 25 | 18 | 26 | 23 |
| 23 | 25 | 27 | 30 |
| 23 | 19 | 30 | 28 |
| 30 | 24 | 21 | 27 |
| 24 | 26 | 29 | 25 |
| 20 | 25 | 31 | 24 |
| 25 | 25 | 27 | 20 |
| 26 | 24 | 22 | 24 |
| 27 | 26 | 26 | 21 |
| 32 | 24 | 19 | 29 |
| 24 | 22 | 21 | 23 |
| 22 | 26 | 23 | 26 |
| 28 | 21 | 26 | 21 |
| 25 | 25 | 26 | 21 |
| 22 | 23 | 25 | 17 |
| 23 | 25 | 27 | 23 |
| 26 | 26 | 28 | 20 |
| 26 | 20 | 21 | 25 |
| 30 | 23 | 26 | 21 |
| 25 | 20 | 23 | 24 |
| 21 | 26 | 28 | 21 |
| 25 | 23 | 20 | 30 |
| 25 | 30 | 25 | 24 |
| 25 | 31 | 28 | 23 |
| 23 | 24 | 26 | 20 |
| 29 | 27 | 19 | 25 |
| 26 | 27 | 23 | 29 |
| 26 | 26 | 29 | 27 |
| 24 | 23 | 26 | 27 |
## Tuxpan Tamazula Zapotlán Zapotiltic
## Min. :20.00 Min. :18.0 Min. :19.0 Min. :17.00
## 1st Qu.:23.25 1st Qu.:23.0 1st Qu.:23.0 1st Qu.:21.00
## Median :25.00 Median :25.0 Median :26.0 Median :24.00
## Mean :25.23 Mean :24.3 Mean :25.1 Mean :24.07
## 3rd Qu.:26.00 3rd Qu.:26.0 3rd Qu.:27.0 3rd Qu.:26.75
## Max. :32.00 Max. :31.0 Max. :31.0 Max. :30.00
La prueba de normalidad corresponde a un paso critico en el procedimiento estadístico, ya que nos ayuda a definir el camino que vamos a seguir. Esta prueba puede ser gráfico o analítico y cuyo objetivo es determinar si los datos de una muestra provienen de una población con una distribución normal, también conocida como distribución Gaussiana.
Permiten observar la forma de los datos de manera intuitiva, como:
Histogramas: Se busca ver si la forma de las barras se asemeja a una campana simétrica.
Gráfica de Probabilidad Normal (Q-Q Plot): Es una de las formas más efectivas. Si los datos son normales, los puntos en la gráfica caerán aproximadamente sobre una línea recta. Si se apartan mucho de la línea, se duda de la normalidad
Pruebas de hipótesis o analíticas son pruebas formales que arrojan un valor de significancia (p-value). Las más comunes mencionadas son:
Shapiro-Wilk: Muy utilizada y sensible, especialmente recomendada para muestras pequeñas, algunos autores postulan que menor a 50.
Kolmogorov-Smirnov (K-S): Compara la
distribución acumulada de la muestra con la teórica normal. No requiere
agrupar los datos y es útil para muestras de cualquier tamaño.
En las pruebas analíticas, se plantean las siguientes hipótesis:
Hipótesis Nula (Ho): Los datos siguen una distribución normal.
Hipótesis Alternativa (Ha): Los datos no siguen una distribución normal.
Para decidir, se observa el valor p (p-value):
Si p>0.05: No hay evidencia suficiente para rechazar la normalidad; se asume que los datos son normales.
Si p<0.05: Se rechaza la hipótesis nula; los datos no son normales
Debido a la naturaleza de este estudio se usara Shapiro-Wilk
##
## Shapiro-Wilk normality test
##
## data: datos$Tuxpan
## W = 0.96395, p-value = 0.3892
##
## Shapiro-Wilk normality test
##
## data: datos$Tamazula
## W = 0.95488, p-value = 0.228
##
## Shapiro-Wilk normality test
##
## data: datos$Zapotlán
## W = 0.95285, p-value = 0.2014
##
## Shapiro-Wilk normality test
##
## data: datos$Zapotiltic
## W = 0.9644, p-value = 0.3992
De acuerdo con las pruebas de normalidad aplicadas, las variables analizadas mostraron una distribución normal; por ello, se decidió utilizar métodos estadísticos paramétricos.
Establece que la variabilidad de los datos debe ser constante entre los grupos que se comparan o a lo largo de una variable independiente
Existen dos formas principales de verificar si los datos son homocedásticos:
El gráfico principal que se usa es el boxplot o diagrama de cajas, porque permite comparar visualmente la distribución del IMC entre los grupos.
Para este estudio se utilizo la prueba de Levene, esta prueba se utilizan para verificar la igualdad de varianzas entre dos o más grupos indepencientes.
La prueba de Levene contrasta la hipótesis nula de igualdad de varianzas entre grupos. Si el valor de p es mayor a 0.05, no se rechaza la hipótesis nula y se concluye que las varianzas son estadísticamente similares.
En las pruebas analíticas, se plantean las siguientes hipótesis:
Hipótesis Nula (Ho): Las varianzas son iguales entre los grupos.
Hipótesis Alternativa (Ha): Al menos una varianza es diferente.
Para decidir, se observa el valor p (p-value):
Si el valor p > 0.05: Se acepta la homogeneidad (varianzas iguales).
Si el valor p < 0.05: Se rechaza la homogeneidad, lo que indica que las varianzas son significativamente diferentes.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.681 0.5654
## 116
##
## Fligner-Killeen test of homogeneity of variances
##
## data: datos
## Fligner-Killeen:med chi-squared = 1.8859, df = 3, p-value = 0.5964
Se aplicó la prueba de Levene para evaluar el supuesto de homocedasticidad entre las localidades. El resultado fue p = 0.565, valor superior al nivel de significancia establecido (α = 0.05). Por lo tanto, no se rechaza la hipótesis nula y se asume que las varianzas del IMC son homogéneas entre Tuxpan, Tamazula, Zapotlán y Zapotiltic.
En consecuencia, se considera que el supuesto de homocedasticidad se cumple, lo que permite continuar con la aplicación de un ANOVA de una vía para comparar las medias del IMC entre las distintas localidades.
El ANOVA de una vía es una prueba estadística diseñada para comparar las medias de tres o más grupos independientes y determinar si existen diferencias significativas entre ellos. Su función es analizar si las variaciones observadas en una variable dependiente se deben a diferencias reales entre los grupos estudiados (el “factor”) o si son producto del azar.
En la prueba ANOVA, se plantean las siguientes hipótesis:
Hipótesis Nula (Ho): Plantea que todas las medias de las poblaciones comparadas son idénticas (μ1=μ2=μ3…).
Hipótesis Alternativa (Ha): Sostiene que por lo menos dos de las medias son diferentes entre sí.
Para decidir, se observa el valor p (p-value):
Si el valor p > 0.05: Las poblaciones son idénticas
Si el valor p < 0.05: Hay diferencias entre al menos dos de las poblaciones
## Df Sum Sq Mean Sq F value Pr(>F)
## Localidad 3 30.1 10.031 1.081 0.36
## Residuals 116 1076.2 9.278
El resultado del ANOVA fue p = 0.360, valor mayor al nivel de significancia de 0.05. Por lo tanto, no se rechaza la hipótesis nula y se concluye que no existen diferencias estadísticamente significativas en el IMC promedio entre las cuatro localidades analizadas.
La correlación es un método estadístico que se utiliza para cuantificar el grado de variación conjunta o asociación lineal entre dos o más variables. Los coeficientes de correlación indican cómo se mueven las variables entre sí:
Positiva (Directamente proporcional): Cuando una variable aumenta, la otra también tiende a aumentar; o si una disminuye, la otra también lo hace.
Negativa (Inversamente proporcional): Cuando una variable aumenta, la otra disminuye.
Nula: Un valor de 0 indica que no existe una relación lineal entre las variables.
La fuerza de la asociación se mide en una escala que va de -1.00 a +1.00:
+1.00: Correlación positiva perfecta.
-1.00: Correlación negativa perfecta.
Se considera una asociación pequeña cerca de 0.1, mediana en 0.3, moderada en 0.5, alta en 0.7 y muy alta a partir de 0.9.
La elección de la prueba depende de la distribución y el nivel de medición de los datos:
Pearson (r): Se usa para variables cuantitativas que siguen una distribución normal.
Spearman (rho): Es una alternativa no paramétrica que se utiliza cuando los datos son ordinales o cuando las variables continuas no son normales. Se basa en los rangos de los datos.
Kendall (tau): Otra prueba no paramétrica recomendada cuando se tienen pocos datos o cuando hay muchos empates en los rangos.
Significancia (p-value): Para aceptar que existe una correlación, el valor p debe ser significativo (generalmente p<0.05). Si no es significativo, la correlación se considera 0, independientemente de la magnitud del coeficiente, ya que el resultado podría deberse al azar.
Coeficiente de determinación (R2): Es el cuadrado del coeficiente de correlación. Representa la proporción de la variabilidad de una variable que es explicada por la otra
## Tuxpan Tamazula Zapotlán Zapotiltic
## Tuxpan 1.00000000 -0.01810688 -0.5322067 0.1633216
## Tamazula -0.01810688 1.00000000 0.1334118 -0.0202623
## Zapotlán -0.53220670 0.13341175 1.0000000 -0.2962594
## Zapotiltic 0.16332161 -0.02026230 -0.2962594 1.0000000
##
## Pearson's product-moment correlation
##
## data: datos$Tuxpan and datos$Tamazula
## t = -0.095828, df = 28, p-value = 0.9243
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3759238 0.3444090
## sample estimates:
## cor
## -0.01810688
##
## Pearson's product-moment correlation
##
## data: datos$Tuxpan and datos$Zapotlán
## t = -3.3264, df = 28, p-value = 0.002468
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7488862 -0.2127248
## sample estimates:
## cor
## -0.5322067
##
## Pearson's product-moment correlation
##
## data: datos$Tuxpan and datos$Zapotiltic
## t = 0.87598, df = 28, p-value = 0.3885
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2092604 0.4944949
## sample estimates:
## cor
## 0.1633216
##
## Pearson's product-moment correlation
##
## data: datos$Tamazula and datos$Zapotlán
## t = 0.71232, df = 28, p-value = 0.4822
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2383117 0.4710408
## sample estimates:
## cor
## 0.1334118
##
## Pearson's product-moment correlation
##
## data: datos$Tamazula and datos$Zapotiltic
## t = -0.10724, df = 28, p-value = 0.9154
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3777738 0.3425072
## sample estimates:
## cor
## -0.0202623
##
## Pearson's product-moment correlation
##
## data: datos$Zapotlán and datos$Zapotiltic
## t = -1.6413, df = 28, p-value = 0.1119
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.59321315 0.07165807
## sample estimates:
## cor
## -0.2962594
La única relación destacable fue entre Tuxpan y Zapotlán, donde se observó una correlación negativa moderada (-0.532). Esto quiere decir que, cuando los valores de IMC de Tuxpan tienden a ser mayores, los valores de IMC de Zapotlán tienden a ser menores.
La ecuación de regresión es un modelo matemático que describe la relación lineal entre dos o más variables, permitiendo predecir el valor de una variable dependiente (Y) a partir de una o más variables independientes (X). La regresión busca generar la “recta de mejor ajuste” que pase lo más cerca posible de todos los puntos de datos observados.
Cuando solo se utiliza un predictor para explicar una respuesta, el modelo se expresa de la siguiente manera:
Y=β0+β1X+ϵ
Donde sus componentes son:
Y (Variable dependiente o de respuesta): Es el fenómeno que se desea predecir o explicar.
X (Variable independiente, predictora o explicativa): Es la variable que el investigador controla o utiliza para realizar el pronóstico.
β0 (Ordenada en el origen o intercepto): Representa el valor esperado de Y cuando X es igual a cero (el punto donde la recta corta el eje vertical).
β1 (Pendiente): Indica cuánto cambia, en promedio, la variable Y por cada unidad que aumenta la variable X.
ϵ (Error aleatorio o residuo): Representa la diferencia entre el valor real observado y el valor calculado por la recta; recoge el efecto de factores no incluidos en el modelo
##
## Call:
## lm(formula = Tuxpan ~ Zapotlán, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.1686 -1.3872 -0.1098 1.5561 5.1675
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.4118 3.3875 10.749 1.91e-11 ***
## Zapotlán -0.4454 0.1339 -3.326 0.00247 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.337 on 28 degrees of freedom
## Multiple R-squared: 0.2832, Adjusted R-squared: 0.2576
## F-statistic: 11.06 on 1 and 28 DF, p-value: 0.002468
## 2.5 % 97.5 %
## (Intercept) 29.4727768 43.350765
## Zapotlán -0.7196082 -0.171104
## `geom_smooth()` using formula = 'y ~ x'
Para que un modelo de regresión lineal simple sea válido y permita realizar inferencias confiables, es necesario que se cumplan ciertos supuestos relacionados principalmente con el comportamiento de los residuos.
En primer lugar, debe existir linealidad, es decir, la relación entre la variable independiente (X) y la dependiente (Y) debe ajustarse a una función lineal (Y = β₀ + β₁X + ε). Esto puede evaluarse mediante un diagrama de dispersión, verificando que los puntos sigan una tendencia recta.
Asimismo, se requiere independencia de las observaciones, lo que implica que los errores asociados a cada medición no estén correlacionados entre sí, especialmente en datos recolectados en el tiempo donde podría existir autocorrelación.
Otro supuesto fundamental es la normalidad de los residuos, los cuales deben distribuirse aproximadamente de forma normal con media cero. Esto puede comprobarse mediante histogramas o gráficos Q-Q.
Finalmente, debe cumplirse la homocedasticidad, es decir, que la varianza de los residuos sea constante a lo largo de todos los valores de X. Si la dispersión cambia sistemáticamente (por ejemplo, formando un patrón en abanico), se estaría frente a un caso de heterocedasticidad.
## # A tibble: 6 × 6
## Tuxpan Tamazula Zapotlán Zapotiltic prediccion residuos
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 27 25 25 24 25.3 1.72
## 2 25 18 26 23 24.8 0.167
## 3 23 25 27 30 24.4 -1.39
## 4 23 19 30 28 23.1 -0.0511
## 5 30 24 21 27 27.1 2.94
## 6 24 26 29 25 23.5 0.504
##
## Shapiro-Wilk normality test
##
## data: modelo_lineal$residuals
## W = 0.98506, p-value = 0.9381
##
## studentized Breusch-Pagan test
##
## data: modelo_lineal
## BP = 0.9212, df = 1, p-value = 0.3372
Ecuación: IMC de tuxpan = 36.4118 - 0.4454(IMC de Zapotlán)
El coeficiente asociado a Zapotlán fue estadísticamente significativo (p = 0.00247), lo que indica evidencia suficiente de una relación lineal significativa entre el IMC de ambas localidades. El valor de R² fue 0.2832, por lo que el modelo explica aproximadamente el 28.32% de la variabilidad del IMC en Tuxpan.
Para validar los supuestos del modelo, se evaluó la normalidad de los residuos mediante gráficos y la prueba de Shapiro-Wilk, así como la homocedasticidad mediante la prueba de Breusch-Pagan. La prueba de Shapiro-Wilk arrojó un valor de p = 0.9381 (> 0.05), por lo que no se rechaza la hipótesis nula y se asume normalidad de los residuos.
Por su parte, la prueba de Breusch-Pagan presentó un valor de p = 0.3372 (> 0.05), lo que indica ausencia de heterocedasticidad y, por tanto, varianza constante de los residuos.
En conjunto, el modelo cumple con los supuestos de normalidad y homocedasticidad, lo que respalda la validez estadística de la regresión realizada.
Este trabajo me permitió aplicar de forma práctica distintas técnicas estadísticas para analizar el IMC en cuatro localidades del Sur de Jalisco. Más que solo aplicar pruebas, el proceso consistió en seguir una secuencia lógica: verificar supuestos, elegir el análisis adecuado y justificar cada decisión con base en evidencia.
Primero, las pruebas de normalidad permitieron evaluar si los datos cumplían con uno de los supuestos necesarios para utilizar pruebas paramétricas. Posteriormente, la prueba de homocedasticidad ayudó a verificar si las varianzas entre los grupos eran similares. Estos pasos fueron importantes porque justificaron el uso del ANOVA de una vía como prueba principal para comparar las medias de IMC entre las localidades.
El resultado del ANOVA mostró que no existieron diferencias estadísticamente significativas entre las medias de IMC de Tuxpan, Tamazula, Zapotlán y Zapotiltic. Esto permitió comprender que no basta con observar diferencias numéricas entre promedios; es necesario comprobar si esas diferencias son lo suficientemente grandes en relación con la variabilidad de los datos para considerarlas significativas.
Además, el análisis de correlación permitió identificar la relación entre pares de localidades. La mayor correlación se observó entre Tuxpan y Zapotlán, con una asociación negativa moderada. A partir de esta relación se construyó un modelo de regresión lineal, el cual fue significativo.
Este ejercicio me permitió reconocer la importancia de interpretar los resultados de manera crítica, considerando no solo el valor de p, sino también el contexto, los supuestos, la magnitud de la relación y la utilidad real del modelo.
Bautista-Díaz, M. L., Victoria-Rodríguez, E., Vargas-Estrella, L. B., & Hernández-Chamosa, C. C. (2020). Pruebas estadísticas paramétricas y no paramétricas: su clasificación, objetivos y características. Educación y Salud Boletín Científico Instituto de Ciencias de la Salud Universidad Autónoma del Estado de Hidalgo, 9(17), 78-81. https://doi.org/10.29057/icsa.v9i17.6293
Castro, M. (2019). Bioestadística aplicada en investigación clínica: conceptos básicos. Revista Médica Clínica Las Condes, 30(1), 50-65. https://doi.org/10.1016/j.rmclc.2018.12.002
Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias (7.ª ed.). Cengage Learning