Tomando como base la Encuesta Nacional de Salud y Nutrición (ENSANUT, 2018), se seleccionó una sub-muestra específica que consta de datos antropométricos correspondientes a un total de 2,027 niños menores de cinco años. En esta etapa inicial del análisis, el enfoque principal radica en identificar y describir las características antropométricas de los niños, tales como peso, altura y otras medidas físicas relevantes. Además, se busca explorar cómo estas características se relacionan con distintas variables sociodemográficas, incluyendo aspectos como nivel educativo de los padres, ingresos familiares, acceso a servicios básicos y condiciones de vivienda. Este análisis tiene el potencial de proporcionar una visión integral sobre los factores que influyen en el desarrollo físico de los niños y servir de base para la formulación de políticas públicas destinadas a mejorar su bienestar.
La Organización Mundial de la Salud (OMS) ha definido estándares antropométricos basados en mediciones de altura (cm), peso (kg) y edad (meses). Los indicadores empleados incluyen:
Este último se deriva del índice de masa corporal (IMC), calculado mediante la fórmula:
\[\text{IMC} = \frac{\text{peso (kg)}}{\text{altura (m)}^2}\]
Se analiza la relación entre las medidas antropométricas (incluyendo sobrepeso y obesidad) y las siguientes variables:
####### PAQUETERIAS ########
library(readxl)
library(polycor)
####### DATOS ########
setwd("C:/Users/bryan/OneDrive/Documentos/MMOP_II/Diplomado/Causalidad/correlaciones")
data <- read_excel("antro_preescolares2018.xlsx")
data_omit <- na.omit(data)
En la fase inicial del análisis, se realiza una evaluación de las variables continuas contenidas en el conjunto de datos. Este estudio se centra en comprender cómo estas variables están distribuidas. Este enfoque es fundamental para asegurar que las propiedades de las variables se consideren adecuadamente antes de aplicar métodos estadísticos más avanzados.
Como parte integral del análisis, se desarrollan diagramas de dispersión por pares que permiten visualizar la interacción entre las diferentes variables continuas de manera gráfica. Estos diagramas son herramientas valiosas para identificar relaciones bivariadas, tendencias, patrones y la posible presencia de correlaciones entre las variables.
# Función para crear histogramas que se mostrarán en la diagonal del gráfico
panel.hist <- function(x, ...) {
usr <- par("usr")
on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5))
his <- hist(x, plot = FALSE)
breaks <- his$breaks
nB <- length(breaks)
y <- his$counts
y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = rgb(0, 1, 1, alpha = 0.5), ...)
}
pairs(~ waz + haz + baz + whz + imc + indiceSE,
data=data_omit,
labels = c("WAZ", "HAZ", "BAZ", "WHZ", "IMC", "Índice SE"),
main = "Diagrama de dispersion multiple para variables continuas",
cex.labels = 0.8,
cex = 0.6,
lower.panel = NULL,
diag.panel = panel.hist)
Se ha observado que todas las variables analizadas exhiben distribuciones que se aproximan a la forma de una distribución normal. Aunque muchas de las pruebas de correlación asumen normalidad en los datos como uno de sus supuestos, este requisito no se considera estrictamente esencial. Por lo tanto, en este caso, no se llevará a cabo una prueba formal para evaluar la normalidad de las variables. Este enfoque busca priorizar la simplificación del análisis sin comprometer la validez de los resultados.
Se ha identificado que la variable WAZ
muestra una
relación gráfica notable con los demás puntajes Z incluidos en el
estudio, así como con el IMC
. Este hallazgo sugiere que
WAZ
, al ser un indicador antropométrico relacionado con el
peso para la edad, está estrechamente vinculado con otras métricas de
desarrollo físico y nutricional.
Asimismo, la variable BAZ
ha demostrado tener una
conexión gráfica importante con WHZ
y el IMC
.
Esto indica que el puntaje BAZ
, que evalúa el balance entre
el peso y la altura, puede relacionarse directamente con otras medidas
específicas del cuerpo que representan proporciones y composiciones
físicas.
Finalmente, cabe destacar que las variables WHZ
e
IMC
también presentan una asociación gráfica entre ellas.
Ambas métricas, centradas en el peso y la altura, se complementan como
indicadores del estado físico y nutricional.
Entre las variables estudiadas, la que muestra un comportamiento más
cercano a una distribución normal es el índice socioeconómico
Índice SE
. Dado este atributo, resulta particularmente
interesante explorar su relación con las demás variables del conjunto de
datos. Analizar cómo el índice socioeconómico (tanto variable continua
como categórica) se correlaciona con otras métricas podría proporcionar
información valiosa sobre las posibles asociaciones y patrones dentro
del contexto de estudio.
Se llevó a cabo la aplicación de la función factor
para
transformar cada una de las variables categóricas del conjunto de datos,
asignándoles etiquetas específicas que facilitan su interpretación y
análisis.
data_cat <- subset(data_omit, select=c(waz_clas, haz_clas, baz_clas, whz_clas,
tipo, nse5, indigena, migrante, esc, trabM))
# Factores para indicadores antropométricos (clasificaciones)
data_cat$waz_clas = factor(data_cat$waz_clas, levels = c(0, 1),
labels = c("Normal", "Bajo peso"))
data_cat$haz_clas = factor(data_cat$haz_clas, levels = c(0, 1),
labels = c("Normal", "Baja talla"))
data_cat$whz_clas = factor(data_cat$whz_clas, levels = c(0, 1),
labels = c("Normal", "Emaciación"))
data_cat$baz_clas = factor(data_cat$baz_clas, levels = c(1, 2, 3),
labels = c("Normal", "Sobrepeso", "Obesidad"))
# Factores para variables sociodemográficas
data_cat$tipo = factor(data_cat$tipo, levels = c(1, 2),
labels = c("Rural", "Urbano"))
data_cat$nse5 = factor(data_cat$nse5, levels = 1:5,
labels = c("Muy bajo", "Bajo", "Medio", "Alto", "Muy alto"))
data_cat$indigena = factor(data_cat$indigena, levels = c(0, 1),
labels = c("No", "Sí"))
data_cat$migrante = factor(data_cat$migrante, levels = c(0, 1),
labels = c("No", "Sí"))
data_cat$esc = factor(data_cat$esc, levels = 1:3,
labels = c("Ninguna", "Básica", "Preparatoria o más"))
data_cat$trabM = factor(data_cat$trabM, levels = 1:3,
labels = c("No trabaja", "Sí trabaja", "Ama de casa"))
Emplearemos la medida BAZ
como referencia principal para
analizar su relación con las distintas variables categóricas en el
conjunto de datos. La elección de BAZ
se fundamenta en que
esta métrica establece un vínculo directo entre el peso y la talla,
proporcionándonos una perspectiva integral del estado nutricional de los
individuos. Al encapsular en un solo indicador estas dos dimensiones
clave del desarrollo físico, BAZ
tiene el potencial de
contener información relevante que puede reflejar patrones similares en
las otras mediciones Z presentes en el estudio.
tab_se <- table(data_cat$baz_clas, data_cat$nse5)
tab_sep <- prop.table(tab_se, margin = 1)
tab_sep
##
## Muy bajo Bajo Medio Alto Muy alto
## Normal 0.2721563 0.2219121 0.1884159 0.1870202 0.1304955
## Sobrepeso 0.2241379 0.2327586 0.2270115 0.1609195 0.1551724
## Obesidad 0.1794872 0.2478632 0.2307692 0.2051282 0.1367521
tab_tipo <- table(data_cat$baz_clas, data_cat$tipo)
tab_tipop <- prop.table(tab_tipo, margin = 1)
tab_tipop
##
## Rural Urbano
## Normal 0.5812980 0.4187020
## Sobrepeso 0.5229885 0.4770115
## Obesidad 0.5042735 0.4957265
tab_ind <- table(data_cat$baz_clas, data_cat$indigena)
tab_indp <- prop.table(tab_ind, margin = 1)
tab_indp
##
## No Sí
## Normal 0.87787858 0.12212142
## Sobrepeso 0.87356322 0.12643678
## Obesidad 0.93162393 0.06837607
tab_esc <- table(data_cat$baz_clas, data_cat$esc)
tab_escp <- prop.table(tab_esc, margin = 1)
tab_escp
##
## Ninguna Básica Preparatoria o más
## Normal 0.03070482 0.73691556 0.23237962
## Sobrepeso 0.01436782 0.77586207 0.20977011
## Obesidad 0.02564103 0.77777778 0.19658120
tab_t <- table(data_cat$baz_clas, data_cat$trabM)
tab_tp <- prop.table(tab_t, margin = 1)
tab_tp
##
## No trabaja Sí trabaja Ama de casa
## Normal 0.02093510 0.26099093 0.71807397
## Sobrepeso 0.00862069 0.31321839 0.67816092
## Obesidad 0.01709402 0.28205128 0.70085470
En este análisis, se emplean diagramas de cajas y bigotes para explorar las relaciones entre el Índice Sociodemográfico y las demás variables sociodemográficas.
A través de esta visualización, se pueden examinar cómo diferentes categorías o niveles de las variables sociodemográficas se distribuyen en relación con el Índice Sociodemográfico. La forma y posición de las cajas, así como la extensión de los bigotes, ofrecen indicios sobre tendencias generales o diferencias significativas en los datos.
data_cat$"IndiceSE" <- data_omit$indiceSE
par(mfrow = c(2, 2))
# Crear los diagramas de caja
boxplot(IndiceSE ~ tipo, data = data_cat, main = "Tipo de localidad", xlab = "")
boxplot(IndiceSE ~ trabM, data = data_cat, main = "Trabajo de la madre", xlab = "")
boxplot(IndiceSE ~ migrante, data = data_cat, main = "Migrante", xlab = "")
boxplot(IndiceSE ~ indigena, data = data_cat, main = "Indígena", xlab = "")
# Restaurar los parámetros gráficos por defecto para evitar que afecten otros gráficos
par(mfrow = c(1, 1))
Se analiza la relación estadística entre el Puntaje z de talla para la edad, y el índice socioeconómico.
\(H_0\): NO existe
una relacion entre el Puntaje z de talla para la edad (HAZ
)
y el Índice Sociodemografico (Indice SE
)
\(H_a\): Existe una
relacion entre el Puntaje z de talla para la edad (HAZ
) y
el Índice Sociodemografico (Indice SE
)
En el análisis univariado realizado, se observó que las distribuciones de las variables en cuestión presentan una forma que se aproxima a la normalidad, aunque no cumplen completamente con el supuesto de normalidad. Si bien esta desviación puede influir en los resultados, se determinó que el grado de error introducido por esta falta de ajuste no es lo suficientemente significativo como para invalidar los análisis. Por ello, se decidió proceder con la aplicación de métodos de correlación, específicamente las correlaciones de Pearson y Spearman, utilizando las variables en su formato continuo.
cor.test(data_omit$haz,data_omit$indiceSE, alternative = "two.sided",
method = "pearson")
##
## Pearson's product-moment correlation
##
## data: data_omit$haz and data_omit$indiceSE
## t = 7.7745, df = 1896, p-value = 1.233e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1318163 0.2190288
## sample estimates:
## cor
## 0.1757674
cor.test(data_omit$haz,data_omit$indiceSE, alternative = "two.sided",
method = "spearman")
##
## Spearman's rank correlation rho
##
## data: data_omit$haz and data_omit$indiceSE
## S = 955118706, p-value = 1.308e-12
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1618532
Tanto la correlación de Pearson como la de Spearman indican la presencia de una relación positiva significativa entre las variables analizadas. Dado que el p-valor obtenido es inferior a 0.05, se rechaza la hipótesis nula (\(H_0\)), que plantea la ausencia de correlación. Esto implica que, con un nivel de confianza razonable, podemos concluir que existe una asociación estadísticamente significativa entre estas dos variables.
Se analiza la relación estadística entre el Puntaje z de IMC para la edad (categórica), y el tipo de localidad (categórica).
\(H_0\): NO existe
una relacion entre el Puntaje z de IMC para la edad
(BAZ_clas
) y el Tipo de localidad (tipo
)
\(H_a\): Existe una
relacion entre el Puntaje z de IMC para la edad (BAZ_clas
)
y el Tipo de localidad (tipo
)
Durante el análisis univariado, se identificó una tendencia destacada
en las categorías de la variable BAZ
, que parece estar
vinculada con las categorías de la variable tipo
.
cor.test(data_omit$baz_clas,data_omit$tipo, alternative = "two.sided",
method = "kendall")
##
## Kendall's rank correlation tau
##
## data: data_omit$baz_clas and data_omit$tipo
## z = 2.407, p-value = 0.01609
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## 0.05404837
polychor(data_omit$baz_clas,data_omit$tipo, std.err = TRUE)
##
## Polychoric Correlation, 2-step est. = 0.0907 (0.03785)
## Test of bivariate normality: Chisquare = 0.08226, df = 1, p = 0.7743
##
## Row Thresholds
## 1 0.6903
## 2 1.5410
##
##
## Column Threshold
## 0.1658
Los resultados de la correlación de Kendall indican una relación que es marginalmente significativa, ya que el p-valor obtenido se encuentra ligeramente por debajo del nivel de significancia establecido del 5%. Esto sugiere que, aunque existe evidencia estadística para rechazar la hipótesis nula, la fuerza de la relación entre las variables es limitada y debe interpretarse con cautela.
Específicamente, al aplicar la correlación policórica, el valor obtenido para el coeficiente (0.0907) es un poco más alto en comparación con la \(\tau\) de Kendall. Este incremento en el valor del coeficiente podría reflejar la capacidad de la correlación policórica para capturar relaciones subyacentes más sutiles entre las variables categóricas ordinales. No obstante, su baja magnitud también indica que la asociación entre las variables sigue siendo débil.
Se estudia la asociación estadística entre el índice socioeconómico, tratado como una variable continua, y el indigenismo, considerado como una variable categórica.
\(H_0\): NO existe
una relacion entre el Índice Socioeconomico (IndiceSE
) y el
Indigenismo (indigena
)
\(H_a\): Existe una
relacion entre el Índice Socioeconomico (IndiceSE
) y el
Indigenismo(indigena
)
En el análisis univariado, se identificaron diferencias significativas en los diagramas de caja correspondientes a las categorías de la variable indigenismo en relación con el índice socioeconómico. Estas variaciones sugieren posibles disparidades en las distribuciones del índice según las categorías de indigenismo.
cor.test(data_omit$indigena, data_omit$indiceSE,
alternative = c("two.sided"),
method = c("spearman"))
##
## Spearman's rank correlation rho
##
## data: data_omit$indigena and data_omit$indiceSE
## S = 1533483664, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3456803
polyserial(data_omit$indiceSE,data_omit$indigena, std.err = TRUE)
##
## Polyserial Correlation, 2-step est. = -0.5725 (0.026)
## Test of bivariate normality: Chisquare = 8.641, df = 5, p = 0.1243
##
## 1
## Threshold 1.177
El p-valor es < 0.05, lo cual es extremadamente pequeño y significativo a cualquier nivel razonable de significancia (por ejemplo, 0.05). Esto nos permite rechazar la hipótesis nula (\(H_0\)) que plantea la ausencia de correlación, concluyendo que existe una relación estadísticamente significativa entre las variables.
El coeficiente policórico y de Spearman (-0.5725 y -0.3456 respectivamente) indica una correlación negativa fuerte entre las variables.
HAZ
) y el Índice Sociodemográfico
(Indice SE
).Interpretación: Las correlaciones confirman que a mayor nivel socioeconómico, mejores puntajes de talla para la edad en niños/as. Esto sugiere que condiciones socioeconómicas favorables (acceso a nutrición, salud, etc.) favorecen un crecimiento adecuado.
BAZ_clas
) y el tipo de localidad
(tipo
), con un coeficiente bajo (0.0907) que sugiere una
asociación débil.Interpretación: La correlación muestra que el tipo de localidad (rural/urbana) tiene una influencia limitada en el sobrepeso/obesidad infantil. El bajo coeficiente (0.0907) indica que otros factores (dieta, actividad física) podrían ser más relevantes.
IndiceSE
) y el Indigenismo (indigena
), siendo
más fuerte en el método policórico.Interpretación: Los resultados revelan que las comunidades indígenas tienden a tener menores índices socioeconómicos. Esto refleja desigualdades estructurales (ej: acceso limitado a educación, empleo, infraestructura).
En conjunto, los análisis realizados reflejan que las variables socioeconómicas y demográficas tienen un impacto notable en los indicadores de salud y desarrollo antropométrico. En particular:
Relaciones positivas como la observada entre el Índice Sociodemográfico y el Puntaje z de talla para la edad resaltan cómo mejores condiciones socioeconómicas pueden estar asociadas a indicadores más favorables de desarrollo infantil.
Relaciones negativas como las encontradas entre el Índice Socioeconómico y el Indigenismo evidencian inequidades que podrían requerir atención en contextos de políticas públicas y programas sociales.
Las asociaciones marginalmente significativas, como la del IMC para la edad y el tipo de localidad, sugieren que ciertos patrones pueden ser más sutiles y deben ser interpretados en combinación con otros factores.
En general, los hallazgos subrayan la importancia de considerar la complejidad de las relaciones entre variables antropométricas y socioeconómicas, y sugieren que un enfoque integrador es esencial para comprender y abordar los desafíos que afectan el desarrollo y bienestar humano en poblaciones vulnerables. Si necesitas apoyo para estructurar recomendaciones basadas en estos resultados, ¡puedo ayudarte!