Base de datos

Tomando como base la Encuesta Nacional de Salud y Nutrición (ENSANUT, 2018), se seleccionó una sub-muestra específica que consta de datos antropométricos correspondientes a un total de 2,027 niños menores de cinco años. En esta etapa inicial del análisis, el enfoque principal radica en identificar y describir las características antropométricas de los niños, tales como peso, altura y otras medidas físicas relevantes. Además, se busca explorar cómo estas características se relacionan con distintas variables sociodemográficas, incluyendo aspectos como nivel educativo de los padres, ingresos familiares, acceso a servicios básicos y condiciones de vivienda. Este análisis tiene el potencial de proporcionar una visión integral sobre los factores que influyen en el desarrollo físico de los niños y servir de base para la formulación de políticas públicas destinadas a mejorar su bienestar.

La Organización Mundial de la Salud (OMS) ha definido estándares antropométricos basados en mediciones de altura (cm), peso (kg) y edad (meses). Los indicadores empleados incluyen:

Este último se deriva del índice de masa corporal (IMC), calculado mediante la fórmula:

\[\text{IMC} = \frac{\text{peso (kg)}}{\text{altura (m)}^2}\]

Clasificación de Indicadores Antropométricos

  • IMC para la edad (baz):
    • Normal (0): \(\text{baz} \leq 1\)
    • Sobrepeso (1): \(1 < \text{baz} \leq 2\)
    • Obesidad (2): \(\text{baz} > 2\)
  • Talla para la edad (haz):
    • Baja talla (1): \(\text{haz} \leq -2\)
    • Normal (0): \(\text{haz} > -2\)
  • Peso para la edad (waz):
    • Bajo peso (1): \(\text{waz} \leq -2\)
    • Normal (0): \(\text{waz} > -2\)
  • Peso para la talla (whz):
    • Emaciación (1): \(\text{whz} \leq -2\)
    • Normal (0): \(\text{whz} > -2\)

Variables sociodemográficas

Se analiza la relación entre las medidas antropométricas (incluyendo sobrepeso y obesidad) y las siguientes variables:

  1. Edad (años cumplidos).
  2. Sexo (0 = Mujeres, 1 = Hombres).
  3. Tipo de localidad (1 = Rural, 2 = Urbano).
  4. Nivel socioeconómico:
    • nse: 1 = Bajo, 2 = Medio, 3 = Alto.
    • nse5: 1 = Muy bajo, 2 = Bajo, 3 = Medio, 4 = Alto, 5 = Muy alto.
    • Índice socioeconómico (variable continua).
  5. Indigenismo (1 = Sí, 0 = No).
  6. Familia migrante (1 = Sí, 0 = No).
  7. Escolaridad:
    • 1 = Ninguna, 2 = Básica, 3 = Preparatoria o superior.
  8. Madre trabaja:
    • 1 = No trabaja, 2 = Sí trabaja, 3 = Ama de casa.

Lectura de datos

####### PAQUETERIAS ########

library(readxl)
library(polycor)

####### DATOS ########

setwd("C:/Users/bryan/OneDrive/Documentos/MMOP_II/Diplomado/Causalidad/correlaciones")
data <- read_excel("antro_preescolares2018.xlsx")
data_omit <- na.omit(data)

Análisis univariado y bivariado de variables continuas

En la fase inicial del análisis, se realiza una evaluación de las variables continuas contenidas en el conjunto de datos. Este estudio se centra en comprender cómo estas variables están distribuidas. Este enfoque es fundamental para asegurar que las propiedades de las variables se consideren adecuadamente antes de aplicar métodos estadísticos más avanzados.

Como parte integral del análisis, se desarrollan diagramas de dispersión por pares que permiten visualizar la interacción entre las diferentes variables continuas de manera gráfica. Estos diagramas son herramientas valiosas para identificar relaciones bivariadas, tendencias, patrones y la posible presencia de correlaciones entre las variables.

# Función para crear histogramas que se mostrarán en la diagonal del gráfico
panel.hist <- function(x, ...) {
  usr <- par("usr")
  on.exit(par(usr))
  par(usr = c(usr[1:2], 0, 1.5))
  his <- hist(x, plot = FALSE)
  breaks <- his$breaks
  nB <- length(breaks)
  y <- his$counts
  y <- y/max(y)
  rect(breaks[-nB], 0, breaks[-1], y, col = rgb(0, 1, 1, alpha = 0.5), ...)
  }

pairs(~ waz + haz + baz + whz + imc + indiceSE, 
      data=data_omit, 
      labels = c("WAZ", "HAZ", "BAZ", "WHZ", "IMC", "Índice SE"),
      main = "Diagrama de dispersion multiple para variables continuas", 
      cex.labels = 0.8,
      cex = 0.6,
      lower.panel = NULL,
      diag.panel = panel.hist)

Se ha observado que todas las variables analizadas exhiben distribuciones que se aproximan a la forma de una distribución normal. Aunque muchas de las pruebas de correlación asumen normalidad en los datos como uno de sus supuestos, este requisito no se considera estrictamente esencial. Por lo tanto, en este caso, no se llevará a cabo una prueba formal para evaluar la normalidad de las variables. Este enfoque busca priorizar la simplificación del análisis sin comprometer la validez de los resultados.

Se ha identificado que la variable WAZ muestra una relación gráfica notable con los demás puntajes Z incluidos en el estudio, así como con el IMC. Este hallazgo sugiere que WAZ, al ser un indicador antropométrico relacionado con el peso para la edad, está estrechamente vinculado con otras métricas de desarrollo físico y nutricional.

Asimismo, la variable BAZ ha demostrado tener una conexión gráfica importante con WHZ y el IMC. Esto indica que el puntaje BAZ, que evalúa el balance entre el peso y la altura, puede relacionarse directamente con otras medidas específicas del cuerpo que representan proporciones y composiciones físicas.

Finalmente, cabe destacar que las variables WHZ e IMC también presentan una asociación gráfica entre ellas. Ambas métricas, centradas en el peso y la altura, se complementan como indicadores del estado físico y nutricional.

Entre las variables estudiadas, la que muestra un comportamiento más cercano a una distribución normal es el índice socioeconómico Índice SE. Dado este atributo, resulta particularmente interesante explorar su relación con las demás variables del conjunto de datos. Analizar cómo el índice socioeconómico (tanto variable continua como categórica) se correlaciona con otras métricas podría proporcionar información valiosa sobre las posibles asociaciones y patrones dentro del contexto de estudio.

Análisis univariado y bivariado de variables categóricas

Se llevó a cabo la aplicación de la función factor para transformar cada una de las variables categóricas del conjunto de datos, asignándoles etiquetas específicas que facilitan su interpretación y análisis.

data_cat <- subset(data_omit, select=c(waz_clas, haz_clas, baz_clas, whz_clas, 
                                       tipo, nse5, indigena, migrante, esc, trabM))

# Factores para indicadores antropométricos (clasificaciones)
data_cat$waz_clas = factor(data_cat$waz_clas, levels = c(0, 1), 
                           labels = c("Normal", "Bajo peso"))
data_cat$haz_clas = factor(data_cat$haz_clas, levels = c(0, 1), 
                           labels = c("Normal", "Baja talla"))
data_cat$whz_clas = factor(data_cat$whz_clas, levels = c(0, 1), 
                           labels = c("Normal", "Emaciación"))
data_cat$baz_clas = factor(data_cat$baz_clas, levels = c(1, 2, 3), 
                           labels = c("Normal", "Sobrepeso", "Obesidad"))

# Factores para variables sociodemográficas
data_cat$tipo = factor(data_cat$tipo, levels = c(1, 2), 
                       labels = c("Rural", "Urbano"))
data_cat$nse5 = factor(data_cat$nse5, levels = 1:5, 
                       labels = c("Muy bajo", "Bajo", "Medio", "Alto", "Muy alto"))
data_cat$indigena = factor(data_cat$indigena, levels = c(0, 1), 
                           labels = c("No", "Sí"))
data_cat$migrante = factor(data_cat$migrante, levels = c(0, 1), 
                           labels = c("No", "Sí"))
data_cat$esc = factor(data_cat$esc, levels = 1:3, 
                      labels = c("Ninguna", "Básica", "Preparatoria o más"))
data_cat$trabM = factor(data_cat$trabM, levels = 1:3, 
                        labels = c("No trabaja", "Sí trabaja", "Ama de casa"))

Emplearemos la medida BAZ como referencia principal para analizar su relación con las distintas variables categóricas en el conjunto de datos. La elección de BAZ se fundamenta en que esta métrica establece un vínculo directo entre el peso y la talla, proporcionándonos una perspectiva integral del estado nutricional de los individuos. Al encapsular en un solo indicador estas dos dimensiones clave del desarrollo físico, BAZ tiene el potencial de contener información relevante que puede reflejar patrones similares en las otras mediciones Z presentes en el estudio.

tab_se <- table(data_cat$baz_clas, data_cat$nse5)
tab_sep <- prop.table(tab_se, margin = 1)
tab_sep
##            
##              Muy bajo      Bajo     Medio      Alto  Muy alto
##   Normal    0.2721563 0.2219121 0.1884159 0.1870202 0.1304955
##   Sobrepeso 0.2241379 0.2327586 0.2270115 0.1609195 0.1551724
##   Obesidad  0.1794872 0.2478632 0.2307692 0.2051282 0.1367521
tab_tipo <- table(data_cat$baz_clas, data_cat$tipo)
tab_tipop <- prop.table(tab_tipo, margin = 1)
tab_tipop
##            
##                 Rural    Urbano
##   Normal    0.5812980 0.4187020
##   Sobrepeso 0.5229885 0.4770115
##   Obesidad  0.5042735 0.4957265
tab_ind <- table(data_cat$baz_clas, data_cat$indigena)
tab_indp <- prop.table(tab_ind, margin = 1)
tab_indp
##            
##                     No         Sí
##   Normal    0.87787858 0.12212142
##   Sobrepeso 0.87356322 0.12643678
##   Obesidad  0.93162393 0.06837607
tab_esc <- table(data_cat$baz_clas, data_cat$esc)
tab_escp <- prop.table(tab_esc, margin = 1)
tab_escp
##            
##                Ninguna     Básica Preparatoria o más
##   Normal    0.03070482 0.73691556         0.23237962
##   Sobrepeso 0.01436782 0.77586207         0.20977011
##   Obesidad  0.02564103 0.77777778         0.19658120
tab_t <- table(data_cat$baz_clas, data_cat$trabM)
tab_tp <- prop.table(tab_t, margin = 1)
tab_tp
##            
##             No trabaja Sí trabaja Ama de casa
##   Normal    0.02093510 0.26099093  0.71807397
##   Sobrepeso 0.00862069 0.31321839  0.67816092
##   Obesidad  0.01709402 0.28205128  0.70085470

Análisis Bivariado del Índice Sociodemográfico y las Variables Sociodemográficas

En este análisis, se emplean diagramas de cajas y bigotes para explorar las relaciones entre el Índice Sociodemográfico y las demás variables sociodemográficas.

A través de esta visualización, se pueden examinar cómo diferentes categorías o niveles de las variables sociodemográficas se distribuyen en relación con el Índice Sociodemográfico. La forma y posición de las cajas, así como la extensión de los bigotes, ofrecen indicios sobre tendencias generales o diferencias significativas en los datos.

data_cat$"IndiceSE" <- data_omit$indiceSE
par(mfrow = c(2, 2))
# Crear los diagramas de caja
boxplot(IndiceSE ~ tipo, data = data_cat, main = "Tipo de localidad", xlab = "")
boxplot(IndiceSE ~ trabM, data = data_cat, main = "Trabajo de la madre", xlab = "")
boxplot(IndiceSE ~ migrante, data = data_cat, main = "Migrante", xlab = "")
boxplot(IndiceSE ~ indigena, data = data_cat, main = "Indígena", xlab = "")

# Restaurar los parámetros gráficos por defecto para evitar que afecten otros gráficos
par(mfrow = c(1, 1))

Análisis correlacional

Puntaje z de talla para la edad vs Índice Sociodemografico

Se analiza la relación estadística entre el Puntaje z de talla para la edad, y el índice socioeconómico.

Hipótesis de investigación

\(H_0\): NO existe una relacion entre el Puntaje z de talla para la edad (HAZ) y el Índice Sociodemografico (Indice SE)

\(H_a\): Existe una relacion entre el Puntaje z de talla para la edad (HAZ) y el Índice Sociodemografico (Indice SE)

En el análisis univariado realizado, se observó que las distribuciones de las variables en cuestión presentan una forma que se aproxima a la normalidad, aunque no cumplen completamente con el supuesto de normalidad. Si bien esta desviación puede influir en los resultados, se determinó que el grado de error introducido por esta falta de ajuste no es lo suficientemente significativo como para invalidar los análisis. Por ello, se decidió proceder con la aplicación de métodos de correlación, específicamente las correlaciones de Pearson y Spearman, utilizando las variables en su formato continuo.

cor.test(data_omit$haz,data_omit$indiceSE, alternative = "two.sided",
         method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  data_omit$haz and data_omit$indiceSE
## t = 7.7745, df = 1896, p-value = 1.233e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1318163 0.2190288
## sample estimates:
##       cor 
## 0.1757674
cor.test(data_omit$haz,data_omit$indiceSE, alternative = "two.sided",
         method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  data_omit$haz and data_omit$indiceSE
## S = 955118706, p-value = 1.308e-12
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1618532

Tanto la correlación de Pearson como la de Spearman indican la presencia de una relación positiva significativa entre las variables analizadas. Dado que el p-valor obtenido es inferior a 0.05, se rechaza la hipótesis nula (\(H_0\)), que plantea la ausencia de correlación. Esto implica que, con un nivel de confianza razonable, podemos concluir que existe una asociación estadísticamente significativa entre estas dos variables.

Puntaje z de IMC para la edad vs Tipo de localidad

Se analiza la relación estadística entre el Puntaje z de IMC para la edad (categórica), y el tipo de localidad (categórica).

Hipótesis de investigación

\(H_0\): NO existe una relacion entre el Puntaje z de IMC para la edad (BAZ_clas) y el Tipo de localidad (tipo)

\(H_a\): Existe una relacion entre el Puntaje z de IMC para la edad (BAZ_clas) y el Tipo de localidad (tipo)

Durante el análisis univariado, se identificó una tendencia destacada en las categorías de la variable BAZ, que parece estar vinculada con las categorías de la variable tipo.

cor.test(data_omit$baz_clas,data_omit$tipo, alternative = "two.sided",
         method = "kendall")
## 
##  Kendall's rank correlation tau
## 
## data:  data_omit$baz_clas and data_omit$tipo
## z = 2.407, p-value = 0.01609
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##        tau 
## 0.05404837
polychor(data_omit$baz_clas,data_omit$tipo, std.err = TRUE)
## 
## Polychoric Correlation, 2-step est. = 0.0907 (0.03785)
## Test of bivariate normality: Chisquare = 0.08226, df = 1, p = 0.7743
## 
##   Row Thresholds        
## 1 0.6903
## 2 1.5410
## 
## 
##   Column Threshold        
##   0.1658

Los resultados de la correlación de Kendall indican una relación que es marginalmente significativa, ya que el p-valor obtenido se encuentra ligeramente por debajo del nivel de significancia establecido del 5%. Esto sugiere que, aunque existe evidencia estadística para rechazar la hipótesis nula, la fuerza de la relación entre las variables es limitada y debe interpretarse con cautela.

Específicamente, al aplicar la correlación policórica, el valor obtenido para el coeficiente (0.0907) es un poco más alto en comparación con la \(\tau\) de Kendall. Este incremento en el valor del coeficiente podría reflejar la capacidad de la correlación policórica para capturar relaciones subyacentes más sutiles entre las variables categóricas ordinales. No obstante, su baja magnitud también indica que la asociación entre las variables sigue siendo débil.

Índice Socioeconomico vs Indigenismo

Se estudia la asociación estadística entre el índice socioeconómico, tratado como una variable continua, y el indigenismo, considerado como una variable categórica.

Hipótesis de investigación

\(H_0\): NO existe una relacion entre el Índice Socioeconomico (IndiceSE) y el Indigenismo (indigena)

\(H_a\): Existe una relacion entre el Índice Socioeconomico (IndiceSE) y el Indigenismo(indigena)

En el análisis univariado, se identificaron diferencias significativas en los diagramas de caja correspondientes a las categorías de la variable indigenismo en relación con el índice socioeconómico. Estas variaciones sugieren posibles disparidades en las distribuciones del índice según las categorías de indigenismo.

cor.test(data_omit$indigena, data_omit$indiceSE,
         alternative = c("two.sided"),
         method = c("spearman"))
## 
##  Spearman's rank correlation rho
## 
## data:  data_omit$indigena and data_omit$indiceSE
## S = 1533483664, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.3456803
polyserial(data_omit$indiceSE,data_omit$indigena, std.err = TRUE)
## 
## Polyserial Correlation, 2-step est. = -0.5725 (0.026)
## Test of bivariate normality: Chisquare = 8.641, df = 5, p = 0.1243
## 
##               1
## Threshold 1.177

El p-valor es < 0.05, lo cual es extremadamente pequeño y significativo a cualquier nivel razonable de significancia (por ejemplo, 0.05). Esto nos permite rechazar la hipótesis nula (\(H_0\)) que plantea la ausencia de correlación, concluyendo que existe una relación estadísticamente significativa entre las variables.

El coeficiente policórico y de Spearman (-0.5725 y -0.3456 respectivamente) indica una correlación negativa fuerte entre las variables.

Conclusiones Particulares

Puntaje z de talla para la edad vs Índice Sociodemográfico:

  1. Tanto el coeficiente de Pearson como el de Spearman muestran una relación positiva significativa entre el Puntaje z de talla para la edad (HAZ) y el Índice Sociodemográfico (Indice SE).
  2. Los valores obtenidos permiten rechazar la hipótesis nula (\(H_0\)) con un nivel de confianza razonable, lo que sugiere que una mayor calidad en el índice socioeconómico está relacionada con mejores puntajes z de talla para la edad.
  3. La aproximación a la normalidad de las variables respalda el uso de los métodos paramétricos y no paramétricos aplicados, aunque con precaución debido a su leve desviación de normalidad.

Interpretación: Las correlaciones confirman que a mayor nivel socioeconómico, mejores puntajes de talla para la edad en niños/as. Esto sugiere que condiciones socioeconómicas favorables (acceso a nutrición, salud, etc.) favorecen un crecimiento adecuado.

Puntaje z de IMC para la edad vs Tipo de localidad:

  1. La correlación de Kendall refleja una asociación estadísticamente significativa, aunque débil, entre las variables analizadas. El p-valor, al situarse ligeramente por debajo del nivel de significancia del 5%, confirma la existencia de esta relación, pero su magnitud limitada sugiere que no es lo suficientemente fuerte como para tener un impacto notable.
  2. La correlación policórica indica una relación marginalmente significativa entre el Puntaje z de IMC para la edad (BAZ_clas) y el tipo de localidad (tipo), con un coeficiente bajo (0.0907) que sugiere una asociación débil.
  3. El análisis muestra tendencias en los datos que vinculan las categorías de ambas variables, lo que podría implicar una relación relevante en ciertos contextos, aunque es necesario interpretarlo con cautela debido a la limitada magnitud de la asociación.

Interpretación: La correlación muestra que el tipo de localidad (rural/urbana) tiene una influencia limitada en el sobrepeso/obesidad infantil. El bajo coeficiente (0.0907) indica que otros factores (dieta, actividad física) podrían ser más relevantes.

Índice Socioeconómico vs Indigenismo:

  1. Tanto la correlación policórica (-0.5725) como la correlación de Spearman (-0.3456) destacan una relación negativa significativa entre el Índice Socioeconómico (IndiceSE) y el Indigenismo (indigena), siendo más fuerte en el método policórico.
  2. Los diagramas de caja muestran claras diferencias en las categorías de indigenismo con respecto al índice socioeconómico, lo que evidencia disparidades socioeconómicas relacionadas con la pertenencia a comunidades indígenas.
  3. Los resultados estadísticos permiten rechazar la hipótesis nula (\(H_0\)), confirmando que estas variables están asociadas de manera significativa.

Interpretación: Los resultados revelan que las comunidades indígenas tienden a tener menores índices socioeconómicos. Esto refleja desigualdades estructurales (ej: acceso limitado a educación, empleo, infraestructura).

Conclusión General

En conjunto, los análisis realizados reflejan que las variables socioeconómicas y demográficas tienen un impacto notable en los indicadores de salud y desarrollo antropométrico. En particular:

En general, los hallazgos subrayan la importancia de considerar la complejidad de las relaciones entre variables antropométricas y socioeconómicas, y sugieren que un enfoque integrador es esencial para comprender y abordar los desafíos que afectan el desarrollo y bienestar humano en poblaciones vulnerables. Si necesitas apoyo para estructurar recomendaciones basadas en estos resultados, ¡puedo ayudarte!