knitr::opts_chunk$set(
  echo = TRUE,
  warning = FALSE,
  message = FALSE,
  fig.align = "center",
  fig.width = 10,
  fig.height = 7,
  dpi = 300
)
library(readxl)
library(dplyr)
library(ggplot2)
library(tidyr)
library(knitr)
library(kableExtra)
library(ggpubr)

Introducción

En el análisis descriptivo previo al inicio de los talleres, sobre esta base de datos, de la cual logré caracterizar individualmente las variables demográficas, clínicas, antropométricas y bioquímicas de una cohorte de 125 escolares colombianos,de la ciudad de Bucaramanga, por lo cual,describir la distribución de una variable en forma aislada, aunque fundamental, representa solo el primer nivel del razonamiento epidemiológico,pues la verdadera complejidad del riesgo metabólico infantil no reside en valores individuales, sino en las relaciones funcionales entre variables, es decir, en cómo los niveles de triglicéridos difieren entre niñas y niños, o cómo la fuerza muscular cambia entre la mano dominante y la no dominante.

Aquí es donde la estadística bivariada considero que adquiere su relevancia metodológica, pues mientras que la estadística univariada me permitió responder preguntas del tipo “¿cuál es la mediana de triglicéridos en la población?”, la estadística bivariada me habilita para explorar interrogantes más profundos: “¿existen diferencias significativas en los triglicéridos según el sexo biológico?” o “¿la fuerza muscular difiere entre ambas manos?”, por lo que este salto conceptual, de la descripción a la comparación, constituye la base del contraste de hipótesis y la inferencia estadística que hemos visto en clase.

Definición y alcance de la estadística bivariada

La estadística bivariada se define como el conjunto de técnicas que permiten analizar simultáneamente dos variables para determinar si existe asociación, diferencia o relación entre ellas (Daniel,4 edic. 2018), sin embargo, a diferencia del análisis univariado, que resume una sola variable mediante promedios o frecuencias, el análisis bivariado confronta dos variables para evaluar si los cambios en una se relacionan con modificaciones en la otra.

En el contexto de estudios epidemiológicos como este, la estadística bivariada me permite operacionalizar hipótesis clínicas relevantes, por ejemplo, si sospecho que el sexo biológico influye en el perfil lipídico, puedo contrastar formalmente esta hipótesis comparando los niveles de triglicéridos entre niñas y niños, además, la estadística bivariada me facilita la identificación de grupos de riesgo diferencial, pues al comparar subgrupos definidos por características demográficas o clínicas, puedo detectar poblaciones más vulnerables que requieren intervenciones preventivas específicas.

En cuanto a la selección entre técnicas paramétricas y no paramétricas depende fundamentalmente de las características distribucionales de los datos, por lo que las pruebas paramétricas, como la t de Student, asumen que los datos provienen de poblaciones con distribución normal y homogeneidad de varianzas, tal como lo he analizado en lo ejercicios de clase anteriores, sin embargo, en datos biomédicos reales, estas suposiciones frecuentemente se violan debido a la presencia de valores atípicos, distribuciones asimétricas o tamaños de muestra desiguales entre grupos, por lo que entonces, las pruebas no paramétricas constituyen una alternativa robusta y flexible que no requiere supuestos distribucionales estrictos.

Estas pruebas trabajan sobre los rangos de los datos en lugar de sus valores absolutos, lo que las hace resistentes a outliers y distribuciones asimétricas.En esta base en particular, se trata de una población pediátrica, donde variables como triglicéridos, colesterol o perímetro de cintura suelen presentar distribuciones sesgadas debido a la variabilidad biológica puberal,por lo que las pruebas no paramétricas me ofrecen una mayor validez inferencial.

Considero que en este análisis, el uso de pruebas no paramétricas se justifica plenamente por tres razones:

-primero, porque varias de las variables bioquímicas y antropométricas presentan distribuciones no normales

-segundo, porque los tamaños de muestra entre grupos (50 niñas vs. 75 niños) son moderados y desiguales

y tercero, porque estas técnicas me permiten responder las mismas preguntas de investigación con mayor robustez metodológica.

Objetivo del análisis

El objetivo de este análisis es aplicar técnicas de comparación estadística no paramétrica para evaluar diferencias entre grupos (independientes y relacionados) y asociaciones entre variables categóricas, utilizando datos de la cohorte de escolares colombianos, por lo que resalto específicamente, que busco determinar si existen diferencias significativas en marcadores bioquímicos según sexo, si la fuerza muscular difiere entre manos dominante y no dominante, y si existe asociación entre variables demográficas y condiciones de salud.

Este análisis me permitirá transitar del conocimiento descriptivo hacia la inferencia estadística, generando evidencia sobre patrones diferenciales de riesgo metabólico que podrían orientar en la vida real, estrategias de prevención primaria en población escolar.

BASE_METABOLISMO <- read_excel("BASE_METABOLISMO.xlsx")

# Limpio filas vacías
BASE_METABOLISMO <- BASE_METABOLISMO %>% drop_na(cod_iden)

# Vista general
cat("=== ESTRUCTURA DE LA BASE ===\n")
## === ESTRUCTURA DE LA BASE ===
dim(BASE_METABOLISMO)
## [1] 125  25
str(BASE_METABOLISMO)
## tibble [125 × 25] (S3: tbl_df/tbl/data.frame)
##  $ cod_iden     : num [1:125] 5 15 16 17 18 20 23 24 27 29 ...
##  $ fecha_nacim  : POSIXct[1:125], format: "2000-01-01" "2000-01-27" ...
##  $ fecha_corte  : POSIXct[1:125], format: "2011-07-26" "2011-07-26" ...
##  $ sexo         : num [1:125] 0 1 1 0 1 0 1 0 1 0 ...
##  $ edad         : num [1:125] 11 11 11 11 11 12 11 12 11 11 ...
##  $ estrato_fse  : num [1:125] 2 1 1 3 1 1 4 1 2 2 ...
##  $ CRF_shuttles : num [1:125] 2.4 4.6 5.7 3.6 2.3 ...
##  $ pas          : num [1:125] 122 123 113 95 121 101 103 103 125 112 ...
##  $ pad          : num [1:125] 80 79 74 62 68 71 74 77 64 76 ...
##  $ talla        : num [1:125] 1.53 1.4 1.51 1.42 1.49 ...
##  $ peso         : num [1:125] 52.4 33.3 45.1 33.9 58.4 ...
##  $ per__cintura : num [1:125] 78 59.4 67 66 88 ...
##  $ per__cadera  : num [1:125] 92.2 77.6 84 73 95 ...
##  $ tanner       : num [1:125] 3 1 2 1 2 2 1 3 2 1 ...
##  $ f__mano_do   : num [1:125] 20 15 22 17 23 24 14 17 21.5 15 ...
##  $ f__mano_no_do: chr [1:125] "21.5" "16" "23.5" "15.5" ...
##  $ %_grasa_corp : num [1:125] 30.8 18.4 16.8 19.5 34.9 ...
##  $ ___grasa_plie: num [1:125] 30.3 24.3 17.4 22.8 51.2 ...
##  $ glicemia     : num [1:125] 97 94 99 86 99 105 97 90 95 82 ...
##  $ col_total    : num [1:125] 153 194 171 180 150 215 151 173 198 186 ...
##  $ hdl          : num [1:125] 47 60 52 42 46 46 109 112 39 90 ...
##  $ ldl          : num [1:125] 96.4 111.4 109.2 125 94.6 ...
##  $ tag          : num [1:125] 48 113 49 65 47 81 67 95 114 85 ...
##  $ hta          : num [1:125] 2 0 0 1 0 0 0 1 1 0 ...
##  $ obesidad     : num [1:125] 2 0 1 0 0 0 3 0 1 0 ...
# Resumen de variables clave
summary(BASE_METABOLISMO[, c("edad", "sexo", "tag", "f__mano_do", "f__mano_no_do", "obesidad")])
##       edad            sexo          tag           f__mano_do   
##  Min.   : 9.00   Min.   :0.0   Min.   : 12.00   Min.   : 9.00  
##  1st Qu.:11.00   1st Qu.:0.0   1st Qu.: 57.00   1st Qu.:13.00  
##  Median :11.00   Median :1.0   Median : 77.00   Median :16.00  
##  Mean   :11.08   Mean   :0.6   Mean   : 86.53   Mean   :16.42  
##  3rd Qu.:11.00   3rd Qu.:1.0   3rd Qu.:103.00   3rd Qu.:19.00  
##  Max.   :14.00   Max.   :1.0   Max.   :324.00   Max.   :27.00  
##  f__mano_no_do         obesidad    
##  Length:125         Min.   :0.000  
##  Class :character   1st Qu.:0.000  
##  Mode  :character   Median :0.000  
##                     Mean   :0.696  
##                     3rd Qu.:1.000  
##                     Max.   :3.000
# Verifico valores faltantes
cat("\n=== VALORES FALTANTES ===\n")
## 
## === VALORES FALTANTES ===
colSums(is.na(BASE_METABOLISMO))
##      cod_iden   fecha_nacim   fecha_corte          sexo          edad 
##             0             0             0             0             0 
##   estrato_fse  CRF_shuttles           pas           pad         talla 
##             0             0             0             0             0 
##          peso  per__cintura   per__cadera        tanner    f__mano_do 
##             0             0             0             0             0 
## f__mano_no_do  %_grasa_corp ___grasa_plie      glicemia     col_total 
##             0             0             0             0             0 
##           hdl           ldl           tag           hta      obesidad 
##             0             0             0             0             0

Interpretación

Al explorar la estructura de la base BASE_METABOLISMO, observo que cuento con 125 observaciones completas sin valores faltantes, lo cual representa una fortaleza metodológica importante, pues me permite realizar inferencias válidas sin preocuparme por sesgos derivados de datos incompletos o imputaciones.

La distribución etaria muestra una mediana de 11 años (rango: 9-14 años), lo que me sitúa en una ventana biológica crítica donde coexisten niños prepuberales y puberales, donde esta heterogeneidad es tan importante ya que sucede durante la pubertad, donde se produce una resistencia fisiológica transitoria a la insulina y que puede impactar los marcadores metabólicos; por tanto, cualquier diferencia que encuentre en adelante entre grupos deberé interpretar considerando esta variabilidad biológica inherente.

En cuanto al sexo, la media de 0.6 me indica que aproximadamente el 60% de la muestra es masculina y el 40% femenina, lo que genera grupos desiguales (n₁ ≠ n₂). Esta desigualdad en los tamaños de muestra, considero que una razón importante para preferir pruebas no paramétricas, pues las pruebas paramétricas como la t de Student son más sensibles a violaciones de homogeneidad de varianzas cuando los grupos son desiguales.

Al analizar los triglicéridos (TAG), observo una distribución claramente asimétrica, donde la media (86.53 mg/dL) supera notablemente la mediana (77 mg/dL), lo que puede ser un sesgo hacia valores altos, además, el rango extremadamente amplio (12-324 mg/dL) y la presencia de un valor máximo muy alejado del tercer cuartil (103 mg/dL) me señalan la existencia de outliers.

Esta asimetría y la presencia de valores atípicos son precisamente las condiciones que me hacen justificar el uso de pruebas no paramétricas, pues trabajar con rangos en lugar de valores absolutos me protegerá de la influencia desproporcionada de estos extremos.

Respecto a obesidad, la mediana de 0 y la media de 0.696considero que indican que la mayoría de los escolares se concentra en las categorías bajas (bajo peso o peso normal), con una distribución que no es uniforme entre las cuatro categorías, asi que esta concentración en categorías específicas es relevante para la prueba de Chi-cuadrado, pues me obligará a verificar que no existan celdas con frecuencias esperadas menores a 5, condición que podría invalidar la prueba.

al revisar la estructura y dimensiones de la base, he detectado un pequeño detalle técnico con la variable f__mano_no_do, que está codificada como character en lugar de numérica, por lo que voy a realizar la conversión paraa los analisis siguientes como la prueba de Wilcoxon para muestras pareadas, pues de lo contrario R no podría calcularme diferencias numéricas entre las mediciones de fuerza de ambas manos.

BASE_METABOLISMO <- BASE_METABOLISMO %>%
  mutate(f__mano_no_do = as.numeric(f__mano_no_do))

str(BASE_METABOLISMO$f__mano_no_do)
##  num [1:125] 21.5 16 23.5 15.5 22 22 12 16 20 16 ...
summary(BASE_METABOLISMO$f__mano_no_do)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00   13.00   16.00   15.96   18.00   32.00

Al analizar los estadísticos descriptivos de la fuerza prensil de la mano no dominante, encuentro:

Mediana: 16.00 kg Media: 15.96 kg Rango: 8-32 kg Q1-Q3: 13-18 kg

Primero, me parece llamativo que las medianas sean idénticas (16 kg en ambas manos), lo cual podría sugerirme ausencia de diferencias, sin embargo, la media de la mano dominante es ligeramente superior (16.42 vs 15.96 kg), lo que indica que la distribución podría estar sesgada de manera diferente en cada grupo.

Segundo, el máximo de la mano no dominante (32 kg) supera al de la mano dominante (27 kg), lo cual es interesante desde el punto de vista biomecánico y podría señalar un error de registro o un caso excepcional donde la lateralidad reportada no coincide con la dominancia funcional real, por lo cual deberé tener atención al momento de interpretar.

ANÁLISIS 1: MANN-WHITNEY - TAG según SEXO

Mi pregunta de investigación:

¿Existen diferencias significativas en los niveles de triglicéridos séricos entre niñas y niños?

Hipótesis estadísticas:

H₀ (Hipótesis Nula): No existen diferencias significativas en la distribución de triglicéridos entre niñas y niños; las medianas de ambos grupos son iguales.

H₁ (Hipótesis Alternativa): Existen diferencias significativas en la distribución de triglicéridos entre ambos grupos; las medianas difieren.

Nivel de significancia que elijo: α = 0.05 Criterio de decisión: Si p-value < 0.05, rechazo H₀.

BASE_METABOLISMO <- BASE_METABOLISMO %>%
  mutate(sexo_label = factor(sexo, levels = c(0, 1), labels = c("Femenino", "Masculino")))

table(BASE_METABOLISMO$sexo_label)
## 
##  Femenino Masculino 
##        50        75
BASE_METABOLISMO %>%
  group_by(sexo_label) %>%
  summarise(
    n = n(),
    Mediana = median(tag),
    Media = mean(tag),
    DE = sd(tag),
    Q1 = quantile(tag, 0.25),
    Q3 = quantile(tag, 0.75),
    Min = min(tag),
    Max = max(tag)
  )
test_mw <- wilcox.test(tag ~ sexo_label, data = BASE_METABOLISMO, exact = FALSE)
print(test_mw)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  tag by sexo_label
## W = 2034, p-value = 0.4244
## alternative hypothesis: true location shift is not equal to 0
W_statistic <- test_mw$statistic
n_total <- nrow(BASE_METABOLISMO)
Z_approx <- qnorm(test_mw$p.value/2, lower.tail = FALSE)
r_effect <- abs(Z_approx) / sqrt(n_total)

cat("\n=== TAMAÑO DEL EFECTO ===\n")
## 
## === TAMAÑO DEL EFECTO ===
cat("r de Rosenthal:", round(r_effect, 3), "\n")
## r de Rosenthal: 0.071

Resultados para interpretar

Al examinar la distribución por sexo biológico en mi muestra, observo que cuento con 50 niñas (40%) y 75 niños (60%), lo que me confirma el desbalance muestral que había anticipado en la exploración inicial, pues esta desigualdad numérica, si bien no invalida la prueba de Mann-Whitney, sí representa una consideración metodológica importante que debo tener presente al interpretar los resultados.

Análisis descriptivo de triglicéridos

Al comparar los estadísticos descriptivos de triglicéridos entre ambos grupos, encuentro un patrón que me parece llamativo, pues las niñas presentan una mediana de 75 mg/dL versus los niños con 78 mg/dL, lo cual representa una diferencia de apenas 3 mg/dL entre medianas, sin embargo, cuando miro las medias, observo que las niñas tienen 91.48 mg/dL mientras que los niños tienen 83.23 mg/dL, mostrando una inversión del patrón.

Esta discrepancia entre mediana y media me resulta reveladora, pues me indica que la distribución de triglicéridos en niñas está más sesgada hacia valores altos que en niños, de hecho, al revisar los valores extremos, noto que el máximo en niñas alcanza 324 mg/dL, un valor clínicamente muy elevado que supera ampliamente el máximo en niños (201 mg/dL), por lo que este valor atípico extremo en el grupo femenino me está “jalando” la media hacia arriba, por lo que considero que la mediana es un mejor indicador de tendencia central en este contexto.

Además, observo que la desviación estándar en niñas (50.72) es mayor que en niños (43.64), lo cual me confirma que existe mayor variabilidad metabólica en el grupo femenino, por lo que esta heterogeneidad según la literatura médica, podría estar relacionada con diferencias en el estadio puberal, pues las niñas en este rango etario (9-14 años) pueden estar en distintas fases de la pubertad, con variaciones hormonales (estrógenos) que afectan el metabolismo lipídico de manera diferencial.

Resultado de la prueba estadística:

La prueba de Mann-Whitney arroja un estadístico W = 2034 con un p-value = 0.4244, lo cual está considerablemente por encima del umbral de significancia estadística (α = 0.05). Por lo tanto, no puedo rechazar la hipótesis nula, lo que me indica que no tengo evidencia estadística suficiente para afirmar que las distribuciones de triglicéridos difieren entre niñas y niños en esta población escolar.

El tamaño del efecto (r = 0.071) me confirma que, incluso si hubiera diferencias, estas serían mínimas desde el punto de vista clínico, pues según los criterios de Cohen, un r < 0.1 se considera un efecto despreciable, por lo que me parece que el sexo biológico no representa un factor diferencial importante en los niveles de triglicéridos en esta cohorte prepuberal.

Considero que este resultado no significativo es informativo en sí mismo, pues me dice que, en escolares colombianos de esta edad, el sexo biológico no es un factor de riesgo diferencial para hipertrigliceridemia.

Esto me parece consistente con la fisiología esperada, dado que las diferencias hormonales más marcadas entre sexos (testosterona vs. estrógenos) se manifiestan principalmente en etapas más avanzadas de la pubertad, no en la prepubertad, sin embargo, me resulta llamativo que ambos grupos presenten medianas por debajo del límite deseable (75-78 mg/dL vs. 150 mg/dL), lo cual indica que la mayoría de los escolares tienen niveles adecuados de triglicéridos, no obstante,creo que la presencia de valores extremos muy elevados (324 mg/dL en una niña, 201 mg/dL en un niño) me señala que existen casos individuales con riesgo metabólico significativo que merecerían seguimiento clínico, independientemente del sexo.

Desde una perspectiva de salud pública, estos hallazgos me sugieren que las intervenciones preventivas de hipertrigliceridemia en población escolar no necesitarían ser diferenciadas por sexo, sino más bien focalizarse en identificar los casos de riesgo individual mediante tamizaje universal, además de promover hábitos alimentarios saludables y actividad física en toda la población infantil sin distinción de sexo.

Por lo tanto, concluyo que no existen diferencias estadísticamente significativas en los niveles de triglicéridos entre niñas y niños en esta muestra (p = 0.424), y que el sexo biológico no constituye un factor de riesgo diferencial para hipertrigliceridemia en escolares prepuberales colombianos en esta población que estoy analizando.

ANÁLISIS 2: KRUSKAL-WALLIS (Colesterol total según obesidad)

El test de Kruskal-Wallis es el equivalente no paramétrico del ANOVA, y lo utilizo cuando necesito comparar la distribución de una variable continua entre tres o más grupos independientes, por lo que en este caso, quiero evaluar si el colesterol total difiere según el estado nutricional, que tiene 4 categorías (0=Normal, 1=Bajo peso, 2=Sobrepeso, 3=Obesidad).

Considero que Kruskal-Wallis es la prueba adecuada porque no requiere el supuesto de normalidad en cada grupo ni homogeneidad de varianzas, condiciones que probablemente no se cumplan en variables bioquímicas con distribuciones asimétricas y tamaños de muestra desiguales entre categorías de obesidad.

Mi pregunta de investigación:

¿Existen diferencias significativas en los niveles de colesterol total entre las diferentes categorías de estado nutricional (normal, bajo peso, sobrepeso, obesidad)?

Hipótesis estadísticas:

H₀ (Hipótesis Nula): No existen diferencias significativas en la distribución de colesterol total entre los grupos de estado nutricional; las medianas son iguales.

H₁ (Hipótesis Alternativa): Al menos uno de los grupos presenta una distribución de colesterol total diferente; al menos una mediana difiere.

Nivel de significancia: α = 0.05 Criterio de decisión: Si p-value < 0.05, rechazo H₀.

BASE_METABOLISMO <- BASE_METABOLISMO %>%
  mutate(obesidad_label = factor(obesidad,
                                 levels = c(0, 1, 2, 3),
                                 labels = c("Normal", "Bajo peso", "Sobrepeso", "Obesidad")))

table(BASE_METABOLISMO$obesidad_label)
## 
##    Normal Bajo peso Sobrepeso  Obesidad 
##        85        10        13        17
BASE_METABOLISMO %>%
  group_by(obesidad_label) %>%
  summarise(
    n = n(),
    Mediana = median(col_total),
    Media = mean(col_total),
    DE = sd(col_total),
    Min = min(col_total),
    Max = max(col_total)
  )
test_kw <- kruskal.test(col_total ~ obesidad_label, data = BASE_METABOLISMO)
print(test_kw)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  col_total by obesidad_label
## Kruskal-Wallis chi-squared = 1.3516, df = 3, p-value = 0.7169
cat("\n=== TAMAÑO DEL EFECTO ===\n")
## 
## === TAMAÑO DEL EFECTO ===
eta_squared <- test_kw$statistic / (nrow(BASE_METABOLISMO) - 1)
cat("Eta cuadrado (η²):", round(eta_squared, 4), "\n")
## Eta cuadrado (η²): 0.0109

INTERPRETACIÓN - KRUSKAL-WALLIS

Distribución de los grupos:

Lo primero que noto al revisar la distribución por estado nutricional es un desbalance marcado entre los grupos, pues cuento con 85 escolares con peso normal (68%), mientras que los grupos de bajo peso (n=10), sobrepeso (n=13) y obesidad (n=17) son considerablemente más pequeños.

Este desbalance me parece metodológicamente relevante, pues los tamaños muestrales pequeños en tres de los cuatro grupos reducen a mi modo de ver, el poder estadístico de la prueba para detectar diferencias reales si existieran, sin embargo, considero que esta distribución podría estar reflejando una realidad epidemiológica de una población escolar colombiana, donde la mayoría de los niños puede que se encuentren en peso normal y las categorías extremas son menos frecuentes en algunas ciudades principales.

Al examinar los estadísticos descriptivos, observo que las medianas de colesterol total son:

Bajo peso: 148.5 mg/dL Obesidad: 157.0 mg/dL Normal: 159.0 mg/dL Sobrepeso: 164.0 mg/dLº

Me llama la atención que el grupo con sobrepeso presenta la mediana más alta (164 mg/dL), no el grupo con obesidad como fisiopatológicamente esperaría, además, el grupo con bajo peso tiene la mediana más baja (148.5 mg/dL), lo cual tiene sentido biológico dado que la síntesis hepática de colesterol está influenciada por la disponibilidad de sustratos energéticos.

Al revisar las medias, noto que el grupo de sobrepeso alcanza 172.85 mg/dL, mientras que paradójicamente el grupo con obesidad tiene la media más baja (155.82 mg/dL), esta inversión del patrón esperado me genera curiosidad, pues desde la perspectiva fisiopatológica esperaría que a mayor adiposidad, mayor dislipidemia.

Considero que esta aparente paradoja podría explicarse por varios factores: primero, el tamaño muestral pequeño en el grupo de obesidad (n=17) hace que cualquier valor atípico tenga un impacto desproporcionado; segundo, es posible que algunos niños con obesidad ya estuvieran recibiendo intervenciones dietéticas que moderen sus niveles lipídicos; y tercero, la variabilidad es notablemente menor en el grupo de obesidad (DE=36.57) comparado con sobrepeso (DE=60.04), lo que me sugiere un grupo más homogéneo.

Resultado de la prueba estadística:

La prueba de Kruskal-Wallis arroja un estadístico χ² = 1.3516 con 3 grados de libertad y un p-value = 0.7169, muy por encima del umbral de significancia (α = 0.05),por lo tanto, no puedo rechazar la hipótesis nula, lo que me indica que no tengo evidencia estadística para afirmar que el colesterol total difiere significativamente entre las categorías de estado nutricional.

El tamaño del efecto (η² = 0.0109) me confirma que apenas el 1.09% de la variabilidad del colesterol total es explicada por el estado nutricional, lo cual representa un efecto trivial según los criterios convencionales (η² < 0.01 trivial, 0.01-0.06 pequeño).

Me parece que este resultado no significativo debo interpretar con cautela por varias razones metodológicas,primero, los tamaños muestrales muy desiguales (85 vs. 10-17) reducen la capacidad de la prueba para detectar diferencias reales,en segundo plano, la alta variabilidad intragrupo (DE entre 36-60 mg/dL) dificulta identificar diferencias entre grupos cuando estas son modestas, y tercero, el rango etario amplio (9-14 años) introduce heterogeneidad puberal que podría enmascararme asociaciones reales.

Desde la perspectiva clínica,considero que la ausencia de asociación significativa entre obesidad y colesterol total en esta muestra no implica ausencia de riesgo metabólico, pues creo que es posible que otros marcadores lipídicos como triglicéridos, HDL o LDL-colesterol muestren asociaciones más claras con el estado nutricional, dado que el colesterol total es una medida global que puede ocultar patrones dislipidémicos específicos (por ejemplo, HDL bajo con colesterol total normal).

Por lo tanto, concluyo que no existen diferencias estadísticamente significativas en los niveles de colesterol total entre las categorías de estado nutricional en esta muestra (p = 0.717), y que el estado nutricional explica menos del 2% de la variabilidad del colesterol total en escolares colombianos de esta población.

ANÁLISIS 3: WILCOXON PAREADO (Fuerza mano dominante vs. no dominante)

El test de Wilcoxon para muestras pareadas (signed-rank test) es el equivalente no paramétrico de la t de Student pareada, por lo cual lo utilizo cuando tengo dos mediciones relacionadas en los mismos individuos y quiero evaluar si existe una diferencia sistemática entre ellas. En este caso, cada escolar tiene dos mediciones de fuerza prensil: una de la mano dominante y otra de la mano no dominante.

Considero que esta prueba es apropiada porque las mediciones provienen del mismo sujeto (datos pareados),lo que controla la variabilidad interindividual y me permite detectar diferencias atribuibles específicamente a la lateralidad manual.

Mi pregunta de investigación:

¿Existe una diferencia significativa en la fuerza prensil entre la mano dominante y la mano no dominante en escolares colombianos?

Hipótesis estadísticas:

H₀ (Hipótesis Nula): No existe diferencia significativa entre la fuerza prensil de la mano dominante y la mano no dominante; la mediana de las diferencias es igual a cero.

H₁ (Hipótesis Alternativa): Existe una diferencia significativa entre la fuerza prensil de ambas manos; la mediana de las diferencias es distinta de cero.

Nivel de significancia: α = 0.05 Criterio de decisión: Si p-value < 0.05, rechazo H₀.

cat("=== ESTADÍSTICOS DESCRIPTIVOS ===\n")
## === ESTADÍSTICOS DESCRIPTIVOS ===
cat("Mano dominante:\n")
## Mano dominante:
summary(BASE_METABOLISMO$f__mano_do)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00   13.00   16.00   16.42   19.00   27.00
cat("\nMano no dominante:\n")
## 
## Mano no dominante:
summary(BASE_METABOLISMO$f__mano_no_do)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00   13.00   16.00   15.96   18.00   32.00
BASE_METABOLISMO <- BASE_METABOLISMO %>%
  mutate(diferencia_fuerza = f__mano_do - f__mano_no_do)

cat("\n=== DIFERENCIAS (Dominante - No dominante) ===\n")
## 
## === DIFERENCIAS (Dominante - No dominante) ===
summary(BASE_METABOLISMO$diferencia_fuerza)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -16.000  -1.000   1.000   0.464   2.000   8.000
cat("DE:", sd(BASE_METABOLISMO$diferencia_fuerza), "\n")
## DE: 2.760739
test_wilcox <- wilcox.test(BASE_METABOLISMO$f__mano_do, 
                            BASE_METABOLISMO$f__mano_no_do, 
                            paired = TRUE, 
                            exact = FALSE)
print(test_wilcox)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  BASE_METABOLISMO$f__mano_do and BASE_METABOLISMO$f__mano_no_do
## V = 3549, p-value = 0.003835
## alternative hypothesis: true location shift is not equal to 0
cat("\n=== TAMAÑO DEL EFECTO ===\n")
## 
## === TAMAÑO DEL EFECTO ===
n_pares <- nrow(BASE_METABOLISMO)
Z_approx <- qnorm(test_wilcox$p.value/2, lower.tail = FALSE)
r_effect <- abs(Z_approx) / sqrt(n_pares)
cat("r de Rosenthal:", round(r_effect, 3), "\n")
## r de Rosenthal: 0.259

Al revisar los estadísticos descriptivos de ambas manos, observo que las medianas son idénticas (16 kg en ambos casos), lo cual inicialmente podría sugerir ausencia de diferencias,sin embargo, las medias muestran una pequeña ventaja para la mano dominante (16.42 kg vs. 15.96 kg), una diferencia de aproximadamente 0.46 kg a favor de la mano dominante.

Lo que me parece más revelador es el análisis de las diferencias individuales (dominante - no dominante), pues la mediana de las diferencias es 1.0 kg, lo que me indica que en el 50% de los casos la mano dominante supera a la no dominante por al menos 1 kg, además la media de diferencias (0.464 kg) es menor que la mediana, lo cual me sugiere la presencia de valores negativos que “jalan” el promedio hacia abajo.

Me llama particularmente la atención el rango de diferencias, que va desde -16 kg hasta +8 kg. Este valor mínimo de -16 kg me resulta llamativo, pues implica que al menos un escolar tiene la mano no dominante 16 kg más fuerte que la dominante, por lo que considero que esto podría representar un caso de lateralidad cruzada (dominancia reportada que no coincide con la funcional), un error de registro, o un caso genuinamente atípico.

La desviación estándar de 2.76 kg me confirma que existe variabilidad importante en la magnitud de la asimetría entre individuos.

Resultado de la prueba estadística:

La prueba de Wilcoxon pareado arroja un estadístico V = 3549 con un p-value = 0.003835, claramente por debajo del umbral de significancia (α = 0.05). Por lo tanto,rechazo la hipótesis nula y concluyo que existe evidencia estadística suficiente para afirmar que la fuerza prensil difiere significativamente entre la mano dominante y la no dominante.

El tamaño del efecto (r = 0.259) se ubica en el rango de efecto pequeño a mediano según los criterios de Cohen (0.1 = pequeño, 0.3 = mediano, 0.5 = grande), asi que esto me indica que, aunque la diferencia es estadísticamente significativa, su magnitud clínica es modesta.

Considero que este hallazgo es biológicamente coherente con lo esperado, pues la dominancia manual, determinada por la lateralización cerebral, genera una asimetría funcional donde la mano preferida recibe mayor entrenamiento motor desde la infancia temprana, donde actividades cotidianas como escribir, comer, lanzar objetos y manipular herramientas favorecen el desarrollo de fuerza en la mano dominante.

Sin embargo, me parece importante reflexionar sobre la magnitud del efecto, pues una diferencia promedio de 0.46 kg (aproximadamente 2.8% de la fuerza total) podría no tener relevancia funcional significativa en la vida diaria del escolar, es decir, aunque estadísticamente puedo demostrar que las manos difieren, esta diferencia probablemente no impacta el desempeño motor cotidiano de manera perceptible.

Desde la perspectiva del desarrollo motor infantil, me parece que este resultado sugiere que la asimetría funcional ya está establecida en el rango etario de 9-14 años, lo cual es consistente con la literatura que indica que la preferencia manual se consolida alrededor de los 4-6 años,no obstante, la presencia de casos con diferencias negativas marcadas me indica que puedde ser que la lateralidad no es absoluta y que existe un espectro de dominancia en la población escolar.

Por lo tanto, concluyo que existe una diferencia estadísticamente significativa en la fuerza prensil entre la mano dominante y la no dominante (p = 0.004), con un tamaño de efecto pequeño-mediano (r = 0.259). La mano dominante presenta en promedio 0.46 kg más de fuerza, lo que representa una asimetría funcional establecida pero de magnitud clínica modesta en escolares colombianos de esta población.

ANÁLISIS 4: Chi-cuadrado para evaluar la asociación entre SEXO y OBESIDAD

La prueba de Chi-cuadrado evalúa si dos variables categóricas están asociadas o si su comportamiento es independiente en la población, en este caso, deseo explorar si el sexo biológico (niñas vs. niños) se relaciona con la distribución del estado nutricional por obesidad, el cual está categorizado en cuatro niveles: normal, bajo peso, sobrepeso y obesidad, por lo que a diferencia de las pruebas anteriores, donde trabajé con datos continuos y rangos, aquí trabajo estrictamente con frecuencias, por lo que necesito una prueba que compare proporciones observadas contra proporciones que esperarían ocurrir si no existiera ninguna relación entre las dos variables.

Mi pregunta de investigación:

¿Existe una asociación significativa entre el sexo biológico y el estado de obesidad en los escolares de esta cohorte?

Hipótesis estadísticas:

H₀ (Hipótesis Nula): El sexo y la obesidad son independientes; la distribución del estado nutricional es igual en niñas y niños.

H₁ (Hipótesis Alternativa): El sexo y la obesidad no son independientes; la distribución del estado nutricional difiere entre niñas y niños.

Nivel de significancia: α = 0.05 Criterio de decisión: si el p-value es menor a 0.05, rechazo H₀.

##            
##             Normal Bajo peso Sobrepeso Obesidad
##   Femenino      38         1         6        5
##   Masculino     47         9         7       12
## 
##  Pearson's Chi-squared test
## 
## data:  tab_sexo_obes
## X-squared = 5.5336, df = 3, p-value = 0.1366
##            
##             Normal Bajo peso Sobrepeso Obesidad
##   Femenino      34         4       5.2      6.8
##   Masculino     51         6       7.8     10.2

Al revisar la tabla de contingencia observo que las niñas se concentran principalmente en la categoría de peso normal (38 casos) y muestran muy poca frecuencia en bajo peso (1 caso), mientras que los niños presentan proporciones mayores en sobrepeso y obesidad (7 y 12 casos, respectivamente).

A simple vista podría parecer que los niños tienen una mayor carga de exceso de peso; sin embargo, cuando comparo estas frecuencias con las esperadas bajo independencia, noto que las diferencias no son suficientemente grandes como para generar un patrón claro de asociación.

El estadístico Chi-cuadrado es 5.5336 con un p-value de 0.1366, lo cual está por encima del nivel de significancia de 0.05, por lo que no puedo rechazar la hipótesis nula.

Esto me indica que la distribución de obesidad no difiere de manera estadísticamente significativa entre niñas y niños en esta muestra, por lo que aunque clínicamente los niños parecen tener más casos de obesidad, esta diferencia no alcanza la magnitud necesaria para considerarla una asociación real desde el punto de vista estadístico.

Al observar las frecuencias esperadas, encuentro que algunas celdas son muy pequeñas, sobre todo en la categoría de bajo peso; esta limitación reduce el poder del test y sugiere interpretar los resultados con cautela, pero pese a ello, el análisis me indica que en esta población escolar el sexo no constituye un determinante fuerte del estado nutricional en términos de obesidad.