Introducción

La antropometría, fundamental en la práctica pediátrica, conecta el crecimiento físico y el estado de salud infantil. Este método sencillo, económico y no invasivo permite medir dimensiones corporales y composición en diferentes edades, sirviendo como indicador clave de salud, bienestar y supervivencia. En esencia, es una herramienta versátil para el monitoreo de la salud y el desarrollo humano (1).

En los neonatos, las mediciones antropométricas más comunes incluyen el peso, la estatura y el índice de masa corporal (IMC). Además, el perímetro cefálico se sugiere como otra evaluación relevante, dado que el desarrollo cerebral se concentra principalmente en los primeros tres años de vida, lo que ha limitado el análisis de esta medida a dicho periodo.

El perímetro cefálico se describe como una circunferencia “frontoccipital” o como una circunferencia “Frankfurt Plane”, correspondiente al perímetro cefálico máximo (2).

El perímetro cefálico es una medida clave en la evaluación del desarrollo neurológico y cerebral de los neonatos. Durante la etapa neonatal, esta medida se correlaciona estrechamente con el volumen intracraneal, lo que la convierte en un indicador confiable del crecimiento cerebral. Alteraciones en el tamaño del perímetro cefálico, como microcefalia o macrocefalia, pueden ser signos tempranos de condiciones neurológicas subyacentes, incluyendo daño cerebral, malformaciones estructurales o trastornos del desarrollo.

Además, el monitoreo del perímetro cefálico permite identificar neonatos en riesgo de problemas neurodesarrollativos, especialmente en aquellos con bajo peso al nacer o prematuros. Estudios han demostrado que un crecimiento adecuado del perímetro cefálico durante los primeros meses de vida está asociado con un pronóstico favorable en el desarrollo neurológico. Por tanto, esta medida no solo es esencial para la evaluación inicial, sino también para el seguimiento continuo del crecimiento y desarrollo infantil (3,4).

Objetivos

El objetivo principal del estudio es analizar las relaciones entre factores prenatales y neonatales, como la talla al nacer, el peso al nacer, la edad gestacional, la edad de la madre y la presencia de toxemia (variables confusoras), con el perímetro cefálico en neonatos (variable dependiente). Este análisis busca identificar patrones significativos que permitan comprender mejor cómo estos determinantes afectan el crecimiento y desarrollo cerebral en las etapas iniciales de la vida.

Hipótesis de Investigación

El perímetro cefálico en neonatos está significativamente asociado con factores prenatales y neonatales, donde un mayor peso al nacer y una mayor edad gestacional predicen un perímetro cefálico más grande, mientras que la presencia de toxemia se relacionan con una reducción en esta medida. Estas asociaciones persisten incluso después de controlar por posibles variables confusoras.

Materiales y métodos

Estudio observacional analítico con enfoque transversal, que considera diversos factores prenatales y neonatales, incluyendo la talla y el peso al nacer, la edad gestacional, la edad materna y la presencia de toxemia.

Análisis estadistico

El análisis estadístico comenzó con una evaluación preliminar de los datos a nivel global. Para las variables categóricas, se emplearon frecuencias absolutas y relativas, mientras que las variables continuas fueron examinadas utilizando medidas como el mínimo, el máximo, la mediana y el rango intercuartílico (Q1 y Q3), lo que permitió identificar la variabilidad en los datos. Los resultados fueron resumidos y representados visualmente, proporcionando una comprensión inicial de las características principales de los datos.

Posteriormente, se llevó a cabo un análisis exploratorio para profundizar en la relación entre el perímetro cefálico, definido como la variable dependiente, y un conjunto de variables explicativas y confusoras. Este análisis incluyó diagramas de dispersión para las variables continuas, diagramas de cajas y bigotes para variables ordinales y una matriz de correlación que mostró los coeficientes de correlación de Spearman junto con sus valores p correspondientes. Esto permitió evaluar la significancia estadística de las correlaciones y facilitó la identificación de patrones significativos que guiaron la selección de las variables más relevantes para la construcción de un modelo estadístico robusto.

Se desarrollaron dos modelos principales de regresión lineal múltiple. El Modelo 1 incluyó todas las variables disponibles en el análisis, tales como Talla, Edad gestacional, Peso, Edad de la madre y Toxemia, mientras que el Modelo 2 se basó en un conjunto más reducido de variables seleccionadas con base en las correlaciones significativas. Ambos modelos fueron evaluados utilizando métricas como el Akaike Information Criterion (AIC), el Bayesian Information Criterion (BIC), el coeficiente de determinación (R\(^2\)) y su versión ajustada, así como el Error Cuadrático Medio (RMSE). El AIC y el BIC destacan por su capacidad para penalizar la complejidad del modelo, permitiendo identificar el modelo más parsimonioso. Estos criterios son esenciales para garantizar un equilibrio entre ajuste y simplicidad del modelo (5,6).

Por otro lado, el coeficiente de determinación (R\(^2\)) y su versión ajustada ofrecen una medida del poder explicativo del modelo, indicando la proporción de la variabilidad de la variable dependiente explicada por las variables independientes (7). Finalmente, el Error Cuadrático Medio (RMSE) proporciona una métrica directa de la precisión del modelo, evaluando la diferencia promedio entre los valores observados y ajustados (8). El uso combinado de estas métricas garantiza un análisis integral y robusto del modelo estadístico, destacando las diferencias en la parsimonia y precisión predictiva entre los modelos.

Posteriormente, se realizó un análisis detallado de los residuales del modelo identificado como el más eficiente, permitiendo evaluar la validez del modelo propuesto y detectar posibles inconsistencias en los supuestos subyacentes a la regresión. Se presentan los graficos de Residuals vs Fitted, Q-Q Residuals, Scale-Location y Residuals vs Leverage Este análisis incluyó la identificación de valores atípicos (outliers) que pudieron influir negativamente en el ajuste del modelo. Tras eliminar estos valores anómalos, se generó un tercer modelo, denominado Modelo 3, que fue comparado con el modelo original para evaluar mejoras en términos de ajuste y validez estadística, utilizando la prueba Shapiro-Wilk para normalidad (9), y la prueba Breusch-Pagan para homocedasticidad (10).

Con el objetivo de abordar la posible multicolinealidad, se calcularon los factores de inflación de la varianza (VIF) para asegurar la estabilidad y confiabilidad de las estimaciones de los coeficientes. El VIF es una herramienta clave para diagnosticar la multicolinealidad, ya que cuantifica cuánto se incrementa la varianza de los coeficientes de regresión debido a la correlación entre las variables independientes (11).

Finalmente, se implementaron métodos automatizados de selección de variables, como Backward, Forward y Stepwise, para optimizar la construcción del modelo. Estos métodos son ampliamente utilizados en la estadística aplicada y el aprendizaje automático para seleccionar subconjuntos de variables que maximizan la capacidad explicativa del modelo mientras minimizan su complejidad (12). En la Tabla 6 se detallan los resultados obtenidos mediante estos enfoques en comparación con los modelos previamente definidos, permitiendo obtener el modelo que mejor se mejor ajuste.

Discusión de Resultados

En un análisis preliminar, se identificaron valores atípicos en las variables relacionadas con el Perímetro Cefálico y la Talla al nacer, destacándose que ambas presentan una tendencia hacia valores elevados en ciertos casos. Estos valores extremos sugieren una mayor variabilidad en dichas variables y podrían estar asociados a factores biológicos o condiciones específicas durante el desarrollo prenatal que merecen ser estudiadas en mayor profundidad.

resumen <- summary(datos)
colnames(resumen) <- c("Perímetro cefálico", "Talla al nacer", "Edad gestacional","Peso al nacer","Edad de la madre","Toxemia")

# Formatear como tabla con kable
options(knitr.kable.NA = '')
knitr::kable(
  resumen,
  caption = "Resumen de las variables",
  row.names = FALSE
)
Resumen de las variables
Perímetro cefálico Talla al nacer Edad gestacional Peso al nacer Edad de la madre Toxemia
Min. :21.00 Min. :20.00 Min. :23.00 Min. : 560 Min. :14.00 No:79
1st Qu.:25.00 1st Qu.:35.00 1st Qu.:27.00 1st Qu.: 880 1st Qu.:23.00 Si:21
Median :27.00 Median :38.00 Median :29.00 Median :1155 Median :28.00
Mean :26.45 Mean :36.82 Mean :28.89 Mean :1099 Mean :27.73
3rd Qu.:28.00 3rd Qu.:39.00 3rd Qu.:31.00 3rd Qu.:1326 3rd Qu.:32.00
Max. :35.00 Max. :43.00 Max. :35.00 Max. :1490 Max. :41.00
par(mfrow = c(2, 3))
boxplot(datos$pc, main="Boxplot de la distribución \ndel Perímetro Cefálico", ylab="PC", col="blue")
boxplot(datos$talla, main="Boxplot de la distribución \nde la Talla al nacer", ylab="Talla", col="blue")
boxplot(datos$eg, main="Boxplot de la distribución \nde la Edad gestacional", ylab="EG", col="blue")
boxplot(datos$peso, main="Boxplot de la distribución \ndel Peso al nacer", ylab="Peso", col="blue")
boxplot(datos$edadma, main="Boxplot de la distribución \nde la Edad de la madre", ylab="Edad", col="blue")
toxemia <- barplot(table(datos$toxemia), main="Diagrama de barras de \npresencia de Toxemia", ylab="Toxemia", col="blue", ylim = c(0,100))
text(x = toxemia, y = table(datos$toxemia), labels = table(datos$toxemia), pos = 3, cex = 0.8,col = "black")
Distribuciones de las variables de estudio

Distribuciones de las variables de estudio

Asimismo, al examinar la variable Toxemia, se encontró que la mayoría de los neonatos no presentó esta condición. Esto refleja una baja prevalencia de Toxemia dentro de la muestra analizada.

Estos hallazgos iniciales subrayan la importancia del análisis de los valores extremos y las frecuencias observadas al diseñar los análisis posteriores, ya que pueden influir significativamente en las conclusiones y recomendaciones derivadas del estudio.

Se igual manera, se presentan las interacciones clave entre el perímetro cefálico y un conjunto de variables explicativas y confusoras.

layout(matrix(c(1, 1, 2, 2, 3, 3, 0, 4, 4, 5, 5,0), nrow = 2, byrow = TRUE))
plot(datos$talla, datos$pc, main="Relación Talla vs. Perímetro Cefálico", xlab="Talla", ylab="PC", col="blue")
plot(datos$eg, datos$pc, main="Relación Edad Gestacional vs. Perímetro Cefálico", xlab="EG", ylab="PC", col="blue")
plot(datos$peso, datos$pc, main="Relación Peso vs. Perímetro Cefálico", xlab="Peso", ylab="PC", col="blue")
plot(datos$edadma, datos$pc, main="Relación Edad Materna vs. Perímetro Cefálico", xlab="Edad", ylab="PC", col="blue")
boxplot(pc ~ toxemia, data = datos, main="Perímetro Cefálico por Toxemia", xlab="Toxemia", ylab="PC", col=c("red", "darkgreen"))
Análisis de la relación entre el perímetro cefálico y las variables confusoras

Análisis de la relación entre el perímetro cefálico y las variables confusoras

Se identifica una clara relación lineal entre el perímetro cefálico y las variables Talla al nacer, Peso al nacer y Edad gestacional, lo que sugiere que estas variables juegan un papel significativo en la variabilidad del perímetro cefálico. Estas relaciones lineales permiten inferir que incrementos en dichas variables tienden a estar asociados con un aumento en el perímetro cefálico.

Por otro lado, al analizar la variable de Toxemia, se observa una diferencia en las medias de las distribuciones cuando se compara con el perímetro cefálico. Este hallazgo es particularmente importante, ya que podría indicar una influencia específica de la presencia o ausencia de Toxemia sobre las características del perímetro cefálico en los neonatos.

Para una interpretación más detallada, se complementa este análisis mediante la representación de una matriz de correlaciones, en la que se cuantifican las asociaciones entre todas las variables estudiadas.

# Calcular matriz de correlación de Spearman con p-valores
cor_matrix <- rcorr(as.matrix(data), type = "spearman")
# Cambiar nombres de filas y columnas
colnames(cor_matrix$r) <- c("Perímetro cefálico", "Talla al nacer", "Edad gestacional","Peso al nacer","Edad de la madre","Toxemia")
rownames(cor_matrix$r) <- colnames(cor_matrix$r)

# Visualización con corrplot
corrplot(cor_matrix$r, method = "color", type = "upper",
         addCoef.col = "black", number.cex = 0.7,
         tl.col = "black", tl.srt = 45,
         title = "Matriz de Correlación Spearman",
         mar = c(0, 0, 2, 0))
Análisis de correlación entre todas las variables de estudio

Análisis de correlación entre todas las variables de estudio

La tabla de p-values asociada permite evaluar la significancia estadística de estas correlaciones, aportando una base sólida para determinar cuáles relaciones son relevantes desde un punto de vista estadístico.

# Cambiar nombres de filas y columnas
colnames(cor_matrix$P) <- colnames(cor_matrix$r)
rownames(cor_matrix$P) <- colnames(cor_matrix$r)
# Formatear como tabla con kable
knitr::kable(
  cor_matrix$P,
  caption = "p-values para las correlaciones entre variables"
)
p-values para las correlaciones entre variables
Perímetro cefálico Talla al nacer Edad gestacional Peso al nacer Edad de la madre Toxemia
Perímetro cefálico 0.0000000 0.0000000 0.0000000 0.0517695 0.0845710
Talla al nacer 0.0000000 0.0000000 0.0000000 0.0277589 0.3068077
Edad gestacional 0.0000000 0.0000000 0.0000000 0.0031892 0.0000648
Peso al nacer 0.0000000 0.0000000 0.0000000 0.0838941 0.8205322
Edad de la madre 0.0517695 0.0277589 0.0031892 0.0838941 0.1763301
Toxemia 0.0845710 0.3068077 0.0000648 0.8205322 0.1763301

En un primer acercamiento, se planteó el Modelo 1, que incluye todas las variables consideradas como confusoras. Este modelo busca capturar de manera integral las posibles interacciones entre el perímetro cefálico y el conjunto completo de variables disponibles, sin realizar exclusiones preliminares. Como contraparte y alternativa, se diseñó el Modelo 2, que se construyó seleccionando un subconjunto reducido de variables con base en su relevancia estadística y significancia en la relación con el perímetro cefálico. Las variables incluidas en este modelo son el Peso al nacer, la Edad gestacional y la Toxemia, elegidas estratégicamente para maximizar la parsimonia y eficiencia del modelo.

# 1. Crear el modelo inicial con todas las variables
modelo_1 <- lm(pc ~ talla + eg + peso + edadma + toxemia, data = datos)
modelo_1
## 
## Call:
## lm(formula = pc ~ talla + eg + peso + edadma + toxemia, data = datos)
## 
## Coefficients:
## (Intercept)        talla           eg         peso       edadma    toxemiaSi  
##    7.209722     0.008271     0.526192     0.004255    -0.030065    -0.516058
# 2. Modelo reducido (eliminando variables no significativas)
modelo_2 <- lm(pc ~ peso + eg + toxemia, data = datos)
modelo_2
## 
## Call:
## lm(formula = pc ~ peso + eg + toxemia, data = datos)
## 
## Coefficients:
## (Intercept)         peso           eg    toxemiaSi  
##    7.095759     0.004354     0.508047    -0.512827

La variable Peso al nacer se incluyó como un componente esencial del Modelo 2 debido a que presenta la correlación más alta con el perímetro cefálico (0.85), además de ser estadísticamente significativa. La segunda variable seleccionada fue la Edad gestacional, que muestra una correlación significativa de 0.81, indicando su influencia determinante en el crecimiento y desarrollo del perímetro cefálico del neonato.

A pesar de que la Talla al nacer tiene una alta correlación con el perímetro cefálico, esta variable también presenta una fuerte correlación con el Peso al nacer y la Edad gestacional, lo que podría introducir multicolinealidad al modelo si se incluyera. Para evitar problemas de redundancia y garantizar la estabilidad de las estimaciones, se optó por excluir la Talla al nacer del Modelo 2.

Además, la variable Toxemia fue incluida en el modelo, aunque su relación directa con el perímetro cefálico no presenta una correlación fuerte. Sin embargo, su influencia resulta más significativa en comparación con la Edad materna, lo que sugiere que, aunque su impacto no sea el principal determinante, sí tiene un peso suficiente para justificar su inclusión en el análisis. Este hallazgo resalta la importancia de considerar factores clínicos adicionales que, aunque en primera instancia puedan parecer secundarios, pueden aportar valor al modelo al capturar interacciones complejas entre las condiciones maternas y el desarrollo neonatal.

Se evaluaron ambos modelos mediante el AIC, BIC, R\(^2\), R\(^2\) adjustada y el RMSE, cuyos resultados se encuentran en la siguiente tabla.

# Crear tabla comparativa del modelo_1 (completo) y modelo_2 (reducido)
comparacion <- compare_performance(
  modelo_1, 
  modelo_2,
  metrics = c("AIC", "BIC", "R2", "R2_adj", "RMSE")
)
colnames(comparacion) <- c("Nombre", "Modelo","AIC","AIC (peso)","BIC","BIC (peso)", "R2","R2 ajustada", "RMSE")

# Formatear como tabla con kable
knitr::kable(
  comparacion[,-2],
  caption = "Criterios estadisticos de evaluación de los modelo principales. \nmodelo_1: Todas la variables. modelo_2: Peso al nacer, Talla al nacer y Toxemia"
)
Criterios estadisticos de evaluación de los modelo principales. modelo_1: Todas la variables. modelo_2: Peso al nacer, Talla al nacer y Toxemia
Nombre AIC AIC (peso) BIC BIC (peso) R2 R2 ajustada RMSE
modelo_1 339.2486 0.2618298 357.4848 0.0255397 0.7615157 0.7488303 1.230357
modelo_2 337.1757 0.7381702 350.2015 0.9744603 0.7568754 0.7492778 1.242269

El Modelo 1 tiene un AIC de 339.25, mientras que el Modelo 2 tiene un AIC más bajo, de 337.32. Un AIC menor sugiere que el Modelo 2 tiene un mejor equilibrio entre ajuste y simplicidad, haciendo que sea estadísticamente más eficiente.

El Modelo 2 también tiene un BIC más bajo (350.34) en comparación con Modelo 1 (357.48), lo que lo hace preferible cuando se penaliza más fuertemente por complejidad.

El Modelo 1 tiene un R\(^2\) de 0.7615 (76.15 % de varianza explicada) y un R\(^2\) ajustado de 0.7488, lo que lo posiciona bien en términos de capacidad explicativa.

El Modelo 2 tiene valores ligeramente menores para estas métricas (R\(^2\) de 0.7565 y R\(^2\) ajustado de 0.7489), lo que sugiere que, aunque explica un poco menos de varianza, es comparable al Modelo 1.

El Modelo 1 tiene un RMSE de 1.230, que es ligeramente menor que el RMSE del Modelo 2 (1.243). Un RMSE menor implica que el Modelo 1 tiene predicciones ligeramente más precisas.

Considerando que los valores de AIC y BIC son más favorables en el Modelo 2, se destaca como la opción más eficiente desde una perspectiva estadística. Aunque las métricas de ajuste como el coeficiente de determinación (R\(^2\)), su versión ajustada, y el error cuadrático medio (RMSE) son muy similares entre ambos modelos, el Modelo 2 logra este nivel de desempeño utilizando un número reducido de variables. Esta característica no solo simplifica la interpretación del modelo, sino que también reduce potenciales problemas asociados a la multicolinealidad y mejora la parsimonia del análisis.

Tambien, se proporciona un análisis detallado de los residuales generados por el Modelo 2, con el propósito de evaluar la validez de los supuestos fundamentales del modelo y detectar posibles inconsistencias que podrían afectar su rendimiento.

Análisis de residuales del Modelo 2 (con outliers)

Análisis de residuales del Modelo 2 (con outliers)

Como primera observación, se identifica que los residuos están dispersos en torno a la línea horizontal en cero, lo que sugiere que, en general, el modelo captura correctamente las tendencias en los datos. Sin embargo, se detectan ciertos puntos que presentan residuos anómalos.

Estos mismos puntos anómalos se reflejan en la gráfica Q-Q. La presencia de desviaciones en estos puntos sugiere ligeras violaciones al supuesto de normalidad, lo que podría influir en la fiabilidad de ciertas inferencias estadísticas derivadas del modelo.

Por otro lado, en el análisis de homocedasticidad, se observan áreas de variabilidad no constante que coinciden con los puntos residuales previamente identificados. Esto podría ser evidencia de heterocedasticidad localizada, lo que indica que la varianza de los errores no se distribuye de manera uniforme a lo largo de los valores ajustados.

Adicionalmente, el gráfico de Residuals vs Leverage sugiere que algunos de estos puntos podrían ser altamente influyentes, capaces de alterar significativamente los resultados del ajuste. Las líneas de Cook’s distance proporcionan una referencia para identificar aquellas observaciones que tienen un impacto desproporcionado en el modelo.

Se procede a adaptar el modelo anterior sin estos puntos con residuales anómalos, para observar el comportamiento de este nuevo modelo (Modelo 3). En total, se omiten 7 individuos.

# Retirar outliers
datos_mod <- datos[-c(31,33,55,76,98,5,73),]
# modelo_2 sin outliers
modelo_3 <- lm(pc ~ peso + eg + toxemia, data = datos_mod)
modelo_3
## 
## Call:
## lm(formula = pc ~ peso + eg + toxemia, data = datos_mod)
## 
## Coefficients:
## (Intercept)         peso           eg    toxemiaSi  
##    9.501900     0.005312     0.379048    -0.252022

La siguiente figura presenta el análisis de residuales correspondiente al Modelo 3.

# Residuales del modelo_3
par(mfrow = c(2, 2))
plot(modelo_3)
Análisis de residuales del Modelo 3 (sin outliers)

Análisis de residuales del Modelo 3 (sin outliers)

En este análisis, se observa una distribución mucho más uniforme de los residuos alrededor de la línea horizontal en cero, lo que indica un ajuste más preciso y confiable del modelo a los datos.

Además, el análisis revela una mejor adherencia a la normalidad de los residuos. En el gráfico Q-Q, los puntos muestran una alineación más cercana a la diagonal teórica, lo que respalda el cumplimiento del supuesto de normalidad.

Por otro lado, se observa una notable mejora en la homocedasticidad. En las visualizaciones correspondientes, los residuos ahora presentan una varianza constante

Finalmente, en el análisis de influencia, el gráfico de Residuals vs Leverage muestra una clara reducción en los residuos influyentes. La ausencia de observaciones con altos valores de Cook’s distance indica que ningún dato tiene un impacto desproporcionado en el ajuste del modelo, fortaleciendo su robustez y confiabilidad.

Para respaldar los análisis previos, se presentan los resultados de los estadísticos correspondientes a las pruebas de normalidad y homocedasticidad para el Modelo 2 y el Modelo 3.

# Supuestos del modelo_2
norm_2 <- shapiro.test(residuals(modelo_2))
homo_2 <- bptest(modelo_2, studentize = F)
#Supuestos del modelo_3
norm_3 <- shapiro.test(residuals(modelo_3))
homo_3 <- bptest(modelo_3, studentize = F)

# Crear un dataframe con los resultados
mod_results <- data.frame(
  Modelo = c("Modelo_2","Modelo_2","Modelo_3","Modelo_3"),
  Test = c("Shapiro-Wilk", "Breusch-Pagan","Shapiro-Wilk", "Breusch-Pagan"),
  Statistic = c(norm_2$statistic, homo_2$statistic,norm_3$statistic, homo_3$statistic),
  P_Value = c(norm_2$p.value, homo_2$p.value,norm_3$p.value, homo_3$p.value)
)

knitr::kable(
  mod_results,
  caption = "Validación de supuestos de normalidad y homocedasticidad de residuos del Modelo 2 y del Modelo 3",
  row.names = FALSE
)
Validación de supuestos de normalidad y homocedasticidad de residuos del Modelo 2 y del Modelo 3
Modelo Test Statistic P_Value
Modelo_2 Shapiro-Wilk 0.7487962 0.0000000
Modelo_2 Breusch-Pagan 70.8223318 0.0000000
Modelo_3 Shapiro-Wilk 0.9869255 0.4858309
Modelo_3 Breusch-Pagan 7.0463093 0.0704363

Los resultados evidencian que, en el caso del Modelo 2, los supuestos fundamentales de normalidad y homocedasticidad no son satisfechos al utilizar un nivel de significancia del 5%, ya que los p-values obtenidos son inferiores a este umbral (p-values < 0.05). Esto sugiere que el Modelo 2 presenta ciertas limitaciones metodológicas, posiblemente debido a la presencia de residuos anómalos o variabilidad no constante, lo que podría impactar la estabilidad y precisión de sus estimaciones.

En contraste, para el Modelo 3, los resultados de las pruebas reflejan una mejora notable en el cumplimiento de estos supuestos. El p-value asociado a la prueba de normalidad es de 0.485, lo que indica que no hay evidencia suficiente para rechazar la hipótesis nula de normalidad en los residuos. De manera similar, el p-value correspondiente a la homocedasticidad es de 0.0704, lo que se aproxima al límite de significancia establecido, reforzando la idea de que la variabilidad de los errores se distribuye de manera uniforme a lo largo de los valores ajustados. Estos resultados validan el desempeño mejorado del Modelo 3 respecto a los supuestos estadísticos clave.

El analisis VIF de los dos modelos antes mencionados se presenta a continuación.

# Análisis de factores de inflación de la varianza
vif_modelo_2 <- vif(modelo_2)
vif_modelo_3 <- vif(modelo_3)

vif_2 <- data.frame(t(vif_modelo_2))
vif_3 <- data.frame(t(vif_modelo_3))

colnames(vif_2) <- c("Peso", "Edad gestacional", "Toxemia")
colnames(vif_3) <- c("Peso", "Edad gestacional", "Toxemia")

vif_completo <- rbind(
  Modelo_2 = vif_2,
  Modelo_3 = vif_3
)

# Mostrar la tabla con kable
knitr::kable(
  vif_completo,
  caption = "Valores de factores de inflación de la varianza (VIF) para los Modelos 2 y 3"
)
Valores de factores de inflación de la varianza (VIF) para los Modelos 2 y 3
Peso Edad gestacional Toxemia
Modelo_2 2.070305 2.493146 1.407533
Modelo_3 2.175203 2.510451 1.378250

Se observa que ambos modelos tienen niveles aceptables de multicolinealidad según los valores de VIF. El Modelo 3 muestra un ligero aumento en los valores de VIF en comparación con el Modelo 2, pero sigue estando dentro de rangos seguros (VIF < 3). Esto significa que las estimaciones de los coeficientes son estables y las variables independientes no están excesivamente correlacionadas entre sí.

Finalmente, ambos modelos se comparan con modelos utilizando métodos de selección automatizados. Para ello, se presenta la siguiente tabla, en donde se muestran las métricas de evaluación previamente establecidas.

# 1. Modelo completo
modelo_completo <- modelo_1

# 2. Selección hacia adelante (forward)
modelo_forward <- step(modelo_completo, direction = "forward", trace = 0)

# 3. Selección hacia atrás (backward)
modelo_backward <- step(modelo_completo, direction = "backward", trace = 0)

# 4. Selección mixta (both)
modelo_stepwise <- step(modelo_completo, direction = "both", trace = 0)

# Comparar los modelos resultantes
comp <- compare_performance(modelo_completo,
                            modelo_2,
                            modelo_3,
                            modelo_forward,
                            modelo_backward,
                            modelo_stepwise,
                            metrics = c("AIC", "BIC", "R2", "R2_adj", "RMSE")
)

colnames(comp) <- c("Nombre", "Modelo","AIC","AIC (peso)","BIC","BIC (peso)", "R2","R2 ajustada", "RMSE")

# Formatear como tabla con kable
knitr::kable(
  comp[,-2],
  caption = "Comparacion de los modelos dados por métodos de selección automatizados: Backward, Forward y Stepwise."
)
Comparacion de los modelos dados por métodos de selección automatizados: Backward, Forward y Stepwise.
Nombre AIC AIC (peso) BIC BIC (peso) R2 R2 ajustada RMSE
modelo_completo 339.2486 0 357.4848 0 0.7615157 0.7488303 1.2303573
modelo_2 337.1757 0 350.2015 0 0.7568754 0.7492778 1.2422694
modelo_3 195.4423 1 208.1053 1 0.9157280 0.9128874 0.6557754
modelo_forward 339.2486 0 357.4848 0 0.7615157 0.7488303 1.2303573
modelo_backward 337.1644 0 347.5851 0 0.7519920 0.7468784 1.2546836
modelo_stepwise 337.1644 0 347.5851 0 0.7519920 0.7468784 1.2546836

El Modelo 3 destaca claramente como el mejor entre todos los modelos evaluados: AIC (195.4423) y BIC (208.1053) son significativamente más bajos que los valores de los demás modelos, indicando que este modelo tiene el mejor balance entre ajuste y simplicidad, R\(^2\) (0.9175) y R\(^2\) ajustado (0.9128), explica más del 91% de la variabilidad en los datos, mostrando una capacidad predictiva superior, RMSE (0.6557) es el menor entre los modelos, lo que indica una mayor precisión en las predicciones.

En el Modelo 3, el coeficiente para el intercepto es de 9.501900, mientras que para la variable Peso al nacer es de 0.005312. El coeficiente asociado a la Edad Gestacional es de 0.379048, y para la Toxemia es de -0.252022.

El intercepto indica el nivel promedio del perímetro cefálico cuando todas las variables independientes (Peso, Edad gestacional y Toxemia) son iguales a cero. Aunque este escenario puede no ser realista, el intercepto es necesario para ajustar la línea de regresión.

El coeficiente de Peso al nacer sugiere que, por cada incremento unitario en el peso al nacer, la variable dependiente aumenta en aproximadamente 0.005312 unidades, manteniendo constantes las demás variables. La influencia directa del peso sobre el resultado parece ser relativamente baja en comparación con las otras variables, pero aún es positiva.

El coeficiente de Edad gestacional implica que por cada incremento de una unidad en la edad gestacional (en semanas, probablemente), la variable dependiente aumenta en 0.379048 unidades, manteniendo constantes las demás variables. Este impacto es el más significativo entre las variables del modelo, indicando que la edad gestacional tiene una fuerte asociación con el resultado.

El coeficiente negativo de la Toxemia indica que, al presentar toxemia, la variable dependiente disminuye en aproximadamente -0.252022 unidades, manteniendo constantes las demás variables. Su dirección sugiere que la presencia de toxemia podría estar asociadas con reducciones en el perímetro cefálico.

Conclusiones

El Modelo 2, en comparación con el Modelo 1, destaca como el modelo preferido en términos de AIC, BIC y sus respectivos pesos. Esto sugiere que ofrece un mejor equilibrio entre simplicidad y ajuste. Sin embargo, el Modelo 1 muestra un RMSE ligeramente menor, indicando una leve ventaja en precisión predictiva.

El Modelo 3 demuestra mejoras sustanciales en la normalidad, homocedasticidad y ausencia de valores influyentes en comparación con el Modelo 2, lo que lo posiciona como el modelo más sólido y estable hasta el momento. Este avance no solo refuerza la capacidad predictiva del modelo, sino que también facilita una interpretación más clara y fiable de los resultados.

El Modelo 3 demostró ser el más robusto, con mejoras significativas en normalidad, homocedasticidad y precisión predictiva (R\(^2\) = 0.9146, RMSE = 0.6600). Superó a los demás modelos en todas las métricas evaluadas (AIC, BIC, R\(^2\) ajustado), destacando su equilibrio entre simplicidad y capacidad explicativa.

El peso al nacer (r = 0.85) y la edad gestacional (r = 0.81) fueron los predictores más fuertes del perímetro cefálico, respaldando su papel crítico en el desarrollo neonatal. La presencia de Toxemia, aunque con menor correlación, aportó valor al modelo.

El modelo refleja cómo las características del neonato (peso y edad gestacional) y de toxemia se relacionan con el resultado analizado. La edad gestacional muestra la influencia más significativa y positiva, mientras que el peso tiene un impacto leve pero positivo, y la toxemia un impacto negativo.

La exclusión de outliers en el Modelo 3 mejoró el ajuste, pero podría reducir su generalización en poblaciones con mayor variabilidad. Se recomienda explorar métodos alternativos (ej. modelos robustos o transformaciones) para manejar datos atípicos sin eliminarlos.

Los hallazgos subrayan la importancia de monitorear factores prenatales como el peso y la edad gestacional para predecir el desarrollo cerebral neonatal, con implicaciones potenciales en estrategias de salud pública.

Se recomienda validar el Modelo 3 en muestras independientes y considerar técnicas avanzadas para outliers, garantizando su aplicabilidad en contextos reales con diversidad poblacional.

Bibliografía

1.
Montesinos-Correa H. Crecimiento y antropometrı́a: Aplicación clı́nica. Acta pediátrica de México. 2014;35(2):159–65.
2.
Macchiaverni LM, Barros Filho AA. Perı́metro cefálico: Por que medir sempre. Medicina (Ribeirão Preto). 1998;31(4):595–609.
3.
García-Alix A, Sáenz-de Pipaón M, Martínez M, Salas-Hernández S, Quero J. Utilidad del perímetro cefálico en el recién nacido para anticipar problemas en el neurodesarrollo. Revista de Neurología. 2004;39:548–54.
4.
Alvarado Socarras JL, Ortega Ortega IP, Theurel Martin D, Fernández Velosa ZA. Evaluación de la antropometría en neonatos sanos. No todas las medidas son relevantes. CES Medicina. 2022;36:3–15.
5.
Akaike H. A new look at the statistical model identification. IEEE Transactions on Automatic Control. 1974;19:716–23.
6.
Schwarz G. Estimating the dimension of a model. The Annals of Statistics. 1978;6:461–4.
7.
Nagelkerke NJD. A note on a general definition of the coefficient of determination. Biometrika. 1991;78:691–2.
8.
Willmott CJ. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society. 1982;63:1309–13.
9.
Shapiro SS, Wilk MB. An analysis of variance test for normality (complete samples). Biometrika. 1965;52:591–611.
10.
Breusch TS, Pagan AR. A simple test for heteroscedasticity and random coefficient variation. Econometrica: Journal of the Econometric Society. 1979;47:1287–94.
11.
Daniel C, Wood FS. Applications of variance inflation factors in regression analysis. Technometrics. 1979;21:1–12.
12.
Miller AJ. Subset selection in regression. 2nd ed. Chapman & Hall/CRC; 2002.