Introducción

En el presente documento se trabajará sobre la base de datos NAC_2017 v4, correspondiente a un subconjunto de variables de la base de nacimientos del año 2017. A partir de esta, se explorará el tipo de relación entre las variables PESO, que se refiere al peso del recién nacido en gramos. Y la variable SEMANAS, que se refiere a las semanas de gestación de la madre. A través de gráficos y tablas primero se darán a conocer las variables de interés, su distribución y como se manejarán los datos perdidos de estas. Seguido de esto, se establecerá qué tipo de relación llevan estas dos variables y que tan fuerte es su relación.

Metodología

Como se mencionó en la introducción se trabajará con la base de datos NAC_2017 v4. Esta es un subconjunto de variables de la base de nacimientos del año 2017 la cual puede ser solicitada a través del DEIS https://deis.minsal.cl/#estadisticas por ley de transparencia; esta posee 50.000 observaciones y 12 variables las cuales son:

A través de este trabajo, se hará el análisis de datos, las figuras y tablas mediante el programa RStudio. Para comenzar, como ya se tienen definidas las variables de interés, se mantendrán sólo estas en la base. En la siguiente tabla se presentan medidas de resumen para comenzar a conocer la base resultante

Tabla 1: Medidas de resumen de las variables PESO y SEMANAS
PESO SEMANAS
Min. : 151 Min. :16.00
1st Qu.:3015 1st Qu.:38.00
Median :3330 Median :39.00
Mean :3304 Mean :38.43
3rd Qu.:3640 3rd Qu.:39.00
Max. :9999 Max. :99.00

Se observa de la tabla que las variables no tienen datos perdidos, pero poseen como valores máximos 9999 y 99 respectivamente para PESO y SEMANAS. Estas observaciones serán tomadas como datos perdidos pues son valores poco creíbles. Con lo anterior en cuenta, se obtienen 49911 observaciones completas o casos completos, es decir, el 99.8% de las observaciones no tienen datos perdidos. En la siguiente tabla de resumen, se muestran las variables con tratamiento de datos perdidos

Tabla 2: Medidas de resumen de las variables PESO y SEMANAS con tratamiento de datos perdidos
PESO SEMANAS
Min. : 151 Min. :16.00
1st Qu.:3014 1st Qu.:38.00
Median :3330 Median :39.00
Mean :3292 Mean :38.32
3rd Qu.:3640 3rd Qu.:39.00
Max. :4970 Max. :42.00
NA’s :89 NA’s :89

Ya con la base de datos lista para trabajar, lo primero que haremos será ver a través de histogramas la distribución de estas variables. Por una parte, la distribución de la variable PESO

Figura 1: Distribución peso recién nacidos en gramos

Figura 1: Distribución peso recién nacidos en gramos

De esta, podemos notar que su distribución es parecida a la distribución normal, con una asimetría negativa. Por otra parte, vemos que los pesos más frecuentes se encuentran entre los 3000 y 3500 gramos. Ahora veremos la distribución de la variable SEMANAS

Figura 2: Distribución semanas de gestación

Figura 2: Distribución semanas de gestación

Del gráfico anterior al igual que la variable PESO se observa un parecido a la distribución normal con una asimetría negativa y una clara tendencia (con más de 15.000 observaciones) de nacimiento entre las 38 y 39 semanas de embarazo. Con las variables ya descritas, se procederá a ver que tipo de relación existe entre estas variables. A continuación, se presentará en la siguiente tabla, el promedio de peso de los recién nacidos durante cada semana de gestación presente en la base

Tabla 2: Promedio de peso de recién nacidos por semana de gestación
Semanas de gestación Peso promedio
16 151.00
17 200.00
18 239.50
19 356.00
20 362.75
21 459.33
22 532.50
23 919.47
24 741.77
25 800.61
26 874.29
27 994.76
28 1256.45
29 1264.45
30 1482.97
31 1649.21
32 1833.13
33 2096.44
34 2277.52
35 2525.33
36 2757.96
37 3024.71
38 3306.07
39 3439.17
40 3562.99
41 3633.40
42 3540.94

Claramente se puede apreciar una relación positiva entre las variables. Pues cada vez que las semanas de gestación aumentan, el promedio de peso de los recién nacidos aumenta. Es decir, mientras más semanas de gestación tuvo el infante, más peso tiene al nacer. Sin embargo, cuando se alcanzan 42 semanas de gestación, el promedio de peso baja lo cual tendería a decir que, pasadas las 41 semanas de gestación el peso no sigue aumentando. La relación positiva entre estas dos variables se puede visualizar de mejor forma a través de una regresión logarítmica presentada a continuación en la Figura 3

Figura 3:Correlación entre peso y semanas

Figura 3:Correlación entre peso y semanas

De la Figura 3, se observa y confirma una relación positiva entre estas dos variables. Se hace una regresión logarítmica, pues es visible un rápido crecimiento en los datos pero que al llegar a un cierto número de semanas de gestación, los pesos son cada vez más parecidos con el pasar de las semanas. Si bien la relación no es bastante alta (R^2=0.5749), es la función que mejor modela el comportamiento de estas dos variables.

Discusión

En relación con el objetivo que se propuso en el principio de este trabajo, se puede concluir satisfactoriamente que el tipo de relación entre la variable PESO y la variable SEMANAS. Estas poseen una relación positiva y tienden a crecer rápidamente, pero desde cierto punto su crecimiento es bastante bajo o nulo, por lo que, estas pueden ser modeladas a través de una función logarítmica. No se tuvieron mayores complicaciones al momento de filtrar, tabular, graficar y trabajar la base de datos para poder concluir sobre el objetivo principal.

Bibliografía

  1. R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

  2. Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, Grolemund G, Hayes A, Henry L, Hester J, Kuhn M, Pedersen TL, Miller E, Bache SM, Müller K, Ooms J, Robinson D, Seidel DP, Spinu V, Takahashi K, Vaughan D, Wilke C, Woo K, Yutani H (2019). “Welcome to the tidyverse.” Journal of Open Source Software, 4(43), 1686. doi: 10.21105/joss.01686.

  3. Wickham H (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4, https://ggplot2.tidyverse.org.

  4. Xie Y (2022). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.39, https://yihui.org/knitr/.