En el presente documento se trabajará sobre la base de datos
NAC_2017 v4
, correspondiente a un subconjunto de variables
de la base de nacimientos del año 2017. A partir de esta, se explorará
el tipo de relación entre las variables PESO
, que se
refiere al peso del recién nacido en gramos. Y la variable
SEMANAS
, que se refiere a las semanas de gestación de la
madre. A través de gráficos y tablas primero se darán a conocer las
variables de interés, su distribución y como se manejarán los datos
perdidos de estas. Seguido de esto, se establecerá qué tipo de relación
llevan estas dos variables y que tan fuerte es su relación.
Como se mencionó en la introducción se trabajará con la base de datos
NAC_2017 v4
. Esta es un subconjunto de variables de la base
de nacimientos del año 2017 la cual puede ser solicitada a través del
DEIS https://deis.minsal.cl/#estadisticas por ley de
transparencia; esta posee 50.000 observaciones y 12 variables las cuales
son:
X
: identificador del recién nacido.
SEXO
: sexo del recién nacido.
DIA_NAC
: Día de nacimiento del recién nacido.
MES_NAC
: Mes de nacimiento del recién nacido.
ANO_NAC
: Año de nacimiento del recién nacido.
COMUNA
: Comuna en la que nació.
SEMANAS
: Semanas de gestación de la madre.
PESO
: Peso del recién nacido.
HIJ_VIVOS
: Cantidad de hijos vivos de la madre.
HIJ_FALL
: Cantidad de hijos fallecidos de la madre.
HIJ_MORT
: Mortalidad de los hijos de la madre.
HIJ_TOTAL
: Cantidad de hijos total de la madre.
A través de este trabajo, se hará el análisis de datos, las figuras y tablas mediante el programa RStudio. Para comenzar, como ya se tienen definidas las variables de interés, se mantendrán sólo estas en la base. En la siguiente tabla se presentan medidas de resumen para comenzar a conocer la base resultante
PESO | SEMANAS | |
---|---|---|
Min. : 151 | Min. :16.00 | |
1st Qu.:3015 | 1st Qu.:38.00 | |
Median :3330 | Median :39.00 | |
Mean :3304 | Mean :38.43 | |
3rd Qu.:3640 | 3rd Qu.:39.00 | |
Max. :9999 | Max. :99.00 |
Se observa de la tabla que las variables no tienen datos perdidos,
pero poseen como valores máximos 9999 y 99 respectivamente para
PESO
y SEMANAS
. Estas observaciones serán
tomadas como datos perdidos pues son valores poco creíbles. Con lo
anterior en cuenta, se obtienen 49911 observaciones completas o casos
completos, es decir, el 99.8% de las observaciones no tienen datos
perdidos. En la siguiente tabla de resumen, se muestran las variables
con tratamiento de datos perdidos
PESO | SEMANAS | |
---|---|---|
Min. : 151 | Min. :16.00 | |
1st Qu.:3014 | 1st Qu.:38.00 | |
Median :3330 | Median :39.00 | |
Mean :3292 | Mean :38.32 | |
3rd Qu.:3640 | 3rd Qu.:39.00 | |
Max. :4970 | Max. :42.00 | |
NA’s :89 | NA’s :89 |
Ya con la base de datos lista para trabajar, lo primero que haremos
será ver a través de histogramas la distribución de estas variables. Por
una parte, la distribución de la variable PESO
Figura 1: Distribución peso recién nacidos en gramos
De esta, podemos notar que su distribución es parecida a la
distribución normal, con una asimetría negativa. Por otra parte, vemos
que los pesos más frecuentes se encuentran entre los 3000 y 3500 gramos.
Ahora veremos la distribución de la variable SEMANAS
Figura 2: Distribución semanas de gestación
Del gráfico anterior al igual que la variable PESO
se
observa un parecido a la distribución normal con una asimetría negativa
y una clara tendencia (con más de 15.000 observaciones) de nacimiento
entre las 38 y 39 semanas de embarazo. Con las variables ya descritas,
se procederá a ver que tipo de relación existe entre estas variables. A
continuación, se presentará en la siguiente tabla, el promedio de peso
de los recién nacidos durante cada semana de gestación presente en la
base
Semanas de gestación | Peso promedio |
---|---|
16 | 151.00 |
17 | 200.00 |
18 | 239.50 |
19 | 356.00 |
20 | 362.75 |
21 | 459.33 |
22 | 532.50 |
23 | 919.47 |
24 | 741.77 |
25 | 800.61 |
26 | 874.29 |
27 | 994.76 |
28 | 1256.45 |
29 | 1264.45 |
30 | 1482.97 |
31 | 1649.21 |
32 | 1833.13 |
33 | 2096.44 |
34 | 2277.52 |
35 | 2525.33 |
36 | 2757.96 |
37 | 3024.71 |
38 | 3306.07 |
39 | 3439.17 |
40 | 3562.99 |
41 | 3633.40 |
42 | 3540.94 |
Claramente se puede apreciar una relación positiva entre las variables. Pues cada vez que las semanas de gestación aumentan, el promedio de peso de los recién nacidos aumenta. Es decir, mientras más semanas de gestación tuvo el infante, más peso tiene al nacer. Sin embargo, cuando se alcanzan 42 semanas de gestación, el promedio de peso baja lo cual tendería a decir que, pasadas las 41 semanas de gestación el peso no sigue aumentando. La relación positiva entre estas dos variables se puede visualizar de mejor forma a través de una regresión logarítmica presentada a continuación en la Figura 3
Figura 3:Correlación entre peso y semanas
De la Figura 3, se observa y confirma una relación positiva entre
estas dos variables. Se hace una regresión logarítmica, pues es visible
un rápido crecimiento en los datos pero que al llegar a un cierto número
de semanas de gestación, los pesos son cada vez más parecidos con el
pasar de las semanas. Si bien la relación no es bastante alta
(R^2=0.5749
), es la función que mejor modela el
comportamiento de estas dos variables.
En relación con el objetivo que se propuso en el principio de este
trabajo, se puede concluir satisfactoriamente que el tipo de relación
entre la variable PESO
y la variable SEMANAS
.
Estas poseen una relación positiva y tienden a crecer rápidamente, pero
desde cierto punto su crecimiento es bastante bajo o nulo, por lo que,
estas pueden ser modeladas a través de una función logarítmica. No se
tuvieron mayores complicaciones al momento de filtrar, tabular, graficar
y trabajar la base de datos para poder concluir sobre el objetivo
principal.
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, Grolemund G, Hayes A, Henry L, Hester J, Kuhn M, Pedersen TL, Miller E, Bache SM, Müller K, Ooms J, Robinson D, Seidel DP, Spinu V, Takahashi K, Vaughan D, Wilke C, Woo K, Yutani H (2019). “Welcome to the tidyverse.” Journal of Open Source Software, 4(43), 1686. doi: 10.21105/joss.01686.
Wickham H (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4, https://ggplot2.tidyverse.org.
Xie Y (2022). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.39, https://yihui.org/knitr/.