EVOLUCIÓN DE LA FECUNDIDAD EN EL MUNDO

Para esta práctica revisaremos los factores asociados con la fecundidad en el mundo. Para ello utilizaremos datos compilados por el proyecto Gapminder (https://www.gapminder.org/).

Antes de empezar debemos cargar un par de paquetes de R:

library(ggplot2)
library(stargazer)

Si no tienen estos paquetes instalados en su computadora pueden hacerlo usando la siguiente sintaxis:

install.packages("ggplot2")
install.packages("stargazer")

En el siguiente gráfico se presenta el número promedio de hijos por mujer en el mundo desde inicios del siglo XIX hasta la actualidad. En la mayor parte del tiempo la fecundidad se ha mantenido bastante alta y constante: por encima de los 6 hijos por mujer en el siglo XIX; luego baja un poco para situarse alrededor de los 5.5 hijos por mujer en la primera mitad del siglo XX. Sube ligeramente luego de la 2da guerra mundial (periodo conocido como el “baby boom”), para luego bajar en forma bastante pronunciada a partir de la segunda mitad de la década de 1960, para ubicarse, en promedio, en los 2.7 hijos por mujer en la actualidad.

Durante el periodo en que baja dramáticamente la tasa de fecundidad, el mundo experimenta también una mejora en las condiciones de vida, expresado por el aumento de la esperanza de vida, especialmente de las mujeres. Como se aprecia en el siguiente gráfico, a nivel mundial la esperanza de vida al nacer de las mujeres pasa de los 50 años en promedio a mediados del siglo XX, hasta los 75 años en la actualidad.

Relación entre esperanza de vida femenina y fecundida: Modelo de regresión simple

En el siguiente diagrama de dispersión puede verse la relación entre la fecundidad y la esperanza de vida en la actualidad (usando datos promedio del quinquenio 2015-2019), donde cada punto representa un país. Como se aprecia, cuantos menos hijos en promedio tienen las mujeres en un país, la esperanza de vida tiende a ser mayor. En países donde la fecundidad está alrededor de los 6 hijos por mujer, la esperanza de vida de las mujeres tiende a estar por los 60 años o menos; en países donde las mujeres tienen alredor de 2 hijos en promedio, la esperanza de vida supera los 70 años.

Esta relación puede expresarse en un modelo de regresión lineal simple. Para ello utilizaremos la base de datos dataWorld_q.rda que contiene información de diferentes indicadores sociodemográficos para los países del mundo por quinquenios, desde 1950 hasta la actualidad. Para ver el libro de códigos hacer clic aquí.

La siguiente sintaxis en R nos permite cargar los datos y pedir un modelo de regresión simple de la esperanza de vida femenina según la tasa de fecundidad para el periodo 2015-2019:

Carga de datos:

# Cargamos los datos directamente desde un disco duro virtual:

load(url("https://www.dropbox.com/s/fyobx9uswy3qgp3/dataWorld_q.rda?dl=1"))

# Si tiene la base de datos en su directorio de trabajo puede usar:
# load("dataWorld_q.rda")

# Vemos las variables en la base de datos:

names(dataWorld_q)
##  [1] "country"    "quinq"      "tfr"        "yearSchF"   "contracep" 
##  [6] "age1mar"    "sanitat"    "water"      "birthSkill" "childMort" 
## [11] "deathRate"  "extPov"     "famWorkFem" "femWork"    "incomePp"  
## [16] "income10p"  "gini"       "lifExpFem"  "lifExpTot"  "maleWork"  
## [21] "materMort"  "vaccMeas"   "schGenEq"   "doctor"     "teenFert"

Modelo de regresión para el periodo seleccionado:

reg_evida1 <- lm(lifExpFem ~ tfr, 
                 data = dataWorld_q[dataWorld_q$quinq == "2015-2019", ])

summary(reg_evida1)
## 
## Call:
## lm(formula = lifExpFem ~ tfr, data = dataWorld_q[dataWorld_q$quinq == 
##     "2015-2019", ])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.1850  -2.2070   0.2299   2.8533  10.9325 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  88.6175     0.7295  121.47   <2e-16 ***
## tfr          -5.1858     0.2364  -21.93   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.251 on 182 degrees of freedom
##   (10 observations deleted due to missingness)
## Multiple R-squared:  0.7255, Adjusted R-squared:  0.724 
## F-statistic:   481 on 1 and 182 DF,  p-value: < 2.2e-16

Los resultados del modelo de regresión se pueden representar en la siguiente ecuación lineal:

\[lifExpFem = 88.6 - trf(5.2)\]

Esa ecuación crea una línea recta en el diagrama de dispersión que representa la relación entre ambas vairiables y que representa el cambio esperado en nuestra variable dependiente (esperanza de vida) por cada cambio de una unidad en nuestra variable independiente (fecundidad).

Aquí la sintaxis en ggplot para generar el gráfico:

ggplot(dataWorld_q[dataWorld_q$quinq=="2015-2019",], aes(x=tfr, y=lifExpFem)) +
  geom_point() + geom_smooth(method="lm", se = F) + xlab("Número de hijos por mujer") +
  ylab("Esperanza de vida en años") +
  ggtitle("Mundo 2015-2019: Esperanza de vida al nacer de las mujeres según \ntasa global de fecundidad") +
  theme_light()

Interpretación:

La ecuación calculada para nuestro modelo de regresión simple puede interpretarse de la siguiente manera:

  • El coeficiente de regresión para nuestra variable dependiente (\(b_1\)) nos predice que por cada incremento de un hijo en la tasa global de fecundidad (trf), se espera que la esperanza de vida femenina disminuya en 5.2 años.
  • La intercepción o coeficiente \(b_0\) es el valor esperado de la variable dependiente cuando la variable independiente es igual a cero. En este caso, si el número promedio de hijos por mujer en un país fuera igual a cero, se pronostica que la esperanza de vida de las mujeres en ese país sería igual a 88.6 años.
  • Ejemplo: si la tasa de fecundidad cambiase de 3 a 2 hijos por mujer, se esperaría que la esperanza de vida de las mujeres se incremente de 73 años a 78.2 años:
    • \(88.61 - 3(5.2) = 73.01\)
    • \(88.61 - 2(5.2) = 78.2\)
  • El error estándar del coeficiente \(b_1\) es 0.24; la probabilidad (\(Pr(>|t|) < 2e16\)) del estadístico de t de Student (-21.93) para la prueba de significancia estadística de este modelo es bastante menor que 0.001. Si consideramos como nivel de significancia para la prueba un nivel máximo de 0.05, podemos rechazar la hipótesis cero. Recordemos que en este caso la hipótesis cero nos dice que el efecto esperado de la nuestra variable dependiente (X) sobre la variable independiente (Y) es igual a cero (0) o nulo. En conclusión, podemos afirmar que la reducción de la fecundidad tiene un efecto estadísticamente significativo en el incremento de la esperanza de vida de las mujeres.
  • El \(R^2\) para este modelo es 0.72, lo que nos indica que el 72% de la varianza de la variable dependiente es captada o explicada por la variable independiente, lo que representa un ajuste bastante bueno, es decir que el nivel de fecundidad de un país es un predictor bastante bueno de la esperanza de vida de las mujeres.

Ejercicio:

Calcule un modelo de regresión para la esperanza de vida de las mujeres según la fecundidad para el quinquenio 1995-1999. Presente el diagrama de dispesión correspondiente e interprete los resultados de su modelo. Luego responda a la siguientes preguntas:

  • ¿Qué cambios puede usted observar en la relación entre la fecundidad y la esperanza de vida en los veinte años transcurridos entre 1995-1999 y 2015-2019?
  • Durante el quinquenio 1995-1999 ¿cuál sería la esperanza de vida de las mujeres en un país con una tasa de fecundidad de 3 hijos por mujer?, ¿cuál sería en un país con 2 hijos por mujer?
  • ¿Qué diferencias puede identificar en la capacidad predictiva de ambos modelos calculados?

FACTORES ASOCIADOS A LA FECUNDIDAD

La educación de las mujeres es uno de los factores asociados con la reducción de las tasas de fecundidad. Para analizar ese efecto vamos a calcular un modelo de regresión simple donde la variable dependiente es la tasa global de fecundidad y la variable independiente es el promedio de años de escolaridad de las mujeres.

Primero lo haremos para el periodo 1990-1994:

Aquí el diagrama de dispersión:

ggplot(dataWorld_q[dataWorld_q$quinq=="1990-1994",], aes(x=yearSchF, y=tfr)) +
  geom_point() +  xlab("Años de escolaridad") +  ylab("Número de hijos por mujer") +
  ggtitle("Mundo 1990-94: Tasa de fecundidad según \naños de escolaridad de las mujeres") +
  theme_light()

Aquí el modelo de regresión:

reg_fecund1 <- lm(tfr ~ yearSchF, 
                  data = dataWorld_q[dataWorld_q$quinq=="1990-1994",])

summary(reg_fecund1)
## 
## Call:
## lm(formula = tfr ~ yearSchF, data = dataWorld_q[dataWorld_q$quinq == 
##     "1990-1994", ])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.31691 -0.51638 -0.00167  0.57611  3.14481 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   7.0309     0.1607   43.75   <2e-16 ***
## yearSchF     -0.4546     0.0209  -21.75   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9769 on 171 degrees of freedom
##   (21 observations deleted due to missingness)
## Multiple R-squared:  0.7345, Adjusted R-squared:  0.733 
## F-statistic: 473.1 on 1 and 171 DF,  p-value: < 2.2e-16

Ejercicio

  • Inteprete los resultados del modelo de regresión
  • De acuerdo con los resultados de este modelo, para el periodo estudiado, ¿en cuánto debería incrementarse los años de escolaridad de las mujeres para que un país reduzca su tasa de fecundidad de 3 a 2 hijos por mujer?

Comparando modelos para dos periodos

A continuación calcularemos un modelo de regresión con las mismas variables que el anterior, pero para la década siguiente (periodo 2000-2004). Utilizaremos el paquete stargazer para producir una tabla de resultados que nos permita una mejor presentación de los mismos Si quiere saber más sobre stargazer puede seguir los siguientes enlaces: Stargazer; Stargazer cheatsheet.

La siguiente sintaxis calcula el segundo modelo y produce la tabla con stargazer que nos permite comparar los modelos (los errores estándar de los coeficientes aparecen entre paréntesis):

reg_fecund2 <- lm(tfr ~ yearSchF, 
                  data = dataWorld_q[dataWorld_q$quinq=="2000-2004",])

stargazer(reg_fecund1, reg_fecund2, type = "text",
          omit.stat=c("ser","f"), 
          column.labels = c("1990-94", "2000-04"),
          star.cutoffs = c(0.05, 0.01, 0.001))
## 
## ===========================================
##                   Dependent variable:      
##              ------------------------------
##                           tfr              
##                  1990-94        2000-04    
##                    (1)            (2)      
## -------------------------------------------
## yearSchF        -0.455***      -0.406***   
##                  (0.021)        (0.020)    
##                                            
## Constant        7.031***        6.553***   
##                  (0.161)        (0.180)    
##                                            
## -------------------------------------------
## Observations       173            173      
## R2                0.735          0.698     
## Adjusted R2       0.733          0.696     
## ===========================================
## Note:         *p<0.05; **p<0.01; ***p<0.001

Interprete: ¿Qué cambios en la relación entre los años de escolaridad y la fecundidad puede usted identificar entre los dos periodos analizados?

EJERCICIO: MÁS FACTORES ASOCIADOS A LA FECUNDIDAD

Para el periodo 2005-2009 calcule tres modelos de regresión para la fecundidad como variable dependiente, considerando las siguientes variables independientes:

Interprete los resultados de sus modelo y compare el efecto que tienen las variables independientes sobre la fecundidad, así como su capacidad predictiva.

Pregunta adicional: De los tres modelos caculados en este ejercicio, ¿a qué variables corresponde este diagrama de dispersión?:

¡QUE TENGAN UN BUEN TRABAJO!