Para esta práctica revisaremos los factores asociados con la fecundidad en el mundo. Para ello utilizaremos datos compilados por el proyecto Gapminder (https://www.gapminder.org/).
Antes de empezar debemos cargar un par de paquetes de R:
library(ggplot2)
library(stargazer)
Si no tienen estos paquetes instalados en su computadora pueden hacerlo usando la siguiente sintaxis:
install.packages("ggplot2")
install.packages("stargazer")
En el siguiente gráfico se presenta el número promedio de hijos por mujer en el mundo desde inicios del siglo XIX hasta la actualidad. En la mayor parte del tiempo la fecundidad se ha mantenido bastante alta y constante: por encima de los 6 hijos por mujer en el siglo XIX; luego baja un poco para situarse alrededor de los 5.5 hijos por mujer en la primera mitad del siglo XX. Sube ligeramente luego de la 2da guerra mundial (periodo conocido como el “baby boom”), para luego bajar en forma bastante pronunciada a partir de la segunda mitad de la década de 1960, para ubicarse, en promedio, en los 2.7 hijos por mujer en la actualidad.
Durante el periodo en que baja dramáticamente la tasa de fecundidad, el mundo experimenta también una mejora en las condiciones de vida, expresado por el aumento de la esperanza de vida, especialmente de las mujeres. Como se aprecia en el siguiente gráfico, a nivel mundial la esperanza de vida al nacer de las mujeres pasa de los 50 años en promedio a mediados del siglo XX, hasta los 75 años en la actualidad.
En el siguiente diagrama de dispersión puede verse la relación entre la fecundidad y la esperanza de vida en la actualidad (usando datos promedio del quinquenio 2015-2019), donde cada punto representa un país. Como se aprecia, cuantos menos hijos en promedio tienen las mujeres en un país, la esperanza de vida tiende a ser mayor. En países donde la fecundidad está alrededor de los 6 hijos por mujer, la esperanza de vida de las mujeres tiende a estar por los 60 años o menos; en países donde las mujeres tienen alredor de 2 hijos en promedio, la esperanza de vida supera los 70 años.
Esta relación puede expresarse en un modelo de regresión lineal simple. Para ello utilizaremos la base de datos dataWorld_q.rda que contiene información de diferentes indicadores sociodemográficos para los países del mundo por quinquenios, desde 1950 hasta la actualidad. Para ver el libro de códigos hacer clic aquí.
La siguiente sintaxis en R nos permite cargar los datos y pedir un modelo de regresión simple de la esperanza de vida femenina según la tasa de fecundidad para el periodo 2015-2019:
# Cargamos los datos directamente desde un disco duro virtual:
load(url("https://www.dropbox.com/s/fyobx9uswy3qgp3/dataWorld_q.rda?dl=1"))
# Si tiene la base de datos en su directorio de trabajo puede usar:
# load("dataWorld_q.rda")
# Vemos las variables en la base de datos:
names(dataWorld_q)
## [1] "country" "quinq" "tfr" "yearSchF" "contracep"
## [6] "age1mar" "sanitat" "water" "birthSkill" "childMort"
## [11] "deathRate" "extPov" "famWorkFem" "femWork" "incomePp"
## [16] "income10p" "gini" "lifExpFem" "lifExpTot" "maleWork"
## [21] "materMort" "vaccMeas" "schGenEq" "doctor" "teenFert"
reg_evida1 <- lm(lifExpFem ~ tfr,
data = dataWorld_q[dataWorld_q$quinq == "2015-2019", ])
summary(reg_evida1)
##
## Call:
## lm(formula = lifExpFem ~ tfr, data = dataWorld_q[dataWorld_q$quinq ==
## "2015-2019", ])
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.1850 -2.2070 0.2299 2.8533 10.9325
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 88.6175 0.7295 121.47 <2e-16 ***
## tfr -5.1858 0.2364 -21.93 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.251 on 182 degrees of freedom
## (10 observations deleted due to missingness)
## Multiple R-squared: 0.7255, Adjusted R-squared: 0.724
## F-statistic: 481 on 1 and 182 DF, p-value: < 2.2e-16
Los resultados del modelo de regresión se pueden representar en la siguiente ecuación lineal:
\[lifExpFem = 88.6 - trf(5.2)\]
Esa ecuación crea una línea recta en el diagrama de dispersión que representa la relación entre ambas vairiables y que representa el cambio esperado en nuestra variable dependiente (esperanza de vida) por cada cambio de una unidad en nuestra variable independiente (fecundidad).
Aquí la sintaxis en ggplot para generar el gráfico:
ggplot(dataWorld_q[dataWorld_q$quinq=="2015-2019",], aes(x=tfr, y=lifExpFem)) +
geom_point() + geom_smooth(method="lm", se = F) + xlab("Número de hijos por mujer") +
ylab("Esperanza de vida en años") +
ggtitle("Mundo 2015-2019: Esperanza de vida al nacer de las mujeres según \ntasa global de fecundidad") +
theme_light()
La ecuación calculada para nuestro modelo de regresión simple puede interpretarse de la siguiente manera:
Calcule un modelo de regresión para la esperanza de vida de las mujeres según la fecundidad para el quinquenio 1995-1999. Presente el diagrama de dispesión correspondiente e interprete los resultados de su modelo. Luego responda a la siguientes preguntas:
La educación de las mujeres es uno de los factores asociados con la reducción de las tasas de fecundidad. Para analizar ese efecto vamos a calcular un modelo de regresión simple donde la variable dependiente es la tasa global de fecundidad y la variable independiente es el promedio de años de escolaridad de las mujeres.
Primero lo haremos para el periodo 1990-1994:
Aquí el diagrama de dispersión:
ggplot(dataWorld_q[dataWorld_q$quinq=="1990-1994",], aes(x=yearSchF, y=tfr)) +
geom_point() + xlab("Años de escolaridad") + ylab("Número de hijos por mujer") +
ggtitle("Mundo 1990-94: Tasa de fecundidad según \naños de escolaridad de las mujeres") +
theme_light()
Aquí el modelo de regresión:
reg_fecund1 <- lm(tfr ~ yearSchF,
data = dataWorld_q[dataWorld_q$quinq=="1990-1994",])
summary(reg_fecund1)
##
## Call:
## lm(formula = tfr ~ yearSchF, data = dataWorld_q[dataWorld_q$quinq ==
## "1990-1994", ])
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.31691 -0.51638 -0.00167 0.57611 3.14481
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.0309 0.1607 43.75 <2e-16 ***
## yearSchF -0.4546 0.0209 -21.75 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9769 on 171 degrees of freedom
## (21 observations deleted due to missingness)
## Multiple R-squared: 0.7345, Adjusted R-squared: 0.733
## F-statistic: 473.1 on 1 and 171 DF, p-value: < 2.2e-16
A continuación calcularemos un modelo de regresión con las mismas variables que el anterior, pero para la década siguiente (periodo 2000-2004). Utilizaremos el paquete stargazer para producir una tabla de resultados que nos permita una mejor presentación de los mismos Si quiere saber más sobre stargazer puede seguir los siguientes enlaces: Stargazer; Stargazer cheatsheet.
La siguiente sintaxis calcula el segundo modelo y produce la tabla con stargazer que nos permite comparar los modelos (los errores estándar de los coeficientes aparecen entre paréntesis):
reg_fecund2 <- lm(tfr ~ yearSchF,
data = dataWorld_q[dataWorld_q$quinq=="2000-2004",])
stargazer(reg_fecund1, reg_fecund2, type = "text",
omit.stat=c("ser","f"),
column.labels = c("1990-94", "2000-04"),
star.cutoffs = c(0.05, 0.01, 0.001))
##
## ===========================================
## Dependent variable:
## ------------------------------
## tfr
## 1990-94 2000-04
## (1) (2)
## -------------------------------------------
## yearSchF -0.455*** -0.406***
## (0.021) (0.020)
##
## Constant 7.031*** 6.553***
## (0.161) (0.180)
##
## -------------------------------------------
## Observations 173 173
## R2 0.735 0.698
## Adjusted R2 0.733 0.696
## ===========================================
## Note: *p<0.05; **p<0.01; ***p<0.001
Interprete: ¿Qué cambios en la relación entre los años de escolaridad y la fecundidad puede usted identificar entre los dos periodos analizados?
Para el periodo 2005-2009 calcule tres modelos de regresión para la fecundidad como variable dependiente, considerando las siguientes variables independientes:
Interprete los resultados de sus modelo y compare el efecto que tienen las variables independientes sobre la fecundidad, así como su capacidad predictiva.
Pregunta adicional: De los tres modelos caculados en este ejercicio, ¿a qué variables corresponde este diagrama de dispersión?:
¡QUE TENGAN UN BUEN TRABAJO!