library(tinytex); library(knitr)
En su artículo publicado en 1998 “Children and Their Parents’ Labor Supply: Evidence from Exogenous Variation in Family Size”, (Angrist & Evans, 1998) pretenden identificar y comprender la relación entre la fertilidad y la oferta de trabajo. Su motivación parte del aparente aumento en la participación de la mujer en el mercado laboral post-guerra y del interrogante acerca de si tener menos hijos provoca un aumento en la vinculación a la fuerza laboral. Adicionalmente, Angrist y Evans se interesan en el efecto que retirarse del mercado laboral tiene sobre el desarrollo profesional y los salarios de las mujeres.
En cuanto a los datos y estadísticas descriptivas, los autores hacen uso de una estrategia de estimación en el que se implementan seis variables que utilizan información sobre la oferta laboral, el sexo de los dos primeros hijos de la madre, y un indicador de nacimientos múltiples encontrado en el Census Public Use Micro Samples (PUMS) – (En español: Censo de Micromuestras de Uso Público).
En los Anexos 1 y 2 se resumen dos estadísticas descriptivas: la media y la desviación estándar. Se sacaron ambas tendencias para variables como la cantidad promedio de hijos, las probabilidades de los sexos de los dos primeros hijos y la edad, las horas y semanas trabajadas y los ingresos de los padres. Algunos datos relevantes serían que para 1980 las mujeres tenían a su primer hijo en promedio a los 20.1 años con una desviación estándar de 2.9, y que esta cifra aumentó 1.7 años para el censo de 1990 pero continuó con una desviación constante. Otro dato significativo es el aumento en 5.4 semanas del total de semanas trabajadas de todas las mujeres y el incremento en un 33.3% en los ingresos laborales de todas las mujeres en el período de 10 años. Finalmente, es interesante notar que el ingreso familiar sin contar los ingresos de las mujeres casadas, disminuyó USD(1995) $2055 lo cual indicaría que hubo un aumento en la contribución de las mujeres a los ingresos familiares que a su vez indicaría un incremento en la vinculación a la fuerza laboral de este género. Cabe mencionar de igual manera que no sólo se tomaron las variables anteriormente mencionadas sino que también se tuvo en cuenta la raza (negro, blanco, hispano, otras) y los años de educación.
En lo que respecta a los modelos econométricos utilizados en el artículo, aplican una prueba de Wald, un modelo de Mínimos Cuadrados en 2 Etapas (MC2E) y Mínimos Cuadrados Ordinarios (MCO). Por un lado, la estimación por Wald, también conocida como prueba Chi-Cuadrado de Wald, es una medida estadística normalmente utilizada para confirmar si un grupo de variables independientes son colectivamente significativas para un modelo. Así pues, en este caso los autores deciden utilizar el test de Wald para ilustrar cómo la estrategia por IV identifica el efecto de la fertilidad en la oferta de trabajo de los padres. De esta manera, se planteó el modelo de regresión lineal bivariado:
\[\begin{array} yy_{i} = \alpha + \beta x_{i} + \epsilon_{i} \end{array}\]
En el cual \(y_{i}\) es la medida de la oferta de trabajo y \(x_{i}\) es la medida endógena de la variable de interés de la fertilidad. Asimismo, (Angrist & Evans, 1998) denotan como instrumento binario la variable Same sex, que quiere decir que los primeros dos hijos tienen el mismo sexo. El estimador IV de \(\beta\) en esta ecuación es:
\[\begin{array} \beta_{} \beta_{IV} = (\bar{y_{1}} - \bar{y_{0}}) / (\bar{x_{1}} - \bar{x_{0}}) \end{array}\]
Donde \(\bar{y_{1}}\) es la media de y parra aquellas observaciones en las que \(z_{i} = 1\). Es importante resaltar que el numerador y el denominador cumplen la función de capturar la forma reducida de los efectos de las relaciones entre \(y_{i}\) y \(z_{i}\) y entre \(x_{i}\) y \(z_{i}\). Con los resultados de esta prueba se decide tomar la variable Más de 2 hijos como el regresor endógeno.
Por otro lado, los autores argumentan que los motivos para usar el modelo de MC2E son para controlar:
1. Las covariables exógenas para intentar obtener estimaciones más precisas si los efectos del modelo son más o menos constantes entre los grupos
2. Cualquier posible efecto aditivo del sexo del primer hijo cuando se usa la variables Same sex como instrumento
En este caso se plantea el instrumento Same sex de la siguiente manera:
\[\begin{array} ssame sex = s_{1}s_{2} + (1-s_{1})(1-s_{2}) \end{array}\]
Donde \(s_{1}s_{2}\) indica dos hijos y \([(1-s_{1})(1-s_{2})]\) indica dos hijas. En este caso, dado que el instrumento sería igual a dos hijos y/o dos hijas se podría enfrentar un error del instrumento por sobre-identificación del estadístico para MC2E.
Ahora bien, los autores plantean el siguiente modelo de regresión para relacionar la oferta laboras de esposos y esposas a la variable endógena de Más de 2 hijos, a \(x_{i}\) y a la lista de covariables exógenas, incluyendo los efectos aditivos del sexo de cada hijo:
\[\begin{array} Yy_{i} = \alpha_{0}’ W_{i} + \alpha_{i}s_{1i} + \beta_{i}x_{i} + \epsilon_{i} \end{array}\]
De esta manera, la relación de primera etapa entre \(x_{i}\) y la mezcla de sexos en los primeros dos hijos es:
\[\begin{array} xx_{i} = \pi_{0}’ W_{i} + \pi_{1}s_{1i} + \gamma_{0}(Two boys_{i}) + \gamma_{1}(Two girls_{i}) + \eta_{i} \end{array}\]
Ecuación en la cual \(w_{i}\) es un vector de variables demográficas (vector limitado a variables exógenas con respecto a la fertilidad como la edad actual de la madre, la edad de la madre durante el primer parto, la raza e indicadores de Hispanos) y \(s_{1i}\) y \(s_{2i}\) son indicadores del sexo de los primeros dos hijos de la madre \(i\)
Con este modelo se encuentran resultados como los siguientes:
Se estima que las mujeres en 1980 con hijos del mismo sexo tenían 6,2 puntos porcentuales más de probabilidad de tener un tercer hijo. Esta estadística para mujeres casadas era de 6,9 puntos porcentuales
Hay evidencia de que existe una asociación entre tener un hijo varón y tener menos hijos en las pariciones más altas.
Las estimaciones por MCO de la muestra total de mujeres y de mujeres casadas sugieres que un tercer hijo reduce la probabilidad de trabajar en aproximadamente 17 puntos porcentuales, genera una disminución en las semanas trabajadas de aproximadamente 8-9 por año, las horas por semana disminuyen también en 6-7 horas, y el ingreso familiar cae alrededor de 13%.
Tener un tercer hijo disminuye entre un 20-30% la oferta de trabajo y las ingresos de las mujeres
Se observa una diferencia clave entre los resultados de 1980 y 1990 es el mayor impacto negativo de la maternidad en los ingresos de las mujeres casadas en 1990, que se le podría atribuir a un aumento en los salarios de las mujeres o al hecho de que las mujeres casadas habrían estado retrasando la maternidad (la edad promedio del primer parto aumentó en 1,6 años), por lo que las mujeres habrían tenido más años de experiencia y salarios más altos cuando se vieron obligadas a salir de la fuerza laboral debido al parto.
En lo que concierne a las conclusiones, al comienzo del artículo los autores mencionan que en la literatura y en las investigaciones empíricas existentes parecía haber una relación negativa entre la fertilidad y la oferta de trabajo femenino; a través de las estimaciones por IV y por MC2E sobre los efectos de la composición sexual de los hermanos, (Angrist & Evans, 1998) logran confirmar que las estimaciones de MCO acerca de que los hijos influyen en la reducción de oferta de trabajo femenino existe. Lo anterior no resulta tan sorprendente ni tan inesperado como el hecho de que le fertilidad parece tener un efecto muchísimo menor y casi invisible en mujeres con estudios universitarios y en mujeres casadas con hombres de altos salarios; esto va en mano con que es más probable que mujeres más pobres y menos educadas enfrenten mayores dificultades para entrar o volver al mercado laboral en caso de tener hijos.
Finalmente, es notorio que la fertilidad y los cambios en el tamaño de las familias no parecen afectar el comportamiento de los hombres casados en la fuerza laboral, lo cual indicaría que ante un aumento en la cantidad de hijos, las familias asumen los costos de cuidado a través de una disminución en el ingreso de las esposas o por medio de la adquisición de servicios de cuidado para niños llevados a cabo por terceros. Dado el caso de que el esposo sí añada tiempo o contribuya al cuidado de los infantes, lo hará a la expensa de su tiempo de ocio, es decir, sin sacrificar horas de trabajo o esfuerzo laboral.
Anexo 1: Media y (desviación estándar) de la PUMS de 1980
| Variables | All women | Wives | Husbands |
|---|---|---|---|
| More than 2 children ( = 1 if mother had more than 2 children, =0 otherwise) | 0.402 (0.490) | 0.381 (0.486) | — |
| Boy 1st (s1) (=1 if first child was a boy) | 0.511 (0.500) | 0.514 (0.500) | — |
| Boy 2nd (s2) (=1 if second child was a boy) | 0.511 (0.500) | 0.513 (0.500) | — |
| Two boys (=1 if first two children were boys) | 0.264 (0.441) | 0.266 (0.442) | — |
| Two girls (=1 if first two children were girls) | 0.242(0.428) | 0.239 (0.427) | — |
| Same sex (=1 if first two children were the same sex) | 0.506 (0.500) | 0.506 (0.500) | — |
| Twins-2 (=2 if second birth was a twin) | 0.0085(0.0920) | 0.0083 (0.0908) | — |
| Age | 30.1 (3.5) | 30.4 (3.4) | 33.0 (4.6) |
| Age at first birth (parent’s age in years when first child was born) | 20.1 (2.9) | 20.8 (2.9) | 24.0 (4.0) |
| Worked for pay (=1 if worked for pay in year prior to census) | 0.565 (0.496) | 0.528 (0.499) | 0.977 (0.150) |
| Weeks worked (weeks worked in year prior to census) | 20.8 (22.3) | 19.0 (21.9) | 48.0 (10.5) |
| Hours/weeks (average hours worked per week) | 18.8 (18.9) | 16.7 (18.3) | 43.5 (12.3) |
| Labor income (labor earnings in year prior to census, in 1995 dollars) | 7 160 (10 804) | 6 250 (10 211) | 38 919 (25 014) |
| Family income (family income in year prior to census, in 1995 dollars) | 42 342 (26 563) | 47 646 (25 821) | — |
| Non-wife income (family income minus wife’s labor income, in 1995 dollars) | — | 41 635 (24 734) | — |
| Number of observations | 394 835 | 254 654 | 254 654 |
Anexo 2: Media y (desviación estándar) de la PUMS de 1990
| Variables | All women | Wives | Husbands |
|---|---|---|---|
| More than 2 children ( = 1 if mother had more than 2 children, =0 otherwise) | 0.375 (0.484) | 0.367 (0.482) | — |
| Boy 1st (s1) (=1 if first child was a boy) | 0.512 (0.500) | 0.514 (0.500) | — |
| Boy 2nd (s2) (=1 if second child was a boy) | 0.511 (0.500) | 0.512 (0.500) | — |
| Two boys (=1 if first two children were boys) | 0.264 (0.441) | 0.265 (0.441) | — |
| Two girls (=1 if first two children were girls) | 0.241(0.428) | 0.239 (0.426) | — |
| Same sex (=1 if first two children were the same sex) | 0.505 (0.500) | 0.503 (0.500) | — |
| Twins-2 (=2 if second birth was a twin) | 0.0012(0.108) | 0.011 (0.105) | — |
| Age | 30.4 (3.5) | 30.7 (3.3) | 33.4 (4.8) |
| Age at first birth (parent’s age in years when first child was born) | 21.8 (3.5) | 22.4 (3.5) | 25.1 (4.7) |
| Worked for pay (=1 if worked for pay in year prior to census) | 0.662 (0.473) | 0.667 (0.471) | 0.986 (0.175) |
| Weeks worked (weeks worked in year prior to census) | 26.2 (22.9) | 26.4 (22.9) | 47.1 (12.0) |
| Hours/weeks (average hours worked per week) | 22.5 (19.9) | 22.2 (18.9) | 44.0 (13.3) |
| Labor income (labor earnings in year prior to census, in 1995 dollars) | 9 550 (13 071) | 9 616 (13 238) | 36 623 (30 283) |
| Family income (family income in year prior to census, in 1995 dollars) | 42 558 (34 692) | 49 196 (34 740) | — |
| Non-wife income (family income minus wife’s labor income, in 1995 dollars) | — | 39 580 (31 892) | — |
| Number of observations | 380 007 | 301 588 | 301 588 |
Teniendo en cuenta las ideas planteadas por Evans y Angrist en su paper, se pretende usar la base de datos del censo de Estados Unidos para 1990, para entender como funciona el mercado laboral para las mujeres con respecto a la fertilidad, esto es de interés ya que ayudará a crear bases para poder de resolver la incognita: ¿Cómo la fertilidad afecta la oferta laboral?
library(haven); library(dplyr); library(cragg); library(AER); library(tidyverse)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Loading required package: car
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.0 ✔ purrr 1.0.1
## ✔ tibble 3.1.8 ✔ stringr 1.5.0
## ✔ tidyr 1.3.0 ✔ forcats 0.5.2
## ✔ readr 2.1.3
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ✖ car::recode() masks dplyr::recode()
## ✖ purrr::some() masks car::some()
library(Hmisc); library(readxl); library(forecast);library(lmtest); library(sandwich); library(orcutt)
## Loading required package: lattice
## Loading required package: Formula
##
## Attaching package: 'Hmisc'
##
## The following objects are masked from 'package:dplyr':
##
## src, summarize
##
## The following objects are masked from 'package:base':
##
## format.pval, units
##
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
library(googlesheets4); library(dplyr);library(tidytext); library(urca); library(tseries); library(ggplot2)
library(patchwork); library(nortest); library(tinytex); library(dynlm) ; library(AER);library(xts)
##
## Attaching package: 'xts'
##
## The following objects are masked from 'package:dplyr':
##
## first, last
library(ecm); library(openxlsx) ;library(dLagM); library(dplyr); library(stargazer); library(summarytools)
## Loading required package: nardl
##
## Attaching package: 'dLagM'
##
## The following object is masked from 'package:forecast':
##
## forecast
##
##
## Please cite as:
##
## Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
##
##
## Attaching package: 'summarytools'
##
## The following objects are masked from 'package:Hmisc':
##
## label, label<-
##
## The following object is masked from 'package:tibble':
##
## view
Para empezar con el análisis se realizará una filtración de los datos y se tomará en cuenta en el estudio unicamente a las mujeres de 35 años o menos, esto debido a que en este rango de edad es donde se presenta la mayor fertilidad por parte de este género. Así mismo, para comprender nuestro modelo, se crea la variable “morekids” la cual es una dummy que muestra: “1” si la madre tiene más de dos hijos o “0” si tienes 2 o menos hijos.
# Se suben los datos dados en stata
fertility <- read_dta("fertility.dta")
# Se filtran para las mujeres con una edad menor a 35 años
fertility<- filter(fertility, agem>=0 & agem<=35)
fertility <- mutate(fertility, age2 = agem*agem,
morekids = case_when(kidcount >= 0 & kidcount <= 2 ~ 0,
kidcount > 2 ~ 1),
afro= case_when(racem == 2 ~ 1,
TRUE ~ 0),
hispa= case_when(racem ==12 ~ 1,
TRUE ~ 0),
blanco= case_when(racem ==1 ~ 1,
TRUE ~ 0 ),
boys2 = case_when(sexk == 0 & sex2ndk== 0 ~ 1,
sexk == 1 & sex2ndk== 0 ~ 0,
sexk == 0 & sex2ndk== 1 ~ 0,
sexk == 1 & sex2ndk== 1 ~ 0),
girls2 = case_when(sexk == 1 & sex2ndk ==1 ~ 1,
sexk == 1 & sex2ndk== 0 ~ 0,
sexk == 0 & sex2ndk== 1 ~ 0,
sexk == 0 & sex2ndk== 0 ~ 0))
View(fertility)
attach(fertility)
Habiendo determinado la base de datos y creado una variable importante que define la fertilidad en este modelo, primero se pretende entender como las diferentes variables dadas afectan las semanas trabajadas por la madre en 1989, es por esto que se hará una regresión por minimos cuadrados ordinarios en el que relaciona la oferta laboral con morekids, la edad y su cuadrado, años de educación, y variables binarias para raza afroamericana, hispana y blancos.
OLS1 <- lm(week89m ~ morekids + agem + I(age2) + yearschm + afro + hispa + blanco, data = fertility)
summary(OLS1)
##
## Call:
## lm(formula = week89m ~ morekids + agem + I(age2) + yearschm +
## afro + hispa + blanco, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -43.468 -22.234 4.923 19.848 51.442
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -42.937421 1.344823 -31.928 <2e-16 ***
## morekids -8.517307 0.067078 -126.975 <2e-16 ***
## agem 3.304818 0.095279 34.686 <2e-16 ***
## I(age2) -0.045477 0.001662 -27.358 <2e-16 ***
## yearschm 1.317822 0.012614 104.476 <2e-16 ***
## afro 4.043918 0.124545 32.470 <2e-16 ***
## hispa 0.595725 0.576447 1.033 0.301
## blanco 2.140987 0.101277 21.140 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.87 on 646863 degrees of freedom
## Multiple R-squared: 0.06833, Adjusted R-squared: 0.06832
## F-statistic: 6777 on 7 and 646863 DF, p-value: < 2.2e-16
Teniendo los resultados de la regresión podemos hacer algunas inferencias economicas del modelo:
El intercepto tiene un valor de -42.93, lo que significa que, en promedio se espera que una mujer trabaje 42.93 semanas menos. Así mismo, se puede decir que si la madre tiene más de dos hijos, su semanas trabajadas disminuye en 8.51 semanas a si tuviera menos de dos hijos. De esta misma manera, se presenta que a un año más de vida de la madre genera que sus semanas trabajadas aumente en 0.045 semanas, sin embargo, mirando la variable al cuadrado, indica que un año más de vida en la mujer disminuye sus semanas trabajadas en 0.0454 semanas, es decir, el efecto de la edad en las semanas trabajadas es mayor en las edades más jóvenes que en las edades más avanzadas. También es importante saber que para una madre que tiene diez años más de escolaridad puede llegar a trabajar 13.17 semanas más y teniendo en cuenta la raza de la madre habrá diferentes repercuciones, por un lado, si una mujer es afroamericana tiende a trabajar 4.043918 semanas más que siendo de cualquier otra raza. Por otra parte, si la mujer es hispana puede trabajar la mitad de una semana más (0.59) que teniendo cualquier otra etnia. Sin embargo, una mujer blanca trabaja 2.14 semanas más que teniendo cualquier otra raza.
Así mismo, la regresión muestra que las variables propuestas describen tan solo un 6.83% de las semanas trabajadas por mujeres, sin embargo, los p-valores de todos los factores demuestran que la mayoria de variables son relevantes en el modelo. Esta incongruencia entre los resultados es una buena medida para determinar que en el modelo hay variables que presentan endogeneidad, esto puede ser dado porque hay omisión de variables relevantes, es decir, que en el modelo se están dejando pasar variables que describen de mejor manera las semanas trabajadas de las mujeres.
Después de entender como las semanas trabajadas por la madres son afectadas por ciertas variables, ahora se pretende comprender cómo las diversas variables proporcionadas influyen en el ingreso por el trabajo de las madres en 1989. Para lograr este propósito, se llevará a cabo otra regresión mediante el método de mínimos cuadrados ordinarios, que relacionará la oferta laboral con las variables de propuestas previamente.
OLS2 <- lm(incomem1 ~ morekids + agem + I(age2) + yearschm + afro + hispa + blanco, data = fertility)
summary(OLS2)
##
## Call:
## lm(formula = incomem1 ~ morekids + agem + I(age2) + yearschm +
## afro + hispa + blanco, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19416 -7072 -2089 5281 195172
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.996e+04 6.287e+02 -31.757 < 2e-16 ***
## morekids -3.600e+03 3.136e+01 -114.798 < 2e-16 ***
## agem 8.748e+02 4.454e+01 19.641 < 2e-16 ***
## I(age2) -8.337e+00 7.771e-01 -10.729 < 2e-16 ***
## yearschm 1.084e+03 5.896e+00 183.857 < 2e-16 ***
## afro 5.457e+02 5.822e+01 9.372 < 2e-16 ***
## hispa 1.140e+03 2.695e+02 4.230 2.34e-05 ***
## blanco -8.984e+02 4.734e+01 -18.976 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10220 on 646863 degrees of freedom
## Multiple R-squared: 0.1085, Adjusted R-squared: 0.1085
## F-statistic: 1.125e+04 on 7 and 646863 DF, p-value: < 2.2e-16
El intercepto en este caso toma un valor de -19.960, lo que significa que, en promedio se espera que una mujer gane 19.960 dolares menos. De esta manera, se puede decir que si la madre tiene más de dos hijos, su ingreso laborado se reduce en 3.600 dólares a si tuviera menos de dos hijos. También, se presenta que a un año más de vida de la madre genera que su ingreso por trabajar aumente 874.8 dólares, no obstante, mirando la variable al cuadrado, nos indica que un año más de vida en la mujer disminuye su ingreso en 0.08337 dolares. Es así que es importante saber que para una madre que tiene un años más de escolaridad puede llegar a ganar 1.084 dolares más y teniendo en cuenta la raza de la madre habrá diferentes repercuciones, por un lado, si una mujer es afroamericana tiende a ganar 545.7 dolares más que siendo de cualquier otra raza. Por otra parte, si la mujer es hispana puede tener una remuneracion economica de 1.140 dolares más que tenindo cualquier otra etnia. Sin embargo, una mujer blanca ganaría 898.4 dolares menos que teniendo cualquier otra raza.
Hay varias razones por las cuales las madres negras o hispanas podrían ganar más que las madres blancas. Por ejemplo, existen diferencias en la estructura familiar, las madres negras son más propensas a ser madres solteras y a tener que depender exclusivamente de sus ingresos para mantener a sus hijos. Esto hace que las mismas trabajen más horas para ganar suficiente dinero para mantener a sus hijos. A diferencia de las madres blancas, que pueden ser más propensas a dejar el trabajo o trabajar a tiempo parcial gracias al posible apoyo de un hombre que les permita dedicarse a la maternidad. También se deben tener en cuenta los programas de apoyo, ya que las madres negras pueden tener menos acceso a programas de apoyo gubernamentales y organizaciones benéficas que las madres blancas.
Así mismo, la regresión muestra que las variables propuestas describen tan solo un 10.85% del ingreso por mujeres, no obstante, los p-valores de todos los factores demuestran que la mayoria de variables son relevantes en el modelo. Este incongruencia entre los resultados es una buena medida para determinar que en este modelo también hay presencia de endogeneidad.
Es pues que se puede evidenciar que hay problemas de endógenidad en el modelo y por ende los autores del artículo sugieren usar variables boys2 y girls2 como variables instrumentales que ayuden a mejorar el problema de endogeneidad que se presenta.
freq(boys2)
## Frequencies
## boys2
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- -------- --------- -------------- --------- --------------
## 0 315693 73.60 73.60 48.80 48.80
## 1 113239 26.40 100.00 17.51 66.31
## <NA> 217939 33.69 100.00
## Total 646871 100.00 100.00 100.00 100.00
El resultado de la función freq(boys2) indica la frecuencia absoluta y relativa de los valores presentes en la variable binaria boys2, la cual representa si una madre menor de 35 años tuvo sus primeros dos hijos varones (valor 1) o no (valor 0), o si no se dispone de información (La madre tiene menos de 2 hijos).
En este caso, se observa que la variable boys2 tiene 646,871 observaciones en total, de las cuales el 48.80% (315,693) corresponden a madres que no tuvieron dos hijos varones, el 17.51% (113,239) corresponden a madres que sí tuvieron dos hijos varones, y el 33.69% (217,939) corresponden a casos en los que no se dispone de información.
Además, el resultado también muestra las frecuencias acumuladas
relativas, que indican el porcentaje acumulado de observaciones válidas
(es decir, excluyendo los valores
En terminos generales, la variable binaria boys2 puede estar relacionada con la toma de decisiones reproductivas de las madres menores de 35 años. Por ejemplo, si se observa que un porcentaje significativo de madres tienen dos hijos varones, podría ser una señal de que estas madres tienen una preferencia por tener hijos varones o que existe una presión social o cultural en la comunidad que valora más a los hijos varones que a las hijas mujeres.
Entonces estos resultados podrían tener implicaciones económicas en términos de la composición de la fuerza laboral en el futuro. Por ejemplo, si hay una preferencia por tener hijos varones, esto podría resultar en una proporción desequilibrada de hombres y mujeres en la fuerza laboral, lo que podría afectar la oferta y la demanda de trabajo y los salarios. También podría haber implicaciones en términos de la educación y la salud de las mujeres, si la inversión en el desarrollo de habilidades y el acceso a la atención médica se prioriza en los hijos varones en lugar de las hijas mujeres.
freq(girls2)
## Frequencies
## girls2
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- -------- --------- -------------- --------- --------------
## 0 325985 76.00 76.00 50.39 50.39
## 1 102947 24.00 100.00 15.91 66.31
## <NA> 217939 33.69 100.00
## Total 646871 100.00 100.00 100.00 100.00
El resultado de la función freq(girls2) indica la frecuencia absoluta y relativa de los valores presentes en la variable binaria girls2, la cual representa si una madre menor de 35 años tuvo sus primeras dos hijas mujeres (valor 1) o no (valor 0), o si no se dispone de información (La madre tiene menos de 2 hijos).
El resultado permite observar que el 50.39% de las madres encuestadas no tuvieron dos hijas seguidas, mientras que el 15.91% tuvo dos hijas mujeres consecutivas y el 33,69% corresponden a casos en los que no se dispone de información.
Además, el resultado también muestra las frecuencias acumuladas
relativas, que indican el porcentaje acumulado de observaciones válidas
(es decir, excluyendo los valores
este resultado podría tener implicaciones en la toma de decisiones de las familias en cuanto a la planificación familiar y la inversión en la educación y el bienestar de los hijos. Por ejemplo, si una familia tiene dos hijas y desea tener un hijo varón, podría estar más motivada para hacer inversiones en tecnologías de reproducción asistida o tratamientos médicos que les ayuden a tener un hijo varón. Esto podría tener implicaciones en los costos de salud y las decisiones de gasto de la familia.
Además, si existe una preferencia cultural por los hijos varones, el resultado de la frecuencia podría reflejar una presión sobre las madres para que tengan hijos varones y, por lo tanto, tener dos hijas seguidas podría ser visto como un “fracaso”. Esto podría tener implicaciones en la dinámica familiar y en la inversión en la educación y el bienestar de las hijas.
En resumen, los resultados de estas frecuencias podría explicar implicaciones económicas en la toma de decisiones de las familias en cuanto a la planificación familiar, los costos de salud, las decisiones de gasto y la dinámica familiar. Además, podría reflejar preferencias culturales por los hijos varones y sus consecuencias económicas.
Por medio de la intuición economica, se puede determinar que las variables Boys2 y girls2, pueden ser buenos instrumentos para medir adecuadamente el efecto causal de la fertilidad sobre la oferta laboral porque son variables exógenas que están relacionadas con la fertilidad pero no directamente relacionadas con la oferta laboral. En otras palabras, los hijos e hijas de una pareja son una consecuencia directa de la fertilidad de la pareja, pero su género no está directamente relacionado con la oferta laboral de los padres, es por esto que si se utilizan los géneros de los hijos (boys2 y girls2) como variables instrumentales, se puede controlar aún más la posibilidad de que exista una correlación entre la fertilidad y la oferta laboral.
Ahora que se conoce la razón por la que las variables boys2 y girls2 son buenas variables instrumentales, se pretende volver a estimar el modelo pero teniendo en cuenta las variables determinadas para reducir los efectos de endogeneidad en el modelo.
IV1 <- ivreg(week89m ~ morekids + agem + age2 + yearschm + afro + hispa + blanco |
agem + age2 + yearschm + afro + hispa + blanco + boys2 + girls2, data=fertility)
summary(IV1)
##
## Call:
## ivreg(formula = week89m ~ morekids + agem + age2 + yearschm +
## afro + hispa + blanco | agem + age2 + yearschm + afro + hispa +
## blanco + boys2 + girls2, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -41.422 -22.170 1.119 21.485 51.272
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -52.532489 1.916748 -27.407 < 2e-16 ***
## morekids -5.953096 1.190654 -5.000 5.74e-07 ***
## agem 3.707839 0.146303 25.344 < 2e-16 ***
## age2 -0.048666 0.002379 -20.460 < 2e-16 ***
## yearschm 1.195794 0.043031 27.789 < 2e-16 ***
## afro 3.467964 0.168170 20.622 < 2e-16 ***
## hispa -0.258773 0.693558 -0.373 0.709
## blanco 1.281151 0.141943 9.026 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.04 on 428924 degrees of freedom
## Multiple R-Squared: 0.06471, Adjusted R-squared: 0.0647
## Wald test: 3119 on 7 and 428924 DF, p-value: < 2.2e-16
Ya teniendo los resultados dados por la regresión teniendo en cuenta las variables instrumentales, se puede hacer intuición economica para el modelo con la minimización de la endogeneidad. Es así que tenemos que, en promedio, una mujer trabaja 52.53 semanas menos que un hombre y que si la madre tiene más de dos hijos sus semanas trabajadas disminuyen 5.95 semanas a que si tuviera menos de dos hijos, se puede analizar que por un año más de vida de la madre las semanas trabajadas aumenta 3.70 semanas, no obstante, un año más al cuadrado de la mujer disminuye las semanas trabajadas en 0.0486 semanas. Ahora enfocandonos en las caracteristicas de la madre, se puede decir que a un año más de escolaridad aumenta más de una semana trabajada (1.19 semanas), sin embargo, la proveniencia racial de la madre es determinante, por un lado, si la madre es afroamericana, trabajara 3.46 semanas más siendo de otra raza, por otro lado, una mujer hispana trabaja 0.25 semanas menos que siendo de cualquier lugar, por último, una mujer blanca, trabaja 1.28 semanas más que cualquier otra mujer.
IV2 <- ivreg(incomem1 ~ morekids + agem + age2 + yearschm + afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + blanco +boys2 + girls2,data=fertility)
summary(IV2)
##
## Call:
## ivreg(formula = incomem1 ~ morekids + agem + age2 + yearschm +
## afro + hispa + blanco | agem + age2 + yearschm + afro + hispa +
## blanco + boys2 + girls2, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17228 -6617 -2617 4783 194203
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -14007.706 850.567 -16.469 < 2e-16 ***
## morekids -1827.678 528.359 -3.459 0.000542 ***
## agem 506.167 64.923 7.796 6.38e-15 ***
## age2 -2.246 1.056 -2.128 0.033371 *
## yearschm 937.886 19.095 49.116 < 2e-16 ***
## afro 327.240 74.626 4.385 1.16e-05 ***
## hispa 789.119 307.770 2.564 0.010348 *
## blanco -1225.362 62.988 -19.454 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9780 on 428924 degrees of freedom
## Multiple R-Squared: 0.0903, Adjusted R-squared: 0.09028
## Wald test: 5230 on 7 and 428924 DF, p-value: < 2.2e-16
Ahora se puede entender como funciona el mercado laboral de las madres enfocado en cuanto ganan teniendo en cuenta las variables instrumentales. Se puede decir que en promedio, una mujer gana en el trabajo 14007.7 dolares menos y se puede saber que si la madre tiene más de dos hijos su ingreso disminuye en 1827.6 dolares a que si tuviera menos de dos hijos, se puede analizar que por un año más de vida de la madre su ingreso aumenta 506.16 dolares, no obstante, un año más al cuadrado de la mujer disminuye lo que ganara en 2.24 dolares. Ahora enfocandonos en las caracteristicas de la madre, se puede decir que a un año más de escolaridad aumenta en 937.886 dolares recibidos, sin embargo, la proveniencia racial de la madre es determinante, por un lado, si la madre es afroamericana, ganara 327.240 dolares más siendo de otra raza, por otro lado, una mujer hispana reciira 789.119 dolares más que siendo de cualquier lugar, por último, una mujer blanca, tendrá un ingreso de 1225.3 menos que cualquier otra mujer.
fstage <- lm(morekids ~ agem + age2 + yearschm + afro + hispa + blanco + boys2 + girls2, data=fertility)
summary(fstage)
##
## Call:
## lm(formula = morekids ~ agem + age2 + yearschm + afro + hispa +
## blanco + boys2 + girls2, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.8542 -0.3513 -0.2580 0.5752 1.0873
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.3583680 0.0393312 -9.112 <2e-16 ***
## agem 0.0552256 0.0027392 20.161 <2e-16 ***
## age2 -0.0006559 0.0000471 -13.927 <2e-16 ***
## yearschm -0.0337974 0.0003199 -105.663 <2e-16 ***
## afro 0.0565790 0.0032258 17.540 <2e-16 ***
## hispa -0.0020522 0.0145412 -0.141 0.888
## blanco -0.0586122 0.0025937 -22.598 <2e-16 ***
## boys2 0.0525599 0.0016998 30.922 <2e-16 ***
## girls2 0.0603268 0.0017544 34.387 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4621 on 428923 degrees of freedom
## (217939 observations deleted due to missingness)
## Multiple R-squared: 0.04612, Adjusted R-squared: 0.04611
## F-statistic: 2593 on 8 and 428923 DF, p-value: < 2.2e-16
linearHypothesis(fstage,
c("boys2 = 0", " girls2= 0"))
## Linear hypothesis test
##
## Hypothesis:
## boys2 = 0
## girls2 = 0
##
## Model 1: restricted model
## Model 2: morekids ~ agem + age2 + yearschm + afro + hispa + blanco + boys2 +
## girls2
##
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 428925 91924
## 2 428923 91581 2 342.62 802.33 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Para saber si los instrumentos obtenidos son realmente determinantes en el control de la endogeneidad del modelo, se realiza para empezar un test linear, hay que tener en cuenta que la hipótesis nula es que los coeficientes son cero, lo que significa que las variables instrumentales no son efectivas para instrumentar las variables de fertilidad y, por lo tanto, no son útiles para identificar el efecto causal de la fertilidad sobre la oferta laboral.
La tabla muestra que el valor F es de 802.33, lo que indica que la diferencia entre los dos modelos es estadísticamente significativa. El valor p es menor que 0.05, lo que significa que hay evidencia suficiente para rechazar la hipótesis nula y concluir que los coeficientes de boys2 y girls2 son distintos de cero. Esto sugiere que boys2 y girls2 son variables instrumentales efectivas para identificar el efecto causal de la fertilidad sobre la oferta laboral de la mujer, y que su inclusión en el modelo mejora la calidad de la estimación.
summary(IV1, diagnostics=TRUE)
##
## Call:
## ivreg(formula = week89m ~ morekids + agem + age2 + yearschm +
## afro + hispa + blanco | agem + age2 + yearschm + afro + hispa +
## blanco + boys2 + girls2, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -41.422 -22.170 1.119 21.485 51.272
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -52.532489 1.916748 -27.407 < 2e-16 ***
## morekids -5.953096 1.190654 -5.000 5.74e-07 ***
## agem 3.707839 0.146303 25.344 < 2e-16 ***
## age2 -0.048666 0.002379 -20.460 < 2e-16 ***
## yearschm 1.195794 0.043031 27.789 < 2e-16 ***
## afro 3.467964 0.168170 20.622 < 2e-16 ***
## hispa -0.258773 0.693558 -0.373 0.709
## blanco 1.281151 0.141943 9.026 < 2e-16 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 2 428923 802.331 <2e-16 ***
## Wu-Hausman 1 428923 0.189 0.663
## Sargan 1 NA 1.503 0.220
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.04 on 428924 degrees of freedom
## Multiple R-Squared: 0.06471, Adjusted R-squared: 0.0647
## Wald test: 3119 on 7 and 428924 DF, p-value: < 2.2e-16
summary(IV2, diagnostics=TRUE)
##
## Call:
## ivreg(formula = incomem1 ~ morekids + agem + age2 + yearschm +
## afro + hispa + blanco | agem + age2 + yearschm + afro + hispa +
## blanco + boys2 + girls2, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17228 -6617 -2617 4783 194203
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -14007.706 850.567 -16.469 < 2e-16 ***
## morekids -1827.678 528.359 -3.459 0.000542 ***
## agem 506.167 64.923 7.796 6.38e-15 ***
## age2 -2.246 1.056 -2.128 0.033371 *
## yearschm 937.886 19.095 49.116 < 2e-16 ***
## afro 327.240 74.626 4.385 1.16e-05 ***
## hispa 789.119 307.770 2.564 0.010348 *
## blanco -1225.362 62.988 -19.454 < 2e-16 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 2 428923 802.331 <2e-16 ***
## Wu-Hausman 1 428923 2.233 0.135
## Sargan 1 NA 1.327 0.249
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9780 on 428924 degrees of freedom
## Multiple R-Squared: 0.0903, Adjusted R-squared: 0.09028
## Wald test: 5230 on 7 and 428924 DF, p-value: < 2.2e-16
Ahora que tenemos una visión de las variables instrumentales, podemos analizar su veracidad por medio de diferentes test:
El test Weak instruments Evalúa si los instrumentos utilizados son lo suficientemente fuertes para explicar la varianza en la semana trabaja por mujeres. En el modelo que explica las semanas trabajadas y el modelo de los ingresos por trabajo, el valor del estadístico es 802.331 y el p-value es menor que 2e-16, lo que sugiere que los instrumentos son fuertes.
El test de Wu-Hausman Evalúa si los residuos de la regresión de dos etapas están correlacionados con las variables explicativas (morekids, agem, age2, yearschm, afro, hispa, blanco) utilizadas en la regresión principal. Un resultado significativo indicaría que la regresión de dos etapas es inconsistente y que el modelo debería ajustarse de otra manera. En el caso de las semanas trabajadas por la madre, el valor del estadístico el valor de prueba es 0.189 con un p-valor de 0.663, lo que indica que el modelo de regresión instrumental no es mejor que el modelo de regresión simple. Por lo tanto, se concluye que el modelo de regresión simple es preferible. Así mismo, evaluando el test para el modelo con los ingresos de la madre, se comprende que el estadistico toma un valor de estadístico de 2.233 y su p-valor es de 0.135, por lo tanto, se podría concluir que los resultados del modelo de regresión son más confiables cuando se usan los estimadores OLS.
El test de Sargan Evalúa la hipótesis nula de que los instrumentos son exógenos, es decir, que no están correlacionados con el término de error del modelo. En este modelo de semanas trabajadas, el valor del estadístico es 1.503 y el p-value es 0.220, no se rechaza la hipotesis nula, lo que sugiere que los instrumentos son exógenos y el modelo IV1 es válido. De otra forma, para entender el modelo de ingresos se sabe que el valor estadístico es 1.327 y su p-valor es 0.249 por lo que también sus instrumentos son exógenos y el IV2 es valido.
En conclusión, los resultados de los diagnósticos indican que los instrumentos utilizados son fuertes, la regresión de dos etapas es consistente y los instrumentos son exógenos, lo que sugiere que los modelos ajustados son válidos.
# Tabla de resultados
stargazer(OLS1, IV1,
header = FALSE,
type = "text",
covariate.labels = c("Morekids (Más de dos hijos=1)", "Edad", "Edad2", "Años de Escolaridad",
"afroamericano (=1)", "Hispano (=1)", "Blanco (=1)", "Constante"),
digits = 4,
out.header = T,
model.names = F,
column.labels = c("OLS1", "IV1"),
dep.var.labels.include = FALSE,
dep.var.caption = "Y: Semanas trabajadas por la madre en 1989",
omit.stat = c("f", "ser"))
##
## =========================================================================
## Y: Semanas trabajadas por la madre en 1989
## -------------------------------------------
## OLS1 IV1
## (1) (2)
## -------------------------------------------------------------------------
## Morekids (Más de dos hijos=1) -8.5173*** -5.9531***
## (0.0671) (1.1907)
##
## Edad 3.3048*** 3.7078***
## (0.0953) (0.1463)
##
## Edad2 -0.0455***
## (0.0017)
##
## Años de Escolaridad -0.0487***
## (0.0024)
##
## afroamericano (=1) 1.3178*** 1.1958***
## (0.0126) (0.0430)
##
## Hispano (=1) 4.0439*** 3.4680***
## (0.1245) (0.1682)
##
## Blanco (=1) 0.5957 -0.2588
## (0.5764) (0.6936)
##
## Constante 2.1410*** 1.2812***
## (0.1013) (0.1419)
##
## Constant -42.9374*** -52.5325***
## (1.3448) (1.9167)
##
## -------------------------------------------------------------------------
## Observations 646,871 428,932
## R2 0.0683 0.0647
## Adjusted R2 0.0683 0.0647
## =========================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
De esta forma haciendo una comparación entre las variables dadas en la regresión con las variables instrumentales, se puede evidenciar que el modelo por minimos cuadrados ordinarios esta sobreparametrizado y que tiene grandes cesgos de información que el nuevo modelo es capaz de medir de mejor manera. Se logra pues evidenciar que las variables tomadas fueron de gran importancia para dar mejor explicación a las semanas trabajadas por las mujeres.
# Tabla de resultados
stargazer(OLS2, IV2,
header = FALSE,
type = "text",
covariate.labels = c("Morekids (Más de dos hijos=1)", "Edad", "Edad2", "Años de Escolaridad",
"afroamericano (=1)", "Hispano (=1)", "Blanco (=1)", "Constante"),
digits = 4,
out.header = T,
model.names = F,
column.labels = c("OLS", "IV1"),
dep.var.labels.include = FALSE,
dep.var.caption = "Y: Ingreso del trabajo de las madres en 1989",
omit.stat = c("f", "ser"))
##
## ===========================================================================
## Y: Ingreso del trabajo de las madres en 1989
## ---------------------------------------------
## OLS IV1
## (1) (2)
## ---------------------------------------------------------------------------
## Morekids (Más de dos hijos=1) -3,599.6970*** -1,827.6780***
## (31.3569) (528.3594)
##
## Edad 874.8224*** 506.1670***
## (44.5397) (64.9228)
##
## Edad2 -8.3373***
## (0.7771)
##
## Años de Escolaridad -2.2457**
## (1.0555)
##
## afroamericano (=1) 1,084.1010*** 937.8859***
## (5.8964) (19.0953)
##
## Hispano (=1) 545.6710*** 327.2405***
## (58.2205) (74.6262)
##
## Blanco (=1) 1,139.8570*** 789.1194**
## (269.4691) (307.7702)
##
## Constante -898.3978*** -1,225.3620***
## (47.3435) (62.9882)
##
## Constant -19,964.4200*** -14,007.7100***
## (628.6585) (850.5675)
##
## ---------------------------------------------------------------------------
## Observations 646,871 428,932
## R2 0.1085 0.0903
## Adjusted R2 0.1085 0.0903
## ===========================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
De esta misma forma, haciendo la comparación con los modelos planteados para el comprender como estimar el ingreso del trabajo de la madre se puede observar que el modelo por minimos cuadrados ordinarios esta sobreparametrizado y que tiene grandes cesgos de información que el nuevo modelo es capaz de medir de mejor manera.
En resumen, las razones por las cuales las madres de diferentes etnias presentan en general mayores ingresos que las madres blancas se debe a que estas trabajan más ya que son más propensas a no tener otros tipos de apoyo económico, como los ingresos de un padre o un subsidio del gobierno. Este comportamiento está influenciado por fuertes factores sociales, económicos y culturales que han afectado históricamente a las comunidades negras e hispánicas. Esto en terminos economicos evidencia que las mujeres tiene una gran exposicion a dejar el mercado laboral cuando hay presencia de hijos, esto puede ser debido a que la carga del hogar afecta principalmente a las mujeres mientras que el hombre siempre ha tenido el rol del trabajo. Es necesario pensar en el potencial de productividad que tiene la mujer en el sector del trabajo para impulsar de mejor manera las economías y como puede ser utilizado optimamente si la carga impositiva de los hijos fuera distribuido de manera más equitativa con los hombres.