library(tinytex); library(knitr)

Resumen de (Angrist & Evans, 1998)

En su artículo publicado en 1998 “Children and Their Parents’ Labor Supply: Evidence from Exogenous Variation in Family Size”, (Angrist & Evans, 1998) pretenden identificar y comprender la relación entre la fertilidad y la oferta de trabajo. Su motivación parte del aparente aumento en la participación de la mujer en el mercado laboral post-guerra y del interrogante acerca de si tener menos hijos provoca un aumento en la vinculación a la fuerza laboral. Adicionalmente, Angrist y Evans se interesan en el efecto que retirarse del mercado laboral tiene sobre el desarrollo profesional y los salarios de las mujeres.

En cuanto a los datos y estadísticas descriptivas, los autores hacen uso de una estrategia de estimación en el que se implementan seis variables que utilizan información sobre la oferta laboral, el sexo de los dos primeros hijos de la madre, y un indicador de nacimientos múltiples encontrado en el Census Public Use Micro Samples (PUMS) – (En español: Censo de Micromuestras de Uso Público).

En los Anexos 1 y 2 se resumen dos estadísticas descriptivas: la media y la desviación estándar. Se sacaron ambas tendencias para variables como la cantidad promedio de hijos, las probabilidades de los sexos de los dos primeros hijos y la edad, las horas y semanas trabajadas y los ingresos de los padres. Algunos datos relevantes serían que para 1980 las mujeres tenían a su primer hijo en promedio a los 20.1 años con una desviación estándar de 2.9, y que esta cifra aumentó 1.7 años para el censo de 1990 pero continuó con una desviación constante. Otro dato significativo es el aumento en 5.4 semanas del total de semanas trabajadas de todas las mujeres y el incremento en un 33.3% en los ingresos laborales de todas las mujeres en el período de 10 años. Finalmente, es interesante notar que el ingreso familiar sin contar los ingresos de las mujeres casadas, disminuyó USD(1995) $2055 lo cual indicaría que hubo un aumento en la contribución de las mujeres a los ingresos familiares que a su vez indicaría un incremento en la vinculación a la fuerza laboral de este género. Cabe mencionar de igual manera que no sólo se tomaron las variables anteriormente mencionadas sino que también se tuvo en cuenta la raza (negro, blanco, hispano, otras) y los años de educación.

En lo que respecta a los modelos econométricos utilizados en el artículo, aplican una prueba de Wald, un modelo de Mínimos Cuadrados en 2 Etapas (MC2E) y Mínimos Cuadrados Ordinarios (MCO). Por un lado, la estimación por Wald, también conocida como prueba Chi-Cuadrado de Wald, es una medida estadística normalmente utilizada para confirmar si un grupo de variables independientes son colectivamente significativas para un modelo. Así pues, en este caso los autores deciden utilizar el test de Wald para ilustrar cómo la estrategia por IV identifica el efecto de la fertilidad en la oferta de trabajo de los padres. De esta manera, se planteó el modelo de regresión lineal bivariado:

\[\begin{array} yy_{i} = \alpha + \beta x_{i} + \epsilon_{i} \end{array}\]

En el cual \(y_{i}\) es la medida de la oferta de trabajo y \(x_{i}\) es la medida endógena de la variable de interés de la fertilidad. Asimismo, (Angrist & Evans, 1998) denotan como instrumento binario la variable Same sex, que quiere decir que los primeros dos hijos tienen el mismo sexo. El estimador IV de \(\beta\) en esta ecuación es:

\[\begin{array} \beta_{} \beta_{IV} = (\bar{y_{1}} - \bar{y_{0}}) / (\bar{x_{1}} - \bar{x_{0}}) \end{array}\]

Donde \(\bar{y_{1}}\) es la media de y parra aquellas observaciones en las que \(z_{i} = 1\). Es importante resaltar que el numerador y el denominador cumplen la función de capturar la forma reducida de los efectos de las relaciones entre \(y_{i}\) y \(z_{i}\) y entre \(x_{i}\) y \(z_{i}\). Con los resultados de esta prueba se decide tomar la variable Más de 2 hijos como el regresor endógeno.

Por otro lado, los autores argumentan que los motivos para usar el modelo de MC2E son para controlar:

       1. Las covariables exógenas para intentar obtener estimaciones más precisas si los efectos del modelo son más o menos constantes entre los grupos

       2. Cualquier posible efecto aditivo del sexo del primer hijo cuando se usa la variables Same sex como instrumento

En este caso se plantea el instrumento Same sex de la siguiente manera:

\[\begin{array} ssame sex = s_{1}s_{2} + (1-s_{1})(1-s_{2}) \end{array}\]

Donde \(s_{1}s_{2}\) indica dos hijos y \([(1-s_{1})(1-s_{2})]\) indica dos hijas. En este caso, dado que el instrumento sería igual a dos hijos y/o dos hijas se podría enfrentar un error del instrumento por sobre-identificación del estadístico para MC2E.

Ahora bien, los autores plantean el siguiente modelo de regresión para relacionar la oferta laboras de esposos y esposas a la variable endógena de Más de 2 hijos, a \(x_{i}\) y a la lista de covariables exógenas, incluyendo los efectos aditivos del sexo de cada hijo:

\[\begin{array} Yy_{i} = \alpha_{0}’ W_{i} + \alpha_{i}s_{1i} + \beta_{i}x_{i} + \epsilon_{i} \end{array}\]

De esta manera, la relación de primera etapa entre \(x_{i}\) y la mezcla de sexos en los primeros dos hijos es:

\[\begin{array} xx_{i} = \pi_{0}’ W_{i} + \pi_{1}s_{1i} + \gamma_{0}(Two boys_{i}) + \gamma_{1}(Two girls_{i}) + \eta_{i} \end{array}\]

Ecuación en la cual \(w_{i}\) es un vector de variables demográficas (vector limitado a variables exógenas con respecto a la fertilidad como la edad actual de la madre, la edad de la madre durante el primer parto, la raza e indicadores de Hispanos) y \(s_{1i}\) y \(s_{2i}\) son indicadores del sexo de los primeros dos hijos de la madre \(i\)

Con este modelo se encuentran resultados como los siguientes:

En lo que concierne a las conclusiones, al comienzo del artículo los autores mencionan que en la literatura y en las investigaciones empíricas existentes parecía haber una relación negativa entre la fertilidad y la oferta de trabajo femenino; a través de las estimaciones por IV y por MC2E sobre los efectos de la composición sexual de los hermanos, (Angrist & Evans, 1998) logran confirmar que las estimaciones de MCO acerca de que los hijos influyen en la reducción de oferta de trabajo femenino existe. Lo anterior no resulta tan sorprendente ni tan inesperado como el hecho de que le fertilidad parece tener un efecto muchísimo menor y casi invisible en mujeres con estudios universitarios y en mujeres casadas con hombres de altos salarios; esto va en mano con que es más probable que mujeres más pobres y menos educadas enfrenten mayores dificultades para entrar o volver al mercado laboral en caso de tener hijos.

Finalmente, es notorio que la fertilidad y los cambios en el tamaño de las familias no parecen afectar el comportamiento de los hombres casados en la fuerza laboral, lo cual indicaría que ante un aumento en la cantidad de hijos, las familias asumen los costos de cuidado a través de una disminución en el ingreso de las esposas o por medio de la adquisición de servicios de cuidado para niños llevados a cabo por terceros. Dado el caso de que el esposo sí añada tiempo o contribuya al cuidado de los infantes, lo hará a la expensa de su tiempo de ocio, es decir, sin sacrificar horas de trabajo o esfuerzo laboral.


Anexos

Anexo 1: Media y (desviación estándar) de la PUMS de 1980


Variables All women Wives Husbands
More than 2 children ( = 1 if mother had more than 2 children, =0 otherwise) 0.402 (0.490) 0.381 (0.486)
Boy 1st (s1) (=1 if first child was a boy) 0.511 (0.500) 0.514 (0.500)
Boy 2nd (s2) (=1 if second child was a boy) 0.511 (0.500) 0.513 (0.500)
Two boys (=1 if first two children were boys) 0.264 (0.441) 0.266 (0.442)
Two girls (=1 if first two children were girls) 0.242(0.428) 0.239 (0.427)
Same sex (=1 if first two children were the same sex) 0.506 (0.500) 0.506 (0.500)
Twins-2 (=2 if second birth was a twin) 0.0085(0.0920) 0.0083 (0.0908)
Age 30.1 (3.5) 30.4 (3.4) 33.0 (4.6)
Age at first birth (parent’s age in years when first child was born) 20.1 (2.9) 20.8 (2.9) 24.0 (4.0)
Worked for pay (=1 if worked for pay in year prior to census) 0.565 (0.496) 0.528 (0.499) 0.977 (0.150)
Weeks worked (weeks worked in year prior to census) 20.8 (22.3) 19.0 (21.9) 48.0 (10.5)
Hours/weeks (average hours worked per week) 18.8 (18.9) 16.7 (18.3) 43.5 (12.3)
Labor income (labor earnings in year prior to census, in 1995 dollars) 7 160 (10 804) 6 250 (10 211) 38 919 (25 014)
Family income (family income in year prior to census, in 1995 dollars) 42 342 (26 563) 47 646 (25 821)
Non-wife income (family income minus wife’s labor income, in 1995 dollars) 41 635 (24 734)
Number of observations 394 835 254 654 254 654

Anexo 2: Media y (desviación estándar) de la PUMS de 1990

Variables All women Wives Husbands
More than 2 children ( = 1 if mother had more than 2 children, =0 otherwise) 0.375 (0.484) 0.367 (0.482)
Boy 1st (s1) (=1 if first child was a boy) 0.512 (0.500) 0.514 (0.500)
Boy 2nd (s2) (=1 if second child was a boy) 0.511 (0.500) 0.512 (0.500)
Two boys (=1 if first two children were boys) 0.264 (0.441) 0.265 (0.441)
Two girls (=1 if first two children were girls) 0.241(0.428) 0.239 (0.426)
Same sex (=1 if first two children were the same sex) 0.505 (0.500) 0.503 (0.500)
Twins-2 (=2 if second birth was a twin) 0.0012(0.108) 0.011 (0.105)
Age 30.4 (3.5) 30.7 (3.3) 33.4 (4.8)
Age at first birth (parent’s age in years when first child was born) 21.8 (3.5) 22.4 (3.5) 25.1 (4.7)
Worked for pay (=1 if worked for pay in year prior to census) 0.662 (0.473) 0.667 (0.471) 0.986 (0.175)
Weeks worked (weeks worked in year prior to census) 26.2 (22.9) 26.4 (22.9) 47.1 (12.0)
Hours/weeks (average hours worked per week) 22.5 (19.9) 22.2 (18.9) 44.0 (13.3)
Labor income (labor earnings in year prior to census, in 1995 dollars) 9 550 (13 071) 9 616 (13 238) 36 623 (30 283)
Family income (family income in year prior to census, in 1995 dollars) 42 558 (34 692) 49 196 (34 740)
Non-wife income (family income minus wife’s labor income, in 1995 dollars) 39 580 (31 892)
Number of observations 380 007 301 588 301 588

Aplicación del modelo

Regresión MCO

Teniendo en cuenta las ideas planteadas por Evans y Angrist en su paper, se pretende usar la base de datos del censo de Estados Unidos para 1990, para entender como funciona el mercado laboral para las mujeres con respecto a la fertilidad, esto es de interés ya que ayudará a crear bases para poder de resolver la incognita: ¿Cómo la fertilidad afecta la oferta laboral?

library(haven); library(dplyr); library(cragg); library(AER); library(tidyverse)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Loading required package: car
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
## Loading required package: lmtest
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.0     ✔ purrr   1.0.1
## ✔ tibble  3.1.8     ✔ stringr 1.5.0
## ✔ tidyr   1.3.0     ✔ forcats 0.5.2
## ✔ readr   2.1.3     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ✖ car::recode()   masks dplyr::recode()
## ✖ purrr::some()   masks car::some()
library(Hmisc); library(readxl); library(forecast);library(lmtest); library(sandwich); library(orcutt)
## Loading required package: lattice
## Loading required package: Formula
## 
## Attaching package: 'Hmisc'
## 
## The following objects are masked from 'package:dplyr':
## 
##     src, summarize
## 
## The following objects are masked from 'package:base':
## 
##     format.pval, units
## 
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(googlesheets4); library(dplyr);library(tidytext); library(urca); library(tseries); library(ggplot2)
library(patchwork); library(nortest); library(tinytex); library(dynlm) ; library(AER);library(xts)
## 
## Attaching package: 'xts'
## 
## The following objects are masked from 'package:dplyr':
## 
##     first, last
library(ecm); library(openxlsx) ;library(dLagM); library(dplyr); library(stargazer); library(summarytools)
## Loading required package: nardl
## 
## Attaching package: 'dLagM'
## 
## The following object is masked from 'package:forecast':
## 
##     forecast
## 
## 
## Please cite as: 
## 
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer 
## 
## 
## Attaching package: 'summarytools'
## 
## The following objects are masked from 'package:Hmisc':
## 
##     label, label<-
## 
## The following object is masked from 'package:tibble':
## 
##     view

Para empezar con el análisis se realizará una filtración de los datos y se tomará en cuenta en el estudio unicamente a las mujeres de 35 años o menos, esto debido a que en este rango de edad es donde se presenta la mayor fertilidad por parte de este género. Así mismo, para comprender nuestro modelo, se crea la variable “morekids” la cual es una dummy que muestra: “1” si la madre tiene más de dos hijos o “0” si tienes 2 o menos hijos.

Importación de datos y Filtrado

# Se suben los datos dados en stata
fertility <- read_dta("fertility.dta")

# Se filtran para las mujeres con una edad menor a 35 años
fertility<- filter(fertility, agem>=0 & agem<=35)

Construcción de variables

fertility <- mutate(fertility, age2 = agem*agem,
                    morekids = case_when(kidcount >= 0 & kidcount <= 2 ~ 0,
                                         kidcount > 2 ~ 1),
                    afro= case_when(racem == 2  ~ 1,
                                    TRUE ~ 0),
                    hispa= case_when(racem ==12 ~ 1,
                                     TRUE ~ 0),
                    blanco= case_when(racem ==1 ~ 1,
                                      TRUE ~ 0 ),
                    boys2 = case_when(sexk == 0  & sex2ndk== 0 ~ 1,
                                      sexk == 1  & sex2ndk== 0 ~ 0,
                                      sexk == 0  & sex2ndk== 1 ~ 0,
                                      sexk == 1  & sex2ndk== 1 ~ 0),
                    girls2 = case_when(sexk == 1  & sex2ndk ==1 ~ 1,
                                       sexk == 1  & sex2ndk== 0 ~ 0,
                                       sexk == 0  & sex2ndk== 1 ~ 0,
                                       sexk == 0  & sex2ndk== 0 ~ 0))

View(fertility)
attach(fertility)

Mínimos Cuadrados Ordinarios (week89m)

Habiendo determinado la base de datos y creado una variable importante que define la fertilidad en este modelo, primero se pretende entender como las diferentes variables dadas afectan las semanas trabajadas por la madre en 1989, es por esto que se hará una regresión por minimos cuadrados ordinarios en el que relaciona la oferta laboral con morekids, la edad y su cuadrado, años de educación, y variables binarias para raza afroamericana, hispana y blancos.

OLS1 <- lm(week89m ~ morekids + agem + I(age2) + yearschm + afro + hispa + blanco, data = fertility)
summary(OLS1)
## 
## Call:
## lm(formula = week89m ~ morekids + agem + I(age2) + yearschm + 
##     afro + hispa + blanco, data = fertility)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -43.468 -22.234   4.923  19.848  51.442 
## 
## Coefficients:
##               Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) -42.937421   1.344823  -31.928   <2e-16 ***
## morekids     -8.517307   0.067078 -126.975   <2e-16 ***
## agem          3.304818   0.095279   34.686   <2e-16 ***
## I(age2)      -0.045477   0.001662  -27.358   <2e-16 ***
## yearschm      1.317822   0.012614  104.476   <2e-16 ***
## afro          4.043918   0.124545   32.470   <2e-16 ***
## hispa         0.595725   0.576447    1.033    0.301    
## blanco        2.140987   0.101277   21.140   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.87 on 646863 degrees of freedom
## Multiple R-squared:  0.06833,    Adjusted R-squared:  0.06832 
## F-statistic:  6777 on 7 and 646863 DF,  p-value: < 2.2e-16

Teniendo los resultados de la regresión podemos hacer algunas inferencias economicas del modelo:

El intercepto tiene un valor de -42.93, lo que significa que, en promedio se espera que una mujer trabaje 42.93 semanas menos. Así mismo, se puede decir que si la madre tiene más de dos hijos, su semanas trabajadas disminuye en 8.51 semanas a si tuviera menos de dos hijos. De esta misma manera, se presenta que a un año más de vida de la madre genera que sus semanas trabajadas aumente en 0.045 semanas, sin embargo, mirando la variable al cuadrado, indica que un año más de vida en la mujer disminuye sus semanas trabajadas en 0.0454 semanas, es decir, el efecto de la edad en las semanas trabajadas es mayor en las edades más jóvenes que en las edades más avanzadas. También es importante saber que para una madre que tiene diez años más de escolaridad puede llegar a trabajar 13.17 semanas más y teniendo en cuenta la raza de la madre habrá diferentes repercuciones, por un lado, si una mujer es afroamericana tiende a trabajar 4.043918 semanas más que siendo de cualquier otra raza. Por otra parte, si la mujer es hispana puede trabajar la mitad de una semana más (0.59) que teniendo cualquier otra etnia. Sin embargo, una mujer blanca trabaja 2.14 semanas más que teniendo cualquier otra raza.

Así mismo, la regresión muestra que las variables propuestas describen tan solo un 6.83% de las semanas trabajadas por mujeres, sin embargo, los p-valores de todos los factores demuestran que la mayoria de variables son relevantes en el modelo. Esta incongruencia entre los resultados es una buena medida para determinar que en el modelo hay variables que presentan endogeneidad, esto puede ser dado porque hay omisión de variables relevantes, es decir, que en el modelo se están dejando pasar variables que describen de mejor manera las semanas trabajadas de las mujeres.

Después de entender como las semanas trabajadas por la madres son afectadas por ciertas variables, ahora se pretende comprender cómo las diversas variables proporcionadas influyen en el ingreso por el trabajo de las madres en 1989. Para lograr este propósito, se llevará a cabo otra regresión mediante el método de mínimos cuadrados ordinarios, que relacionará la oferta laboral con las variables de propuestas previamente.

Minimos Cuadrados Ordinarios (incomem1)

OLS2 <- lm(incomem1 ~ morekids + agem + I(age2) + yearschm + afro + hispa + blanco, data = fertility)
summary(OLS2)
## 
## Call:
## lm(formula = incomem1 ~ morekids + agem + I(age2) + yearschm + 
##     afro + hispa + blanco, data = fertility)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -19416  -7072  -2089   5281 195172 
## 
## Coefficients:
##               Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) -1.996e+04  6.287e+02  -31.757  < 2e-16 ***
## morekids    -3.600e+03  3.136e+01 -114.798  < 2e-16 ***
## agem         8.748e+02  4.454e+01   19.641  < 2e-16 ***
## I(age2)     -8.337e+00  7.771e-01  -10.729  < 2e-16 ***
## yearschm     1.084e+03  5.896e+00  183.857  < 2e-16 ***
## afro         5.457e+02  5.822e+01    9.372  < 2e-16 ***
## hispa        1.140e+03  2.695e+02    4.230 2.34e-05 ***
## blanco      -8.984e+02  4.734e+01  -18.976  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10220 on 646863 degrees of freedom
## Multiple R-squared:  0.1085, Adjusted R-squared:  0.1085 
## F-statistic: 1.125e+04 on 7 and 646863 DF,  p-value: < 2.2e-16

El intercepto en este caso toma un valor de -19.960, lo que significa que, en promedio se espera que una mujer gane 19.960 dolares menos. De esta manera, se puede decir que si la madre tiene más de dos hijos, su ingreso laborado se reduce en 3.600 dólares a si tuviera menos de dos hijos. También, se presenta que a un año más de vida de la madre genera que su ingreso por trabajar aumente 874.8 dólares, no obstante, mirando la variable al cuadrado, nos indica que un año más de vida en la mujer disminuye su ingreso en 0.08337 dolares. Es así que es importante saber que para una madre que tiene un años más de escolaridad puede llegar a ganar 1.084 dolares más y teniendo en cuenta la raza de la madre habrá diferentes repercuciones, por un lado, si una mujer es afroamericana tiende a ganar 545.7 dolares más que siendo de cualquier otra raza. Por otra parte, si la mujer es hispana puede tener una remuneracion economica de 1.140 dolares más que tenindo cualquier otra etnia. Sin embargo, una mujer blanca ganaría 898.4 dolares menos que teniendo cualquier otra raza.

Hay varias razones por las cuales las madres negras o hispanas podrían ganar más que las madres blancas. Por ejemplo, existen diferencias en la estructura familiar, las madres negras son más propensas a ser madres solteras y a tener que depender exclusivamente de sus ingresos para mantener a sus hijos. Esto hace que las mismas trabajen más horas para ganar suficiente dinero para mantener a sus hijos. A diferencia de las madres blancas, que pueden ser más propensas a dejar el trabajo o trabajar a tiempo parcial gracias al posible apoyo de un hombre que les permita dedicarse a la maternidad. También se deben tener en cuenta los programas de apoyo, ya que las madres negras pueden tener menos acceso a programas de apoyo gubernamentales y organizaciones benéficas que las madres blancas.

Así mismo, la regresión muestra que las variables propuestas describen tan solo un 10.85% del ingreso por mujeres, no obstante, los p-valores de todos los factores demuestran que la mayoria de variables son relevantes en el modelo. Este incongruencia entre los resultados es una buena medida para determinar que en este modelo también hay presencia de endogeneidad.

Variables Instrumentales

Es pues que se puede evidenciar que hay problemas de endógenidad en el modelo y por ende los autores del artículo sugieren usar variables boys2 y girls2 como variables instrumentales que ayuden a mejorar el problema de endogeneidad que se presenta.

Estadística descriptiva

Variable Instrumental: Boys2

freq(boys2)
## Frequencies  
## boys2  
## Type: Numeric  
## 
##                 Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- -------- --------- -------------- --------- --------------
##           0   315693     73.60          73.60     48.80          48.80
##           1   113239     26.40         100.00     17.51          66.31
##        <NA>   217939                              33.69         100.00
##       Total   646871    100.00         100.00    100.00         100.00

El resultado de la función freq(boys2) indica la frecuencia absoluta y relativa de los valores presentes en la variable binaria boys2, la cual representa si una madre menor de 35 años tuvo sus primeros dos hijos varones (valor 1) o no (valor 0), o si no se dispone de información (La madre tiene menos de 2 hijos).

En este caso, se observa que la variable boys2 tiene 646,871 observaciones en total, de las cuales el 48.80% (315,693) corresponden a madres que no tuvieron dos hijos varones, el 17.51% (113,239) corresponden a madres que sí tuvieron dos hijos varones, y el 33.69% (217,939) corresponden a casos en los que no se dispone de información.

Además, el resultado también muestra las frecuencias acumuladas relativas, que indican el porcentaje acumulado de observaciones válidas (es decir, excluyendo los valores ) hasta cada valor presente en la variable. En este caso, el 73.60% de las observaciones válidas corresponden a madres que no tuvieron dos hijos varones, mientras que el 26.40% corresponden a madres que sí los tuvieron.

En terminos generales, la variable binaria boys2 puede estar relacionada con la toma de decisiones reproductivas de las madres menores de 35 años. Por ejemplo, si se observa que un porcentaje significativo de madres tienen dos hijos varones, podría ser una señal de que estas madres tienen una preferencia por tener hijos varones o que existe una presión social o cultural en la comunidad que valora más a los hijos varones que a las hijas mujeres.

Entonces estos resultados podrían tener implicaciones económicas en términos de la composición de la fuerza laboral en el futuro. Por ejemplo, si hay una preferencia por tener hijos varones, esto podría resultar en una proporción desequilibrada de hombres y mujeres en la fuerza laboral, lo que podría afectar la oferta y la demanda de trabajo y los salarios. También podría haber implicaciones en términos de la educación y la salud de las mujeres, si la inversión en el desarrollo de habilidades y el acceso a la atención médica se prioriza en los hijos varones en lugar de las hijas mujeres.

Variable Instrumental: Girls2

freq(girls2)
## Frequencies  
## girls2  
## Type: Numeric  
## 
##                 Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- -------- --------- -------------- --------- --------------
##           0   325985     76.00          76.00     50.39          50.39
##           1   102947     24.00         100.00     15.91          66.31
##        <NA>   217939                              33.69         100.00
##       Total   646871    100.00         100.00    100.00         100.00

El resultado de la función freq(girls2) indica la frecuencia absoluta y relativa de los valores presentes en la variable binaria girls2, la cual representa si una madre menor de 35 años tuvo sus primeras dos hijas mujeres (valor 1) o no (valor 0), o si no se dispone de información (La madre tiene menos de 2 hijos).

El resultado permite observar que el 50.39% de las madres encuestadas no tuvieron dos hijas seguidas, mientras que el 15.91% tuvo dos hijas mujeres consecutivas y el 33,69% corresponden a casos en los que no se dispone de información.

Además, el resultado también muestra las frecuencias acumuladas relativas, que indican el porcentaje acumulado de observaciones válidas (es decir, excluyendo los valores ) hasta cada valor presente en la variable. En este caso, el 76% de las observaciones válidas corresponden a madres que no tuvieron dos hijas mujeres, mientras que el 24% corresponden a madres que sí las tuvieron.

este resultado podría tener implicaciones en la toma de decisiones de las familias en cuanto a la planificación familiar y la inversión en la educación y el bienestar de los hijos. Por ejemplo, si una familia tiene dos hijas y desea tener un hijo varón, podría estar más motivada para hacer inversiones en tecnologías de reproducción asistida o tratamientos médicos que les ayuden a tener un hijo varón. Esto podría tener implicaciones en los costos de salud y las decisiones de gasto de la familia.

Además, si existe una preferencia cultural por los hijos varones, el resultado de la frecuencia podría reflejar una presión sobre las madres para que tengan hijos varones y, por lo tanto, tener dos hijas seguidas podría ser visto como un “fracaso”. Esto podría tener implicaciones en la dinámica familiar y en la inversión en la educación y el bienestar de las hijas.

En resumen, los resultados de estas frecuencias podría explicar implicaciones económicas en la toma de decisiones de las familias en cuanto a la planificación familiar, los costos de salud, las decisiones de gasto y la dinámica familiar. Además, podría reflejar preferencias culturales por los hijos varones y sus consecuencias económicas.

¿Por qué Boys2 y Girls2 son buenas variables instrumentales?

Por medio de la intuición economica, se puede determinar que las variables Boys2 y girls2, pueden ser buenos instrumentos para medir adecuadamente el efecto causal de la fertilidad sobre la oferta laboral porque son variables exógenas que están relacionadas con la fertilidad pero no directamente relacionadas con la oferta laboral. En otras palabras, los hijos e hijas de una pareja son una consecuencia directa de la fertilidad de la pareja, pero su género no está directamente relacionado con la oferta laboral de los padres, es por esto que si se utilizan los géneros de los hijos (boys2 y girls2) como variables instrumentales, se puede controlar aún más la posibilidad de que exista una correlación entre la fertilidad y la oferta laboral.

Estimación por 2SLS

Ahora que se conoce la razón por la que las variables boys2 y girls2 son buenas variables instrumentales, se pretende volver a estimar el modelo pero teniendo en cuenta las variables determinadas para reducir los efectos de endogeneidad en el modelo.

IV1 <- ivreg(week89m ~ morekids + agem + age2 + yearschm + afro + hispa + blanco |
agem + age2 + yearschm + afro + hispa + blanco + boys2 + girls2, data=fertility)

summary(IV1)
## 
## Call:
## ivreg(formula = week89m ~ morekids + agem + age2 + yearschm + 
##     afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + 
##     blanco + boys2 + girls2, data = fertility)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -41.422 -22.170   1.119  21.485  51.272 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -52.532489   1.916748 -27.407  < 2e-16 ***
## morekids     -5.953096   1.190654  -5.000 5.74e-07 ***
## agem          3.707839   0.146303  25.344  < 2e-16 ***
## age2         -0.048666   0.002379 -20.460  < 2e-16 ***
## yearschm      1.195794   0.043031  27.789  < 2e-16 ***
## afro          3.467964   0.168170  20.622  < 2e-16 ***
## hispa        -0.258773   0.693558  -0.373    0.709    
## blanco        1.281151   0.141943   9.026  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22.04 on 428924 degrees of freedom
## Multiple R-Squared: 0.06471, Adjusted R-squared: 0.0647 
## Wald test:  3119 on 7 and 428924 DF,  p-value: < 2.2e-16

Ya teniendo los resultados dados por la regresión teniendo en cuenta las variables instrumentales, se puede hacer intuición economica para el modelo con la minimización de la endogeneidad. Es así que tenemos que, en promedio, una mujer trabaja 52.53 semanas menos que un hombre y que si la madre tiene más de dos hijos sus semanas trabajadas disminuyen 5.95 semanas a que si tuviera menos de dos hijos, se puede analizar que por un año más de vida de la madre las semanas trabajadas aumenta 3.70 semanas, no obstante, un año más al cuadrado de la mujer disminuye las semanas trabajadas en 0.0486 semanas. Ahora enfocandonos en las caracteristicas de la madre, se puede decir que a un año más de escolaridad aumenta más de una semana trabajada (1.19 semanas), sin embargo, la proveniencia racial de la madre es determinante, por un lado, si la madre es afroamericana, trabajara 3.46 semanas más siendo de otra raza, por otro lado, una mujer hispana trabaja 0.25 semanas menos que siendo de cualquier lugar, por último, una mujer blanca, trabaja 1.28 semanas más que cualquier otra mujer.

IV2 <- ivreg(incomem1 ~ morekids + agem + age2 + yearschm + afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + blanco +boys2 + girls2,data=fertility)

summary(IV2)
## 
## Call:
## ivreg(formula = incomem1 ~ morekids + agem + age2 + yearschm + 
##     afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + 
##     blanco + boys2 + girls2, data = fertility)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -17228  -6617  -2617   4783 194203 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -14007.706    850.567 -16.469  < 2e-16 ***
## morekids     -1827.678    528.359  -3.459 0.000542 ***
## agem           506.167     64.923   7.796 6.38e-15 ***
## age2            -2.246      1.056  -2.128 0.033371 *  
## yearschm       937.886     19.095  49.116  < 2e-16 ***
## afro           327.240     74.626   4.385 1.16e-05 ***
## hispa          789.119    307.770   2.564 0.010348 *  
## blanco       -1225.362     62.988 -19.454  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9780 on 428924 degrees of freedom
## Multiple R-Squared: 0.0903,  Adjusted R-squared: 0.09028 
## Wald test:  5230 on 7 and 428924 DF,  p-value: < 2.2e-16

Ahora se puede entender como funciona el mercado laboral de las madres enfocado en cuanto ganan teniendo en cuenta las variables instrumentales. Se puede decir que en promedio, una mujer gana en el trabajo 14007.7 dolares menos y se puede saber que si la madre tiene más de dos hijos su ingreso disminuye en 1827.6 dolares a que si tuviera menos de dos hijos, se puede analizar que por un año más de vida de la madre su ingreso aumenta 506.16 dolares, no obstante, un año más al cuadrado de la mujer disminuye lo que ganara en 2.24 dolares. Ahora enfocandonos en las caracteristicas de la madre, se puede decir que a un año más de escolaridad aumenta en 937.886 dolares recibidos, sin embargo, la proveniencia racial de la madre es determinante, por un lado, si la madre es afroamericana, ganara 327.240 dolares más siendo de otra raza, por otro lado, una mujer hispana reciira 789.119 dolares más que siendo de cualquier lugar, por último, una mujer blanca, tendrá un ingreso de 1225.3 menos que cualquier otra mujer.

fstage <- lm(morekids ~ agem + age2 + yearschm + afro + hispa + blanco + boys2 + girls2, data=fertility)
summary(fstage)
## 
## Call:
## lm(formula = morekids ~ agem + age2 + yearschm + afro + hispa + 
##     blanco + boys2 + girls2, data = fertility)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.8542 -0.3513 -0.2580  0.5752  1.0873 
## 
## Coefficients:
##               Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) -0.3583680  0.0393312   -9.112   <2e-16 ***
## agem         0.0552256  0.0027392   20.161   <2e-16 ***
## age2        -0.0006559  0.0000471  -13.927   <2e-16 ***
## yearschm    -0.0337974  0.0003199 -105.663   <2e-16 ***
## afro         0.0565790  0.0032258   17.540   <2e-16 ***
## hispa       -0.0020522  0.0145412   -0.141    0.888    
## blanco      -0.0586122  0.0025937  -22.598   <2e-16 ***
## boys2        0.0525599  0.0016998   30.922   <2e-16 ***
## girls2       0.0603268  0.0017544   34.387   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4621 on 428923 degrees of freedom
##   (217939 observations deleted due to missingness)
## Multiple R-squared:  0.04612,    Adjusted R-squared:  0.04611 
## F-statistic:  2593 on 8 and 428923 DF,  p-value: < 2.2e-16
linearHypothesis(fstage, 
                 c("boys2 = 0", " girls2= 0"))
## Linear hypothesis test
## 
## Hypothesis:
## boys2 = 0
## girls2 = 0
## 
## Model 1: restricted model
## Model 2: morekids ~ agem + age2 + yearschm + afro + hispa + blanco + boys2 + 
##     girls2
## 
##   Res.Df   RSS Df Sum of Sq      F    Pr(>F)    
## 1 428925 91924                                  
## 2 428923 91581  2    342.62 802.33 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para saber si los instrumentos obtenidos son realmente determinantes en el control de la endogeneidad del modelo, se realiza para empezar un test linear, hay que tener en cuenta que la hipótesis nula es que los coeficientes son cero, lo que significa que las variables instrumentales no son efectivas para instrumentar las variables de fertilidad y, por lo tanto, no son útiles para identificar el efecto causal de la fertilidad sobre la oferta laboral.

La tabla muestra que el valor F es de 802.33, lo que indica que la diferencia entre los dos modelos es estadísticamente significativa. El valor p es menor que 0.05, lo que significa que hay evidencia suficiente para rechazar la hipótesis nula y concluir que los coeficientes de boys2 y girls2 son distintos de cero. Esto sugiere que boys2 y girls2 son variables instrumentales efectivas para identificar el efecto causal de la fertilidad sobre la oferta laboral de la mujer, y que su inclusión en el modelo mejora la calidad de la estimación.

summary(IV1, diagnostics=TRUE)
## 
## Call:
## ivreg(formula = week89m ~ morekids + agem + age2 + yearschm + 
##     afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + 
##     blanco + boys2 + girls2, data = fertility)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -41.422 -22.170   1.119  21.485  51.272 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -52.532489   1.916748 -27.407  < 2e-16 ***
## morekids     -5.953096   1.190654  -5.000 5.74e-07 ***
## agem          3.707839   0.146303  25.344  < 2e-16 ***
## age2         -0.048666   0.002379 -20.460  < 2e-16 ***
## yearschm      1.195794   0.043031  27.789  < 2e-16 ***
## afro          3.467964   0.168170  20.622  < 2e-16 ***
## hispa        -0.258773   0.693558  -0.373    0.709    
## blanco        1.281151   0.141943   9.026  < 2e-16 ***
## 
## Diagnostic tests:
##                     df1    df2 statistic p-value    
## Weak instruments      2 428923   802.331  <2e-16 ***
## Wu-Hausman            1 428923     0.189   0.663    
## Sargan                1     NA     1.503   0.220    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22.04 on 428924 degrees of freedom
## Multiple R-Squared: 0.06471, Adjusted R-squared: 0.0647 
## Wald test:  3119 on 7 and 428924 DF,  p-value: < 2.2e-16
summary(IV2, diagnostics=TRUE)
## 
## Call:
## ivreg(formula = incomem1 ~ morekids + agem + age2 + yearschm + 
##     afro + hispa + blanco | agem + age2 + yearschm + afro + hispa + 
##     blanco + boys2 + girls2, data = fertility)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -17228  -6617  -2617   4783 194203 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -14007.706    850.567 -16.469  < 2e-16 ***
## morekids     -1827.678    528.359  -3.459 0.000542 ***
## agem           506.167     64.923   7.796 6.38e-15 ***
## age2            -2.246      1.056  -2.128 0.033371 *  
## yearschm       937.886     19.095  49.116  < 2e-16 ***
## afro           327.240     74.626   4.385 1.16e-05 ***
## hispa          789.119    307.770   2.564 0.010348 *  
## blanco       -1225.362     62.988 -19.454  < 2e-16 ***
## 
## Diagnostic tests:
##                     df1    df2 statistic p-value    
## Weak instruments      2 428923   802.331  <2e-16 ***
## Wu-Hausman            1 428923     2.233   0.135    
## Sargan                1     NA     1.327   0.249    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9780 on 428924 degrees of freedom
## Multiple R-Squared: 0.0903,  Adjusted R-squared: 0.09028 
## Wald test:  5230 on 7 and 428924 DF,  p-value: < 2.2e-16

Ahora que tenemos una visión de las variables instrumentales, podemos analizar su veracidad por medio de diferentes test:

En conclusión, los resultados de los diagnósticos indican que los instrumentos utilizados son fuertes, la regresión de dos etapas es consistente y los instrumentos son exógenos, lo que sugiere que los modelos ajustados son válidos.

# Tabla de resultados
stargazer(OLS1, IV1, 
          header = FALSE, 
          type = "text",
          covariate.labels = c("Morekids (Más de dos hijos=1)", "Edad", "Edad2", "Años de Escolaridad", 
                               "afroamericano (=1)", "Hispano (=1)", "Blanco (=1)", "Constante"),
          digits = 4, 
          out.header = T,
          model.names = F,
          column.labels = c("OLS1", "IV1"),
          dep.var.labels.include = FALSE,
          dep.var.caption = "Y: Semanas trabajadas por la madre en 1989",
          omit.stat = c("f", "ser"))
## 
## =========================================================================
##                               Y: Semanas trabajadas por la madre en 1989 
##                               -------------------------------------------
##                                       OLS1                   IV1         
##                                        (1)                   (2)         
## -------------------------------------------------------------------------
## Morekids (Más de dos hijos=1)      -8.5173***            -5.9531***      
##                                     (0.0671)              (1.1907)       
##                                                                          
## Edad                                3.3048***             3.7078***      
##                                     (0.0953)              (0.1463)       
##                                                                          
## Edad2                              -0.0455***                            
##                                     (0.0017)                             
##                                                                          
## Años de Escolaridad                                      -0.0487***      
##                                                           (0.0024)       
##                                                                          
## afroamericano (=1)                  1.3178***             1.1958***      
##                                     (0.0126)              (0.0430)       
##                                                                          
## Hispano (=1)                        4.0439***             3.4680***      
##                                     (0.1245)              (0.1682)       
##                                                                          
## Blanco (=1)                          0.5957                -0.2588       
##                                     (0.5764)              (0.6936)       
##                                                                          
## Constante                           2.1410***             1.2812***      
##                                     (0.1013)              (0.1419)       
##                                                                          
## Constant                           -42.9374***           -52.5325***     
##                                     (1.3448)              (1.9167)       
##                                                                          
## -------------------------------------------------------------------------
## Observations                         646,871               428,932       
## R2                                   0.0683                0.0647        
## Adjusted R2                          0.0683                0.0647        
## =========================================================================
## Note:                                         *p<0.1; **p<0.05; ***p<0.01

De esta forma haciendo una comparación entre las variables dadas en la regresión con las variables instrumentales, se puede evidenciar que el modelo por minimos cuadrados ordinarios esta sobreparametrizado y que tiene grandes cesgos de información que el nuevo modelo es capaz de medir de mejor manera. Se logra pues evidenciar que las variables tomadas fueron de gran importancia para dar mejor explicación a las semanas trabajadas por las mujeres.

# Tabla de resultados
stargazer(OLS2, IV2, 
          header = FALSE, 
          type = "text",
          covariate.labels = c("Morekids (Más de dos hijos=1)", "Edad", "Edad2", "Años de Escolaridad", 
                               "afroamericano (=1)", "Hispano (=1)", "Blanco (=1)", "Constante"),
          digits = 4, 
          out.header = T,
          model.names = F,
          column.labels = c("OLS", "IV1"),
          dep.var.labels.include = FALSE,
          dep.var.caption = "Y: Ingreso del trabajo de las madres en 1989",
          omit.stat = c("f", "ser"))
## 
## ===========================================================================
##                               Y: Ingreso del trabajo de las madres en 1989 
##                               ---------------------------------------------
##                                        OLS                    IV1          
##                                        (1)                    (2)          
## ---------------------------------------------------------------------------
## Morekids (Más de dos hijos=1)     -3,599.6970***         -1,827.6780***    
##                                     (31.3569)              (528.3594)      
##                                                                            
## Edad                               874.8224***            506.1670***      
##                                     (44.5397)              (64.9228)       
##                                                                            
## Edad2                               -8.3373***                             
##                                      (0.7771)                              
##                                                                            
## Años de Escolaridad                                        -2.2457**       
##                                                             (1.0555)       
##                                                                            
## afroamericano (=1)                1,084.1010***           937.8859***      
##                                      (5.8964)              (19.0953)       
##                                                                            
## Hispano (=1)                       545.6710***            327.2405***      
##                                     (58.2205)              (74.6262)       
##                                                                            
## Blanco (=1)                       1,139.8570***            789.1194**      
##                                     (269.4691)             (307.7702)      
##                                                                            
## Constante                          -898.3978***          -1,225.3620***    
##                                     (47.3435)              (62.9882)       
##                                                                            
## Constant                         -19,964.4200***        -14,007.7100***    
##                                     (628.6585)             (850.5675)      
##                                                                            
## ---------------------------------------------------------------------------
## Observations                         646,871                428,932        
## R2                                    0.1085                 0.0903        
## Adjusted R2                           0.1085                 0.0903        
## ===========================================================================
## Note:                                           *p<0.1; **p<0.05; ***p<0.01

De esta misma forma, haciendo la comparación con los modelos planteados para el comprender como estimar el ingreso del trabajo de la madre se puede observar que el modelo por minimos cuadrados ordinarios esta sobreparametrizado y que tiene grandes cesgos de información que el nuevo modelo es capaz de medir de mejor manera.

En resumen, las razones por las cuales las madres de diferentes etnias presentan en general mayores ingresos que las madres blancas se debe a que estas trabajan más ya que son más propensas a no tener otros tipos de apoyo económico, como los ingresos de un padre o un subsidio del gobierno. Este comportamiento está influenciado por fuertes factores sociales, económicos y culturales que han afectado históricamente a las comunidades negras e hispánicas. Esto en terminos economicos evidencia que las mujeres tiene una gran exposicion a dejar el mercado laboral cuando hay presencia de hijos, esto puede ser debido a que la carga del hogar afecta principalmente a las mujeres mientras que el hombre siempre ha tenido el rol del trabajo. Es necesario pensar en el potencial de productividad que tiene la mujer en el sector del trabajo para impulsar de mejor manera las economías y como puede ser utilizado optimamente si la carga impositiva de los hijos fuera distribuido de manera más equitativa con los hombres.