Esta tarea consta de 2 ejercicios, la misma ha de ser entregada en grupos de 3 personas a mas tardar el Miercoles 14 de diciembre del 2022, día del primer parcial de la asignatura. Para obtener puntos es necesario que sea explícito y que las demostraciones sean sustentadas con los supuestos y procedimientos de rigor. El ejercicio computacional debe ser sustentado mediante el código adecuado y las explicaciones. Sí dos códigos entre grupos son exactamente iguales se procede a la anulación completa de la tarea y el estudiante automáticamente perdería estos puntos. Tenga presente que a pesar de que la tarea es grupal, la misma servirá de base para el examen parcial por lo que ambos miembros del grupo deben tener un claro entendimiento de lo desarrollado.

1. Para realizar este ejercicio debe instalar en R el paquete ”wooldridge”, usando el código install.packages(”wooldridge”). Este paquete contiene los data set del libro Introduction to Econometrics(6th edition) de Wooldridge. Vamos a utilizar el dataset ’bwght’ con el comando data(’bwght’).

En este ejercicio estamos interesados en medir el efecto causal sobre el peso del niño/a al nacer en onzas (bwght) que posee el consumo promedio de un cigarrillo adicional al día (cigs). Para ello se cuenta con un dataset de 1,388 observaciones (niños/as), con información de su peso y una serie de variables sobre el padre y la madre del individuo, tales como: educación del padre y de la madre (feduc, meduc), una variable binaria que indica el sexo del niño al nacer, 1 sí es hombre y 0 si es mujer (male), el ingreso familiar (faminc) entre otras. Para una descripci ́on completa del dataset consultar chromeextension://oemmndcbldboiebfnladdacbdfmadadm/https://cran.r- project.org/web/packages/wooldridge/wooldridge.pdf

data("bwght")

(a) Construya una tabla calculando los estadísticos principales (media, mínimo, máximo, etc…) de

las variables bwght, meduc, feduc, cigs, faminc. Comente los resultados.

st(bwght, vars = c("bwght","motheduc","fatheduc","cigs","faminc"))
Summary Statistics
Variable N Mean Std. Dev. Min Pctl. 25 Pctl. 75 Max
bwght 1388 118.7 20.354 23 107 132 271
motheduc 1387 12.936 2.377 2 12 14 18
fatheduc 1192 13.186 2.746 1 12 16 18
cigs 1388 2.087 5.973 0 0 0 50
faminc 1388 29.027 18.739 0.5 14.5 37.5 65

El peso en onzas del bebe al nacer (bwght) obtuvimos que el peso promedio de un bebe en 1988 al nacer era de 118.7 onzas con una desviación amplia de 20 onzas, lo que indica una alta variabilidad en el peso de los 1388 nacimientos de nuestra muestra. La diferencia entre el peso min y máximo de la muestra es bastante amplia, lo que expresa lo antes mencionado. El percentil 25 y 75 se muestran muy cercanos, lo que puede indicar que la mayoría de los datos se agrupan en la media (entre 107 y 132 onzas), por otra parte, tenemos un dato atípico en el peso, con 271 onzas lo que puede afectar un poco el peso promedio antes mencionado.

El ingreso familiar (faminc) obtuvimos que en promedio en 1988 percibían USD 29,000, sin embargo, lo mínimo fue USD 500 lo que nos indica que existe una variación muy alta entre los ingresos familiares, lo mismo nos lo presenta la desviación estándar de USD 18,700.

Por otra parte, los cigarrillos fumados por dia mientras la madre estaba embarazada (cigs) nos presenta lo extraño y perjudicial que era y continúa siendo realizar esta acción, ya que el min, percentil 25, 50 y 75 son 0, sin embargo, el máximo es 50, esto quiere decir que la mayoria de las mujeres embarazadas no fuman mientras están embarazadas. la media de cigarrillos fumados es de 2 por dia, y la desviación sigue siendo alta con respecto a la media, lo que indica que las mujeres que fuman durante el embarazo, lo hacen en grandes cantidades.

Educación de la madre (Motheduc): Tenemos que con 1388 observaciones para el 1988 el promedio en años de educación de la madre es de 12.936 años de educación, mientras que el mínimo es de 2 años de educación y el máximo de 18 años con un rango de 16 años de educación, una desviación estándar respecto a la media de 2.377 años de educación.

Educación del padre (Fatheduc): Con 1192 observaciones los años de educación del padre muestran un comportamiento similar al de las madres con una media un poco mayor de educación de 13.186 años d educación y la desviación estándar de 2.746, la cual esta explicada por la variación de los mínimos y máximos de 1 y 18 años de educación, respectivamente, indicando que existe mayor variabilidad en la educación de los padres.

En comparación vemos que los padres en promedio hicieron más años de educación dado que el percentil 75 hay mayor numero de padres y de igual forma los mismos muestran una desviación estándar ligeramente mayor que las madres por el rango intercuartil.

(b) Construya un histograma para las variables anteriormente analizadas. Comente los resultados

weight <- bwght$bwght
meducation <- bwght$motheduc
feducation <- bwght$fatheduc
cigs <- bwght$cigs
fincome <- bwght$faminc

par(mfrow=c(2,3))
hist(weight)
hist(meducation)
hist(feducation)
hist(cigs)
hist(fincome)

La varaible bwght presenta una distribución aproximadamente normal, concentrada en su media.

La variable motheduc presenta una asimetria positiva sesgada a la derecha al igual que la variable fatheduc y ambas con alta concentración en la media.

La variable cigs se muestra lo antes mencionado, tiene una asimetria negativa con una concentracion muy alta en su minimo.

La variable faminc presenta un distribución un poco asimetrica negativa con una cierta desviación en los datos por valores atípicos con los ingresos mayores a USD 60,000.

(c) Elabore un diagrama de caja con bigotes (boxplot) del peso al nacer bwght, segregando esta variable por sexo, es decir utilizando la variable male. Interprete los resultados.

ggplotly(ggplot(bwght, aes(x = factor(male), y = bwght)) + geom_boxplot() +
  labs(x = "Sexo",
       y = "Peso al nacer (oz)",
       title = "Distribución del peso al nacer",
       caption = "0 = Femenino 1 = Masculino"
       ))

La diferencias entre los niños y niñas radica principalmente en el peso promedio, que en el sexo masculino es mayor con 121 onzas en promedio comparado con 118 onzas en los recien nacidos de sexo femenino. Por otra parte, el máximo en onzas registrado se encuentra en el sexo femenino con 271 onzas, y el minimo en el sexo masculino con 23 onzas.Tambien resaltar que el rango intercuartilico en ambos sexos es muy similar, por lo que prodíamos decir que ambas distribuciones son bastantes parecidas.

(d) Muestre mediante un scatterplot cómo es la relación entre el peso a nacer del niño/a bwght y el consumo de cigarrillos cigs. Realice el mismo ejercicio entre cigs y faminc. Comente los resultados.

par(mfrow=c(1,2))
plot(weight, cigs, main="Relación entre el peso del niño/a al nacer y el consumo de cigarrillos",
   xlab="Peso (Onzas)", ylab="Cigarrillos fumados por dia")

plot(cigs, fincome, main="Relación entre el consumo de cigarrillos y el ingreso de la familia en miles $",
   xlab="Cigarrillos fumados por dia", ylab="Ingreso familiar en miles $")

No podemos evidenciar una relación entre las variables por como se distribuyen los datos en el gráfico, no hay tendencia ni correlación entre ellas.

(e) Estime la siguiente regresión mediante el metodo de MCO:

Interprete los coeficientes estimados de la regresión y el R-cuadrado. ¿Puede argumentar que el efecto de un cigarrillo adicional al día (cigs) sobre el peso al nacer del niño (bwght) medido a traves de B1 identifica un efecto causal? Explique.

ML <- lm(bwght~cigs,data = bwght)
summary(ML)
## 
## Call:
## lm(formula = bwght ~ cigs, data = bwght)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -96.772 -11.772   0.297  13.228 151.228 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 119.77190    0.57234 209.267  < 2e-16 ***
## cigs         -0.51377    0.09049  -5.678 1.66e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.13 on 1386 degrees of freedom
## Multiple R-squared:  0.02273,    Adjusted R-squared:  0.02202 
## F-statistic: 32.24 on 1 and 1386 DF,  p-value: 1.662e-08
hist(fitted(ML))

A pesar de que los parámetros del modelo son significativos, no podemos inferir que los cigarrillos por si solo tienen un efecto casual en el peso del niño/a al nacer, por esa razón el R cuadrado en el modelo queda muy bajo con solo un 2.27%.

(f) Sino identifica un efecto causal en el inciso anterior,podría argumentar cuál sería la dirección del sesgo?

Como se muestra en el histograma de los valores predichos, muestra un sesgo a la derecha.

(g) Estime 2 regresiones adicionales con las siguientes formas funcionales.

Explique cómo cambia el coeficiente estimado de B1 respecto a la ecuación en (6). La dirección en cómo se mueve el coeficiente se corresponde con la dirección del sesgo intuida en los incisos anteriores.

ML2 <- lm(bwght~cigs+motheduc,data = bwght)
ML3 <- lm(bwght~cigs+motheduc+faminc,data = bwght)
summary(ML2)
## 
## Call:
## lm(formula = bwght ~ cigs + motheduc, data = bwght)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -96.414 -11.741   0.586  13.263 150.925 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 115.44472    3.10652  37.162  < 2e-16 ***
## cigs         -0.48617    0.09262  -5.249 1.77e-07 ***
## motheduc      0.33077    0.23284   1.421    0.156    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.13 on 1384 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.0242, Adjusted R-squared:  0.02279 
## F-statistic: 17.16 on 2 and 1384 DF,  p-value: 4.332e-08
summary(ML3)
## 
## Call:
## lm(formula = bwght ~ cigs + motheduc + faminc, data = bwght)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -96.064 -11.585   0.668  13.154 150.078 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 116.83485    3.13778  37.235  < 2e-16 ***
## cigs         -0.46335    0.09275  -4.996 6.61e-07 ***
## motheduc      0.01426    0.25799   0.055   0.9559    
## faminc        0.09147    0.03246   2.818   0.0049 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.08 on 1383 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.02977,    Adjusted R-squared:  0.02767 
## F-statistic: 14.15 on 3 and 1383 DF,  p-value: 4.385e-09
hist(fitted(ML3))

hist(fitted(ML2))

stargazer(ML,ML2,ML3,type = "text",title="Regression Results", align=TRUE)
## 
## Regression Results
## ==============================================================================================
##                                                Dependent variable:                            
##                     --------------------------------------------------------------------------
##                                                       bwght                                   
##                               (1)                      (2)                      (3)           
## ----------------------------------------------------------------------------------------------
## cigs                       -0.514***                -0.486***                -0.463***        
##                             (0.090)                  (0.093)                  (0.093)         
##                                                                                               
## motheduc                                              0.331                    0.014          
##                                                      (0.233)                  (0.258)         
##                                                                                               
## faminc                                                                        0.091***        
##                                                                               (0.032)         
##                                                                                               
## Constant                   119.772***               115.445***               116.835***       
##                             (0.572)                  (3.107)                  (3.138)         
##                                                                                               
## ----------------------------------------------------------------------------------------------
## Observations                 1,388                    1,387                    1,387          
## R2                           0.023                    0.024                    0.030          
## Adjusted R2                  0.022                    0.023                    0.028          
## Residual Std. Error    20.129 (df = 1386)       20.126 (df = 1384)       20.075 (df = 1383)   
## F Statistic         32.235*** (df = 1; 1386) 17.164*** (df = 2; 1384) 14.147*** (df = 3; 1383)
## ==============================================================================================
## Note:                                                              *p<0.1; **p<0.05; ***p<0.01

Notamos que ha medida que agregamos mas variables a los modelos B1 se va reduciendo, por ejemplo, en el modelo 1 en donde solo tomamos la variable cigs, el estiamdor indicaba que por cada cigarrillo consumido por la madre embarazada reduce el peso del bebe en 0.514 onzas, mientras que en el segundo modelo en donde se agrega la educación de la madre se reduce a 0.486 onzas y por último, cuando se agrea el ingreso familiar se reduce a 0.463 onzas, lo que era de esperarse ya que si se agregan variables al modelo se amplía error.

(i) Estime nuevamente (8) utilizando el logaritmo de bwght y el logaritmo del ingreso familiar lfaminc.

Interprete los coeficientes estimados de B1 y B3 bajo esta nueva forma funcional.

LM4 <- lm(lbwght~cigs+motheduc+lfaminc,data = bwght)
summary(LM4)
## 
## Call:
## lm(formula = lbwght ~ cigs + motheduc + lfaminc, data = bwght)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.63330 -0.08766  0.02259  0.12178  0.82240 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.7143491  0.0298628 157.867  < 2e-16 ***
## cigs        -0.0040596  0.0008704  -4.664  3.4e-06 ***
## motheduc     0.0004566  0.0023717   0.193   0.8474    
## lfaminc      0.0157281  0.0060810   2.586   0.0098 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1884 on 1383 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.02576,    Adjusted R-squared:  0.02365 
## F-statistic: 12.19 on 3 and 1383 DF,  p-value: 7.107e-08

Por cada 1% que incremente el consumo de cigarros el peso de los niños disminuirá en 0.0040%.

2. Utilice el set de datos ’rental’. la data para los años 1980 y 1990 incluye los precios de alquiler y otras variables de barrios donde hay universidades ubicadas en Estados Unidos. La idea de este ejercicio es

estimar si una mayor presencia de estudiantes afecta las tasas de alquiler. El modelo propuesto es el siguiente:

donde pop es la población de la ciudad, avginc es el ingreso promedio, petstu es la población estudiantil como porcentaje de la población total (durante un año escolar).

(a) Estime la ecuación utilizando Pooled OLS y reporte los resultados, en su forma estándar. Interprete los resultados

lmrental <- plm(lrent~y90+lpop+avginc+pctstu,rental)
summary(lmrental)
## Oneway (individual) effect Within Model
## 
## Call:
## plm(formula = lrent ~ y90 + lpop + avginc + pctstu, data = rental)
## 
## Balanced Panel: n = 64, T = 2, N = 128
## 
## Residuals:
##      Min.   1st Qu.    Median   3rd Qu.      Max. 
## -0.117002 -0.032384  0.000000  0.032384  0.117002 
## 
## Coefficients:
##           Estimate  Std. Error t-value  Pr(>|t|)    
## y90     4.3487e-01  2.8678e-02 15.1642 < 2.2e-16 ***
## lpop   -5.0147e-02  9.4661e-02 -0.5298   0.59824    
## avginc  1.2746e-05  2.8723e-06  4.4374  3.96e-05 ***
## pctstu  9.6849e-03  4.1856e-03  2.3139   0.02412 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    10.383
## Residual Sum of Squares: 0.24995
## R-Squared:      0.97593
## Adj. R-Squared: 0.94905
## F-statistic: 608.117 on 4 and 60 DF, p-value: < 2.22e-16
hist(resid(lmrental))

Que para el año 90 por cada 1% de personas adicional de la población provocó un incremento en el precio de la renta a un 4.34% indicando así el efecto o impacto positivo directo del cambio en los años 80 hacia el 90.

El ingreso de igual forma se espera una relación positiva entre este y el precio de la renta y tenemos que por cada dólar adicional en el ingreso promedio de la ciudad aumentará en 1.27% el precio de la renta.

Pctstu: en este caso la presión de demanda de la población estudiantil en la zona provoca la mayor presión en el precio de la renta indicado de la siguiente forma, por cada aumento de un 1% de la población estudiantil como porcentaje de la población durante un año escolar impacta en un incremento de 9.68% el precio de la renta.

(b) ¿Son los errores estándares reportados en la ecuación válidos?, explique.

En el caso de la variable lpop tiene un efecto contradictorio a su naturaleza, se supone que si aumenta la demanda de un bien, los precios aumentarán de igual forma por su escacez, es decir, que si en una ciudad aumenta la población, la renta dedería igualmente aumentar. Si observamos el error estándar y el t-value de la misma variable vemos desviaciones significativas con respecto a las demás variables.