Esta tarea consta de 2 ejercicios, la misma ha de ser entregada en grupos de 3 personas a mas tardar el Miercoles 14 de diciembre del 2022, día del primer parcial de la asignatura. Para obtener puntos es necesario que sea explícito y que las demostraciones sean sustentadas con los supuestos y procedimientos de rigor. El ejercicio computacional debe ser sustentado mediante el código adecuado y las explicaciones. Sí dos códigos entre grupos son exactamente iguales se procede a la anulación completa de la tarea y el estudiante automáticamente perdería estos puntos. Tenga presente que a pesar de que la tarea es grupal, la misma servirá de base para el examen parcial por lo que ambos miembros del grupo deben tener un claro entendimiento de lo desarrollado.
En este ejercicio estamos interesados en medir el efecto causal sobre el peso del niño/a al nacer en onzas (bwght) que posee el consumo promedio de un cigarrillo adicional al día (cigs). Para ello se cuenta con un dataset de 1,388 observaciones (niños/as), con información de su peso y una serie de variables sobre el padre y la madre del individuo, tales como: educación del padre y de la madre (feduc, meduc), una variable binaria que indica el sexo del niño al nacer, 1 sí es hombre y 0 si es mujer (male), el ingreso familiar (faminc) entre otras. Para una descripci ́on completa del dataset consultar chromeextension://oemmndcbldboiebfnladdacbdfmadadm/https://cran.r- project.org/web/packages/wooldridge/wooldridge.pdf
data("bwght")
las variables bwght, meduc, feduc, cigs, faminc. Comente los resultados.
st(bwght, vars = c("bwght","motheduc","fatheduc","cigs","faminc"))
| Variable | N | Mean | Std. Dev. | Min | Pctl. 25 | Pctl. 75 | Max |
|---|---|---|---|---|---|---|---|
| bwght | 1388 | 118.7 | 20.354 | 23 | 107 | 132 | 271 |
| motheduc | 1387 | 12.936 | 2.377 | 2 | 12 | 14 | 18 |
| fatheduc | 1192 | 13.186 | 2.746 | 1 | 12 | 16 | 18 |
| cigs | 1388 | 2.087 | 5.973 | 0 | 0 | 0 | 50 |
| faminc | 1388 | 29.027 | 18.739 | 0.5 | 14.5 | 37.5 | 65 |
El peso en onzas del bebe al nacer (bwght) obtuvimos que el peso promedio de un bebe en 1988 al nacer era de 118.7 onzas con una desviación amplia de 20 onzas, lo que indica una alta variabilidad en el peso de los 1388 nacimientos de nuestra muestra. La diferencia entre el peso min y máximo de la muestra es bastante amplia, lo que expresa lo antes mencionado. El percentil 25 y 75 se muestran muy cercanos, lo que puede indicar que la mayoría de los datos se agrupan en la media (entre 107 y 132 onzas), por otra parte, tenemos un dato atípico en el peso, con 271 onzas lo que puede afectar un poco el peso promedio antes mencionado.
El ingreso familiar (faminc) obtuvimos que en promedio en 1988 percibían USD 29,000, sin embargo, lo mínimo fue USD 500 lo que nos indica que existe una variación muy alta entre los ingresos familiares, lo mismo nos lo presenta la desviación estándar de USD 18,700.
Por otra parte, los cigarrillos fumados por dia mientras la madre estaba embarazada (cigs) nos presenta lo extraño y perjudicial que era y continúa siendo realizar esta acción, ya que el min, percentil 25, 50 y 75 son 0, sin embargo, el máximo es 50, esto quiere decir que la mayoria de las mujeres embarazadas no fuman mientras están embarazadas. la media de cigarrillos fumados es de 2 por dia, y la desviación sigue siendo alta con respecto a la media, lo que indica que las mujeres que fuman durante el embarazo, lo hacen en grandes cantidades.
Educación de la madre (Motheduc): Tenemos que con 1388 observaciones para el 1988 el promedio en años de educación de la madre es de 12.936 años de educación, mientras que el mínimo es de 2 años de educación y el máximo de 18 años con un rango de 16 años de educación, una desviación estándar respecto a la media de 2.377 años de educación.
Educación del padre (Fatheduc): Con 1192 observaciones los años de educación del padre muestran un comportamiento similar al de las madres con una media un poco mayor de educación de 13.186 años d educación y la desviación estándar de 2.746, la cual esta explicada por la variación de los mínimos y máximos de 1 y 18 años de educación, respectivamente, indicando que existe mayor variabilidad en la educación de los padres.
En comparación vemos que los padres en promedio hicieron más años de educación dado que el percentil 75 hay mayor numero de padres y de igual forma los mismos muestran una desviación estándar ligeramente mayor que las madres por el rango intercuartil.
weight <- bwght$bwght
meducation <- bwght$motheduc
feducation <- bwght$fatheduc
cigs <- bwght$cigs
fincome <- bwght$faminc
par(mfrow=c(2,3))
hist(weight)
hist(meducation)
hist(feducation)
hist(cigs)
hist(fincome)
La varaible bwght presenta una distribución aproximadamente normal, concentrada en su media.
La variable motheduc presenta una asimetria positiva sesgada a la derecha al igual que la variable fatheduc y ambas con alta concentración en la media.
La variable cigs se muestra lo antes mencionado, tiene una asimetria negativa con una concentracion muy alta en su minimo.
La variable faminc presenta un distribución un poco asimetrica negativa con una cierta desviación en los datos por valores atípicos con los ingresos mayores a USD 60,000.
ggplotly(ggplot(bwght, aes(x = factor(male), y = bwght)) + geom_boxplot() +
labs(x = "Sexo",
y = "Peso al nacer (oz)",
title = "Distribución del peso al nacer",
caption = "0 = Femenino 1 = Masculino"
))
La diferencias entre los niños y niñas radica principalmente en el peso promedio, que en el sexo masculino es mayor con 121 onzas en promedio comparado con 118 onzas en los recien nacidos de sexo femenino. Por otra parte, el máximo en onzas registrado se encuentra en el sexo femenino con 271 onzas, y el minimo en el sexo masculino con 23 onzas.Tambien resaltar que el rango intercuartilico en ambos sexos es muy similar, por lo que prodíamos decir que ambas distribuciones son bastantes parecidas.
par(mfrow=c(1,2))
plot(weight, cigs, main="Relación entre el peso del niño/a al nacer y el consumo de cigarrillos",
xlab="Peso (Onzas)", ylab="Cigarrillos fumados por dia")
plot(cigs, fincome, main="Relación entre el consumo de cigarrillos y el ingreso de la familia en miles $",
xlab="Cigarrillos fumados por dia", ylab="Ingreso familiar en miles $")
No podemos evidenciar una relación entre las variables por como se distribuyen los datos en el gráfico, no hay tendencia ni correlación entre ellas.
Interprete los coeficientes estimados de la regresión y el R-cuadrado. ¿Puede argumentar que el efecto de un cigarrillo adicional al día (cigs) sobre el peso al nacer del niño (bwght) medido a traves de B1 identifica un efecto causal? Explique.
ML <- lm(bwght~cigs,data = bwght)
summary(ML)
##
## Call:
## lm(formula = bwght ~ cigs, data = bwght)
##
## Residuals:
## Min 1Q Median 3Q Max
## -96.772 -11.772 0.297 13.228 151.228
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 119.77190 0.57234 209.267 < 2e-16 ***
## cigs -0.51377 0.09049 -5.678 1.66e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.13 on 1386 degrees of freedom
## Multiple R-squared: 0.02273, Adjusted R-squared: 0.02202
## F-statistic: 32.24 on 1 and 1386 DF, p-value: 1.662e-08
hist(fitted(ML))
A pesar de que los parámetros del modelo son significativos, no podemos inferir que los cigarrillos por si solo tienen un efecto casual en el peso del niño/a al nacer, por esa razón el R cuadrado en el modelo queda muy bajo con solo un 2.27%.
Como se muestra en el histograma de los valores predichos, muestra un sesgo a la derecha.
Explique cómo cambia el coeficiente estimado de B1 respecto a la ecuación en (6). La dirección en cómo se mueve el coeficiente se corresponde con la dirección del sesgo intuida en los incisos anteriores.
ML2 <- lm(bwght~cigs+motheduc,data = bwght)
ML3 <- lm(bwght~cigs+motheduc+faminc,data = bwght)
summary(ML2)
##
## Call:
## lm(formula = bwght ~ cigs + motheduc, data = bwght)
##
## Residuals:
## Min 1Q Median 3Q Max
## -96.414 -11.741 0.586 13.263 150.925
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 115.44472 3.10652 37.162 < 2e-16 ***
## cigs -0.48617 0.09262 -5.249 1.77e-07 ***
## motheduc 0.33077 0.23284 1.421 0.156
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.13 on 1384 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.0242, Adjusted R-squared: 0.02279
## F-statistic: 17.16 on 2 and 1384 DF, p-value: 4.332e-08
summary(ML3)
##
## Call:
## lm(formula = bwght ~ cigs + motheduc + faminc, data = bwght)
##
## Residuals:
## Min 1Q Median 3Q Max
## -96.064 -11.585 0.668 13.154 150.078
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 116.83485 3.13778 37.235 < 2e-16 ***
## cigs -0.46335 0.09275 -4.996 6.61e-07 ***
## motheduc 0.01426 0.25799 0.055 0.9559
## faminc 0.09147 0.03246 2.818 0.0049 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.08 on 1383 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.02977, Adjusted R-squared: 0.02767
## F-statistic: 14.15 on 3 and 1383 DF, p-value: 4.385e-09
hist(fitted(ML3))
hist(fitted(ML2))
stargazer(ML,ML2,ML3,type = "text",title="Regression Results", align=TRUE)
##
## Regression Results
## ==============================================================================================
## Dependent variable:
## --------------------------------------------------------------------------
## bwght
## (1) (2) (3)
## ----------------------------------------------------------------------------------------------
## cigs -0.514*** -0.486*** -0.463***
## (0.090) (0.093) (0.093)
##
## motheduc 0.331 0.014
## (0.233) (0.258)
##
## faminc 0.091***
## (0.032)
##
## Constant 119.772*** 115.445*** 116.835***
## (0.572) (3.107) (3.138)
##
## ----------------------------------------------------------------------------------------------
## Observations 1,388 1,387 1,387
## R2 0.023 0.024 0.030
## Adjusted R2 0.022 0.023 0.028
## Residual Std. Error 20.129 (df = 1386) 20.126 (df = 1384) 20.075 (df = 1383)
## F Statistic 32.235*** (df = 1; 1386) 17.164*** (df = 2; 1384) 14.147*** (df = 3; 1383)
## ==============================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Notamos que ha medida que agregamos mas variables a los modelos B1 se va reduciendo, por ejemplo, en el modelo 1 en donde solo tomamos la variable cigs, el estiamdor indicaba que por cada cigarrillo consumido por la madre embarazada reduce el peso del bebe en 0.514 onzas, mientras que en el segundo modelo en donde se agrega la educación de la madre se reduce a 0.486 onzas y por último, cuando se agrea el ingreso familiar se reduce a 0.463 onzas, lo que era de esperarse ya que si se agregan variables al modelo se amplía error.
Interprete los coeficientes estimados de B1 y B3 bajo esta nueva forma funcional.
LM4 <- lm(lbwght~cigs+motheduc+lfaminc,data = bwght)
summary(LM4)
##
## Call:
## lm(formula = lbwght ~ cigs + motheduc + lfaminc, data = bwght)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.63330 -0.08766 0.02259 0.12178 0.82240
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.7143491 0.0298628 157.867 < 2e-16 ***
## cigs -0.0040596 0.0008704 -4.664 3.4e-06 ***
## motheduc 0.0004566 0.0023717 0.193 0.8474
## lfaminc 0.0157281 0.0060810 2.586 0.0098 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1884 on 1383 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.02576, Adjusted R-squared: 0.02365
## F-statistic: 12.19 on 3 and 1383 DF, p-value: 7.107e-08
Por cada 1% que incremente el consumo de cigarros el peso de los niños disminuirá en 0.0040%.
estimar si una mayor presencia de estudiantes afecta las tasas de alquiler. El modelo propuesto es el siguiente:
donde pop es la población de la ciudad, avginc es el ingreso promedio, petstu es la población estudiantil como porcentaje de la población total (durante un año escolar).
lmrental <- plm(lrent~y90+lpop+avginc+pctstu,rental)
summary(lmrental)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = lrent ~ y90 + lpop + avginc + pctstu, data = rental)
##
## Balanced Panel: n = 64, T = 2, N = 128
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -0.117002 -0.032384 0.000000 0.032384 0.117002
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## y90 4.3487e-01 2.8678e-02 15.1642 < 2.2e-16 ***
## lpop -5.0147e-02 9.4661e-02 -0.5298 0.59824
## avginc 1.2746e-05 2.8723e-06 4.4374 3.96e-05 ***
## pctstu 9.6849e-03 4.1856e-03 2.3139 0.02412 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 10.383
## Residual Sum of Squares: 0.24995
## R-Squared: 0.97593
## Adj. R-Squared: 0.94905
## F-statistic: 608.117 on 4 and 60 DF, p-value: < 2.22e-16
hist(resid(lmrental))
Que para el año 90 por cada 1% de personas adicional de la población provocó un incremento en el precio de la renta a un 4.34% indicando así el efecto o impacto positivo directo del cambio en los años 80 hacia el 90.
El ingreso de igual forma se espera una relación positiva entre este y el precio de la renta y tenemos que por cada dólar adicional en el ingreso promedio de la ciudad aumentará en 1.27% el precio de la renta.
Pctstu: en este caso la presión de demanda de la población estudiantil en la zona provoca la mayor presión en el precio de la renta indicado de la siguiente forma, por cada aumento de un 1% de la población estudiantil como porcentaje de la población durante un año escolar impacta en un incremento de 9.68% el precio de la renta.
En el caso de la variable lpop tiene un efecto contradictorio a su naturaleza, se supone que si aumenta la demanda de un bien, los precios aumentarán de igual forma por su escacez, es decir, que si en una ciudad aumenta la población, la renta dedería igualmente aumentar. Si observamos el error estándar y el t-value de la misma variable vemos desviaciones significativas con respecto a las demás variables.