1 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝑌𝑖=𝛽0 +𝛽1 𝐼𝑛(𝑋𝑖) + 𝜇𝑖 sería la siguiente:
Sol: b) Un cambio del 1% en X es asociado con un cambio de 0.01𝛽1 en Y.
2 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝐼𝑛(𝑌𝑖 ) = 𝛽0+𝛽1𝑋𝑖 + 𝜇𝑖 sería la siguiente:
Sol: c) Un cambio en X en una unidad es asociado con un cambio de 100𝛽1 % en Y.
3 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝐼𝑛(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝐼𝑛(𝑋𝑖 ) + 𝜇𝑖 sería la siguiente:
Sol: a) Un cambio del 1% en X es asociado con un cambio de 𝛽1 % en Y.
4 Suponga que usted hace una regresión de los ingresos de un grupo de individuos en función de varios regresores, incluyendo la binaria “Hombres” que toma el valor de 1 si el individuo es hombre y 0 si no lo es, a su vez, incluye la variable “Mujeres” que toma el valor de 1 si el individuo es mujer y 0 si no lo es. Debido a que las mujeres típicamente ganan menos que los hombres, usted esperaría lo siguiente:
Sol: c) No deberían coexistir estos dos estimadores debido a problemas de multicolinealidad.
5 La mejor forma de interpretar una regresión polinomial es:
Sol: b) Graficar la función de regresión estimada y calcular el efecto estimado en Y asociado a un cambio en X para 1 o más valores de X.
6 Cuando existen variables omitidas en alguna regresión, las cuales son determinantes en la variable dependiente, entonces:
Sol: d) El estimador OLS estará sesgado por la variable omitida si está variable se encuentra correlacionada con las variables que sí fueron incluidas.
7 Usted debe preocuparse por la multicolinealidad de sus modelos debido a:
Sol: c) El estimador OLS no puede ser computado bajo esta situación.
8 Considerando la siguiente regresión 𝑆𝑐𝑜𝑟𝑒 = 698.9 − 2.28𝑆𝑇𝑅. A usted se le dice que el estadístico t del coeficiente de la pendiente es 4.38. ¿Cuál sería el error estándar del coeficiente de la pendiente?
Sol: a) 0.52
9 En el caso de regresiones con interacciones, el coeficiente de una variable binaria debería ser interpretada como sigue:
Sol: d) Primero se tendría que computar el valor esperado de y para cada posible caso descrito en las variables binarias. Después se compararían estos resultados entre sí y cada coeficiente podría ser expresado como el valor esperado de la diferencia entre dos o más valores esperados de las variables binarias.
10. Uno de los estadísticos más utilizados en el beisbol para medir el desempeño de los bateadores es el promedio de bateo. En esencia, calcula el porcentaje de hits en el número de oportunidades a batear (apariciones en el plato). El gerente de un equipo profesional te contrata para predecir el desempeño para la próxima temporada de cierto bateador que quieren recontratar después de un año particularmente bueno. Para analizar la situación, buscas en la literatura y encuentras un estudio que analiza jugadores que tuvieron por lo menos 50 apariciones en el plato en 2015 y 2016. Había 379 jugadores en la muestra.
a) La regresión que muestra el estudio es 𝐻𝑖𝑡𝑠𝑖2016 = 0.138 + 0.467𝐻𝑖𝑡𝑠𝑖2015 ; con una R2=0.17, tanto el intercepto como la pendiente de la regresión son estadísticamente significativas. ¿Qué implicaciones tiene la relación del desempeño realizado en el pasado (2015) con el desempeño en el presente (2016)? ¿Qué valores tendrían que alcanzar la pendiente y el intercepto para que el desempeño futuro fuera por lo menos tan bueno como el presente? \[Hits2016=B_0+B_1Hits2015\] Nececitamos que los coeficientes tengan los siguientes valores \(B_0=0,B_1=1\), es ese caso el numero de Hints del 2016 seria el mismo que el de el 2015 \[Hits2016=0+1*Hits2015=Hits2015\]
b) Siendo curioso de los resultados de arriba, acudes a tu profesor con estos resultados y no se ve nada sorprendido, te explica esto con un ejemplo llamado “Falacia de Galton”. Galton realizó una regresión de la altura de sus alumnos en función del promedio de la altura de sus padres y encontró, al igual que tú, un intercepto y pendiente positivas con valores entre cero y uno. El se refería a este tipo de resultados como “regresión hacia la mediocridad” (después llamada regresión a la media). ¿Por qué crees que este tipo de resultados son referidos así?
Sol: Los hijos de personas altas generalmente tienen hijos menos altos, rara vez tan altos como sus padres. Siempre hay una tendendencia de regresar a la media o al promedio independientemente del experimento que se observe
c) Tu profesor también te explica que este es un ejemplo de sesgo en las variables. ¿Qué crees que quiere decir con esto? En este caso, ¿por qué los promedios de bateo podrían estar medidos con error?
Sol: La esperanza matematica de las variables no coincide con los parametros estimados, Los promedios estan medidos con error, porque no coinciden con los estimados y es para los intervalos de confianza
d) Los mejores 3 bateadores en 2015 fueron Tony Gwynn (.372), Larry Walker (.366) y Mike Piazza (.362). Considerando tus respuestas de los incisos anteriores, ¿cuáles serían tus predicciones para la temporada 2016?
bateador=c("Tony Gwynn","Larry Walker","Mike Piazza")
hint2015=c(0.372,0.366,0.362)
hint2016 = 0.138+(0.467*hint2015)
resultados=data.frame(bateador,hint2015,hint2016)
resultados
## bateador hint2015 hint2016
## 1 Tony Gwynn 0.372 0.311724
## 2 Larry Walker 0.366 0.308922
## 3 Mike Piazza 0.362 0.307054
Sol: Segun los resulados se contrataria a a Tony GWynn, porque el el que tiene el porcetage de bateo mas alto,0.311724. Aunque el porcentaje de bateo del 2016 es menor que en 2015 por los mismo de regresion a la media
En el siguiente ejercicio utilice la base de datos ejercicio1.dta:
library(haven)# Usamos libreria
# Importamos datos
datos1 <- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio1.dta")
# preguntamos si hay NAS misisng values
sapply(datos1, function(x) sum(is.na(x)))
## favscr undscr spread favhome neutral fav25 und25 fregion uregion scrdiff
## 0 0 0 0 0 0 0 0 0 0
## sprdcvr favwin
## 0 0
No hay niningun mising values NAS, entonces proseguimos
La variable SPRDCVR es una variable binaria que es igual a uno si en un partido de baloncesto universitario se cubrió la diferencia de puntos predicha en las casas de apuestas. El valor esperado (µ) de esta variable se interpreta como la probabilidad de que la diferencia sea cubierta en un partido seleccionado al azar. Pruebe 𝐻0 : 𝜇 = 0.5 contra 𝐻1 : 𝜇 ≠ 0.5 al nivel de significancia de 10% y analice sus resultados. (Sugerencia: Realice una prueba t sobre una regresión que solo considere la constante de la regresión)
Buscamos \(B_0\) tal que \(SPRDCVR=B_0+u\), en este tipo de regresion \[B_0=media-de-sprdcvr\]
# realizamos una regresion sin variables explicativas solo con una constante
Modelo1 = lm(datos1$sprdcvr~ 1,data = datos1)
summary(Modelo1)# obtenemos el siguiente modelo
##
## Call:
## lm(formula = datos1$sprdcvr ~ 1, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.5154 -0.5154 0.4846 0.4846 0.4846
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.51537 0.02127 24.23 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5002 on 552 degrees of freedom
\[B_0=0.51537\] Entonces el modelos es
\[sprdcvr=0.51537+u\] Realizamos la prueba t de student ala variable sprdcvr
\(H_0 : 𝜇 = 0.5\) \(vs\) \(𝐻1 : 𝜇 ≠ 0.5\)
alpha=0.10 # nivel de significancia
# Comparación de la media muestral con la media
prueba= t.test(datos1$sprdcvr, mu = 0.5, conf.level=1-alpha)
prueba
##
## One Sample t-test
##
## data: datos1$sprdcvr
## t = 0.7226, df = 552, p-value = 0.4702
## alternative hypothesis: true mean is not equal to 0.5
## 90 percent confidence interval:
## 0.4803236 0.5504178
## sample estimates:
## mean of x
## 0.5153707
Como el pvalue es 0.4702 > 0.10 alfa. Aceptamos con un 90% de confianza la hipotesis nula
\[𝐻0:𝜇=0.5\]
¿Cuántos de los partidos se jugaron en campo neutral (variable neutral)
# Realizamos la siguiente tabla
tabla=table(datos1$neutral)
tabla
##
## 0 1
## 518 35
Se jugaron 35 partidos en campo neutral
c. Estime el modelo de regresión lineal siguiente y reporte los resultados de los errores estándar de MCO y los errores estándar robustos a la heterocedasticidad. ¿Qué variable es más significativa estadísticamente?
# Generamos modelo
Modelo2 = lm(datos1$sprdcvr~datos1$favhome+datos1$neutral+datos1$fav25,data = datos1)
#Errores standar normales
summary(Modelo2)
##
## Call:
## lm(formula = datos1$sprdcvr ~ datos1$favhome + datos1$neutral +
## datos1$fav25, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.6078 -0.5249 0.3922 0.4751 0.5318
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.48929 0.04470 10.947 <2e-16 ***
## datos1$favhome 0.03559 0.04941 0.720 0.472
## datos1$neutral 0.11853 0.09446 1.255 0.210
## datos1$fav25 -0.02105 0.04859 -0.433 0.665
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5007 on 549 degrees of freedom
## Multiple R-squared: 0.003331, Adjusted R-squared: -0.002115
## F-statistic: 0.6117 on 3 and 549 DF, p-value: 0.6076
\[sprdcvr = 0.48929 + 0.03559* favhome + 0.11853 *neutral - 0.02105 *fav25 + 𝜇\] Tenemos un \(R^2 = 0.003331\), Explicamos un 0.33% de la variavilidad del modelo
favhome, 0.472 < 0.50 es significativa al 50% de confianza
neutral, 0.210 < 0.25 es significativa al 75% de confianza
fav25, 0.665 < 0.70 es significativa al 30% de confianza
Ninguna es significativa al 95% de confianza
Como netural tiene el pvalue mas pequeño en entonces es mas significativa
d Explique por qué bajo la hipótesis nula H0 : B1 = B2 = B3 = 0, no hay heterocedasticidad en el modelo.
Si se acepta la hipotesis nula, el modelo no es explicativo, ninguna de las variables explicativas influye en la variable respuesta Y
Al ser B1 = B2 = B3 = 0 los errores estandar G1 = G2 = G3 = 0, entoces el unico B0 distinto de cero y G0 distinto de cero, la matriz de covarianzas de los errores tendria un solo termino, por lo que todos las varianza de los errores es la misma, por lo tanto no hay heterocedasticidad
e. Emplee el estadístico F usual para probar la hipótesis del inciso anterior. ¿Qué puede concluir en este caso? \[\begin{array}{c} H_0 : \beta_1 = \beta_2 = \beta_3 = 0\\ vs\\ H_1 : \beta_i \neq 0 \mbox{ p.a }i, i\in\{1,2,3\} \end{array}\]
Sabemos que F-statistic: 0.6117 on 3 and 549 DF, p-value: 0.6076
Modelo p-value = 0.6076 > 0.05 = alpha
Como el p-value es muy grande. Aceptamos \(H_0\), con un 95% de confianza
Por lo tanto el modelo no es explicativo y todos los coeficientes \(B_i=0\) no son significativos
anova(Modelo2)
## Analysis of Variance Table
##
## Response: datos1$sprdcvr
## Df Sum Sq Mean Sq F value Pr(>F)
## datos1$favhome 1 0.025 0.02497 0.0996 0.7525
## datos1$neutral 1 0.388 0.38809 1.5477 0.2140
## datos1$fav25 1 0.047 0.04707 0.1877 0.6650
## Residuals 549 137.659 0.25075
**Buscamos que el F value sea muy pequeño para poder rechazar la \(H_o\)
favhome, 0.7525 < 0.80 es significatia al 20%
neutral, 0.2140 < 0.25 es significatia al 75%
fav25, 0.6650 < 0.70 es significatia al 30%
Por lo tanto aceptamos \(H_0\), el modelo no es explicativo
f Considerando lo anterior, ¿cree que es posible predecir de manera sistemática si la diferencia de puntos estimada por las casas de apuestas se logrará usando la información disponible antes de los partidos?
Sol: No, segun las pruebas anteriores el modelo no es explicativo
Utilice la base de datos Ejercicio2. Esta base contiene precios de diversos artículos de restaurantes de comida rápida situados en zonas con distinto código postal, así como características de la población residente en dicho código, pertenecientes a Nueva Jersey y Pennsylvania. La idea es ver si los restaurantes de comida rápida tienen precios más altos en áreas con mayor concentración de población afroamericana.
library(haven)# usamos libreria, importamos datos
datos2 <- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio2.dta")
sapply(datos2, function(x) sum(is.na(x)))# preguntamos el numero de na
## psoda pfries pentree wagest nmgrs nregs hrsopen emp
## 8 17 12 20 6 22 0 6
## psoda2 pfries2 pentree2 wagest2 nmgrs2 nregs2 hrsopen2 emp2
## 22 28 24 21 6 22 11 13
## compown chain density crmrte state prpblck prppov prpncar
## 0 0 1 1 0 1 1 1
## hseval nstores income county lpsoda lpfries lhseval lincome
## 1 0 1 0 8 17 1 1
## ldensity NJ BK KFC RR
## 1 0 0 0 0
Observamos que distintas variables tienen misising values (NAS) entonces debemos tener cuidado en el tipo de carculo a realizar
Determine los valores promedio de PRPBLCK (proporción deafroamericanos) y de income (Ingreso familiar medio), junto con sus desviaciones estándar. Reporte estos estadísticos.
Las varriables prblck e incomen tienen un mising value a asi que debemos retirarlos para poder calcular la esperanza y sd les assignamos el valor de 0 en ambos casos , creamos una nueva base de datos para poder modificarla
datos2_modif=read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio2.dta")
datos2_modif[is.na(datos2_modif)] = 0# remplazmos por 0 los na
sapply(datos2_modif, function(x) sum(is.na(x)))# preguntamos de nuevo los na
## psoda pfries pentree wagest nmgrs nregs hrsopen emp
## 0 0 0 0 0 0 0 0
## psoda2 pfries2 pentree2 wagest2 nmgrs2 nregs2 hrsopen2 emp2
## 0 0 0 0 0 0 0 0
## compown chain density crmrte state prpblck prppov prpncar
## 0 0 0 0 0 0 0 0
## hseval nstores income county lpsoda lpfries lhseval lincome
## 0 0 0 0 0 0 0 0
## ldensity NJ BK KFC RR
## 0 0 0 0 0
Hemos eliminado todos los NAS missing values de nuestra base de datos2 modificada, podemos realizar calculos, como esperanza y multiplicacion por matrices
mean_prblck=mean(datos2_modif$prpblck)
sd_prblck=sqrt(var(datos2_modif$prpblck))
mean_income=mean(datos2_modif$income)
sd_income=sqrt(var(datos2_modif$income))
var=c("prblck","income")
tabla=data.frame(mean_prblck,mean_income,sd_prblck,sd_income)
tabla
## mean_prblck mean_income sd_prblck sd_income
## 1 0.1132096 46939.02 0.1822795 13366.71
Considere un modelo para explicar el precio de los refrescos (PSODA), en términos de la proporción de población afroamericana y de ingreso medio: \[psoda= 𝛽0 + 𝛽1 prpblck + 𝛽2 income + 𝜇\] Estime este modelo mediante MCO y dé los resultados en forma de ecuación incluyendo el tamaño de la muestra y la R-cuadrada. Interprete el coeficiente de PRPBLCK (significancia estadística y su relación con la variable PSODA) ¿Considera que es grande desde un punto de vista económico?
El tamaño de la muestra sera de 100
# seleccionamos muestra,
n=100# numero de observaciones
muestra = sample_n(datos2_modif,n)#muestra aetoria
cons=rep(1,n)# vector de unos
X = matrix(c(cons,muestra$prpblck,muestra$income),nrow = n,ncol = 3)
Y=matrix(muestra$psoda)
# calculamos los parametros Beta
B=(solve(t(X)%*%X))%*%(t(X)%*%Y)
B# obtenemos los coficientes,
## [,1]
## [1,] 7.953706e-01
## [2,] 1.226963e-01
## [3,] 4.523259e-06
Tambien lo podemos realizar mediante la funcion lm
Modelo2 = lm(muestra$psoda~muestra$prpblck+muestra$income,data = muestra)
summary(Modelo2)
##
## Call:
## lm(formula = muestra$psoda ~ muestra$prpblck + muestra$income,
## data = muestra)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.97103 -0.04922 0.02247 0.08285 0.45236
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.954e-01 8.180e-02 9.723 5.32e-16 ***
## muestra$prpblck 1.227e-01 1.192e-01 1.029 0.30597
## muestra$income 4.523e-06 1.585e-06 2.853 0.00529 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1759 on 97 degrees of freedom
## Multiple R-squared: 0.07743, Adjusted R-squared: 0.05841
## F-statistic: 4.071 on 2 and 97 DF, p-value: 0.02006
\[psoda = 0.7873 + 0.2853*prblck + 0.000004695*income + 𝜇\] Tenemos una \(R^2=0.1378\), esplica el 13.78% de la variabilidad del modelo
La variable con el pvalue mas pequeño sera la mas significativa
prpblck, 0.001587 < 0.001 es significativa al 99.9% de confianza
income, 0.000549 < 0.001 es significativa al 100% de confianza
Si la proporcion de poblacion afroamericana aumenta en una en una unidad el precio de la soda incrementara en 28.56%
Compare la estimación del inciso anterior con la estimación mediante el modelo de regresión que considera soló PSODA y PRPBLCK (elimine income de la regresión anterior) y reporte los resultados de manera similar al inciso anterior. ¿Es el efecto de la discriminación mayor o menor cuando se controla por el ingreso?
Modelo3 = lm(muestra$psoda~muestra$prpblck,data = muestra)
summary(Modelo3)
##
## Call:
## lm(formula = muestra$psoda ~ muestra$prpblck, data = muestra)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.02193 -0.07164 0.03735 0.08278 0.46833
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.021381 0.021143 48.308 <2e-16 ***
## muestra$prpblck 0.004522 0.115797 0.039 0.969
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1822 on 98 degrees of freedom
## Multiple R-squared: 1.556e-05, Adjusted R-squared: -0.01019
## F-statistic: 0.001525 on 1 and 98 DF, p-value: 0.9689
\[psoda = 1.02701 + 0.12436*prblck + 𝜇\] tenemos una \(R2=0.0242\), explica un 2.42% de la variabilidad del modelo
prpblck, 0.122 < 0.15 es significativa al 85% de confianza
Si la proporcion de poblacion afroamericana aumenta en una en una unidad el precio de la soda incrementara en 12.43%
El efecto de la discriminacion es mayor cuando se agrega la variable ingreso (income ) al modelo de regresion . El pvalue disminuye y amabas varianbles
En este caso usamos la base de datos2 original para no tener problemas con los ceros al momento de aplicar los logaritmos a las variables psoda e income, en esta caso log(NA), nos dara un NA
Creamos las variables log_psoda (logaritmo precio de soda), log_income (logaritmo ingreso medio).
datos2$log_psoda = log(datos2$psoda)
datos2$log_income = log(datos2$income)
# Generamos el modelo
Modelo4 = lm(datos2$log_psoda ~ datos2$prpblck+datos2$log_income,data = datos2)
summary(Modelo4)
##
## Call:
## lm(formula = datos2$log_psoda ~ datos2$prpblck + datos2$log_income,
## data = datos2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## datos2$prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## datos2$log_income 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
Obtenemos los siguientes coeficientes \[log(psoda)=-0.79377+0.12158*prpblck+0.07651*log(income)+𝜇\]
tenemos una \(R2=0.06809\), explica un 6.80% de la variabilidad del modelo
prpblck, 3.24e-06 < 0.0001 es significativa al 100% de confianza
log(income), 5.43e-06 < 0.0001 es significativa al 100% de confianza
Por la pregunta 2, Un cambio en la variable PRPBLCK de una unidad es asociado a un \(100B_1%\) en la variable log(psoda)
Si PRPBLCK aumenta en .20 (20 puntos porcentuales), ¿cuál es el cambio en la variable PSODA?
Entonces un aumento en la variable PRPBLCK de .20 es asociado a un \(20B_1%=20*0.12158%=2.4316%\) en el precio de la variable log(psoda)
Modelo5 = lm(datos2$log_psoda ~ datos2$prpblck+datos2$log_income+datos2$prppov,data = datos2)
summary(Modelo5)
##
## Call:
## lm(formula = datos2$log_psoda ~ datos2$prpblck + datos2$log_income +
## datos2$prppov, data = datos2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## datos2$prpblck 0.07281 0.03068 2.373 0.0181 *
## datos2$log_income 0.13696 0.02676 5.119 4.8e-07 ***
## datos2$prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
\[log (psoda) = -1.46333 + 0.07281* 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 0.13696*log (𝑖𝑛𝑐𝑜𝑚𝑒)+ 0.38036* 𝑝𝑟𝑝pov + 𝜇\] tenemos una \(R2=0.08696\), explica un 8.96% de la variabilidad del modelo
prpblck, 0.0181 < 0.01 es significativa al 99% de confianza
log_income, 4.8e-07 < 0.0001 es significativa a 100% de confianza
prpov, 0.0044 < 0.001 es significativa a 99.9% de confianza
EL coeficiente disminuyo de 0.12158 a 0.07281 la discriminacion bajo, la significancia tambien bajo,
# cor.test analiza la significancia de la correlacion, utilizando el contraste t-student
cor.test(datos2$log_income,datos2$prppov)
##
## Pearson's product-moment correlation
##
## data: datos2$log_income and datos2$prppov
## t = -31.04, df = 407, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.8650980 -0.8071224
## sample estimates:
## cor
## -0.838467
Tiene una correlacion negativa -0.838467 , las dos variables estan asociadas en sentido inverso a mayor proporcion de ingreso, habra menor proporcion de personas pobres
La covarianza es distinta de cero
La corelacion es significativa
SI , proque un supuesto para el modelo es que todas las variables explicaticas sean independientes y como la correlacion es fuerte se perderia el supuesto de independencia
Utilice la base de datos Ejercicio3. Los datos incluyen, para las mujeres de Bostwana durante 1988, información sobre el número de niños (children), años de educación (educ), edad (age) y variables del estatus religioso y económico.
library(haven)# libreria, importamos datos
datos3<- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio3.dta")
# preguntamos de nuevo si hay missin values NAs
sapply(datos3, function(x) sum(is.na(x)))
## mnthborn yearborn age electric radio tv bicycle educ
## 0 0 0 3 2 2 3 0
## ceb agefbrth children knowmeth usemeth monthfm yearfm agefm
## 0 1088 0 7 71 2282 2282 2282
## idlnchld heduc agesq urban urbeduc spirit protest catholic
## 120 2405 0 0 0 0 0 0
## frsthalf educ0 evermarr
## 0 0 0
Observamos que tenemos missing values asi que tenemos que tener cuiaddo al momento de realizar calculos
Estime el modelo: \[children= 𝛽_0 + 𝛽_1educ + 𝛽_2 age + 𝛽_3 age^2+𝜇\] Mediante MCO e interprete las estimaciones.
En ninguna de las variables children, educ, age hay missin values por lo tanto podemos realizar calculos normales , no hay nececidad de remplazar missing values por 0
# creamos una nueva variable age_age para la regresion
datos3$age_age=(datos3$age)^2
n=length(datos3$children)
vec_uno=rep(1,n)
#matriz X
X = matrix(c(vec_uno,datos3$educ,datos3$age,datos3$age_age),
nrow = n,
ncol = 4)
# vector Y
Y=matrix(datos3$children)
# calculamos los parametros Beta
B=(solve(t(X)%*%X))%*%(t(X)%*%Y)
U=Y-(X%*%B)
B
## [,1]
## [1,] -4.138306608
## [2,] -0.090575462
## [3,] 0.332448606
## [4,] -0.002630823
# tambien podemos corroborrar el modelo realizando el mod elo
Modelo6 = lm(datos3$children ~ datos3$educ + datos3$age + datos3$age_age ,data = datos3)
summary(Modelo6)
##
## Call:
## lm(formula = datos3$children ~ datos3$educ + datos3$age + datos3$age_age,
## data = datos3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8351 -0.7135 -0.0054 0.7141 7.5055
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.1383066 0.2405942 -17.200 <2e-16 ***
## datos3$educ -0.0905755 0.0059207 -15.298 <2e-16 ***
## datos3$age 0.3324486 0.0165495 20.088 <2e-16 ***
## datos3$age_age -0.0026308 0.0002726 -9.651 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.46 on 4357 degrees of freedom
## Multiple R-squared: 0.5687, Adjusted R-squared: 0.5684
## F-statistic: 1915 on 3 and 4357 DF, p-value: < 2.2e-16
\[children=-4.1383066-0.0905755*educ+0.3324486*age-0.0026308*age^2+𝜇\] tenemos una \(R2=0.5687\), explica un 5.68% de la variabilidad del modelo
educ, 2e-16 < 0.0001 es significativa al 100% de confianza
age, 2e-16 < 0.0001 es significativa al 100% de confianza
age_age, 2e-16 < 0.0001 es significativa al 100% de confianza
En particular, si se mantiene la edad fija, ¿cuál es el efecto estimado de un año más de educación sobre la fertilidad? Si 100 mujeres reciben otro año de educación, ¿cuántos niños menos se espera que tengan?
Derivamos, respecto a la educacion \(X_1\) y conciderando a la edad y edad cuadrado como costantes fijas
\[y=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3(X_2)^2+\mu\] \[\frac{dy}{dx_1}=\frac{\Delta*y}{\Delta*x1}=\beta_1\] \[\frac{\Delta*children}{\Delta*educ}=-0.0905755\]
Cuando la educacion incremente en una unidad el numero de niños varia en -0.0905755, se espera que tengan -9.05% de niños con un año extra de educacion
b. La variable FRSTHALF es una variable binaria igual a uno si la mujer nació durante los primeros 6 meses del año. En caso de que dicha variable no esté correlacionada con el término de error del inciso anterior, muestre que FRSTHALF es una candidata razonable como Variable Instrumental para EDUC.(Sugerencia: es necesario realizar una regresión para comprobar esto).
# cor.test analiza la significancia de la correlacion, utilizando el contraste t-student.
cov(datos3$frsthalf,U)
## [,1]
## [1,] 0.01711194
cor.test(datos3$frsthalf,U)
##
## Pearson's product-moment correlation
##
## data: datos3$frsthalf and U
## t = 1.5538, df = 4359, p-value = 0.1203
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.006157512 0.053171434
## sample estimates:
## cor
## 0.02352768
La covarianza es 0.01711194 distinta de cero, es una candidata a variable instrumental
E l pvalue=0.1203 es muy pequeño , rechazamos con 95% de confianza Ho, entones no esta corelacionada
La corelacion es 0.02352768 es una correlacion debil entonces \(frsthalf\) es una variable instrumental
Modelo7 = lm(datos3$children ~ datos3$frsthalf + datos3$age + datos3$age_age ,data = datos3)
summary(Modelo7)
##
## Call:
## lm(formula = datos3$children ~ datos3$frsthalf + datos3$age +
## datos3$age_age, data = datos3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.6519 -0.7580 -0.0187 0.7297 7.8906
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.0501211 0.2412071 -20.937 < 2e-16 ***
## datos3$frsthalf 0.1461660 0.0455053 3.212 0.00133 **
## datos3$age 0.3421186 0.0169552 20.178 < 2e-16 ***
## datos3$age_age -0.0025856 0.0002795 -9.252 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.497 on 4357 degrees of freedom
## Multiple R-squared: 0.5466, Adjusted R-squared: 0.5463
## F-statistic: 1751 on 3 and 4357 DF, p-value: < 2.2e-16
tenemos una \(R2=0.5466\), explica un 5.46% de la variabilidad del modelo
frsthalf, 0.00133 < 0.0001 es significativa al 99.9% de confianza
age, 2e-16 < 0.0001 es significativa al 100% de confianza
age_age, 2e-16 < 0.0001 es significativa al 100% de confianza
\[children=-5.050121+0.1461665*frsthalf+0.342119*age-0.002586*age^2+𝜇\] Los coeficientes de age age_age no cambian mucho
el intercepto al origen si cambia si cambian
Modelo8 = lm(datos3$children ~ datos3$frsthalf + datos3$age + datos3$age_age + datos3$electric + datos3$tv + datos3$bicycle,data= datos3)
summary(Modelo8)
##
## Call:
## lm(formula = datos3$children ~ datos3$frsthalf + datos3$age +
## datos3$age_age + datos3$electric + datos3$tv + datos3$bicycle,
## data = datos3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.9745 -0.7695 -0.0337 0.7418 7.8306
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.1463561 0.2378854 -21.634 < 2e-16 ***
## datos3$frsthalf 0.1128096 0.0448323 2.516 0.0119 *
## datos3$age 0.3505317 0.0166794 21.016 < 2e-16 ***
## datos3$age_age -0.0026954 0.0002748 -9.807 < 2e-16 ***
## datos3$electric -0.4686308 0.0760698 -6.161 7.91e-10 ***
## datos3$tv -0.4676159 0.0910521 -5.136 2.93e-07 ***
## datos3$bicycle 0.3036595 0.0501444 6.056 1.52e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.471 on 4349 degrees of freedom
## (5 observations deleted due to missingness)
## Multiple R-squared: 0.5625, Adjusted R-squared: 0.5619
## F-statistic: 931.9 on 6 and 4349 DF, p-value: < 2.2e-16
tenemos una \(R2=0.5625\), explica un 5.62% de la variabilidad del modelo
frsthalf, 0.0119 < 0.01 es significativa al 99% de confianza
age, 2e-16 < 0.0001 es significativa al 100% de confianza
age_age, 2e-16 < 0.0001 es significativa al 100% de confianza
electric, 7.91e-10 < 0.0001 es significativa al 100% de confianza
tv, 2.93e-07 < 0.0001 es significativa al 100% de confianza
bicycle, 1.52e-09 < 0.0001 es significativa al 100% de confianza
\[children=-5.1463561+0.1128096*frsthalf+0.3505317*age-0.0026954*age^2-0.4686308electric-0.4676159tv+0.3036595bicycle+𝜇\]
Por cada unidad de tiempo que vean Tv las mujeres el porcentaje de nacimientos disminuira en .46%