PARTE TEORICA

Pregunta 1

1 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝑌𝑖=𝛽0 +𝛽1 𝐼𝑛(𝑋𝑖) + 𝜇𝑖 sería la siguiente:

Sol: b) Un cambio del 1% en X es asociado con un cambio de 0.01𝛽1 en Y.

Pregunta 2

2 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝐼𝑛(𝑌𝑖 ) = 𝛽0+𝛽1𝑋𝑖 + 𝜇𝑖 sería la siguiente:

Sol: c) Un cambio en X en una unidad es asociado con un cambio de 100𝛽1 % en Y.

Pregunta 3

3 La interpretación de la pendiente del coeficiente en el siguiente modelo: 𝐼𝑛(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝐼𝑛(𝑋𝑖 ) + 𝜇𝑖 sería la siguiente:

Sol: a) Un cambio del 1% en X es asociado con un cambio de 𝛽1 % en Y.

Pregunta 4

4 Suponga que usted hace una regresión de los ingresos de un grupo de individuos en función de varios regresores, incluyendo la binaria “Hombres” que toma el valor de 1 si el individuo es hombre y 0 si no lo es, a su vez, incluye la variable “Mujeres” que toma el valor de 1 si el individuo es mujer y 0 si no lo es. Debido a que las mujeres típicamente ganan menos que los hombres, usted esperaría lo siguiente:

Sol: c) No deberían coexistir estos dos estimadores debido a problemas de multicolinealidad.

Pregunta 5

5 La mejor forma de interpretar una regresión polinomial es:

Sol: b) Graficar la función de regresión estimada y calcular el efecto estimado en Y asociado a un cambio en X para 1 o más valores de X.

Pregunta 6

6 Cuando existen variables omitidas en alguna regresión, las cuales son determinantes en la variable dependiente, entonces:

Sol: d) El estimador OLS estará sesgado por la variable omitida si está variable se encuentra correlacionada con las variables que sí fueron incluidas.

Pregunta 7

7 Usted debe preocuparse por la multicolinealidad de sus modelos debido a:

Sol: c) El estimador OLS no puede ser computado bajo esta situación.

Pregunta 8

8 Considerando la siguiente regresión 𝑆𝑐𝑜𝑟𝑒 = 698.9 − 2.28𝑆𝑇𝑅. A usted se le dice que el estadístico t del coeficiente de la pendiente es 4.38. ¿Cuál sería el error estándar del coeficiente de la pendiente?

Sol: a) 0.52

Pregunta 9

9 En el caso de regresiones con interacciones, el coeficiente de una variable binaria debería ser interpretada como sigue:

Sol: d) Primero se tendría que computar el valor esperado de y para cada posible caso descrito en las variables binarias. Después se compararían estos resultados entre sí y cada coeficiente podría ser expresado como el valor esperado de la diferencia entre dos o más valores esperados de las variables binarias.

Pregunta 10

10. Uno de los estadísticos más utilizados en el beisbol para medir el desempeño de los bateadores es el promedio de bateo. En esencia, calcula el porcentaje de hits en el número de oportunidades a batear (apariciones en el plato). El gerente de un equipo profesional te contrata para predecir el desempeño para la próxima temporada de cierto bateador que quieren recontratar después de un año particularmente bueno. Para analizar la situación, buscas en la literatura y encuentras un estudio que analiza jugadores que tuvieron por lo menos 50 apariciones en el plato en 2015 y 2016. Había 379 jugadores en la muestra.

10. a)

a) La regresión que muestra el estudio es 𝐻𝑖𝑡𝑠𝑖2016 = 0.138 + 0.467𝐻𝑖𝑡𝑠𝑖2015 ; con una R2=0.17, tanto el intercepto como la pendiente de la regresión son estadísticamente significativas. ¿Qué implicaciones tiene la relación del desempeño realizado en el pasado (2015) con el desempeño en el presente (2016)? ¿Qué valores tendrían que alcanzar la pendiente y el intercepto para que el desempeño futuro fuera por lo menos tan bueno como el presente? \[Hits2016=B_0+B_1Hits2015\] Nececitamos que los coeficientes tengan los siguientes valores \(B_0=0,B_1=1\), es ese caso el numero de Hints del 2016 seria el mismo que el de el 2015 \[Hits2016=0+1*Hits2015=Hits2015\]

10.b)

b) Siendo curioso de los resultados de arriba, acudes a tu profesor con estos resultados y no se ve nada sorprendido, te explica esto con un ejemplo llamado “Falacia de Galton”. Galton realizó una regresión de la altura de sus alumnos en función del promedio de la altura de sus padres y encontró, al igual que tú, un intercepto y pendiente positivas con valores entre cero y uno. El se refería a este tipo de resultados como “regresión hacia la mediocridad” (después llamada regresión a la media). ¿Por qué crees que este tipo de resultados son referidos así?

Sol: Los hijos de personas altas generalmente tienen hijos menos altos, rara vez tan altos como sus padres. Siempre hay una tendendencia de regresar a la media o al promedio independientemente del experimento que se observe

10. c)

c) Tu profesor también te explica que este es un ejemplo de sesgo en las variables. ¿Qué crees que quiere decir con esto? En este caso, ¿por qué los promedios de bateo podrían estar medidos con error?

Sol: La esperanza matematica de las variables no coincide con los parametros estimados, Los promedios estan medidos con error, porque no coinciden con los estimados y es para los intervalos de confianza

10. d)

d) Los mejores 3 bateadores en 2015 fueron Tony Gwynn (.372), Larry Walker (.366) y Mike Piazza (.362). Considerando tus respuestas de los incisos anteriores, ¿cuáles serían tus predicciones para la temporada 2016?

bateador=c("Tony Gwynn","Larry Walker","Mike Piazza")
hint2015=c(0.372,0.366,0.362)
hint2016 = 0.138+(0.467*hint2015)
resultados=data.frame(bateador,hint2015,hint2016)
resultados
##       bateador hint2015 hint2016
## 1   Tony Gwynn    0.372 0.311724
## 2 Larry Walker    0.366 0.308922
## 3  Mike Piazza    0.362 0.307054

Sol: Segun los resulados se contrataria a a Tony GWynn, porque el el que tiene el porcetage de bateo mas alto,0.311724. Aunque el porcentaje de bateo del 2016 es menor que en 2015 por los mismo de regresion a la media

PARTE PRACTICA

Pregunta 11

En el siguiente ejercicio utilice la base de datos ejercicio1.dta:

library(haven)# Usamos libreria
# Importamos datos
datos1 <- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio1.dta")
# preguntamos si hay NAS misisng values
sapply(datos1, function(x) sum(is.na(x)))
##  favscr  undscr  spread favhome neutral   fav25   und25 fregion uregion scrdiff 
##       0       0       0       0       0       0       0       0       0       0 
## sprdcvr  favwin 
##       0       0

No hay niningun mising values NAS, entonces proseguimos

11. a)

La variable SPRDCVR es una variable binaria que es igual a uno si en un partido de baloncesto universitario se cubrió la diferencia de puntos predicha en las casas de apuestas. El valor esperado (µ) de esta variable se interpreta como la probabilidad de que la diferencia sea cubierta en un partido seleccionado al azar. Pruebe 𝐻0 : 𝜇 = 0.5 contra 𝐻1 : 𝜇 ≠ 0.5 al nivel de significancia de 10% y analice sus resultados. (Sugerencia: Realice una prueba t sobre una regresión que solo considere la constante de la regresión)

Buscamos \(B_0\) tal que \(SPRDCVR=B_0+u\), en este tipo de regresion \[B_0=media-de-sprdcvr\]

# realizamos una regresion sin variables explicativas solo con una constante
Modelo1 = lm(datos1$sprdcvr~ 1,data = datos1)
summary(Modelo1)# obtenemos el siguiente modelo
## 
## Call:
## lm(formula = datos1$sprdcvr ~ 1, data = datos1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5154 -0.5154  0.4846  0.4846  0.4846 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.51537    0.02127   24.23   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5002 on 552 degrees of freedom

\[B_0=0.51537\] Entonces el modelos es
\[sprdcvr=0.51537+u\] Realizamos la prueba t de student ala variable sprdcvr

\(H_0 : 𝜇 = 0.5\) \(vs\) \(𝐻1 : 𝜇 ≠ 0.5\)

alpha=0.10 # nivel de significancia
# Comparación de la media muestral con la media
prueba= t.test(datos1$sprdcvr, mu = 0.5, conf.level=1-alpha) 
prueba
## 
##  One Sample t-test
## 
## data:  datos1$sprdcvr
## t = 0.7226, df = 552, p-value = 0.4702
## alternative hypothesis: true mean is not equal to 0.5
## 90 percent confidence interval:
##  0.4803236 0.5504178
## sample estimates:
## mean of x 
## 0.5153707

Como el pvalue es 0.4702 > 0.10 alfa. Aceptamos con un 90% de confianza la hipotesis nula

\[𝐻0:𝜇=0.5\]

11. b)

¿Cuántos de los partidos se jugaron en campo neutral (variable neutral)

# Realizamos la siguiente tabla
tabla=table(datos1$neutral)
tabla
## 
##   0   1 
## 518  35

Se jugaron 35 partidos en campo neutral

11. c)

c. Estime el modelo de regresión lineal siguiente y reporte los resultados de los errores estándar de MCO y los errores estándar robustos a la heterocedasticidad. ¿Qué variable es más significativa estadísticamente?

# Generamos modelo
Modelo2 = lm(datos1$sprdcvr~datos1$favhome+datos1$neutral+datos1$fav25,data = datos1)
#Errores standar normales
summary(Modelo2)
## 
## Call:
## lm(formula = datos1$sprdcvr ~ datos1$favhome + datos1$neutral + 
##     datos1$fav25, data = datos1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6078 -0.5249  0.3922  0.4751  0.5318 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     0.48929    0.04470  10.947   <2e-16 ***
## datos1$favhome  0.03559    0.04941   0.720    0.472    
## datos1$neutral  0.11853    0.09446   1.255    0.210    
## datos1$fav25   -0.02105    0.04859  -0.433    0.665    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5007 on 549 degrees of freedom
## Multiple R-squared:  0.003331,   Adjusted R-squared:  -0.002115 
## F-statistic: 0.6117 on 3 and 549 DF,  p-value: 0.6076

\[sprdcvr = 0.48929 + 0.03559* favhome + 0.11853 *neutral - 0.02105 *fav25 + 𝜇\] Tenemos un \(R^2 = 0.003331\), Explicamos un 0.33% de la variavilidad del modelo

favhome, 0.472 < 0.50 es significativa al 50% de confianza

neutral, 0.210 < 0.25 es significativa al 75% de confianza

fav25, 0.665 < 0.70 es significativa al 30% de confianza

Ninguna es significativa al 95% de confianza

Como netural tiene el pvalue mas pequeño en entonces es mas significativa

11. d)

d Explique por qué bajo la hipótesis nula H0 : B1 = B2 = B3 = 0, no hay heterocedasticidad en el modelo.

Si se acepta la hipotesis nula, el modelo no es explicativo, ninguna de las variables explicativas influye en la variable respuesta Y

Al ser B1 = B2 = B3 = 0 los errores estandar G1 = G2 = G3 = 0, entoces el unico B0 distinto de cero y G0 distinto de cero, la matriz de covarianzas de los errores tendria un solo termino, por lo que todos las varianza de los errores es la misma, por lo tanto no hay heterocedasticidad

11. e)

e. Emplee el estadístico F usual para probar la hipótesis del inciso anterior. ¿Qué puede concluir en este caso? \[\begin{array}{c} H_0 : \beta_1 = \beta_2 = \beta_3 = 0\\ vs\\ H_1 : \beta_i \neq 0 \mbox{ p.a }i, i\in\{1,2,3\} \end{array}\]

Sabemos que F-statistic: 0.6117 on 3 and 549 DF, p-value: 0.6076

Modelo p-value = 0.6076 > 0.05 = alpha

Como el p-value es muy grande. Aceptamos \(H_0\), con un 95% de confianza

Por lo tanto el modelo no es explicativo y todos los coeficientes \(B_i=0\) no son significativos

anova(Modelo2)
## Analysis of Variance Table
## 
## Response: datos1$sprdcvr
##                 Df  Sum Sq Mean Sq F value Pr(>F)
## datos1$favhome   1   0.025 0.02497  0.0996 0.7525
## datos1$neutral   1   0.388 0.38809  1.5477 0.2140
## datos1$fav25     1   0.047 0.04707  0.1877 0.6650
## Residuals      549 137.659 0.25075

**Buscamos que el F value sea muy pequeño para poder rechazar la \(H_o\)

favhome, 0.7525 < 0.80 es significatia al 20%

neutral, 0.2140 < 0.25 es significatia al 75%

fav25, 0.6650 < 0.70 es significatia al 30%

Por lo tanto aceptamos \(H_0\), el modelo no es explicativo

11. f)

f Considerando lo anterior, ¿cree que es posible predecir de manera sistemática si la diferencia de puntos estimada por las casas de apuestas se logrará usando la información disponible antes de los partidos?

Sol: No, segun las pruebas anteriores el modelo no es explicativo

Pregunta 12

Utilice la base de datos Ejercicio2. Esta base contiene precios de diversos artículos de restaurantes de comida rápida situados en zonas con distinto código postal, así como características de la población residente en dicho código, pertenecientes a Nueva Jersey y Pennsylvania. La idea es ver si los restaurantes de comida rápida tienen precios más altos en áreas con mayor concentración de población afroamericana.

library(haven)# usamos libreria, importamos datos
datos2 <- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio2.dta")
sapply(datos2, function(x) sum(is.na(x)))# preguntamos el numero de na
##    psoda   pfries  pentree   wagest    nmgrs    nregs  hrsopen      emp 
##        8       17       12       20        6       22        0        6 
##   psoda2  pfries2 pentree2  wagest2   nmgrs2   nregs2 hrsopen2     emp2 
##       22       28       24       21        6       22       11       13 
##  compown    chain  density   crmrte    state  prpblck   prppov  prpncar 
##        0        0        1        1        0        1        1        1 
##   hseval  nstores   income   county   lpsoda  lpfries  lhseval  lincome 
##        1        0        1        0        8       17        1        1 
## ldensity       NJ       BK      KFC       RR 
##        1        0        0        0        0

Observamos que distintas variables tienen misising values (NAS) entonces debemos tener cuidado en el tipo de carculo a realizar

12. a)

Determine los valores promedio de PRPBLCK (proporción deafroamericanos) y de income (Ingreso familiar medio), junto con sus desviaciones estándar. Reporte estos estadísticos.

Las varriables prblck e incomen tienen un mising value a asi que debemos retirarlos para poder calcular la esperanza y sd les assignamos el valor de 0 en ambos casos , creamos una nueva base de datos para poder modificarla

datos2_modif=read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio2.dta")
datos2_modif[is.na(datos2_modif)] = 0# remplazmos por 0 los na
sapply(datos2_modif, function(x) sum(is.na(x)))# preguntamos de nuevo los na
##    psoda   pfries  pentree   wagest    nmgrs    nregs  hrsopen      emp 
##        0        0        0        0        0        0        0        0 
##   psoda2  pfries2 pentree2  wagest2   nmgrs2   nregs2 hrsopen2     emp2 
##        0        0        0        0        0        0        0        0 
##  compown    chain  density   crmrte    state  prpblck   prppov  prpncar 
##        0        0        0        0        0        0        0        0 
##   hseval  nstores   income   county   lpsoda  lpfries  lhseval  lincome 
##        0        0        0        0        0        0        0        0 
## ldensity       NJ       BK      KFC       RR 
##        0        0        0        0        0

Hemos eliminado todos los NAS missing values de nuestra base de datos2 modificada, podemos realizar calculos, como esperanza y multiplicacion por matrices

mean_prblck=mean(datos2_modif$prpblck)
sd_prblck=sqrt(var(datos2_modif$prpblck))
mean_income=mean(datos2_modif$income)
sd_income=sqrt(var(datos2_modif$income))
var=c("prblck","income")
tabla=data.frame(mean_prblck,mean_income,sd_prblck,sd_income)
tabla
##   mean_prblck mean_income sd_prblck sd_income
## 1   0.1132096    46939.02 0.1822795  13366.71

12. b)

Considere un modelo para explicar el precio de los refrescos (PSODA), en términos de la proporción de población afroamericana y de ingreso medio: \[psoda= 𝛽0 + 𝛽1 prpblck + 𝛽2 income + 𝜇\] Estime este modelo mediante MCO y dé los resultados en forma de ecuación incluyendo el tamaño de la muestra y la R-cuadrada. Interprete el coeficiente de PRPBLCK (significancia estadística y su relación con la variable PSODA) ¿Considera que es grande desde un punto de vista económico?

El tamaño de la muestra sera de 100

# seleccionamos muestra, 
n=100# numero de observaciones
muestra = sample_n(datos2_modif,n)#muestra aetoria
cons=rep(1,n)# vector de unos
X = matrix(c(cons,muestra$prpblck,muestra$income),nrow = n,ncol = 3)
Y=matrix(muestra$psoda)
# calculamos los parametros Beta
B=(solve(t(X)%*%X))%*%(t(X)%*%Y)
B# obtenemos los coficientes, 
##              [,1]
## [1,] 7.953706e-01
## [2,] 1.226963e-01
## [3,] 4.523259e-06

Tambien lo podemos realizar mediante la funcion lm

Modelo2 = lm(muestra$psoda~muestra$prpblck+muestra$income,data = muestra)
summary(Modelo2)
## 
## Call:
## lm(formula = muestra$psoda ~ muestra$prpblck + muestra$income, 
##     data = muestra)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.97103 -0.04922  0.02247  0.08285  0.45236 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     7.954e-01  8.180e-02   9.723 5.32e-16 ***
## muestra$prpblck 1.227e-01  1.192e-01   1.029  0.30597    
## muestra$income  4.523e-06  1.585e-06   2.853  0.00529 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1759 on 97 degrees of freedom
## Multiple R-squared:  0.07743,    Adjusted R-squared:  0.05841 
## F-statistic: 4.071 on 2 and 97 DF,  p-value: 0.02006

\[psoda = 0.7873 + 0.2853*prblck + 0.000004695*income + 𝜇\] Tenemos una \(R^2=0.1378\), esplica el 13.78% de la variabilidad del modelo

La variable con el pvalue mas pequeño sera la mas significativa

prpblck, 0.001587 < 0.001 es significativa al 99.9% de confianza

income, 0.000549 < 0.001 es significativa al 100% de confianza

Si la proporcion de poblacion afroamericana aumenta en una en una unidad el precio de la soda incrementara en 28.56%

12. c)

Compare la estimación del inciso anterior con la estimación mediante el modelo de regresión que considera soló PSODA y PRPBLCK (elimine income de la regresión anterior) y reporte los resultados de manera similar al inciso anterior. ¿Es el efecto de la discriminación mayor o menor cuando se controla por el ingreso?

Modelo3 = lm(muestra$psoda~muestra$prpblck,data = muestra)
summary(Modelo3)
## 
## Call:
## lm(formula = muestra$psoda ~ muestra$prpblck, data = muestra)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.02193 -0.07164  0.03735  0.08278  0.46833 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     1.021381   0.021143  48.308   <2e-16 ***
## muestra$prpblck 0.004522   0.115797   0.039    0.969    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1822 on 98 degrees of freedom
## Multiple R-squared:  1.556e-05,  Adjusted R-squared:  -0.01019 
## F-statistic: 0.001525 on 1 and 98 DF,  p-value: 0.9689

\[psoda = 1.02701 + 0.12436*prblck + 𝜇\] tenemos una \(R2=0.0242\), explica un 2.42% de la variabilidad del modelo

prpblck, 0.122 < 0.15 es significativa al 85% de confianza

Si la proporcion de poblacion afroamericana aumenta en una en una unidad el precio de la soda incrementara en 12.43%

El efecto de la discriminacion es mayor cuando se agrega la variable ingreso (income ) al modelo de regresion . El pvalue disminuye y amabas varianbles

12. d)

  1. Cuando se cuenta con variables numéricas como precios o salarios es común utilizar el logaritmo natural para dar mayor estabilidad a los modelos ante posibles datos atípicos. Su interpretación varía según el caso, pero básicamente se interpreta sobre porcentajes y puntos porcentuales (investigue interpretación nivel-nivel, nivel-log, log-nivel y log-log o haga caso omiso en caso de conocer esta parte). Proporcione las estimaciones del modelo: \[log (psoda)=𝛽0+𝛽1prblack+𝛽2log(income)+𝜇\] Si PRPBLCK aumenta en .20 (20 puntos porcentuales), ¿cuál es el cambio en la variable PSODA?

En este caso usamos la base de datos2 original para no tener problemas con los ceros al momento de aplicar los logaritmos a las variables psoda e income, en esta caso log(NA), nos dara un NA

Creamos las variables log_psoda (logaritmo precio de soda), log_income (logaritmo ingreso medio).

datos2$log_psoda = log(datos2$psoda)
datos2$log_income = log(datos2$income)
# Generamos el modelo
Modelo4 = lm(datos2$log_psoda ~ datos2$prpblck+datos2$log_income,data = datos2)
summary(Modelo4)
## 
## Call:
## lm(formula = datos2$log_psoda ~ datos2$prpblck + datos2$log_income, 
##     data = datos2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -0.79377    0.17943  -4.424 1.25e-05 ***
## datos2$prpblck     0.12158    0.02575   4.722 3.24e-06 ***
## datos2$log_income  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07

Obtenemos los siguientes coeficientes \[log(psoda)=-0.79377+0.12158*prpblck+0.07651*log(income)+𝜇\]

tenemos una \(R2=0.06809\), explica un 6.80% de la variabilidad del modelo

prpblck, 3.24e-06 < 0.0001 es significativa al 100% de confianza

log(income), 5.43e-06 < 0.0001 es significativa al 100% de confianza

Por la pregunta 2, Un cambio en la variable PRPBLCK de una unidad es asociado a un \(100B_1%\) en la variable log(psoda)

Si PRPBLCK aumenta en .20 (20 puntos porcentuales), ¿cuál es el cambio en la variable PSODA?

Entonces un aumento en la variable PRPBLCK de .20 es asociado a un \(20B_1%=20*0.12158%=2.4316%\) en el precio de la variable log(psoda)

12. e)

  1. Agregue ahora la variable PRPPOV (proporción de personas en pobreza) a la regresión del inciso anterior. ¿Qué diferencia hay con el coeficiente de PRPBLCK? Interprete las diferencias.
Modelo5 = lm(datos2$log_psoda ~ datos2$prpblck+datos2$log_income+datos2$prppov,data = datos2)
summary(Modelo5)
## 
## Call:
## lm(formula = datos2$log_psoda ~ datos2$prpblck + datos2$log_income + 
##     datos2$prppov, data = datos2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -1.46333    0.29371  -4.982  9.4e-07 ***
## datos2$prpblck     0.07281    0.03068   2.373   0.0181 *  
## datos2$log_income  0.13696    0.02676   5.119  4.8e-07 ***
## datos2$prppov      0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

\[log (psoda) = -1.46333 + 0.07281* 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 0.13696*log (𝑖𝑛𝑐𝑜𝑚𝑒)+ 0.38036* 𝑝𝑟𝑝pov + 𝜇\] tenemos una \(R2=0.08696\), explica un 8.96% de la variabilidad del modelo

prpblck, 0.0181 < 0.01 es significativa al 99% de confianza

log_income, 4.8e-07 < 0.0001 es significativa a 100% de confianza

prpov, 0.0044 < 0.001 es significativa a 99.9% de confianza

EL coeficiente disminuyo de 0.12158 a 0.07281 la discriminacion bajo, la significancia tambien bajo,

12. f)

  1. Encuentre la correlación entre log(income) y PRPPOV. Interprete.
# cor.test analiza la significancia de la correlacion, utilizando el contraste t-student
cor.test(datos2$log_income,datos2$prppov)  
## 
##  Pearson's product-moment correlation
## 
## data:  datos2$log_income and datos2$prppov
## t = -31.04, df = 407, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8650980 -0.8071224
## sample estimates:
##       cor 
## -0.838467

Tiene una correlacion negativa -0.838467 , las dos variables estan asociadas en sentido inverso a mayor proporcion de ingreso, habra menor proporcion de personas pobres

La covarianza es distinta de cero

La corelacion es significativa

12. g)

  1. ¿Está de acuerdo con la siguiente expresión? “Como log(income) y PEPPOV están fuertemente correlacionadas, no tiene caso que estén en la misma regresión”.

SI , proque un supuesto para el modelo es que todas las variables explicaticas sean independientes y como la correlacion es fuerte se perderia el supuesto de independencia

Pregunta 13

Utilice la base de datos Ejercicio3. Los datos incluyen, para las mujeres de Bostwana durante 1988, información sobre el número de niños (children), años de educación (educ), edad (age) y variables del estatus religioso y económico.

library(haven)# libreria, importamos datos
datos3<- read_dta("C:/Users/doria/OneDrive/Escritorio/eco 2/tarea_examen_2/data/Ejercicio3.dta")
# preguntamos de nuevo si hay missin values NAs
sapply(datos3, function(x) sum(is.na(x)))
## mnthborn yearborn      age electric    radio       tv  bicycle     educ 
##        0        0        0        3        2        2        3        0 
##      ceb agefbrth children knowmeth  usemeth  monthfm   yearfm    agefm 
##        0     1088        0        7       71     2282     2282     2282 
## idlnchld    heduc    agesq    urban  urbeduc   spirit  protest catholic 
##      120     2405        0        0        0        0        0        0 
## frsthalf    educ0 evermarr 
##        0        0        0

Observamos que tenemos missing values asi que tenemos que tener cuiaddo al momento de realizar calculos

13.a)

Estime el modelo: \[children= 𝛽_0 + 𝛽_1educ + 𝛽_2 age + 𝛽_3 age^2+𝜇\] Mediante MCO e interprete las estimaciones.

En ninguna de las variables children, educ, age hay missin values por lo tanto podemos realizar calculos normales , no hay nececidad de remplazar missing values por 0

# creamos una nueva variable age_age para la regresion
datos3$age_age=(datos3$age)^2
n=length(datos3$children)
vec_uno=rep(1,n)
#matriz X
X = matrix(c(vec_uno,datos3$educ,datos3$age,datos3$age_age),
           nrow = n,
           ncol = 4)
# vector Y
Y=matrix(datos3$children)
# calculamos los parametros Beta
B=(solve(t(X)%*%X))%*%(t(X)%*%Y)
U=Y-(X%*%B)
B
##              [,1]
## [1,] -4.138306608
## [2,] -0.090575462
## [3,]  0.332448606
## [4,] -0.002630823
# tambien podemos corroborrar el modelo realizando el mod elo
Modelo6 = lm(datos3$children ~ datos3$educ + datos3$age + datos3$age_age ,data = datos3)
summary(Modelo6)
## 
## Call:
## lm(formula = datos3$children ~ datos3$educ + datos3$age + datos3$age_age, 
##     data = datos3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.8351 -0.7135 -0.0054  0.7141  7.5055 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -4.1383066  0.2405942 -17.200   <2e-16 ***
## datos3$educ    -0.0905755  0.0059207 -15.298   <2e-16 ***
## datos3$age      0.3324486  0.0165495  20.088   <2e-16 ***
## datos3$age_age -0.0026308  0.0002726  -9.651   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.46 on 4357 degrees of freedom
## Multiple R-squared:  0.5687, Adjusted R-squared:  0.5684 
## F-statistic:  1915 on 3 and 4357 DF,  p-value: < 2.2e-16

\[children=-4.1383066-0.0905755*educ+0.3324486*age-0.0026308*age^2+𝜇\] tenemos una \(R2=0.5687\), explica un 5.68% de la variabilidad del modelo

educ, 2e-16 < 0.0001 es significativa al 100% de confianza

age, 2e-16 < 0.0001 es significativa al 100% de confianza

age_age, 2e-16 < 0.0001 es significativa al 100% de confianza

En particular, si se mantiene la edad fija, ¿cuál es el efecto estimado de un año más de educación sobre la fertilidad? Si 100 mujeres reciben otro año de educación, ¿cuántos niños menos se espera que tengan?

Derivamos, respecto a la educacion \(X_1\) y conciderando a la edad y edad cuadrado como costantes fijas

\[y=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3(X_2)^2+\mu\] \[\frac{dy}{dx_1}=\frac{\Delta*y}{\Delta*x1}=\beta_1\] \[\frac{\Delta*children}{\Delta*educ}=-0.0905755\]

Cuando la educacion incremente en una unidad el numero de niños varia en -0.0905755, se espera que tengan -9.05% de niños con un año extra de educacion

13. b)

b. La variable FRSTHALF es una variable binaria igual a uno si la mujer nació durante los primeros 6 meses del año. En caso de que dicha variable no esté correlacionada con el término de error del inciso anterior, muestre que FRSTHALF es una candidata razonable como Variable Instrumental para EDUC.(Sugerencia: es necesario realizar una regresión para comprobar esto).

# cor.test analiza la significancia de la correlacion, utilizando el contraste t-student.
cov(datos3$frsthalf,U)
##            [,1]
## [1,] 0.01711194
cor.test(datos3$frsthalf,U)
## 
##  Pearson's product-moment correlation
## 
## data:  datos3$frsthalf and U
## t = 1.5538, df = 4359, p-value = 0.1203
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.006157512  0.053171434
## sample estimates:
##        cor 
## 0.02352768

La covarianza es 0.01711194 distinta de cero, es una candidata a variable instrumental

E l pvalue=0.1203 es muy pequeño , rechazamos con 95% de confianza Ho, entones no esta corelacionada

La corelacion es 0.02352768 es una correlacion debil entonces \(frsthalf\) es una variable instrumental

13. c)

  1. Estime el modelo del inciso a) usando FRSTHALF como una variable instrumental para EDUC. Compare el efecto estimado de la educación con la estimación por MCO del inciso a)
Modelo7 = lm(datos3$children ~ datos3$frsthalf + datos3$age + datos3$age_age ,data = datos3)
summary(Modelo7)
## 
## Call:
## lm(formula = datos3$children ~ datos3$frsthalf + datos3$age + 
##     datos3$age_age, data = datos3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.6519 -0.7580 -0.0187  0.7297  7.8906 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -5.0501211  0.2412071 -20.937  < 2e-16 ***
## datos3$frsthalf  0.1461660  0.0455053   3.212  0.00133 ** 
## datos3$age       0.3421186  0.0169552  20.178  < 2e-16 ***
## datos3$age_age  -0.0025856  0.0002795  -9.252  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.497 on 4357 degrees of freedom
## Multiple R-squared:  0.5466, Adjusted R-squared:  0.5463 
## F-statistic:  1751 on 3 and 4357 DF,  p-value: < 2.2e-16

tenemos una \(R2=0.5466\), explica un 5.46% de la variabilidad del modelo

frsthalf, 0.00133 < 0.0001 es significativa al 99.9% de confianza

age, 2e-16 < 0.0001 es significativa al 100% de confianza

age_age, 2e-16 < 0.0001 es significativa al 100% de confianza

\[children=-5.050121+0.1461665*frsthalf+0.342119*age-0.002586*age^2+𝜇\] Los coeficientes de age age_age no cambian mucho

el intercepto al origen si cambia si cambian

13. d)

  1. Agregue las variables ELECTRIC (electricidad), TV (televisión) y BICYCLE (bicicleta) al modelo y suponga que son exógenas. Estime la ecuación por MCO y MC2E y compare los coeficientes estimados de EDUC. Interprete el coeficiente de TV y explique por qué tener televisor tiene un efecto negativo en la fertilidad.
Modelo8 = lm(datos3$children ~ datos3$frsthalf + datos3$age + datos3$age_age + datos3$electric + datos3$tv + datos3$bicycle,data= datos3)
summary(Modelo8)
## 
## Call:
## lm(formula = datos3$children ~ datos3$frsthalf + datos3$age + 
##     datos3$age_age + datos3$electric + datos3$tv + datos3$bicycle, 
##     data = datos3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.9745 -0.7695 -0.0337  0.7418  7.8306 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -5.1463561  0.2378854 -21.634  < 2e-16 ***
## datos3$frsthalf  0.1128096  0.0448323   2.516   0.0119 *  
## datos3$age       0.3505317  0.0166794  21.016  < 2e-16 ***
## datos3$age_age  -0.0026954  0.0002748  -9.807  < 2e-16 ***
## datos3$electric -0.4686308  0.0760698  -6.161 7.91e-10 ***
## datos3$tv       -0.4676159  0.0910521  -5.136 2.93e-07 ***
## datos3$bicycle   0.3036595  0.0501444   6.056 1.52e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.471 on 4349 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.5625, Adjusted R-squared:  0.5619 
## F-statistic: 931.9 on 6 and 4349 DF,  p-value: < 2.2e-16

tenemos una \(R2=0.5625\), explica un 5.62% de la variabilidad del modelo

frsthalf, 0.0119 < 0.01 es significativa al 99% de confianza

age, 2e-16 < 0.0001 es significativa al 100% de confianza

age_age, 2e-16 < 0.0001 es significativa al 100% de confianza

electric, 7.91e-10 < 0.0001 es significativa al 100% de confianza

tv, 2.93e-07 < 0.0001 es significativa al 100% de confianza

bicycle, 1.52e-09 < 0.0001 es significativa al 100% de confianza

\[children=-5.1463561+0.1128096*frsthalf+0.3505317*age-0.0026954*age^2-0.4686308electric-0.4676159tv+0.3036595bicycle+𝜇\]

Por cada unidad de tiempo que vean Tv las mujeres el porcentaje de nacimientos disminuira en .46%