Exercício 1

Seja a equação que relaciona salário e educação:
\(ln(salário) = β0 + β1 ∗ educação + β2 ∗ sexo + β3 ∗ cor + β4 ∗ exper + β5 ∗ exper2 + ε\)
Suspeitamos que haja endogeneidade na variável de educação, com a presença de uma variável omitida da regressão presente no erro (habilidade). A lista abaixo apresenta alguns dos possíveis instrumentos:
• Distância da casa à escola pública mais próxima no ensino fundamental;
• Educação dos pais;
• Número de irmãos;
• Ter recebido ou não (uma dummy) bolsa de estudos para fazer ensino médio;
• Altura média das àrvores nas escolas de ensino fundamental que o indivíduo frequentou.

a) Qual dessas variáveis listadas acima poderiam ser um bom instrumento? Justifique as que foram excluídas.
b) Quais as hipóteses que você está assumindo no item a) para identificar um bom instrumento? Disserte.
c) O estimador de IV escolhido por você neste caso será não viesado?
d) Que teste é possível de ser realizado para confirmar sua escolha?

Resposta:

a e b) Para determinar quais das variáveis listadas podem ser bons instrumentos para a educação na equação de regressão dada, devemos avaliar duas condições essenciais para uma variável ser um bom instrumento:
Relevância: A variável instrumental deve estar correlacionada com a variável endógena (neste caso, a educação).
Exogeneidade: A variável instrumental não deve estar correlacionada com o termo de erro (ε), ou seja, não deve estar correlacionada com a habilidade (a variável omitida).

Vamos analisar cada uma das variáveis listadas:

Distância da casa à escola pública mais próxima no ensino fundamental:
• Relevância: A distância à escola pública mais próxima pode afetar a probabilidade de uma criança frequentar a escola e, portanto, o nível de educação alcançado.
• Exogeneidade: Esta variável é plausivelmente exógena, pois a distância não deveria estar diretamente relacionada com a habilidade do indivíduo, que é a variável omitida.
• Conclusão: Pode ser um bom instrumento.

Educação dos pais:
• Relevância: A educação dos pais está fortemente correlacionada com a educação dos filhos, pois pais mais educados tendem a investir mais na educação dos seus filhos.

• Exogeneidade: A educação dos pais pode estar correlacionada com a habilidade dos filhos, pois pais mais educados podem transmitir habilidades cognitivas e não cognitivas aos seus filhos.

• Conclusão: Excluído como bom instrumento devido à potencial correlação com a habilidade (endogeneidade).

Número de irmãos:
• Relevância: O número de irmãos pode influenciar os recursos disponíveis para a educação de cada criança na família (por exemplo, menos recursos por criança em famílias maiores).
• Exogeneidade: O número de irmãos pode estar correlacionado com a habilidade, já que fatores familiares (como valores culturais e sociais) que influenciam o número de filhos podem também afetar a habilidade.
• Conclusão: Excluído como bom instrumento devido à potencial correlação com a habilidade (endogeneidade).

Ter recebido ou não (uma dummy) bolsa de estudos para fazer ensino médio:
• Relevância: Receber uma bolsa de estudos está diretamente relacionado com a capacidade de continuar a educação.
• Exogeneidade: Receber uma bolsa pode estar correlacionado com a habilidade do aluno, já que bolsas são frequentemente concedidas com base em desempenho acadêmico ou potencial, que refletem habilidade.
• Conclusão: Excluído como bom instrumento devido à potencial correlação com a habilidade (endogeneidade).

Altura média das árvores nas escolas de ensino fundamental que o indivíduo frequentou:
• Relevância: Esta variável parece ter pouca ou nenhuma relação direta com a educação de um indivíduo.
• Exogeneidade: Apesar de provavelmente ser exógena (não correlacionada com a habilidade), ela não tem relevância suficiente para a educação.
• Conclusão: Excluído como bom instrumento devido à falta de relevância.

Conclusão FInal

Distância da casa à escola pública mais próxima no ensino fundamental é a única variável que atende aos critérios de um bom instrumento:

C) A Variável Instrumental não corrige problemas relacionados ao viés mas sim relacionados a consistência do modelo visto que o estimador (Distancia entre a casa e a escola) terá uma covariância próxima de zero com a variável omitida (habilidade) e uma covariância maior do que zero com educação corrigindo assim o problema de endogeneidade. Entretanto podemos dizer que para grandes amostras o estimador será assintoticamente não viesado

D) Pode se utilizar o teste de Hausman para testar se o estimador de variável instrumental é consistente.

Exercício 2

Mostre em que circunstâncias o estimador de IV pode gerar estimativas piores que MQO.

Resposta:

O estimador IV pode gerar estimativas piores do que por MQO quando a variável instrumental não tiver uma relação forte com a variável que desejamos substituir e(ou) quando tiver tiver uma relação forte com a variável omitida no erro. Nesses casos o estimador não contribuirá, podendo até mesmo piorar, com a consistência do modelo.

Exercício 3

A base de dados “PNAD2014” contém 12.955 observações das seguintes variáveis da PNAD suplementar de 2014:
• Educ: anos de estudo
• Sexo: sexo (masculino ou feminino)
• Idade: anos de idade
• cor: cor/raça (negro ou não negro)
• Itrab: idade em que começou a trabalhar
• Rendimento: rendimento mensal em R$
• UF: unidade da federação (dummy)
• pai_educ: nível de escolaridade do pai (sem instrução, ensino fundamental completo, incompleto,médio completo e incmpleto, superior completo e incompleto)
• mae_educ: nível de escolaridade da mãe (. . . )

Instruções

• Etapa 1: Importe para o RStudio a base de dados. Verifique a existência de dados faltantes, analise a classe das variáveis e as estatísticas descritivas.

#encoding
options(encoding = "UTF-8") #codificação dos caracteres
options(scipen = 999) #desliga a notação científica


#packages
library(tidyverse) 
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(PNADcIBGE)
library(ggplot2)
library(zoo)
## 
## Attaching package: 'zoo'
## 
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(lmtest)
library(sandwich)
library(stargazer) 
## 
## Please cite as: 
## 
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
library(hrbrthemes)
library(ggplot2)
library(foreign)
library(AER)
## Carregando pacotes exigidos: car
## Carregando pacotes exigidos: carData
## 
## Attaching package: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
## 
## Carregando pacotes exigidos: survival
library(ivmodel)


load("PNAD2014.Rda")
pnad <- PNAD2014

anyNA(pnad)
## [1] FALSE
pnad <- na.omit(pnad)

glimpse(pnad)
## Rows: 12,955
## Columns: 9
## $ Educ       <dbl> 9, 14, 14, 8, 15, 11, 13, 15, 11, 11, 11, 11, 14, 13, 5, 11…
## $ Sexo       <fct> Feminino, Masculino, Masculino, Masculino, Feminino, Mascul…
## $ Idade      <int> 18, 60, 20, 22, 43, 33, 23, 22, 30, 26, 39, 62, 29, 22, 40,…
## $ Cor        <fct> Negro, Não negro, Não negro, Negro, Não negro, Negro, Negro…
## $ Itrab      <int> 17, 18, 17, 16, 14, 13, 7, 17, 19, 10, 11, 14, 14, 19, 10, …
## $ Rendimento <dbl> 724, 3500, 724, 724, 1400, 1300, 2480, 724, 864, 840, 350, …
## $ UF         <int> 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11,…
## $ pai_educ   <fct> Fundamental Completo, Fundamental Incompleto, Fundamental I…
## $ mae_educ   <fct> Superior Incompleto, Fundamental Incompleto, Médio Completo…
str(pnad)
## 'data.frame':    12955 obs. of  9 variables:
##  $ Educ      : num  9 14 14 8 15 11 13 15 11 11 ...
##  $ Sexo      : Factor w/ 2 levels "Feminino","Masculino": 1 2 2 2 1 2 2 1 1 2 ...
##  $ Idade     : int  18 60 20 22 43 33 23 22 30 26 ...
##  $ Cor       : Factor w/ 2 levels "Não negro","Negro": 2 1 1 2 1 2 2 1 2 2 ...
##  $ Itrab     : int  17 18 17 16 14 13 7 17 19 10 ...
##  $ Rendimento: num  724 3500 724 724 1400 1300 2480 724 864 840 ...
##  $ UF        : int  11 11 11 11 11 11 11 11 11 11 ...
##  $ pai_educ  : Factor w/ 7 levels "Sem instrução",..: 2 3 3 3 3 3 3 3 2 3 ...
##  $ mae_educ  : Factor w/ 7 levels "Sem instrução",..: 7 3 4 6 3 3 6 6 3 3 ...
summary(pnad)
##       Educ              Sexo          Idade               Cor      
##  Min.   : 0.00   Feminino :5796   Min.   : 16.00   Não negro:7280  
##  1st Qu.: 9.00   Masculino:7159   1st Qu.: 28.00   Negro    :5675  
##  Median :11.00                    Median : 35.00                   
##  Mean   :10.91                    Mean   : 37.21                   
##  3rd Qu.:15.00                    3rd Qu.: 46.00                   
##  Max.   :15.00                    Max.   :118.00                   
##                                                                    
##      Itrab         Rendimento           UF                          pai_educ   
##  Min.   : 4.00   Min.   :     1   Min.   :11.00   Sem instrução         : 425  
##  1st Qu.:14.00   1st Qu.:   850   1st Qu.:29.00   Fundamental Completo  :4493  
##  Median :16.00   Median :  1400   Median :33.00   Fundamental Incompleto:4389  
##  Mean   :16.09   Mean   :  2413   Mean   :33.89   Médio Completo        :2145  
##  3rd Qu.:18.00   3rd Qu.:  2500   3rd Qu.:42.00   Médio Incompleto      : 271  
##  Max.   :60.00   Max.   :120000   Max.   :53.00   Superior Completo     :1115  
##                                                   Superior Incompleto   : 117  
##                    mae_educ   
##  Sem instrução         : 353  
##  Fundamental Completo  :4558  
##  Fundamental Incompleto:4230  
##  Médio Completo        :2443  
##  Médio Incompleto      : 289  
##  Superior Completo     : 978  
##  Superior Incompleto   : 104

• Etapa 2: Estime por MQO e IV a regressão abaixo. COnsidere como instrumento a educação da mãe para educação do indivíduo:

$ln(salario) = β0 + β1 ∗ educ + β2 ∗ sexo + β3 ∗ cor + β4(Idade − Itrab) + β5(Idade − Itrab)^2 + erro $

pnad$log_salario <- log(pnad$Rendimento)
mqo<- lm(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(mqo)
## 
## Call:
## lm(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + 
##     I((Idade - Itrab)^2), data = pnad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.2656 -0.4240 -0.0310  0.3973  4.2709 
## 
## Coefficients:
##                         Estimate  Std. Error t value            Pr(>|t|)    
## (Intercept)           5.28426142  0.02966657  178.12 <0.0000000000000002 ***
## Educ                  0.12728615  0.00185029   68.79 <0.0000000000000002 ***
## SexoMasculino         0.42418331  0.01277319   33.21 <0.0000000000000002 ***
## CorNegro             -0.24168830  0.01281768  -18.86 <0.0000000000000002 ***
## I(Idade - Itrab)      0.03971416  0.00144988   27.39 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.00048584  0.00002743  -17.71 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7094 on 12949 degrees of freedom
## Multiple R-squared:  0.3612, Adjusted R-squared:  0.361 
## F-statistic:  1465 on 5 and 12949 DF,  p-value: < 0.00000000000000022
iv_model <- ivreg(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2) | mae_educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(iv_model)
## Warning in printHypothesis(L, rhs, names(b)): one or more coefficients in the hypothesis include
##      arithmetic operators in their names;
##   the printed representation of the hypothesis will be omitted
## 
## Call:
## ivreg(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + 
##     I((Idade - Itrab)^2) | mae_educ + Sexo + Cor + I(Idade - 
##     Itrab) + I((Idade - Itrab)^2), data = pnad)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -5.54187 -0.47882 -0.02142  0.44283  4.43537 
## 
## Coefficients:
##                         Estimate  Std. Error t value            Pr(>|t|)    
## (Intercept)           4.16998336  0.07147416  58.343 <0.0000000000000002 ***
## Educ                  0.21672778  0.00550111  39.397 <0.0000000000000002 ***
## SexoMasculino         0.52547306  0.01504074  34.937 <0.0000000000000002 ***
## CorNegro             -0.13560289  0.01519300  -8.925 <0.0000000000000002 ***
## I(Idade - Itrab)      0.03731263  0.00158126  23.597 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.00034705  0.00003084 -11.252 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7708 on 12949 degrees of freedom
## Multiple R-Squared: 0.246,   Adjusted R-squared: 0.2457 
## Wald test: 749.3 on 5 and 12949 DF,  p-value: < 0.00000000000000022

• Etapa 3: Mostre as duas regressões em uma tabela utilizando o pacote stargazer

stargazer(mqo, iv_model, type = "text")
## 
## ==========================================================================
##                                             Dependent variable:           
##                                  -----------------------------------------
##                                                 log_salario               
##                                              OLS              instrumental
##                                                                 variable  
##                                              (1)                  (2)     
## --------------------------------------------------------------------------
## Educ                                       0.127***             0.217***  
##                                            (0.002)              (0.006)   
##                                                                           
## SexoMasculino                              0.424***             0.525***  
##                                            (0.013)              (0.015)   
##                                                                           
## CorNegro                                  -0.242***            -0.136***  
##                                            (0.013)              (0.015)   
##                                                                           
## I(Idade - Itrab)                           0.040***             0.037***  
##                                            (0.001)              (0.002)   
##                                                                           
## I((Idade - Itrab)2)                       -0.0005***           -0.0003*** 
##                                           (0.00003)            (0.00003)  
##                                                                           
## Constant                                   5.284***             4.170***  
##                                            (0.030)              (0.071)   
##                                                                           
## --------------------------------------------------------------------------
## Observations                                12,955               12,955   
## R2                                          0.361                0.246    
## Adjusted R2                                 0.361                0.246    
## Residual Std. Error (df = 12949)            0.709                0.771    
## F Statistic                      1,464.504*** (df = 5; 12949)             
## ==========================================================================
## Note:                                          *p<0.1; **p<0.05; ***p<0.01

  1. Indique V ou F:

a) Na estimação por IV podemos afirmar, tudo mais constante, que um ano a mais de educação aumenta o rendimento em 12,7 %, enquanto na estimação por MQO aumenta em 21,7%.
b) Utilizando a educação materna e paterna como instrumentos para a educação do indivíduo no mesmo modelo descrito acima. A estimação por 2SLS nos indica, ceterir paribus, que um ano a mais de estudo aumenta o rendimento em 22,3%
iv_model_pai <- ivreg(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2) | mae_educ + pai_educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(iv_model_pai)
## Warning in printHypothesis(L, rhs, names(b)): one or more coefficients in the hypothesis include
##      arithmetic operators in their names;
##   the printed representation of the hypothesis will be omitted
## 
## Call:
## ivreg(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + 
##     I((Idade - Itrab)^2) | mae_educ + pai_educ + Sexo + Cor + 
##     I(Idade - Itrab) + I((Idade - Itrab)^2), data = pnad)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -5.49416 -0.48481 -0.02235  0.44698  4.49940 
## 
## Coefficients:
##                        Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)           4.0965282  0.0645762  63.437 <0.0000000000000002 ***
## Educ                  0.2226239  0.0049153  45.292 <0.0000000000000002 ***
## SexoMasculino         0.5321503  0.0149097  35.691 <0.0000000000000002 ***
## CorNegro             -0.1286096  0.0150387  -8.552 <0.0000000000000002 ***
## I(Idade - Itrab)      0.0371543  0.0015961  23.278 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.0003379  0.0000309 -10.935 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7788 on 12949 degrees of freedom
## Multiple R-Squared: 0.2303,  Adjusted R-squared:  0.23 
## Wald test: 840.2 on 5 and 12949 DF,  p-value: < 0.00000000000000022

c) Ao realizar o teste de exogeneidade dos regressores, rejeitamos H0 em todos os níveis de singificância usuais. Portanto, os regressores do nosso modelo são exógenos.

d) Podemos concluir a partir do teste de restrições sobreidentificadoras que não é possível rejeitar a hipótese de exogeneidade dos instrumentos educação materna e paterna.

Resposta:

a) Falso, é justamente o oposto, um ano a a mais de educação aumenta 21,7% por IV e 12,7% por MQO

b)Verdadeiro, um ano a mais de estudo aumenta o rendimento em 22,3%