Lista 2 de Econometria II - VI

Exercício Teórico

Questão 1 (Wooldridge)

Considere um modelo simples para estimar o efeito da posse de um computador pessoal (PC) na média de notas universitárias (\(GPA\)) de alunos do último ano de uma grande universidade pública:

\[GPA = \beta_0 + \beta_1 PC + u\]

onde \(PC\) é uma variável binária que indica a posse de um computador

Por que a posse de um computador, \(PC\), pode estar correlacionada com \(u\)?
Explique por que é provável que a posse de computador esteja relacionada com o rendimento anual dos pais. Isso significa que a renda dos pais é um bom IV para \(PC\)? Por que ou por que não?
Suponhamos que, há quatro anos, a universidade concedesse subsídios para a compra de computadores a cerca de metade dos estudantes que chegavam, e aos estudantes que as bolsas recebidas foram escolhidas aleatoriamente. Explique cuidadosamente como você usaria essas informações para construir uma variável instrumental para \(PC\).

Exercício Prático

Existem muitos estudos em economia do trabalho que tratam da questão da estimativa das funções dos rendimentos do capital humano, que afirmam como o rendimento salarial é determinado pela educação e pela experiência profissional. Um exemplo proeminente é Card (1993), que investiga o retorno económico da escolaridade e utiliza a proximidade da faculdade como variável instrumental.

Os exercícios deste capítulo tratam do conjunto de dados CollegeDistance que é semelhante aos dados usados por Card (1993). Resulta de uma pesquisa com diplomados do ensino secundário com variáveis codificadas para salários, educação, mensalidade e uma série de variáveis socioeconómicas. O conjunto de dados também inclui a distância de uma faculdade enquanto os participantes da pesquisa cursavam o ensino médio.

Os dados CollegeDistance vem com o pacote AER. A seguir, observe como importá-lo no R.

#instala o pacote `AER` (caso ainda não tenha feito)
install.packages("AER")

# carrega o pacote `AER`
library(AER)           

# carrega o dataset `CollegeDistance`
data("CollegeDistance")

Um overview do dataset

`summary()`

summary(CollegeDistance)

##     gender        ethnicity        score       fcollege   mcollege    home     
##  male  :2139   other   :3050   Min.   :28.95   no :3753   no :4088   no : 852  
##  female:2600   afam    : 786   1st Qu.:43.92   yes: 986   yes: 651   yes:3887  
##                hispanic: 903   Median :51.19                                   
##                                Mean   :50.89                                   
##                                3rd Qu.:57.77                                   
##                                Max.   :72.81                                   
##  urban          unemp             wage           distance         tuition      
##  no :3635   Min.   : 1.400   Min.   : 6.590   Min.   : 0.000   Min.   :0.2575  
##  yes:1104   1st Qu.: 5.900   1st Qu.: 8.850   1st Qu.: 0.400   1st Qu.:0.4850  
##             Median : 7.100   Median : 9.680   Median : 1.000   Median :0.8245  
##             Mean   : 7.597   Mean   : 9.501   Mean   : 1.803   Mean   :0.8146  
##             3rd Qu.: 8.900   3rd Qu.:10.150   3rd Qu.: 2.500   3rd Qu.:1.1270  
##             Max.   :24.900   Max.   :12.960   Max.   :20.000   Max.   :1.4042  
##    education      income       region    
##  Min.   :12.00   low :3374   other:3796  
##  1st Qu.:12.00   high:1365   west : 943  
##  Median :13.00                           
##  Mean   :13.81                           
##  3rd Qu.:16.00                           
##  Max.   :18.00

`str()`

str(CollegeDistance)

## 'data.frame':    4739 obs. of  14 variables:
##  $ gender   : Factor w/ 2 levels "male","female": 1 2 1 1 2 1 2 2 1 2 ...
##  $ ethnicity: Factor w/ 3 levels "other","afam",..: 1 1 1 2 1 1 1 1 1 1 ...
##  $ score    : num  39.2 48.9 48.7 40.4 40.5 ...
##  $ fcollege : Factor w/ 2 levels "no","yes": 2 1 1 1 1 1 1 1 2 1 ...
##  $ mcollege : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ home     : Factor w/ 2 levels "no","yes": 2 2 2 2 1 2 2 2 2 2 ...
##  $ urban    : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 1 1 2 2 ...
##  $ unemp    : num  6.2 6.2 6.2 6.2 5.6 ...
##  $ wage     : num  8.09 8.09 8.09 8.09 8.09 ...
##  $ distance : num  0.2 0.2 0.2 0.2 0.4 ...
##  $ tuition  : num  0.889 0.889 0.889 0.889 0.889 ...
##  $ education: num  12 12 12 12 13 12 13 15 13 15 ...
##  $ income   : Factor w/ 2 levels "low","high": 2 1 1 1 1 1 1 1 1 1 ...
##  $ region   : Factor w/ 2 levels "other","west": 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "datalabel")= chr ""
##  - attr(*, "time.stamp")= chr "25 Oct 2002 16:44"
##  - attr(*, "formats")= chr [1:14] "%9.0g" "%9.0g" "%9.0g" "%9.0g" ...
##  - attr(*, "types")= int [1:14] 102 102 102 102 102 102 102 102 102 102 ...
##  - attr(*, "val.labels")= chr [1:14] "" "" "" "" ...
##  - attr(*, "var.labels")= chr [1:14] "" "" "" "" ...
##  - attr(*, "version")= int 6
##  - attr(*, "label.table")=List of 14
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL
##   ..$ : NULL

`head()`

head(CollegeDistance)

##   gender ethnicity score fcollege mcollege home urban unemp wage distance
## 1   male     other 39.15      yes       no  yes   yes   6.2 8.09      0.2
## 2 female     other 48.87       no       no  yes   yes   6.2 8.09      0.2
## 3   male     other 48.74       no       no  yes   yes   6.2 8.09      0.2
## 4   male      afam 40.40       no       no  yes   yes   6.2 8.09      0.2
## 5 female     other 40.48       no       no   no   yes   5.6 8.09      0.4
## 6   male     other 54.71       no       no  yes   yes   5.6 8.09      0.4
##   tuition education income region
## 1 0.88915        12   high  other
## 2 0.88915        12    low  other
## 3 0.88915        12    low  other
## 4 0.88915        12    low  other
## 5 0.88915        13    low  other
## 6 0.88915        12    low  other

Questão 2

Regredir salário a partir da educação e demais variáveis de controle para estimar a função de rendimento do capital humano é se torna um problema uma vez que educação não é distribuída aleatoriamente entre os pesquisados: os indivíduos fazem suas próprias escolhas educacionais e, portanto, as diferenças medidas nos rendimentos entre indivíduos com diferentes níveis de educação dependem de como essas escolhas são feitas. Na literatura isso é chamado de problema de seleção. Este problema de seleção implica que a educação é endógena, que faz com que a estimativa do MQO seja viesada.

Neste exercício, pedido que estime duas regressões que não produzem estimativas fiáveis do coeficiente da educação devido à questão descrita acima. Posteriormente você comparará os resultados com aqueles obtidos utilizando a abordagem de variáveis instrumentais aplicada por Card (1993).

Estime o logaritmo do salário (wage) sobre educação (education), ou seja, estime o modelo

\[\log(salario_i) = \beta_0 + \beta_1 educacao_i + u_i\]

Estime um segundo modelo e adicione os controles: desemprego (unemp), etnia (unemp), gênero (gender) e urbano (urban)
Obtenha resumos dos coeficientes estimados em ambos os modelos e interprete.

Questão 3

O problema de seleção discutido acima torna as estimativas de regressão no Exercício 2 implausíveis, razão pela qual Card (1993) sugere regressão de variáveis instrumentais que utiliza a distância da faculdade como instrumento para a educação.

Por que usar a distância universitária como instrumento? A lógica por trás disso é que a distância de uma faculdade estará correlacionada à decisão de obter um diploma universitário (relevância), mas pode não prever os salários além do aumento da educação (exogeneidade), portanto a proximidade da faculdade poderia ser considerada um instrumento válido.

Calcule as correlações da distância do instrumento com o endógeno escolaridade do regressor e a variável dependente salário.
Quanto da variação na educação é explicada pela regressão do primeiro estágio que utiliza distância como um regressor? Compute utilizando o R^2
Repita o Exercício 2 com a regressão IV, ou seja, utilize a distância como instrumento de educação em ambas as regressões usando ivreg().
Obtenha os coeficientes (robustos) para ambos os modelos e interprete
Utilize o summary(., diagnostics= TRUE) e interprete os testes de instrumento fracos e o teste de endogeneidade de Wu-Hausman.

Referências

Card, D. 1993. “Using Geographic Variation in College Proximity to Estimate the Return to Schooling.” National Bureau of Economic Research.