Lista 2 de Econometria II - VI
Exercício Teórico
Questão 1 (Wooldridge)
Considere um modelo simples para estimar o efeito da posse de um computador pessoal (PC) na média de notas universitárias (\(GPA\)) de alunos do último ano de uma grande universidade pública:
\[GPA = \beta_0 + \beta_1 PC + u\]
onde \(PC\) é uma variável binária que indica a posse de um computador
Por que a posse de um computador, \(PC\), pode estar correlacionada com \(u\)?
Explique por que é provável que a posse de computador esteja relacionada com o rendimento anual dos pais. Isso significa que a renda dos pais é um bom IV para \(PC\)? Por que ou por que não?
Suponhamos que, há quatro anos, a universidade concedesse subsídios para a compra de computadores a cerca de metade dos estudantes que chegavam, e aos estudantes que as bolsas recebidas foram escolhidas aleatoriamente. Explique cuidadosamente como você usaria essas informações para construir uma variável instrumental para \(PC\).
Exercício Prático
Existem muitos estudos em economia do trabalho que tratam da questão da estimativa das funções dos rendimentos do capital humano, que afirmam como o rendimento salarial é determinado pela educação e pela experiência profissional. Um exemplo proeminente é Card (1993), que investiga o retorno económico da escolaridade e utiliza a proximidade da faculdade como variável instrumental.
Os exercícios deste capítulo tratam do conjunto de dados
CollegeDistance que é semelhante aos dados usados por Card
(1993). Resulta de uma pesquisa com diplomados do ensino secundário com
variáveis codificadas para salários, educação, mensalidade e uma série
de variáveis socioeconómicas. O conjunto de dados também inclui a
distância de uma faculdade enquanto os participantes da pesquisa
cursavam o ensino médio.
Os dados CollegeDistance vem com o pacote
AER. A seguir, observe como importá-lo no R.
#instala o pacote `AER` (caso ainda não tenha feito)
install.packages("AER")
# carrega o pacote `AER`
library(AER)
# carrega o dataset `CollegeDistance`
data("CollegeDistance")Um overview do dataset
summary()
## gender ethnicity score fcollege mcollege home
## male :2139 other :3050 Min. :28.95 no :3753 no :4088 no : 852
## female:2600 afam : 786 1st Qu.:43.92 yes: 986 yes: 651 yes:3887
## hispanic: 903 Median :51.19
## Mean :50.89
## 3rd Qu.:57.77
## Max. :72.81
## urban unemp wage distance tuition
## no :3635 Min. : 1.400 Min. : 6.590 Min. : 0.000 Min. :0.2575
## yes:1104 1st Qu.: 5.900 1st Qu.: 8.850 1st Qu.: 0.400 1st Qu.:0.4850
## Median : 7.100 Median : 9.680 Median : 1.000 Median :0.8245
## Mean : 7.597 Mean : 9.501 Mean : 1.803 Mean :0.8146
## 3rd Qu.: 8.900 3rd Qu.:10.150 3rd Qu.: 2.500 3rd Qu.:1.1270
## Max. :24.900 Max. :12.960 Max. :20.000 Max. :1.4042
## education income region
## Min. :12.00 low :3374 other:3796
## 1st Qu.:12.00 high:1365 west : 943
## Median :13.00
## Mean :13.81
## 3rd Qu.:16.00
## Max. :18.00
str()
## 'data.frame': 4739 obs. of 14 variables:
## $ gender : Factor w/ 2 levels "male","female": 1 2 1 1 2 1 2 2 1 2 ...
## $ ethnicity: Factor w/ 3 levels "other","afam",..: 1 1 1 2 1 1 1 1 1 1 ...
## $ score : num 39.2 48.9 48.7 40.4 40.5 ...
## $ fcollege : Factor w/ 2 levels "no","yes": 2 1 1 1 1 1 1 1 2 1 ...
## $ mcollege : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ home : Factor w/ 2 levels "no","yes": 2 2 2 2 1 2 2 2 2 2 ...
## $ urban : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 1 1 2 2 ...
## $ unemp : num 6.2 6.2 6.2 6.2 5.6 ...
## $ wage : num 8.09 8.09 8.09 8.09 8.09 ...
## $ distance : num 0.2 0.2 0.2 0.2 0.4 ...
## $ tuition : num 0.889 0.889 0.889 0.889 0.889 ...
## $ education: num 12 12 12 12 13 12 13 15 13 15 ...
## $ income : Factor w/ 2 levels "low","high": 2 1 1 1 1 1 1 1 1 1 ...
## $ region : Factor w/ 2 levels "other","west": 1 1 1 1 1 1 1 1 1 1 ...
## - attr(*, "datalabel")= chr ""
## - attr(*, "time.stamp")= chr "25 Oct 2002 16:44"
## - attr(*, "formats")= chr [1:14] "%9.0g" "%9.0g" "%9.0g" "%9.0g" ...
## - attr(*, "types")= int [1:14] 102 102 102 102 102 102 102 102 102 102 ...
## - attr(*, "val.labels")= chr [1:14] "" "" "" "" ...
## - attr(*, "var.labels")= chr [1:14] "" "" "" "" ...
## - attr(*, "version")= int 6
## - attr(*, "label.table")=List of 14
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
head()
## gender ethnicity score fcollege mcollege home urban unemp wage distance
## 1 male other 39.15 yes no yes yes 6.2 8.09 0.2
## 2 female other 48.87 no no yes yes 6.2 8.09 0.2
## 3 male other 48.74 no no yes yes 6.2 8.09 0.2
## 4 male afam 40.40 no no yes yes 6.2 8.09 0.2
## 5 female other 40.48 no no no yes 5.6 8.09 0.4
## 6 male other 54.71 no no yes yes 5.6 8.09 0.4
## tuition education income region
## 1 0.88915 12 high other
## 2 0.88915 12 low other
## 3 0.88915 12 low other
## 4 0.88915 12 low other
## 5 0.88915 13 low other
## 6 0.88915 12 low other
Questão 2
Regredir salário a partir da educação e demais variáveis de controle para estimar a função de rendimento do capital humano é se torna um problema uma vez que educação não é distribuída aleatoriamente entre os pesquisados: os indivíduos fazem suas próprias escolhas educacionais e, portanto, as diferenças medidas nos rendimentos entre indivíduos com diferentes níveis de educação dependem de como essas escolhas são feitas. Na literatura isso é chamado de problema de seleção. Este problema de seleção implica que a educação é endógena, que faz com que a estimativa do MQO seja viesada.
Neste exercício, pedido que estime duas regressões que não produzem estimativas fiáveis do coeficiente da educação devido à questão descrita acima. Posteriormente você comparará os resultados com aqueles obtidos utilizando a abordagem de variáveis instrumentais aplicada por Card (1993).
- Estime o logaritmo do salário (
wage) sobre educação (education), ou seja, estime o modelo
\[\log(salario_i) = \beta_0 + \beta_1 educacao_i + u_i\]
Estime um segundo modelo e adicione os controles: desemprego (
unemp), etnia (unemp), gênero (gender) e urbano (urban)Obtenha resumos dos coeficientes estimados em ambos os modelos e interprete.
Questão 3
O problema de seleção discutido acima torna as estimativas de regressão no Exercício 2 implausíveis, razão pela qual Card (1993) sugere regressão de variáveis instrumentais que utiliza a distância da faculdade como instrumento para a educação.
Por que usar a distância universitária como instrumento? A lógica por trás disso é que a distância de uma faculdade estará correlacionada à decisão de obter um diploma universitário (relevância), mas pode não prever os salários além do aumento da educação (exogeneidade), portanto a proximidade da faculdade poderia ser considerada um instrumento válido.
Calcule as correlações da distância do instrumento com o endógeno escolaridade do regressor e a variável dependente salário.
Quanto da variação na educação é explicada pela regressão do primeiro estágio que utiliza distância como um regressor? Compute utilizando o R^2
Repita o Exercício 2 com a regressão IV, ou seja, utilize a distância como instrumento de educação em ambas as regressões usando
ivreg().Obtenha os coeficientes (robustos) para ambos os modelos e interprete
Utilize o
summary(., diagnostics= TRUE)e interprete os testes de instrumento fracos e o teste de endogeneidade de Wu-Hausman.
Referências
Card, D. 1993. “Using Geographic Variation in College Proximity to Estimate the Return to Schooling.” National Bureau of Economic Research.