Seja a equação que relaciona salário e educação:
\(ln(salário) = β0 + β1 ∗ educação + β2 ∗ sexo + β3
∗ cor + β4 ∗ exper + β5 ∗ exper2 + ε\)
Suspeitamos que haja
endogeneidade na variável de educação, com a presença de uma variável
omitida da regressão presente no erro (habilidade). A lista abaixo
apresenta alguns dos possíveis instrumentos:
• Distância da casa à
escola pública mais próxima no ensino fundamental;
• Educação dos
pais;
• Número de irmãos;
• Ter recebido ou não (uma dummy)
bolsa de estudos para fazer ensino médio;
• Altura média das àrvores
nas escolas de ensino fundamental que o indivíduo frequentou.
a) Qual dessas variáveis listadas acima
poderiam ser um bom instrumento? Justifique as que foram excluídas.
b) Quais as hipóteses que você está assumindo
no item a) para identificar um bom instrumento? Disserte.
c) O estimador de IV escolhido por você neste
caso será não viesado?
d) Que teste é
possível de ser realizado para confirmar sua escolha?
a e b) Para determinar quais das variáveis
listadas podem ser bons instrumentos para a educação na equação de
regressão dada, devemos avaliar duas condições essenciais para uma
variável ser um bom instrumento:
Relevância: A variável instrumental deve estar
correlacionada com a variável endógena (neste caso, a educação).
Exogeneidade: A variável instrumental não deve
estar correlacionada com o termo de erro (ε), ou seja, não deve estar
correlacionada com a habilidade (a variável omitida).
Vamos analisar cada uma das variáveis listadas:
Distância da casa à escola pública mais próxima no ensino
fundamental:
• Relevância: A distância à
escola pública mais próxima pode afetar a probabilidade de uma criança
frequentar a escola e, portanto, o nível de educação alcançado.
• Exogeneidade: Esta variável é plausivelmente
exógena, pois a distância não deveria estar diretamente relacionada com
a habilidade do indivíduo, que é a variável omitida.
•
Conclusão: Pode ser um bom instrumento.
Educação dos pais:
• Relevância: A
educação dos pais está fortemente correlacionada com a educação dos
filhos, pois pais mais educados tendem a investir mais na educação dos
seus filhos.
• Exogeneidade: A
educação dos pais pode estar correlacionada com a habilidade dos filhos,
pois pais mais educados podem transmitir habilidades cognitivas e não
cognitivas aos seus filhos.
•
Conclusão: Excluído como bom instrumento devido à
potencial correlação com a habilidade (endogeneidade).
Número de irmãos:
• Relevância: O
número de irmãos pode influenciar os recursos disponíveis para a
educação de cada criança na família (por exemplo, menos recursos por
criança em famílias maiores).
•
Exogeneidade: O número de irmãos pode estar correlacionado
com a habilidade, já que fatores familiares (como valores culturais e
sociais) que influenciam o número de filhos podem também afetar a
habilidade.
• Conclusão: Excluído como bom
instrumento devido à potencial correlação com a habilidade
(endogeneidade).
Ter recebido ou não (uma dummy) bolsa de estudos para fazer ensino
médio:
• Relevância: Receber uma bolsa de
estudos está diretamente relacionado com a capacidade de continuar a
educação.
• Exogeneidade: Receber uma
bolsa pode estar correlacionado com a habilidade do aluno, já que bolsas
são frequentemente concedidas com base em desempenho acadêmico ou
potencial, que refletem habilidade.
•
Conclusão: Excluído como bom instrumento devido à
potencial correlação com a habilidade (endogeneidade).
Altura média das árvores nas escolas de ensino fundamental que o
indivíduo frequentou:
• Relevância: Esta
variável parece ter pouca ou nenhuma relação direta com a educação de um
indivíduo.
• Exogeneidade: Apesar de
provavelmente ser exógena (não correlacionada com a habilidade), ela não
tem relevância suficiente para a educação.
•
Conclusão: Excluído como bom instrumento devido à falta de
relevância.
Conclusão FInal
Distância da casa à
escola pública mais próxima no ensino fundamental é a única variável que
atende aos critérios de um bom instrumento:
C) A Variável Instrumental não corrige
problemas relacionados ao viés mas sim relacionados a consistência do
modelo visto que o estimador (Distancia entre a casa e a escola) terá
uma covariância próxima de zero com a variável omitida (habilidade) e
uma covariância maior do que zero com educação corrigindo assim o
problema de endogeneidade. Entretanto podemos dizer que para grandes
amostras o estimador será assintoticamente não viesado
D) Pode se utilizar o teste de Hausman para
testar se o estimador de variável instrumental é
consistente.
Mostre em que circunstâncias o estimador de IV pode gerar estimativas
piores que MQO.
O estimador IV pode gerar estimativas piores do que por MQO quando a
variável instrumental não tiver uma relação forte com a variável que
desejamos substituir e(ou) quando tiver tiver uma relação forte com a
variável omitida no erro. Nesses casos o estimador não contribuirá,
podendo até mesmo piorar, com a consistência do modelo.
A base de dados “PNAD2014” contém 12.955 observações das seguintes
variáveis da PNAD suplementar de 2014:
• Educ: anos de estudo
•
Sexo: sexo (masculino ou feminino)
• Idade: anos de idade
• cor:
cor/raça (negro ou não negro)
• Itrab: idade em que começou a
trabalhar
• Rendimento: rendimento mensal em R$
• UF: unidade da
federação (dummy)
• pai_educ: nível de escolaridade do pai (sem
instrução, ensino fundamental completo, incompleto,médio completo e
incmpleto, superior completo e incompleto)
• mae_educ: nível de
escolaridade da mãe (. . . )
• Etapa 1: Importe para o RStudio a base de dados. Verifique a
existência de dados faltantes, analise a classe das variáveis e as
estatísticas descritivas.
#encoding
options(encoding = "UTF-8") #codificação dos caracteres
options(scipen = 999) #desliga a notação científica
#packages
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(PNADcIBGE)
library(ggplot2)
library(zoo)
##
## Attaching package: 'zoo'
##
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(lmtest)
library(sandwich)
library(stargazer)
##
## Please cite as:
##
## Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
library(hrbrthemes)
library(ggplot2)
library(foreign)
library(AER)
## Carregando pacotes exigidos: car
## Carregando pacotes exigidos: carData
##
## Attaching package: 'car'
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## The following object is masked from 'package:purrr':
##
## some
##
## Carregando pacotes exigidos: survival
library(ivmodel)
load("PNAD2014.Rda")
pnad <- PNAD2014
anyNA(pnad)
## [1] FALSE
pnad <- na.omit(pnad)
glimpse(pnad)
## Rows: 12,955
## Columns: 9
## $ Educ <dbl> 9, 14, 14, 8, 15, 11, 13, 15, 11, 11, 11, 11, 14, 13, 5, 11…
## $ Sexo <fct> Feminino, Masculino, Masculino, Masculino, Feminino, Mascul…
## $ Idade <int> 18, 60, 20, 22, 43, 33, 23, 22, 30, 26, 39, 62, 29, 22, 40,…
## $ Cor <fct> Negro, Não negro, Não negro, Negro, Não negro, Negro, Negro…
## $ Itrab <int> 17, 18, 17, 16, 14, 13, 7, 17, 19, 10, 11, 14, 14, 19, 10, …
## $ Rendimento <dbl> 724, 3500, 724, 724, 1400, 1300, 2480, 724, 864, 840, 350, …
## $ UF <int> 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11,…
## $ pai_educ <fct> Fundamental Completo, Fundamental Incompleto, Fundamental I…
## $ mae_educ <fct> Superior Incompleto, Fundamental Incompleto, Médio Completo…
str(pnad)
## 'data.frame': 12955 obs. of 9 variables:
## $ Educ : num 9 14 14 8 15 11 13 15 11 11 ...
## $ Sexo : Factor w/ 2 levels "Feminino","Masculino": 1 2 2 2 1 2 2 1 1 2 ...
## $ Idade : int 18 60 20 22 43 33 23 22 30 26 ...
## $ Cor : Factor w/ 2 levels "Não negro","Negro": 2 1 1 2 1 2 2 1 2 2 ...
## $ Itrab : int 17 18 17 16 14 13 7 17 19 10 ...
## $ Rendimento: num 724 3500 724 724 1400 1300 2480 724 864 840 ...
## $ UF : int 11 11 11 11 11 11 11 11 11 11 ...
## $ pai_educ : Factor w/ 7 levels "Sem instrução",..: 2 3 3 3 3 3 3 3 2 3 ...
## $ mae_educ : Factor w/ 7 levels "Sem instrução",..: 7 3 4 6 3 3 6 6 3 3 ...
summary(pnad)
## Educ Sexo Idade Cor
## Min. : 0.00 Feminino :5796 Min. : 16.00 Não negro:7280
## 1st Qu.: 9.00 Masculino:7159 1st Qu.: 28.00 Negro :5675
## Median :11.00 Median : 35.00
## Mean :10.91 Mean : 37.21
## 3rd Qu.:15.00 3rd Qu.: 46.00
## Max. :15.00 Max. :118.00
##
## Itrab Rendimento UF pai_educ
## Min. : 4.00 Min. : 1 Min. :11.00 Sem instrução : 425
## 1st Qu.:14.00 1st Qu.: 850 1st Qu.:29.00 Fundamental Completo :4493
## Median :16.00 Median : 1400 Median :33.00 Fundamental Incompleto:4389
## Mean :16.09 Mean : 2413 Mean :33.89 Médio Completo :2145
## 3rd Qu.:18.00 3rd Qu.: 2500 3rd Qu.:42.00 Médio Incompleto : 271
## Max. :60.00 Max. :120000 Max. :53.00 Superior Completo :1115
## Superior Incompleto : 117
## mae_educ
## Sem instrução : 353
## Fundamental Completo :4558
## Fundamental Incompleto:4230
## Médio Completo :2443
## Médio Incompleto : 289
## Superior Completo : 978
## Superior Incompleto : 104
• Etapa 2: Estime por MQO e IV a regressão abaixo. COnsidere como
instrumento a educação da mãe para educação do indivíduo:
$ln(salario) = β0 + β1 ∗ educ + β2 ∗ sexo + β3 ∗ cor + β4(Idade −
Itrab) + β5(Idade − Itrab)^2 + erro $
pnad$log_salario <- log(pnad$Rendimento)
mqo<- lm(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(mqo)
##
## Call:
## lm(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) +
## I((Idade - Itrab)^2), data = pnad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.2656 -0.4240 -0.0310 0.3973 4.2709
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.28426142 0.02966657 178.12 <0.0000000000000002 ***
## Educ 0.12728615 0.00185029 68.79 <0.0000000000000002 ***
## SexoMasculino 0.42418331 0.01277319 33.21 <0.0000000000000002 ***
## CorNegro -0.24168830 0.01281768 -18.86 <0.0000000000000002 ***
## I(Idade - Itrab) 0.03971416 0.00144988 27.39 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.00048584 0.00002743 -17.71 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7094 on 12949 degrees of freedom
## Multiple R-squared: 0.3612, Adjusted R-squared: 0.361
## F-statistic: 1465 on 5 and 12949 DF, p-value: < 0.00000000000000022
iv_model <- ivreg(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2) | mae_educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(iv_model)
## Warning in printHypothesis(L, rhs, names(b)): one or more coefficients in the hypothesis include
## arithmetic operators in their names;
## the printed representation of the hypothesis will be omitted
##
## Call:
## ivreg(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) +
## I((Idade - Itrab)^2) | mae_educ + Sexo + Cor + I(Idade -
## Itrab) + I((Idade - Itrab)^2), data = pnad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.54187 -0.47882 -0.02142 0.44283 4.43537
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.16998336 0.07147416 58.343 <0.0000000000000002 ***
## Educ 0.21672778 0.00550111 39.397 <0.0000000000000002 ***
## SexoMasculino 0.52547306 0.01504074 34.937 <0.0000000000000002 ***
## CorNegro -0.13560289 0.01519300 -8.925 <0.0000000000000002 ***
## I(Idade - Itrab) 0.03731263 0.00158126 23.597 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.00034705 0.00003084 -11.252 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7708 on 12949 degrees of freedom
## Multiple R-Squared: 0.246, Adjusted R-squared: 0.2457
## Wald test: 749.3 on 5 and 12949 DF, p-value: < 0.00000000000000022
• Etapa 3: Mostre as duas regressões em uma tabela utilizando o
pacote stargazer
stargazer(mqo, iv_model, type = "text")
##
## ==========================================================================
## Dependent variable:
## -----------------------------------------
## log_salario
## OLS instrumental
## variable
## (1) (2)
## --------------------------------------------------------------------------
## Educ 0.127*** 0.217***
## (0.002) (0.006)
##
## SexoMasculino 0.424*** 0.525***
## (0.013) (0.015)
##
## CorNegro -0.242*** -0.136***
## (0.013) (0.015)
##
## I(Idade - Itrab) 0.040*** 0.037***
## (0.001) (0.002)
##
## I((Idade - Itrab)2) -0.0005*** -0.0003***
## (0.00003) (0.00003)
##
## Constant 5.284*** 4.170***
## (0.030) (0.071)
##
## --------------------------------------------------------------------------
## Observations 12,955 12,955
## R2 0.361 0.246
## Adjusted R2 0.361 0.246
## Residual Std. Error (df = 12949) 0.709 0.771
## F Statistic 1,464.504*** (df = 5; 12949)
## ==========================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
iv_model_pai <- ivreg(log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2) | mae_educ + pai_educ + Sexo + Cor + I(Idade - Itrab) + I((Idade - Itrab)^2), data=pnad)
summary(iv_model_pai)
## Warning in printHypothesis(L, rhs, names(b)): one or more coefficients in the hypothesis include
## arithmetic operators in their names;
## the printed representation of the hypothesis will be omitted
##
## Call:
## ivreg(formula = log_salario ~ Educ + Sexo + Cor + I(Idade - Itrab) +
## I((Idade - Itrab)^2) | mae_educ + pai_educ + Sexo + Cor +
## I(Idade - Itrab) + I((Idade - Itrab)^2), data = pnad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.49416 -0.48481 -0.02235 0.44698 4.49940
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.0965282 0.0645762 63.437 <0.0000000000000002 ***
## Educ 0.2226239 0.0049153 45.292 <0.0000000000000002 ***
## SexoMasculino 0.5321503 0.0149097 35.691 <0.0000000000000002 ***
## CorNegro -0.1286096 0.0150387 -8.552 <0.0000000000000002 ***
## I(Idade - Itrab) 0.0371543 0.0015961 23.278 <0.0000000000000002 ***
## I((Idade - Itrab)^2) -0.0003379 0.0000309 -10.935 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7788 on 12949 degrees of freedom
## Multiple R-Squared: 0.2303, Adjusted R-squared: 0.23
## Wald test: 840.2 on 5 and 12949 DF, p-value: < 0.00000000000000022
c) Ao realizar o teste de exogeneidade dos
regressores, rejeitamos H0 em todos os níveis de singificância usuais.
Portanto, os regressores do nosso modelo são exógenos.
d) Podemos concluir a partir do teste de
restrições sobreidentificadoras que não é possível rejeitar a hipótese
de exogeneidade dos instrumentos educação materna e paterna.
a) Falso, é justamente o oposto, um ano a a
mais de educação aumenta 21,7% por IV e 12,7% por MQO
b)Verdadeiro, um ano a mais de estudo aumenta o rendimento em 22,3%