Sabemos que quando há endogeneidade (\(E(u|X) \neq 0\)) em nosso modelo há uma violação de uma das hipóteses de Gauss Markov que fazem com que o estimador de mínimos quadrados ordinários (MQO) deixe de ser BLUE (best linear unbiased estimator). O estimador de variável instrumental é portanto uma saída para a endogeneidade, de forma a recuperar a exogeneidade e retirar do erro da nossa estimação aquilo que é relacionado com a nossa variável independente X, seja um erro de medida, uma variável latente ou mesmo a falta de aleatoriedade na atribuição de um tratamento. Seja o modelo dado por:
\[ Y = X\beta + u\] Onde X é a variável endógena e \(u_i = \delta W + v_i\) (existe no erro uma parte puramente aleatória e uma parte estruturada). Seja Z a variável instrumental, sob as hipóteses:
\(cov(Z,u)=0\)
\(cov(Z,x) \neq 0\)
Temos que:
\[\beta_1^{IV}= \frac{cov(Z,Y)}{cov(Z,X)}\] É um estimador consistente.
Desenhando:
Pela figura, podemos ver que nosso objetivo é encontrar a influência de X sobre Y. Entretanto, se D é desconhecido (H e Z conhecidos), temos um problema de endogeneidade, uma vez que o efeito capturado por X será viesado, gerando um erro não ortogonal/esférico.
O que pode ser feito neste caso? H é incorporado na equação como uma covariada (por exemplo, quando incorporamos sexo e raça nas aulas anteriores à equação de Mincer) e utilizamos Z como um instrumento.
O IV pode ser utilizado para solucionar problemas simultâneos (onde a endogeneidade é intrínseca do modelo), problemas de variáveis latentes (não observáveis) ou mesmo recuperar a aleatoriedade em avaliações quasi-experimentais. Apesar de ser uma “mão na roda”, a grande dificuldade dessa metodologia é encontrar bons instrumentos, isto é, conseguir uma variável que possa ser usada como instrumento e seja bem correlacionada com a variável endóogena (X) em questão, uma vez que instrumentos fracos incorrem também em viés.
Um bom exemplo de instrumento, quando temos dados em painel, é utilizar as informações passadas como VI para as informações futuras, por exemplo, a nota da P2 de econometria tem muita relação com a nota da sua P1 (\(cov(X,Z) \neq 0\)), mas o erro futuro não será correlacionado com a nota passada (\(cov(Z,u) = 0\)); chamamos isso de hipótese de exogeneidade fraca.
O MQO em dois estágios, também conhecido como 2 stage least squares (2SLS), é a generalização do modelo de IV quando temos mais de um instrumento relevante que explique a variável endógena do modelo principal, assim, a combinação dos instrumentos pode ser feita da seguinte maneira:
Seja D a variável endógena,
1º estágio: \(D = \gamma Z +\delta X\)
2º estágio: \(Y = \beta\hat{D}+\pi X\)
Como dito anteriormente, um instrumento fraco é pior do que nenhum instrumento em muitos casos quando sua correlação com a variável endógena é muito baixa (\(\frac{corr(z,u)}{corr(z,x)} > corr(x,u)\)).
Demonstração:
\[\beta_1^{IV}= \frac{cov(Y,Z)}{cov(X,Z)} = \frac{cov(\beta X+u,Z)}{cov(X,Z)} = \frac{\beta .cov(X,Z) + cov(u,Z)}{cov(X,Z)} \] \[\beta_1^{IV}= \beta * \frac{cov(X,Z)}{cov(X,Z)}+ \frac{cov(u,Z)}{cov(X,Z)}\] \[\beta_1^{IV}= \beta + \frac{cov(u,Z)}{cov(X,Z)}\] Como Z não é totalmente exógeno, \(cov(Z,u) \neq 0\); quanto menor a correlação entre X e o instrumento, maior será este viés.
É importante ressaltas também que em pequenas amostras o estimador de IV será viesado.
Este teste verifica a consistência das estimativas de Mínimos Quadrados Ordinários (OLS) sob a suposição de que o IV é consistente. A rejeição de \(H_0\) significa que MQO não é consistente, sugerindo a presença de endogeneidade.
\[Y_1 = \beta_0+ \beta_1y_2+ \beta_2Z_1 + \beta_3Z_2 + \delta_1\hat{v_2}\]
Onde \(y_2\) e \(\hat{v_2}\) representam o y e o erro estimados via MQO .Assim:
\(H_0: \delta_1=0\)
\(H_0: (u|Z_1,...,Z_k)=0\)
O objetivo deste teste é reconhecer se possuímos bons instrumentos, testando conjuntamente se todos os instrumentos utilizados no modelo são exógenos ao erro.
Para testar a hipótese nula de que todas as variáveis instrumentais não são correlacionadas com \(u_1\), primeiro regredimos \(\hat{u}\) contra as variáveis exógenas obtendo \(R_1^2\)
\[ n ⋅ R_1^2 ∼ \chi_{(q)}^2 \]
Onde q é o número de variáveis instrumentais fora do modelo menos o número de endógenas. Se rejeitarmos \(H_0\), concluímos que pelo menos algum dos instrumentos não são exógenos.
Fonte
JEFFREY, M. Wooldridge, introductory econometrics—A modern approach. 2018. Capítulo 15.
Angrist, J. D., and Jorn-Steffen Pischke. 2008. Mostly Harmless Econometrics. Princeton, NJ: Princeton University Press. Capítulo 4.