Variável instrumental

Sabemos que quando há endogeneidade (\(E(u|X) \neq 0\)) em nosso modelo há uma violação de uma das hipóteses de Gauss Markov que fazem com que o estimador de mínimos quadrados ordinários (MQO) deixe de ser BLUE (best linear unbiased estimator). O estimador de variável instrumental é portanto uma saída para a endogeneidade, de forma a recuperar a exogeneidade e retirar do erro da nossa estimação aquilo que é relacionado com a nossa variável independente X, seja um erro de medida, uma variável latente ou mesmo a falta de aleatoriedade na atribuição de um tratamento. Seja o modelo dado por:

\[ Y = X\beta + u\] Onde X é a variável endógena e \(u_i = \delta W + v_i\) (existe no erro uma parte puramente aleatória e uma parte estruturada). Seja Z a variável instrumental, sob as hipóteses:

\(cov(Z,u)=0\)
\(cov(Z,x) \neq 0\)

Temos que:

\[\beta_1^{IV}= \frac{cov(Z,Y)}{cov(Z,X)}\] É um estimador consistente.

Desenhando:

Pela figura, podemos ver que nosso objetivo é encontrar a influência de X sobre Y. Entretanto, se D é desconhecido (H e Z conhecidos), temos um problema de endogeneidade, uma vez que o efeito capturado por X será viesado, gerando um erro não ortogonal/esférico.

O que pode ser feito neste caso? H é incorporado na equação como uma covariada (por exemplo, quando incorporamos sexo e raça nas aulas anteriores à equação de Mincer) e utilizamos Z como um instrumento.

O IV pode ser utilizado para solucionar problemas simultâneos (onde a endogeneidade é intrínseca do modelo), problemas de variáveis latentes (não observáveis) ou mesmo recuperar a aleatoriedade em avaliações quasi-experimentais. Apesar de ser uma “mão na roda”, a grande dificuldade dessa metodologia é encontrar bons instrumentos, isto é, conseguir uma variável que possa ser usada como instrumento e seja bem correlacionada com a variável endóogena (X) em questão, uma vez que instrumentos fracos incorrem também em viés.

Um bom exemplo de instrumento, quando temos dados em painel, é utilizar as informações passadas como VI para as informações futuras, por exemplo, a nota da P2 de econometria tem muita relação com a nota da sua P1 (\(cov(X,Z) \neq 0\)), mas o erro futuro não será correlacionado com a nota passada (\(cov(Z,u) = 0\)); chamamos isso de hipótese de exogeneidade fraca.

2SLS

O MQO em dois estágios, também conhecido como 2 stage least squares (2SLS), é a generalização do modelo de IV quando temos mais de um instrumento relevante que explique a variável endógena do modelo principal, assim, a combinação dos instrumentos pode ser feita da seguinte maneira:

Seja D a variável endógena,

1º estágio: \(D = \gamma Z +\delta X\)

2º estágio: \(Y = \beta\hat{D}+\pi X\)

Problema de instrumentos fracos

Como dito anteriormente, um instrumento fraco é pior do que nenhum instrumento em muitos casos quando sua correlação com a variável endógena é muito baixa (\(\frac{corr(z,u)}{corr(z,x)} > corr(x,u)\)).

Demonstração:

\[\beta_1^{IV}= \frac{cov(Y,Z)}{cov(X,Z)} = \frac{cov(\beta X+u,Z)}{cov(X,Z)} = \frac{\beta .cov(X,Z) + cov(u,Z)}{cov(X,Z)} \] \[\beta_1^{IV}= \beta * \frac{cov(X,Z)}{cov(X,Z)}+ \frac{cov(u,Z)}{cov(X,Z)}\] \[\beta_1^{IV}= \beta + \frac{cov(u,Z)}{cov(X,Z)}\] Como Z não é totalmente exógeno, \(cov(Z,u) \neq 0\); quanto menor a correlação entre X e o instrumento, maior será este viés.

É importante ressaltas também que em pequenas amostras o estimador de IV será viesado.

Testes de exogeneidade e restrição sobreidentificada

Teste de exogeneidade (teste de Hausman)

Este teste verifica a consistência das estimativas de Mínimos Quadrados Ordinários (OLS) sob a suposição de que o IV é consistente. A rejeição de \(H_0\) significa que MQO não é consistente, sugerindo a presença de endogeneidade.

\[Y_1 = \beta_0+ \beta_1y_2+ \beta_2Z_1 + \beta_3Z_2 + \delta_1\hat{v_2}\]

Onde \(y_2\) e \(\hat{v_2}\) representam o y e o erro estimados via MQO .Assim:

\(H_0: \delta_1=0\)

Teste de restrição de sobreidentificação (teste de Sargan)

\(H_0: (u|Z_1,...,Z_k)=0\)

O objetivo deste teste é reconhecer se possuímos bons instrumentos, testando conjuntamente se todos os instrumentos utilizados no modelo são exógenos ao erro.

Para testar a hipótese nula de que todas as variáveis instrumentais não são correlacionadas com \(u_1\), primeiro regredimos \(\hat{u}\) contra as variáveis exógenas obtendo \(R_1^2\)

\[ n ⋅ R_1^2 ∼ \chi_{(q)}^2 \]

Onde q é o número de variáveis instrumentais fora do modelo menos o número de endógenas. Se rejeitarmos \(H_0\), concluímos que pelo menos algum dos instrumentos não são exógenos.

Fonte

JEFFREY, M. Wooldridge, introductory econometrics—A modern approach. 2018. Capítulo 15.

Angrist, J. D., and Jorn-Steffen Pischke. 2008. Mostly Harmless Econometrics. Princeton, NJ: Princeton University Press. Capítulo 4.