MULTICOLINEARIDADE

 UNIVERSIDADE FEDERAL DA PARAÍBA

Autores

Prof. Dr. Sinézio Fernandes Maia

Josué de Meneses Lopes

Data de Publicação

20 de maio de 2024

Objetivos

O objetivo da aula é apresentar o problema de existência de relações entre as variáveis explicativas de um modelo econométrico. Seguindo os pressupostos de MQO, será apresentado o problema da multicolinearidade perfeita e os impactos de alto grau de correlação entre as determinantes do modelo.

Livro Texto

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2006. Capítulos 10: Violação de Pressupostos - Multicolinearidade

1. MULTICOLINEARIDADE

Introdução

Formalmente, a multicolinearidade é a violação de um dos pressupostos do modelo de regressão, isto é, “o problema de multicolinearidade é também uma violação dos pressupostos de que não existe relação linear exata entre quaisquer das variáveis independentes do modelo. O problema de multicolinearidade implica em uma forte relação entre as variáveis explicativas do modelo”.

A multicolinearidade refere-se ao caso em que duas ou mais variáveis explicativas no modelo de regressão são altamente correlacionadas, tornando difícil ou impossível isolar seus efeitos individuais na variável dependente. Na presença de multicolinearidade, os coeficientes estimados pelos MMQO podem ser estatisticamente não significantes (e ainda ter sinal errado), ainda que \(R^2\) seja “alto”.

A multicolinearidade pode, algumas vezes, ser superada ou reduzida:

a) Pela coleta de mais dados;

b) Pela utilização de uma informação a priori;

c) Pela transformação da relação funcional; ou d) pela exclusão de uma das variáveis altamente colinear. Há diversas fontes de multicolinearidade:

    1. método empregado para a coleta dos dados (amostras pequenas);
    1. restrição sobre o modelo ou a população que está sendo analisado;
    1. especificação do modelo (modelo polinomial para amostras pequenas);
    1. modelo sobre-determinado (mais variáveis explicativas que o número de observações) ou modelo denominado de quase-micronumerosidade (o número de observações mal supera o número de parâmetros do modelo).

2. QUESTÕES IMPORTANTES

Qual o significado da multicolinearidade perfeita?

Duas ou mais variáveis independentes são perfeitamente colineares se uma ou mais das variáveis puderem ser expressas como uma combinação linear das outras variáveis.

Qual o seu efeito?

Se duas ou mais variáveis explicativas são perfeitamente correlacionadas linearmente, é impossível calcular as estimativas de mínimos quadrados simples dos parâmetros, porque o sistema de equações normais contém duas ou mais equações que não são independentes.

Qual o significado da multicolinearidade alta?

A multicolinearidade alta, mas não perfeita, refere-se ao caso em que duas ou mais variáveis independentes (no modelo de regressão) são altamente correlacionadas. Isto pode tornar difícil (ou impossível), isolar o efeito que cada uma das variáveis explicativas altamente colineares tem sobre a variável dependente.

Quais problemas podem resultar?

Os coeficiente estimados pelo MMQO são ainda não viesados (se o modelo está especificado corretamente). Além disso, se o objetivo principal é a previsão, a multicolinearidade não é um problema.

Como a multicolinearidade pode ser detectada?

O caso clássico da multicolinearidade ocorre quando nenhuma das variáveis explicativas, na regressão são estatisticamente significantes (e alguma pode mesmo ter o sinal errado), ainda que \(R^2\) possa ser alto (digamos, entre 0,75 e 1,0). Em casos menos evidentes o caminho é identificar a multicolinearidade através do coeficiente de correlação parcial.

O que pode ser feito para superar ou reduzir os problemas?

O problema da multicolinearidade pode algumas vezes ser corrigido:

  1. Aumentando o tamanho da amostra (as vezes inviável pela falta de dados);

  2. Transformando a relação funcional (nova equação matemática);

  3. Incorporar informações a priori (restrições nos coeficientes de acordo com alguma teoria);

  4. Transformações de variáveis;

  5. Excluindo uma das variáveis altamente correlacionadas (não recomendado)

Omitir uma variável que está causando problema pode conduzir a um erro de especificação, se a teoria nos informar que a variável abandonada deveria estar incluída no modelo. Se a variável for muito importante é melhor deixá-la, pois o efeito da multicolinearidade é que algumas variáveis serão não significativas. O erro de especificação faz tornar viesado ou tendencioso os parâmetros: contudo, para se saber se duas ou mais variáveis são importantes no modelo utiliza-se a teoria econômica

3. Impacto da Multicolinearidade no Modelo Estimado

3.1. Multicolinearidade Perfeita:

\[Y_i=\beta _0+\beta _1X_{1i}+\beta _2X_{2i}+\varepsilon _i\]

E seja \(X_{2i}=2X_{1i}\)

\[Y_i=\beta _0+\beta _1X_{1i}+\beta _2(2X_{2i})+\varepsilon _i\]

\[Y_i=\beta _0+\beta _1X_{1i}+\beta _22X_{2i})+\varepsilon _i\]

\[Y_i=\beta _0+(\beta _1+2\beta _2)X_{1i}+\varepsilon _i\]

\[Y_i=\beta _0+\alpha X_{1i}+\varepsilon _i\]

Onde \(\alpha =\beta _1+2\beta _2\);

Conseqüência: dificuldade em isolar os efeitos (ou avaliar o parâmetro $$)

3.2. Alto Grau de Multicolinearidade:

  1. Conseqüências teóricas: O alto grau e multicolinearidade não afeta, em nada, as propriedades dos estimadores de MQO, os parâmetros não ficam viesados; não tendencioso; linear e consistente.
  1. Conseqüências práticas:

    1. Variâncias grandes:para os parâmetros estimados na amostra específica e isto pode causar:
  1. Erro-padrão seja grande (imprecisão das estimativas);

  2. “t” seja pequenos;

  3. há uma probabilidade de não rejeitar \(H_0\) (aceitá-la); e,

  4. coeficientes não significativos.

    1. Estimativas dos parâmetros do modelo (\(\beta_s\)) e seus respectivos erros-padrão Sbs são sensíveis a pequenas modificações nos dados ou modelo;

    2. Sinal diferente do esperado;

    3. Dificuldade de identificar a contribuição individual de cada variável explicativa.

4. BOX – IMPLICAÇÃO DA VARIÂNCIA SOBRE A COLINEARIDADE

Admita que a variância de \(\widehat{\beta }_1\) seja dada por:

\(Var(\widehat{\beta }_1)=\sigma^2 \frac{1}{\sum x^2_1 \left ( 1-r^2_{x1x2} \right )}\) é evidente que quando \(r_{x1x2}\) tende para 1, ou seja, conforme aumenta a colinearidade, as variâncias do estimador aumenta significativamente. Seja \(\beta_1=12,0\); \(\sigma^2=3,5\); \(\sum x^2_1=7,0\); \(r_{x1x2}=0,91\);

\[\sigma^2\frac{1}{\sum x^2_1\left ( 1-r^2_{x1x2} \right )}\Leftrightarrow 3,5\frac{1}{7,0\cdot (1-0,91^2)}=2,77\Rightarrow t_{\beta _1}=\frac{12}{2,77}=4,33\]

admita agora que \(r_{x1x2}=0,91\) passe para \(r_{x1x2}=0,98\)

\[\sigma^2\frac{1}{\sum x^2_1\left ( 1-r^2_{x1x2} \right )}\Leftrightarrow 3,5\frac{1}{7,0\cdot (1-0,98^2)}=12,62\Rightarrow t_{\beta _1}=\frac{12}{12,62}=0,9504\]

Isto quer dizer que, à medida que o coeficiente de correlação parcial aumenta, a variância aumenta e, por conseguinte a estatística t-studente reduz significativamente com a probabilidade de cometer o erro do tipo II (aceitar \(H_0\) quando ela é falsa).

Para confirmar o prejuízo prático da multicolinearidade, pode-se calcular o Fator de Incremento da Variância (FIV)

\[FIV=\frac{1}{\left ( 1-r^2_{x1x2} \right )}\]

Se não houver nenhuma colinearidade o FIV será 1. Por isso, alguns autores utilizam o FIV como um indicador de multicolinearidade. Quanto maior o valor do FIV, mais “problemática” ou colinear nas variáveis X1X2. Como regra prática, se o FIV de uma variável exceder 10, diz que essa variável é altamente colinear.

Identificar a presença de multicolinearidade pode ser a partir da leitura do modelo estimado. Admita,

\[Y=-101,49+0,08X_1 \text{ }(1,40) +0,76X_2 \text{ } (1,00) \text{ } \text{ } \text{ }R^2=0,97\]

Observa-se que nem \(\beta_1\) quanto \(\beta_2\) são estatisticamente significantes ao nível de 5%, embora o coeficiente de determinação, \(R^2=0,97\). Neste caso, há evidência de multicolinearidade entre X1 e X2. Isto pode ser confirmado quando calcularmos a correlação entre as duas variáveis. Contudo, se calcularmos a regressão retirando uma ou outra variável \(X_1\) e \(X_2\), poderiamos estar estimando pelo MMQO viesado, pois a teoria econômica pode sugerir a inclusão das duas variáveis no modelo (o que geraria o erro de especificação do modelo).

Assim,

  1. \(R^2\) altos e “t” não significativos: DEVE SER o problema de correlação forte entre elas;

  2. Altas correlações simples entre os \(X_{is}\) (\(r_{12}\), \(r_{23}\));

  3. Pode-se reestimar vários modelos e examinar o R2 das regressões auxiliares de um X em função de outros: ex: \(X_1 = f(X_2,X_3,X_4)\); \(X_2 = f(X_1,X_3,X_4)\);

  4. Verificar a estabilidade das estimativas nas regressões seqüenciais:

\[Y=f(X_1,X_2, X_3, X_4)\]

\[Y=f(X_1,X_2, X_3)\]

\[Y=f(X_1,X_2)\]

Regra de Klein: a multicolinearidade não é prejudicial se \(R^2\) do modelo for maior que o quadrado da correlação simples (\(r_{x1x2}\)). Klein não se preocupa com o problema da multicolinearidade.

Considerando que a multicolinearidade não afeta as propriedades dos estimadores de MMQO (e continuam MELNT), os sinais dos parâmetros estão de acordo com a teoria e as estatísticas “t” e F são significativas então pode-se optar por deixar as variáveis correlacionadas, a partir do momento em que não prejudiquem as análises individuais.