REGRESSÃO LINEAR: AVALIAÇÃO DO MODELO

 UNIVERSIDADE FEDERAL DA PARAÍBA

Autores

Prof. Dr. Sinézio Fernandes Maia

Josué de Meneses Lopes

Data de Publicação

18 de abril de 2024

Objetivos

Apresentar o processo de avaliação do modelo estimado por meio dos critérios estatístico e econômico.

Livro Texto

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2006. Introdução, Capítulo 1 e Capítulo 3.

1. CRITÉRIOS DE AVALIAÇÃO DE UM MODELO ESTIMADO

A. Critério estatístico

  • \(R^{2}\) = Coeficiente de Determinação;
  • \(F\) = Teste de F-Snedecor;
  • \(t\)” = Teste de t de Student;
  • \(IC\) = Intervalo de Confiança.

B. Critério econométrico

  • Validade dos pressupostos;
  • Normalidade dos Resíduos;
  • Multicolinearidade;
  • Heterocedasticidade;
  • Autocorrelação dos Resíduos;
  • Especificação do Modelo;
  • Validade das propriedades dos parâmetros;
  • Linearidade;
  • Eficiência;
  • Consistência.

C. Critério econômico

  • Sinais dos parâmetros (\(\beta _{0}\) e \(\beta _{1}\));
  • Magnitudes dos parâmetros (\(\beta _{0}\) e \(\beta _{1}\)).

2. CRITÉRIO ESTATÍSTICO

Objetivo: Verificar se a estimação do modelo especificado gera uma equação consistente e em que medida os parâmetros estimados (\(\beta _{0}\) e \(\beta _{1}\)) são desejáveis.

2.1. Teste do Ajustamento Global do Modelo de Regressão

Coeficiente de Determinação ou “Explicação”: (\(R^{2}\))

Medida descritiva da qualidade do ajustamento do modelo. O objetivo desse indicador é saber se o modelo está se ajustando aos dados coletados. Em geral o modelo deve ajustar-se aos dados para que possamos representá-los

Se o modelo se ajustar aos dados, as observações estarão próximas da Reta de Regressão.

Admita,

\((Y_{i}-\overline{Y})\): Variação total dos valores efetivos de \(Y\) em relação à sua média da amostra (\(SQT\));

\((\widehat Y_{i}-\overline{Y})\): Variação dos valores estimados de \(Y\) em relação à sua média devido às variáveis explicativas (ou explicada pela Regressão - pelas variações de \(X\): (\(Y_i=\beta _0 + \beta_1X_i\)). (\(SQReg\)).

(\(Y_{i}-\widehat{Y}\)): Mede o grau de dispersão entre os valores observados e o estimado (não explicado por \(X\) – ou variação residual). \(X\) causa impacto em \(Y\), mas existem impactos causados pelos ERROS ou forças aleatórias. Variação dos pontos observados nem sempre pertencem a reta de regressão, (\(SQRes\)).

\[(Y-\overline{Y})=(\widehat{Y}-\overline{Y})+(Y-\widehat{Y})\]

\[\sum (Y-\overline{Y})^2=(\widehat{Y}-\overline{Y})^2+(Y-\widehat{Y})^2\]

Soma Quadrado Total \(=\) Soma Quadrado Regressão \(+\) Soma Quadrado Resíduos

\[SQT = SQReg + SQRes\]

Variação Total = Variação Explicada pela Variação de X + Variação Residual

A variação total dos valores de Y observados em relação ao seu valor médio pode ser dividida em duas partes: uma atribuível à reta de regressão e outra a forças aleatórias.

\[\frac{SQT}{SQT}=\frac{SQReg}{SQT}+\frac{SQRes}{SQT}\rightarrow 1=\frac{\sum (\widehat{Y}_{i}-\overline{Y})^2}{\sum (Y_{i}-\overline{Y})^2}+\frac{\sum (Y_{i}-\widehat{Y})}{\sum (Y_{i}-\overline{Y})^2}\]

\[\frac{SQRed}{SQT}\rightarrow\text{Proporção de Y explicada pela variável } X \rightarrow R^2\]

\[1=R^2+\frac{SQRes}{SQT}\rightarrow R^2=1-\frac{\sum e_{i}^2}{\sum y_{i}^2}\]

Assim,

\[0\leq R^2\leq 1\]

Indica a proporção de variação total de Y explicada pelas variáveis independentes. Dito de outra forma, o coeficiente de determinação representa a proporção (ou porcentagem) da variação total em Y explicada pelo modelo de regressão.

Ex. \(R^2 = 0,48 \rightarrow 48%\) das variações de Y são atribuídas à variação da variável X.

2.2. OBSERVAÇÕES:

\(R^2\) é uma função não decrescente do número de variáveis explicativas do modelo, o que faz com que o aumento do número de regressores, aumente o valor de \(R^2\). Admita,

\[R^2=\frac{SQReg}{SQT}=1-\frac{SQRes}{SQT}=1-\frac{\sum e_{i}^2}{\sum y_{i^2}}\]

se, \(\sum y_{i^2}\) é independente do número de variáveis explicativas, mas \(\sum e_{i^2}\) å e depende do número de variáveis explicativas presentes no modelo, isto é, conforme aumenta o número de variáveis explicativas, então o valor de \(\sum e_{i^2}\) irá diminuir, fazendo com que o \(R^2\) aumente.

Ao comparar dois modelos de regressão com a mesma variável dependente, \(Y\), e diferente número de variáveis independentes, a escolha do modelo, pelo \(R^2\) mais alto, deve ser feita com cautela (consulte o Gujarati, pg 198). Para comparar os dois \(R^2\), devemos levar em conta o número de variáveis explicativas presentes no modelo, através do \(R^2\) Ajustado(\(\overline{R}^2\)):

\[\overline{R}^2=1-\frac{\frac{\sum e_{i}^2}{(n-k)}}{\frac{\sum y_{i}^2}{(n-1)}}\]

onde: \(k\) é o número de parâmetros do modelo.

Em síntese, o \(R^2\) indica que percentual as variações de \(Y\) são “explicadas” pelas variações das variáveis explicativas (\(X_{is}\)), ou seja, o \(R^2\) representa uma medida de intensidade da relação linear entre as variáveis escolhidas para comporem o modelo de regressão.

Em particular, para o caso de regressão linear simples, onde apenas as variáveis \(Y\) e \(X\) estão relacionadas, o coeficiente de determinação (\(R^2\)) pode ser obtido por meio do coeficiente de correlação (\(r\)) da seguinte forma:

\[\text{Coeficiente de Correlação (r)}=\frac{\sum XY-\frac{\sum X\sum Y}{n}}{\sqrt{\left [ \sum X^2-\frac{(\sum X)^2}{n} \right ]\left [ \sum Y^2-\frac{(\sum Y)^2}{n} \right ]}}\]

Assim, para o caso de regressão linear simples, o coeficiente de determinação é dado pelo quadrado do coeficiente de correlação

\[r^2=R^2\]

Análise de Variância (ANOVA) e Teste de F (Gujarati, pg 124)

Partindo do Modelo de Regressão:

\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]

O Teste de \(F\) tem por finalidade testar o efeito conjunto das variáveis explicativas sobre a variável dependente. Isso significa verificar se pelo menos uma das variáveis explicativas do modelo exerce efetivamente influência sobre a variável dependente. No modelo simples a função do teste de \(F\) é a de testar a significância do efeito de \(X\) sobre o \(Y\).

Em geral o teste da significância global da regressão indica se a regressão como um todo faz sentido. Intuitivamente, representa um teste do próprio coeficiente de determinação (\(R^2\)).

Observação

Este teste exige normalidade dos erros

O Cálculo da estatística F pode ser efetuado da seguinte forma:

2.3. Tabela da Anova

Causas das Variações S.Q. G.L. SQ Médio
Devido a Regressão SQRegressão $$k-1$$ SQ Me Reg $$F$$
Devido ao Erro SQResíduos $$n-k$$ SQ Me Res
Total SQTotal $$n-1$$

Análise de Variância Simples

A decomposição da variação de \(Y\) é normalmente utilizada para a análise de variância. A análise de variância mostra as diversas relações no desenvolvimento de estatística de avaliação na estimação de modelos.

Observação

No caso da regressão simples o teste de “t” equivale ao teste realizado com o teste de F desde que \(t_{\beta 1}=\sqrt{F}\)

Interpretação: admita o modelo teórico:

\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]

\[\text{Teste de hipótese}\left\{\begin{matrix} H_{0}:\beta _{1}=\beta _{2}=...=\beta _{k}=0\\ H_{A}: \text{Pelo menos um } \beta _{i}\neq 0 \end{matrix}\right.\]

Se o \(F\)-calculado for MAIOR que o \(F\)-tabelado, com (\(k-1\)) e (\(n-k\)) graus de liberdade (dado \(\alpha \%\) de nível de significância) REJEITA-SE a Hipótese Nula.

Exemplo: Admita a tabela de \(F\) a 0,05 (Gujarati, pg 816)

\(F_{calculado}=13,32\)

\(n=12 \rightarrow\) numerador (\(k-1\)) \(= 2\)

\(k = 3\) à denominador (\(n-k\)) \(= 9\) \(\rightarrow F_{tabelado}=4,26\) a \(5\%\)

Diz-se que a distribuição \(F\) tem \(N_{1}\) (\(k-1\)) graus de liberdade no numerador e \(N_{1}\) (\(n-k\)) graus de liberdade no denominador. Os valores \(N_{1}\) e \(N_{2}\) definem a forma da distribuição, que, em geral, se apresenta como a figura abaixo.

TESTE DE F-SNEDECOR

\(F\) não significativo implica dizer que não existe o modelo que estamos estimando (ou está mal especificado). Caso F seja significativo estatisticamente, indica que a regressão como um todo faz sentido e, as variáveis explicativas influenciam (globalmente) a variável explicada.

2.4. Erro-Padrão da Estimativa: (\(S_{e}\))

Lembre-se da nota de aula número 3, onde o erro padrão da estimativa é um parâmetro que deve ser estimado da seguinte forma:

\[S_{e}^2=\frac{\sum e_{i}^2}{n-k}\Rightarrow S_{e}=\sqrt{\frac{\sum e_{i}^2}{n-k}}\]

Erro-Padrão:

  1. O Erro-Padrão da estimativa é uma medida de variabilidade da distribuição condicional de Y para valores fixos de X. Utilizam-se todos os resíduos da reta ajustada de regressão para calcular o erro-padrão, pois se supõe que todas as distribuições condicionais tenham a mesma variância.

  2. Serve como referência para a escolha do melhor modelo, isto é, melhor modelo é aquele que tem o menor erro-padrão (ou dito da mesma forma: a menor variância).

Erro-Padrão x Desvio-Padrão

O conceito de erro-padrão está estreitamente relacionado com o desvio-padrão. Ambos são médias quadráticas das diferenças entre um elemento de um conjunto de dados e um valor médio. Representa uma medida que indica a diferença da observação média do grupo de uma amostra.

Desvio-Padrão: \(S_{x}=\sqrt{\frac{\sum (X_{i}-\overline{X})^2}{n-1}}\)

O principal objetivo do cálculo do erro-padrão, para o problema de avaliação estatística do modelo, é calcular a variância de cada parâmetro estimado do modelo e efetuar a inferência estatística. Isto é, verificar se o parâmetro estimado do modelo de regressão é estatisticamente significativo.

2.5. Testes de Significância Individual dos Parâmetros

Teste de “t”- Student

É usado para determinar se os parâmetros da amostra são significativamente diferentes dos parâmetros hipotéticos da população sendo desconhecido o desvio-padrão da população.

\[t=\frac{\widehat{\beta}_{i}-\beta _{i}}{S_{\widehat{\beta }_{i}}}\]

Onde \(S\) representa o Erro-Padrão dos parâmetros estimados

  • Variância \(\widehat{\beta }_{0}=S_{\beta _{0}}^2=S_{e}^2\cdot \frac{\sum X_{i}^2}{n\sum x_{i}^2}\)

  • Erro-Padrão \(\widehat{\beta }_{0}=\sqrt{S_{\beta _{0}}^2}\)

  • Variância \(\widehat{\beta }_{0}=S_{\beta _{1}}^2=S_{e}^2\cdot \frac{1}{\sum x_{i}^2}\)

  • Erro-Padrão \(\widehat{\beta }_{1}=\sqrt{S_{\beta _{1}}^2}\)

\[t_{\widehat{\beta }_{0}}=\frac{\widehat{\beta }_{0}}{S_{\widehat{\beta }_{0}}}\]

\[t_{\widehat{\beta }_{1}}=\frac{\widehat{\beta }_{1}}{S_{\widehat{\beta }_{1}}}\]

Teste de Hipóteses (admita a tabela de t-student, Gujarati, 815)

2.6. Quadro Resumo do Teste de Hipótese

$$\begin{matrix}H_{0}:\widehat{\beta}_{i}=0\\H_{1}:\widehat{\beta}_{i}\neq 0\end{matrix}$$ $$v=n-k$$ $$t\frac{\alpha}{2}=10\%=\frac{10}{100}=0,1$$ $$t\frac{\alpha}{2}=5\%=\frac{5}{100}=0,05$$
$$t\widehat{\beta}_{0}=\text{calculado}$$ $$n-k$$ $$\text{Rejeita/Aceita Ho}$$ $$\text{Rejeita/Aceita Ho}$$
$$t\widehat{\beta}_{1}=\text{Calculado}$$ $$n-k$$ $$\text{Rejeita/Aceita Ho}$$ $$\text{Rejeita/Aceita Ho}$$

Avaliação Gráfica do Teste de Hipótese utilizando a distribuição t-student

Intervalo de Confiança (Gujarati, pg 112)

O intervalo de confiança, para o parâmetro estimado, fornece uma classe ou limites dentro dos quais o verdadeiro valor do parâmetro deva estar com um coeficiente de confiança de, digamos, 95% de probabilidade.

\[IC=\left [ \widehat{\beta }_{0}-S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2}\leq \beta _{i}\leq \widehat{\beta }_{i}+S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2} \right ]\]

Diz-se que existe 95% de probabilidade deste intervalo conter o verdadeiro parâmetro bi.

2.7. Apresentação Definitiva do Modelo Estimado

\(Y_{i}=\widehat{\beta }_{0_{(t\beta _{0})}}+\widehat{\beta }_{1_{(t\beta _{1})}}X_{i}\) \(R^2\) \(F\) \(JB\) \(\overline{X}\) \(\overline{Y}\)

3. CRITÉRIO ECONÔMICO

3.1. Interpretação das Magnitudes dos Parâmetros de Regressão

Da relação entre Consumo e Renda: \(Y = 24,45 + 0,5091X\)

Geralmente o valor de \(\widehat{\beta }_{0}\) não apresenta significado econômico.

Admita que \(\widehat{\beta }_{1}=0,5091\); significa que aumentando em \(R\$\) \(1,00\) a renda, o consumo aumentará em \(R\$\) \(0,5091\). A magnitude desse coeficiente parece razoável? e o sinal apresenta de acordo com a teoria econômica?

3.2. Análise Econômica

Efeito Marginal = \(\frac{\partial Y}{\partial X}\) representa o efeito da variável \(X\) na variável \(Y\), em mesma magnitude das variáveis coletadas. Dito de outra forma, qual o impacto sobre \(Y\) dada uma variação em unidade em \(X\).

Elasticidade: Um cálculo útil, para a análise econômica, é o cálculo da elasticidade. Por definição representa a variação percentual de uma determinada variável explicada (\(Y\)) em relação à variação percentual da variável explicativa (\(X\)). O cálculo pode ser representado pela seguinte operação algébrica:

\[\left\{\begin{matrix} Y_{i}=\beta _{0}+\beta _{1}X_{i}\\ \frac{\partial Y}{\partial X}=\beta _{1} \\ \frac{\frac{\Delta Y}{Y}}{\frac{\Delta X}{X}}=\frac{\Delta Y}{\Delta X}\cdot \frac{X}{Y}=\frac{\partial Y}{\partial X}\cdot \frac{X}{Y}=\beta _{1}\frac{\overline{X}}{\overline{y}} \end{matrix}\right.\]

Em resumo, a elasticidade representa o efeito da variável X sobre a variável Y, medido em percentagem (%).

4. Regressão linear no R

\[\text{Consumo} = \beta_0 + \beta_1 \cdot Renda\]


Call:
lm(formula = consumoT ~ RendaD)

Coefficients:
(Intercept)       RendaD  
-11878.3278       0.6847  

Call:
lm(formula = consumoT ~ RendaD)

Residuals:
   Min     1Q Median     3Q    Max 
-95647 -12951   2748  11948  55869 

Coefficients:
                 Estimate    Std. Error t value             Pr(>|t|)    
(Intercept) -11878.327764   4211.673141   -2.82              0.00576 ** 
RendaD           0.684722      0.003961  172.88 < 0.0000000000000002 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 23100 on 103 degrees of freedom
Multiple R-squared:  0.9966,    Adjusted R-squared:  0.9965 
F-statistic: 2.989e+04 on 1 and 103 DF,  p-value: < 0.00000000000000022