| Causas das Variações | S.Q. | G.L. | SQ Médio | |
|---|---|---|---|---|
| Devido a Regressão | SQRegressão | $$k-1$$ | SQ Me Reg | $$F$$ |
| Devido ao Erro | SQResíduos | $$n-k$$ | SQ Me Res | |
| Total | SQTotal | $$n-1$$ |
REGRESSÃO LINEAR: AVALIAÇÃO DO MODELO
UNIVERSIDADE FEDERAL DA PARAÍBA
Objetivos
Apresentar o processo de avaliação do modelo estimado por meio dos critérios estatístico e econômico.
Livro Texto
GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2006. Introdução, Capítulo 1 e Capítulo 3.
1. CRITÉRIOS DE AVALIAÇÃO DE UM MODELO ESTIMADO
A. Critério estatístico
- \(R^{2}\) = Coeficiente de Determinação;
- \(F\) = Teste de F-Snedecor;
- “\(t\)” = Teste de t de Student;
- \(IC\) = Intervalo de Confiança.
B. Critério econométrico
- Validade dos pressupostos;
- Normalidade dos Resíduos;
- Multicolinearidade;
- Heterocedasticidade;
- Autocorrelação dos Resíduos;
- Especificação do Modelo;
- Validade das propriedades dos parâmetros;
- Linearidade;
- Eficiência;
- Consistência.
C. Critério econômico
- Sinais dos parâmetros (\(\beta _{0}\) e \(\beta _{1}\));
- Magnitudes dos parâmetros (\(\beta _{0}\) e \(\beta _{1}\)).
2. CRITÉRIO ESTATÍSTICO
Objetivo: Verificar se a estimação do modelo especificado gera uma equação consistente e em que medida os parâmetros estimados (\(\beta _{0}\) e \(\beta _{1}\)) são desejáveis.
2.1. Teste do Ajustamento Global do Modelo de Regressão
Coeficiente de Determinação ou “Explicação”: (\(R^{2}\))
Medida descritiva da qualidade do ajustamento do modelo. O objetivo desse indicador é saber se o modelo está se ajustando aos dados coletados. Em geral o modelo deve ajustar-se aos dados para que possamos representá-los
Se o modelo se ajustar aos dados, as observações estarão próximas da Reta de Regressão.
Admita,
\((Y_{i}-\overline{Y})\): Variação total dos valores efetivos de \(Y\) em relação à sua média da amostra (\(SQT\));
\((\widehat Y_{i}-\overline{Y})\): Variação dos valores estimados de \(Y\) em relação à sua média devido às variáveis explicativas (ou explicada pela Regressão - pelas variações de \(X\): (\(Y_i=\beta _0 + \beta_1X_i\)). (\(SQReg\)).
(\(Y_{i}-\widehat{Y}\)): Mede o grau de dispersão entre os valores observados e o estimado (não explicado por \(X\) – ou variação residual). \(X\) causa impacto em \(Y\), mas existem impactos causados pelos ERROS ou forças aleatórias. Variação dos pontos observados nem sempre pertencem a reta de regressão, (\(SQRes\)).
\[(Y-\overline{Y})=(\widehat{Y}-\overline{Y})+(Y-\widehat{Y})\]
\[\sum (Y-\overline{Y})^2=(\widehat{Y}-\overline{Y})^2+(Y-\widehat{Y})^2\]
Soma Quadrado Total \(=\) Soma Quadrado Regressão \(+\) Soma Quadrado Resíduos
\[SQT = SQReg + SQRes\]
Variação Total = Variação Explicada pela Variação de X + Variação Residual
A variação total dos valores de Y observados em relação ao seu valor médio pode ser dividida em duas partes: uma atribuível à reta de regressão e outra a forças aleatórias.
\[\frac{SQT}{SQT}=\frac{SQReg}{SQT}+\frac{SQRes}{SQT}\rightarrow 1=\frac{\sum (\widehat{Y}_{i}-\overline{Y})^2}{\sum (Y_{i}-\overline{Y})^2}+\frac{\sum (Y_{i}-\widehat{Y})}{\sum (Y_{i}-\overline{Y})^2}\]
\[\frac{SQRed}{SQT}\rightarrow\text{Proporção de Y explicada pela variável } X \rightarrow R^2\]
\[1=R^2+\frac{SQRes}{SQT}\rightarrow R^2=1-\frac{\sum e_{i}^2}{\sum y_{i}^2}\]
Assim,
\[0\leq R^2\leq 1\]
Indica a proporção de variação total de Y explicada pelas variáveis independentes. Dito de outra forma, o coeficiente de determinação representa a proporção (ou porcentagem) da variação total em Y explicada pelo modelo de regressão.
Ex. \(R^2 = 0,48 \rightarrow 48%\) das variações de Y são atribuídas à variação da variável X.
2.2. OBSERVAÇÕES:
\(R^2\) é uma função não decrescente do número de variáveis explicativas do modelo, o que faz com que o aumento do número de regressores, aumente o valor de \(R^2\). Admita,
\[R^2=\frac{SQReg}{SQT}=1-\frac{SQRes}{SQT}=1-\frac{\sum e_{i}^2}{\sum y_{i^2}}\]
se, \(\sum y_{i^2}\) é independente do número de variáveis explicativas, mas \(\sum e_{i^2}\) å e depende do número de variáveis explicativas presentes no modelo, isto é, conforme aumenta o número de variáveis explicativas, então o valor de \(\sum e_{i^2}\) irá diminuir, fazendo com que o \(R^2\) aumente.
Ao comparar dois modelos de regressão com a mesma variável dependente, \(Y\), e diferente número de variáveis independentes, a escolha do modelo, pelo \(R^2\) mais alto, deve ser feita com cautela (consulte o Gujarati, pg 198). Para comparar os dois \(R^2\), devemos levar em conta o número de variáveis explicativas presentes no modelo, através do \(R^2\) Ajustado(\(\overline{R}^2\)):
\[\overline{R}^2=1-\frac{\frac{\sum e_{i}^2}{(n-k)}}{\frac{\sum y_{i}^2}{(n-1)}}\]
onde: \(k\) é o número de parâmetros do modelo.
Em síntese, o \(R^2\) indica que percentual as variações de \(Y\) são “explicadas” pelas variações das variáveis explicativas (\(X_{is}\)), ou seja, o \(R^2\) representa uma medida de intensidade da relação linear entre as variáveis escolhidas para comporem o modelo de regressão.
Em particular, para o caso de regressão linear simples, onde apenas as variáveis \(Y\) e \(X\) estão relacionadas, o coeficiente de determinação (\(R^2\)) pode ser obtido por meio do coeficiente de correlação (\(r\)) da seguinte forma:
\[\text{Coeficiente de Correlação (r)}=\frac{\sum XY-\frac{\sum X\sum Y}{n}}{\sqrt{\left [ \sum X^2-\frac{(\sum X)^2}{n} \right ]\left [ \sum Y^2-\frac{(\sum Y)^2}{n} \right ]}}\]
Assim, para o caso de regressão linear simples, o coeficiente de determinação é dado pelo quadrado do coeficiente de correlação
\[r^2=R^2\]
Análise de Variância (ANOVA) e Teste de F (Gujarati, pg 124)
Partindo do Modelo de Regressão:
\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]
O Teste de \(F\) tem por finalidade testar o efeito conjunto das variáveis explicativas sobre a variável dependente. Isso significa verificar se pelo menos uma das variáveis explicativas do modelo exerce efetivamente influência sobre a variável dependente. No modelo simples a função do teste de \(F\) é a de testar a significância do efeito de \(X\) sobre o \(Y\).
Em geral o teste da significância global da regressão indica se a regressão como um todo faz sentido. Intuitivamente, representa um teste do próprio coeficiente de determinação (\(R^2\)).
Este teste exige normalidade dos erros
O Cálculo da estatística F pode ser efetuado da seguinte forma:
2.3. Tabela da Anova
Análise de Variância Simples
A decomposição da variação de \(Y\) é normalmente utilizada para a análise de variância. A análise de variância mostra as diversas relações no desenvolvimento de estatística de avaliação na estimação de modelos.
No caso da regressão simples o teste de “t” equivale ao teste realizado com o teste de F desde que \(t_{\beta 1}=\sqrt{F}\)
Interpretação: admita o modelo teórico:
\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]
\[\text{Teste de hipótese}\left\{\begin{matrix} H_{0}:\beta _{1}=\beta _{2}=...=\beta _{k}=0\\ H_{A}: \text{Pelo menos um } \beta _{i}\neq 0 \end{matrix}\right.\]
Se o \(F\)-calculado for MAIOR que o \(F\)-tabelado, com (\(k-1\)) e (\(n-k\)) graus de liberdade (dado \(\alpha \%\) de nível de significância) REJEITA-SE a Hipótese Nula.
Exemplo: Admita a tabela de \(F\) a 0,05 (Gujarati, pg 816)
\(F_{calculado}=13,32\)
\(n=12 \rightarrow\) numerador (\(k-1\)) \(= 2\)
\(k = 3\) à denominador (\(n-k\)) \(= 9\) \(\rightarrow F_{tabelado}=4,26\) a \(5\%\)
Diz-se que a distribuição \(F\) tem \(N_{1}\) (\(k-1\)) graus de liberdade no numerador e \(N_{1}\) (\(n-k\)) graus de liberdade no denominador. Os valores \(N_{1}\) e \(N_{2}\) definem a forma da distribuição, que, em geral, se apresenta como a figura abaixo.
TESTE DE F-SNEDECOR
\(F\) não significativo implica dizer que não existe o modelo que estamos estimando (ou está mal especificado). Caso F seja significativo estatisticamente, indica que a regressão como um todo faz sentido e, as variáveis explicativas influenciam (globalmente) a variável explicada.
2.4. Erro-Padrão da Estimativa: (\(S_{e}\))
Lembre-se da nota de aula número 3, onde o erro padrão da estimativa é um parâmetro que deve ser estimado da seguinte forma:
\[S_{e}^2=\frac{\sum e_{i}^2}{n-k}\Rightarrow S_{e}=\sqrt{\frac{\sum e_{i}^2}{n-k}}\]
Erro-Padrão:
O Erro-Padrão da estimativa é uma medida de variabilidade da distribuição condicional de Y para valores fixos de X. Utilizam-se todos os resíduos da reta ajustada de regressão para calcular o erro-padrão, pois se supõe que todas as distribuições condicionais tenham a mesma variância.
Serve como referência para a escolha do melhor modelo, isto é, melhor modelo é aquele que tem o menor erro-padrão (ou dito da mesma forma: a menor variância).
Erro-Padrão x Desvio-Padrão
O conceito de erro-padrão está estreitamente relacionado com o desvio-padrão. Ambos são médias quadráticas das diferenças entre um elemento de um conjunto de dados e um valor médio. Representa uma medida que indica a diferença da observação média do grupo de uma amostra.
Desvio-Padrão: \(S_{x}=\sqrt{\frac{\sum (X_{i}-\overline{X})^2}{n-1}}\)
O principal objetivo do cálculo do erro-padrão, para o problema de avaliação estatística do modelo, é calcular a variância de cada parâmetro estimado do modelo e efetuar a inferência estatística. Isto é, verificar se o parâmetro estimado do modelo de regressão é estatisticamente significativo.
2.5. Testes de Significância Individual dos Parâmetros
Teste de “t”- Student
É usado para determinar se os parâmetros da amostra são significativamente diferentes dos parâmetros hipotéticos da população sendo desconhecido o desvio-padrão da população.
\[t=\frac{\widehat{\beta}_{i}-\beta _{i}}{S_{\widehat{\beta }_{i}}}\]
Onde \(S\) representa o Erro-Padrão dos parâmetros estimados
Variância \(\widehat{\beta }_{0}=S_{\beta _{0}}^2=S_{e}^2\cdot \frac{\sum X_{i}^2}{n\sum x_{i}^2}\)
Erro-Padrão \(\widehat{\beta }_{0}=\sqrt{S_{\beta _{0}}^2}\)
Variância \(\widehat{\beta }_{0}=S_{\beta _{1}}^2=S_{e}^2\cdot \frac{1}{\sum x_{i}^2}\)
Erro-Padrão \(\widehat{\beta }_{1}=\sqrt{S_{\beta _{1}}^2}\)
\[t_{\widehat{\beta }_{0}}=\frac{\widehat{\beta }_{0}}{S_{\widehat{\beta }_{0}}}\]
\[t_{\widehat{\beta }_{1}}=\frac{\widehat{\beta }_{1}}{S_{\widehat{\beta }_{1}}}\]
Teste de Hipóteses (admita a tabela de t-student, Gujarati, 815)
2.6. Quadro Resumo do Teste de Hipótese
| $$\begin{matrix}H_{0}:\widehat{\beta}_{i}=0\\H_{1}:\widehat{\beta}_{i}\neq 0\end{matrix}$$ | $$v=n-k$$ | $$t\frac{\alpha}{2}=10\%=\frac{10}{100}=0,1$$ | $$t\frac{\alpha}{2}=5\%=\frac{5}{100}=0,05$$ |
| $$t\widehat{\beta}_{0}=\text{calculado}$$ | $$n-k$$ | $$\text{Rejeita/Aceita Ho}$$ | $$\text{Rejeita/Aceita Ho}$$ |
| $$t\widehat{\beta}_{1}=\text{Calculado}$$ | $$n-k$$ | $$\text{Rejeita/Aceita Ho}$$ | $$\text{Rejeita/Aceita Ho}$$ |
Avaliação Gráfica do Teste de Hipótese utilizando a distribuição t-student
Intervalo de Confiança (Gujarati, pg 112)
O intervalo de confiança, para o parâmetro estimado, fornece uma classe ou limites dentro dos quais o verdadeiro valor do parâmetro deva estar com um coeficiente de confiança de, digamos, 95% de probabilidade.
\[IC=\left [ \widehat{\beta }_{0}-S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2}\leq \beta _{i}\leq \widehat{\beta }_{i}+S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2} \right ]\]
Diz-se que existe 95% de probabilidade deste intervalo conter o verdadeiro parâmetro bi.
2.7. Apresentação Definitiva do Modelo Estimado
\(Y_{i}=\widehat{\beta }_{0_{(t\beta _{0})}}+\widehat{\beta }_{1_{(t\beta _{1})}}X_{i}\) \(R^2\) \(F\) \(JB\) \(\overline{X}\) \(\overline{Y}\)
3. CRITÉRIO ECONÔMICO
3.1. Interpretação das Magnitudes dos Parâmetros de Regressão
Da relação entre Consumo e Renda: \(Y = 24,45 + 0,5091X\)
Geralmente o valor de \(\widehat{\beta }_{0}\) não apresenta significado econômico.
Admita que \(\widehat{\beta }_{1}=0,5091\); significa que aumentando em \(R\$\) \(1,00\) a renda, o consumo aumentará em \(R\$\) \(0,5091\). A magnitude desse coeficiente parece razoável? e o sinal apresenta de acordo com a teoria econômica?
3.2. Análise Econômica
Efeito Marginal = \(\frac{\partial Y}{\partial X}\) representa o efeito da variável \(X\) na variável \(Y\), em mesma magnitude das variáveis coletadas. Dito de outra forma, qual o impacto sobre \(Y\) dada uma variação em unidade em \(X\).
Elasticidade: Um cálculo útil, para a análise econômica, é o cálculo da elasticidade. Por definição representa a variação percentual de uma determinada variável explicada (\(Y\)) em relação à variação percentual da variável explicativa (\(X\)). O cálculo pode ser representado pela seguinte operação algébrica:
\[\left\{\begin{matrix} Y_{i}=\beta _{0}+\beta _{1}X_{i}\\ \frac{\partial Y}{\partial X}=\beta _{1} \\ \frac{\frac{\Delta Y}{Y}}{\frac{\Delta X}{X}}=\frac{\Delta Y}{\Delta X}\cdot \frac{X}{Y}=\frac{\partial Y}{\partial X}\cdot \frac{X}{Y}=\beta _{1}\frac{\overline{X}}{\overline{y}} \end{matrix}\right.\]
Em resumo, a elasticidade representa o efeito da variável X sobre a variável Y, medido em percentagem (%).
4. Regressão linear no R
\[\text{Consumo} = \beta_0 + \beta_1 \cdot Renda\]
Call:
lm(formula = consumoT ~ RendaD)
Coefficients:
(Intercept) RendaD
-11878.3278 0.6847
Call:
lm(formula = consumoT ~ RendaD)
Residuals:
Min 1Q Median 3Q Max
-95647 -12951 2748 11948 55869
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -11878.327764 4211.673141 -2.82 0.00576 **
RendaD 0.684722 0.003961 172.88 < 0.0000000000000002 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 23100 on 103 degrees of freedom
Multiple R-squared: 0.9966, Adjusted R-squared: 0.9965
F-statistic: 2.989e+04 on 1 and 103 DF, p-value: < 0.00000000000000022