REGRESSÃO LINEAR: AVALIAÇÃO DO MODELO

UNIVERSIDADE FEDERAL DA PARAÍBA

Autores

Prof. Dr. Sinézio Fernandes Maia

Josué de Meneses Lopes

Data de Publicação

18 de abril de 2024

Objetivos

Apresentar o processo de avaliação do modelo estimado por meio dos critérios estatístico e econômico.

Livro Texto

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2006. Introdução, Capítulo 1 e Capítulo 3.

1. CRITÉRIOS DE AVALIAÇÃO DE UM MODELO ESTIMADO

A. Critério estatístico

$R^{2}$ = Coeficiente de Determinação;
$F$ = Teste de F-Snedecor;
“$t$” = Teste de t de Student;
$IC$ = Intervalo de Confiança.

B. Critério econométrico

Validade dos pressupostos;
Normalidade dos Resíduos;
Multicolinearidade;
Heterocedasticidade;
Autocorrelação dos Resíduos;
Especificação do Modelo;
Validade das propriedades dos parâmetros;
Linearidade;
Eficiência;
Consistência.

C. Critério econômico

Sinais dos parâmetros ($\beta _{0}$ e $\beta _{1}$);
Magnitudes dos parâmetros ($\beta _{0}$ e $\beta _{1}$).

2. CRITÉRIO ESTATÍSTICO

Objetivo: Verificar se a estimação do modelo especificado gera uma equação consistente e em que medida os parâmetros estimados ($\beta _{0}$ e $\beta _{1}$) são desejáveis.

2.1. Teste do Ajustamento Global do Modelo de Regressão

Coeficiente de Determinação ou “Explicação”: ($R^{2}$)

Medida descritiva da qualidade do ajustamento do modelo. O objetivo desse indicador é saber se o modelo está se ajustando aos dados coletados. Em geral o modelo deve ajustar-se aos dados para que possamos representá-los

Se o modelo se ajustar aos dados, as observações estarão próximas da Reta de Regressão.

Admita,

$(Y_{i}-\overline{Y})$: Variação total dos valores efetivos de $Y$ em relação à sua média da amostra ($SQT$);

$(\widehat Y_{i}-\overline{Y})$: Variação dos valores estimados de $Y$ em relação à sua média devido às variáveis explicativas (ou explicada pela Regressão - pelas variações de $X$: ($Y_i=\beta _0 + \beta_1X_i$). ($SQReg$).

($Y_{i}-\widehat{Y}$): Mede o grau de dispersão entre os valores observados e o estimado (não explicado por $X$ – ou variação residual). $X$ causa impacto em $Y$, mas existem impactos causados pelos ERROS ou forças aleatórias. Variação dos pontos observados nem sempre pertencem a reta de regressão, ($SQRes$).

\[(Y-\overline{Y})=(\widehat{Y}-\overline{Y})+(Y-\widehat{Y})\]

\[\sum (Y-\overline{Y})^2=(\widehat{Y}-\overline{Y})^2+(Y-\widehat{Y})^2\]

Soma Quadrado Total $=$ Soma Quadrado Regressão $+$ Soma Quadrado Resíduos

\[SQT = SQReg + SQRes\]

Variação Total = Variação Explicada pela Variação de X + Variação Residual

A variação total dos valores de Y observados em relação ao seu valor médio pode ser dividida em duas partes: uma atribuível à reta de regressão e outra a forças aleatórias.

\[\frac{SQT}{SQT}=\frac{SQReg}{SQT}+\frac{SQRes}{SQT}\rightarrow 1=\frac{\sum (\widehat{Y}_{i}-\overline{Y})^2}{\sum (Y_{i}-\overline{Y})^2}+\frac{\sum (Y_{i}-\widehat{Y})}{\sum (Y_{i}-\overline{Y})^2}\]

\[\frac{SQRed}{SQT}\rightarrow\text{Proporção de Y explicada pela variável } X \rightarrow R^2\]

\[1=R^2+\frac{SQRes}{SQT}\rightarrow R^2=1-\frac{\sum e_{i}^2}{\sum y_{i}^2}\]

Assim,

\[0\leq R^2\leq 1\]

Indica a proporção de variação total de Y explicada pelas variáveis independentes. Dito de outra forma, o coeficiente de determinação representa a proporção (ou porcentagem) da variação total em Y explicada pelo modelo de regressão.

Ex. $R^2 = 0,48 \rightarrow 48%$ das variações de Y são atribuídas à variação da variável X.

2.2. OBSERVAÇÕES:

$R^2$ é uma função não decrescente do número de variáveis explicativas do modelo, o que faz com que o aumento do número de regressores, aumente o valor de $R^2$. Admita,

\[R^2=\frac{SQReg}{SQT}=1-\frac{SQRes}{SQT}=1-\frac{\sum e_{i}^2}{\sum y_{i^2}}\]

se, $\sum y_{i^2}$ é independente do número de variáveis explicativas, mas $\sum e_{i^2}$ å e depende do número de variáveis explicativas presentes no modelo, isto é, conforme aumenta o número de variáveis explicativas, então o valor de $\sum e_{i^2}$ irá diminuir, fazendo com que o $R^2$ aumente.

Ao comparar dois modelos de regressão com a mesma variável dependente, $Y$, e diferente número de variáveis independentes, a escolha do modelo, pelo $R^2$ mais alto, deve ser feita com cautela (consulte o Gujarati, pg 198). Para comparar os dois $R^2$, devemos levar em conta o número de variáveis explicativas presentes no modelo, através do $R^2$ Ajustado($\overline{R}^2$):

\[\overline{R}^2=1-\frac{\frac{\sum e_{i}^2}{(n-k)}}{\frac{\sum y_{i}^2}{(n-1)}}\]

onde: $k$ é o número de parâmetros do modelo.

Em síntese, o $R^2$ indica que percentual as variações de $Y$ são “explicadas” pelas variações das variáveis explicativas ($X_{is}$), ou seja, o $R^2$ representa uma medida de intensidade da relação linear entre as variáveis escolhidas para comporem o modelo de regressão.

Em particular, para o caso de regressão linear simples, onde apenas as variáveis $Y$ e $X$ estão relacionadas, o coeficiente de determinação ($R^2$) pode ser obtido por meio do coeficiente de correlação ($r$) da seguinte forma:

\[\text{Coeficiente de Correlação (r)}=\frac{\sum XY-\frac{\sum X\sum Y}{n}}{\sqrt{\left [ \sum X^2-\frac{(\sum X)^2}{n} \right ]\left [ \sum Y^2-\frac{(\sum Y)^2}{n} \right ]}}\]

Assim, para o caso de regressão linear simples, o coeficiente de determinação é dado pelo quadrado do coeficiente de correlação

\[r^2=R^2\]

Análise de Variância (ANOVA) e Teste de F (Gujarati, pg 124)

Partindo do Modelo de Regressão:

\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]

O Teste de $F$ tem por finalidade testar o efeito conjunto das variáveis explicativas sobre a variável dependente. Isso significa verificar se pelo menos uma das variáveis explicativas do modelo exerce efetivamente influência sobre a variável dependente. No modelo simples a função do teste de $F$ é a de testar a significância do efeito de $X$ sobre o $Y$.

Em geral o teste da significância global da regressão indica se a regressão como um todo faz sentido. Intuitivamente, representa um teste do próprio coeficiente de determinação ($R^2$).

Observação

Este teste exige normalidade dos erros

O Cálculo da estatística F pode ser efetuado da seguinte forma:

2.3. Tabela da Anova

Causas das Variações	S.Q.	G.L.	SQ Médio
Devido a Regressão	SQRegressão	$$k-1$$	SQ Me Reg	$$F$$
Devido ao Erro	SQResíduos	$$n-k$$	SQ Me Res
Total	SQTotal	$$n-1$$

Análise de Variância Simples

A decomposição da variação de $Y$ é normalmente utilizada para a análise de variância. A análise de variância mostra as diversas relações no desenvolvimento de estatística de avaliação na estimação de modelos.

Observação

No caso da regressão simples o teste de “t” equivale ao teste realizado com o teste de F desde que $t_{\beta 1}=\sqrt{F}$

Interpretação: admita o modelo teórico:

\[Y_{i}=\beta _{0}+\beta _{i}X_{i1}+\beta _{2}X_{i2}+...+\beta _{k}X_{ik}+e_{i}\]

\[\text{Teste de hipótese}\left\{\begin{matrix} H_{0}:\beta _{1}=\beta _{2}=...=\beta _{k}=0\\ H_{A}: \text{Pelo menos um } \beta _{i}\neq 0 \end{matrix}\right.\]

Se o $F$-calculado for MAIOR que o $F$-tabelado, com ($k-1$) e ($n-k$) graus de liberdade (dado $\alpha \%$ de nível de significância) REJEITA-SE a Hipótese Nula.

Exemplo: Admita a tabela de $F$ a 0,05 (Gujarati, pg 816)

$F_{calculado}=13,32$

$n=12 \rightarrow$ numerador ($k-1$) $= 2$

$k = 3$ à denominador ($n-k$) $= 9$ $\rightarrow F_{tabelado}=4,26$ a $5\%$

Diz-se que a distribuição $F$ tem $N_{1}$ ($k-1$) graus de liberdade no numerador e $N_{1}$ ($n-k$) graus de liberdade no denominador. Os valores $N_{1}$ e $N_{2}$ definem a forma da distribuição, que, em geral, se apresenta como a figura abaixo.

TESTE DE F-SNEDECOR

$F$ não significativo implica dizer que não existe o modelo que estamos estimando (ou está mal especificado). Caso F seja significativo estatisticamente, indica que a regressão como um todo faz sentido e, as variáveis explicativas influenciam (globalmente) a variável explicada.

2.4. Erro-Padrão da Estimativa: ($S_{e}$)

Lembre-se da nota de aula número 3, onde o erro padrão da estimativa é um parâmetro que deve ser estimado da seguinte forma:

\[S_{e}^2=\frac{\sum e_{i}^2}{n-k}\Rightarrow S_{e}=\sqrt{\frac{\sum e_{i}^2}{n-k}}\]

Erro-Padrão:

O Erro-Padrão da estimativa é uma medida de variabilidade da distribuição condicional de Y para valores fixos de X. Utilizam-se todos os resíduos da reta ajustada de regressão para calcular o erro-padrão, pois se supõe que todas as distribuições condicionais tenham a mesma variância.
Serve como referência para a escolha do melhor modelo, isto é, melhor modelo é aquele que tem o menor erro-padrão (ou dito da mesma forma: a menor variância).

Erro-Padrão x Desvio-Padrão

O conceito de erro-padrão está estreitamente relacionado com o desvio-padrão. Ambos são médias quadráticas das diferenças entre um elemento de um conjunto de dados e um valor médio. Representa uma medida que indica a diferença da observação média do grupo de uma amostra.

Desvio-Padrão: $S_{x}=\sqrt{\frac{\sum (X_{i}-\overline{X})^2}{n-1}}$

O principal objetivo do cálculo do erro-padrão, para o problema de avaliação estatística do modelo, é calcular a variância de cada parâmetro estimado do modelo e efetuar a inferência estatística. Isto é, verificar se o parâmetro estimado do modelo de regressão é estatisticamente significativo.

2.5. Testes de Significância Individual dos Parâmetros

Teste de “t”- Student

É usado para determinar se os parâmetros da amostra são significativamente diferentes dos parâmetros hipotéticos da população sendo desconhecido o desvio-padrão da população.

\[t=\frac{\widehat{\beta}_{i}-\beta _{i}}{S_{\widehat{\beta }_{i}}}\]

Onde $S$ representa o Erro-Padrão dos parâmetros estimados

Variância $\widehat{\beta }_{0}=S_{\beta _{0}}^2=S_{e}^2\cdot \frac{\sum X_{i}^2}{n\sum x_{i}^2}$
Erro-Padrão $\widehat{\beta }_{0}=\sqrt{S_{\beta _{0}}^2}$
Variância $\widehat{\beta }_{0}=S_{\beta _{1}}^2=S_{e}^2\cdot \frac{1}{\sum x_{i}^2}$
Erro-Padrão $\widehat{\beta }_{1}=\sqrt{S_{\beta _{1}}^2}$

\[t_{\widehat{\beta }_{0}}=\frac{\widehat{\beta }_{0}}{S_{\widehat{\beta }_{0}}}\]

\[t_{\widehat{\beta }_{1}}=\frac{\widehat{\beta }_{1}}{S_{\widehat{\beta }_{1}}}\]

Teste de Hipóteses (admita a tabela de t-student, Gujarati, 815)

2.6. Quadro Resumo do Teste de Hipótese


$$\begin{matrix}H_{0}:\widehat{\beta}_{i}=0\\H_{1}:\widehat{\beta}_{i}\neq 0\end{matrix}$$	$$v=n-k$$	$$t\frac{\alpha}{2}=10\%=\frac{10}{100}=0,1$$	$$t\frac{\alpha}{2}=5\%=\frac{5}{100}=0,05$$
$$t\widehat{\beta}_{0}=\text{calculado}$$	$$n-k$$	$$\text{Rejeita/Aceita Ho}$$	$$\text{Rejeita/Aceita Ho}$$
$$t\widehat{\beta}_{1}=\text{Calculado}$$	$$n-k$$	$$\text{Rejeita/Aceita Ho}$$	$$\text{Rejeita/Aceita Ho}$$

Avaliação Gráfica do Teste de Hipótese utilizando a distribuição t-student

Intervalo de Confiança (Gujarati, pg 112)

O intervalo de confiança, para o parâmetro estimado, fornece uma classe ou limites dentro dos quais o verdadeiro valor do parâmetro deva estar com um coeficiente de confiança de, digamos, 95% de probabilidade.

\[IC=\left [ \widehat{\beta }_{0}-S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2}\leq \beta _{i}\leq \widehat{\beta }_{i}+S_{\widehat{\beta }_{i}}\cdot t\frac{\alpha }{2} \right ]\]

Diz-se que existe 95% de probabilidade deste intervalo conter o verdadeiro parâmetro bi.

2.7. Apresentação Definitiva do Modelo Estimado

$Y_{i}=\widehat{\beta }_{0_{(t\beta _{0})}}+\widehat{\beta }_{1_{(t\beta _{1})}}X_{i}$ $R^2$ $F$ $JB$ $\overline{X}$ $\overline{Y}$

3. CRITÉRIO ECONÔMICO

3.1. Interpretação das Magnitudes dos Parâmetros de Regressão

Da relação entre Consumo e Renda: $Y = 24,45 + 0,5091X$

Geralmente o valor de $\widehat{\beta }_{0}$ não apresenta significado econômico.

Admita que $\widehat{\beta }_{1}=0,5091$; significa que aumentando em $R\$$ $1,00$ a renda, o consumo aumentará em $R\$$ $0,5091$. A magnitude desse coeficiente parece razoável? e o sinal apresenta de acordo com a teoria econômica?

3.2. Análise Econômica

Efeito Marginal = $\frac{\partial Y}{\partial X}$ representa o efeito da variável $X$ na variável $Y$, em mesma magnitude das variáveis coletadas. Dito de outra forma, qual o impacto sobre $Y$ dada uma variação em unidade em $X$.

Elasticidade: Um cálculo útil, para a análise econômica, é o cálculo da elasticidade. Por definição representa a variação percentual de uma determinada variável explicada ($Y$) em relação à variação percentual da variável explicativa ($X$). O cálculo pode ser representado pela seguinte operação algébrica:

\[\left\{\begin{matrix} Y_{i}=\beta _{0}+\beta _{1}X_{i}\\ \frac{\partial Y}{\partial X}=\beta _{1} \\ \frac{\frac{\Delta Y}{Y}}{\frac{\Delta X}{X}}=\frac{\Delta Y}{\Delta X}\cdot \frac{X}{Y}=\frac{\partial Y}{\partial X}\cdot \frac{X}{Y}=\beta _{1}\frac{\overline{X}}{\overline{y}} \end{matrix}\right.\]

Em resumo, a elasticidade representa o efeito da variável X sobre a variável Y, medido em percentagem (%).

4. Regressão linear no R

\[\text{Consumo} = \beta_0 + \beta_1 \cdot Renda\]


Call:
lm(formula = consumoT ~ RendaD)

Coefficients:
(Intercept)       RendaD  
-11878.3278       0.6847


Call:
lm(formula = consumoT ~ RendaD)

Residuals:
   Min     1Q Median     3Q    Max 
-95647 -12951   2748  11948  55869 

Coefficients:
                 Estimate    Std. Error t value             Pr(>|t|)    
(Intercept) -11878.327764   4211.673141   -2.82              0.00576 ** 
RendaD           0.684722      0.003961  172.88 < 0.0000000000000002 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 23100 on 103 degrees of freedom
Multiple R-squared:  0.9966,    Adjusted R-squared:  0.9965 
F-statistic: 2.989e+04 on 1 and 103 DF,  p-value: < 0.00000000000000022

Objetivos

Livro Texto

1. CRITÉRIOS DE AVALIAÇÃO DE UM MODELO ESTIMADO

A. Critério estatístico

B. Critério econométrico

C. Critério econômico

2. CRITÉRIO ESTATÍSTICO

2.1. Teste do Ajustamento Global do Modelo de Regressão

2.2. OBSERVAÇÕES:

2.3. Tabela da Anova

2.4. Erro-Padrão da Estimativa: (\(S_{e}\))

2.5. Testes de Significância Individual dos Parâmetros

2.6. Quadro Resumo do Teste de Hipótese

2.7. Apresentação Definitiva do Modelo Estimado

3. CRITÉRIO ECONÔMICO

3.1. Interpretação das Magnitudes dos Parâmetros de Regressão

3.2. Análise Econômica

4. Regressão linear no R