REGRESSÃO LINEAR: ABORDAGEM ALGÉBIRCA

 UNIVERSIDADE FEDERAL DA PARAÍBA

Autores

Prof. Dr. Sinézio Fernandes Maia

Josué de Meneses Lopes

Data de Publicação

15 de abril de 2024

Plano de Aula

Metas

Apresentar a Introdução a Econometria por meio de modelo de regressão linear simples com abordagem algébrica.

Bibliografia Básica

GUJARATI, D. N. Economia Básica. Sao Paulo: MAKRON Boks, 2006. Introdução, Capítulo 1 e Capítulo 3.

Bibliografia Complementar

FEIJÓ, et all. Contabilidade Social. Sao Paulo: Campus, 2003. FONSECA, J. S.et all. Estatística Aplicada. 2 ed. São Paulo: Atlas, 1985 cap.5 pg157-231.

HILL, C.; GRIFFITHS, W.; JUDGE,G. Econometria. São Paulo: Saraiva, 1999. HOFFMAN, R. e VIEIRA, S. Análise de regressão: uma introdução à econometria. São Paulo: Hucitec, 1983 (pg 39).

HOFFMAN, Rodolfo. Estatística para economistas. São Paulo: Editora Pioneira, 1980. JOHNSTON, J. Métodos econométricos. São Paulo: Atlas, 1976.

KMENTA, Jan. Elementos de econometria. São Paulo: Atlas, 1988.

MANKIW, N.G. Introdução à Economia: Princípios de Micro e Macroeconomia. Rio de Janeiro: Campus, 2000.

MATOS, O. C. Econometria básica: teoria e aplicação. São Paulo: Atlas, 1995.

MONTORO FILHO, A. F.; PINHO, D. B. (Coord.) Manual de Economia. São Paulo: Saraiva, 2003.

SALVATORE, Dominic. Estatística e econometria. São Paulo: McGraw-Hill, 1983.

SPIEGEL, M. R. Estatística. 3 ed. São Paulo: Makron, 1994.

WONNACOTT, R. J. e WONNACOTT, T.H. Econometria. Rio de Janeiro: LTC, 1976.

1. Metodologia da Pesquisa Econométrica

O corpo da teoria econômica pode ser considerado como uma coleção de relações entre variáveis, ou seja, a teoria econômica preocupa- se, sobretudo, com relações entre variáveis:

Oferta x Demanda

Função de Custo

Função de Produção

Taxa de Juros x Investimentos

Entretanto, a teoria econômica não fornece qualquer medida nu- mérica da relação entre as variáveis. A econometria é um tipo especial de análise econômica na qual a abordagem teórica é combinada com formulações matemáticas, procedimentos estatísticos complexos e mensuração empírica dos fenômenos econômicos por meio de análise de uma base de dados.

Em econometria a preocupação está em testar as proposições teóricas nestas relações e estimar parâmetros envolvidos. Em síntese, procura isolar efeitos de relações de causalidades, isto é, desagregar os efeitos entre as relações das variáveis. Dessa forma, pode-se dizer que o enfoque econométrico é dado no isolamento dos efeitos das relações de causalidades.

A análise de regressão é a técnica básica para medir ou estimar relações entre variáveis econômicas que constituem a essência da teoria econômica. O objetivo fundamental da análise de regressão é estimar a relação entre as variáveis, que os economistas usam para fins de análise estrutural, análise de política econômica e previsões. Em resumo, a análise de regressão ocupa-se do estudo da dependência de uma variável em relação a uma ou mais variáveis (explicativas) com o objetivo de obter informações do fenômeno analisado. Para isso, existe uma metodologia tradicional no trato da Econometria (vide figura 1).

Apresentação analítica da metodologia no trato econométrico
Figura 1

2. Propósito da Econometria

Na metodologia da pesquisa econométrica, o critério de avaliação do modelo pode ser especificado da seguinte forma:

2.1. Análise Estrutural:

Verificar a teoria econômica; entender o fenômeno em estudo; avaliar os parâmetros do modelo (efeito marginal e elasticidade); É o uso do modelo econométrico para uma medida da relação econômica. Também facilita comparações de teorias rivais do mesmo fenômeno. A análise estrutural representa um propósito científico entendendo o mundo real pela medida quantitativa, testando e validando as relações econômicas. Exemplo: uma medida da relação entre inflação e desemprego (curva de Phillips).

2.2. Análise de Política:

Avaliar alternativas de tributação (por exemplo); avaliar alternativas de políticas de preços; elaborar simulações. É o uso de modelo econométrico para escolher entre políticas alternativas. Esta abordagem serve para que gestores de políticas econômicas possam simular valores para o fenômeno econômico em estudo.

2.3. Previsões:

Prever valores futuros da oferta e demanda de uma commodity. É o uso do modelo econométrico para prever valores de certas variáveis para “fora”da amostra de análise.

Lembre-se em economia a designação de uma variável como dependente e da outra como independente depende da formulação e do modelo teórico definido a priori.

Exemplo:

Qual a relação entre Preço x Consumo de um determinado bem? A escolha da variável independente e explicativa vem em função da teoria dos preços estabelecidos na microeconomia, ou seja:

\[Y = f(X)\]

\[Consumo = f(preço)\]

Em teoria de concorrência, o consumidor considera o preço fixo e ajusta seu consumo de forma a maximizar sua utilidade.

3. Análise de Regressão: Abordagem Algébrica

A reta ajustada de regressão é gerada por um conjunto de dados que leva em consideração um termo chamado de erro aleatório (ou perturbação aleatória). Para cada observação (Y,C) há um termo de erro associado. Estes termos “erros” (ou perturbações) são iguais a distância vertical entre os pontos observados e os pontos correspondentes sobre a reta de regressão. Representam que há várias possibilidades (probabilidades) de ocorrência de C para determinado Y (resíduos ale- atórios).

A utilização de testes estatísticos faz com que as relações, em econometria, sejam estocásticas. Isto é, em econometria trataremos exclusivamente com relações estocásticas. A natureza estocástica do modelo de regressão implica que para cada valor de C haja uma distribuição de probabilidade total dos valores de Y. Isto significa que o valor de C não pode ser previsto exatamente. A incer- teza relativa de C surge por causa da presença de erro aleatório, que provoca causalidade em C.

3.1. População:

\[Y_{i}=\beta _{0}+\beta _{1}X_{1}+\varepsilon _{i}\]

\[Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\beta _{3}X_{i3}+\varepsilon _{i}\]

3.2. Amostra:

\[\widehat{Y}_{0}=\widehat{\beta }_{0}+\widehat{\beta }_{1}X_{1}+e_{i}\]

\[\widehat{Y}_{0}=\widehat{\beta }_{0}+\widehat{\beta }_{1}X_{i1}+\widehat{\beta }_{2}X_{i2}+\widehat{\beta }_{3}X_{i3}+e_{i}\]

3.3. Base de Dados

Três tipos de dados podem estar disponíveis para a análise empírica: dados de série temporal, de corte e combinados (série temporais e corte).

Dados de Série Temporal

Uma série temporal é um conjunto de observações dos valores que uma variável assume em diferentes momentos. Os dados assim coleta- dos podem ser quantitativos ou qualitativos. A maioria dos trabalhos empíricos baseados em dados de séries temporais supõe que as séries sejam estacionárias (a média e a variância não se alteram sistematicamente no tempo).

Dados de Coorte (Cross-Section)

São dados de uma ou mais variáveis coletadas no mesmo ponto do tempo. Assim como os dados das séries temporais dão origens a problemas específicos (por causa da estacionariedade), os dados de corte também tem seus problemas, de heterogeneidade. Alguns pontos são demasiadamente grandes enquanto outros apresentam demasiadamente pequenos. Quando incluímos unidades heterogêneas em uma análise estatística, o tamanho ou o efeito escala deve ser levado em consideração para evitar problemas de estimação. Um tratamento específicos com modelos heteroscedástico pode ajudar.

Dados Combinados (Dados de Painel)

Nos dados combinados há elementos tanto de séries temporais como de dados de corte. Um tipo especial de dados combinados, os dados de painel, representam uma mesma unidade cross-sectional (uma família ou uma firma) é pesquisada durante um período de tempo. Por exemplo, uma pesquisa periodicamente sobre a trajetória de uma pessoa com renda média em um determinado Estado. Em cada pesquisa é considerada a mesma pessoa.

4. Estimação dos Parâmetros de Regressão

4.1. Estimação dos Parâmetros do Modelo

Tendo estabelecido o modelo clássico de regressão linear, sua estrutura de pressuposições, o problema seguinte é desenvolver meios de obter estimativas para os parâmetros do modelo quando se dispõe de dados amostrais.

Este problema é abordado em econometria de uma maneira bastante característica. Desenvolvem-se fórmulas, denominadas de estimadores, que são usadas para obter estimativas em qualquer situação em que se aplica o modelo geral desenvolvido.

Assumindo que o fenômeno em estudo possa ser representado por uma equação de regressão linear simples, o modelo populacional pode ser representado por:

\[Y_{i}=\beta _{0}+\beta _{1}X_{1}+\varepsilon _{i}\]

\[i= 1, 2,..., n\]

onde \(Y\) é uma variável dependente, isto é, a variável cujas variações serão explicadas; \(X\) é a variável independente ou regressor ou explicativa; (\(\varepsilon\)) é o termo de erro aleatório com distribuição normal de média zero e variância \(\sigma ^{2}\); \(\beta _{0}\), \(\beta _{1}\) são parâmetros desconhecidos e \(i\) é um índice para observação.

Observa-se que \(\sigma ^{2}\), a variância do erro, é também um parâmetro 2 populacional a ser estimado. A equação representa o modelo verdadeiro ou da população. O problema de estimação consiste em obter estimativas para os parâmetros \(\beta _{0}\) e \(\beta _{1}\). Para isto, deve-se dispor de uma amostra de tamanho “\(n\)” obtida da população.

O fato de a equação representar o modelo populacional é na verdade estabelecida com base em conhecimentos a priori do fenômeno. A teoria indica a existência de uma relação entre \(X\) e \(Y\). Se ela é uma reta ou uma curva qualquer não se sabe. O que se faz é testar esta hipótese com base nos dados empíricos. Este teste envolve o ajustamento do modelo, e em seguida, avaliações do ajustamento. Se o modelo se ajustar de maneira satisfatória aos dados conclui-se que há evidências para aceitar a hipótese de que uma relação de natureza linear descreve o fenômeno em estudo, ou que os dados são provavelmente gerados por um modelo linear.

Para estimar o modelo, necessita-se de um conjunto de dados em Y e X representado por \(\widehat{Y}_{0}=\widehat{\beta }_{0}+\widehat{\beta }_{1}X_{1}+e _{i}\), onde \(\beta _{1}\)-chapéu representam estimativas para os parâmetros populacionais, e representa estimativas amostrais dos erros ei e são denominados “resíduos”ou “pertubações”.

O problema da estimação resume-se na obtenção de valores numéricos para \(\beta _{0}\) e \(\beta _{1}\), com base em dados amostrais, para \(Y\) e \(X\). Sendo \(\sigma ^{2}\) um parâmetro populacional 2 da distribuição de \(\varepsilon _{i}\) e, portanto, desconhecido, será necessário estimá-lo também.

O processo de estimação é, em síntese, uma forma de se ajustar uma reta (ou plano) aos dados. Existem vários métodos para se fazer isto, os quais variam desde o simples ajuste visual até métodos matemáticos formais. Dois métodos formam a base das técnicas econométricas modernas. O primeiro é o Método de Mínimo Quadrados e o segundo é o Método de Máxima Verossimilhança. Respectivamente, estes métodos minimizam e maximizam certas funções e fornecem fórmulas (ou estimadores) para aplicações em casos específicos.

4.2. Método de Mínimos Quadrados Ordinários (MQO)

4.2.1. Simples - Calculando os Parâmetros do Modelo de Regressão

Em caso de regressão simples, o modelo estatístico populacional é:

\(Y_{i}=\beta _{0}+\beta _{1}X_{1}+\varepsilon _{i}\)

Onde,

\(\varepsilon _{i}\) tem distribuição normal \(=\varepsilon _{i}\) \(N(0,\sigma ^{2})\)

\(E(\varepsilon _{i})=0\)

\(V(\varepsilon _{i})=E(\varepsilon _{i}^{2})=\sigma ^{2}\) para todo \(i\)

\(Cov(\varepsilon _{i},\varepsilon _{j})=E(\varepsilon _{i},\varepsilon _{j})=0;\forall\neq j\)

\(X\) assume valores fixos (não é uma variável aleatória)

\(X\) e \(Y\) têm relação linear.

Para a amostra, têm-se \(\widehat{Y}_{0}=\widehat{\beta }_{0}+\widehat{\beta }_{1}X_{1}+\varepsilon _{i}\) e para cada observação pode-se definir o desvio ou resíduo por (\(e_{i} = Y_{i}-\widehat{Y}_{0}\)).

Graficamente, pode-se representar este processo por pares de valores (\(X_{i},Y_{i}\)) e uma reta a ser ajustada aos dados. Esta reta é uma aproximação ou estimativa da reta verdadeira ou populacional. Pode-se observar que os desvios (\(e_{i}\)) serão positivos e negativos. Se eles são elevados ao quadrado e somados para todas as observações, a quantidade resultante será positiva e, o mais importante, irá variar diretamente com a dispersão dos pontos em torno da reta.

O método dos mínimos quadrados tem como princípio básico adotar como estimativas dos parâmetros os valores que minimizam a soma dos quadrados dos desvios.

Tem-se então,

\[e_{i}=Y_{i}-\widehat{Y}_{0}\]

\[e_{i}=Y_{i}-\beta _{0}-\beta _{1}X_{i}\]

\[e_{i}^{2}=(Y_{i}-\widehat{\beta }_{0}-\widehat{\beta }_{1}X_{i})^{2}\]

\[S*=\sum_{i=1}^{n}e_{i}^{2}=\sum_{i=1}^{n}(Y_{i}-\widehat{\beta}_{0}-\widehat{\beta}_{1}X_{i})^{2}\]

As condições necessárias e suficientes para que \(S*\) seja mínimo são que as derivadas parciais de \(S*\) em relação a \(\beta _{0}\) e \(\beta _{0}\) sejam iguais a zero, isto é

\[\frac{\delta S*}{\delta \beta _{0}}=2\sum (Y_{i}-\widehat{\beta}_{0}-\widehat{\beta}_{1}X_{i})(-1)=0\]

\[\frac{\delta S*}{\delta \beta _{1}}=2\sum (Y_{i}-\widehat{\beta}_{0}-\widehat{\beta}_{1}X_{i})(-X_{i})=0\]

Para não poluir as notações, retira-se o índice (\(i\)) das variáveis.

Obtém-se um sistema de equações que, após simplificações, chega-se a

\[\left\{\begin{matrix} \sum Y=n\widehat{\beta}_{0}+\widehat{\beta}_{1}\sum X\\ \sum XY=\widehat{\beta}_{0}\sum X+\widehat{\beta}_{1}\sum X^{2} \end{matrix}\right.\]

Este sistema é denominado de “equações normais” dos mínimos quadrados. A resolução do sistema irá fornecer fórmulas para determinar estimativas numéricas para \(\beta_{0}\) e \(\beta_{0}\), em função das observações amostrais.

Resolvendo o sistema de equações para \(\widehat{\beta}_{0}\), temos:

\[\sum Y=n\widehat{\beta}_{0}+\widehat{\beta}_{1}\sum X\]

\[\sum Y=-\widehat{\beta}_{1}\sum X=n\widehat{\beta}_{0}\]

\[\frac{\sum Y}{n}-\widehat{\beta}_{1}\frac{\sum X}{n}=\widehat{\beta}_{0}\]

\[\widehat{\beta}_{0}=\overline{Y}-\widehat{\beta}_{1}\overline{X}\]

Resolvendo o sitema de equações para \(\widehat{\beta}_{1}\)

\[\sum XY=\widehat{\beta}_{0}\sum X+\widehat{\beta}_{1}\sum X^{2}\]

\[\sum XY=(\overline{Y}-\widehat{\beta}_{1}\overline{X})\sum X+\widehat{\beta}_{1}\sum X^{2}\]

\[\sum XY=-\frac{\sum X\sum Y}{n}=\widehat{\beta}_{1}(\sum X^{2}-\frac{(\sum X)^{2}}{n})\]

\[\widehat{\beta}_{1}=\frac{\sum (XY-\frac{\sum X\sum Y}{n})}{\sum X^{2} -\frac{(\sum X)^{2}}{n}}\]

Critério das variáveis reduzidas para calcular o \(\widehat{\beta}_{1}\)

\[\widehat{\beta}_{1}=\frac{\sum (X-\overline{X})(Y-\overline{Y})}{\sum (X-\overline{X})^{2}}\]

\[\widehat{\beta}_{1}=\frac{\sum x_{i}y_{i}}{\sum x^{2}}\]

4.2.2. Calculando o Erro-padrão da Estimativa

Usam-se os resíduos da reta de regressão pelos mínimos quadrados para estimar a variância \(\sigma ^{2}\) dos termos de “erro”.

\[S_{e}^{2}=\frac{\sum e_{i}^{2}}{n-2}\Rightarrow S_{e}=\sqrt{\frac{\sum e_{i}^{2}}{n-2}}\]

Dessa forma, esse resultado chama-se de erro-padrão da estimativa, ou desvio-padrão amostral da regressão.

O erro-padrão da estimativa é uma medida da variabilidade da distribuição condicional de Y para valores fixos de X. Utiliza-se todos os resíduos da reta ajustada da regressão para calcular (\(S_{i}\)) porque se supõe que todas as distribuições condicionais tenham a mesma variân- cia. O uso de \(n-2\) no denominado é um reflexo do fato de que devemos estimar dois parâmetros \(\widehat{\beta}_{0}\) e \(\widehat{\beta}_{1}\) antes de computar os resíduos(\(e_{i}\))

4.2.3. Calculando o Erro-Padrão dos Parâmetros \(\widehat{\beta}_{0}\) e \(\widehat{\beta}_{1}\)

Para sabermos se os parâmetros estimados são bons estimadores é preciso verificar a variância dos parâmetros e os erro-padrões respectivos.

Variância de \(\widehat{\beta}_{0}=S_{\beta _{0}}^{2}=S_{e}^{2}\frac{\sum X_{i}^{2}}{n\sum x_{i}^{2}}\)

Erro-padrão de \(\widehat{\beta}_{0}=\sqrt{S_{\beta _{0}}^{2}}\)

Variância de \(\widehat{\beta}_{1}=S_{\beta _{1}}^{2}=S_{e}^{2}\frac{1}{\sum x_{i}^{2}}\)

Erro-padrão de \(\widehat{\beta}_{1}=\sqrt{S_{\beta _{1}}^{2}}\)

Assim, tem-se que os parâmetros estimados do modelo e regressão linear simples somente poderão ser considerados significativos, sob o ponto de vista estatístico, se relacionados com seus respectivos erros- padrão.