1. Introdução: Correlação vs. Causalidade
Em análise de dados, frequentemente observamos que duas variáveis se
movem juntas. A isso chamamos correlação. Por exemplo,
as vendas de sorvete e o número de afogamentos em uma cidade são
positivamente correlacionados. No entanto, seria um erro concluir que o
consumo de sorvete causa afogamentos. A verdadeira causa, a
variável oculta, é o calor: dias mais quentes levam a
um aumento em ambas as atividades.
A econometria busca ir além da correlação, tentando estabelecer e
quantificar relações de causalidade com base na teoria
econômica. A ferramenta mais básica e fundamental para isso é a
regressão linear.
Hoje, vamos usar a regressão para testar uma das mais famosas
hipóteses da macroeconomia: a Função Consumo
Keynesiana, que postula que o consumo de uma sociedade é uma
função positiva de sua renda.
2. O Modelo de Regressão Linear Simples
O modelo matemático que descreve uma relação linear entre uma
variável dependente (\(Y\)) e uma
variável independente (\(X\)) é:
\[
Y_i = \beta_0 + \beta_1 X_i + u_i
\]
Onde:
\(Y_i\): é a variável dependente
(o que queremos explicar, ex: Consumo).
\(X_i\): é a variável
independente ou explicativa (o que usamos para explicar, ex:
Renda).
\(\beta_0\): é o intercepto (o
valor de \(Y\) quando \(X=0\)).
\(\beta_1\): é o coeficiente
angular (mede a variação em \(Y\) para
uma variação unitária em \(X\)). Este
é, frequentemente, o nosso principal parâmetro de interesse.
\(u_i\): é o termo de erro
estocástico. Ele captura todos os outros fatores que afetam \(Y\) e que não estão incluídos no
modelo.
O índice \(i\) representa cada
observação (ex: cada mês, cada ano, cada país).
Nosso objetivo é obter estimativas para os parâmetros desconhecidos
\(\beta_0\) e \(\beta_1\) usando os dados que temos de
\(Y\) e \(X\).
3. Estimação por Mínimos Quadrados Ordinários (MQO)
Como encontramos a “melhor” linha que se ajusta aos nossos dados? O
método de MQO (em inglês, OLS - Ordinary Least Squares) define a
“melhor” linha como aquela que minimiza a soma dos quadrados dos
resíduos.
O resíduo (\(\hat{u}_i\)) é a
diferença entre o valor observado de \(Y_i\) e o valor predito pelo modelo, \(\hat{Y}_i\):
\[
\hat{u}_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i)
\]
O MQO busca minimizar a Soma dos Quadrados dos Resíduos (SQR):
\[
SQR = \sum_{i=1}^{n} \hat{u}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 -
\hat{\beta}_1 X_i)^2
\]
Para encontrar os valores de \(\hat{\beta}_0\) e \(\hat{\beta}_1\) que minimizam essa
expressão, usamos cálculo, derivando a SQR em relação a cada parâmetro e
igualando a zero.
Derivando em relação a \(\hat{\beta}_0\): \[
\frac{\partial SQR}{\partial \hat{\beta}_0} = -2 \sum_{i=1}^{n} (Y_i -
\hat{\beta}_0 - \hat{\beta}_1 X_i) = 0
\]
Derivando em relação a \(\hat{\beta}_1\): \[
\frac{\partial SQR}{\partial \hat{\beta}_1} = -2 \sum_{i=1}^{n} X_i(Y_i
- \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0
\]
Resolvendo este sistema de duas equações (conhecidas como equações
normais), chegamos às fórmulas dos estimadores de MQO:
\[
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i -
\bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{Cov(X, Y)}{Var(X)}
\]
\[
\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}
\]
Onde \(\bar{Y}\) e \(\bar{X}\) são as médias amostrais de \(Y\) e \(X\), respectivamente.
4. Aplicação Prática em R
Vamos agora aplicar esses conceitos para analisar a relação entre o
Consumo Pessoal Real (PCEC
) e a
Renda Pessoal Disponível Real (DSPIC96
)
nos Estados Unidos.
4.1. Preparação do Ambiente
Primeiro, instalamos e carregamos os pacotes necessários.
# Instalar pacotes (se necessário)
# install.packages("tidyverse")
# install.packages("plotly")
# install.packages("scales")
# install.packages("fredr")
# install.packages("stargazer")
# Carregar os pacotes
library(tidyverse)
library(plotly)
library(scales)
library(fredr)
library(stargazer)
4.2. Obtenção dos Dados
Usaremos o pacote fredr
para baixar os dados diretamente
do banco de dados do Federal Reserve de St. Louis (FRED). É necessário
configurar uma chave de API (gratuita) do FRED.
# Configure sua chave da API do FRED
fredr_set_key("26ab7fb885e4b3bc387f255728b0a8af")
# 1. Obter os dados de Consumo (PCEC)
dados_consumo <- fredr(
series_id = "PCEC",
observation_start = as.Date("1990-01-01")
)
# 2. Obter os dados de Renda (DSPIC96)
dados_renda <- fredr(
series_id = "DSPIC96",
observation_start = as.Date("1990-01-01")
)
# 3. Juntar os dois dataframes pela data
dados <-
# Seleciona e renomeia a coluna 'value' do df de consumo
select(dados_consumo, date, consumption = value) %>%
# Junta com o df de renda, selecionando e renomeando a coluna 'value'
inner_join(
select(dados_renda, date, income = value),
by = "date"
) %>%
# Garante que não há linhas com dados faltantes
na.omit()
head(dados)
## # A tibble: 6 × 3
## date consumption income
## <date> <dbl> <dbl>
## 1 1990-01-01 3738. 7187.
## 2 1990-04-01 3783. 7253.
## 3 1990-07-01 3847. 7284.
## 4 1990-10-01 3868. 7179.
## 5 1991-01-01 3874. 7206.
## 6 1991-04-01 3927. 7258
4.3. Análise Visual
Antes de estimar o modelo, é fundamental visualizar a relação entre
as variáveis.
# Tooltip amigável (pt-BR) com quebras de linha em HTML
dados_plot <- dados %>%
mutate(
tooltip = paste0(
"Data: ", format(date, "%b/%Y"),
"<br>Renda disp.: ", number(income, accuracy = 0.1, big.mark = ".", decimal.mark = ","), " bi USD",
"<br>Consumo: ", number(consumption, accuracy = 0.1, big.mark = ".", decimal.mark = ","), " bi USD"
)
)
p <- ggplot(dados_plot, aes(x = income, y = consumption)) +
geom_point(aes(text = tooltip), alpha = 0.5, color = "#02023C") +
geom_smooth(method = "lm", se = FALSE, col = "#FEB712") +
labs(
title = "Relação entre Consumo e Renda Disponível nos EUA",
subtitle = "Dados mensais desde 1990",
x = "Renda Pessoal Disponível Real (Bilhões de USD)",
y = "Consumo Pessoal Real (Bilhões de USD)",
caption = "Fonte: FRED"
) +
theme_minimal()
# Converte para plotly usando apenas o 'text' do geom_point no tooltip
ggplotly(p, tooltip = "text")
O gráfico de dispersão mostra uma correlação positiva e forte par
valores menores, quase perfeitamente linear, como esperado pela teoria
Keynesiana. Entretanto, para valores maiores há um descolamento da linha
de fit, o que poderá representar problemas para o modelo
4.4. Estimação do Modelo
Agora, vamos estimar o modelo de regressão linear simples usando a
função lm()
(linear model).
modelo_simples <- lm(consumption ~ income, data = dados)
4.5. Análise dos Resultados
Podemos ver os resultados detalhados com a função
summary()
.
##
## Call:
## lm(formula = consumption ~ income, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5196.4 -386.5 -227.1 400.1 2623.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.786e+03 3.200e+02 -21.21 <2e-16 ***
## income 1.395e+00 2.582e-02 54.03 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 966.1 on 140 degrees of freedom
## Multiple R-squared: 0.9542, Adjusted R-squared: 0.9539
## F-statistic: 2920 on 1 and 140 DF, p-value: < 2.2e-16
Para uma visualização mais limpa e profissional, usamos o pacote
stargazer
.
stargazer(modelo_simples, type = "text",
title = "Resultados da Regressão: Função Consumo",
dep.var.labels = "Consumo Pessoal",
covariate.labels = c("Renda Disponível", "Intercepto"),
align = TRUE)
##
## Resultados da Regressão: Função Consumo
## ===============================================
## Dependent variable:
## ---------------------------
## Consumo Pessoal
## -----------------------------------------------
## Renda Disponível 1.395***
## (0.026)
##
## Intercepto -6,785.883***
## (319.974)
##
## -----------------------------------------------
## Observations 142
## R2 0.954
## Adjusted R2 0.954
## Residual Std. Error 966.128 (df = 140)
## F Statistic 2,919.548*** (df = 1; 140)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Interpretando os Resultados:
- Coeficientes (
Estimate
):
- Intercepto (\(\hat{\beta}_0\)):
-6,785.883
.
Este é o nível de consumo autônomo, ou seja, o consumo que existiria
mesmo com renda zero. Economicamente, pode ser interpretado como o
consumo financiado por poupança ou crédito.
- income (\(\hat{\beta}_1\)):
1.395
. Este
é o coeficiente mais importante. Ele representa a Propensão
Marginal a Consumir (PMgC). A interpretação é: para cada
aumento de $1 bilhão na renda disponível real, espera-se que o consumo
real aumente em aproximadamente $1.395 bilhões, ceteris
paribus.
- P-valor (
Pr(>|t|)
):
- O p-valor para o coeficiente
income
é extremamente
baixo (< 2e-16
, que é essencialmente zero). Isso testa a
hipótese nula de que \(\beta_1 = 0\).
Como o p-valor é menor que qualquer nível de significância convencional
(1%, 5%, 10%), nós rejeitamos a hipótese nula. Isso
significa que há evidência estatística robusta de que a renda tem um
efeito significativo sobre o consumo.
- R-quadrado (
Multiple R-squared
):
- O valor é
0.954
. Isso significa que aproximadamente
95.4% da variação no consumo pessoal pode ser explicada
pela variação na renda pessoal disponível em nosso modelo. É um valor
extremamente alto, indicando um ajuste excelente do modelo aos
dados.
5. Outros Testes Relevantes (Diagnóstico)
Para que nossas estimativas sejam confiáveis (não-viesadas e
eficientes), o modelo precisa atender a certos pressupostos. Vamos
verificar brevemente dois deles:
5.1. Normalidade dos Resíduos
Os resíduos devem seguir uma distribuição normal.
# Extrair resíduos
residuos <- residuals(modelo_simples)
# Histograma dos resíduos
hist(residuos, main = "Histograma dos Resíduos", xlab = "Resíduos", col = "#FEB712", border = "black")

# Teste de Shapiro-Wilk
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.81057, p-value = 2.875e-12
O histograma não parece demonstrar uma distribuição normal. Com
efeito, teste de Shapiro-Wilk rejeita a normalidade
(\(H_0\): Normalidade dos
resíduos)
5.2. Homocedasticidade
A variância dos resíduos deve ser constante (homocedasticidade).
Podemos verificar isso plotando os resíduos contra os valores
ajustados.
plot(fitted(modelo_simples), residuos,
xlab = "Valores Ajustados", ylab = "Resíduos",
main = "Resíduos vs. Valores Ajustados")
abline(h = 0, col = "#02023C", lty = 2)

Neste gráfico, não devemos ver um padrão claro (como um cone ou
funil). No nosso caso, a nuvem de pontos parece relativamente uniforme
ao redor da linha zero para rendas mais baixas, o que é um bom sinal
para a homocedasticidade. Entretanto, para rendas mais altas, a
variância dos resíduos aumenta consideravelmente, formando um funil, o
que é sinal de heterocedasticidade e deverá ser tratado para
conseguirmos estatísticas interpretáveis.
6. Conclusão
Nesta aula, partimos do conceito de correlação vs. causalidade,
apresentamos a matemática por trás do modelo de regressão linear simples
e do método de MQO. Aplicamos esses conceitos para testar a Função
Consumo Keynesiana usando dados reais dos EUA. Nossos resultados tendem
a confirmar em alguma medida a teoria, entretetanto, o dado dos anos
mais recentes impõem dificuldades à análise. Isso foi mostrado com a
introdução dos testes de diagnóstico para validar a robustez do nosso
modelo. Este é o primeiro passo para análises econométricas mais
complexas e poderosas.
