Lista 2 de Econometria I - Regressão Linear Simples

Exercícios Teóricos

Questão 1 (Wooldridge)

Seja \(kids\) o número de filhos já nascidos de uma mulher e \(educ\) os anos de estudo. Um modelo simples que relaciona a fertilidade aos anos de educação é

\[ kids = \beta_0 + \beta_1 educ + u \]

onde \(u\) é o erro não observado.

  1. Que tipos de fatores estão contidos em você? É provável que estes estejam correlacionados com o nível de educação?

  2. Uma simples análise de regressão revelará o efeito ceteris paribus da educação sobre a fertilidade? Explique.

Exercícios Práticos

A base de dados PNAD2023 em .RDS contém os dados da PNAD Contínua do 1º Trimestre de 2023 e será utilizada nos exercícios 3 a 5.

A base possui 183119 observações com as seguintes variáveis:

  • educ: Anos de Estudo,
  • rend: Rendimento no último mês em R$

Questão 2

Estime o seguinte modelo por mínimos quadrados ordinários

\[ rend = \beta_0 + \beta_1 educ + u\]

Obs.: lembre-se de definir um diretório de trabalho pelo comando setwd() e importe a base de dados através do readRDS()

  1. Estime o modelo através do comando lm() e interprete os coeficientes.

  2. Utilize o comando summary para verificar as estatísticasdo modelo de regressão. Qual o \(R^2\) e o \(SER\)?

Questão 3

Estime o modelo da questão anterior manualmente, apresentando: - Os coeficientes \(\beta_0\) e \(\beta_1\) - A variância de \(\beta_1\) - O erro padrão de \(\beta_1\) - O \(R^2\) - O Erro Padrão da Regressão (\(SER\))

Os resultados são iguais aos mostrados pelas funções lm() e summary()? Apresente os comandos usados no seu script.

Questão 4

Repita o exercício 3, mas estimando o modelo Log-Nível para Rendimentos e Anos de Estudo. Isto é, estime o modelo

\[ \log(rend) = \beta_0 + \beta_1 educ + u\]

Como você interpreta os coeficientes?

Questão 5

O quarteto de Anscombe é um conjunto de 4 conjnuntos de dados \(x\),\(y\) que foram publicados por Francis Anscombe no artigo Graphs in statistical analysis de 1973.

Para este exercício, carregue os dados ascombe que fazem parte do pacote datasets da seguinte forma:

## É necessário instalar o pacote antes
#install.packages("datasets")
library(datasets)

data(anscombe)
anscombe
##    x1 x2 x3 x4    y1   y2    y3    y4
## 1  10 10 10  8  8.04 9.14  7.46  6.58
## 2   8  8  8  8  6.95 8.14  6.77  5.76
## 3  13 13 13  8  7.58 8.74 12.74  7.71
## 4   9  9  9  8  8.81 8.77  7.11  8.84
## 5  11 11 11  8  8.33 9.26  7.81  8.47
## 6  14 14 14  8  9.96 8.10  8.84  7.04
## 7   6  6  6  8  7.24 6.13  6.08  5.25
## 8   4  4  4 19  4.26 3.10  5.39 12.50
## 9  12 12 12  8 10.84 9.13  8.15  5.56
## 10  7  7  7  8  4.82 7.26  6.42  7.91
## 11  5  5  5  8  5.68 4.74  5.73  6.89
  1. Utilize a função summary() no conjunto de dados

  2. Ajuste um modelo de regressão linear para cada par \(x\) e \(y\) (x1 e y1, x2 e y2 etc.). O que você observa?

  3. Agora plote um gráfico de dispersão para cada par \(x\) e \(y\) e trace a reta de regressão. Compare os resultados do ajuste de cada modelo e interprete.

Dica: Lembre-se que um gráfico de dispersão com reta de regressão pode ser feito da seguinte forma:

data %>% 
  ggplot(aes(x = x, y = y)) + 
  geom_point() +
  geom_smooth(method  = "lm")