Regressão linear simples

Formulas

\[ Y_i = \alpha + \beta X_i + \mu_i \]

\[ E(\mu_i) = 0 \\ E(\mu^2) = \sigma^2 \\ E(\mu_i\mu_j) = 0 \quad \text{para} \quad i \neq j \\ E(\mu_i)E(\mu_j) = 0 \]

\[ E(a) = \alpha = E(\hat{\alpha}) \\ E(b) = \beta = E(\hat{\beta}) \\ E(Y_i) = \alpha +\beta X_i \]

\[ \hat{Y_i} = \hat{\alpha} + \hat{\beta} X_i \\ e_i = Y_i - \hat{Y_i} = Y_i - (\hat{\alpha} + \hat{\beta} X_i) \\ Y_i = \hat{Y_i} + e_i \\ \]

\[ \frac{\Sigma{Y_i}}{n} = \frac{\Sigma{Y_i}}{n} = \overline{Y}\]

Mínimos Quadrados

Adotar como estimativas (\(\hat\alpha\) e \(\hat\beta\)) dos parâmetros (\(\alpha\) e \(\beta\)) os valores que minimizam a soma dos quadrados dos desvios (\(Y_i - \hat{Y_i}\)).

\[ Z = \sum_{n = 1}^{n} [Y_i - (\hat{\alpha} + \hat{\beta} X_i)]^2 = \sum{e_i}^2\]

\[ Derivadas = \begin{cases} \frac{\partial Z}{\partial \hat{\alpha}} = -2 \sum{(Y_i - (\hat{\alpha} + \hat{\beta} X_i)} = 0\\ \frac{\partial Z}{\partial \hat{\beta}} = +2 \sum{(Y_i - (\hat{\alpha} + \hat{\beta} X_i)(-X_i)} = 0 \end{cases} \]

Onde: \[ n \hat{\alpha} + \hat{\beta} \Sigma X_i = \Sigma Y_i \\ \hat{\alpha} \Sigma X_i + \hat{\beta} \Sigma X_i^2 = \Sigma X_iY_i \]

Isolando \(\hat\alpha\): \[ \hat{\alpha} = \frac{(\Sigma X^2)(\Sigma Y)-(\Sigma X)(\Sigma XY)}{n \Sigma X^2 - (\Sigma X)^2} = \frac{\Sigma Y}{n} - \frac{\hat{\beta} \Sigma X}{n} = \overline{Y} - \hat{\beta} \overline{X} \]

Isolando \(\hat\beta\): \[ \hat{\beta} = \frac{n \Sigma XY - (\Sigma X)(\Sigma Y)}{n \Sigma X^2 - (\Sigma X)^2} = \frac{\Sigma XY - (\Sigma X)(\Sigma Y)}{\Sigma X^2 - (\frac{\Sigma X^2}{n})} = \frac{\Sigma (X-\overline{X})(Y-\overline{Y})}{\Sigma (X-\overline{X})^2} = \frac{\Sigma (X-\overline{X})Y}{\Sigma (X-\overline{X})^2} = \frac{\Sigma X(Y-\overline{Y})}{\Sigma (X-\overline{X})^2} = \frac{\Sigma xy}{\Sigma x^2} = \frac{\Sigma xY}{\Sigma x^2} = \frac{\Sigma Xy}{\Sigma x^2} \\ \]

Onde: \(\begin{aligned} \overline{X} = \frac{\Sigma X}{n} \quad;\quad \overline{Y} = \frac{\Sigma Y}{n} \quad;\quad x = X-\overline{X} \quad;\quad y = Y-\overline{Y} \end{aligned}\)



Entendendo a regressão linear a partir de um exemplo

Apresentando os dados

Utilizamos uma função simples, onde o custo (Y) é dado em função da quantidade produzida (X). Nessa função o \(\alpha\) é o custo fixo e o \(\beta\) é o custo marginal

# definir um vetor para todas as observações (n)
observacoes <- c(1,2,3,4,5,6,7,8,9,10)
# definir uma matriz de valores de quantidade (X) e custo (Y)
quantidade <- c(0,1,1,2,3,3,4,5,5,6)
custo <-c(3,2,3,5,4,4,7,6,7,9)
producao_matriz <- cbind(quantidade, custo)
rownames(producao_matriz) <- observacoes
# transformando a matriz em um dataframe
producao <- as.data.frame(producao_matriz)
producao
##    quantidade custo
## 1           0     3
## 2           1     2
## 3           1     3
## 4           2     5
## 5           3     4
## 6           3     4
## 7           4     7
## 8           5     6
## 9           5     7
## 10          6     9

Calculando a regressão manualmente

# obter a média de X
mediaX <- mean(producao$quantidade)
# obter a média de Y
mediaY <- mean(producao$custo)
# obter X centrado na média (x)
producao$x <- producao$quantidade - mediaX
# obter X^2
producao$x2 <- (producao$x)^2
# obter Y centrado na média (y)
producao$y <- producao$custo - mediaY
# obter produto xY
producao$xY <- producao$x*producao$custo
# obter a soma de xY e de x^2 
soma_x2 <- sum(producao$x2)
soma_xY <- sum(producao$xY)
# obter Beta
beta_estimado <- soma_xY/soma_x2
#obter Alpha
alpha_estimado <- mediaY - (beta_estimado*mediaX)

# produzir tabela final com as variaveis incluidas e os valores de Alpha e Beta
producao
##    quantidade custo  x x2  y xY
## 1           0     3 -3  9 -2 -9
## 2           1     2 -2  4 -3 -4
## 3           1     3 -2  4 -2 -6
## 4           2     5 -1  1  0 -5
## 5           3     4  0  0 -1  0
## 6           3     4  0  0 -1  0
## 7           4     7  1  1  2  7
## 8           5     6  2  4  1 12
## 9           5     7  2  4  2 14
## 10          6     9  3  9  4 27
alpha_estimado
## [1] 2
beta_estimado
## [1] 1


Pelas dados podemos identificar que a média de X é 3 e a média de Y é 5. Das médias, podemos obter os valores de X e Y centrados nas médias, respectivamente x e y. Na sequencia, tendo os valores centrados, obtemos \(\sum{x^2}\) que é 36 e \(\sum{xY}\) que é 36.
Então:

\[\hat\beta = \frac{\sum xY}{\sum x^2} = \frac{36}{36} = 1 \]

e

\[\hat\alpha = \overline{Y} - \hat\beta \overline{X} = 5 - (1*3) = 2\]

Assim o modelo econometrico fica: \[ \hat{Y_i} = 2 + 1X_i\]



Calculando a regressão pelo R

# calculando a regressao linear e demonstrando com o Stargazer
modelo1 <- lm(custo ~ quantidade, data=producao)
stargazer(modelo1, type="html")
Dependent variable:
custo
quantidade 1.000***
(0.167)
Constant 2.000***
(0.592)
Observations 10
R2 0.818
Adjusted R2 0.795
Residual Std. Error 1.000 (df = 8)
F Statistic 36.000*** (df = 1; 8)
Note: p<0.1; p<0.05; p<0.01

Graficos

ggplot(data = producao, aes(x = `quantidade`, y = `custo`)) + 
  geom_point(color='black') +
  geom_smooth(method = "lm", formula = y ~ x, linetype = "dotted", se = FALSE)


Fim.