Seja o modelo \(Y_i=\beta+\beta_2 X_i+\varepsilon_i\), então se obtém \(\varepsilon_i=Y_i-\beta_0-\beta_1X_i\). No métodos dos mínimos quadrados ordinários deve-se minimizar a soma de quadrados dos erros dada por \(Z=\displaystyle\sum_{i=1}^n \varepsilon_i^2=\displaystyle\sum_{i=1}^n(Y_i-\beta_0-\beta_1 X_i)^2\). Para atingir esse objetivo deve-se encontrar as derivadas parciais em relação a cada um dos paramêtros da regressão e que são dadas por, \[\begin{eqnarray*} \dfrac{\partial Z}{\partial \beta_0}&=&-2\displaystyle\sum_{i=1}^n(Y_i-\beta_0-\beta_1X_i) \\ \dfrac{\partial Z}{\partial \beta_1}&=&-2\displaystyle\sum_{i=1}^n(Y_i-\beta_0-\beta_1 X_i)X_i \end{eqnarray*}\] Agora deve-se igualar as derivadas acima a zero para encontrar os respectivos valores de mínimo: \[\begin{eqnarray*} \dfrac{\partial Z}{\partial \beta_0}&=&0\\ -2\displaystyle\sum_{i=1}^n(Y_i-\hat{\beta_0}-\hat{\beta_1} X_i)&=&0 \\ \displaystyle\sum_{i=1}^n(Y_i-\hat{\beta_0}-\hat{\beta_1} X_i)&=&0 \\ \displaystyle\sum_{i=1}^n Y_i-\hat{\beta_0} n-\displaystyle\sum_{i=1}^n \hat{\beta_1} X_i &=&0 \\ -\hat{\beta_0} n&=& \displaystyle\sum_{i=1}^n \hat{\beta_1} X_i-\displaystyle\sum_{i=1}^n Y_i \\ \hat{\beta_0} n&=&-\displaystyle\sum_{i=1}^n \hat{\beta_1} X_i+\displaystyle\sum_{i=1}^n Y_i \\ \hat{\beta_0}&=&-\bar{X}\hat{\beta_1}+\bar{Y} \\ \hat{\beta_0}&=&\bar{Y}-\bar{X}\hat{\beta_1} \end{eqnarray*}\] E, \[\begin{eqnarray*} \dfrac{\partial Z}{\partial \beta_1}&=&0 \\ -2\displaystyle\sum_{i=1}^n(Y_i-\hat{\beta_0}-\hat{\beta_1} X_i)X_i &=& 0 \\ \displaystyle\sum_{i=1}^n(Y_i-\hat{\beta_0}-\hat{\beta_1} X_i)X_i &=& 0 \\ \displaystyle\sum_{i=1}^n (X_iY_i-\hat{\beta_0}X_i-\hat{\beta_1} X_i^2) &=& 0 \\ -\hat{\beta_1} \displaystyle\sum_{i=1}^n X_i^2-\hat{\beta_0}\displaystyle\sum_{i=1}^n X_i &=&-\hat{\beta_1} \displaystyle\sum_{i=1}^n X_i^2 \\ -\hat{\beta_1} \displaystyle\sum_{i=1}^n X_i^2+\left(\dfrac{\hat{\beta_1}}{n}\displaystyle \sum_{i=1}^n X_i-\dfrac{1}{n}\displaystyle \sum_{i=1}^n Y_i\right)\displaystyle\sum_{i=1}^n X_i &=& -\displaystyle\sum_{i=1}^n X_iY_i\\ -\hat{\beta_1} \displaystyle\sum_{i=1}^n X_i^2+\dfrac{\hat{\beta_1}}{n}\left(\sum_{i=1}^n X_i\right)^2-\dfrac{1}{n}\displaystyle \sum_{i=1}^n X_i\displaystyle\sum_{i=1}^n Y_i &=& - \displaystyle\sum_{i=1}^n X_iY_i \\ \hat{\beta_1}\left(\dfrac{1}{n}\left(\displaystyle\sum_{i=1}^nX_i\right)^2-\sum_{i=1}^n X_i^2 \right) &=&\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i\sum_{i=1}^nY_i - \displaystyle\sum_{i=1}^n X_iY_i \\ \hat{\beta_1}&=&\dfrac{\displaystyle\sum_{i=1}^n X_iY_i-\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i\sum_{i=1}^nY_i}{\displaystyle\sum_{i=1}^n X_i^2-\dfrac{1}{n}\left(\displaystyle\sum_{i=1}^nX_i\right)^2} \end{eqnarray*}\]

Repare que \(S_{XY}=\displaystyle\sum_{i=1}^n X_iY_i-\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i\sum_{i=1}^nY_i\) e \(S_{XX}=\displaystyle\sum_{i=1}^n X_i^2-\dfrac{1}{n}\left(\displaystyle\sum_{i=1}^nX_i\right)^2\), logo \(\hat{\beta_1}=\dfrac{S_{XY}}{S_{XX}}\). Portanto, o modelo de regressão linear simples ajustado é dado por \(\hat{y_i}=\hat{\beta_0}+\hat{\beta}_1X_1\).

Os estimadores dados pelo método dos mínimos quadrados ordinários tem a importante propriedade de não tendenciosidade. Ou seja, \(E(\hat{\beta}_1)=\beta_1\) e \(E(\hat{\beta}_0)=\beta_0\). Seja \(a_i=\dfrac{(X_i-\bar{X})}{S_{XX}}\), então \(\hat{\beta}_1=\dfrac{S_{XY}}{S_{XX}}=\displaystyle \sum_{i=1}^n a_iY_i\). Assim, \[\begin{eqnarray*} E(\hat{\beta}_1)=E\left(\displaystyle \sum_{i=1}^n a_iY_i\right)=\displaystyle \sum_{i=1}^n a_iE(Y_i)=\displaystyle \sum_{i=1}^n a_i(\beta_0+\beta_1X_i)=\beta_0 \displaystyle \sum_{i=1}^n a_i+\beta_1 \displaystyle \sum_{i=1}^n a_iX_i \end{eqnarray*}\]

Repare que \(\displaystyle \sum_{i=1}^n a_i=\dfrac{\displaystyle \sum_{i=1}^n (X_i-\bar{X})}{S_{XX}}=0\) e \[\begin{eqnarray*} \displaystyle \sum_{i=1}^n a_iX_i&=&\dfrac{\displaystyle \sum_{i=1}^n (X_i-\bar{X})X_i}{S_{XX}}=\dfrac{\displaystyle \sum_{i=1}^n X_i^2-\bar{X}\displaystyle \sum_{i=1}^nX_i}{S_{XX}} \\ &=& \dfrac{\displaystyle \sum_{i=1}^n X_i^2-\dfrac{1}{n}\left(\displaystyle \sum_{i=1}^nX_i\right)^2}{S_{XX}} =\dfrac{S_{XX}}{S_{XX}}=1. \end{eqnarray*}\] Retornando a \(E(\hat{\beta}_1)\): \[\begin{eqnarray*} E(\hat{\beta}_1)=\beta_0 \displaystyle \sum_{i=1}^n a_i+\beta_1 \displaystyle \sum_{i=1}^na_iX_i=0+\beta_1 \cdot 1 =\beta_1 \end{eqnarray*}\]

Para \(E(\hat{\beta}_0)\) tem-se que: \[\begin{eqnarray*} E(\hat{\beta}_0)&=&E(\bar{Y}-\hat{\beta}_1\bar{X})=E(\bar{Y})-\bar{X}E(\hat{\beta}_1)=\dfrac{1}{n}E\left(\displaystyle\sum_{i=1}^n Y_i\right)-\bar{X}\beta_1\\ &=&\dfrac{1}{n}\displaystyle\sum_{i=1}^n E(Y_i)-\bar{X}\beta_1= \dfrac{1}{n}\displaystyle\sum_{i=1}^n(\beta_0+\beta_1 X_i)-\bar{X}\beta_1=\dfrac{1}{n}\cdot n \beta_0+\beta_1 \bar{X}-\bar{X}\beta_1=\beta_0 \end{eqnarray*}\]

Assim, está vericado que \(\hat{\beta}_0\) e \(\hat{\beta}_1\) são estimadores não viesados. Vamos agora estudar as variâncias de cada um dos estimadores: \[\begin{eqnarray*} V(\hat{\beta}_1)&=&V(\displaystyle \sum_{i=1}^n a_i Y_i)=\displaystyle \sum_{i=1}^n a_i^2 V(Y_i)=\displaystyle \sum_{i=1}^n a_i^2 \sigma^2 \\ &=& \sigma^2 \displaystyle \sum_{i=1}^n a_i^2 =\sigma^2 \displaystyle \sum_{i=1}^n a_i^2 =\sigma^2 \dfrac{(X_i-\bar{X})^2}{S^2_{XX}}=\dfrac{\sigma^2 \cdot S_{XX}}{S^2_{XX}}=\dfrac{\sigma^2}{S_{XX}} \\ V(\hat{\beta}_0)&=&V(\bar{Y}-\hat{\beta}_1\bar{X})=V(\bar{Y})+\bar{X}^2V(\hat{\beta}_1)-2\bar{X}COV(\bar{Y},\hat{\beta_1})=\dfrac{\sigma^2}{n}+\dfrac{\bar{X}\sigma^2}{S_{XX}}-2\bar{X}COV(\bar{Y},\hat{\beta}_1) \end{eqnarray*}\] Em que, \[\begin{eqnarray*} COV(\bar{Y},\hat{\beta}_1)&=&COV\left(\dfrac{1}{n}\displaystyle \sum_{i=1}^n Y_i,\dfrac{S_{XY}}{S_{XX}}\right)=\dfrac{1}{n}COV\left(\dfrac{1}{n}\displaystyle \sum_{i=1}^n Y_i,\dfrac{\sum_{i=1}^n Y_i(X_i-\bar{X})}{S_{XX}}\right)\\ &=&\dfrac{1}{nS_{XX}}COV\left(\sum_{i=1}^n Y_i, \sum_{i=1}^n Y_i (X_i-\bar{X})\right)=\dfrac{\sum_{i=1}^n(X_i-\bar{X})}{nS_{XX}}COV(Y_i,Y_i)=0 \end{eqnarray*}\] Logo, \[\begin{eqnarray*} V(\hat{\beta}_0)&=&\dfrac{\sigma^2}{n}+\dfrac{\bar{X}\sigma^2}{S_{XX}}-2\bar{X}COV(\bar{Y},\hat{\beta}_1)=\dfrac{\sigma^2}{n}+\dfrac{\bar{X}\sigma^2}{S_{XX}}=\sigma^2\left(\dfrac{1}{n}+\dfrac{\bar{X}^2}{S_{XX}} \right). \end{eqnarray*}\]

Um importante estimador utilizado para inferência dos parâmetros \(\beta_0\) e \(\beta_1\) é o \(\hat{\sigma}^2=\dfrac{SS_E}{GL(SS_E)}\) em que \(SS_E=\displaystyle \sum_{i=1}^n e_i^2\). Repare que:

\[\begin{eqnarray*} SS_E &=& \displaystyle\sum_{i=1}^n e_i^2=\displaystyle\sum_{i=1}^n(Y_i-\hat{Y}_i)^2 \\ &=& \displaystyle\sum_{i=1}^n (Y_i-2Y_i\hat{Y}_i+\hat{Y}_i^2)= \displaystyle\sum_{i=1}^nY^2_i-2\displaystyle\sum_{i=1}^nY_i\hat{Y}_i+\displaystyle\sum_{i=1}^n \hat{Y}^2_i \end{eqnarray*}\]

Em que, \[\begin{eqnarray*} \displaystyle \sum_{i=1}^n Y_i\hat{Y}_i&=&\displaystyle \sum_{i=1}^n Y_i(\hat{\beta}_0+\hat{\beta}_1X_i)=\displaystyle \sum_{i=1}^n Y_i(\bar{Y}-\hat{\beta}_1\bar{X}+\hat{\beta}_1X_i)=\displaystyle \sum_{i=1}^n Y_i[\bar{Y}+\hat{\beta}_1(X_i-\bar{X})]\\&=& \displaystyle \sum_{i=1}^n Y_i \bar{Y}+\hat{\beta}_1Y_i(X_i-\bar{X})=\bar{Y}\sum_{i=1}^n Y_i+\hat{\beta}_1\sum_{i=1}^n Y_i(X_i-\bar{X}) \\ &=& \bar{Y}n\bar{Y}+\hat{\beta}_1S_{XY}=n\bar{Y}^2+\hat{\beta}_1S_{XY} \end{eqnarray*}\] E que, \[\begin{eqnarray*} \displaystyle \sum_{i=1}^n \hat{Y}_i^2&=&\displaystyle \sum_{i=1}^n (\hat{\beta}_0+\hat{\beta}_1X_i)^2=\displaystyle \sum_{i=1}^n (\hat{\beta}_0^2+2\hat{\beta}_0\hat{\beta}_1X_i+\hat{\beta}^2_1X_i^2) \\ &=& \displaystyle \sum_{i=1}^n (\bar{Y}-\hat{\beta}_1\bar{X})^2+2(\bar{Y}-\hat{\beta}_1\bar{X})\hat{\beta}_1X_i+\hat{\beta}_1^2X_i^2 \\ &=& \displaystyle \sum_{i=1}^n \bar{Y}^2-2\hat{\beta}_1\bar{Y}\bar{X}+\hat{\beta}_1^2\bar{X}^2+2\bar{Y}\hat{\beta}_1X_i-2\hat{\beta}_1^2X_i\bar{X}+\hat{\beta}_1^2X_i^2 \\ &=& \displaystyle \sum_{i=1}^n \bar{Y}^2 +2\hat{\beta}_1\bar{Y}(X_i-\bar{X})+\hat{\beta}_1^2(\bar{X}^2-2X_i\bar{X}+X_i^2) \\ &=&\displaystyle \sum_{i=1}^n \bar{Y}^2+2\bar{Y}\hat{\beta}_1(X_i-\bar{X})+\hat{\beta}_1^2(X_i-\bar{X})^2 \\ &=& \displaystyle \sum_{i=1}^n\bar{Y}^2 +2\bar{Y}\hat{\beta}_1 \displaystyle \sum_{i=1}^n(X_i-\bar{X}) +\hat{\beta}_1 \displaystyle \sum_{i=1}^n(X_i-\bar{X})^2=n\bar{Y}^2+0+\hat{\beta}_1^2S_{XX}\\ &=&n\bar{Y}^2+\hat{\beta}_1^2S_{XX} \end{eqnarray*}\]

Retornando a \(SS_E\):

\[\begin{eqnarray*} SS_E &=& \displaystyle\sum_{i=1}^nY^2_i-2\displaystyle\sum_{i=1}^nY_i\hat{Y}_i+\displaystyle\sum_{i=1}^n \hat{Y}^2_i = \displaystyle\sum_{i=1}^nY^2_i-2(n\bar{Y}^2+\hat{\beta}_1S_{XY})+n\bar{Y}^2+\hat{\beta}_1^2S_{XX} \\ &=& \displaystyle\sum_{i=1}^nY^2_i-2n\bar{Y}^2-2\hat{\beta}_1S_{XY}+n\bar{Y}^2+\hat{\beta}_1^2S_{XX} \\ &=& \displaystyle\sum_{i=1}^nY^2_i-n\bar{Y}^2-\hat{\beta}_1(2S_{XY}-\hat{\beta}_1S_{XX}) \\ &=& S_{YY}-\hat{\beta_1}(2S_{XY}-S_{XY})=S_{YY}-\hat{\beta}_1S_{XY} \end{eqnarray*}\]

Repare que \(SQ_{Regressão}=\hat{\beta}_1S_{XY}\). Além disso tem se que para obter \(\hat{Y}_i\) utilizou a estimativa dos parâmetros \(\hat{\beta}_0\) e \(\hat{\beta}_1\). Portanto a soma de quadrados dos erros tem \(n-2\) graus de liberdade. Logo, \(\hat{\sigma}^2=\dfrac{SS_E}{n-2}\) é um estimador não viesado de \(\sigma^2\).

  1. O preço de um modelo de moto usada está linearmente relacionado ao ano de fabricação. Considerando os dados abaixo:
Ano 93 94 95 97 98 99
Preço 6.3 7.0 8.2 9.0 10.5 12

Pede-se:

  1. A estimativa do acréscimo médio no preço da moto, para cada aumento de uma ano, é igual à:

Pelo software R obtém:

##    x    y
## 1 93  6.3
## 2 94  7.0
## 3 95  8.2
## 4 97  9.0
## 5 98 10.5
## 6 99 12.0
## 
## Call:
## lm(formula = y ~ x, data = dados)
## 
## Residuals:
##        1        2        3        4        5        6 
##  0.13452 -0.05476  0.25595 -0.72262 -0.11190  0.49881 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -76.53810    8.46372  -9.043 0.000828 ***
## x             0.88929    0.08814  10.089 0.000543 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4664 on 4 degrees of freedom
## Multiple R-squared:  0.9622, Adjusted R-squared:  0.9527 
## F-statistic: 101.8 on 1 and 4 DF,  p-value: 0.000543

Para cada aumento em uma unidade na variável independente \(X\) espera-se um aumento médio em \(0,8892\) na variável dependente \(Y\).

  1. O percentual do valor da variância observada nos preços, representado pelo da variância dos preços estimados, ou explicado pela regressão nos valores do ano de fabricação, é igual à \(96,22\%\).

  2. Qual é o preço médio de uma motocicleta ano 1992?

O valor da estimativa a partir do modelo de regressão linear simples ajustado é de \(\hat{Y}_i=-76,5381+0,8892\cdot 92 =5,2683\), porém trata-se de uma extrapolação e não tem interpretação prática.

  1. Qual o valor do resíduo para o ano de 1997?

O valor do resíduo para o ano de 1997 é dada por:

\[\begin{eqnarray*} \hat{\varepsilon}_i=Y_i-\hat{Y}_i=9-(-76,5381+97\cdot 0,8892)=-0,7143 \end{eqnarray*}\]

  1. Plot o intervalo de confiança para a média.