Tabela de Análise de Variância

df <- data.frame(c("Modelo","Erro","Total"), 
                 c(1,28,29), c(321.4,50.8,372.2),
                 c(321.4,round(50.8/28,4),"  "))

names(df) <- c("Fonte de Variacao (FV)","Graus de Liberdade (GL)",
               "Soma dos quadrados (SQ)"," Quadrado Medio (QM)")

knitr::kable(df, col.names =  names(df), align = "llll")
Fonte de Variacao (FV) Graus de Liberdade (GL) Soma dos quadrados (SQ) Quadrado Medio (QM)
Modelo 1 321.4 321.4
Erro 28 50.8 1.8143
Total 29 372.2

Item 78

Errado. Só podemos garantir que serão os mesmos se os dados forem provenientes de uma distibuição normal.

Itens 79 e 80

1a Solução

A estimativa de \(\beta_1\) é \[ \begin{align} \hat{\beta_1} = r \frac{S_y}{S_x}, \end{align} \]

em que

\[ \begin{align} S_y&=\sqrt{\frac{SQTot}{n-1}}=\sqrt{\frac{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}{n-1}}=\sqrt{\frac{372,2}{29}}.\\\\S_x&=\sqrt{Var(X)}=\sqrt{2,35}. \end{align} \]

O valor de \(R^2\) é o grau de explicação do modelo.
\[ R^2=\frac{SQReg}{SQTot}=\frac{321,4}{372,2}=0,86351 < 0,90. \quad (\textbf{Responde Item 79}) \]

Já, o coeficiente de correlação de Pearson é dado por \[ r=\sqrt{R^2}. \]

Logo,

\[ \hat{\beta_1}=\sqrt{\dfrac{\dfrac{321,4}{372,2}\times \dfrac{372,2}{29}}{2,35}}\approx2,17 >2. \]

2a Solução

Mostre que vale a seguinte relação para o modelo \(y=\beta_0+\beta_1x+\epsilon\): \[ MQE = \frac{SQReg}{1} = \hat{\beta_1}^2 SQ_x, \]

em que \(MQE\) é o quadrado médio explicado (devido ao modelo) e \(SQ_x=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2\).

Desta relação, decorre que \[ \begin{align} \hat{\beta_1}^2 = \frac{SQReg}{SQ_x}&=\frac{SQReg}{(n-1)Var(X)}\\\\ &=\frac{321,4}{29\times 2,35}=\frac{321,4}{68,15}. \end{align} \]

Mas, ao dividir \(321,4\) por \(4\), obtém-se \(321,4 = 4\times 68,15 + 6,8\;\), de modo que

\[ \begin{align} \hat{\beta_1}^2&=\frac{321,4}{68,15}\\\\ &=\frac{4\times 68,15 + 6,8}{68,15}\\\\ &= 4 + \frac{6,8}{68,15}. \end{align} \]

Portanto, \[ \begin{align} \hat{\beta_1}=\sqrt{4 + \frac{6,8}{68,15}} \;\;>\;\; \sqrt{4} = 2. \end{align} \] Obs.: Dado que o item pede somente uma relação de desigualdade, esta 2a solução é mais rápida (e, portanto mais viável em dia de prova), pois requer menos cálculo.

Exemplo utilizando o dataset cars do R

library(datasets)
data(cars)
head(cars,10)
##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17
attach(cars)
ajuste <- lm(dist ~ speed) 
anova(ajuste)
## Analysis of Variance Table
## 
## Response: dist
##           Df Sum Sq Mean Sq F value   Pr(>F)    
## speed      1  21186 21185.5  89.567 1.49e-12 ***
## Residuals 48  11354   236.5                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(ajuste)
## 
## Call:
## lm(formula = dist ~ speed)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12
## dados
 x <- cars$speed
 y <- cars$dist
 
## Soma dos quadrados e correlacao de Pearson
 SQx   <- sum( (x - mean(x))^2 )
 SQTot <- sum( (y - mean(y))^2 )
 
 r <- sum( (x - mean(x)) * (y - mean(y)) ) / sqrt( SQx * SQTot )

 SQReg <- r^2 * SQTot
 SQRes <- SQTot - SQReg
  
## Coeficiente de Determinacao
 R2 <- SQReg/SQTot
 
## Estimativa de beta1 (1a solucao)
 n <- length(x)
 beta1.est1 <- sqrt( R2 * (SQTot/(n-1)) / var(x) )
 
## Estimativa de beta1 (2a solucao)
 beta1.est2 <- sqrt( SQReg / ((n-1)*var(x)) )

Coeficientes Teóricos X Coeficiente da anova do R

c(beta1.est1,beta1.est2) # Obtidos da Teoria.
## [1] 3.932409 3.932409
ajuste[[1]][[2]] # Obtido da Anova do R
## [1] 3.932409

Obs.: Conforme esperado, os valores de \(\hat{\beta_1}\) coincidem.

Item 81

A estatística t para variável X é dada por \[ t = \frac{\hat{\beta_1}}{se(\hat{\beta_1})} = \frac{\hat{\beta_1}}{\hat{\sigma}/\sqrt{SQx}}, \]

onde \(\hat{\sigma}=\frac{SQRes}{n-2}\), de modo que

\[ t=\frac{(n-2)\sqrt{SQx}}{SQRes} \;\hat{\beta_1}=\frac{(n-2)\sqrt{(n-1)Var(X)}}{SQRes} \;\hat{\beta_1} \]

Portanto, \[ t=\frac{(30-2)\times\sqrt{29\times2,35}}{50,8}\times 3,93 \approx 17,88 \quad (\quad > 10 \quad ). \]

Obs.: Em prova, pode manipular essas contas da seguinte forma:

\[ \begin{align} t=\frac{(30-2)\times\sqrt{29 \times 2,35}}{50,8}\times 3,93 \;\;& = \; \frac{28\times\sqrt{68,15}}{50,98}\times 3,93 \\\\ \;\;&\;> \frac{28\times \sqrt{64}}{60} \times 3 \\\\ &= \frac{14\times 8}{10}=11,2 \qquad \qquad \therefore \qquad t > 10. \end{align} \]

Note que só precisei efetuar as operações \(29 \times 2,35\) e \(1,4 \times 8\) .

Item 82

Correto. De fato, sabemos que há \(n-1\) graus de liberdade associados à soma de quadrados total. Da tabela anova decorre que \(n-1 = 29\), de modo que \(n=30\).

Item 83

Devemos utilizar uma \(t-\)Student com 28 graus de liberdade, pois o intervalo de confiança a \((1-\alpha)\times 100\%\) para o intercepto é dado por

\[ \hat{\beta_0} - t_{\alpha/2,n-2}\;se(\hat{\beta_0})\;\; \leq \;\; \beta_0 \;\; \leq\;\; \hat{\beta_0} + t_{\alpha/2,n-2}\;se(\hat{\beta_0}), \]

em que \[ se =\hat{\sigma}\;\sqrt{\bigg(\frac{1}{n}+\frac{\bar{x}^2}{SQx}\bigg)}, \quad com \quad n=30. \]

Item 84

Correto. Mudaria o grau de ajuste, pois nesses \(n-2\) graus de liberdade, \(n\) corresponde ao total de dados e, o número 2 corresponde à perda de 2 graus de liberdade devido à estimação dos parâmetros \(\beta_0\) e \(\beta_1\). Assim, se tivermos \(p\) parâmetros a serem estimados, alteria para \(n-p\), de modo geral.