df <- data.frame(c("Modelo","Erro","Total"),
c(1,28,29), c(321.4,50.8,372.2),
c(321.4,round(50.8/28,4)," "))
names(df) <- c("Fonte de Variacao (FV)","Graus de Liberdade (GL)",
"Soma dos quadrados (SQ)"," Quadrado Medio (QM)")
knitr::kable(df, col.names = names(df), align = "llll")
| Fonte de Variacao (FV) | Graus de Liberdade (GL) | Soma dos quadrados (SQ) | Quadrado Medio (QM) |
|---|---|---|---|
| Modelo | 1 | 321.4 | 321.4 |
| Erro | 28 | 50.8 | 1.8143 |
| Total | 29 | 372.2 |
Errado. Só podemos garantir que serão os mesmos se os dados forem provenientes de uma distibuição normal.
A estimativa de \(\beta_1\) é \[ \begin{align} \hat{\beta_1} = r \frac{S_y}{S_x}, \end{align} \]
em que
\[ \begin{align} S_y&=\sqrt{\frac{SQTot}{n-1}}=\sqrt{\frac{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}{n-1}}=\sqrt{\frac{372,2}{29}}.\\\\S_x&=\sqrt{Var(X)}=\sqrt{2,35}. \end{align} \]
O valor de \(R^2\) é o grau de
explicação do modelo.
\[
R^2=\frac{SQReg}{SQTot}=\frac{321,4}{372,2}=0,86351 < 0,90. \quad
(\textbf{Responde Item 79})
\]
Já, o coeficiente de correlação de Pearson é dado por \[ r=\sqrt{R^2}. \]
Logo,
\[ \hat{\beta_1}=\sqrt{\dfrac{\dfrac{321,4}{372,2}\times \dfrac{372,2}{29}}{2,35}}\approx2,17 >2. \]
Mostre que vale a seguinte relação para o modelo \(y=\beta_0+\beta_1x+\epsilon\): \[ MQE = \frac{SQReg}{1} = \hat{\beta_1}^2 SQ_x, \]
em que \(MQE\) é o quadrado médio explicado (devido ao modelo) e \(SQ_x=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2\).
Desta relação, decorre que \[ \begin{align} \hat{\beta_1}^2 = \frac{SQReg}{SQ_x}&=\frac{SQReg}{(n-1)Var(X)}\\\\ &=\frac{321,4}{29\times 2,35}=\frac{321,4}{68,15}. \end{align} \]
Mas, ao dividir \(321,4\) por \(4\), obtém-se \(321,4 = 4\times 68,15 + 6,8\;\), de modo que
\[ \begin{align} \hat{\beta_1}^2&=\frac{321,4}{68,15}\\\\ &=\frac{4\times 68,15 + 6,8}{68,15}\\\\ &= 4 + \frac{6,8}{68,15}. \end{align} \]
Portanto, \[ \begin{align} \hat{\beta_1}=\sqrt{4 + \frac{6,8}{68,15}} \;\;>\;\; \sqrt{4} = 2. \end{align} \] Obs.: Dado que o item pede somente uma relação de desigualdade, esta 2a solução é mais rápida (e, portanto mais viável em dia de prova), pois requer menos cálculo.
library(datasets)
data(cars)
head(cars,10)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
## 7 10 18
## 8 10 26
## 9 10 34
## 10 11 17
attach(cars)
ajuste <- lm(dist ~ speed)
anova(ajuste)
## Analysis of Variance Table
##
## Response: dist
## Df Sum Sq Mean Sq F value Pr(>F)
## speed 1 21186 21185.5 89.567 1.49e-12 ***
## Residuals 48 11354 236.5
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(ajuste)
##
## Call:
## lm(formula = dist ~ speed)
##
## Residuals:
## Min 1Q Median 3Q Max
## -29.069 -9.525 -2.272 9.215 43.201
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -17.5791 6.7584 -2.601 0.0123 *
## speed 3.9324 0.4155 9.464 1.49e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
## F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
## dados
x <- cars$speed
y <- cars$dist
## Soma dos quadrados e correlacao de Pearson
SQx <- sum( (x - mean(x))^2 )
SQTot <- sum( (y - mean(y))^2 )
r <- sum( (x - mean(x)) * (y - mean(y)) ) / sqrt( SQx * SQTot )
SQReg <- r^2 * SQTot
SQRes <- SQTot - SQReg
## Coeficiente de Determinacao
R2 <- SQReg/SQTot
## Estimativa de beta1 (1a solucao)
n <- length(x)
beta1.est1 <- sqrt( R2 * (SQTot/(n-1)) / var(x) )
## Estimativa de beta1 (2a solucao)
beta1.est2 <- sqrt( SQReg / ((n-1)*var(x)) )
c(beta1.est1,beta1.est2) # Obtidos da Teoria.
## [1] 3.932409 3.932409
ajuste[[1]][[2]] # Obtido da Anova do R
## [1] 3.932409
Obs.: Conforme esperado, os valores de \(\hat{\beta_1}\) coincidem.
A estatística t para variável X é dada por \[ t = \frac{\hat{\beta_1}}{se(\hat{\beta_1})} = \frac{\hat{\beta_1}}{\hat{\sigma}/\sqrt{SQx}}, \]
onde \(\hat{\sigma}=\frac{SQRes}{n-2}\), de modo que
\[ t=\frac{(n-2)\sqrt{SQx}}{SQRes} \;\hat{\beta_1}=\frac{(n-2)\sqrt{(n-1)Var(X)}}{SQRes} \;\hat{\beta_1} \]
Portanto, \[ t=\frac{(30-2)\times\sqrt{29\times2,35}}{50,8}\times 3,93 \approx 17,88 \quad (\quad > 10 \quad ). \]
Obs.: Em prova, pode manipular essas contas da seguinte forma:
\[ \begin{align} t=\frac{(30-2)\times\sqrt{29 \times 2,35}}{50,8}\times 3,93 \;\;& = \; \frac{28\times\sqrt{68,15}}{50,98}\times 3,93 \\\\ \;\;&\;> \frac{28\times \sqrt{64}}{60} \times 3 \\\\ &= \frac{14\times 8}{10}=11,2 \qquad \qquad \therefore \qquad t > 10. \end{align} \]
Note que só precisei efetuar as operações \(29 \times 2,35\) e \(1,4 \times 8\) .
Correto. De fato, sabemos que há \(n-1\) graus de liberdade associados à soma de quadrados total. Da tabela anova decorre que \(n-1 = 29\), de modo que \(n=30\).
Devemos utilizar uma \(t-\)Student com 28 graus de liberdade, pois o intervalo de confiança a \((1-\alpha)\times 100\%\) para o intercepto é dado por
\[ \hat{\beta_0} - t_{\alpha/2,n-2}\;se(\hat{\beta_0})\;\; \leq \;\; \beta_0 \;\; \leq\;\; \hat{\beta_0} + t_{\alpha/2,n-2}\;se(\hat{\beta_0}), \]
em que \[ se =\hat{\sigma}\;\sqrt{\bigg(\frac{1}{n}+\frac{\bar{x}^2}{SQx}\bigg)}, \quad com \quad n=30. \]
Correto. Mudaria o grau de ajuste, pois nesses \(n-2\) graus de liberdade, \(n\) corresponde ao total de dados e, o número 2 corresponde à perda de 2 graus de liberdade devido à estimação dos parâmetros \(\beta_0\) e \(\beta_1\). Assim, se tivermos \(p\) parâmetros a serem estimados, alteria para \(n-p\), de modo geral.