Task 1. Chaper 3, ex 11

set.seed(1)
x = rnorm(100)
y = 2*x + rnorm(100)

11a

fit.lm.y <- lm(y ~ x + 0)
summary(fit.lm.y)
## 
## Call:
## lm(formula = y ~ x + 0)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9154 -0.6472 -0.1771  0.5056  2.3109 
## 
## Coefficients:
##   Estimate Std. Error t value Pr(>|t|)    
## x   1.9939     0.1065   18.73   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9586 on 99 degrees of freedom
## Multiple R-squared:  0.7798, Adjusted R-squared:  0.7776 
## F-statistic: 350.7 on 1 and 99 DF,  p-value: < 2.2e-16

p-value для t-статистики близко к нулю, значит можно отвергнуть гипотезу о незначимости коэффициента регрессии.

11b

fit.lm.x <- lm(x ~ y + 0)
summary(fit.lm.x)
## 
## Call:
## lm(formula = x ~ y + 0)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.8699 -0.2368  0.1030  0.2858  0.8938 
## 
## Coefficients:
##   Estimate Std. Error t value Pr(>|t|)    
## y  0.39111    0.02089   18.73   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4246 on 99 degrees of freedom
## Multiple R-squared:  0.7798, Adjusted R-squared:  0.7776 
## F-statistic: 350.7 on 1 and 99 DF,  p-value: < 2.2e-16

Выводы аналогичны 11а: p-value для t-статистики близко к нулю, значит можно отвергнуть гипотезу о незначимости коэффициента регрессии.

11c

В 11а мы получили уравнение регрессии \(\hat {x} = \beta_{x} y\), в 11b \(\hat {y} =\beta_{y}x\). \(\beta_{x}\) можно выравить через \(\beta_{y}\): \[\beta_{x}=\frac{1}{\beta_{y}}\]

11d

Имеем \[t = \frac{\beta}{SE(\beta)} \\ \beta = \frac{\sum{x_i y_i}}{\sum x_i^2} \qquad SE(\beta)=\sqrt{\frac{\sum{(y_i - x_i \beta)^2}}{(n - 1)\sum{x_i^2}}} \] Докажем, что t представима в виде \(\frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2} \sum y_i^2 - (\sum{x_i y_i})^2}}\)

\[ t = \frac{\sum{x_i y_i}}{\sum x_i^2} \sqrt{\frac{(n - 1)\sum{x_i^2}}{\sum{(y_i - x_i \beta)^2}}} = \frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2}\sum{(y_i - x_i \beta)^2}}} = \frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2}\sum{(y_i^2 - 2\beta x_i y_i + x_i^2 \beta^2)}}} = \\ \frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2} \sum y_i^2 - \sum{x_i^2\beta( 2\sum x_i y_i + \beta\sum x_i^2 )}}} = \frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2} \sum y_i^2 - \sum{x_i y_i( 2\sum x_i y_i + \sum x_i y_i )}}} = \\ \frac{\sqrt{n -1} \sum{x_iy_i}}{\sqrt{\sum{x_i^2} \sum y_i^2 - (\sum{x_i y_i})^2}} \]

(sqrt(length(x)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))
## [1] 18.72593

Значение статистики совпадает со значениями, полученными ранее.

11e

По формуле из 11d видно, что если поменять местами x и y, значение статистики не измениться. поэтому в 11a и в 11b получились одинаковые t-статиситки.

11f

lm.fit = lm(y~x)
lm.fit2 = lm(x~y)
summary(lm.fit)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8768 -0.6138 -0.1395  0.5394  2.3462 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.03769    0.09699  -0.389    0.698    
## x            1.99894    0.10773  18.556   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9628 on 98 degrees of freedom
## Multiple R-squared:  0.7784, Adjusted R-squared:  0.7762 
## F-statistic: 344.3 on 1 and 98 DF,  p-value: < 2.2e-16
summary(lm.fit)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8768 -0.6138 -0.1395  0.5394  2.3462 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.03769    0.09699  -0.389    0.698    
## x            1.99894    0.10773  18.556   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9628 on 98 degrees of freedom
## Multiple R-squared:  0.7784, Adjusted R-squared:  0.7762 
## F-statistic: 344.3 on 1 and 98 DF,  p-value: < 2.2e-16

Можно видеть, что статистики всех четырех регрессий совпадают.