Chapter 1 带非独立误差的多元函数线性模型变量选择

## Loading required package: splines

## Loading required package: Matrix

## 
## Attaching package: 'fda'

## The following object is masked from 'package:graphics':
## 
##     matplot

这章主要是学习和实践舒的论文。本着从简单出发的原则！

如何找到下面内容的R代码呢？
- 案例学习将是一个不错的选择！是一个最好的选择
- 线性回归包自带案例学习会不错的！在R主页https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 上找合适的包。
- 直接查看R手册,自带的R帮助文档还是很不错的。
- 当然也可以直接自己敲代码，也很简单
anova分析是什么鬼？
模型异方差检验Goldfeld-Quandt Test是什么，异常点检验的函数又是什么？
有因子变量的时候他是自动转化为示性变量

1.1 多元线性回归

王松桂的书籍《线性模型引论》的第六章为主要理论部分内容，本节内容用代码实践理论内容。

生成模型 $Y = 1 + 2 X_1 + 5 X_2 - 3 X_3 + \varepsilon$ 的 n 个样本数据，还有 $X_4, X_5$ 为不相关的变量。

1.1.1 简单的线性回归

首先做个最简单的线性回归
- summary(fit)后得到一些量包括：
  - $SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2$用命令就是 summary(fit)$residuals 的模长平方。
  - 回归显著性检验统计两为自由度 $(p-1, n-p)$ 的F分布
  - 单个系数的显著性检验为自由度为 $n-p$ 的T分布
  - 复相关系数的估计为 $\hat{\rho}=R =(\frac{SS_{Regression}}{SS_{Total}})^{1/2}$
- 剔除一部分自变量的影响
  - 即使全模型正确，剔除一部分自变量以后，虽然有偏估计，但是可以使得回归系数估计方差减少。用选模型做预测是有一定道理的。
  - 选择变量有几个准则，包括 $RMS_q = \frac{SS_{e}}{n-q}$, $C_p = \frac{SSE}{\hat{\sigma}^2}- (n-2q)$, $AIC = n ln(SS_e) + 2q$ 准则和其他准则。
回归诊断
- 一般认为标准化残差的近似值 $r_i = \frac{\hat{e}_i}{\hat{\sigma} \sqrt{1-p_{ii}}}$ 近似的服从标准正态分布。
- QQ图可以看出某个分是否为正态分布，然后在可以检验它。
- 从残差图一般可以看出：
  - 是否满足等方差假设
  - 是否回归函数为非线性的，或者误差项不独立，或者遗漏了重要变量。
- 残差图看出来了有病，Box-Cox变化是一种常见治疗手段。
影响分析
- 用 Cook 统计量 $D_i = \frac{(\hat{\beta}- \hat{\beta}_{(i)})^{'} X^{'}X(\hat{\beta}- \hat{\beta}_{(i)})}{p \hat{\sigma}^2}, i = 1,...,n$ 来衡量某组数据对回归估计影响的大小
- 异常点的检验统计量为新旧模型残差之差除以原来的残差，可以化解为：$\frac{(n-p-1) r_j^2}{n-p-r_j^2}$ 这几个玩意如何用R实现呢？
Box-Cox变换
共线性导致某个特征值很小导致估计的方差很大，用逐步回归法修正多重共线性

1.1.2 有偏估计

岭估计

1.2 带惩罚的线性回归

1.3 Problems

随机变量之间的复相关系数如何求？有什么用？
它是回归平方和与总变差平方和之比。