Chapter 1 带非独立误差的多元函数线性模型变量选择
## Loading required package: splines
## Loading required package: Matrix
##
## Attaching package: 'fda'
## The following object is masked from 'package:graphics':
##
## matplot
这章主要是学习和实践舒的论文。本着从简单出发的原则!
- 如何找到下面内容的R代码呢?
- 案例学习将是一个不错的选择!是一个最好的选择
- 线性回归包自带案例学习会不错的!在R主页https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 上找合适的包。
- 直接查看R手册,自带的R帮助文档还是很不错的。
- 当然也可以直接自己敲代码,也很简单
- anova分析是什么鬼?
- 模型异方差检验Goldfeld-Quandt Test是什么,异常点检验的函数又是什么?
- 有因子变量的时候他是自动转化为示性变量
1.1 多元线性回归
王松桂的书籍《线性模型引论》的第六章为主要理论部分内容,本节内容用代码实践理论内容。
生成模型 \(Y = 1 + 2 X_1 + 5 X_2 - 3 X_3 + \varepsilon\) 的 n 个样本数据,还有 \(X_4, X_5\) 为不相关的变量。
1.1.1 简单的线性回归
- 首先做个最简单的线性回归
summary(fit)
后得到一些量包括:- \(SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2\)用命令就是
summary(fit)$residuals
的模长平方。 - 回归显著性检验统计两为自由度 \((p-1, n-p)\) 的F分布
- 单个系数的显著性检验为自由度为 \(n-p\) 的T分布
- 复相关系数的估计为 \(\hat{\rho}=R =(\frac{SS_{Regression}}{SS_{Total}})^{1/2}\)
- \(SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2\)用命令就是
- 剔除一部分自变量的影响
- 即使全模型正确,剔除一部分自变量以后,虽然有偏估计,但是可以使得回归系数估计方差减少。用选模型做预测是有一定道理的。
- 选择变量有几个准则, 包括 \(RMS_q = \frac{SS_{e}}{n-q}\), \(C_p = \frac{SSE}{\hat{\sigma}^2}- (n-2q)\), \(AIC = n ln(SS_e) + 2q\) 准则和其他准则。
- 回归诊断
- 一般认为标准化残差的近似值 \(r_i = \frac{\hat{e}_i}{\hat{\sigma} \sqrt{1-p_{ii}}}\) 近似的服从标准正态分布。
- QQ图可以看出某个分是否为正态分布,然后在可以检验它。
- 从残差图一般可以看出:
- 是否满足等方差假设
- 是否回归函数为非线性的,或者误差项不独立,或者遗漏了重要变量。
- 残差图看出来了有病,Box-Cox变化是一种常见治疗手段。
- 影响分析
- 用 Cook 统计量 \(D_i = \frac{(\hat{\beta}- \hat{\beta}_{(i)})^{'} X^{'}X(\hat{\beta}- \hat{\beta}_{(i)})}{p \hat{\sigma}^2}, i = 1,...,n\) 来衡量某组数据对回归估计影响的大小
- 异常点的检验统计量为新旧模型残差之差除以原来的残差,可以化解为:\(\frac{(n-p-1) r_j^2}{n-p-r_j^2}\) 这几个玩意如何用R实现呢?
Box-Cox变换
共线性 导致 某个特征值很小 导致 估计的方差很大,用逐步回归法修正多重共线性
1.1.2 有偏估计
- 岭估计
1.2 带惩罚的线性回归
1.3 Problems
- 随机变量之间的复相关系数如何求?有什么用?
它是回归平方和与总变差平方和之比。