Chapter 1 带非独立误差的多元函数线性模型变量选择

## Loading required package: splines
## Loading required package: Matrix
## 
## Attaching package: 'fda'
## The following object is masked from 'package:graphics':
## 
##     matplot

这章主要是学习和实践舒的论文。本着从简单出发的原则!

  • 如何找到下面内容的R代码呢?
    • 案例学习将是一个不错的选择!是一个最好的选择
    • 线性回归包自带案例学习会不错的!在R主页https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 上找合适的包。
    • 直接查看R手册,自带的R帮助文档还是很不错的。
    • 当然也可以直接自己敲代码,也很简单
  • anova分析是什么鬼?
  • 模型异方差检验Goldfeld-Quandt Test是什么,异常点检验的函数又是什么?
  • 有因子变量的时候他是自动转化为示性变量

1.1 多元线性回归

王松桂的书籍《线性模型引论》的第六章为主要理论部分内容,本节内容用代码实践理论内容。

生成模型 \(Y = 1 + 2 X_1 + 5 X_2 - 3 X_3 + \varepsilon\) 的 n 个样本数据,还有 \(X_4, X_5\) 为不相关的变量。

1.1.1 简单的线性回归

  1. 首先做个最简单的线性回归
    • summary(fit)后得到一些量包括:
      • \(SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2\)用命令就是 summary(fit)$residuals 的模长平方。
      • 回归显著性检验统计两为自由度 \((p-1, n-p)\) 的F分布
      • 单个系数的显著性检验为自由度为 \(n-p\) 的T分布
      • 复相关系数的估计为 \(\hat{\rho}=R =(\frac{SS_{Regression}}{SS_{Total}})^{1/2}\)
    • 剔除一部分自变量的影响
      • 即使全模型正确,剔除一部分自变量以后,虽然有偏估计,但是可以使得回归系数估计方差减少。用选模型做预测是有一定道理的。
      • 选择变量有几个准则, 包括 \(RMS_q = \frac{SS_{e}}{n-q}\), \(C_p = \frac{SSE}{\hat{\sigma}^2}- (n-2q)\), \(AIC = n ln(SS_e) + 2q\) 准则和其他准则。
  2. 回归诊断
    • 一般认为标准化残差的近似值 \(r_i = \frac{\hat{e}_i}{\hat{\sigma} \sqrt{1-p_{ii}}}\) 近似的服从标准正态分布。
    • QQ图可以看出某个分是否为正态分布,然后在可以检验它。
    • 从残差图一般可以看出:
      • 是否满足等方差假设
      • 是否回归函数为非线性的,或者误差项不独立,或者遗漏了重要变量。
    • 残差图看出来了有病,Box-Cox变化是一种常见治疗手段。
  3. 影响分析
    • 用 Cook 统计量 \(D_i = \frac{(\hat{\beta}- \hat{\beta}_{(i)})^{'} X^{'}X(\hat{\beta}- \hat{\beta}_{(i)})}{p \hat{\sigma}^2}, i = 1,...,n\) 来衡量某组数据对回归估计影响的大小
    • 异常点的检验统计量为新旧模型残差之差除以原来的残差,可以化解为:\(\frac{(n-p-1) r_j^2}{n-p-r_j^2}\) 这几个玩意如何用R实现呢?
  4. Box-Cox变换

  5. 共线性 导致 某个特征值很小 导致 估计的方差很大,用逐步回归法修正多重共线性

1.1.2 有偏估计

  1. 岭估计

1.2 带惩罚的线性回归

1.3 Problems

  1. 随机变量之间的复相关系数如何求?有什么用?
    它是回归平方和与总变差平方和之比。