统计学习导论-统计学习
统计学习定义
- \( Y = f(X) + \epsilon \)
- 统计学习本质上是在寻找最合适的f来进行预测与推断
预测
- \( \hat Y = \hat f(X) \),\( \hat f(X) \) 通常看作黑箱
- \( \hat Y \)预测\( Y \)需要考虑两部分误差:可约误差与不可约误差
- 可约误差指\( \hat f \)推断\( f \)上的偏差
- 不可约误差指由\( \epsilon \)引入的误差
- 误差的期望 \( E(Y - \hat Y)^2 = [f(x) - \hat f(x)]^2 + Var(\epsilon) \) (证明用到\( E(Y) \))
推断
- 关注X与Y的关系,\( \hat f(X) \) 通常有明确的形式
- 自变量因变量是否相关
- 如何相关
- 关系的数学描述
估计f
- 使用训练集与验证集
- 参数方法与非参数方法
- 模型的欠拟合与过拟合
- 权衡模型的准确性(预测)与可解释性(推断)
- 模型的奥卡姆剃刀与黑箱
评价模型
拟合质量测量
- 训练集均方误 \( MSE_{Tr} = Ave_{i \in Tr}[y_{i} − \hat f(x_i)]^2 \)
- 测试集均方误 \( MSE_{Te} = Ave_{i \in Te}[y_{i} − \hat f(x_i)]^2 \)
- 测试集均方误源于训练集拟合模型的方差,误差项\( \epsilon \)的方差及模型误差的平方三部分
聚类评价
- 错误率 \( Err_{Te} = Ave_{i \in Te}I[y_i \neq \hat C(x_i)] \)
- 贝叶斯分类器:错误率最小的分类器,使x属于某个分类的概率最大
- k临近值聚类:距离最小的k个为一类所产生的分类器