课程目标

实例数据研究

课程资料

R软件拥有一系列连贯且完整的数据分析方法,可以实现本课程涉及的所有统计学习方法甚至更多;

R软件更新统计技术很快,适合于科研人员使用;

R软件很灵活,R语言和其它编程语言、数据库之间有很好的接口,且可以针对特定数据格式自己写函数及统计方法;

R软件具有丰富的网上资源,几乎所有的包是免费的,你可以从R官网http://www.r-project.org/上下载R软件及其相关的很多材料;

……

成绩评价项 所占比例
作业(7~8次) 35%
小测试 5%
期中考试 25%
项目 10%
期终考试 25%

课程大纲(初步)

第1课 课程介绍

  • 现代数据挖掘及统计学习介绍

  • 不同统计学习方法的概述

  • 统计学习是什么?

     – 推断与预测

     – 有监督与无监督学习问题

     – 回归与分类

第2课 实验课1:R软件的介绍

  • 基本命令

  • 图形

  • 索引数据

  • 导入数据

第3课 评估统计学习方法的精确度

  • 不太灵活与更加灵活的方法

  • 训练与测试误差率

  • 最近邻算法

  • 贝叶斯分类器

  • 偏差与方差思想

第4课 线性回归(Linear Regression)

  • 线性回归模型

  • 用最小二乘法拟合模型

  • 检验统计显著性

  • 处理分类变量

第5课 实验课2:线性回归模型构建

  • 利用R函数lm()拟合线性回归模型

  • 利用R函数predic()建立预测

第6课 Logistic回归(Logistic Regression)

  • 利用Logistic函数进行分类

  • 估计回归系数

  • 估计类别概率

第7课 线性判别分析(Linear Discriminant Analysis (LDA))

  • 用于分类处理的贝叶斯定理

  • 估计贝叶斯分类器

  • 混淆矩阵

  • 二次判别分析

第8课 实验课3:Logistic回归模型和LDA构建

  • 利用R函数glm()拟合Logistic回归模型

  • 利用R函数lda()qda()拟合LDA

第9课 重抽样方法(Resampling Methods)

  • 交叉验证(Cross Validation)

  • Bootstrap算法

第10课 实验课4:交叉验证和Bootstrap算法实现

  • 验证设置方法

  • LOOC 验证法

  • K-Fold 交叉验证法

第11课 变量选择(Variable Selection)

  • 最佳子集(最佳参数)回归(Best Subset Regression)

  • Leave Out抽样法

  • BIC和AIC评分法

  • 交叉验证法

  • 房地产数据实例

第12课 实验课5:K-最近邻法,最佳子集回归法

  • 利用R函数knn()实现最近邻法

  • 利用R函数regsubsets()实现最佳子集回归法

第13课 收缩与降维法(Shrinkage and Dimension Reduction Methods)

  • 岭回归(Ridge Regression)

  • LASSO收缩法

  • 房地产数据实例

  • 主成分回归(Principal Components Regression)

  • 偏最小二乘法(Partial Least Squares)

第14课 实验课6:收缩方法

  • 利用R函数lm.ridge()实现岭回归

  • 利用R函数lars()实现LASSO收缩法

  • 识别重要的影响变量

第15课 期中考试

第16课 涉及非线性的方法

  • 非线性回归(Non-Linear Regression)的介绍

  • 多项式回归(Polynomial Regression)

  • 样条曲线(Splines)

  • 股票S&P数据实例及模拟数据

第17课 广义可加模型(Generalized Additive Models)

  • 扩展线性回归并允许非线性关系

  • 扩展Logistc回归并允许非线性关系

  • 给定上周波动趋势对明天股票S&P价格的预测

第18课 实验课7:多项式回归,样条曲线和广义可加模型

  • 利用R函数poly()实现多项式回归

  • 利用R函数smooth.spline()拟合样条曲线

  • 利用R函数gam()产生广义可加模型

  • 股票S&P数据实例

第19课 树的方法

  • 决策树(Decision Trees)

  • 回归树与分类树(Regression vs. Classification Trees)

  • 修剪树(Pruning Trees)

第20课 Bagging和Boosting算法

  • 集成分类器:利用多分类改善预测精度

  • Bootstrap方法

  • 利用Bootstrap产生一个Bagged分类器

  • 另一类集成分类器

  • AdaBoost和其它Boosting算法

第21课 实验课8:树的方法

  • 利用R函数tree()生长回归与分类树

  • 利用R包gbm实现Boosting算法程序

第22课 支持向量机(Support Vector Machines (SVM))

  • 支持向量分类器

  • 计算用于分类的SVM

  • 基于罚项函数法(Penalization Method)的SVM

第23课 聚类方法

  • K-均值聚类法(K-means Clustering)

  • 分层聚类法(Hierarchical Clustering)

第24课 实验课10:SVM分类与聚类法实现

  • 利用R函数svm()产生SVM

  • 利用R函数kmeans()实现K-均值聚类

  • 利用R函数hclust()实现分层聚类

第25课 项目(Project)研究

第26课 项目1研究展示(Project Presentations)

第27课 项目2研究展示(Project Presentations)