广义线性模型

1 广义线性模型

1.1 Logisitic回归:妊娠糖尿病分析

  • 因变量:糖尿病(Diabetes){阳性:pos,阴性:neg},设阳性为1、阴性为0

  • 自变量:年龄(Age)、体重指数(BMI,kg/m2 )、血糖浓度(Glucose )、舒张压(Diastolic blood pressure,(mm)Hg )、怀孕次数(Number of times pregnant )

  • 数据文件:diabetes.csv,共 724个观察值

1.1.1 划分训练集和测试集

  • 前450条个案为训练集,用于估计Logist模型
  • 后274条个案为测试集,用于评价模型的估计效果
  • 训练集糖尿病率36.44%,测试集糖尿病率为31.02%,两者大致相等。

1.1.2 训练集估计回归方程

term estimate std.error statistic p.value
(Intercept) -7.950 0.97 -8.21 0.00
Age 0.012 0.01 1.00 0.32
BMI 0.089 0.02 4.81 0.00
Glucose 0.032 0.00 7.39 0.00
Pressure -0.005 0.01 -0.50 0.61
Pregnant 0.098 0.04 2.45 0.01

log(p1p)=7.95+0.012×Age+0.089×BMI+0.032×Glucose0.005×Pressure+0.098×Pregnant

1.1.3 测试集预测效果评价

pos_pred neg_pred
pos 53 32
neg 21 168

由训练集预测混淆矩阵可知

  • 准确率(accuracy):80.66%
  • 精确率(precision):62.35%
  • 召回率(recall):71.62%
  • F1得分(F1 score):66.67%

1.1.4 回归模型边际效应

     Age      BMI  Glucose Pressure Pregnant 
    0.26     1.94     0.70    -0.11     2.14 
  • 年龄每增加一岁患病风险提高0.26%;体重指数每增加1患病风险提高1.94%;血糖浓度每增加1患病风险提高0.7%;舒张压每增加1患病风险降低0.11%;怀孕次数每增加一次患病风险提高2.14%。

  • 体重指数、血糖浓度、怀孕次数对患病风险呈正向影响,符合预期。

  • 年龄和舒张压对患病风险影响小且不显著,考虑逐步回归选择更合适的模型

1.2 Logisitic回归逐步回归

1.2.1 逐步回归的回归方程

去除age、Pressure变量进行逐步回归

term estimate std.error statistic p.value
(Intercept) -7.940 0.82 -9.69 0
BMI 0.085 0.02 4.82 0
Glucose 0.033 0.00 7.67 0
Pregnant 0.115 0.03 3.32 0

log(p1p)=7.94+0.085×BMI+0.033×Glucose+0.115×Pregnant

step.glm=step(glm.fits) 
Start:  AIC=458.43
Diabetes ~ BMI + Glucose + Pregnant

           Df Deviance    AIC
<none>          450.43 458.43
- Pregnant  1   461.76 467.76
- BMI       1   476.19 482.19
- Glucose   1   522.88 528.88
summary(step.glm) 

Call:
glm(formula = Diabetes ~ BMI + Glucose + Pregnant, family = binomial, 
    data = diabetes, subset = id.train)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -7.939663   0.819306  -9.691  < 2e-16 ***
BMI          0.085129   0.017658   4.821 1.43e-06 ***
Glucose      0.032675   0.004262   7.666 1.77e-14 ***
Pregnant     0.115033   0.034649   3.320    9e-04 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 590.34  on 449  degrees of freedom
Residual deviance: 450.43  on 446  degrees of freedom
AIC: 458.43

Number of Fisher Scoring iterations: 4
glm.probs=predict(step.glm,data.test,type="response") 

AIC值降低,新模型比原模型好

1.2.2 逐步回归的预测效果

y.pred <- rep("neg", 274) 
y.pred[glm.probs>.5]<-"pos" 
y.pred <- factor(y.pred,levels=c("pos","neg"))
y <- factor(data.test$Diabetes,levels=c("pos","neg")) 
t2=table(y,y.pred);colnames(t2)=c("pos_pred","neg_pred")
t2 
     y.pred
y     pos_pred neg_pred
  pos       53       32
  neg       22      167

回归方程的AIC值为458.43,由训练集预测混淆矩阵可知:

  • 准确率(accuracy):80.29%
  • 精确率(precision):62.35%
  • 召回率(recall):70.67%
  • F1得分(F1 score):66.25%
Accuracy=mean(y.pred==y) 
Precision=t2[1,1]/sum(t2[1,]) 
Recall=t2[1,1]/sum(t2[,1]) 
F1=2*Precision*Recall/(Precision+Recall) 
op2=c(Accuracy=Accuracy,Precision=Precision,Recall=Recall,F1=F1);op2
 Accuracy Precision    Recall        F1 
0.8029197 0.6235294 0.7066667 0.6625000 

对训练集预测正确率为80.66%,其中阴性预测正确率为88.89%,阳性预测正确率为62.35%

1.2.3 逐步回归的边际效应

     BMI  Glucose Pregnant 
    1.87     0.72     2.52 
  • BMI每增加一个单位则患病风险提高1.87%;血糖浓度每增加1个单位患病风险提高0.72%;怀孕次数每增加一次患病风险提高2.52%。

  • 体重指数、血糖浓度、怀孕次数对患病风险呈正向影响,符合预期。

  • 逐步回归选择更合适的模型去除掉了不显著的变量,比原模型预测效果更好

2 判别分析

2.1 线性贝叶斯判别

2.1.1 判别函数

由于只有目标变量只有两类,线性贝叶斯判别等价于Fisher判别。以下为Fisher判别的判别函数:

w=5.981+0.008×Age+0.068×BMI+0.028×Glucose0.003×Pressure+0.082×Pregnant

该判别函数和Logsitic回归的方程近似等价,各系数存在近似的倍数关系。注意,这里w大于0判为neg,小于0判为pos。

2.1.2 测试集合的预测结果

测试集合预测的后验概率:

两类后验概率差异越大代表判别越有把握,错判的概率越小。

测试集合预测的混淆矩阵

pos_pred neg_pred
pos 53 32
neg 22 167

预测效果与Logistic模型基本一致。

2.2 二次贝叶斯判别

2.2.1 测试集合的预测的后验概率

2.2.2 测试集合的混淆矩阵

pos_pred neg_pred
pos 53 32
neg 23 166

3 聚类分析

利用例子7.2中2007年城镇居民消费数据作聚类分析,并比较不同聚类的效果

3.1 系统聚类

3.1.1 类平均法

从树状图看两类聚合为一类时聚类距离明显突变,分为两类比较合理。其中第一类包括:北京、上海、浙江、广东,其余为一类。

从各类的类中心看,第一类为沿海发达地区,各类消费水平明显高于第二类。

类别 食品 衣着 设备 医疗 交通 教育 居住 杂项
1 5252.19 1265.92 864.95 940.69 2730.43 2297.70 1317.82 583.77
2 3252.73 983.08 521.21 635.12 1012.19 1072.89 880.07 316.79

3.1.2 离差平方和法

从树状图看两类聚合为一类时聚类距离明显突变,分为两类比较合理。其中第一类包括:北京、上海、浙江、广东,其余为一类。

从各类的类中心看,第一类为沿海发达地区,各类消费水平明显高于第二类。

类别 食品 衣着 设备 医疗 交通 教育 居住 杂项
1 5252.19 1265.92 864.95 940.69 2730.43 2297.70 1317.82 583.77
2 3252.73 983.08 521.21 635.12 1012.19 1072.89 880.07 316.79

3.2 K-means聚类

3.2.1 分为三类

第一类包括:天津、辽宁、江苏、安徽、福建、山东、湖北、湖南、广西、海南、重庆、四川、云南、西藏 ,多为中部和沿海地区。

第二类包括:河北、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、新疆 ,多为东北和西部地区。

第三类包括:北京、上海、浙江、广东 ,为沿海发达地区。

从各类的类中心看,第二类地区的各项消费水平最高,尤其在交通、教育等项目;第一类地区的的各项消费水平均低于第二类但高于第三类地区。

类别 食品 衣着 设备 医疗 交通 教育 居住 杂项
1 3635.52 939.41 547.45 635.95 1128.40 1134.90 923.74 311.73
2 2840.50 1030.10 492.95 634.22 887.03 1006.11 833.05 322.25
3 5252.19 1265.92 864.95 940.69 2730.43 2297.70 1317.82 583.77

3.2.2 分为两类

第一类包括:北京、天津、上海、浙江、福建、广东 多为沿海发达地区。

第二类包括:河北、山西、内蒙古、辽宁、吉林、黑龙江、江苏、安徽、江西、山东、河南、湖北、湖南、广西、海南、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆 ,多为中部内陆和东北、西部地区

从各类的类中心看,第一类地区的各项消费水平最高,在食品、衣着、设备、医疗、交通、教育、居住、杂项等项目都明显高于第二类地区

类别 食品 衣着 设备 医疗 交通 教育 居住 杂项
1 4925.72 1171.43 810.96 904.86 2306.43 2042.83 1324.99 529.12
2 3171.13 983.13 506.67 619.27 976.49 1036.08 843.34 308.55