广义线性模型

1 广义线性模型

1.1 Logisitic回归：妊娠糖尿病分析

因变量：糖尿病(Diabetes){阳性：pos，阴性：neg}，设阳性为1、阴性为0
自变量：年龄(Age)、体重指数(BMI，kg/m² )、血糖浓度(Glucose )、舒张压(Diastolic blood pressure，(mm)Hg )、怀孕次数(Number of times pregnant )
数据文件：diabetes.csv，共 724个观察值

1.1.1 划分训练集和测试集

前450条个案为训练集，用于估计Logist模型

Show entries

Search:

	Age	Diabetes	BMI	Glucose	Pressure	Pregnant
1	50	pos	33.6	148	72	6
2	31	neg	26.6	85	66	1
3	32	pos	23.3	183	64	8
4	21	neg	28.1	89	66	1
5	33	pos	43.1	137	40	0
6	30	neg	25.6	116	74	5
7	26	pos	31	78	50	3
8	53	pos	30.5	197	70	2
9	30	neg	37.6	110	92	4
10	34	pos	38	168	74	10

Showing 1 to 10 of 450 entries

Previous1 2 3 4 5…45Next

后274条个案为测试集，用于评价模型的估计效果

Show entries

Search:

	Age	Diabetes	BMI	Glucose	Pressure	Pregnant
451	63	neg	28	132	86	4
452	35	pos	35.5	158	70	3
453	29	neg	35.2	123	88	0
454	28	neg	27.8	85	58	4
455	23	neg	38.2	84	82	0
456	24	pos	42.3	135	68	0
457	21	neg	40.7	139	62	1
458	58	neg	46.5	173	78	0
459	28	neg	25.6	99	72	4
460	67	neg	26.1	194	80	8

Showing 1 to 10 of 274 entries

Previous1 2 3 4 5…28Next

训练集糖尿病率36.44%，测试集糖尿病率为31.02%，两者大致相等。

1.1.2 训练集估计回归方程

term	estimate	std.error	statistic	p.value
(Intercept)	-7.950	0.97	-8.21	0.00
Age	0.012	0.01	1.00	0.32
BMI	0.089	0.02	4.81	0.00
Glucose	0.032	0.00	7.39	0.00
Pressure	-0.005	0.01	-0.50	0.61
Pregnant	0.098	0.04	2.45	0.01

l o g (\frac{p}{1 - p}) = - 7.95 + 0.012 \times A g e + 0.089 \times B M I + 0.032 \times G l u c o s e - 0.005 \times P r e s s u r e + 0.098 \times P r e g n a n t

1.1.3 测试集预测效果评价

	pos_pred	neg_pred
pos	53	32
neg	21	168

由训练集预测混淆矩阵可知

准确率(accuracy)：80.66%
精确率(precision)：62.35%
召回率(recall)：71.62%
$F_{1}$ 得分( $F_{1}$ score)：66.67%

1.1.4 回归模型边际效应

     Age      BMI  Glucose Pressure Pregnant 
    0.26     1.94     0.70    -0.11     2.14

年龄每增加一岁患病风险提高0.26%；体重指数每增加1患病风险提高1.94%；血糖浓度每增加1患病风险提高0.7%；舒张压每增加1患病风险降低0.11%；怀孕次数每增加一次患病风险提高2.14%。
体重指数、血糖浓度、怀孕次数对患病风险呈正向影响，符合预期。
年龄和舒张压对患病风险影响小且不显著，考虑逐步回归选择更合适的模型

1.2 Logisitic回归逐步回归

1.2.1 逐步回归的回归方程

去除age、Pressure变量进行逐步回归

term	estimate	std.error	statistic
(Intercept)	-7.940	0.82	-9.69
BMI	0.085	0.02	4.82
Glucose	0.033	0.00	7.67
Pregnant	0.115	0.03	3.32

$l o g (\frac{p}{1 - p}) = - 7.94 + 0.085 \times B M I + 0.033 \times G l u c o s e + 0.115 \times P r e g n a n t$

step.glm=step(glm.fits)

Start:  AIC=458.43
Diabetes ~ BMI + Glucose + Pregnant

           Df Deviance    AIC
<none>          450.43 458.43
- Pregnant  1   461.76 467.76
- BMI       1   476.19 482.19
- Glucose   1   522.88 528.88

summary(step.glm)


Call:
glm(formula = Diabetes ~ BMI + Glucose + Pregnant, family = binomial, 
    data = diabetes, subset = id.train)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -7.939663   0.819306  -9.691  < 2e-16 ***
BMI          0.085129   0.017658   4.821 1.43e-06 ***
Glucose      0.032675   0.004262   7.666 1.77e-14 ***
Pregnant     0.115033   0.034649   3.320    9e-04 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 590.34  on 449  degrees of freedom
Residual deviance: 450.43  on 446  degrees of freedom
AIC: 458.43

Number of Fisher Scoring iterations: 4

glm.probs=predict(step.glm,data.test,type="response")

AIC值降低，新模型比原模型好

1.2.2 逐步回归的预测效果

y.pred <- rep("neg", 274) 
y.pred[glm.probs>.5]<-"pos" 
y.pred <- factor(y.pred,levels=c("pos","neg"))
y <- factor(data.test$Diabetes,levels=c("pos","neg")) 
t2=table(y,y.pred);colnames(t2)=c("pos_pred","neg_pred")
t2

     y.pred
y     pos_pred neg_pred
  pos       53       32
  neg       22      167

回归方程的AIC值为458.43，由训练集预测混淆矩阵可知：

准确率(accuracy)：80.29%
精确率(precision)：62.35%
召回率(recall)：70.67%
$F_{1}$ 得分( $F_{1}$ score)：66.25%

Accuracy=mean(y.pred==y) 
Precision=t2[1,1]/sum(t2[1,]) 
Recall=t2[1,1]/sum(t2[,1]) 
F1=2*Precision*Recall/(Precision+Recall) 
op2=c(Accuracy=Accuracy,Precision=Precision,Recall=Recall,F1=F1);op2

 Accuracy Precision    Recall        F1 
0.8029197 0.6235294 0.7066667 0.6625000

对训练集预测正确率为80.66%，其中阴性预测正确率为88.89%，阳性预测正确率为62.35%

1.2.3 逐步回归的边际效应

     BMI  Glucose Pregnant 
    1.87     0.72     2.52

BMI每增加一个单位则患病风险提高1.87%；血糖浓度每增加1个单位患病风险提高0.72%；怀孕次数每增加一次患病风险提高2.52%。
体重指数、血糖浓度、怀孕次数对患病风险呈正向影响，符合预期。
逐步回归选择更合适的模型去除掉了不显著的变量，比原模型预测效果更好

2 判别分析

2.1 线性贝叶斯判别

2.1.1 判别函数

由于只有目标变量只有两类，线性贝叶斯判别等价于Fisher判别。以下为Fisher判别的判别函数：

$w = 5.981 + 0.008 \times A g e + 0.068 \times B M I + 0.028 \times G l u c o s e - 0.003 \times P r e s s u r e + 0.082 \times P r e g n a n t$

该判别函数和Logsitic回归的方程近似等价，各系数存在近似的倍数关系。注意，这里 $w$ 大于0判为neg，小于0判为pos。

2.1.2 测试集合的预测结果

测试集合预测的后验概率:

Show entries

Search:

	neg	pos
451	0.634	0.366
452	0.332	0.668
453	0.738	0.262
454	0.926	0.074
455	0.901	0.099
456	0.489	0.511
457	0.464	0.536
458	0.109	0.891
459	0.906	0.094
460	0.119	0.881

Showing 1 to 10 of 274 entries

Previous1 2 3 4 5…28Next

两类后验概率差异越大代表判别越有把握，错判的概率越小。

测试集合预测的混淆矩阵

	pos_pred	neg_pred
pos	53	32
neg	22	167

预测效果与Logistic模型基本一致。

2.2 二次贝叶斯判别

2.2.1 测试集合的预测的后验概率

Show entries

Search:

	neg	pos
451	0.412	0.588
452	0.402	0.598
453	0.727	0.273
454	0.931	0.069
455	0.854	0.146
456	0.494	0.506
457	0.509	0.491
458	0.056	0.944
459	0.951	0.049
460	0.063	0.937

Showing 1 to 10 of 274 entries

Previous1 2 3 4 5…28Next

2.2.2 测试集合的混淆矩阵

	pos_pred	neg_pred
pos	53	32
neg	23	166

3 聚类分析

利用例子7.2中2007年城镇居民消费数据作聚类分析，并比较不同聚类的效果

Show entries

Search:

	食品	衣着	设备	医疗	交通	教育	居住	杂项
北京	4934.05	1512.88	981.13	1294.07	2328.51	2383.96	1246.19	649.66
天津	4249.31	1024.15	760.56	1163.98	1309.94	1639.83	1417.45	463.64
河北	2789.85	975.94	546.75	833.51	1010.51	895.06	917.19	266.16
山西	2600.37	1064.61	477.74	640.22	1027.99	1054.05	991.77	245.07
内蒙古	2824.89	1396.86	561.71	719.13	1123.82	1245.09	941.79	468.17
辽宁	3560.21	1017.65	439.28	879.08	1033.36	1052.94	1047.04	400.16
吉林	2842.68	1127.09	407.35	854.8	873.88	997.75	1062.46	394.29
黑龙江	2633.18	1021.45	355.67	729.55	746.03	938.21	784.51	310.67
上海	6125.45	1330.05	959.49	857.11	3153.72	2653.67	1412.1	763.8
江苏	3928.71	990.03	707.31	689.37	1303.02	1699.26	1020.09	377.37

Showing 1 to 10 of 31 entries

Previous1 2 3 4Next

3.1 系统聚类

3.1.1 类平均法

从树状图看两类聚合为一类时聚类距离明显突变，分为两类比较合理。其中第一类包括：北京、上海、浙江、广东，其余为一类。

从各类的类中心看，第一类为沿海发达地区，各类消费水平明显高于第二类。

类别	食品	衣着	设备	医疗	交通	教育	居住	杂项
1	5252.19	1265.92	864.95	940.69	2730.43	2297.70	1317.82	583.77
2	3252.73	983.08	521.21	635.12	1012.19	1072.89	880.07	316.79

3.1.2 离差平方和法

从树状图看两类聚合为一类时聚类距离明显突变，分为两类比较合理。其中第一类包括：北京、上海、浙江、广东，其余为一类。

从各类的类中心看，第一类为沿海发达地区，各类消费水平明显高于第二类。

类别	食品	衣着	设备	医疗	交通	教育	居住	杂项
1	5252.19	1265.92	864.95	940.69	2730.43	2297.70	1317.82	583.77
2	3252.73	983.08	521.21	635.12	1012.19	1072.89	880.07	316.79

3.2 K-means聚类

3.2.1 分为三类

第一类包括：天津、辽宁、江苏、安徽、福建、山东、湖北、湖南、广西、海南、重庆、四川、云南、西藏，多为中部和沿海地区。

第二类包括：河北、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、新疆，多为东北和西部地区。

第三类包括：北京、上海、浙江、广东，为沿海发达地区。

从各类的类中心看，第二类地区的各项消费水平最高，尤其在交通、教育等项目；第一类地区的的各项消费水平均低于第二类但高于第三类地区。

类别	食品	衣着	设备	医疗	交通	教育	居住	杂项
1	3635.52	939.41	547.45	635.95	1128.40	1134.90	923.74	311.73
2	2840.50	1030.10	492.95	634.22	887.03	1006.11	833.05	322.25
3	5252.19	1265.92	864.95	940.69	2730.43	2297.70	1317.82	583.77

3.2.2 分为两类

第一类包括：北京、天津、上海、浙江、福建、广东多为沿海发达地区。

第二类包括：河北、山西、内蒙古、辽宁、吉林、黑龙江、江苏、安徽、江西、山东、河南、湖北、湖南、广西、海南、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆 ,多为中部内陆和东北、西部地区

从各类的类中心看，第一类地区的各项消费水平最高，在食品、衣着、设备、医疗、交通、教育、居住、杂项等项目都明显高于第二类地区

类别	食品	衣着	设备	医疗	交通	教育	居住	杂项
1	4925.72	1171.43	810.96	904.86	2306.43	2042.83	1324.99	529.12
2	3171.13	983.13	506.67	619.27	976.49	1036.08	843.34	308.55