广义线性模型
1 广义线性模型
1.1 Logisitic回归:妊娠糖尿病分析
因变量:糖尿病(Diabetes){阳性:pos,阴性:neg},设阳性为1、阴性为0
自变量:年龄(Age)、体重指数(BMI,kg/m2 )、血糖浓度(Glucose )、舒张压(Diastolic blood pressure,(mm)Hg )、怀孕次数(Number of times pregnant )
数据文件:diabetes.csv,共 724个观察值
1.1.1 划分训练集和测试集
- 前450条个案为训练集,用于估计Logist模型
- 后274条个案为测试集,用于评价模型的估计效果
- 训练集糖尿病率36.44%,测试集糖尿病率为31.02%,两者大致相等。
1.1.2 训练集估计回归方程
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
(Intercept) | -7.950 | 0.97 | -8.21 | 0.00 |
Age | 0.012 | 0.01 | 1.00 | 0.32 |
BMI | 0.089 | 0.02 | 4.81 | 0.00 |
Glucose | 0.032 | 0.00 | 7.39 | 0.00 |
Pressure | -0.005 | 0.01 | -0.50 | 0.61 |
Pregnant | 0.098 | 0.04 | 2.45 | 0.01 |
\[ log(\frac{p}{1-p}) =-7.95+0.012\times Age+0.089\times BMI+0.032\times Glucose-0.005\times Pressure+0.098\times Pregnant\]
1.1.3 测试集预测效果评价
pos_pred | neg_pred | |
---|---|---|
pos | 53 | 32 |
neg | 21 | 168 |
回归方程的AIC值为461.36,由训练集预测混淆矩阵可知:
- 准确率(accuracy):80.66%
- 精确率(precision):62.35%
- 召回率(recall):71.62%
- \(F_1\)得分(\(F_1\) score):66.67%
1.1.4 回归模型边际效应
Age BMI Glucose Pressure Pregnant
0.26 1.94 0.70 -0.11 2.14
年龄每增加一岁患病风险提高0.26%;体重指数每增加1患病风险提高1.94%;血糖浓度每增加1患病风险提高0.7%;舒张压每增加1患病风险降低0.11%;怀孕次数每增加一次患病风险提高2.14%。
体重指数、血糖浓度、怀孕次数对患病风险呈正向影响,符合预期。
年龄和舒张压对患病风险影响小且不显著,考虑逐步回归选择更合适的模型