统计学的常规操作就是统计描述和统计推断: 有一组数据,得描述一下这是什么,提炼一下他的特性,然后通过描述样本估计总体的特性
复习一下以前学过的统计描述:
率:事件实际发生数/事件可能发生数 * 100%
构成比:部分/总体
相对比:(RR、OR、HR的区别)
队列研究:
| – | 肺癌 | 无肺癌 |
|---|---|---|
| 吸烟 | a | b |
| 不吸烟 | c | d |
RR = [a/(a+b]) / [c/(c+d)]
病例对照研究:
| — | 吸烟 | 不吸烟 |
|---|---|---|
| 肺癌 | a | b |
| 无肺癌 | c | d |
OR = (a/b)/(c/d)
= ad/bc
解释: [(a+b)/(c+d)] 不符合现实世界的规律
参数估计与假设检验
参数估计是指用样本统计量去估计总体参数估计量 点估计:直接以样本的参数作为总体的参数 区间估计:在点估计的基础上,给出总体参数的一个区间范围,通常是由样本统计量加减估计误差得到 置信区间 在区间估计中,由样本统计量构造的总体参数的估计区间
零假设(null hypothesis),统计学术语,又称原假设,指进行 统计检验 时预先建立的假设。 零假设成立时,有关 统计量 应服从已知的某种 概率分布 。 当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设。
证伪说明差异有统计学意义
生存分析比较特殊,首先分析的数据类型不同
常规数据
#举两个常规数据的栗子
#肺癌患者的生存时间
> Lung$time#平平无奇的定量数据
[1] 306 455 1010 210 883 1022 310 361 218 166 170 654 728 71
[15] 567 144 613 707 61 88 301 81 624 371 394 520 574 118
[29] 390 12 473 26 533 107 53 122 814 965 93 731 460 153
[43] 433 145 583 95 303 519 643 765 735 189 53 246 689 65
[57] 5 132 687 345 444 223 175 60 163 65 208 821 428 230
[71] 840 305 11 132 226 426 705 363 11 176 791 95 196 167
[85] 806 284 641 147 740 163 655 239 88 245 588 30 179 310
[99] 477 166 559 450 364 107 177 156 529 11 429 351 15 181
[113] 283 201 524 13 212 524 288 363 442 199 550 54 558 207
[127] 92 60 551 543 293 202 353 511 267 511 371 387 457 337
[141] 201 404 222 62 458 356 353 163 31 340 229 444 315 182
[155] 156 329 364 291 179 376 384 268 292 142 413 266 194 320
[169] 181 285 301 348 197 382 303 296 180 186 145 269 300 284
[183] 350 272 292 332 285 259 110 286 270 81 131 225 269 225
[197] 243 279 276 135 79 59 240 202 235 105 224 239 237 173
[211] 252 221 185 92 13 222 192 183 211 175 197 203 116 188
[225] 191 105 174 177
#肺癌患者在截止时间的状态:1=alive;2=dead
> Lung$status#平平无奇的定性数据
[1] 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2
[41] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2
[81] 2 2 1 2 1 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2
[121] 2 2 2 2 2 2 2 2 1 1 2 2 2 1 2 1 2 2 2 2 2 1 2 2 1 1 2 2 2 2 2 1 1 2 2 2 1 2 2 1
[161] 1 2 1 2 1 1 2 2 2 2 1 2 2 1 1 1 2 2 2 1 1 1 2 1 1 1 2 1 2 2 2 2 2 1 2 1 1 1 1 2
[201] 2 2 1 1 1 2 1 2 1 1 1 1 1 1 2 1 1 2 1 1 1 1 2 1 1 1 1 1
Q:由1可知生存时间的均值、中位数等,由2可知死亡率,那么究竟应该使用哪个数据来评价某因素对生存的影响呢
答:都不全面。举两个极端的例子:
单纯用生存时间或死亡率评估都不准确,所以:进行生存分析利用的的数据是时间+事件
> Surv(Lung$time,Lung$status)
[1] 306 455 1010+ 210 883 1022+ 310 361 218 166 170 654 728
[14] 71 567 144 613 707 61 88 301 81 624 371 394 520
[27] 574 118 390 12 473 26 533 107 53 122 814 965+ 93
[40] 731 460 153 433 145 583 95 303 519 643 765 735 189
[53] 53 246 689 65 5 132 687 345 444 223 175 60 163
[66] 65 208 821+ 428 230 840+ 305 11 132 226 426 705 363
[79] 11 176 791 95 196+ 167 806+ 284 641 147 740+ 163 655
[92] 239 88 245 588+ 30 179 310 477 166 559+ 450 364 107
[105] 177 156 529+ 11 429 351 15 181 283 201 524 13 212
[118] 524 288 363 442 199 550 54 558 207 92 60 551+ 543+
[131] 293 202 353 511+ 267 511+ 371 387 457 337 201 404+ 222
[144] 62 458+ 356+ 353 163 31 340 229 444+ 315+ 182 156 329
[157] 364+ 291 179 376+ 384+ 268 292+ 142 413+ 266+ 194 320 181
[170] 285 301+ 348 197 382+ 303+ 296+ 180 186 145 269+ 300+ 284+
[183] 350 272+ 292+ 332+ 285 259+ 110 286 270 81 131 225+ 269
[196] 225+ 243+ 279+ 276+ 135 79 59 240+ 202+ 235+ 105 224+ 239
[209] 237+ 173+ 252+ 221+ 185+ 92+ 13 222+ 192+ 183 211+ 175+ 197+
[222] 203+ 116 188+ 191+ 105+ 174+ 177+
1010+表示1010天时观察截止,而此时患者仍然存活,也就是所谓的删失(censor)
生存分析基本概念
1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发等。
2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,
3、删失(censoring) : 在研究终止时,所关心的事件还未发生。
变量的频数统计
确定变量对生存资料的影响是否具有统计学意义,变量与因变量(生存资料)是否相关,是否为独立危险因素
评价指标:
COX回归:在生存分析中广泛应用的、适用于多变量的回归模型。
鉴于临床数据的特殊性,COX回归比起一般的多重线性回归和Logistic回归在临床研究中具有更为广泛的应用。为了突出COX回归分析的特点,小编打算将以上三种回归分析方法作一次比较:
COX回归与另外两者的共同点:
(1)分析目的:都是回归,均可用于研究自变量影响程度,校正混杂因素以及作预测分析。
(2)自变量类型:均可为连续型数值变量,或离散型分类变量,顺序变量。
(3)自变量筛选:均可采用逐步回归方法筛选变量。
COX回归与另外两者的相异点:
(1)因变量类型:COX回归因变量为生存资料(包含二分类结局变量和连续型生存时间变量),而多重线性回归因变量为数值型变量,Logistic回归因变量为分类或顺序型变量。
(2)因变量数据分布:COX回归对于数据分布不作要求,而多重线性回归,Logistic回归则要求数据分布分别近似正态分布和二项分布。
(3)模型参数解释:当自变量增大一个单位时,对于COX回归,改变了风险比HR的自然对数值。对于Logistic回归,改变了优势比OR的自然对数值。而对于多重线性回归,改变的即是Y值本身。
(4)是否允许数据删失:COX回归允许删失值,而多重线性回归,Logistic回归不允许。
Cox回归与logistic回归一样,同样可以开展单因素Cox回归和多因素Cox回归,单因素Cox回归是简单关联性分析比较,而多因素Cox回归可以探讨多种因素对生存结局的影响。因此,一般Cox回归都需要开展多因素回归分析的方法。
总结一下:KM曲线+基线资料表+单/多因素COX合称生存分析的三表一图。