从数据出发理解生存分析

统计学的常规操作就是统计描述统计推断: 有一组数据,得描述一下这是什么,提炼一下他的特性,然后通过描述样本估计总体的特性

复习 | 统计描述与统计推断

统计描述

复习一下以前学过的统计描述:

定量数据

  • 服从正态分布的连续变量——均值和标准差
  • 不服从正态分布的连续变量——中位数和四分位数

定性数据——常用相对数

  • 率:事件实际发生数/事件可能发生数 * 100%

  • 构成比:部分/总体

  • 相对比:(RR、OR、HR的区别

    • RR:相对危险度(吸烟患者的肺癌发生率是不吸烟患者的多少倍
    • OR:比数比(肺癌患者的吸烟/不吸烟与无肺癌人群的吸烟/不吸烟的比例)

队列研究:

肺癌 无肺癌
吸烟 a b
不吸烟 c d
RR = [a/(a+b]) / [c/(c+d)]

病例对照研究:

吸烟 不吸烟
肺癌 a b
无肺癌 c d
OR = (a/b)/(c/d)
    = ad/bc

解释: [(a+b)/(c+d)] 不符合现实世界的规律


统计推断

参数估计与假设检验

参数估计

参数估计是指用样本统计量去估计总体参数估计量 点估计:直接以样本的参数作为总体的参数 区间估计:在点估计的基础上,给出总体参数的一个区间范围,通常是由样本统计量加减估计误差得到 置信区间 在区间估计中,由样本统计量构造的总体参数的估计区间

假设检验

零假设(null hypothesis),统计学术语,又称原假设,指进行 统计检验 时预先建立的假设。 零假设成立时,有关 统计量 应服从已知的某种 概率分布 。 当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设。

证伪说明差异有统计学意义

生存资料

生存分析比较特殊,首先分析的数据类型不同

1、了解你的数据

常规数据

#举两个常规数据的栗子

#肺癌患者的生存时间
> Lung$time#平平无奇的定量数据
  [1]  306  455 1010  210  883 1022  310  361  218  166  170  654  728   71
 [15]  567  144  613  707   61   88  301   81  624  371  394  520  574  118
 [29]  390   12  473   26  533  107   53  122  814  965   93  731  460  153
 [43]  433  145  583   95  303  519  643  765  735  189   53  246  689   65
 [57]    5  132  687  345  444  223  175   60  163   65  208  821  428  230
 [71]  840  305   11  132  226  426  705  363   11  176  791   95  196  167
 [85]  806  284  641  147  740  163  655  239   88  245  588   30  179  310
 [99]  477  166  559  450  364  107  177  156  529   11  429  351   15  181
[113]  283  201  524   13  212  524  288  363  442  199  550   54  558  207
[127]   92   60  551  543  293  202  353  511  267  511  371  387  457  337
[141]  201  404  222   62  458  356  353  163   31  340  229  444  315  182
[155]  156  329  364  291  179  376  384  268  292  142  413  266  194  320
[169]  181  285  301  348  197  382  303  296  180  186  145  269  300  284
[183]  350  272  292  332  285  259  110  286  270   81  131  225  269  225
[197]  243  279  276  135   79   59  240  202  235  105  224  239  237  173
[211]  252  221  185   92   13  222  192  183  211  175  197  203  116  188
[225]  191  105  174  177

#肺癌患者在截止时间的状态:1=alive;2=dead
> Lung$status#平平无奇的定性数据
  [1] 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2
 [41] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2
 [81] 2 2 1 2 1 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2
[121] 2 2 2 2 2 2 2 2 1 1 2 2 2 1 2 1 2 2 2 2 2 1 2 2 1 1 2 2 2 2 2 1 1 2 2 2 1 2 2 1
[161] 1 2 1 2 1 1 2 2 2 2 1 2 2 1 1 1 2 2 2 1 1 1 2 1 1 1 2 1 2 2 2 2 2 1 2 1 1 1 1 2
[201] 2 2 1 1 1 2 1 2 1 1 1 1 1 1 2 1 1 2 1 1 1 1 2 1 1 1 1 1

FAQ

Q:由1可知生存时间的均值、中位数等,由2可知死亡率,那么究竟应该使用哪个数据来评价某因素对生存的影响呢

答:都不全面。举两个极端的例子:

  1. 单纯死亡率:截止时间1年,结果死亡率都是50%——不能代表高危组和低危组无差异,可能高危组前半年死亡50%,低危组年末死亡50%
  2. 单纯生存时间:高危组全部在第一年的最后一天死亡,低危组有一个在第一年最后一天死亡,但是他们的生存时间是一样的

单纯用生存时间或死亡率评估都不准确,所以:进行生存分析利用的的数据是时间+事件

> Surv(Lung$time,Lung$status)
  [1]  306   455  1010+  210   883  1022+  310   361   218   166   170   654   728 
 [14]   71   567   144   613   707    61    88   301    81   624   371   394   520 
 [27]  574   118   390    12   473    26   533   107    53   122   814   965+   93 
 [40]  731   460   153   433   145   583    95   303   519   643   765   735   189 
 [53]   53   246   689    65     5   132   687   345   444   223   175    60   163 
 [66]   65   208   821+  428   230   840+  305    11   132   226   426   705   363 
 [79]   11   176   791    95   196+  167   806+  284   641   147   740+  163   655 
 [92]  239    88   245   588+   30   179   310   477   166   559+  450   364   107 
[105]  177   156   529+   11   429   351    15   181   283   201   524    13   212 
[118]  524   288   363   442   199   550    54   558   207    92    60   551+  543+
[131]  293   202   353   511+  267   511+  371   387   457   337   201   404+  222 
[144]   62   458+  356+  353   163    31   340   229   444+  315+  182   156   329 
[157]  364+  291   179   376+  384+  268   292+  142   413+  266+  194   320   181 
[170]  285   301+  348   197   382+  303+  296+  180   186   145   269+  300+  284+
[183]  350   272+  292+  332+  285   259+  110   286   270    81   131   225+  269 
[196]  225+  243+  279+  276+  135    79    59   240+  202+  235+  105   224+  239 
[209]  237+  173+  252+  221+  185+   92+   13   222+  192+  183   211+  175+  197+
[222]  203+  116   188+  191+  105+  174+  177+

1010+表示1010天时观察截止,而此时患者仍然存活,也就是所谓的删失(censor)

生存分析基本概念

1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发等。

2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,

3、删失(censoring) : 在研究终止时,所关心的事件还未发生。

4、 临床试验终点(ending point)

2、统计描述和参数估计

2.1 生存资料的描述

【时间+事件】的生存资料数据无法利用均值、中位数、相对数 等描述,实际上生存资料无法给出参数,只能给出生存曲线(又称Kaplan-Meier曲线)

2.2 变量的描述——基线资料表

变量的频数统计

2.3 COX回归

  • 确定变量对生存资料的影响是否具有统计学意义,变量与因变量(生存资料)是否相关,是否为独立危险因素

  • 评价指标:

    • 相对风险比(hazard ratio,HR)其实就是加上了时间因素的RR,HR=1无意义,HR>1保护性因素,HR<1危险因素
    • 显著性 P:差异是否有统计学意义
  • COX回归:在生存分析中广泛应用的、适用于多变量的回归模型。

01 COX回归分析特点

鉴于临床数据的特殊性,COX回归比起一般的多重线性回归和Logistic回归在临床研究中具有更为广泛的应用。为了突出COX回归分析的特点,小编打算将以上三种回归分析方法作一次比较:

COX回归与另外两者的共同点:

(1)分析目的:都是回归,均可用于研究自变量影响程度,校正混杂因素以及作预测分析。

(2)自变量类型:均可为连续型数值变量,或离散型分类变量,顺序变量

(3)自变量筛选:均可采用逐步回归方法筛选变量。

COX回归与另外两者的相异点:

(1)因变量类型:COX回归因变量为生存资料(包含二分类结局变量和连续型生存时间变量),而多重线性回归因变量为数值型变量,Logistic回归因变量为分类或顺序型变量。

(2)因变量数据分布:COX回归对于数据分布不作要求,而多重线性回归,Logistic回归则要求数据分布分别近似正态分布和二项分布。

(3)模型参数解释:当自变量增大一个单位时,对于COX回归,改变了风险比HR的自然对数值。对于Logistic回归,改变了优势比OR的自然对数值。而对于多重线性回归,改变的即是Y值本身。

(4)是否允许数据删失:COX回归允许删失值,而多重线性回归,Logistic回归不允许。

02 单因素/多因素COX回归

Cox回归与logistic回归一样,同样可以开展单因素Cox回归和多因素Cox回归,单因素Cox回归是简单关联性分析比较,而多因素Cox回归可以探讨多种因素对生存结局的影响。因此,一般Cox回归都需要开展多因素回归分析的方法。

  • 简单说:单因素COX是让变量独奏(默认其他变量不做贡献)然后评价变量的贡献;多因素COX是让变量合唱再给每个变量打分
  • 一般要求样本数是变量数的20-30倍,如果变量太多,可以先用单因素COX筛一下,然后保留显著差异和有临床意义的差异 进行多因素COX
  • 单因素、多因素COX ,P都小于0.05可以认为是独立危险因素

总结一下:KM曲线+基线资料表+单/多因素COX合称生存分析的三表一图。