进行TP53的表达量与癌症分期是否有关的分析,\(H_0\):TP53的表达量在不同的癌症分期下不存在差异

读入两个数据

data1<-read_csv("HCGA-LIHC_clin.csv")
data2<-read_csv("HCGA-LIHC_expdata.csv")

由于ID所对应的p53蛋白的表达量以及其他临床变量不在一个表格里,我们首先要合并表格。

datat<-as.data.frame(t(data2))
colnames(datat) <- datat[1, ]  # 把第一行的值 赋值 给列名
datat <- datat[-1, ]           # 删除第一行(已经没用了)
datas<-select(datat,TP53)
datas$ID <- rownames(datas)  # 把行名(样本TCGA编号)赋值给新列ID

# 调整列顺序,让ID在最左边
datas<- datas[, c("ID", "TP53")]
full_join(data1, datas, by = c("ID" = "ID")) -> data3

接下来采用ANOVA分析

aovstage <- aov(TP53 ~ ajcc_pathologic_stage, data = data3, na.action = na.omit)
summary(aovstage) 
##                       Df Sum Sq Mean Sq F value Pr(>F)
## ajcc_pathologic_stage  3    453   150.9   0.867  0.461
## Residuals             93  16188   174.1               
## 47 observations deleted due to missingness

本次采用单因素方差分析(ANOVA)探究 TP53 表达量与肝癌病理分期(ajcc_pathologic_stage)的关联,输出结果及各项指标逐一解析如下:

1. 自由度(Df)

病理分期分组因素:Df=3,说明本次研究的癌症病理分期共划分为4 个组别(组别数 = 自由度 + 1); 残差(组内误差):Df=93,代表去除分组效应后,样本个体随机变异的有效自由度,为统计检验提供基础。

2. 平方和(Sum Sq)

组间平方和:Sum Sq=453,代表不同癌症分期组别之间,TP53 表达量的整体变异水平; 残差平方和:Sum Sq=16188,代表同一分期组内,不同个体样本 TP53 表达量的随机波动总和,可见组内个体差异远大于组间分期差异。

3. 均方(Mean Sq)

组间均方:Mean Sq=150.9,由组间平方和除以对应自由度计算得到,反映分期分组造成的平均变异; 残差均方:Mean Sq=174.1,由残差平方和除以残差自由度所得,代表样本自身随机误差的平均水平。

4. F 检验值(F value)

计算得F=0.867,F 值为组间均方 / 残差均方的比值。本结果中 F 值小于 1,说明癌症分期带来的组间变异,小于样本自身的组内随机变异,提示分期对 TP53 表达的影响极小。

5. 检验 P 值(P value)

P=0.461,以常用检验水准α=0.05为判断标准,0.461>0.05,差异不显著,无法拒绝零假设。

6. 缺失值说明

结果标注:47 observations deleted due to missingness,表示共有 47 例样本因存在病理分期数据、TP53 表达量数据缺失,被自动剔除,剩余有效样本完成本次方差分析。

结论

结合所有 ANOVA 指标可知:不同 AJCC 病理分期组间的 TP53 表达量变异程度低,组间差异不显著,无法拒绝零假设。在该肝癌数据集中,暂无统计学证据证明 TP53 基因表达量与癌症临床病理分期存在关联。