一、数据整合的策略

数据整合

选择不同的锚点来连接不同的数据

锚点选择:
1、水平整合:基因作为锚点,用于独立细胞组分析相同数据模式,scRNAseq

2、垂直整合:细胞作为锚点,同一细胞同时分析多种数据模式,scNMT-seq,sc-GEM,SNARE-seq,SHARE-seq

3、对角线整合:高维空间中整合无锚点,适用于细胞和基因组特征都不一样时,scATAC-seq,scRNA-seq,CITE-seq

二、批次效应

数据集成:将来自不同实验或批次的数据合并在一起,以消除批次效应。这样做的目的是确保不同实验条件下得到的数据可以进行公平和有效的比较和分析。

1、批次效应产生原因

批次产生原因:
批次效应:样品处理、试验方案、实验人员、实验时间不同等原因造成的差异

去除批次目的:
分析多个数据集,在去除批次效应后,识别出之前被批次间差异所掩盖的稀有细胞群。

2、批次效应的判断

使用umap图可视化批次效应(PCA、tSNE)

没有去批次

MNN去批次

3、去批次效应方法

scRNA-seq中去除批量效应的方法

1、降维。将数据投射到低维空间
2、建模和去除批次效应
3、投影回高维空间

按照模型发展顺序分为
1、全局模型:将所有数据映射到一个公共空间来消除批次效应

2、线性嵌入模型:使用线性降维技术(如PCA、CCA)将数据嵌入到一个低维空间中,同时消除批次效应

3、基于图的方法:通过构建和操作细胞之间的图结构来整合数据并消除批次效应

4、深度学习方法:使用深度神经网络来学习数据的非线性嵌入,同时消除批次效应。

a、去批次效应的方法原理概述(combat、combat-seq、mnn、harmony)

1、全局模型:

将所有数据映射到一个公共空间来消除批次效应,ComBat

ComBat

经验贝叶斯 (EB) 方法,该方法对于调整批次大小较小的数据的批次效应具有很强的鲁棒性。

1、标准化数据,以便基因具有相似的总体均值和方差

2、使用先验分布假设来估计批次效应的参数

3、调整数据,去除批次效应

使用负二项回归模型根据 RNA 测序研究中的计数矩阵来估计批次效应

平均值和离散度批次效应参数分别表示为 γ gi、ϕ gi ,用于模拟批次i对基因g的影响

1、为每个基因构建负二项式模型,通过对数链接函数

2、用edgeR方法来估计批次效应参数

3、调整数据

使用ComBat的情况:
数据为微阵列基因表达数据。
RNA-Seq数据已经进行了标准化处理,并且满足正态分布。
ComBat 通过标准化从数据中消除批次效应,即减去平均批次效应估计值,并通过方差估计值进行缩放。

使用ComBat-seq的情况:
原始RNA-Seq计数数据,尤其是具有低计数和离散特性的情况。
需要处理未标准化的RNA-Seq数据。

2、线性嵌入模型:

使用线性降维技术(如PCA、CCA)将数据嵌入到一个低维空间中,同时消除批次效应,MNN、基于CCA的Seurat整合方法。

基于相互最近邻 (MNN) 方法[ Haghverdi et al. , 2018 ](不执行任何降维)
Seurat 积分[ Butler et al. , 2018 , Stuart et al. , 2019 ]
Scanorama [ Hie et al. , 2019 ]、FastMNN [ Haghverdi et al. , 2018 ]和 Harmony [ Korsunsky et al. , 2019 ]。

基于相互最近邻 (MNN) 方法
对MNN对的使用涉及三个假设:(i)两个批次中至少存在一个细胞群,(ii)批次效应几乎与生物子空间正交,以及(iii)批次效应变异远小于不同细胞类型之间的生物效应变异

生物子空间是指一组代表生物过程的基础向量

如果每个批次中的一对细胞包含在彼此的最近邻居集合中,则这些细胞被视为相互最近邻居

高斯核函数

1、假设有批次1和2,将不同批次的基因表达信息按细胞进行余弦标准化

2、依次计算批次1中每个细胞到批次2中所有细胞的欧氏距离,保存具有最小距离的细胞对,批次2进行同样操作,当批次1和批次2的细胞互相配对时,称为mnn细胞对

3、利用mnn细胞对的表达信息,计算两个细胞的基因表达差值,得到表达差异向量也称为批次效应校正向量

4、计算出所有mnn细胞对的校正向量,利用高斯核函数计算她们的加权平均数作为校正向量,最后应用所有细胞

Harmony

先pca到低维度

软k均值聚类+熵正则化 +多样性最大化(可以确保簇内包含来自不同批次的细胞,从而减少批次效应对聚类结果的影响)

1、使用软k均值聚类,将细胞随意分配给cluster,使每个cluster内数据集的多样性最大

2、计算每个cluster中所有数据的全局质心,以及特定数据集的中心

3、在每个cluster中,为每个数据集计算校正因子

4、使用校正因子校正每一个细胞,由于harmony使用软聚类,因此可以使用多个因子的线性组合来对A中进行的软聚类分配进行线性校正,来修正每一个细胞

5、重复A到D步骤,直到收敛

3、基于图的方法:通过构建和操作细胞之间的图结构来整合数据并消除批次效应。BBKNN

通常是运行速度最快的方法。这些方法使用最近邻图来表示每个批次的数据。通过强制不同批次的细胞之间建立连接,然后通过修剪强制边缘来允许细胞类型组成的差异,可以校正批次效应。

批次平衡k最近邻 (BBKNN) 方法[ Polański et al.,2019 ]

4、深度学习方法:使用深度神经网络来学习数据的非线性嵌入,同时消除批次效应。

是用于消除批次效应的最新且最复杂的方法,通常需要最多的数据才能获得良好的性能。大多数深度学习集成方法都基于自动编码器网络,要么在条件变分自动编码器 (CVAE) 中对批次协变量进行降维,要么在嵌入空间中拟合局部线性校正

scVI [ Lopez等人,2018 年]、scANVI [ Xu等人,2021 年]和scGen [ Lotfollahi等人,2019 年]。

b、方法的比较,选择

使用五种评估指标对十个数据集上的 14 种方法进行基准测试。分为5个场景进行测试,推荐算法

适用场景 推荐的去批次效应算法

不同的技术处理下相同细胞类型的批次 Harmony、Seurat 3、LIGER

每个批次的细胞类型不完全相同 LIGER、Harmony

有多个批次 Harmony、Scanorama、scGen、scMerge

处理的数据集很大 LIGER、ZINB-WaVE、MMD-ResNet

用于下游分析批次效应校正矩阵 ComBat、MNN Correct、ZINB-WaVE、scMerge

综合 Harmony、LIGER和Seurat 3

对 16 种流行的数据整合工具在13个数据整合任务上进行了基准测试,评估整合方法在保留生物变异的同时消除批量效应的能力。

适用场景 推荐的去批次效应算法

人类免疫细胞 Scanorama、FastMNN、scANVI 和 Harmony

简单数据 Seurat v3 和 Harmony

复杂数据 Scanorama 和 scVI

预处理HVG还是scaling HVG整体性能高.scalingl去除批次强,生物保护差

scRNA-seq scANVI、Scanorama 和 scVI

scATAC-seq LIGER、Harmony、BBKNN

运行时间短 ComBat、BBKNN 和 SAUCIE

内存效率高 scVI、scANVI 和 BBKNN

消除批次效应强 BBKNN 和 Seurat v3

生物保守性强 scANVI 和 scGen

根据三个标准选择集成方法:可用性、可扩展性和预期性能

4、去批次效应结果评估

去批次效果评估指标

scib包

1、在尝试校正批次效应之前,先可视化数据以评估批次的严重程度

2、根据数据集类型和场景选择合适的去批次方法

2、使用scib指标对去批次结果进行评估,选择最适合的