1 理论基础

排序 (Ordination) 是一种在多变量数据中寻找连续模式的多元分析,通常输入数据为群落样本的物种组成 即\(样本 * 物种矩阵\)

把该矩阵想象成一个多维超空间,举个两个样本三个物种的群落构成的超空间的栗子.

最重要的假设是被分析数据是冗余的,也就是说我们可以减少变量的数量(维度),而不失去太多信息;

如果变量之间是完全相互独立的,就不可能找到一个合理的降维方式2

两种方式:

  1. 研究梯度以及试图用环境变量解释梯度 => 直接排序;
  2. 研究在降维过程中的样本分布 => 间接排序;

2 排序方法的类型

排序方法可以根据两个标准来分类:

  1. 算法中是否包含环境变量
  2. 输入数据类型(原始数据,变换数据及度量矩阵);

2.1 算法中是否包含环境变量

2.1.1 非约束性排序(间接排序)

排序轴不受到环境因素的制约。旨在揭示物种组成数据的主要梯度(方向变化)。

非约束性排序是一种探索性分析方法,用于探索多元数据中的模式;

它可以生成假设,但不能验证它们。

2.1.2 约束性排序 (直接排序)

排序轴受到环境因素的制约。反映物种组成与环境因子直接的关系以及提取物种组成中直接与环境因子相关的变量。

方法通常是用于验证性分析,即它能够测试环境因素对物种组成之间关系的假说。

关于环境因子,有一些有趣的处理:前向选择(通过排除那些与物种不相关的环境因子来筛选重要的环境因子),蒙特卡罗排列测试(检验通过环境因子解释方差的显著性)和方差分区(通过不同组的环境因子划分方差)。

2.2 输入数据类型

2.2.1 基于原始数据的方法(经典方法)

基于\(样本 * 物种矩阵\)的方法使用丰度文件或者有无文件,在这些方法中,基于物种对环境梯度的响应不同分为两类:

2.2.1.1 线性模型

假设物种线性响应环境梯度,在生态梯度里面相当短

2.2.1.2 单峰模型

假设物种单峰响应环境梯度,其最适条件在特定梯度位置;

这个模型更接近现实的生态数据,更适合异构数据集(结构化强烈或长期生态梯度及物种中许多零矩阵的情况)

2.2.2 基于变换数据的方法(tb-PCA 和 tb-RDA)

包括基于Hellinger转化的 \(样本 * 物种矩阵\) 线性数据排序方法(PCA,RDA),

Hellinger 距离可以通过原始数据直接计算出来,也可以先进行Hellinger变换(标准化),然后计算欧氏距离;

除了Hellinger变换,还有弦变换,卡方变换;



2.2.3 基于度量矩阵的方法

采用距离系数来衡量样本之间的距离。

基于距离的RDA ( db-RDA ) 和PCoA的结合,应用于原始数据使用度量的选定;

RDA应用于从 PCoA 生成特征向量。提供了除 RDA (基于欧氏距离)和 tb-RDA 另一种选择。

2.3 排序方法汇总



3 线性 or 单峰

3.1 物种响应环境梯度的假设3

红线表示采样,黄色表示实际响应梯度

如果抽样较短,我们可以假设为线性模型(虽然实际上是单峰模型),如上面左图;如果抽样较长,我们再假设为线性模型就是错误的,如上面右图.

3.2 模型的选择4

使用 DCA 处理数据,检查第一轴的大小.如果大于4,使用单峰模型,如果小于3,使用线性模型,大于3小于4,两种模型均可.如下图

虽然线性模型不适用于异构数据,单峰模型适用于均匀数据,但线性模型在均匀数据中更加强大,应该优先选择.

如果是异构数据,但仍然想使用线性模型,可以使用基于变换数据的方法.

4 参考


  1. 翻译自泽大伟的网上教程,有删减

  2. by the way:上图给出的三维超空间栗子三个变量之间两两垂直,也就是说是相互独立的

  3. Multivariate Analysis of Ecological Data using CANOCO. Cambridge Press

  4. Legendre, P. & Gallagher, E.D. 2001. Ecologically meaningful transformation for ordination of species data. Oecologia, 129: 271-280.