杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。公式如下:
\[J_{\delta} (A,B) = 1 - J(A,B) = \frac{|A \cup B| - |A \cap B|}{|A \cup B |}\]
因为不满足三角不等性,所以不是严格意义上的距离(distance),而是异同(dissimilarities)
\[D_{bray-curtis}=1-2\frac{\sum min\left(S_{A,i}\mbox{, } S_{B,i}\right)}{\sum S_{A,i}+\sum S_{Bi}}\]
这里,
\(S_{A,i}\) = 群落A中第i个OTU的序列数
\(S_{B,i}\) = 群落B中第i个OTU的序列数
\[ u = \frac{\sum_{i=1}^{N} l_i | A_i - B_i |} {\sum_{i=1}^{N} l_i \max(A_i, B_i)} \]
这里
\(N\) 是树中的节点数
\(l_i\) 代表\(i\)节点与父节点的分支长度
\(A_i\)和\(B_i\) 的值等于0或1,代表节点\(i\)的后代分别在a和b中不存在或存在。
广义的 UniFrac 距离,定义如下
\[d^{(α)} = \frac{∑_{i=1}^m b_i (p^A_{i} + p^B_{i})^α |p^A_{i} - p^B_{i}|/(p^A_{i} + p^B_{i})}{ ∑_{i=1}^m b_i (p^A_{i} + p^B_{i})^α}\]
这里,
\(m\) 代表树枝的数量, \(b_i\) 代表第 \(i\) 树枝的长度 , \(p^A_{i}\), \(p^B_{i}\) 代表 \(i\) 枝上群落A及群落B的比例.
广义的 UniFrac 距离包含一个额外的参数 \(α\) 来控制权重以消除丰度过高的物种对于计算的影响
α=0.5 使用最为广泛.
欧式距离是最易于理解的一种距离计算方法,源自欧式空间中两点间的距离公式。
\[d = \sqrt[2]{(a-b)^T(a-b)}\]
用R语言计算距离主要是dist函数。若X是一个M×N的矩阵,则dist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离
从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源, 曼哈顿距离也称为城市街区距离(City Block distance)
两个n维向量a(a1;a2;…;an)与 b(b1;b2;…;bn)间的曼哈顿距离
\[d = \sum_{k=1}^{n} |a_{k} - b_{k}|\]
国际象棋玩过么?国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走试试。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步 。有一种类似的一种距离度量方法叫切比雪夫距离。 两个n维向量a(a1;a2;…;an)与 b(b1;b2;…;bn)间的曼哈顿距离
\[d = max_{k} | a_{k} - b_{k}|\]
或者
\[d = lim_{p \rightarrow \infty} (\sum_{k=1}^{n} |a_{k} - b_{k}|^{p})^{1/p}\]
闵可夫斯基距离不是一种距离,而是一组距离的定义
两个n维变量\(a(a1;a2;...;an)\)与\(b(b1;b2;...;bn)\)间的闵可夫斯基距离的定义为:
\[d= \sqrt[p]{\sum_{k=1}^{n} |a_{k} - b_{k}|^{p}}\]
其中p为一个变参数
如下:
\[d = \sqrt{\sum_{k=1}^{n} (\frac{a_{k} - b_{k}} {\delta_{k}})^{2}}\]
标准化变量的数学期望为0,方差为1
\[d(X_{i},X_{j}) = \sqrt{(X_{i} - X_{j})^{T} S^{-1}(X_{i} - X_{j})}\]
量纲无关,排除变量之间的相关性的干扰。
两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
\[d_{ij} = \sum_{k=1} ^{n} \frac{|x_{ik} - x_{jk}|}{x_{ik} + x_{jk}}\]
与马氏距离一样,兰氏距离对数据的量纲不敏感。不过兰氏距离假定变量之间相互独立,没有考虑变量之间的相关性。
\[\rho_{XY} = \frac{cov(X,Y)}{\sqrt{d(X)} \sqrt{d(X)}} = \frac{E((X-EX)(Y-EY))}{\sqrt{d(x)} \sqrt{d(X)}}\]
\[D_{XY} = 1 - \rho_{XY}\]