Análisis de conglomerados

Medidas de distancia

Ejemplo Supóngase que se tienen cuatro personas cuya edad \(X_1\) (en años), estatura \(X_2\) (en metros), peso \(X_3\) (en kilogramos) son los siguientes El vector de medias \(X\), la matriz de covarianzas \(S\) y la matriz de correlación \(R\), manteniendo el orden de escritura anterior, son

\[\begin{array}{|cccc|} \hline \text { Persona } & \text { Edad } & \text { Estatura } & \text { Peso } \\ \hline \hline \text { A } & 30 & 1.69 & 66 \\ \text { B } & 32 & 1.70 & 69 \\ \text { C } & 35 & 1.65 & 72 \\ \text { D } & 33 & 1.68 & 67 \\ \hline \end{array}\]

\[ \bar{X}=\left[\begin{array}{lll} 32.50 & 1.68 & 68 .50 \end{array}\right] \quad S=\left[\begin{array}{rrr} 4.3333 & -0.0367 & 4.6667 \\ -0.0367 & 0.0005 & -0.0400 \\ 4.6667 & -0.0400 & 7.0000 \end{array}\right] \]

\[ R=\left[\begin{array}{rrr} 1.000 & -0.815 & 0.847 \\ -0.815 & 1.000 & -0.700 \\ 0.847 & -0.700 & 1.000 \end{array}\right] \]

La matriz de distancias euclidianas es \[ \begin{array}{rrrrr} & \mathrm{A} & \mathrm{B} & \mathrm{C} & \mathrm{D} \\ \mathrm{A} & 0.00 & 3.61 & 7.81 & 3.16 \\ \mathrm{~B} & 3.61 & 0.00 & 4.24 & 2.24 \\ \mathrm{C} & 7.81 & 4.24 & 0.00 & 5.39 \\ \mathrm{D} & 3.16 & 2.24 & 5.39 & 0.00 \end{array} \] donde la distancia entre A y B, por ejemplo, resulta del siguiente cálculo \[ d_{\mathrm{AB}}=\sqrt{(30-32)^{2}+(1.69-1.70)^{2}+(66-69)^{2}}=3.61 \]

A=  matrix(c(30, 1.69, 66,32 , 1.70 , 69,35 , 1.65 , 72 , 33 , 1.68 , 67 ), nrow=4, byrow = T)
colnames(A)<-c("Edad","Estatura", "Peso")
row.names(A)<-c("A", "B", "C", "D")
A
##   Edad Estatura Peso
## A   30     1.69   66
## B   32     1.70   69
## C   35     1.65   72
## D   33     1.68   67
colMeans(A)
##     Edad Estatura     Peso 
##    32.50     1.68    68.50
cov(A)
##                 Edad      Estatura      Peso
## Edad      4.33333333 -0.0366666667  4.666667
## Estatura -0.03666667  0.0004666667 -0.040000
## Peso      4.66666667 -0.0400000000  7.000000
cor(A)
##                Edad   Estatura       Peso
## Edad      1.0000000 -0.8153742  0.8473185
## Estatura -0.8153742  1.0000000 -0.6998542
## Peso      0.8473185 -0.6998542  1.0000000

La siguiente matriz resume las distancias de Mahalanobis entre las personas

\[ \begin{array}{ccccc} & A & B & C & D \\ A & 0.00 & 12.31 & 3.72 & 10.73 \\ B & 12.31 & 0.00 & 9.28 & 1.60 \\ C & 3.72 & 9.28 & 0.00 & 7.80 \\ D & 10.73 & 1.60 & 7.80 & 0.00 \end{array} \]

sigma1=solve(cor(A))
x=c(-2,-0.1,-3)
y=t(x)%*%sigma1%*% x
sqrt(y)
##          [,1]
## [1,] 4.406895

Distancia de correlacion de Pearson

\[d_{cor} = 1- \frac{\sum_{i=1}^n(x_{i} - \bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^n(x_{i}-\bar{x})^2\sum_{i=1}^n(y_{i}-\bar{y})^2}}\]

Distancia de correlación de spearman Calcula la correlación entre los rangos de x e y

\[d_{cor} = 1- \frac{\sum_{i=1}^n(x_{i}^{'} - \bar{x}^{'})(y_{i}^{'}-\bar{y}^{'})}{\sqrt{\sum_{i=1}^n(x_{i}^{'}-\bar{x}^{'})^2\sum_{i=1}^n(y_{i}^{'}-\bar{y}^{'})^2}}\]

Coeficientes de correlación

Frecuentemente se les llama medidas angulares, por su interpretación geométrica. \[ r_{j k}=\frac{\sum_{i}\left(X_{i j}-\bar{X}_{j}\right)\left(X_{i k}-\bar{X}_{k}\right)}{\sqrt{\sum_{i}\left(X_{i j}-\bar{X}_{j}\right)^{2}} \sqrt{\sum_{i}\left(X_{i k}-\bar{X}_{k}\right)^{2}}}, \quad \text { con } i=1, \ldots, p \] - \(X_{i j}\) es el valor de la variable \(i\) para el caso \(j\) (objeto), y \(\bar{X}_{j}\) es la media de todas las variables que definen el caso \(j\). Esta medida se emplea para variables en escala al menos de intervalo; para el caso de variables binarias, éstas se transforman al conocido coeficiente \(\varphi\).

  • El coeficiente toma valores entre \(1 \mathrm{y}\) \(-1\), un valor de cero significa no similaridad entre los casos.

  • Frecuentemente se le considera como una medida de forma, la cual es insensible a las diferencias en magnitud de las variables que intervienen en su cálculo.

Coeficientes de asociación

Son apropiados cuando los datos están en escala nominal. Cada variable toma los valores de 0 (de ausencia) y 1 (de presencia) de un atributo; una tabla de doble entrada resume toda la informaciónn (a manera de una matriz de diseño). Por ejemplo, la siguiente tabla contiene la informaci´on de dos OTU

(Operational Taxonomic Unit) \(A\) y \(B\) con relación a 10 caracteres del tipo presencia/ausencia.

OTU 1 2 3 4 5 6 7 8 9 10
A 0 1 1 0 1 0 1 0 1 0
B 1 1 0 0 1 1 0 0 1 1

Al comparar estos dos objetos se tienen cuatro posibilidades

  1. Que ambos tengan presente el carácter comparado \((1,1)\).
  2. Que ambos tengan ausente el carácter comparado \((0,0)\).
  3. Que el primero tenga el carácter presente y el segundo ausente \((1,0)\).
  4. Que el primero de ellos tenga el carácter ausente y el segundo presente \((0,1)\).

Para el ejemplo de las OTU, la tabla de comparación de un mismo carácter es

\[ \begin{array}{|c|c|c|} \text { Objeto A } & \text { Objeto B } \\ & 1 & 0 \\ \hline 1 & (3) & (2) \\ \hline 0 & (3) & (2) \\ \hline \end{array} \]

  • Coeficiente de asociación simple \((\mathcal{S})\) : Es la medida de similaridad más sencilla, entre los objetos \(i\) y \(j\), se calcula mediante la siguiente fórmula \[ \mathcal{S}_{(i, j)}=\frac{a+d}{a+b+c+d} \] sus valores están entre 0 y 1 . Este coeficiente toma en cuenta la ausencia de una variable para los dos objetos en consideración.

  • El coeficiente de Jaccard \((\mathcal{J})\), definido como \[ \mathcal{J}_{(i, j)}=\frac{a}{a+b+c}, \]

resuelve el problema de las ausencias conjuntas de una variable en el cálculo de la similaridad. Los biólogos anotan que con el empleo del coeficiente de asociación simple, algunos casos aparecerán como muy similares por el hecho de no poseer algún atributo en común

  • Rogers y Tanimoto \((\mathcal{R} \mathcal{T}):\) le da prelación a las diferencias, como en el caso de los dos anteriores coeficientes donde sus valores oscilan entre 0 y 1; es decir, valores de mínima y máxima similitud, respectivamente. Su cálculo se hace mediante la siguiente expresión: \[ \mathcal{R} \mathcal{T}_{(i, j)}=\frac{a+d}{a+(2 b)+(2 c)+d} \]

  • So Dice \((\mathcal{S D})\) : este coeficiente le confiere mayor importancia a las coincidencias en estado de presencia, se expresa como \[ \mathcal{S} \mathcal{D}_{(i, j)}=\frac{2 a}{2 a+b+c} \] Los valores de este coeficiente varían entre 0 y 1 ; y representan valores de mínima y máxima similitud, respectivamente.

  • Sokal y Sneath \((\mathcal{S S})\) : éste tiene más en cuenta las coincidencias, tanto por presencia como por ausencia de los atributos. Sus valores se obtienen calculando \[ \mathcal{S} \mathcal{S}_{(i, j)}=\frac{2(a+d)}{2(a+d)+b+c}, \] y toma valores entre 0 y 1 que equivalen a la mínima y máxima semejanza, respectivamente.

  • Coeficiente de Hamann \((\mathcal{H}):\) considera importante las diferencias entre coincidencias y no coincidencias. Los valores de similitud están en el rango de \(-1\) a 1 , mínima y máxima similitud, respectivamente. Se expresa así \[ \mathcal{H}_{(i, j)}=\frac{(a+d)-(b+c)}{a+b+c+d} \]

Los métodos de agrupamiento

Aunque no hay una definición universal de conglomerado, se toma la definición dada por Everitt (1980), quien dice que los conglomerados son “regiones continuas de un espacio que contienen una densidad relativamente alta de puntos,las cuales están separadas por regiones que contienen una densidad relativamente baja de puntos”.

Varios son los algoritmos propuestos para la conformación de conglomerados, se desarrollan, de una manera muy esquemática los métodos jerárquicos, los métodos de partición o división, nubes dinámicas, clasificación difusa y algunas herramientas gráficas. Cada uno de estos métodos representa una perspectiva diferente para la formación de los conglomerados, con resultados generalmente distintos cuando las diferentes metodologías se aplican sobre el mismo conjunto de datos.

Métodos jerárquicos

Estos métodos empiezan con el cálculo de la matriz de distancias entre los objetos. Se forman grupos de manera aglomerativa o por un proceso de división. Una de las características de esta técnica es la localización irremovible de cada uno de los objetos en cada etapa del mismo. Con los procedimientos aglomerativos cada uno de los objetos empieza formando un conglomerado (grupos unitarios). Grupos cercanos se mezclan sucesivamente hasta que todos

los objetos quedan dentro de un mismo conglomerado. Los métodos de división inician con todos los objetos dentro de un mismo conglomerado, éste es dividido luego en dos grupos, éstos en otros dos hasta que cada objeto llega a ser un conglomerado. Ambos procedimientos se resumen en un diagrama de árbol que ilustra la conformación de los distintos grupos, de acuerdo con el estado, de fusión o división, jerárquico implicado por la matriz de similaridades; este diagrama se conoce con el nombre de dendrograma.

conglomerado. La distancia entre el conglomerado \(\mathcal{A}\) y el conglomerado \(\mathcal{B}\) se define mediante \[ d_{\mathcal{A B}}=\min _{i \in \mathcal{A} \atop j \in \mathcal{B}}\left\{d_{i j}\right\} \] Así, la distancia entre dos conglomerados cualesquiera es la menor distancia observada desde un punto de un conglomerado a un punto del otro conglomerado. Para ilustrar este procedimiento de agrupación, supóngase que cinco objetos se encuentran a las siguientes distancias.

\[\begin{array}{|cccccc|} \hline & $\mathrm{O}_{1}$ & $\mathrm{O}_{2}$ & $\mathrm{O}_{3}$ & $\mathrm{O}_{4}$ & $\mathrm{O}_{5}$ \\ $\mathrm{O}_{1}$ & 0 & 3 & 7 & 11 & 10 \\ $\mathrm{O}_{2}$ & 3 & 0 & 6 & 10 & 9 \\ $\mathrm{O}_{3}$ & 7 & 6 & 0 & 5 & 6 \\ $\mathrm{O}_{4}$ & 11 & 10 & 5 & 0 & 4 \\ $\mathrm{O}_{5}$ & 10 & 9 & 6 & 4 & 0 \\ \hline \end{array}\]