Análisis de conglomerados
Conglomerado es un conjunto de objetos que poseen características similares.
La palabra conglomerado es la traducción máss cercana al término “cluster”.
En la terminología del análisis de mercados se dice segmento, para denotar un grupo con determinado perfil.
En biología se habla de familia o grupo para hacer referencia a un conjunto de plantas o animales que tienen ciertas características en común.
En ciencias sociales se consideran estratos a los grupos humanos de condiciones socioeconómicas homogéneas.
El análisis de conglomerados busca particionar un conjunto de objetos en grupos, de tal forma que los objetos de un mismo grupo sean similares y los objetos de grupos diferentes sean disímiles.
Así, el análisis de conglomerados tiene como objetivo principal definir la estructura de los datos colocando las observaciones más parecidas en grupos.
Los propósitos más frecuentes para la construcción y análisis de conglomerados son los siguientes:
La identificación de una estructura natural en los objetos; es decir, el desarrollo de una tipología o clasificación de los objetos.
La búsqueda de esquemas conceptuales útiles que expliquen el agrupamiento de algunos objetos.
La formulación de hipótesis mediante la descripción y exploración de los grupos conformados.
La verificación de hipótesis, o la confirmación de si estructuras definidas mediante otros procedimientos est´an realmente en los datos.
Medidas de distancia
La distancia euclidiana, definida por \[ d_{i j}=\sqrt{\sum_{k=1}^{p}\left(X_{i k}-X_{j k}\right)^{2}} . \]
La distancia \(D^{2}\) de Mahalanobis, también llamada la distancia generalizada \[ D^{2}=d_{i j}=\left(X_{i}-X_{j}\right)^{\prime} \Sigma^{-1}\left(X_{i}-X_{j}\right) \] donde \(\boldsymbol{\Sigma}\) es la matriz de varianzas y covarianzas de los datos, y \(X_{i}\) y \(X_{j}\) son los vectores de las mediciones que identifican los dos objetos \(i\) y \(j\).
Medida de Manhattan, se define \[ d_{i j}=\sum_{k=1}^{p}\left|X_{i k}-X_{j k}\right| \]
Medida de Minkowski \[ d_{i j}=\left(\sum_{k=1}^{p}\left|X_{i k}-X_{j k}\right|^{r}\right)^{1 / r} \quad \operatorname{con} r=1,2, \ldots \]
Ejemplo Supóngase que se tienen cuatro personas cuya edad \(X_1\) (en años), estatura \(X_2\) (en metros), peso \(X_3\) (en kilogramos) son los siguientes El vector de medias \(X\), la matriz de covarianzas \(S\) y la matriz de correlación \(R\), manteniendo el orden de escritura anterior, son
\[\begin{array}{|cccc|} \hline \text { Persona } & \text { Edad } & \text { Estatura } & \text { Peso } \\ \hline \hline \text { A } & 30 & 1.69 & 66 \\ \text { B } & 32 & 1.70 & 69 \\ \text { C } & 35 & 1.65 & 72 \\ \text { D } & 33 & 1.68 & 67 \\ \hline \end{array}\]\[ \bar{X}=\left[\begin{array}{lll} 32.50 & 1.68 & 68 .50 \end{array}\right] \quad S=\left[\begin{array}{rrr} 4.3333 & -0.0367 & 4.6667 \\ -0.0367 & 0.0005 & -0.0400 \\ 4.6667 & -0.0400 & 7.0000 \end{array}\right] \]
\[ R=\left[\begin{array}{rrr} 1.000 & -0.815 & 0.847 \\ -0.815 & 1.000 & -0.700 \\ 0.847 & -0.700 & 1.000 \end{array}\right] \]
La matriz de distancias euclidianas es \[ \begin{array}{rrrrr} & \mathrm{A} & \mathrm{B} & \mathrm{C} & \mathrm{D} \\ \mathrm{A} & 0.00 & 3.61 & 7.81 & 3.16 \\ \mathrm{~B} & 3.61 & 0.00 & 4.24 & 2.24 \\ \mathrm{C} & 7.81 & 4.24 & 0.00 & 5.39 \\ \mathrm{D} & 3.16 & 2.24 & 5.39 & 0.00 \end{array} \] donde la distancia entre A y B, por ejemplo, resulta del siguiente cálculo \[ d_{\mathrm{AB}}=\sqrt{(30-32)^{2}+(1.69-1.70)^{2}+(66-69)^{2}}=3.61 \]
A= matrix(c(30, 1.69, 66,32 , 1.70 , 69,35 , 1.65 , 72 , 33 , 1.68 , 67 ), nrow=4, byrow = T)
colnames(A)<-c("Edad","Estatura", "Peso")
row.names(A)<-c("A", "B", "C", "D")
A## Edad Estatura Peso
## A 30 1.69 66
## B 32 1.70 69
## C 35 1.65 72
## D 33 1.68 67
colMeans(A)## Edad Estatura Peso
## 32.50 1.68 68.50
cov(A)## Edad Estatura Peso
## Edad 4.33333333 -0.0366666667 4.666667
## Estatura -0.03666667 0.0004666667 -0.040000
## Peso 4.66666667 -0.0400000000 7.000000
cor(A)## Edad Estatura Peso
## Edad 1.0000000 -0.8153742 0.8473185
## Estatura -0.8153742 1.0000000 -0.6998542
## Peso 0.8473185 -0.6998542 1.0000000
La siguiente matriz resume las distancias de Mahalanobis entre las personas
\[ \begin{array}{ccccc} & A & B & C & D \\ A & 0.00 & 12.31 & 3.72 & 10.73 \\ B & 12.31 & 0.00 & 9.28 & 1.60 \\ C & 3.72 & 9.28 & 0.00 & 7.80 \\ D & 10.73 & 1.60 & 7.80 & 0.00 \end{array} \]
sigma1=solve(cor(A))
x=c(-2,-0.1,-3)
y=t(x)%*%sigma1%*% x
sqrt(y)## [,1]
## [1,] 4.406895
Distancia de correlacion de Pearson
\[d_{cor} = 1- \frac{\sum_{i=1}^n(x_{i} - \bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^n(x_{i}-\bar{x})^2\sum_{i=1}^n(y_{i}-\bar{y})^2}}\]
Distancia de correlación de spearman Calcula la correlación entre los rangos de x e y
\[d_{cor} = 1- \frac{\sum_{i=1}^n(x_{i}^{'} - \bar{x}^{'})(y_{i}^{'}-\bar{y}^{'})}{\sqrt{\sum_{i=1}^n(x_{i}^{'}-\bar{x}^{'})^2\sum_{i=1}^n(y_{i}^{'}-\bar{y}^{'})^2}}\]
Coeficientes de correlación
Frecuentemente se les llama medidas angulares, por su interpretación geométrica. \[ r_{j k}=\frac{\sum_{i}\left(X_{i j}-\bar{X}_{j}\right)\left(X_{i k}-\bar{X}_{k}\right)}{\sqrt{\sum_{i}\left(X_{i j}-\bar{X}_{j}\right)^{2}} \sqrt{\sum_{i}\left(X_{i k}-\bar{X}_{k}\right)^{2}}}, \quad \text { con } i=1, \ldots, p \] - \(X_{i j}\) es el valor de la variable \(i\) para el caso \(j\) (objeto), y \(\bar{X}_{j}\) es la media de todas las variables que definen el caso \(j\). Esta medida se emplea para variables en escala al menos de intervalo; para el caso de variables binarias, éstas se transforman al conocido coeficiente \(\varphi\).
El coeficiente toma valores entre \(1 \mathrm{y}\) \(-1\), un valor de cero significa no similaridad entre los casos.
Frecuentemente se le considera como una medida de forma, la cual es insensible a las diferencias en magnitud de las variables que intervienen en su cálculo.
Coeficientes de asociación
Son apropiados cuando los datos están en escala nominal. Cada variable toma los valores de 0 (de ausencia) y 1 (de presencia) de un atributo; una tabla de doble entrada resume toda la informaciónn (a manera de una matriz de diseño). Por ejemplo, la siguiente tabla contiene la informaci´on de dos OTU
(Operational Taxonomic Unit) \(A\) y \(B\) con relación a 10 caracteres del tipo presencia/ausencia.
| OTU | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| A | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 |
| B | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 |
Al comparar estos dos objetos se tienen cuatro posibilidades
- Que ambos tengan presente el carácter comparado \((1,1)\).
- Que ambos tengan ausente el carácter comparado \((0,0)\).
- Que el primero tenga el carácter presente y el segundo ausente \((1,0)\).
- Que el primero de ellos tenga el carácter ausente y el segundo presente \((0,1)\).
Para el ejemplo de las OTU, la tabla de comparación de un mismo carácter es
\[ \begin{array}{|c|c|c|} \text { Objeto A } & \text { Objeto B } \\ & 1 & 0 \\ \hline 1 & (3) & (2) \\ \hline 0 & (3) & (2) \\ \hline \end{array} \]
Coeficiente de asociación simple \((\mathcal{S})\) : Es la medida de similaridad más sencilla, entre los objetos \(i\) y \(j\), se calcula mediante la siguiente fórmula \[ \mathcal{S}_{(i, j)}=\frac{a+d}{a+b+c+d} \] sus valores están entre 0 y 1 . Este coeficiente toma en cuenta la ausencia de una variable para los dos objetos en consideración.
El coeficiente de Jaccard \((\mathcal{J})\), definido como \[ \mathcal{J}_{(i, j)}=\frac{a}{a+b+c}, \]
resuelve el problema de las ausencias conjuntas de una variable en el cálculo de la similaridad. Los biólogos anotan que con el empleo del coeficiente de asociación simple, algunos casos aparecerán como muy similares por el hecho de no poseer algún atributo en común
Rogers y Tanimoto \((\mathcal{R} \mathcal{T}):\) le da prelación a las diferencias, como en el caso de los dos anteriores coeficientes donde sus valores oscilan entre 0 y 1; es decir, valores de mínima y máxima similitud, respectivamente. Su cálculo se hace mediante la siguiente expresión: \[ \mathcal{R} \mathcal{T}_{(i, j)}=\frac{a+d}{a+(2 b)+(2 c)+d} \]
So Dice \((\mathcal{S D})\) : este coeficiente le confiere mayor importancia a las coincidencias en estado de presencia, se expresa como \[ \mathcal{S} \mathcal{D}_{(i, j)}=\frac{2 a}{2 a+b+c} \] Los valores de este coeficiente varían entre 0 y 1 ; y representan valores de mínima y máxima similitud, respectivamente.
Sokal y Sneath \((\mathcal{S S})\) : éste tiene más en cuenta las coincidencias, tanto por presencia como por ausencia de los atributos. Sus valores se obtienen calculando \[ \mathcal{S} \mathcal{S}_{(i, j)}=\frac{2(a+d)}{2(a+d)+b+c}, \] y toma valores entre 0 y 1 que equivalen a la mínima y máxima semejanza, respectivamente.
Coeficiente de Hamann \((\mathcal{H}):\) considera importante las diferencias entre coincidencias y no coincidencias. Los valores de similitud están en el rango de \(-1\) a 1 , mínima y máxima similitud, respectivamente. Se expresa así \[ \mathcal{H}_{(i, j)}=\frac{(a+d)-(b+c)}{a+b+c+d} \]
Los métodos de agrupamiento
Aunque no hay una definición universal de conglomerado, se toma la definición dada por Everitt (1980), quien dice que los conglomerados son “regiones continuas de un espacio que contienen una densidad relativamente alta de puntos,las cuales están separadas por regiones que contienen una densidad relativamente baja de puntos”.
Varios son los algoritmos propuestos para la conformación de conglomerados, se desarrollan, de una manera muy esquemática los métodos jerárquicos, los métodos de partición o división, nubes dinámicas, clasificación difusa y algunas herramientas gráficas. Cada uno de estos métodos representa una perspectiva diferente para la formación de los conglomerados, con resultados generalmente distintos cuando las diferentes metodologías se aplican sobre el mismo conjunto de datos.
Métodos jerárquicos
Estos métodos empiezan con el cálculo de la matriz de distancias entre los objetos. Se forman grupos de manera aglomerativa o por un proceso de división. Una de las características de esta técnica es la localización irremovible de cada uno de los objetos en cada etapa del mismo. Con los procedimientos aglomerativos cada uno de los objetos empieza formando un conglomerado (grupos unitarios). Grupos cercanos se mezclan sucesivamente hasta que todos
los objetos quedan dentro de un mismo conglomerado. Los métodos de división inician con todos los objetos dentro de un mismo conglomerado, éste es dividido luego en dos grupos, éstos en otros dos hasta que cada objeto llega a ser un conglomerado. Ambos procedimientos se resumen en un diagrama de árbol que ilustra la conformación de los distintos grupos, de acuerdo con el estado, de fusión o división, jerárquico implicado por la matriz de similaridades; este diagrama se conoce con el nombre de dendrograma.
conglomerado. La distancia entre el conglomerado \(\mathcal{A}\) y el conglomerado \(\mathcal{B}\) se define mediante \[ d_{\mathcal{A B}}=\min _{i \in \mathcal{A} \atop j \in \mathcal{B}}\left\{d_{i j}\right\} \] Así, la distancia entre dos conglomerados cualesquiera es la menor distancia observada desde un punto de un conglomerado a un punto del otro conglomerado. Para ilustrar este procedimiento de agrupación, supóngase que cinco objetos se encuentran a las siguientes distancias.
\[\begin{array}{|cccccc|} \hline & $\mathrm{O}_{1}$ & $\mathrm{O}_{2}$ & $\mathrm{O}_{3}$ & $\mathrm{O}_{4}$ & $\mathrm{O}_{5}$ \\ $\mathrm{O}_{1}$ & 0 & 3 & 7 & 11 & 10 \\ $\mathrm{O}_{2}$ & 3 & 0 & 6 & 10 & 9 \\ $\mathrm{O}_{3}$ & 7 & 6 & 0 & 5 & 6 \\ $\mathrm{O}_{4}$ & 11 & 10 & 5 & 0 & 4 \\ $\mathrm{O}_{5}$ & 10 & 9 & 6 & 4 & 0 \\ \hline \end{array}\]