En minería de datos, el agrupamiento jerárquico es un método de análisis de grupos puntuales, el cual busca construir una jerarquía de grupos.
Supongamos que tenemos que agrupar los siguientes puntos
Para agruparlos lo primero que haremos es calcular la distancia entre ellos
## A B C D E
## B 1.414214
## C 3.201562 3.354102
## D 4.716991 4.609772 1.581139
## E 4.031129 3.041381 2.915476 3.000000
## F 4.743416 4.301163 2.061553 1.118034 2.061553
En la tabla anterior podemos ver que la distancia entre \(A\) y \(B\) es de 1.41 y la distancia entre \(E\) y \(F\) es de 2.06
También podemos apreciar que la distancia mas pequeña está entre los pintos \(D\) y \(F\), de manera que los vamos a agrupar
Los siguientes puntos mas cercanos son \(A\) y \(B\) de manera que los juntamos en un nuevo grupo
Seguimos buscando las distancias mas pequeñas entre los puntos que aun no estan agrupados, en este caso \(C\) y \(D\), como \(D\) ya pertenece a un grupo, incluimos a C en él.
Luego anexamos el punto \(E\) al primer grupo
Hasta aquí tenemos ya segemetados los datos iniciales en 2 grupos utilizando las distancias que hay entre cada dato. Lo últimpo sería consolidar ambos grupos en uno final
Cada uno de los pasos que seguimos hasta aquí podemos representarlos en una gráfica llamaada Dendograma, podemos verlo a continuación:
La altura representa las distancias entre los punos o entre los puntos y los centros de los grupos
Una vez que tenemos el dendograma podemos dividir en \(k\) grupos nuestros datos trazando una línea horizontal a la altura que cruce \(k\) líneas verticales
Como pudimos ver lo único que necesitamos para agrupar datos es una matriz que contenga las distancias entre los “puntos” u observaciones. En el caso de los datos numéricos generalmente usamos la distancia euclediana y es muy intuitivo.
Cuando nuestro set de datos no sean numéricos, hay otra forma de medir las distancias entre observaciones, dependiendo de que tan distintos son los registros.
Si 2 registros tiene exactamante la misma información, la distancia entre ellos es cero y aumenta conforme mas valores distintos tengan