Definición

En minería de datos, el agrupamiento jerárquico es un método de análisis de grupos puntuales, el cual busca construir una jerarquía de grupos.

Wikipedia

Valores numéricos

Supongamos que tenemos que agrupar los siguientes puntos

Para agruparlos lo primero que haremos es calcular la distancia entre ellos

##          A        B        C        D        E
## B 1.414214                                    
## C 3.201562 3.354102                           
## D 4.716991 4.609772 1.581139                  
## E 4.031129 3.041381 2.915476 3.000000         
## F 4.743416 4.301163 2.061553 1.118034 2.061553

En la tabla anterior podemos ver que la distancia entre \(A\) y \(B\) es de 1.41 y la distancia entre \(E\) y \(F\) es de 2.06

También podemos apreciar que la distancia mas pequeña está entre los pintos \(D\) y \(F\), de manera que los vamos a agrupar

Los siguientes puntos mas cercanos son \(A\) y \(B\) de manera que los juntamos en un nuevo grupo

Seguimos buscando las distancias mas pequeñas entre los puntos que aun no estan agrupados, en este caso \(C\) y \(D\), como \(D\) ya pertenece a un grupo, incluimos a C en él.

Luego anexamos el punto \(E\) al primer grupo

Hasta aquí tenemos ya segemetados los datos iniciales en 2 grupos utilizando las distancias que hay entre cada dato. Lo últimpo sería consolidar ambos grupos en uno final

Cada uno de los pasos que seguimos hasta aquí podemos representarlos en una gráfica llamaada Dendograma, podemos verlo a continuación:

La altura representa las distancias entre los punos o entre los puntos y los centros de los grupos

Una vez que tenemos el dendograma podemos dividir en \(k\) grupos nuestros datos trazando una línea horizontal a la altura que cruce \(k\) líneas verticales

Valores no numéricos

Como pudimos ver lo único que necesitamos para agrupar datos es una matriz que contenga las distancias entre los “puntos” u observaciones. En el caso de los datos numéricos generalmente usamos la distancia euclediana y es muy intuitivo.

Cuando nuestro set de datos no sean numéricos, hay otra forma de medir las distancias entre observaciones, dependiendo de que tan distintos son los registros.

Si 2 registros tiene exactamante la misma información, la distancia entre ellos es cero y aumenta conforme mas valores distintos tengan