Tabla Comparativa
|
Análisis de Cluster |
Técnicas Disponible |
Ventajas |
Desventajas |
|
Jerárquico: Forma los grupos en pasos sucesivos, de forma que los clusters de niveles más bajos van siendo englobados en otros niveles superiores. Tienen la característica que cuando una unidad es asignada a un cluster es irrevocable. |
Métodos aglomerativos
Método de enlace sencillo
Método de enlace completo
Método de enlace promedio
Métodos divisivos |
El número de grupos a elegir es variable, depende del análisis a realizar. - Interpretabilidad: El dendrograma resultante permite visualizar la estructura de los datos y cómo se agrupan. - No requiere número de clústeres predefinido - Es flexible ya que se puede utilizar con diferentes medidas de distancia y métodos de enlace |
-Computacionalmente intensivo: Puede ser ineficiente para grandes conjuntos de datos, ya que la complejidad computacional aumenta rápidamente. - Sensibilidad a ruidos y outliers: Los datos atípicos pueden influir en la formación de clústeres. - Dificultad para interpretar el número de clústeres: La elección de un corte en el dendrograma para determinar el número final de clústeres puede ser subjetiva.
|
|
No Jerárquico: se aplica en casos de tamaño de muestra grande, realizando una sola partición de los casos iniciales en un número de grupos fijado de antemano sin que dependa uno de otros. |
Agrupación por Partición
Self-Organizing Maps (SOM)
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Quick cluster
Clara medoides
Block clustering
|
Permite al investigador establecer un número fijo de grupos antes de iniciar el análisis. El algoritmo k-medias es sencillo de implementar y es eficiente en términos de tiempo computacional. Permite identificar patrones en los datos. Reduce la complejidad de grandes volúmenes de datos. Mejora la toma de decisiones al segmentar información relevante. |
Definir el número de conglomerados puede ser complicado, ya que pueden resultar agrupaciones poco representativas.
Tiene restricciones con las variables categóricas o mixtas.
La selección de los centros de grupo es arbitraria.
Menos flexible, depende del valor de K.
Generalmente es aplicado sólo a variables cuantitativas. |
Fuente: Desarrollo de análisis Cluster en R & Conglomerados