Tabla Comparativa

Análisis de Cluster

Técnicas Disponible

Ventajas

Desventajas

Jerárquico:

Forma los  grupos en pasos sucesivos, de forma que los clusters de niveles más bajos van siendo englobados en otros niveles superiores. Tienen la característica que cuando una unidad es asignada a un cluster es irrevocable.

Métodos aglomerativos

Método de enlace sencillo

Método de enlace completo

Método de enlace promedio

Métodos divisivos

El número de grupos a elegir es variable, depende del análisis a realizar.

- Interpretabilidad: El dendrograma resultante permite visualizar la estructura de los datos y cómo se agrupan.

- No requiere número de clústeres predefinido

- Es flexible ya que se puede utilizar con diferentes medidas de distancia y métodos de enlace

-Computacionalmente intensivo: Puede ser ineficiente para grandes conjuntos de datos, ya que la complejidad computacional aumenta rápidamente.

- Sensibilidad a ruidos y outliers: Los datos atípicos pueden influir en la formación de clústeres.

- Dificultad para interpretar el número de clústeres: La elección de un corte en el dendrograma para determinar el número final de clústeres puede ser subjetiva.

No Jerárquico: se aplica en casos de tamaño de muestra grande, realizando una sola partición de los casos iniciales en un número de grupos fijado de antemano sin que dependa uno de otros.

Agrupación por Partición

  • K-Medias (K-Means Clustering)

  • K-medoides

Self-Organizing Maps (SOM)

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Quick cluster

Clara medoides

Block clustering

Permite al investigador establecer un número fijo de grupos antes de iniciar el análisis.

El algoritmo k-medias es sencillo de implementar y es eficiente en términos de tiempo computacional.

Permite identificar patrones en los datos.

Reduce la complejidad de grandes volúmenes de datos.

Mejora la toma de decisiones al segmentar información relevante.

Definir el número de conglomerados puede ser complicado, ya que pueden resultar agrupaciones poco representativas.

Tiene restricciones con las variables categóricas o mixtas.

La selección de los centros  de grupo es arbitraria.

Menos flexible, depende del valor de K.

Generalmente es aplicado sólo a variables cuantitativas.

Fuente: Desarrollo de análisis Cluster en R & Conglomerados