Continuación de métodos de particionamiento

Como vimos en la sección anterior, los algoritmos de particionamiento son enfoques de agrupamiento que dividen los conjuntos de datos, que contienen $n$ observaciones, en un conjunto de $k$ grupos (es decir, conglomerados). Los algoritmos requieren que el analista especifique el número de clústeres que se generarán.

K-means clustering (Macqueen, 1967), en el que, cada grupo está representado por el centro o los medios de los puntos de datos pertenecientes al grupo.
K-medoids clustering que tambien es conocido por sus siglas en inglés pam (partición alrededor de los medoides) , (Kaufman y Rousseeuw, 1990), en el que, cada grupo está representado por uno de los objetos en el grupo. Es una alternativa no paramétrica de la agrupación de k-means. Vamos a hablar también una variante de pam llamado clara (agrupación de grandes aplicaciones), que se utiliza para analizar grandes conjuntos de datos.

Trabajo en R

Para ejemplificar los diferentes métodos, seguiremos trabajando con el conjunto de datos que analizamos la sección anterior.

Preparación de datos

data("USArrests")
my_data <- USArrests
# Escalamos las variables
my_data <- scale(my_data)
# Observamos las primeras lineas
head(my_data)

##                Murder   Assault   UrbanPop         Rape
## Alabama    1.24256408 0.7828393 -0.5209066 -0.003416473
## Alaska     0.50786248 1.1068225 -1.2117642  2.484202941
## Arizona    0.07163341 1.4788032  0.9989801  1.042878388
## Arkansas   0.23234938 0.2308680 -1.0735927 -0.184916602
## California 0.27826823 1.2628144  1.7589234  2.067820292
## Colorado   0.02571456 0.3988593  0.8608085  1.864967207

Ahora cargamos las librerias necesarias para esta primera parte

library(cluster)
library(factoextra)

## Loading required package: ggplot2

## Warning in as.POSIXlt.POSIXct(Sys.time()): unable to identify current timezone 'H':
## please set environment variable 'TZ'

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

Determinación óptima del número de cluster

fviz_nbclust(my_data, kmeans, method = "gap_stat", k.max = 10, 
             diss = get_dist(my_data, method = "euclidean"), nstart = 50)+
  labs(title= "Número optimo de cluster") + 
  xlab("k ") +
  ylab("Estadísticas Gap")

Notemos que a diferencia del método de silueta visto en la sección anterior, donde nos daba como resultado del número $k$ óptimo igual a 2, el método de estadísticas gap, nos arroja ahora que el número optimo $k$ es 3 y si recuerdan logramos decidir de forma manual que un número adecuado de grupos debería ser 4. Es por ello que es muy importante resaltar la importancia de entender que este número óptimo por cualquier método, debemos entenderlo como una buena opción, pero no es unica, dependiendo del método usado. Entonces, el lograr decidir el número adecuado de $k$ conlleva un trabajo retante para el grupo de analistas.

Queda para el lector, revisar como funciona el método de Estadísticas gap.

Aplicando $k$-medias

Aplicaremos el algortimo para los valores de $k=3$ y $k=4$.

kmedias <- kmeans(my_data,3, nstart = 50)
fviz_cluster(kmedias, data = my_data)

kmedias <- kmeans(my_data,4, nstart = 50)
fviz_cluster(kmedias, data = my_data)

Aplicando $k$-medoides

La agrupación realizada por este método es una partición alrededor de los medoides, la cual es una alternativa robusta a la agrupación de $k$-medias, que esmenos sensible a los valores atípicos.

library("cluster")
kmedoides <- pam(my_data, 3)
fviz_cluster(kmedoides, data = my_data)

kmedoides <- pam(my_data, 4)
fviz_cluster(kmedoides, data = my_data)

Aplicando Clara

Clara es un método de partición utilizado para tratar conjuntos de datos mucho más grandes (más de varios miles de observaciones) con el fin de reducir el tiempo de computación y el problema de almacenamiento.

Debemos tener en cuenta que, lo que puede considerarse pequeño / grande, es realmente una función de la potencia de cálculo disponible, tanto de memoria (RAM) como de velocidad.

clarax <- clara(my_data, 3)
fviz_cluster(clarax, data = my_data)

clarax <- clara(my_data, 4)
fviz_cluster(clarax, data = my_data)

Aplicando Cluster jerarquico

Recordemos de la sección de Análisis de conglomerados que un Cluster jerárquico es un enfoque alternativo a la agrupación de 4k$-medias para identificar grupos en el conjunto de datos. Este no requiere especificar previamente el número de clústeres que se generarán.

El resultado de la agrupación jerárquica es una representación que llamamos dendrograma. Las observaciones pueden subdividirse en grupos cortando el dendograma a un nivel de similitud deseado. Veamos,

d      <- dist(my_data, method = "euclidean")
res.hc <- hclust(d, method = "complete" )
grup   <- cutree(res.hc, k = 3)
plot(res.hc, cex = 0.6) 
rect.hclust(res.hc, k = 3, border = 2:4)

grup   <- cutree(res.hc, k = 4)
plot(res.hc, cex = 0.6) 
rect.hclust(res.hc, k = 4, border = 2:5)

Quizás, una opción un poco más elegante.

res <- hcut(my_data, k = 3)
fviz_dend(res, rect = TRUE, cex = 0.5,
          k_colors = c("red","blue", "green"))

res <- hcut(my_data, k = 4)
fviz_dend(res, rect = TRUE, cex = 0.5,
          k_colors = c("red","blue", "green","purple"))

Observamos que aparte de la discusión de poder elegir un $K$ óptimo, ahora el elegir el método de agrupación es también un tema de discusión, porque si observan bien, aunque se elija el mismo valor de $K$ no necesariamente los grupos están constituidos por los mismos elementos cuando aplicas diferente método. A continuación, presentamos algunas alternativas de validación.

Validación

Existe en R, métodos de validación, los cuales tratan de evaluar los diferentes métodos existentes para cada tarea y tomar como óptimo el valor dado por la mayoria de los métodos. Esta validación incluye tres tareas principales:

Evalúar si la aplicación de agrupación es adecuada a sus datos.
Evalúar la bondad o calidad del parámetro ótimo de la agrupación.
Evalúar el algortimo de agrupación apropiado para sus datos.

Evalúación de agrupación

La evaluación de la tendencia de agrupamiento consiste en examinar si los datos son agrupables, es decir, si los datos contienen cualquier estructura de agrupación inherente. Esto debe comprobarse antes de aplicar el análisis de agrupación.

Hopkins estadística: Entre más cercano a 1 este el valor del estadístico Hopkins, podemos concluir que el conjunto de datos es significativamente divisible o particionable. En la práctica si el valor esta por encimar de 0.5 es aceptable concluir la viabilidad de la agrupación
VAT (evaluación visual de la tendencia de agrupamiento): la gráfica detecta la tendencia de agrupamiento en una forma visual contando el número de bloques oscuros (o coloreados) de forma cuadrada a lo largo de la diagonal en una imagen cuadrada.

Tomando como ejemplo el conjunto de datos con el que estamos trabajando, encontramos que:

get_clust_tendency(my_data,n=40, gradient = list(low = "steelblue", 
                                                 high = "white"))

## $hopkins_stat
## [1] 0.6559125
## 
## $plot

Donde por el valor del estadístico se puede conluir que es viable pensar en un agrupamiento de nuestros datos. Además, visualmente en la diagonal se espara observar bloques un poco más oscuros.

Por otra parte, si tomamos los datos de iris vemos como el coeficiente es bastante alto y la gráfica nos muestra bastante bien bloques oscuros.

get_clust_tendency(iris[,-5],n=40, gradient = list(low = "steelblue", 
                                                 high = "white"))

## $hopkins_stat
## [1] 0.8219662
## 
## $plot

Evalúarción del parámetro ótimo de la agrupación

El paquete Nbclust proporciona 30 índices diferentes para determinar el mejor número de clusters.

library("NbClust")
set.seed(1981)
res.nbclust <- NbClust(my_data, distance = "euclidean",
                  min.nc = 2, max.nc = 10, 
                  method = "complete", index ="all")

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
##

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 9 proposed 2 as the best number of clusters 
## * 4 proposed 3 as the best number of clusters 
## * 6 proposed 4 as the best number of clusters 
## * 2 proposed 5 as the best number of clusters 
## * 1 proposed 8 as the best number of clusters 
## * 1 proposed 10 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  2 
##  
##  
## *******************************************************************

factoextra::fviz_nbclust(res.nbclust)

## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 1 proposed  1 as the best number of clusters
## * 9 proposed  2 as the best number of clusters
## * 4 proposed  3 as the best number of clusters
## * 6 proposed  4 as the best number of clusters
## * 2 proposed  5 as the best number of clusters
## * 1 proposed  8 as the best number of clusters
## * 1 proposed  10 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  2 .

Por lo tanto, según este método de validación se encuentra que el óptimo del número de cluster es $k=2$.

Evaluación del algortimo de agrupación

El paquete clValid proporciona la evaluación de todos los métodos vistos.

Evaluaremos sólo los métodos vistos, pero podrían revisar que aún se pueden evaluar muchos otros métodos.

library("clValid")

## Warning: package 'clValid' was built under R version 3.6.3

validclus  <- clValid(my_data, nClust = 2:6, 
                clMethods = c("hierarchical","kmeans","pam","clara"),
                validation = "internal")
summary(validclus)

## 
## Clustering Methods:
##  hierarchical kmeans pam clara 
## 
## Cluster sizes:
##  2 3 4 5 6 
## 
## Validation Measures:
##                                  2       3       4       5       6
##                                                                   
## hierarchical Connectivity   6.6437  9.5615 13.9563 22.5782 31.2873
##              Dunn           0.2214  0.2214  0.2224  0.2046  0.2126
##              Silhouette     0.4085  0.3486  0.3637  0.3213  0.2720
## kmeans       Connectivity   6.6437 13.6484 16.2413 24.6639 33.7194
##              Dunn           0.2214  0.2224  0.2224  0.1983  0.2231
##              Silhouette     0.4085  0.3668  0.3573  0.3377  0.3079
## pam          Connectivity   6.6437 13.8302 20.4421 29.5726 38.2643
##              Dunn           0.2214  0.1376  0.1849  0.1849  0.2019
##              Silhouette     0.4085  0.3144  0.3390  0.3105  0.2630
## clara        Connectivity   6.6437 13.8302 20.4421 29.5726 38.2643
##              Dunn           0.2214  0.1376  0.1849  0.1849  0.2019
##              Silhouette     0.4085  0.3144  0.3390  0.3105  0.2630
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 6.6437 hierarchical 2       
## Dunn         0.2231 kmeans       6       
## Silhouette   0.4085 hierarchical 2

plot(validclus)

Para entender los resultados, debemos buscar el método que minimiza la conectividad, y maximice tanto el índice dunn como el ancho de la silueta.

Por lo tanto, parece que la Agrupación jerárquica supera a los otros algoritmos de agrupación en cada medida de validación, para casi todos los números de clusters evaluados. Además, se puede corroborar la conclusión de que $k=2$ es el mejor valor para el número de grupos.

Por lo tanto, si deseamos quedarnos con una clasificación óptima sería la siguiente.

res <- hcut(my_data, k = 2)
fviz_dend(res, rect = TRUE, cex = 0.5,
          k_colors = c("red","blue"))

fviz_cluster(res, data = my_data)

Minería de datos