A estatística de Hopkins é usada para avaliar a tendência de agrupamento de um conjunto de dados medindo a probabilidade de que um dado conjunto de dados seja gerado por uma distribuição uniforme de dados. Em outras palavras, ela testa a aleatoriedade espacial dos dados.
Valores calculados de 0 a 0,3 indicam dados regularmente espaçados. Valores em torno de 0,5 indicam dados aleatórios. Valores de 0,7 a 1 indicam dados que podem ser agrupados. Hopkins and Skellam (1954)
O VAT detecta a tendência de agrupamento de forma visual contando o número de blocos escuros quadrados ao longo da diagonal em uma imagem do VAT. Bezdek and Hathaway (2002)
Este método envolve plotar a soma dos quadrados dentro do cluster (WSS) como uma função do número de clusters. O WSS é uma medida de quão bem os pontos de dados estão agrupados. O método do cotovelo funciona procurando o ponto na curva WSS onde a taxa de diminuição começa a desacelerar. Este ponto é frequentemente considerado o número ótimo de clusters.
Code
# factoextra::fviz_nbclust(# df |># select(# scaled_escore_mif,# scaled_escala_visual_analogica,# scaled_escore_final_eq5d,# scaled_regua_eq5d,# scaled_injury_severity_score# ),# kmeans,# method = "wss"# ) +# geom_vline(xintercept = 2, linetype = 2) +# theme_classic() +# labs(# title = "Elbow Method",# x = "Number of Clusters (k)",# y = "Total Within Sum of Square"# ) +# theme(# plot.title = element_text(size = 16, face = "bold"),# axis.title = element_text(size = 14),# axis.text = element_text(size = 12)# )elbow <- parameters::n_clusters_elbow( df |>select( scaled_escore_mif, scaled_escala_visual_analogica, scaled_escore_final_eq5d, scaled_regua_eq5d, scaled_injury_severity_score ))print(elbow)
The Elbow method, that aims at minimizing the total intra-cluster variation (i.e., the total within-cluster sum of square), suggests that the optimal number of clusters is 2.
Code
plot(elbow) +theme_classic()
5.1.2 Silhouette Method
A pontuação da silhueta é uma medida de quão bem cada ponto de dados está agrupado com seu próprio cluster em comparação a outros clusters. Ela varia de -1 a 1, com um valor de 1 indicando que o ponto de dados está perfeitamente agrupado com seu próprio cluster, 0 indicando que o ponto de dados está na borda entre os dois clusters e um valor de -1 indicando que o ponto de dados está igualmente bem agrupado com dois ou mais clusters. O número ideal de clusters é frequentemente o número que maximiza a pontuação média da silhueta. Rousseeuw (1987)
Code
# factoextra::fviz_nbclust(# df |># select(# scaled_escore_mif,# scaled_escala_visual_analogica,# scaled_escore_final_eq5d,# scaled_regua_eq5d,# scaled_injury_severity_score# ),# kmeans,# method = "silhouette"# ) +# theme_classic() +# labs(# title = "Silhouette Method",# x = "Number of Clusters (k)",# y = "Silhouette Width"# )# k <- 2# kmeans_clustering <- kmeans(# df |># select(# scaled_escore_mif,# scaled_escala_visual_analogica,# scaled_escore_final_eq5d,# scaled_regua_eq5d,# scaled_injury_severity_score# ),# centers = k,# nstart = 20# )# sil <- cluster::silhouette(# kmeans_clustering$cluster,# dist(# df |># select(# scaled_escore_mif,# scaled_escala_visual_analogica,# scaled_escore_final_eq5d,# scaled_regua_eq5d,# scaled_injury_severity_score# )# )# )# factoextra::fviz_silhouette(sil) +# theme_classic()# > Um coeficiente de silhueta positivo indica que uma observação está bem adaptada ao seu próprio cluster.silhouette <- parameters::n_clusters_silhouette( df |>select( scaled_escore_mif, scaled_escala_visual_analogica, scaled_escore_final_eq5d, scaled_regua_eq5d, scaled_injury_severity_score ))print(silhouette)
The Silhouette method, based on the average quality of clustering, suggests that the optimal number of clusters is 2.
Code
plot(silhouette) +theme_classic()
5.1.3 Gap statistic method
A estatística de gap ajuda a determinar o número ótimo de clusters comparando a dispersão observada dentro do cluster com uma distribuição de referência. A ideia é selecionar o número de clusters que maximiza a estatística de gap. Um gap maior indica um desvio mais significativo da aleatoriedade, sugerindo uma estrutura de clustering mais bem definida. Ao comparar os gaps para diferentes números de clusters, podemos identificar o número de clusters que fornece o padrão de clustering mais distinto e significativo. Tibshirani and Walther (2005)
The Gap method, that compares the total intracluster variation of k clusters with their expected values under null reference distribution of the data, suggests that the optimal number of clusters is 2.
Code
plot(gap) +theme_classic()
5.1.4 Volting methods
A maneira mais inteligente é experimentar métodos diferentes e ver qual a maioria retorna. Charrad et al. (2014)
# Accuracy of Cluster Group Classification via Linear Discriminant Analysis (LDA)
Group Accuracy
1 100.00%
2 94.63%
Overall accuracy of classification: 97.86%
# Accuracy of Cluster Group Classification via Linear Discriminant Analysis (LDA)
Group Accuracy
1 100.00%
2 94.63%
Overall accuracy of classification: 97.86%
# Accuracy of Cluster Group Classification via Linear Discriminant Analysis (LDA)
Group Accuracy
1 99.72%
2 91.24%
Overall accuracy of classification: 96.22%
# Accuracy of Cluster Group Classification via Linear Discriminant Analysis (LDA)
Group Accuracy
1 97.10%
2 75.20%
Overall accuracy of classification: 92.60%
A partir dos dados, K-means e K-means hierárquicos têm desempenho semelhante (R² = 0,302, precisão = 97,86%), enquanto K-medoids é ligeiramente inferior (R² = 0,299, precisão = 96,22%). O agrupamento hierárquico tem o pior desempenho (R² = 0,127, precisão = 92,60%).
4Pearson’s Chi-squared test with simulated p-value
(based on 10000 replicates)
References
Bezdek, James C, and Richard J Hathaway. 2002. “VAT: A Tool for Visual Assessment of (Cluster) Tendency.” In Proceedings of the 2002 International Joint Conference on Neural Networks. IJCNN’02 (Cat. No. 02CH37290), 3:2225–30. IEEE.
Charrad, Malika, Nadia Ghazzali, Véronique Boiteau, and Azam Niknafs. 2014. “NbClust: An r Package for Determining the Relevant Number of Clusters in a Data Set.”Journal of Statistical Software 61: 1–36.
Hopkins, Brian, and John Gordon Skellam. 1954. “A New Method for Determining the Type of Distribution of Plant Individuals.”Annals of Botany 18 (2): 213–27.
Rousseeuw, Peter J. 1987. “Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis.”Journal of Computational and Applied Mathematics 20: 53–65.
Tibshirani, Robert, and Guenther Walther. 2005. “Cluster Validation by Prediction Strength.”Journal of Computational and Graphical Statistics 14 (3): 511–28.