library(readxl)
library(dplyr)
library(cluster)
library(mclust)
library(factoextra)
library(ggplot2)
library(reshape2)
Pendahuluan
Clustering merupakan salah satu metode unsupervised learning yang
digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik.
Pada analisis ini digunakan metode K-Means Clustering pada dataset User
Knowledge Modeling dari UCI Machine Learning Repository.
Tujuan analisis ini adalah untuk mengevaluasi kualitas cluster
menggunakan beberapa metode cluster validation, yaitu internal
validation, external validation, dan relative validation.
Dataset User Knowledge Modeling
Dataset yang digunakan ini dari UCI Machine Learning Repository.
Dataset digunakan untuk menganalisis tingkat pengetahuan pengguna
berdasarkan aktivitas belajar.
Variabel dalam dataset ini dapat dijelaskan sebagai berikut:
1. STG (Study Time Goal) = Waktu belajar
2. SCG (Study Count Goal) = Jumlah pengulangan materi
3. STR (Study Time Real) = Waktu belajar aktual
4. LPR (Learning Process Rate) = Tingkat pemahaman selama
proses belajar
5. PEG (Performance Evaluation Grade) = Hasil evaluasi
belajar
6. UNS (User Knowledge Level) = Tingkat pengetahuan pengguna
(Target)
ukm <- read_excel("User Knowledge Modeling.xlsx")
head(ukm)
str(ukm)
## tibble [258 × 6] (S3: tbl_df/tbl/data.frame)
## $ STG: num [1:258] 0 0.08 0.06 0.1 0.08 0.09 0.1 0.15 0.2 0 ...
## $ SCG: num [1:258] 0 0.08 0.06 0.1 0.08 0.15 0.1 0.02 0.14 0 ...
## $ STR: num [1:258] 0 0.1 0.05 0.15 0.08 0.4 0.43 0.34 0.35 0.5 ...
## $ LPR: num [1:258] 0 0.24 0.25 0.65 0.98 0.1 0.29 0.4 0.72 0.2 ...
## $ PEG: num [1:258] 0 0.9 0.33 0.3 0.24 0.66 0.56 0.01 0.25 0.85 ...
## $ UNS: chr [1:258] "very_low" "High" "Low" "Middle" ...
Preprocessing Data
Pada tahap preprocessing dilakukan normalisasi pada seluruh variabel
numerik yaitu STG, SCG, STR, LPR, dan PEG menggunakan fungsi scale().
Normalisasi diperlukan karena metode K-Means sensitif terhadap perbedaan
skala data. Dengan normalisasi, seluruh variabel memiliki kontribusi
yang seimbang dalam proses pembentukan cluster.
# Normalisasi
numeric_var <- ukm %>%
select("STG", "SCG", "STR", "LPR", "PEG")
numeric_scale <- scale(numeric_var)
Selain itu, variabel UNS diubah menjadi tipe faktor agar dapat
digunakan dalam proses validasi eksternal menggunakan Adjusted Rand
Index (ARI).
# Type Casting
ukm$UNS <- factor(ukm$UNS, levels = c("very_low", "Low", "Middle", "High"))
Hasil pengecekan missing value menunjukkan bahwa dataset tidak
memiliki data yang hilang, sehingga data dapat langsung digunakan untuk
proses clustering.
# Cek Missing Value
sum(is.na(ukm))
## [1] 0
Clustering K - Means
Metode K-Means dilakukan dengan jumlah cluster sebanyak:
\[k = 4\]
set.seed(123)
k <- 4
kmeans_result <- kmeans(numeric_scale, centers = k)
ukm$Cluster <- kmeans_result$cluster
table(ukm$Cluster)
##
## 1 2 3 4
## 60 67 75 56
Hasil clustering menunjukkan bahwa data berhasil dibagi menjadi empat
kelompok dengan jumlah anggota sebagai berikut:
- Cluster 1 = 60 data
- Cluster 2 = 67 data
- Cluster 3 = 75 data
- Cluster 4 = 56 data
Distribusi jumlah anggota cluster terlihat cukup seimbang sehingga
tidak terdapat cluster yang terlalu kecil maupun terlalu dominan.
Cluster Validation
Internal Validation
sil <- silhouette(ukm$Cluster, dist(numeric_scale))
sil_score <- mean(sil[,3])
cat("Avarage Silhouette Score : ", sil_score)
## Avarage Silhouette Score : 0.1813992
Hasil internal validation menggunakan silhouette score menghasilkan
nilai sebesar: \(0.1813992\).
Nilai silhouette score berada pada rentang −1 hingga 1. Semakin
mendekati nilai 1, maka kualitas cluster semakin baik karena anggota
dalam cluster memiliki kemiripan tinggi dan berbeda jauh dengan cluster
lain.
Nilai silhouette sebesar 0.181 menunjukkan bahwa kualitas pemisahan
cluster masih tergolong rendah. Hal ini mengindikasikan bahwa beberapa
data masih memiliki kemiripan dengan cluster lain sehingga batas antar
cluster belum terbentuk secara jelas.
Eksternal Validation
ari_score <- adjustedRandIndex(ukm$Cluster, ukm$UNS)
cat("Adjusted Rand Index :", ari_score)
## Adjusted Rand Index : 0.125298
Hasil external validation menggunakan Adjusted Rand Index
menghasilkan nilai sebesar: \(0.125298\).
Nilai ARI digunakan untuk mengukur kesesuaian hasil clustering dengan
label asli UNS. Nilai yang mendekati 1 menunjukkan kesesuaian yang
sangat baik.
Nilai ARI sebesar 0.125 menunjukkan bahwa hasil cluster belum
memiliki kesesuaian yang tinggi terhadap kategori pengetahuan asli
pengguna. Hal ini menunjukkan bahwa metode K-Means masih belum mampu
memisahkan tingkat pengetahuan pengguna secara optimal berdasarkan label
asli dataset.
Relative Validation
set.seed(123)
k_range <- 1:10
wss <- numeric(length(k_range))
for (i in k_range) {
km <- kmeans(numeric_scale, centers = i, nstart = 25)
wss[i] <- km$tot.withinss
}
wss_result <- data.frame(
k = k_range,
WSS = wss
)
wss_result
# Visualisasi Elbow
fviz_nbclust(numeric_scale, kmeans, method = "wss") +
labs(title = "Optimal Number of Clusters - Elbow Method") +
theme_minimal()

Relative validation dilakukan menggunakan metode elbow berdasarkan
nilai Within Sum of Squares (WSS). Hasil menunjukkan bahwa nilai WSS
terus menurun seiring bertambahnya jumlah cluster.
Namun, penurunan mulai melambat setelah: \(k = 4\).
Hal ini menunjukkan bahwa penggunaan lebih dari empat cluster tidak
memberikan penurunan variasi within-cluster yang terlalu signifikan.
Oleh karena itu, jumlah cluster sebanyak empat dianggap cukup optimal
berdasarkan metode elbow.
Perbandingan Hasil
# Perbandingan nilai k
k_values <- 2:10
silhouette_values <- numeric(length(k_values))
ari_values <- numeric(length(k_values))
wss_values <- numeric(length(k_values))
set.seed(123)
for (i in seq_along(k_values)) {
km <- kmeans(
numeric_scale,
centers = k_values[i],
nstart = 25
)
# Internal Validation
sil_temp <- silhouette(km$cluster, dist(numeric_scale))
silhouette_values[i] <- mean(sil_temp[, 3])
# External Validation
ari_values[i] <- adjustedRandIndex(km$cluster, ukm$UNS)
# Relative Validation
wss_values[i] <- km$tot.withinss
}
validation_result <- data.frame(
k = k_values,
Silhouette = round(silhouette_values, 3),
ARI = round(ari_values, 3),
WSS = round(wss_values, 2)
)
validation_result
Berdasarkan hasil perbandingan beberapa nilai cluster, diperoleh
bahwa nilai silhouette score tertinggi berada pada: \(k=8\), dengan nilai silhouette sebesar:
\(0.202\).
Sementara itu, nilai Adjusted Rand Index tertinggi berada pada: \(k=2\), dengan nilai: \(0.276\).
Hal ini menunjukkan bahwa jumlah cluster terbaik dapat berbeda
tergantung metode validasi yang digunakan. Internal validation lebih
mendukung penggunaan cluster yang lebih banyak, sedangkan external
validation menunjukkan bahwa penggunaan dua cluster lebih sesuai
terhadap label asli UNS.
Di sisi lain, nilai WSS terus mengalami penurunan ketika jumlah
cluster bertambah. Namun, berdasarkan metode elbow, titik penurunan
mulai melandai pada sekitar k=4. Oleh karena itu, jumlah cluster empat
tetap dipilih karena dianggap mampu memberikan keseimbangan antara
kompleksitas model dan kualitas cluster.
Secara umum, hasil validation menunjukkan bahwa struktur data masih
memiliki overlap antar kelompok sehingga pemisahan cluster belum
sepenuhnya optimal.
# Visual
validation_long <- melt(
validation_result[, c("k", "Silhouette", "ARI")],
id.vars = "k"
)
ggplot(validation_long,
aes(x = k, y = value, color = variable, group = variable)) +
geom_line(size = 1.2) +
geom_point(size = 3) +
labs(
title = "Perbandingan Silhouette Score dan ARI",
x = "Jumlah Cluster (k)",
y = "Score",
color = "Validation"
) +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Perbandingan Cluster
Table
(tab <- table(ukm$Cluster, ukm$UNS))
##
## very_low Low Middle High
## 1 2 27 13 18
## 2 1 13 37 16
## 3 21 40 12 2
## 4 0 3 26 27
Cluster 1
Cluster 1 didominasi oleh kategori:
Cluster ini menggambarkan pengguna dengan tingkat pengetahuan yang
cenderung rendah hingga menengah. Pengguna pada cluster ini kemungkinan
memiliki performa belajar yang cukup baik namun belum konsisten.
Cluster 2
Cluster 2 didominasi oleh:
Cluster ini merepresentasikan kelompok pengguna dengan kemampuan
belajar menengah. Pengguna dalam kelompok ini memiliki pola belajar dan
pemahaman yang relatif stabil.
Cluster 3
Cluster 3 didominasi oleh:
Cluster ini menunjukkan kelompok pengguna dengan tingkat pengetahuan
paling rendah. Kelompok ini kemungkinan memiliki waktu belajar dan hasil
evaluasi yang lebih rendah dibanding cluster lain.
Cluster 4
Cluster 4 didominasi oleh:
Cluster ini menggambarkan pengguna dengan performa belajar terbaik.
Pengguna pada cluster ini memiliki tingkat pemahaman dan hasil evaluasi
yang lebih tinggi dibanding kelompok lainnya.
Heatmap
library(ggplot2)
library(reshape2)
ggplot(melt(tab), aes(x=Var2, y=Var1, fill=value)) +
geom_tile() +
geom_text(aes(label=value), color="white") +
labs(x="UNS", y="Cluster", fill="Jumlah") +
theme_minimal()

Heatmap menunjukkan distribusi jumlah anggota pada setiap cluster
terhadap kategori UNS. Terlihat bahwa Cluster 3 lebih banyak diisi oleh
kategori Low dan very_low, sedangkan Cluster 4 lebih dominan pada
kategori Middle dan High.
Visualisasi ini menunjukkan bahwa metode K-Means mampu menangkap pola
umum tingkat pengetahuan pengguna meskipun masih terdapat beberapa
overlap antar cluster.
Scatter plot visual
df_plot <- as.data.frame(numeric_scale)
df_plot$Cluster <- factor(ukm$Cluster)
df_plot$UNS <- ukm$UNS
# Convex Hull
hull_data <- df_plot %>%
group_by(Cluster) %>%
slice(chull(STG, SCG)) %>%
ungroup()
ggplot(df_plot, aes(x = STG, y = SCG, color = Cluster)) +
geom_point(size = 3) +
geom_polygon(
data = hull_data,
aes(fill = Cluster),
alpha = 0.2,
color = NA) +
labs(title = "Visualisasi Cluster dengan Convex Hull") +
theme_minimal()

Scatter plot dengan convex hull menunjukkan persebaran data
berdasarkan variabel STG dan SCG. Cluster masih terlihat saling
bertumpang tindih, yang menunjukkan bahwa batas antar cluster belum
sepenuhnya jelas.
Namun demikian, terdapat kecenderungan bahwa pengguna dengan nilai
belajar lebih tinggi membentuk kelompok tersendiri dibanding pengguna
dengan performa rendah. Hal ini mendukung hasil clustering yang mampu
membedakan kelompok pengguna berdasarkan aktivitas belajar dan performa
akademik.
Penutup
Analisis clustering menggunakan metode K-Means menunjukkan bahwa data
pengguna dapat dikelompokkan berdasarkan aktivitas belajar dan performa
akademik. Meskipun kualitas cluster masih belum optimal berdasarkan
silhouette score dan ARI, metode elbow menunjukkan bahwa penggunaan
empat cluster sudah cukup baik untuk merepresentasikan struktur
data.
---
title: "Cluster Validation using K-Means on User Knowledge Modeling Dataset"
author: "Rafly Priyantama Ramadhan Bagaskara"
date: "`r Sys.Date()`"
output:
  html_document:
    toc: true
    toc_float: true
    df_print: "paged"
    code_folding: "hide"
    code_download: yes
    theme: yeti
---

<style>
body {
  background-color: #eef5ff;
}

p {
  text-align: justify;
}
</style>

```{r, message=FALSE}
library(readxl)
library(dplyr)
library(cluster)
library(mclust)
library(factoextra)
library(ggplot2)
library(reshape2)
```

# Pendahuluan

Clustering merupakan salah satu metode unsupervised learning yang digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik. Pada analisis ini digunakan metode K-Means Clustering pada dataset User Knowledge Modeling dari UCI Machine Learning Repository.

Tujuan analisis ini adalah untuk mengevaluasi kualitas cluster menggunakan beberapa metode cluster validation, yaitu internal validation, external validation, dan relative validation.

# Dataset `User Knowledge Modeling`

Dataset yang digunakan ini dari UCI Machine Learning Repository. Dataset digunakan untuk menganalisis tingkat pengetahuan pengguna berdasarkan aktivitas belajar.

Variabel dalam dataset ini dapat dijelaskan sebagai berikut:\
1. *STG (Study Time Goal)* = Waktu belajar\
2. *SCG (Study Count Goal)* = Jumlah pengulangan materi\
3. *STR (Study Time Real)* = Waktu belajar aktual\
4. *LPR (Learning Process Rate)* = Tingkat pemahaman selama proses belajar\
5. *PEG (Performance Evaluation Grade)* = Hasil evaluasi belajar\
6. *UNS (User Knowledge Level)* = Tingkat pengetahuan pengguna (Target)

```{r, message=FALSE}
ukm <- read_excel("User Knowledge Modeling.xlsx")
head(ukm)
str(ukm)
```

# Preprocessing Data

Pada tahap preprocessing dilakukan normalisasi pada seluruh variabel numerik yaitu STG, SCG, STR, LPR, dan PEG menggunakan fungsi scale(). Normalisasi diperlukan karena metode K-Means sensitif terhadap perbedaan skala data. Dengan normalisasi, seluruh variabel memiliki kontribusi yang seimbang dalam proses pembentukan cluster.

```{r, message=FALSE}
# Normalisasi
numeric_var <- ukm %>% 
  select("STG", "SCG", "STR", "LPR", "PEG")
numeric_scale <- scale(numeric_var)
```

Selain itu, variabel UNS diubah menjadi tipe faktor agar dapat digunakan dalam proses validasi eksternal menggunakan Adjusted Rand Index (ARI).

```{r}
# Type Casting
ukm$UNS <- factor(ukm$UNS, levels = c("very_low", "Low", "Middle", "High"))
```

Hasil pengecekan missing value menunjukkan bahwa dataset tidak memiliki data yang hilang, sehingga data dapat langsung digunakan untuk proses clustering.

```{r}
# Cek Missing Value
sum(is.na(ukm))
```

# Clustering K - Means

Metode K-Means dilakukan dengan jumlah cluster sebanyak:

$$k = 4$$

```{r}
set.seed(123)
k <- 4
kmeans_result <- kmeans(numeric_scale, centers = k)
ukm$Cluster <- kmeans_result$cluster
table(ukm$Cluster)
```

Hasil clustering menunjukkan bahwa data berhasil dibagi menjadi empat kelompok dengan jumlah anggota sebagai berikut:

- Cluster 1 = 60 data
- Cluster 2 = 67 data
- Cluster 3 = 75 data
- Cluster 4 = 56 data

Distribusi jumlah anggota cluster terlihat cukup seimbang sehingga tidak terdapat cluster yang terlalu kecil maupun terlalu dominan.

# Cluster Validation

## Internal Validation

```{r, message=FALSE}
sil <- silhouette(ukm$Cluster, dist(numeric_scale))
sil_score <- mean(sil[,3])
cat("Avarage Silhouette Score : ", sil_score)
```

Hasil internal validation menggunakan silhouette score menghasilkan nilai sebesar: $0.1813992$.

Nilai silhouette score berada pada rentang −1 hingga 1. Semakin mendekati nilai 1, maka kualitas cluster semakin baik karena anggota dalam cluster memiliki kemiripan tinggi dan berbeda jauh dengan cluster lain.

Nilai silhouette sebesar 0.181 menunjukkan bahwa kualitas pemisahan cluster masih tergolong rendah. Hal ini mengindikasikan bahwa beberapa data masih memiliki kemiripan dengan cluster lain sehingga batas antar cluster belum terbentuk secara jelas.

## Eksternal Validation

```{r}
ari_score <- adjustedRandIndex(ukm$Cluster, ukm$UNS)
cat("Adjusted Rand Index :", ari_score)
```

Hasil external validation menggunakan Adjusted Rand Index menghasilkan nilai sebesar: $0.125298$.

Nilai ARI digunakan untuk mengukur kesesuaian hasil clustering dengan label asli UNS. Nilai yang mendekati 1 menunjukkan kesesuaian yang sangat baik.

Nilai ARI sebesar 0.125 menunjukkan bahwa hasil cluster belum memiliki kesesuaian yang tinggi terhadap kategori pengetahuan asli pengguna. Hal ini menunjukkan bahwa metode K-Means masih belum mampu memisahkan tingkat pengetahuan pengguna secara optimal berdasarkan label asli dataset.

## Relative Validation

```{r, message=FALSE}
set.seed(123)
k_range <- 1:10
wss <- numeric(length(k_range))

for (i in k_range) {
  km <- kmeans(numeric_scale, centers = i, nstart = 25)
  wss[i] <- km$tot.withinss
}

wss_result <- data.frame(
  k = k_range,
  WSS = wss
)

wss_result

# Visualisasi Elbow
fviz_nbclust(numeric_scale, kmeans, method = "wss") +
  labs(title = "Optimal Number of Clusters - Elbow Method") +
  theme_minimal() 
```

Relative validation dilakukan menggunakan metode elbow berdasarkan nilai Within Sum of Squares (WSS). Hasil menunjukkan bahwa nilai WSS terus menurun seiring bertambahnya jumlah cluster.

Namun, penurunan mulai melambat setelah: $k = 4$.

Hal ini menunjukkan bahwa penggunaan lebih dari empat cluster tidak memberikan penurunan variasi within-cluster yang terlalu signifikan. Oleh karena itu, jumlah cluster sebanyak empat dianggap cukup optimal berdasarkan metode elbow.

# Perbandingan Hasil

```{r, warning=FALSE}
# Perbandingan nilai k
k_values <- 2:10

silhouette_values <- numeric(length(k_values))
ari_values <- numeric(length(k_values))
wss_values <- numeric(length(k_values))

set.seed(123)

for (i in seq_along(k_values)) {
  
  km <- kmeans(
    numeric_scale,
    centers = k_values[i],
    nstart = 25
  )
  
  # Internal Validation
  sil_temp <- silhouette(km$cluster, dist(numeric_scale))
  silhouette_values[i] <- mean(sil_temp[, 3])
  
  # External Validation
  ari_values[i] <- adjustedRandIndex(km$cluster, ukm$UNS)
  
  # Relative Validation
  wss_values[i] <- km$tot.withinss
}

validation_result <- data.frame(
  k = k_values,
  Silhouette = round(silhouette_values, 3),
  ARI = round(ari_values, 3),
  WSS = round(wss_values, 2)
)

validation_result
```

Berdasarkan hasil perbandingan beberapa nilai cluster, diperoleh bahwa nilai silhouette score tertinggi berada pada: $k=8$, dengan nilai silhouette sebesar: $0.202$.

Sementara itu, nilai Adjusted Rand Index tertinggi berada pada: $k=2$, dengan nilai: $0.276$.

Hal ini menunjukkan bahwa jumlah cluster terbaik dapat berbeda tergantung metode validasi yang digunakan. Internal validation lebih mendukung penggunaan cluster yang lebih banyak, sedangkan external validation menunjukkan bahwa penggunaan dua cluster lebih sesuai terhadap label asli UNS.

Di sisi lain, nilai WSS terus mengalami penurunan ketika jumlah cluster bertambah. Namun, berdasarkan metode elbow, titik penurunan mulai melandai pada sekitar k=4. Oleh karena itu, jumlah cluster empat tetap dipilih karena dianggap mampu memberikan keseimbangan antara kompleksitas model dan kualitas cluster.

Secara umum, hasil validation menunjukkan bahwa struktur data masih memiliki overlap antar kelompok sehingga pemisahan cluster belum sepenuhnya optimal.

```{r}
# Visual
validation_long <- melt(
  validation_result[, c("k", "Silhouette", "ARI")],
  id.vars = "k"
)

ggplot(validation_long,
       aes(x = k, y = value, color = variable, group = variable)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  labs(
    title = "Perbandingan Silhouette Score dan ARI",
    x = "Jumlah Cluster (k)",
    y = "Score",
    color = "Validation"
  ) +
  theme_minimal()
```

# Perbandingan Cluster

## Table

```{r}
(tab <- table(ukm$Cluster, ukm$UNS))
```

**Cluster 1**

Cluster 1 didominasi oleh kategori:

- Low = 27
- High = 18

Cluster ini menggambarkan pengguna dengan tingkat pengetahuan yang cenderung rendah hingga menengah. Pengguna pada cluster ini kemungkinan memiliki performa belajar yang cukup baik namun belum konsisten.

**Cluster 2**

Cluster 2 didominasi oleh:

- Middle = 37
- High = 16

Cluster ini merepresentasikan kelompok pengguna dengan kemampuan belajar menengah. Pengguna dalam kelompok ini memiliki pola belajar dan pemahaman yang relatif stabil.

**Cluster 3**

Cluster 3 didominasi oleh:

- Low = 40
- very_low = 21

Cluster ini menunjukkan kelompok pengguna dengan tingkat pengetahuan paling rendah. Kelompok ini kemungkinan memiliki waktu belajar dan hasil evaluasi yang lebih rendah dibanding cluster lain.

**Cluster 4**

Cluster 4 didominasi oleh:

- High = 27
- Middle = 26

Cluster ini menggambarkan pengguna dengan performa belajar terbaik. Pengguna pada cluster ini memiliki tingkat pemahaman dan hasil evaluasi yang lebih tinggi dibanding kelompok lainnya.

## Heatmap

```{r, message=FALSE}
library(ggplot2)
library(reshape2)
ggplot(melt(tab), aes(x=Var2, y=Var1, fill=value)) +
  geom_tile() +
  geom_text(aes(label=value), color="white") +
  labs(x="UNS", y="Cluster", fill="Jumlah") +
  theme_minimal()
```

Heatmap menunjukkan distribusi jumlah anggota pada setiap cluster terhadap kategori UNS. Terlihat bahwa Cluster 3 lebih banyak diisi oleh kategori Low dan very_low, sedangkan Cluster 4 lebih dominan pada kategori Middle dan High.

Visualisasi ini menunjukkan bahwa metode K-Means mampu menangkap pola umum tingkat pengetahuan pengguna meskipun masih terdapat beberapa overlap antar cluster.

## Scatter plot visual

```{r}
df_plot <- as.data.frame(numeric_scale)
df_plot$Cluster <- factor(ukm$Cluster)
df_plot$UNS <- ukm$UNS

# Convex Hull
hull_data <- df_plot %>%
  group_by(Cluster) %>%
  slice(chull(STG, SCG)) %>%
  ungroup()

ggplot(df_plot, aes(x = STG, y = SCG, color = Cluster)) +
  geom_point(size = 3) +
  geom_polygon(
    data = hull_data,
    aes(fill = Cluster),
    alpha = 0.2,
    color = NA) +
  labs(title = "Visualisasi Cluster dengan Convex Hull") +
  theme_minimal()
```

Scatter plot dengan convex hull menunjukkan persebaran data berdasarkan variabel STG dan SCG. Cluster masih terlihat saling bertumpang tindih, yang menunjukkan bahwa batas antar cluster belum sepenuhnya jelas.

Namun demikian, terdapat kecenderungan bahwa pengguna dengan nilai belajar lebih tinggi membentuk kelompok tersendiri dibanding pengguna dengan performa rendah. Hal ini mendukung hasil clustering yang mampu membedakan kelompok pengguna berdasarkan aktivitas belajar dan performa akademik.

# Penutup

Analisis clustering menggunakan metode K-Means menunjukkan bahwa data pengguna dapat dikelompokkan berdasarkan aktivitas belajar dan performa akademik. Meskipun kualitas cluster masih belum optimal berdasarkan silhouette score dan ARI, metode elbow menunjukkan bahwa penggunaan empat cluster sudah cukup baik untuk merepresentasikan struktur data.