library(readxl)
library(dplyr)
library(cluster)
library(mclust)
library(factoextra)
library(ggplot2)
library(reshape2)

Pendahuluan

Clustering merupakan salah satu metode unsupervised learning yang digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik. Pada analisis ini digunakan metode K-Means Clustering pada dataset User Knowledge Modeling dari UCI Machine Learning Repository.

Tujuan analisis ini adalah untuk mengevaluasi kualitas cluster menggunakan beberapa metode cluster validation, yaitu internal validation, external validation, dan relative validation.

Dataset User Knowledge Modeling

Dataset yang digunakan ini dari UCI Machine Learning Repository. Dataset digunakan untuk menganalisis tingkat pengetahuan pengguna berdasarkan aktivitas belajar.

Variabel dalam dataset ini dapat dijelaskan sebagai berikut:
1. STG (Study Time Goal) = Waktu belajar
2. SCG (Study Count Goal) = Jumlah pengulangan materi
3. STR (Study Time Real) = Waktu belajar aktual
4. LPR (Learning Process Rate) = Tingkat pemahaman selama proses belajar
5. PEG (Performance Evaluation Grade) = Hasil evaluasi belajar
6. UNS (User Knowledge Level) = Tingkat pengetahuan pengguna (Target)

ukm <- read_excel("User Knowledge Modeling.xlsx")
head(ukm)
str(ukm)
## tibble [258 × 6] (S3: tbl_df/tbl/data.frame)
##  $ STG: num [1:258] 0 0.08 0.06 0.1 0.08 0.09 0.1 0.15 0.2 0 ...
##  $ SCG: num [1:258] 0 0.08 0.06 0.1 0.08 0.15 0.1 0.02 0.14 0 ...
##  $ STR: num [1:258] 0 0.1 0.05 0.15 0.08 0.4 0.43 0.34 0.35 0.5 ...
##  $ LPR: num [1:258] 0 0.24 0.25 0.65 0.98 0.1 0.29 0.4 0.72 0.2 ...
##  $ PEG: num [1:258] 0 0.9 0.33 0.3 0.24 0.66 0.56 0.01 0.25 0.85 ...
##  $ UNS: chr [1:258] "very_low" "High" "Low" "Middle" ...

Preprocessing Data

Pada tahap preprocessing dilakukan normalisasi pada seluruh variabel numerik yaitu STG, SCG, STR, LPR, dan PEG menggunakan fungsi scale(). Normalisasi diperlukan karena metode K-Means sensitif terhadap perbedaan skala data. Dengan normalisasi, seluruh variabel memiliki kontribusi yang seimbang dalam proses pembentukan cluster.

# Normalisasi
numeric_var <- ukm %>% 
  select("STG", "SCG", "STR", "LPR", "PEG")
numeric_scale <- scale(numeric_var)

Selain itu, variabel UNS diubah menjadi tipe faktor agar dapat digunakan dalam proses validasi eksternal menggunakan Adjusted Rand Index (ARI).

# Type Casting
ukm$UNS <- factor(ukm$UNS, levels = c("very_low", "Low", "Middle", "High"))

Hasil pengecekan missing value menunjukkan bahwa dataset tidak memiliki data yang hilang, sehingga data dapat langsung digunakan untuk proses clustering.

# Cek Missing Value
sum(is.na(ukm))
## [1] 0

Clustering K - Means

Metode K-Means dilakukan dengan jumlah cluster sebanyak:

\[k = 4\]

set.seed(123)
k <- 4
kmeans_result <- kmeans(numeric_scale, centers = k)
ukm$Cluster <- kmeans_result$cluster
table(ukm$Cluster)
## 
##  1  2  3  4 
## 60 67 75 56

Hasil clustering menunjukkan bahwa data berhasil dibagi menjadi empat kelompok dengan jumlah anggota sebagai berikut:

  • Cluster 1 = 60 data
  • Cluster 2 = 67 data
  • Cluster 3 = 75 data
  • Cluster 4 = 56 data

Distribusi jumlah anggota cluster terlihat cukup seimbang sehingga tidak terdapat cluster yang terlalu kecil maupun terlalu dominan.

Cluster Validation

Internal Validation

sil <- silhouette(ukm$Cluster, dist(numeric_scale))
sil_score <- mean(sil[,3])
cat("Avarage Silhouette Score : ", sil_score)
## Avarage Silhouette Score :  0.1813992

Hasil internal validation menggunakan silhouette score menghasilkan nilai sebesar: \(0.1813992\).

Nilai silhouette score berada pada rentang −1 hingga 1. Semakin mendekati nilai 1, maka kualitas cluster semakin baik karena anggota dalam cluster memiliki kemiripan tinggi dan berbeda jauh dengan cluster lain.

Nilai silhouette sebesar 0.181 menunjukkan bahwa kualitas pemisahan cluster masih tergolong rendah. Hal ini mengindikasikan bahwa beberapa data masih memiliki kemiripan dengan cluster lain sehingga batas antar cluster belum terbentuk secara jelas.

Eksternal Validation

ari_score <- adjustedRandIndex(ukm$Cluster, ukm$UNS)
cat("Adjusted Rand Index :", ari_score)
## Adjusted Rand Index : 0.125298

Hasil external validation menggunakan Adjusted Rand Index menghasilkan nilai sebesar: \(0.125298\).

Nilai ARI digunakan untuk mengukur kesesuaian hasil clustering dengan label asli UNS. Nilai yang mendekati 1 menunjukkan kesesuaian yang sangat baik.

Nilai ARI sebesar 0.125 menunjukkan bahwa hasil cluster belum memiliki kesesuaian yang tinggi terhadap kategori pengetahuan asli pengguna. Hal ini menunjukkan bahwa metode K-Means masih belum mampu memisahkan tingkat pengetahuan pengguna secara optimal berdasarkan label asli dataset.

Relative Validation

set.seed(123)
k_range <- 1:10
wss <- numeric(length(k_range))

for (i in k_range) {
  km <- kmeans(numeric_scale, centers = i, nstart = 25)
  wss[i] <- km$tot.withinss
}

wss_result <- data.frame(
  k = k_range,
  WSS = wss
)

wss_result
# Visualisasi Elbow
fviz_nbclust(numeric_scale, kmeans, method = "wss") +
  labs(title = "Optimal Number of Clusters - Elbow Method") +
  theme_minimal() 

Relative validation dilakukan menggunakan metode elbow berdasarkan nilai Within Sum of Squares (WSS). Hasil menunjukkan bahwa nilai WSS terus menurun seiring bertambahnya jumlah cluster.

Namun, penurunan mulai melambat setelah: \(k = 4\).

Hal ini menunjukkan bahwa penggunaan lebih dari empat cluster tidak memberikan penurunan variasi within-cluster yang terlalu signifikan. Oleh karena itu, jumlah cluster sebanyak empat dianggap cukup optimal berdasarkan metode elbow.

Perbandingan Hasil

# Perbandingan nilai k
k_values <- 2:10

silhouette_values <- numeric(length(k_values))
ari_values <- numeric(length(k_values))
wss_values <- numeric(length(k_values))

set.seed(123)

for (i in seq_along(k_values)) {
  
  km <- kmeans(
    numeric_scale,
    centers = k_values[i],
    nstart = 25
  )
  
  # Internal Validation
  sil_temp <- silhouette(km$cluster, dist(numeric_scale))
  silhouette_values[i] <- mean(sil_temp[, 3])
  
  # External Validation
  ari_values[i] <- adjustedRandIndex(km$cluster, ukm$UNS)
  
  # Relative Validation
  wss_values[i] <- km$tot.withinss
}

validation_result <- data.frame(
  k = k_values,
  Silhouette = round(silhouette_values, 3),
  ARI = round(ari_values, 3),
  WSS = round(wss_values, 2)
)

validation_result

Berdasarkan hasil perbandingan beberapa nilai cluster, diperoleh bahwa nilai silhouette score tertinggi berada pada: \(k=8\), dengan nilai silhouette sebesar: \(0.202\).

Sementara itu, nilai Adjusted Rand Index tertinggi berada pada: \(k=2\), dengan nilai: \(0.276\).

Hal ini menunjukkan bahwa jumlah cluster terbaik dapat berbeda tergantung metode validasi yang digunakan. Internal validation lebih mendukung penggunaan cluster yang lebih banyak, sedangkan external validation menunjukkan bahwa penggunaan dua cluster lebih sesuai terhadap label asli UNS.

Di sisi lain, nilai WSS terus mengalami penurunan ketika jumlah cluster bertambah. Namun, berdasarkan metode elbow, titik penurunan mulai melandai pada sekitar k=4. Oleh karena itu, jumlah cluster empat tetap dipilih karena dianggap mampu memberikan keseimbangan antara kompleksitas model dan kualitas cluster.

Secara umum, hasil validation menunjukkan bahwa struktur data masih memiliki overlap antar kelompok sehingga pemisahan cluster belum sepenuhnya optimal.

# Visual
validation_long <- melt(
  validation_result[, c("k", "Silhouette", "ARI")],
  id.vars = "k"
)

ggplot(validation_long,
       aes(x = k, y = value, color = variable, group = variable)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  labs(
    title = "Perbandingan Silhouette Score dan ARI",
    x = "Jumlah Cluster (k)",
    y = "Score",
    color = "Validation"
  ) +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Perbandingan Cluster

Table

(tab <- table(ukm$Cluster, ukm$UNS))
##    
##     very_low Low Middle High
##   1        2  27     13   18
##   2        1  13     37   16
##   3       21  40     12    2
##   4        0   3     26   27

Cluster 1

Cluster 1 didominasi oleh kategori:

  • Low = 27
  • High = 18

Cluster ini menggambarkan pengguna dengan tingkat pengetahuan yang cenderung rendah hingga menengah. Pengguna pada cluster ini kemungkinan memiliki performa belajar yang cukup baik namun belum konsisten.

Cluster 2

Cluster 2 didominasi oleh:

  • Middle = 37
  • High = 16

Cluster ini merepresentasikan kelompok pengguna dengan kemampuan belajar menengah. Pengguna dalam kelompok ini memiliki pola belajar dan pemahaman yang relatif stabil.

Cluster 3

Cluster 3 didominasi oleh:

  • Low = 40
  • very_low = 21

Cluster ini menunjukkan kelompok pengguna dengan tingkat pengetahuan paling rendah. Kelompok ini kemungkinan memiliki waktu belajar dan hasil evaluasi yang lebih rendah dibanding cluster lain.

Cluster 4

Cluster 4 didominasi oleh:

  • High = 27
  • Middle = 26

Cluster ini menggambarkan pengguna dengan performa belajar terbaik. Pengguna pada cluster ini memiliki tingkat pemahaman dan hasil evaluasi yang lebih tinggi dibanding kelompok lainnya.

Heatmap

library(ggplot2)
library(reshape2)
ggplot(melt(tab), aes(x=Var2, y=Var1, fill=value)) +
  geom_tile() +
  geom_text(aes(label=value), color="white") +
  labs(x="UNS", y="Cluster", fill="Jumlah") +
  theme_minimal()

Heatmap menunjukkan distribusi jumlah anggota pada setiap cluster terhadap kategori UNS. Terlihat bahwa Cluster 3 lebih banyak diisi oleh kategori Low dan very_low, sedangkan Cluster 4 lebih dominan pada kategori Middle dan High.

Visualisasi ini menunjukkan bahwa metode K-Means mampu menangkap pola umum tingkat pengetahuan pengguna meskipun masih terdapat beberapa overlap antar cluster.

Scatter plot visual

df_plot <- as.data.frame(numeric_scale)
df_plot$Cluster <- factor(ukm$Cluster)
df_plot$UNS <- ukm$UNS

# Convex Hull
hull_data <- df_plot %>%
  group_by(Cluster) %>%
  slice(chull(STG, SCG)) %>%
  ungroup()

ggplot(df_plot, aes(x = STG, y = SCG, color = Cluster)) +
  geom_point(size = 3) +
  geom_polygon(
    data = hull_data,
    aes(fill = Cluster),
    alpha = 0.2,
    color = NA) +
  labs(title = "Visualisasi Cluster dengan Convex Hull") +
  theme_minimal()

Scatter plot dengan convex hull menunjukkan persebaran data berdasarkan variabel STG dan SCG. Cluster masih terlihat saling bertumpang tindih, yang menunjukkan bahwa batas antar cluster belum sepenuhnya jelas.

Namun demikian, terdapat kecenderungan bahwa pengguna dengan nilai belajar lebih tinggi membentuk kelompok tersendiri dibanding pengguna dengan performa rendah. Hal ini mendukung hasil clustering yang mampu membedakan kelompok pengguna berdasarkan aktivitas belajar dan performa akademik.

Penutup

Analisis clustering menggunakan metode K-Means menunjukkan bahwa data pengguna dapat dikelompokkan berdasarkan aktivitas belajar dan performa akademik. Meskipun kualitas cluster masih belum optimal berdasarkan silhouette score dan ARI, metode elbow menunjukkan bahwa penggunaan empat cluster sudah cukup baik untuk merepresentasikan struktur data.

---
title: "Cluster Validation using K-Means on User Knowledge Modeling Dataset"
author: "Rafly Priyantama Ramadhan Bagaskara"
date: "`r Sys.Date()`"
output:
  html_document:
    toc: true
    toc_float: true
    df_print: "paged"
    code_folding: "hide"
    code_download: yes
    theme: yeti
---

<style>
body {
  background-color: #eef5ff;
}

p {
  text-align: justify;
}
</style>

```{r, message=FALSE}
library(readxl)
library(dplyr)
library(cluster)
library(mclust)
library(factoextra)
library(ggplot2)
library(reshape2)
```

# Pendahuluan

Clustering merupakan salah satu metode unsupervised learning yang digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik. Pada analisis ini digunakan metode K-Means Clustering pada dataset User Knowledge Modeling dari UCI Machine Learning Repository.

Tujuan analisis ini adalah untuk mengevaluasi kualitas cluster menggunakan beberapa metode cluster validation, yaitu internal validation, external validation, dan relative validation.

# Dataset `User Knowledge Modeling`

Dataset yang digunakan ini dari UCI Machine Learning Repository. Dataset digunakan untuk menganalisis tingkat pengetahuan pengguna berdasarkan aktivitas belajar.

Variabel dalam dataset ini dapat dijelaskan sebagai berikut:\
1. *STG (Study Time Goal)* = Waktu belajar\
2. *SCG (Study Count Goal)* = Jumlah pengulangan materi\
3. *STR (Study Time Real)* = Waktu belajar aktual\
4. *LPR (Learning Process Rate)* = Tingkat pemahaman selama proses belajar\
5. *PEG (Performance Evaluation Grade)* = Hasil evaluasi belajar\
6. *UNS (User Knowledge Level)* = Tingkat pengetahuan pengguna (Target)

```{r, message=FALSE}
ukm <- read_excel("User Knowledge Modeling.xlsx")
head(ukm)
str(ukm)
```

# Preprocessing Data

Pada tahap preprocessing dilakukan normalisasi pada seluruh variabel numerik yaitu STG, SCG, STR, LPR, dan PEG menggunakan fungsi scale(). Normalisasi diperlukan karena metode K-Means sensitif terhadap perbedaan skala data. Dengan normalisasi, seluruh variabel memiliki kontribusi yang seimbang dalam proses pembentukan cluster.

```{r, message=FALSE}
# Normalisasi
numeric_var <- ukm %>% 
  select("STG", "SCG", "STR", "LPR", "PEG")
numeric_scale <- scale(numeric_var)
```

Selain itu, variabel UNS diubah menjadi tipe faktor agar dapat digunakan dalam proses validasi eksternal menggunakan Adjusted Rand Index (ARI).

```{r}
# Type Casting
ukm$UNS <- factor(ukm$UNS, levels = c("very_low", "Low", "Middle", "High"))
```

Hasil pengecekan missing value menunjukkan bahwa dataset tidak memiliki data yang hilang, sehingga data dapat langsung digunakan untuk proses clustering.

```{r}
# Cek Missing Value
sum(is.na(ukm))
```

# Clustering K - Means

Metode K-Means dilakukan dengan jumlah cluster sebanyak:

$$k = 4$$

```{r}
set.seed(123)
k <- 4
kmeans_result <- kmeans(numeric_scale, centers = k)
ukm$Cluster <- kmeans_result$cluster
table(ukm$Cluster)
```

Hasil clustering menunjukkan bahwa data berhasil dibagi menjadi empat kelompok dengan jumlah anggota sebagai berikut:

- Cluster 1 = 60 data
- Cluster 2 = 67 data
- Cluster 3 = 75 data
- Cluster 4 = 56 data

Distribusi jumlah anggota cluster terlihat cukup seimbang sehingga tidak terdapat cluster yang terlalu kecil maupun terlalu dominan.

# Cluster Validation

## Internal Validation

```{r, message=FALSE}
sil <- silhouette(ukm$Cluster, dist(numeric_scale))
sil_score <- mean(sil[,3])
cat("Avarage Silhouette Score : ", sil_score)
```

Hasil internal validation menggunakan silhouette score menghasilkan nilai sebesar: $0.1813992$.

Nilai silhouette score berada pada rentang −1 hingga 1. Semakin mendekati nilai 1, maka kualitas cluster semakin baik karena anggota dalam cluster memiliki kemiripan tinggi dan berbeda jauh dengan cluster lain.

Nilai silhouette sebesar 0.181 menunjukkan bahwa kualitas pemisahan cluster masih tergolong rendah. Hal ini mengindikasikan bahwa beberapa data masih memiliki kemiripan dengan cluster lain sehingga batas antar cluster belum terbentuk secara jelas.

## Eksternal Validation

```{r}
ari_score <- adjustedRandIndex(ukm$Cluster, ukm$UNS)
cat("Adjusted Rand Index :", ari_score)
```

Hasil external validation menggunakan Adjusted Rand Index menghasilkan nilai sebesar: $0.125298$.

Nilai ARI digunakan untuk mengukur kesesuaian hasil clustering dengan label asli UNS. Nilai yang mendekati 1 menunjukkan kesesuaian yang sangat baik.

Nilai ARI sebesar 0.125 menunjukkan bahwa hasil cluster belum memiliki kesesuaian yang tinggi terhadap kategori pengetahuan asli pengguna. Hal ini menunjukkan bahwa metode K-Means masih belum mampu memisahkan tingkat pengetahuan pengguna secara optimal berdasarkan label asli dataset.

## Relative Validation

```{r, message=FALSE}
set.seed(123)
k_range <- 1:10
wss <- numeric(length(k_range))

for (i in k_range) {
  km <- kmeans(numeric_scale, centers = i, nstart = 25)
  wss[i] <- km$tot.withinss
}

wss_result <- data.frame(
  k = k_range,
  WSS = wss
)

wss_result

# Visualisasi Elbow
fviz_nbclust(numeric_scale, kmeans, method = "wss") +
  labs(title = "Optimal Number of Clusters - Elbow Method") +
  theme_minimal() 
```

Relative validation dilakukan menggunakan metode elbow berdasarkan nilai Within Sum of Squares (WSS). Hasil menunjukkan bahwa nilai WSS terus menurun seiring bertambahnya jumlah cluster.

Namun, penurunan mulai melambat setelah: $k = 4$.

Hal ini menunjukkan bahwa penggunaan lebih dari empat cluster tidak memberikan penurunan variasi within-cluster yang terlalu signifikan. Oleh karena itu, jumlah cluster sebanyak empat dianggap cukup optimal berdasarkan metode elbow.

# Perbandingan Hasil

```{r, warning=FALSE}
# Perbandingan nilai k
k_values <- 2:10

silhouette_values <- numeric(length(k_values))
ari_values <- numeric(length(k_values))
wss_values <- numeric(length(k_values))

set.seed(123)

for (i in seq_along(k_values)) {
  
  km <- kmeans(
    numeric_scale,
    centers = k_values[i],
    nstart = 25
  )
  
  # Internal Validation
  sil_temp <- silhouette(km$cluster, dist(numeric_scale))
  silhouette_values[i] <- mean(sil_temp[, 3])
  
  # External Validation
  ari_values[i] <- adjustedRandIndex(km$cluster, ukm$UNS)
  
  # Relative Validation
  wss_values[i] <- km$tot.withinss
}

validation_result <- data.frame(
  k = k_values,
  Silhouette = round(silhouette_values, 3),
  ARI = round(ari_values, 3),
  WSS = round(wss_values, 2)
)

validation_result
```

Berdasarkan hasil perbandingan beberapa nilai cluster, diperoleh bahwa nilai silhouette score tertinggi berada pada: $k=8$, dengan nilai silhouette sebesar: $0.202$.

Sementara itu, nilai Adjusted Rand Index tertinggi berada pada: $k=2$, dengan nilai: $0.276$.

Hal ini menunjukkan bahwa jumlah cluster terbaik dapat berbeda tergantung metode validasi yang digunakan. Internal validation lebih mendukung penggunaan cluster yang lebih banyak, sedangkan external validation menunjukkan bahwa penggunaan dua cluster lebih sesuai terhadap label asli UNS.

Di sisi lain, nilai WSS terus mengalami penurunan ketika jumlah cluster bertambah. Namun, berdasarkan metode elbow, titik penurunan mulai melandai pada sekitar k=4. Oleh karena itu, jumlah cluster empat tetap dipilih karena dianggap mampu memberikan keseimbangan antara kompleksitas model dan kualitas cluster.

Secara umum, hasil validation menunjukkan bahwa struktur data masih memiliki overlap antar kelompok sehingga pemisahan cluster belum sepenuhnya optimal.

```{r}
# Visual
validation_long <- melt(
  validation_result[, c("k", "Silhouette", "ARI")],
  id.vars = "k"
)

ggplot(validation_long,
       aes(x = k, y = value, color = variable, group = variable)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  labs(
    title = "Perbandingan Silhouette Score dan ARI",
    x = "Jumlah Cluster (k)",
    y = "Score",
    color = "Validation"
  ) +
  theme_minimal()
```

# Perbandingan Cluster

## Table

```{r}
(tab <- table(ukm$Cluster, ukm$UNS))
```

**Cluster 1**

Cluster 1 didominasi oleh kategori:

- Low = 27
- High = 18

Cluster ini menggambarkan pengguna dengan tingkat pengetahuan yang cenderung rendah hingga menengah. Pengguna pada cluster ini kemungkinan memiliki performa belajar yang cukup baik namun belum konsisten.

**Cluster 2**

Cluster 2 didominasi oleh:

- Middle = 37
- High = 16

Cluster ini merepresentasikan kelompok pengguna dengan kemampuan belajar menengah. Pengguna dalam kelompok ini memiliki pola belajar dan pemahaman yang relatif stabil.

**Cluster 3**

Cluster 3 didominasi oleh:

- Low = 40
- very_low = 21

Cluster ini menunjukkan kelompok pengguna dengan tingkat pengetahuan paling rendah. Kelompok ini kemungkinan memiliki waktu belajar dan hasil evaluasi yang lebih rendah dibanding cluster lain.

**Cluster 4**

Cluster 4 didominasi oleh:

- High = 27
- Middle = 26

Cluster ini menggambarkan pengguna dengan performa belajar terbaik. Pengguna pada cluster ini memiliki tingkat pemahaman dan hasil evaluasi yang lebih tinggi dibanding kelompok lainnya.

## Heatmap

```{r, message=FALSE}
library(ggplot2)
library(reshape2)
ggplot(melt(tab), aes(x=Var2, y=Var1, fill=value)) +
  geom_tile() +
  geom_text(aes(label=value), color="white") +
  labs(x="UNS", y="Cluster", fill="Jumlah") +
  theme_minimal()
```

Heatmap menunjukkan distribusi jumlah anggota pada setiap cluster terhadap kategori UNS. Terlihat bahwa Cluster 3 lebih banyak diisi oleh kategori Low dan very_low, sedangkan Cluster 4 lebih dominan pada kategori Middle dan High.

Visualisasi ini menunjukkan bahwa metode K-Means mampu menangkap pola umum tingkat pengetahuan pengguna meskipun masih terdapat beberapa overlap antar cluster.

## Scatter plot visual

```{r}
df_plot <- as.data.frame(numeric_scale)
df_plot$Cluster <- factor(ukm$Cluster)
df_plot$UNS <- ukm$UNS

# Convex Hull
hull_data <- df_plot %>%
  group_by(Cluster) %>%
  slice(chull(STG, SCG)) %>%
  ungroup()

ggplot(df_plot, aes(x = STG, y = SCG, color = Cluster)) +
  geom_point(size = 3) +
  geom_polygon(
    data = hull_data,
    aes(fill = Cluster),
    alpha = 0.2,
    color = NA) +
  labs(title = "Visualisasi Cluster dengan Convex Hull") +
  theme_minimal()
```

Scatter plot dengan convex hull menunjukkan persebaran data berdasarkan variabel STG dan SCG. Cluster masih terlihat saling bertumpang tindih, yang menunjukkan bahwa batas antar cluster belum sepenuhnya jelas.

Namun demikian, terdapat kecenderungan bahwa pengguna dengan nilai belajar lebih tinggi membentuk kelompok tersendiri dibanding pengguna dengan performa rendah. Hal ini mendukung hasil clustering yang mampu membedakan kelompok pengguna berdasarkan aktivitas belajar dan performa akademik.

# Penutup

Analisis clustering menggunakan metode K-Means menunjukkan bahwa data pengguna dapat dikelompokkan berdasarkan aktivitas belajar dan performa akademik. Meskipun kualitas cluster masih belum optimal berdasarkan silhouette score dan ARI, metode elbow menunjukkan bahwa penggunaan empat cluster sudah cukup baik untuk merepresentasikan struktur data.