R Markdown merupakan tools yang dapat digunakan untuk membuat laporan yang berisi teks, kode, dan output analisis dalam satu dokumen. Pada tugas ini, contoh syntax yang digunakan adalah analisis K-Means Clustering sederhana.
Tujuan dari analisis ini adalah mengelompokkan beberapa data berdasarkan kemiripan nilai pada dua variabel, yaitu variabel X dan variabel Y.
Data yang digunakan merupakan data sederhana dengan dua variabel. Jumlah data yang dianalisis adalah sebanyak 4 observasi.
data_kmeans <- data.frame(
X = c(2, 3, 10, 11),
Y = c(5, 6, 1, 2)
)
data_kmeans
## X Y
## 1 2 5
## 2 3 6
## 3 10 1
## 4 11 2
Bagian ini menampilkan ringkasan statistik dari data yang digunakan.
summary(data_kmeans)
## X Y
## Min. : 2.00 Min. :1.00
## 1st Qu.: 2.75 1st Qu.:1.75
## Median : 6.50 Median :3.50
## Mean : 6.50 Mean :3.50
## 3rd Qu.:10.25 3rd Qu.:5.25
## Max. :11.00 Max. :6.00
Pada analisis ini, data dikelompokkan menjadi 2 cluster. Fungsi
set.seed() digunakan agar hasil clustering tetap sama
ketika kode dijalankan ulang.
set.seed(1)
hasil_kmeans <- kmeans(data_kmeans, centers = 2)
hasil_kmeans
## K-means clustering with 2 clusters of sizes 2, 2
##
## Cluster means:
## X Y
## 1 2.5 5.5
## 2 10.5 1.5
##
## Clustering vector:
## [1] 1 1 2 2
##
## Within cluster sum of squares by cluster:
## [1] 1 1
## (between_SS / total_SS = 97.6 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Berikut adalah hasil pengelompokan cluster untuk setiap data.
data_kmeans$Cluster <- hasil_kmeans$cluster
data_kmeans
## X Y Cluster
## 1 2 5 1
## 2 3 6 1
## 3 10 1 2
## 4 11 2 2
Visualisasi berikut menunjukkan pembagian data ke dalam dua cluster berdasarkan variabel X dan Y.
plot(
data_kmeans$X,
data_kmeans$Y,
col = data_kmeans$Cluster,
pch = 19,
xlab = "Variabel X",
ylab = "Variabel Y",
main = "Hasil K-Means Clustering"
)
points(
hasil_kmeans$centers,
col = 1:2,
pch = 8,
cex = 2
)
Visualisasi Hasil K-Means Clustering
Berdasarkan hasil K-Means, data berhasil dikelompokkan menjadi dua cluster. Data yang memiliki nilai X dan Y yang berdekatan akan masuk ke dalam cluster yang sama.
Dari hasil visualisasi, terlihat bahwa data pertama dan kedua cenderung berada dalam satu kelompok, sedangkan data ketiga dan keempat berada pada kelompok lainnya. Hal ini menunjukkan bahwa metode K-Means dapat digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik antarobservasi.
R Markdown memudahkan proses pembuatan laporan karena teks, syntax R, hasil output, dan visualisasi dapat ditampilkan dalam satu dokumen. Pada contoh ini, R Markdown digunakan untuk membuat laporan sederhana mengenai analisis K-Means Clustering.