Library:
> install.packages("cluster")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("factoextra")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("tidyverse")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirrorPembangunan nasional Indonesia menempatkan rakyat sebagai titik sentral pembangunan. Untuk dapat ikut berpartisipasi dalam proses pembangunan, tentunya dibutuhkan masyarakat yang unggul dari segi kuantitas dan kualitas.Pengelompokan wilayah kabupaten/kota di Maluku perlu dilakukan sebagai bahan perencanaan dan evaluasi sasaran program pemerintah.Pada penelitian ini dibahas tentang pemanfaatan alogaritma K-Means untuk mengelompokan kabupaten/kota di Provinsi Jawa Tengah berdasarkan IPM dan Angka Harapan Hidup. ## Statistika Deskriptif Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu data sehingga memberikan informasi yang berguna (Walpole, 1995). Statistik deskriptif berfungsi untuk mendeskripsikan atau memberi gambaran terhadap objek yang diteliti melalui data sampel atau populasi (Sugiyono, 2007). ## Analisis Cluster Clutering adalah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai persamaan berdasarkan matriks tertentu. Analisis cluster atau analisis kelompok merupakan teknik analisa data yang bertujuan untuk mengelompokan individu atau objek ke dalam beberapa kelompok yang memiliki sifat berbeda antar kelompok, sehingga individu atau objek yang terletak di dalam satu kelompok akan mempunyai sifat relatif homogen. Tujuan analisis cluster adalah mengelompokan objekobjek tersebut. ### Metode K-Means K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain (Marfalino, & Rahmi, 2015). ## Data Data yang digunakan pada penelitian ini merupakan data sekunder IPM dan Angka Harapan Hidup Provinsi Jawa Timur berdasarkan kabupaten/kota yang didapat melalui BPS (Badan Pusat Statistik).
> library(readxl)
> Data_Komstat <- read_excel("C:/Users/ASUS TUF/OneDrive/Desktop/Data Komstat.xlsx")
> Data_Komstat
# A tibble: 38 x 3
`Kabupaten/Kota` IPM AHH
<chr> <dbl> <dbl>
1 Pacitan 63.4 72.2
2 Ponorogo 67.0 70.8
3 Trenggalek 65.8 72.3
4 Tulungagung 69.3 72.0
5 Blitar 66.5 71.8
6 Kediri 68.0 70.6
7 Malang 65.2 69.7
8 Lumajang 61.9 68.0
9 Jember 62.4 63.6
10 Banyuwangi 66.7 68.6
# ... with 28 more rows> # Library
> library(cluster)
> library(factoextra)
> library(tidyverse)> data<-Data_Komstat[2:3]
> summary(data)
IPM AHH
Min. :56.45 Min. :62.10
1st Qu.:63.51 1st Qu.:67.02
Median :67.63 Median :70.48
Mean :67.94 Mean :69.12
3rd Qu.:71.17 3rd Qu.:71.53
Max. :78.51 Max. :73.00 > fviz_nbclust(data,kmeans)> final=kmeans(data,3)
> print(final)
K-means clustering with 3 clusters of sizes 18, 10, 10
Cluster means:
IPM AHH
1 67.360 70.49833
2 75.228 71.20700
3 61.704 64.56200
Clustering vector:
[1] 1 1 1 1 1 1 1 3 3 1 3 3 3 3 2 1 1 1 1 1 1 1 1 1 2 3 3 3 3 2 2 2 1 2 2 2 2 2
Within cluster sum of squares by cluster:
[1] 103.66545 87.86577 62.48320
(between_SS / total_SS = 82.7 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault" > fviz_cluster(final,data = data)> d = dist(as.matrix(data))
> hc = hclust(d)
> plot(hc)Berdasarkan Analisis deskriptif pada Data yang digunakan, diperoleh hasil sebagai berikut
> summary(data)
IPM AHH
Min. :56.45 Min. :62.10
1st Qu.:63.51 1st Qu.:67.02
Median :67.63 Median :70.48
Mean :67.94 Mean :69.12
3rd Qu.:71.17 3rd Qu.:71.53
Max. :78.51 Max. :73.00 Pada Tahap ini akan dilakukan analisis untuk menentukan banyak cluster yang akan digunakan untuk menghasilkan analisis yang optimal. untuk menentukannya digunakan metode yang bernama silhoutte dengan hasil sebagai berikut.
> fviz_nbclust(data,kmeans)berdasarkan perhitungan menggunakan metode silhouette tersebut jumlah cluster yang optimal adalah sebanyak 3 cluster. ## clustering analisis clustering yang digunakan pada penelitian ini adalah dengan metode K-Means. dengan hasil sebagai berikut.
> final=kmeans(data,3)
> print(final)
K-means clustering with 3 clusters of sizes 18, 10, 10
Cluster means:
IPM AHH
1 67.360 70.49833
2 75.228 71.20700
3 61.704 64.56200
Clustering vector:
[1] 1 1 1 1 1 1 1 3 3 1 3 3 3 3 2 1 1 1 1 1 1 1 1 1 2 3 3 3 3 2 2 2 1 2 2 2 2 2
Within cluster sum of squares by cluster:
[1] 103.66545 87.86577 62.48320
(between_SS / total_SS = 82.7 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault" dari hasil analysis diatas dengan pembagian ke 3 cluster yang berbeda dapat diketahui bahwa cluster kedua memiliki rata2 IPM dan angka harapan hidup tertinggi di Provinsi Jawa Timur.dan kluster ketiga memiliki rata2 IPM dan AHH terendah.
Selanjutnya akan ditampilkan plot hasil dari analisis cluster yang dilakukan sebelumnya.
> fviz_cluster(final,data = data)Dapat dilihat pada Cluster Plot diatas bahwa berdasarkan IPM dan AHH kabupaten/Kota dijawa timur terbagi menjadi 3 cluster yang masing-masing memiliki daerah berwarna merah, hijau, dan biru
Selanjutnya akan ditampilkan cluster plot persebaran kabupaten/kota di jawa timur sekaligus dengan kluster yang telah di tentukan
> tabel= data.frame(Data_Komstat[1],final$cluster)
> tabel
Kabupaten.Kota final.cluster
1 Pacitan 1
2 Ponorogo 1
3 Trenggalek 1
4 Tulungagung 1
5 Blitar 1
6 Kediri 1
7 Malang 1
8 Lumajang 3
9 Jember 3
10 Banyuwangi 1
11 Bondowoso 3
12 Situbondo 3
13 Probolinggo 3
14 Pasuruan 3
15 Sidoarjo 2
16 Mojokerto 1
17 Jombang 1
18 Nganjuk 1
19 Madiun 1
20 Magetan 1
21 Ngawi 1
22 Bojonegoro 1
23 Tuban 1
24 Lamongan 1
25 Gresik 2
26 Bangkalan 3
27 Sampang 3
28 Pamekasan 3
29 Sumenep 3
30 Kediri 2
31 Blitar 2
32 Malang 2
33 Probolinggo 1
34 Pasuruan 2
35 Mojokerto 2
36 Madiun 2
37 Surabaya 2
38 Batu 2Selanjutnya akan ditampilkan grafik dendogram untuk cluster persebaran kabupaten/kota dilihat dari IPM dan AHH
> d = dist(as.matrix(data))
> hc = hclust(d)
> plot(hc)
Dapat dilihat pada cluster dendogram diatas bahwa kabupaten/kota di Jawa
Timur dapat terbagi menjadi 3 kluster berdasarkan Indeks Pembangunan
Manusia dan Angka Harapan Hidup.
Marfalino, H., & Rahmi, A. (2015). Penerapan Analysis Clustering Pada Penjualan Komputer Dengan Perancanganan Aplikasi Data Mining Menggunakan Algoritma KMeans ( Study Kasus Toko Tri Buana Komputer Kota Solok ), 1(Senatkom), 50–59.
Sugiyono. 2007. Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung:Alfabeta.
Walpole, Ronald E.; “Pengantar Statistika“, edisi ke-3, Penerbit PT. Gramedia Pustaka Utama, Jakarta, 1995.