Penerapan K-Means Clustering analysis untuk mengetaui pembagian kabupaten/kota di jawa timur berdasarkan IPM & Angka harapan Hidup

Anwar Khoirudin

22/5/2022


Library:

> install.packages("cluster")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("factoextra")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
> install.packages("tidyverse")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

1 PENDAHULUAN

1.1 Latar Belakang

Pembangunan nasional Indonesia menempatkan rakyat sebagai titik sentral pembangunan. Untuk dapat ikut berpartisipasi dalam proses pembangunan, tentunya dibutuhkan masyarakat yang unggul dari segi kuantitas dan kualitas.Pengelompokan wilayah kabupaten/kota di Maluku perlu dilakukan sebagai bahan perencanaan dan evaluasi sasaran program pemerintah.Pada penelitian ini dibahas tentang pemanfaatan alogaritma K-Means untuk mengelompokan kabupaten/kota di Provinsi Jawa Tengah berdasarkan IPM dan Angka Harapan Hidup. ## Statistika Deskriptif Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu data sehingga memberikan informasi yang berguna (Walpole, 1995). Statistik deskriptif berfungsi untuk mendeskripsikan atau memberi gambaran terhadap objek yang diteliti melalui data sampel atau populasi (Sugiyono, 2007). ## Analisis Cluster Clutering adalah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai persamaan berdasarkan matriks tertentu. Analisis cluster atau analisis kelompok merupakan teknik analisa data yang bertujuan untuk mengelompokan individu atau objek ke dalam beberapa kelompok yang memiliki sifat berbeda antar kelompok, sehingga individu atau objek yang terletak di dalam satu kelompok akan mempunyai sifat relatif homogen. Tujuan analisis cluster adalah mengelompokan objekobjek tersebut. ### Metode K-Means K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain (Marfalino, & Rahmi, 2015). ## Data Data yang digunakan pada penelitian ini merupakan data sekunder IPM dan Angka Harapan Hidup Provinsi Jawa Timur berdasarkan kabupaten/kota yang didapat melalui BPS (Badan Pusat Statistik).

> library(readxl)
> Data_Komstat <- read_excel("C:/Users/ASUS TUF/OneDrive/Desktop/Data Komstat.xlsx")
> Data_Komstat
# A tibble: 38 x 3
   `Kabupaten/Kota`   IPM   AHH
   <chr>            <dbl> <dbl>
 1 Pacitan           63.4  72.2
 2 Ponorogo          67.0  70.8
 3 Trenggalek        65.8  72.3
 4 Tulungagung       69.3  72.0
 5 Blitar            66.5  71.8
 6 Kediri            68.0  70.6
 7 Malang            65.2  69.7
 8 Lumajang          61.9  68.0
 9 Jember            62.4  63.6
10 Banyuwangi        66.7  68.6
# ... with 28 more rows

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> # Library
> library(cluster)
> library(factoextra)
> library(tidyverse)

2.2 Statistika Deskriptif

> data<-Data_Komstat[2:3]
> summary(data)
      IPM             AHH       
 Min.   :56.45   Min.   :62.10  
 1st Qu.:63.51   1st Qu.:67.02  
 Median :67.63   Median :70.48  
 Mean   :67.94   Mean   :69.12  
 3rd Qu.:71.17   3rd Qu.:71.53  
 Max.   :78.51   Max.   :73.00  

2.3 Menentukan jumlah cluster(silhoutte)

> fviz_nbclust(data,kmeans)

2.4 K-means Clustering Analysist

> final=kmeans(data,3)
> print(final)
K-means clustering with 3 clusters of sizes 18, 10, 10

Cluster means:
     IPM      AHH
1 67.360 70.49833
2 75.228 71.20700
3 61.704 64.56200

Clustering vector:
 [1] 1 1 1 1 1 1 1 3 3 1 3 3 3 3 2 1 1 1 1 1 1 1 1 1 2 3 3 3 3 2 2 2 1 2 2 2 2 2

Within cluster sum of squares by cluster:
[1] 103.66545  87.86577  62.48320
 (between_SS / total_SS =  82.7 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      

2.5 Plot Clustering Analysist

> fviz_cluster(final,data = data)

2.6 Cluster Dendogram

> d = dist(as.matrix(data))   
> hc = hclust(d)                  
> plot(hc)

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Berdasarkan Analisis deskriptif pada Data yang digunakan, diperoleh hasil sebagai berikut

> summary(data)
      IPM             AHH       
 Min.   :56.45   Min.   :62.10  
 1st Qu.:63.51   1st Qu.:67.02  
 Median :67.63   Median :70.48  
 Mean   :67.94   Mean   :69.12  
 3rd Qu.:71.17   3rd Qu.:71.53  
 Max.   :78.51   Max.   :73.00  

3.2 Menentukan jumlah cluster(silhoutte)

Pada Tahap ini akan dilakukan analisis untuk menentukan banyak cluster yang akan digunakan untuk menghasilkan analisis yang optimal. untuk menentukannya digunakan metode yang bernama silhoutte dengan hasil sebagai berikut.

> fviz_nbclust(data,kmeans)

berdasarkan perhitungan menggunakan metode silhouette tersebut jumlah cluster yang optimal adalah sebanyak 3 cluster. ## clustering analisis clustering yang digunakan pada penelitian ini adalah dengan metode K-Means. dengan hasil sebagai berikut.

> final=kmeans(data,3)
> print(final)
K-means clustering with 3 clusters of sizes 18, 10, 10

Cluster means:
     IPM      AHH
1 67.360 70.49833
2 75.228 71.20700
3 61.704 64.56200

Clustering vector:
 [1] 1 1 1 1 1 1 1 3 3 1 3 3 3 3 2 1 1 1 1 1 1 1 1 1 2 3 3 3 3 2 2 2 1 2 2 2 2 2

Within cluster sum of squares by cluster:
[1] 103.66545  87.86577  62.48320
 (between_SS / total_SS =  82.7 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      

dari hasil analysis diatas dengan pembagian ke 3 cluster yang berbeda dapat diketahui bahwa cluster kedua memiliki rata2 IPM dan angka harapan hidup tertinggi di Provinsi Jawa Timur.dan kluster ketiga memiliki rata2 IPM dan AHH terendah.

3.3 Cluster Plot

Selanjutnya akan ditampilkan plot hasil dari analisis cluster yang dilakukan sebelumnya.

> fviz_cluster(final,data = data)

Dapat dilihat pada Cluster Plot diatas bahwa berdasarkan IPM dan AHH kabupaten/Kota dijawa timur terbagi menjadi 3 cluster yang masing-masing memiliki daerah berwarna merah, hijau, dan biru

3.4 Tabel

Selanjutnya akan ditampilkan cluster plot persebaran kabupaten/kota di jawa timur sekaligus dengan kluster yang telah di tentukan

> tabel= data.frame(Data_Komstat[1],final$cluster)
> tabel
   Kabupaten.Kota final.cluster
1         Pacitan             1
2        Ponorogo             1
3      Trenggalek             1
4     Tulungagung             1
5          Blitar             1
6          Kediri             1
7          Malang             1
8        Lumajang             3
9          Jember             3
10     Banyuwangi             1
11      Bondowoso             3
12      Situbondo             3
13    Probolinggo             3
14       Pasuruan             3
15       Sidoarjo             2
16      Mojokerto             1
17        Jombang             1
18        Nganjuk             1
19         Madiun             1
20        Magetan             1
21          Ngawi             1
22     Bojonegoro             1
23          Tuban             1
24       Lamongan             1
25         Gresik             2
26      Bangkalan             3
27        Sampang             3
28      Pamekasan             3
29        Sumenep             3
30         Kediri             2
31         Blitar             2
32         Malang             2
33    Probolinggo             1
34       Pasuruan             2
35      Mojokerto             2
36         Madiun             2
37       Surabaya             2
38           Batu             2

3.5 dendogram

Selanjutnya akan ditampilkan grafik dendogram untuk cluster persebaran kabupaten/kota dilihat dari IPM dan AHH

> d = dist(as.matrix(data))   
> hc = hclust(d)                  
> plot(hc)

Dapat dilihat pada cluster dendogram diatas bahwa kabupaten/kota di Jawa Timur dapat terbagi menjadi 3 kluster berdasarkan Indeks Pembangunan Manusia dan Angka Harapan Hidup.

4 DAFTAR PUSTAKA

Marfalino, H., & Rahmi, A. (2015). Penerapan Analysis Clustering Pada Penjualan Komputer Dengan Perancanganan Aplikasi Data Mining Menggunakan Algoritma KMeans ( Study Kasus Toko Tri Buana Komputer Kota Solok ), 1(Senatkom), 50–59.

Sugiyono. 2007. Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung:Alfabeta.

Walpole, Ronald E.; “Pengantar Statistika“, edisi ke-3, Penerbit PT. Gramedia Pustaka Utama, Jakarta, 1995.