1 PENDAHULUAN
1.1 Latar Belakang
Pembangunan daerah di Indonesia menghadapi tantangan yang beragam, terutama terkait aspek sosial dan kesejahteraan masyarakat. Setiap provinsi memiliki karakteristik yang berbeda-beda dilihat dari indikator seperti persentase penduduk miskin, jumlah perceraian, jumlah kota, dan Indeks Pembangunan Manusia (IPM). Variasi nilai antar provinsi menunjukkan adanya perbedaan tingkat kesejahteraan, dinamika sosial, dan tingkat pembangunan yang cukup signifikan. Sebagai contoh, beberapa provinsi seperti Papua dan Papua Barat memiliki persentase penduduk miskin yang tinggi (di atas 20%), sementara provinsi lain seperti DKI Jakarta dan Bali memiliki tingkat kemiskinan jauh lebih rendah (di bawah 5%). Indikator lain seperti jumlah perceraian juga menunjukkan ketimpangan: provinsi besar seperti Jawa Barat, Jawa Timur, dan Jawa Tengah mencatat jumlah perceraian yang sangat tinggi, sedangkan wilayah seperti Kepulauan Riau, Bali, dan Kalimantan Utara melaporkan angka perceraian nol pada tahun pengamatan. Di sisi lain, Indeks Pembangunan Manusia (IPM) juga bervariasi cukup tajam, mulai dari provinsi dengan IPM tinggi seperti DKI Jakarta (80,77) dan DI Yogyakarta (79,97) hingga provinsi dengan IPM rendah seperti Papua (60,44). Jumlah kota sebagai indikator struktural wilayah juga menunjukkan tingkat urbanisasi yang tidak merata antar provinsi. Kondisi tersebut menandakan bahwa provinsi-provinsi di Indonesia tidak dapat dipandang sebagai satu kesatuan homogen. Diperlukan metode statistik yang mampu mengelompokkan provinsi berdasarkan kemiripan karakteristik sosial dan pembangunan agar dapat memberikan gambaran yang lebih jelas mengenai pola dan tipologi wilayah di Indonesia. Salah satu metode yang sesuai untuk tujuan tersebut adalah analisis cluster non-hierarki K-Means, yang bekerja dengan mengelompokkan objek ke dalam beberapa cluster berdasarkan ukuran kesamaan antar variabel. Melalui penerapan K-Means, provinsi-provinsi di Indonesia dapat dikelompokkan menjadi kelompok-kelompok yang memiliki karakteristik yang relatif serupa dalam hal tingkat kemiskinan, perceraian, urbanisasi, dan kualitas pembangunan manusia. Dengan demikian, analisis cluster ini berperan penting sebagai dasar bagi perencanaan pembangunan daerah, pengelompokan prioritas kebijakan, serta evaluasi pemerataan pembangunan antar provinsi di Indonesia.
2 TINJAUAN PUSTAKA
2.1 Analisis Cluster
Analisis cluster adalah metode statistik yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok (cluster) berdasarkan karakteristik yang serupa di antara objek tersebut. Tujuan utama analisis cluster adalah untuk menciptakan kelompok yang memiliki kesamaan yang maksimal di dalam kelompok dan meminimalkan kesamaan antar kelompok yang berbeda. Menurut Sitepu, R., dkk (2011), analisis cluster termasuk dalam analisis statistic multivariate interdependen, oleh karena itu tujuan dari analisis cluster tidak untuk menghubungkan ataupun membedakan dengan variabel lain. Analisis cluster dapat dibagi menjadi dua jenis berdasarkan struktur cluster yang dihasilkan, yaitu:
- Analisis Cluster Non-Hirarki : Analisis cluster non-hirarki melakukan proses clustering dengan langsung mengelompokkan semua observasi dalam dataset tanpa adanya tingkatan, sehingga proses pengelompokan terjadi dalam satu level atau tidak hirarki. Metode yang termasuk dalam jenis ini antara lain:
K-Means: Mengelompokkan data berdasarkan centroid yang diperbarui iteratif.
K-Medoids:Mirip dengan K-Means tetapi menggunakan medoid (poin aktual dalam dataset) sebagai pusat cluster.
DBSCAN (Density-based Spatial Clustering of Applications with Noise):Mengelompokkan data berdasarkan kepadatan, mampu menemukan cluster dengan bentuk arbitrer dan menangani noise.
- Analisis Cluster Hirarki: Analisis cluster hirarki adalah metode analisis kelompok yang menggunakan proses clustering bertingkat. Metode ini dibagi menjadi dua pendekatan utama:
Agglomeratif Clustering (Bottom-Up): Dimulai dengan setiap observasi menggabungkannya sebagai secara cluster bertahap terpisah dan berdasarkan kemiripan hingga semua observasi berada dalam satu cluster.
Divisif Clustering (Top-Down): Dimulai dengan satu cluster yang mencakup semua observasi dan membagi cluster ini secara bertahap hingga setiap observasi berada dalam cluster terpisah atau sesuai dengan jumlah cluster yang diinginkan.
2.2 Analisis Cluster Non Hierarki metode K-Means
K-Means adalah teknik pengelompokan non-hirarki yang digunakan dalam analisis data atau sebagai metode data mining yang berbasis unsupervised learning. Metode ini mengelompokkan data dengan menggunakan sistem partisi. Menurut Prasetyo, E. (2012), langkah-langkah melakukan clustering dengan metode K-Means adalah sebagai berikut:
- Menentukan k sebagai jumlah cluster yang ingin dibentuk
- Memasukkan data ke dalam cluster secara acak
- Menentukan pusat cluster (centroid) dari data yang ada pada masing-masing cluster dengan persamaan :
\[C_{kj} = \frac{X_{1j} + X_{2j} + \cdots + X_{nj}}{n}\]
Keterangan :
\(C_{kj}\) : pusat cluster ke-\(k\) pada variabel ke-\(j\)
\(n\) : banyaknya data pada cluster ke-\(k\)
4. Menentukan jarak setiap objek dengan setiap centroid menggunakan jarak Euclidean : \[d(X_i, X_g) = \sqrt{\sum_{j=1}^{p} (X_{ij} - X_{gj})^{2}}\] 5. Menghitung fungsi objektif dengan formula : \[J = \sum_{i=1}^{n} \sum_{j=1}^{k} a_{ij} \, d(X_i, C_{kj})^{2}\] 6. Mengalokasikan masing-masing data ke centroid terdekat yang dirumuskan sebagai berikut : \[a_{ij} = \begin{cases} 1, & \text{jika } j = \underset{s}{\arg\min}\{d(X_i, C_{ks})\} \\ 0, & \text{lainnya} \end{cases}\] 7. Mengulangi Kembali Langkah 3-6 sampai tidak ada lagi perpindahan objek atau tidak ada perubahan pada fungsi objektifnya.
2.3 Silhouette Index
Menurut penjelasan Paembonan & Abduh (2021), Metode validasi silhouette index adalah teknik yang digunakan untuk mengevaluasi kualitas pengelompokan (clustering) berdasarkan kriteria internal. Indeks ini mengukur seberapa baik setiap objek ditempatkan dalam clusternya dengan membandingkan jarak rata-rata objek tersebut dengan objek lain dalam cluster yang sama, serta jarak objek tersebut dengan objek dari cluster yang berbeda. Semakin besar nilai silhouette untuk sebuah objek, semakin tepat penempatan objek tersebut dalam clusternya. Koefisien silhouette dihitung sebagai rata rata dari nilai-nilai silhouette untuk setiap objek dalam data, yang dilambangkan dengan s(𝑖). \[ SC = \frac{s(1) + s(2) + s(3) + \cdots + s(n)}{n} \] Keterangan :
\(a(i)\) : rata-rata jarak objek ke-\(i\) dengan semua objek dalam satu klaster
\(b(i)\) : nilai minimum dari rata-rata jarak objek ke-\(i\) dengan objek pada klaster lain
\(n\) : banyaknya objek
3 SOURCE CODE
3.1 Library
3.2 Data
Berikut merupakan data yang akan digunakan untuk Analisis Cluster K-Means :
> datacluster<- read_excel("C:/Users/syifa syalsabillah/Downloads/DATACLUSTER.xlsx",
+ col_types = c("text", "numeric", "numeric",
+ "numeric", "numeric"))
> datacluster
# A tibble: 34 × 5
PROVINSI PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
<chr> <dbl> <dbl> <dbl> <dbl>
1 ACEH 15.4 4171 5 72.0
2 SUMATERA UTARA 9.14 12809 8 71.8
3 SUMATERA BARAT 6.56 5291 7 72.4
4 RIAU 7.04 6252 2 72.7
5 JAMBI 7.97 3883 2 71.3
6 SUMATERA SELATAN 13.0 6402 4 70.0
7 BENGKULU 15.3 3104 1 71.4
8 LAMPUNG 12.8 11227 2 69.7
9 KEP. BANGKA BELITUNG 4.89 2001 1 71.5
10 KEP. RIAU 6.13 0 2 75.6
# ℹ 24 more rowsKeterangan :
Library readxl berfungsi memuat package readxl yang digunakan untuk membaca file excel dengan format .xlsx.
Library tidyverse digunakan sebagai alat untuk manipulasi data (dplyr), visualisasi data (ggplot2), dan pengolahan data berbasis tidy (terstruktur).
Library cluster berfungsi memuat package cluster yang digunakan untuk melakukan dan menganalisis klasterisasi data.
Library factoextra digunakan untuk membantu dalam visualisasi hasil analisis multivariat seperti PCA (Principal Component Analysis), clustering, dan analisis faktor.
Library clValid berfungsi memuat package clValid yang digunakan untuk evaluasi dan validasi hasil clustering, seperti indeks.
3.3 Analisis
> datacluster<- read_excel("C:/Users/syifa syalsabillah/Downloads/DATACLUSTER.xlsx",
+ col_types = c("text", "numeric", "numeric",
+ "numeric", "numeric"))
> datacluster
# A tibble: 34 × 5
PROVINSI PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
<chr> <dbl> <dbl> <dbl> <dbl>
1 ACEH 15.4 4171 5 72.0
2 SUMATERA UTARA 9.14 12809 8 71.8
3 SUMATERA BARAT 6.56 5291 7 72.4
4 RIAU 7.04 6252 2 72.7
5 JAMBI 7.97 3883 2 71.3
6 SUMATERA SELATAN 13.0 6402 4 70.0
7 BENGKULU 15.3 3104 1 71.4
8 LAMPUNG 12.8 11227 2 69.7
9 KEP. BANGKA BELITUNG 4.89 2001 1 71.5
10 KEP. RIAU 6.13 0 2 75.6
# ℹ 24 more rows
> # Membaca data dan memeriksa struktur data
> dataclus1 <- na.omit(datacluster) # Menghapus data missing
> str(dataclus1) # Memeriksa struktur data
tibble [34 × 5] (S3: tbl_df/tbl/data.frame)
$ PROVINSI : chr [1:34] "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "RIAU" ...
$ PERS.PEND.MISKIN: num [1:34] 15.43 9.14 6.56 7.04 7.97 ...
$ JML.CERAI : num [1:34] 4171 12809 5291 6252 3883 ...
$ JML.KOTA : num [1:34] 5 8 7 2 2 4 1 2 1 2 ...
$ IPM : num [1:34] 72 71.8 72.4 72.7 71.3 ...
>
> # Mengambil kolom numerik (kolom 2 sampai 5)
> datanumerik <- dataclus1[, 2:5]
>
> # Konversi ke numerik
> datanumerik <- datanumerik %>% mutate(across(everything(), as.numeric))
>
> # Statistik Deskriptif
> descriptive_stats <- summary(datanumerik)
> print(descriptive_stats)
PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
Min. : 4.450 Min. : 0 Min. :0.000 Min. :60.44
1st Qu.: 6.723 1st Qu.: 1336 1st Qu.:1.000 1st Qu.:69.50
Median : 9.065 Median : 3646 Median :2.000 Median :71.42
Mean :10.806 Mean : 8579 Mean :2.882 Mean :71.08
3rd Qu.:13.040 3rd Qu.: 6860 3rd Qu.:4.000 3rd Qu.:72.31
Max. :26.800 Max. :65755 Max. :9.000 Max. :80.77
>
> # Standarisasi data
> datanegara_fix <- scale(datanumerik)
> datanegara_fix <- as.data.frame(datanegara_fix)
>
> # Validasi jumlah cluster
> validitas <- clValid(datanegara_fix, 2:8, clMethods = "kmeans", validation = "internal", metric = "euclidean")
> summary(validitas)
Clustering Methods:
kmeans
Cluster sizes:
2 3 4 5 6 7 8
Validation Measures:
2 3 4 5 6 7 8
kmeans Connectivity 6.9992 14.8131 26.4786 28.5694 31.7238 35.2409 35.5944
Dunn 0.1178 0.1885 0.1176 0.2842 0.3040 0.3040 0.3486
Silhouette 0.4747 0.3623 0.3093 0.3368 0.3555 0.3570 0.3249
Optimal Scores:
Score Method Clusters
Connectivity 6.9992 kmeans 2
Dunn 0.3486 kmeans 8
Silhouette 0.4747 kmeans 2
> optimalScores(validitas)
Score Method Clusters
Connectivity 6.9992063 kmeans 2
Dunn 0.3486146 kmeans 8
Silhouette 0.4746755 kmeans 2
> plot(validitas)>
> # Clustering K-Means
> set.seed(123) # Untuk hasil yang konsisten
> final <- kmeans(datanegara_fix, centers = 2, nstart = 25)
> print(final)
K-means clustering with 2 clusters of sizes 28, 6
Cluster means:
PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
1 0.08388236 -0.3286234 -0.3918319 -0.1291017
2 -0.39145102 1.5335759 1.8285490 0.6024746
Clustering vector:
[1] 1 2 2 1 1 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Within cluster sum of squares by cluster:
[1] 64.44391 22.29974
(between_SS / total_SS = 34.3 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
>
> # Visualisasi cluster
> fviz_cluster(final, data = datanegara_fix)>
> # Menghitung rata-rata tiap variabel untuk tiap cluster
> mean_per_cluster <- aggregate(datanegara_fix, by = list(Cluster = final$cluster), mean)
> print(mean_per_cluster)
Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
1 1 0.08388236 -0.3286234 -0.3918319 -0.1291017
2 2 -0.39145102 1.5335759 1.8285490 0.6024746
>
> # Menambahkan hasil cluster ke dataset asli
> dataclus1 <- dataclus1 %>%
+ mutate(Cluster = final$cluster)
>
> # Menampilkan nama provinsi anggota tiap cluster
> countries_by_cluster <- dataclus1 %>%
+ select(Provinsi = PROVINSI, Cluster) %>%
+ arrange(Cluster)
>
> # Tampilkan hasilnya
> print(countries_by_cluster, n=36)
# A tibble: 34 × 2
Provinsi Cluster
<chr> <int>
1 ACEH 1
2 RIAU 1
3 JAMBI 1
4 SUMATERA SELATAN 1
5 BENGKULU 1
6 LAMPUNG 1
7 KEP. BANGKA BELITUNG 1
8 KEP. RIAU 1
9 DI YOGYAKARTA 1
10 BANTEN 1
11 BALI 1
12 NUSA TENGGARA BARAT 1
13 NUSA TENGGARA TIMUR 1
14 KALIMANTAN BARAT 1
15 KALIMANTAN TENGAH 1
16 KALIMANTAN SELATAN 1
17 KALIMANTAN TIMUR 1
18 KALIMANTAN UTARA 1
19 SULAWESI UTARA 1
20 SULAWESI TENGAH 1
21 SULAWESI SELATAN 1
22 SULAWESI TENGGARA 1
23 GORONTALO 1
24 SULAWESI BARAT 1
25 MALUKU 1
26 MALUKU UTARA 1
27 PAPUA BARAT 1
28 PAPUA 1
29 SUMATERA UTARA 2
30 SUMATERA BARAT 2
31 DKI JAKARTA 2
32 JAWA BARAT 2
33 JAWA TENGAH 2
34 JAWA TIMUR 2
>
> # Menyimpan daftar negara untuk tiap cluster
> list_of_countries <- countries_by_cluster %>%
+ group_by(Cluster) %>%
+ summarise(Provinsi = paste(Provinsi, collapse = ", "))
> print(list_of_countries)
# A tibble: 2 × 2
Cluster Provinsi
<int> <chr>
1 1 ACEH, RIAU, JAMBI, SUMATERA SELATAN, BENGKULU, LAMPUNG, KEP. BANGKA B…
2 2 SUMATERA UTARA, SUMATERA BARAT, DKI JAKARTA, JAWA BARAT, JAWA TENGAH,…4 HASIL DAN PEMBAHASAN
4.1 Statistika Deskriptif
Berdasarkan output di dapatkan hasil sebagai berikut:
> descriptive_stats
PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
Min. : 4.450 Min. : 0 Min. :0.000 Min. :60.44
1st Qu.: 6.723 1st Qu.: 1336 1st Qu.:1.000 1st Qu.:69.50
Median : 9.065 Median : 3646 Median :2.000 Median :71.42
Mean :10.806 Mean : 8579 Mean :2.882 Mean :71.08
3rd Qu.:13.040 3rd Qu.: 6860 3rd Qu.:4.000 3rd Qu.:72.31
Max. :26.800 Max. :65755 Max. :9.000 Max. :80.77 4.2 Uji Indeks Validitas
Hasil :
> validitas <- clValid(datanegara_fix, 2:8, clMethods = "kmeans", validation = "internal", metric = "euclidean")
> summary(validitas)
Clustering Methods:
kmeans
Cluster sizes:
2 3 4 5 6 7 8
Validation Measures:
2 3 4 5 6 7 8
kmeans Connectivity 6.9992 14.8131 26.4786 28.5694 31.7238 35.2409 35.5944
Dunn 0.1178 0.1885 0.1176 0.2842 0.3040 0.3040 0.3486
Silhouette 0.4747 0.3623 0.3093 0.3368 0.3555 0.3570 0.3249
Optimal Scores:
Score Method Clusters
Connectivity 6.9992 kmeans 2
Dunn 0.3486 kmeans 8
Silhouette 0.4747 kmeans 2
> optimalScores(validitas)
Score Method Clusters
Connectivity 6.9992063 kmeans 2
Dunn 0.3486146 kmeans 8
Silhouette 0.4746755 kmeans 2
> plot(validitas)Intrepetasi :
Berdasarkan hasil analisis validitas menggunakan tiga indeks yang berbeda, yaitu Connectivity, Dunn, dan Silhouette, semuanya memberikan nilai optimal pada jumlah cluster sebanyak 2 cluster.
Indeks Connectivity mengukur seberapa kuat keterhubungan antar data dalam suatu cluster. Semakin rendah nilai connectivity, semakin baik cluster yang terbentuk. Pada analisis ini, nilai yang diperoleh untuk 2 cluster menunjukkan hubungan yang lebih erat antar elemen di dalam cluster tersebut dibandingkan dengan jumlah cluster yang lebih tinggi.
Indeks Dunn mengukur seberapa jauh jarak antar cluster dan seberapa padat setiap cluster. Nilai Dunn yang optimal pada 2 cluster mengindikasikan bahwa pembagian data menjadi dua kelompok memberikan jarak yang cukup jelas antara kelompok yang satu dengan yang lainnya, sekaligus menjaga kepadatan yang tinggi di dalam setiap cluster.
Indeks Silhouette memberikan gambaran mengenai seberapa baik pengelompokan yang dilakukan dengan membandingkan jarak antar objek di dalam cluster yang sama dan jarak antar cluster yang berbeda. Nilai Silhouette untuk 2 cluster lebih tinggi dibandingkan dengan jumlah cluster lainnya, yang menandakan bahwa dua cluster ini memberikan pemisahan yang lebih jelas dan homogenitas yang lebih tinggi di dalam masing-masing cluster.
Secara keseluruhan, hasil ini menunjukkan bahwa pengelompokan dengan 2 cluster menghasilkan struktur yang lebih optimal dan representatif dari data yang ada. Oleh karena itu, 2 cluster akan digunakan sebagai dasar untuk analisis lebih lanjut.
4.3 Visualisasi Klaster
Hasil Visualisasi Klaster :
> # Clustering K-Means
> set.seed(123) # Untuk hasil yang konsisten
> final <- kmeans(datanegara_fix, centers = 2, nstart = 25)
> print(final)
K-means clustering with 2 clusters of sizes 28, 6
Cluster means:
PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
1 0.08388236 -0.3286234 -0.3918319 -0.1291017
2 -0.39145102 1.5335759 1.8285490 0.6024746
Clustering vector:
[1] 1 2 2 1 1 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Within cluster sum of squares by cluster:
[1] 64.44391 22.29974
(between_SS / total_SS = 34.3 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
>
> # Visualisasi cluster
> fviz_cluster(final, data = datanegara_fix)Intrepetasi :
Berdasarkan visualisasi cluster yang diperoleh dari analisis K-Means, hasil clustering menunjukkan dua kelompok yang sangat berbeda dalam karakteristik sosial-ekonomi dan pembangunan antar provinsi di Indonesia. Cluster pertama, yang terletak di bagian kanan plot (dengan warna merah), menggambarkan provinsi-provinsi dengan karakteristik sosial-ekonomi yang lebih tinggi. Provinsi-provinsi dalam cluster ini umumnya memiliki tingkat kemiskinan yang lebih rendah, Indeks Pembangunan Manusia (IPM) yang lebih tinggi, serta kualitas hidup yang lebih baik. Selain itu, provinsi dalam cluster ini cenderung memiliki tingkat urbanisasi yang lebih tinggi, yang menandakan adanya pembangunan yang lebih maju.
Di sisi lain, cluster kedua, yang terletak di bagian kiri plot (dengan warna biru), mencerminkan provinsi-provinsi dengan kondisi sosial-ekonomi yang lebih rendah. Provinsi dalam cluster ini menunjukkan tingkat kemiskinan yang lebih tinggi, IPM yang lebih rendah, serta tantangan yang lebih besar dalam hal pembangunan. Provinsi-provinsi ini sering kali menghadapi kesulitan dalam mengatasi masalah kemiskinan dan meningkatkan kualitas hidup masyarakatnya. Ketimpangan yang terlihat antara kedua cluster ini menunjukkan adanya disparitas yang signifikan dalam hal pembangunan sosial-ekonomi antar provinsi di Indonesia.
Dengan pemisahan yang jelas ini, analisis cluster ini memberikan gambaran yang lebih mendalam mengenai perbedaan antar provinsi, yang bisa menjadi dasar bagi pembuat kebijakan untuk merancang program pembangunan yang lebih tepat sasaran, guna mengurangi ketimpangan dan mendorong pemerataan pembangunan di seluruh wilayah Indonesia.
4.4 Identifikasi Provinsi Berdasarkan Cluster
Dari hasil clustering didapatkan hasil Provinsi dalam Cluster 1 dan Cluster 2 Berdasarkan Tingkat Kemiskinan dan IPM sebagai berikut:
> print(countries_by_cluster, n=36)
# A tibble: 34 × 2
Provinsi Cluster
<chr> <int>
1 ACEH 1
2 RIAU 1
3 JAMBI 1
4 SUMATERA SELATAN 1
5 BENGKULU 1
6 LAMPUNG 1
7 KEP. BANGKA BELITUNG 1
8 KEP. RIAU 1
9 DI YOGYAKARTA 1
10 BANTEN 1
11 BALI 1
12 NUSA TENGGARA BARAT 1
13 NUSA TENGGARA TIMUR 1
14 KALIMANTAN BARAT 1
15 KALIMANTAN TENGAH 1
16 KALIMANTAN SELATAN 1
17 KALIMANTAN TIMUR 1
18 KALIMANTAN UTARA 1
19 SULAWESI UTARA 1
20 SULAWESI TENGAH 1
21 SULAWESI SELATAN 1
22 SULAWESI TENGGARA 1
23 GORONTALO 1
24 SULAWESI BARAT 1
25 MALUKU 1
26 MALUKU UTARA 1
27 PAPUA BARAT 1
28 PAPUA 1
29 SUMATERA UTARA 2
30 SUMATERA BARAT 2
31 DKI JAKARTA 2
32 JAWA BARAT 2
33 JAWA TENGAH 2
34 JAWA TIMUR 2Interpretasi : Berdasarkan hasil clustering, provinsi-provinsi di Indonesia terbagi menjadi dua cluster yang berbeda berdasarkan karakteristik sosial dan ekonomi mereka.
Cluster 1 terdiri dari provinsi-provinsi yang memiliki karakteristik sosial-ekonomi lebih baik. Provinsi dalam cluster ini termasuk Sumatera Utara, DKI Jakarta, Jawa Barat, Jawa Tengah, dan Jawa Timur, yang umumnya memiliki tingkat kemiskinan lebih rendah dan Indeks Pembangunan Manusia (IPM) yang lebih tinggi. Provinsi-provinsi ini juga cenderung lebih berkembang dalam aspek urbanisasi dan infrastruktur.
Sementara itu, Cluster 2 mencakup provinsi-provinsi yang memiliki tantangan sosial-ekonomi lebih besar. Provinsi dalam cluster ini termasuk Aceh, RIAU, Jambi, Sumatera Selatan, Lampung, Kalimantan, Sulawesi, serta provinsi-provinsi di wilayah Papua seperti Papua Barat dan Papua. Cluster ini cenderung menunjukkan tingkat kemiskinan yang lebih tinggi, serta memiliki tantangan lebih besar dalam pembangunan sosial-ekonomi, meskipun beberapa provinsi di cluster ini memiliki lebih banyak kota dan tingkat urbanisasi yang lebih tinggi dibandingkan dengan provinsi di Cluster 1.
4.5 Karakteristik Setiap Cluster
Hasil :
> print(mean_per_cluster)
Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
1 1 0.08388236 -0.3286234 -0.3918319 -0.1291017
2 2 -0.39145102 1.5335759 1.8285490 0.6024746Intrepetasi :
Berdasarkan hasil analisis K-Means yang dilakukan pada data provinsi, terdapat dua cluster yang terbentuk dengan karakteristik yang berbeda dalam hal aspek sosial dan ekonomi.
Cluster 1 menunjukkan provinsi-provinsi dengan tingkat kemiskinan yang lebih rendah, dengan nilai rata-rata PERS.PEND.MISKIN sebesar 0.0839. Selain itu, provinsi dalam cluster ini juga memiliki jumlah perceraian yang lebih sedikit, dengan nilai rata-rata JML.CERAI sebesar -0.3286, serta tingkat urbanisasi yang lebih rendah, yang tercermin dari nilai JML.KOTA rata-rata -0.3918. Provinsi-provinsi dalam cluster ini dapat dikategorikan sebagai daerah dengan kualitas hidup yang lebih baik, di mana kemiskinan dan masalah sosial lainnya lebih terkendali. Provinsi-provinisi dalam cluster ini dapat difokuskan untuk mempertahankan tingkat pembangunan yang sudah ada dan terus mengembangkan kebijakan yang berkelanjutan.
Sementara itu, Cluster 2 menggambarkan provinsi-provinsi dengan tingkat kemiskinan yang lebih tinggi, yang tercermin dari nilai rata-rata PERS.PEND.MISKIN sebesar -0.3915. Selain itu, provinsi dalam cluster ini memiliki tingkat perceraian yang lebih tinggi, dengan nilai rata-rata JML.CERAI sebesar 1.5336, dan jumlah kota yang lebih banyak, yang menunjukkan tingkat urbanisasi yang lebih tinggi, dengan nilai rata-rata JML.KOTA sebesar 1.8285. Meskipun memiliki lebih banyak kota, provinsi dalam cluster ini menghadapi tantangan besar dalam hal kemiskinan dan masalah sosial, seperti perceraian. Oleh karena itu, provinsi dalam cluster ini memerlukan kebijakan pembangunan yang lebih terfokus pada peningkatan kesejahteraan, pengurangan kemiskinan, dan intervensi sosial yang efektif.
Dengan demikian, pembagian provinsi ke dalam dua cluster ini memberikan gambaran yang lebih jelas tentang ketimpangan sosial dan ekonomi antar provinsi di Indonesia. Cluster 1, yang menunjukkan provinsi dengan tingkat kemiskinan dan masalah sosial yang lebih rendah, bisa lebih difokuskan pada penguatan dan keberlanjutan pembangunan yang sudah ada. Sementara itu, Cluster 2 memerlukan perhatian khusus dengan kebijakan yang lebih intensif untuk mengatasi ketimpangan sosial dan ekonomi, serta memfokuskan pada pengurangan tingkat kemiskinan dan peningkatan kualitas hidup masyarakat.
5 PENUTUP
5.1 KESIMPULAN
Berdasarkan hasil analisis cluster K-Means yang dilakukan pada data provinsi di Indonesia, terdapat dua cluster dengan karakteristik sosial dan ekonomi yang berbeda. Cluster 1 terdiri dari provinsi-provinsi yang memiliki tingkat kemiskinan lebih rendah, Indeks Pembangunan Manusia (IPM) yang lebih tinggi, serta kualitas hidup yang lebih baik. Provinsi dalam cluster ini, seperti DKI Jakarta, Jawa Barat, dan Jawa Timur, cenderung lebih maju dalam pembangunan dan urbanisasi. Di sisi lain, Cluster 2 mencakup provinsi-provinsi yang menghadapi tantangan sosial-ekonomi yang lebih besar, dengan tingkat kemiskinan yang lebih tinggi, IPM yang lebih rendah, dan lebih banyak masalah sosial, seperti tingkat perceraian yang lebih tinggi. Provinsi dalam cluster ini, termasuk Aceh, Riau, Jambi, dan Papua, memerlukan perhatian khusus dalam hal pengentasan kemiskinan dan peningkatan kualitas hidup.
Pemisahan provinsi ke dalam dua cluster ini memberikan gambaran yang jelas mengenai ketimpangan sosial-ekonomi antar provinsi di Indonesia. Dengan demikian, hasil ini menjadi dasar yang kuat bagi pengambilan kebijakan pembangunan yang lebih terfokus dan berbasis data.
5.2 SARAN
Untuk provinsi dalam Cluster 1, yang memiliki karakteristik sosial-ekonomi yang lebih baik, kebijakan sebaiknya difokuskan pada penguatan infrastruktur yang sudah ada, seperti transportasi, energi, dan teknologi informasi, untuk mendukung pertumbuhan berkelanjutan. Selain itu, sektor pendidikan dan kesehatan perlu terus ditingkatkan untuk mempertahankan kualitas hidup yang tinggi. Provinsi dalam cluster ini juga dapat memanfaatkan potensi sektor pariwisata dan ekonomi kreatif untuk menciptakan lapangan pekerjaan baru dan mendorong pertumbuhan ekonomi.
Sementara itu, untuk provinsi dalam Cluster 2, yang menghadapi tantangan sosial-ekonomi lebih besar, kebijakan harus lebih terfokus pada pengurangan kemiskinan melalui program bantuan sosial dan pemberdayaan masyarakat, seperti pelatihan keterampilan. Pembangunan infrastruktur dasar, termasuk akses air bersih, sanitasi, dan listrik, harus dipercepat untuk meningkatkan kualitas hidup. Selain itu, pemberdayaan UMKM perlu didorong melalui pelatihan kewirausahaan, akses modal, dan pasar untuk membuka lapangan pekerjaan baru dan meningkatkan pendapatan masyarakat.
Dengan kebijakan yang terfokus berdasarkan hasil clustering ini, setiap provinsi dapat memperoleh perhatian yang sesuai dengan tantangan sosial-ekonominya, sehingga pemerataan pembangunan dapat tercapai dengan lebih efektif di seluruh Indonesia.
6 DAFTAR PUSTAKA
Akbar, D. A. R., & Lusia, D. A. (2022). Perbandingan Jarak Euclidean Dan Manhattan Pada Analisis Cluster Hierarki Dan K-Means. Sarjana thesis, Universitas Brawijaya.
Bangoria et al. (2013). “Application of k-Means Clustering Algorithm for Prediction of Students’ Academic Performance.”
Burlian, P. (2016). Patologi Sosial. Jakarta: Bumi Aksara. Badan Pusat Statistik. (2023). Statistik Kriminal 2023.
Ghozali, I. 2016. Aplikasi Analisis Multivariete Dengan Program IBM SPSS 23. Edisi 8. Semarang: Badan Penerbit Universitas Diponegoro.
Kamila, I., Khairunnisa, U., & Mustakim, M. (2019). “Perbandingan Algoritma K-Means dan K-Medoids untuk Pengelompokan Data Transaksi Bongkar Muat di Provinsi Riau.” Jurnal Informatika.
Luna-Romera, J. M., Martínez-Ballesteros, M. del M., García-Gutiérrez, J., & Riquelme-Santos, J. C. (2020). An Approach to Silhouette and Dunn Clustering Indices Applied to Big Data in Spark. Journal of Computer Science and Technology, 35(4), 703-718.
Madhulatha, T.S. (2012). “An Overview of Clustering Methods.” Journal of Computer Science and Engineering.
Muchson, M. (2017). Statistik Deskriptif. Bogor: Guepedia. Nahdliyahm M. A., & other. (2019). METODE K-MEDOIDS CLUSTERING DENGAN VALIDASI SILHOUETTE INDEX DAN C-INDEX. Jurnal Gaussian, 8(2), 161-170.
Nalim, Y., Turmudi, S. (2012). Statistika Deskriptif. Pekalongan: STAIN Pekalongan Press. Pramesti, E. N., & other. (2021). Analisis Jalur Faktor-faktor yang Mempengaruhi Jumlah Kriminalitas di Jawa Timur Tahun 2020. Jurnal Sains Matematika dan Statistika, 7(2), 38-49.
Prasetyo, E. 2012. Data Mining: Konsep dan Aplikasi Menggunakan Matlab. Yogyakarta: Andi Offset.
Riquelme-Santos, J. C., Martínez-Ballesteros, M. del M., & Luna-Romera, J. M. (2015). A new validity index for crisp clusters. Pattern Analysis and Applications, 18(4), 827-835.
Saha, S., & Bandyopadhyay, S. (2012). Some connectivity based cluster validity indices. Applied Soft Computing, 12(3), 1555-1565.
Sitepu, R., Irmeilyana, & Gulltom, B. (2011). Analisis Cluster terhadap Tingkat Pencemaran Udara pada Sektor Industri di Sumatera Selatan. Jurnal Penelitian Sains: Jurnal Sains Dan Matematika Unpam, 14(3), 11-17.
Wahyuning, S. 2021. Dasar – Dasar Statistika. Semarang: Yayasan Prima Agus Teknik.
Walpole, R. E. 1988. Pengantar Statistika Edisi ke-3. (Alih bahasa: Ir. Bambang Sumantri). Jakarta: PT Gramedia Pustaka Utama