Indonesia memiliki keragaman kondisi sosial dan ekonomi yang cukup tinggi. Perbedaan tersebut dapat dilihat dari indikator kemiskinan, jumlah perceraian yang mencerminkan dinamika sosial, jumlah kota sebagai penanda struktur wilayah dan urbanisasi, serta Indeks Pembangunan Manusia (IPM) yang menjadi gambaran kualitas hidup penduduk. Variasi yang besar antar provinsi membuat pengelompokkan wilayah menjadi penting untuk memahami pola kesamaan dan perbedaan antar daerah
Melalui analisis cluster, dapat mengidentifikasi kelompok provinsi yang memiliki karakteristik mirip sehingga strategi pembangunan dapat disesuaikan dengan kondisi tiap kelompok. Oleh karena itu, analisis ini dapat membantu memberikan gambaran makro mengenai kondisi wilayah secara objektif berdasarkan data kuantitatif
Data asli disimpan di file PDF:Data Cluster. Berikut data dimasukkan dalam R
library(readxl)
data<-read_excel("C:/Users/user/Downloads/DATACLUSTER.xlsx")
data
## # A tibble: 34 × 5
## PROVINSI PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 ACEH 15.4 4171 5 72.0
## 2 SUMATERA UTARA 9.14 12809 8 71.8
## 3 SUMATERA BARAT 6.56 5291 7 72.4
## 4 RIAU 7.04 6252 2 72.7
## 5 JAMBI 7.97 3883 2 71.3
## 6 SUMATERA SELATAN 13.0 6402 4 70.0
## 7 BENGKULU 15.3 3104 1 71.4
## 8 LAMPUNG 12.8 11227 2 69.7
## 9 KEP. BANGKA BELITUNG 4.89 2001 1 71.5
## 10 KEP. RIAU 6.13 0 2 75.6
## # ℹ 24 more rows
Pada kasus ini digunakan tiga pendekatan yang mungkin dilakukan, yaitu Cluster Hirarki dan Cluster Non-hierarki (K-means). Metode cluster bertujuan untuk mengelompokkan objek berdasarkan kemiripan karakteristik menggunakan ukuran jarak.
Analisis cluster adalah teknik statistik yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan karakteristiknya. Menurut Putri & Astuti (2021), analisis cluster efektif digunakan untuk mengelompokkan wilayah berdasarkan indikator sosial-ekonomi, dalam rangka perumusan kebijakan yang lebih tepat sasaran. Sementara itu, pemilihan metode linkage pada cluster hierarki sangat memengaruhi bentuk cluster yang dihasilkan, terutama pada data yang memiliki variansi tinggi (Ramdahan & Yusuf . 2022). Penggabungan antara cluster hierarki dan K-Means dapat meningkatkan akurasi pengelompokkan wilayah sosial-ekonomu (Fitriani &Nugroho , 2023).
Cluster Hierarki
Metode ini menyusun struktur bertingkat (hierarki) menggunakan ukuran jarak tertentu. Cluster hierarki ini memperlihatkan semua kemungkinan pengelompokkan ke dalam sebuah struktur yang bernama dendogram. Dendogram ini berbentuk seperti pohon yang merepresentasikan urutan penggabungan atau pemisahan cluster, sehingga memungkinkan untuk melihat hubungan kesamaan antar data pada berbagai tingkatan
Cluster Non-Hierarki
Cluster Non-Hierarki adalah metode pengelompokkan data yang langsung membagi dataset menjadi sejumlah cluster tertentu tanpa membangun struktur hierarki, di mana jumlah cluster harus ditentukan di awal. Metode yang paling terkenal adalah K-Means, yang bekerja dengan mengulangi proses penempatan titik data ke cluster terdekat berdasarkan pusat cluster (centroid) yang kemudian diperbarui secara iteratif hingga anggota cluster tidak berubah.
Tujuan dari analisis ini adalah:
#library yang digunakan
library(readxl) #untuk mengimpor file excel ke R
library(ggplot2)
library(cluster)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(MASS)
#Memasukkan data
data<-read_excel("C:/Users/user/Downloads/DATACLUSTER.xlsx")
data
## # A tibble: 34 × 5
## PROVINSI PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 ACEH 15.4 4171 5 72.0
## 2 SUMATERA UTARA 9.14 12809 8 71.8
## 3 SUMATERA BARAT 6.56 5291 7 72.4
## 4 RIAU 7.04 6252 2 72.7
## 5 JAMBI 7.97 3883 2 71.3
## 6 SUMATERA SELATAN 13.0 6402 4 70.0
## 7 BENGKULU 15.3 3104 1 71.4
## 8 LAMPUNG 12.8 11227 2 69.7
## 9 KEP. BANGKA BELITUNG 4.89 2001 1 71.5
## 10 KEP. RIAU 6.13 0 2 75.6
## # ℹ 24 more rows
#standarisasi variabel (mean = 0, sd =1)
data_scaled<-scale(data[,-1])
#menghitung matriks jarak Euclidean antar provinsi
dist_mat<-dist(data_scaled)
dist_mat
## 1 2 3 4 5 6 7
## 2 1.78261039
## 3 1.83722241 0.80724056
## 4 1.99327407 2.54170526 2.05866675
## 5 1.85763751 2.54236913 2.09124724 0.43002645
## 6 0.80715550 1.89077364 1.81648468 1.53564595 1.29046919
## 7 1.65180507 3.15582858 2.96065950 1.62806148 1.41625217 1.36896194
## 8 1.52099223 2.61102735 2.48005846 1.34794980 1.08253259 0.88245017 0.92248924
## 9 2.55516069 3.06107042 2.50393144 0.70814123 0.71355069 1.99296114 1.92452782
## 10 2.32232843 2.83103751 2.23985815 0.85614522 1.17970853 2.11880383 2.05698984
## 11 3.04256308 2.74174650 2.36802995 2.47270131 2.83992685 3.20181371 3.55528614
## 12 2.98646578 1.63939346 2.24616272 3.51522485 3.59772686 3.02779411 4.15750148
## 13 4.01578959 3.52049368 4.01186261 4.24488766 4.34696034 3.91915390 4.54991672
## 14 2.66912785 3.65718224 3.34493383 2.18331908 2.43346404 2.83566215 2.24875355
## 15 4.10662778 3.19384154 3.82378445 4.65386622 4.73861046 4.13231014 5.04384937
## 16 1.72755002 1.72321602 1.27525571 0.86930872 0.99928754 1.35375421 2.09157074
## 17 2.77405472 3.25663623 2.64228670 1.03388513 1.34814842 2.47983760 2.27185251
## 18 1.57757998 2.83420473 2.71075933 1.75466923 1.39582176 0.97039567 0.93387862
## 19 2.63331607 4.08786285 4.10999753 3.29751335 2.94002978 2.34552380 1.93748861
## 20 2.24492925 2.75832033 2.38806332 1.30109827 0.94033600 1.47690950 1.81934943
## 21 2.51306293 3.05486624 2.51108882 0.73934816 0.66679967 1.92836135 1.85947102
## 22 2.33081163 2.66829837 2.11609764 0.64229941 0.58898169 1.74122407 1.98146182
## 23 2.12872385 2.42538981 1.92128750 0.99752885 1.37061845 2.02274002 2.19903840
## 24 2.25570957 3.02136386 2.53301434 0.78583561 0.51939938 1.66455473 1.48424142
## 25 1.50263178 1.84227901 1.28641103 0.89295574 0.93825505 1.26074338 1.90159671
## 26 1.81932531 3.10340810 2.84591855 1.46617538 1.12826988 1.27554765 0.63653591
## 27 1.54537982 2.05470552 1.77189142 0.71306279 0.74096620 1.05658635 1.55850649
## 28 1.42251334 2.59171070 2.28042534 0.94440320 0.69214191 0.96026834 0.78369176
## 29 1.85771637 3.29310993 3.13340522 1.95568680 1.61928278 1.40281142 0.70709553
## 30 2.66243478 3.71039034 3.43503268 2.09165972 1.71011317 1.98540724 1.59345294
## 31 1.48890774 3.12061494 3.05478351 2.21851565 1.92201367 1.30598768 0.83021925
## 32 2.19592887 2.75054150 2.30517385 1.14296612 0.77238212 1.48434183 1.76675417
## 33 2.69080194 4.15404031 4.18378639 3.38783270 3.03135108 2.42316124 2.01310293
## 34 3.98790555 5.27888005 5.42946653 4.84509534 4.47493174 3.76168405 3.52331074
## 8 9 10 11 12 13 14
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9 1.68493024
## 10 2.07420648 1.16299543
## 11 3.43632932 2.96643745 1.98770599
## 12 3.48035747 4.05106767 3.87420461 3.28132503
## 13 3.89953352 4.74427293 4.73414318 4.34691967 2.27698088
## 14 2.69339860 2.63157460 1.74975229 2.27527689 4.44722597 4.84968278
## 15 4.36907398 5.19068306 5.08819111 4.44876431 1.65894259 1.25988697 5.33318013
## 16 1.56865990 1.40501003 1.33185576 2.20357158 2.70990986 3.76296404 2.57673492
## 17 2.29314098 1.04390513 0.51539366 2.26392435 4.22614216 4.96374145 1.95099397
## 18 0.61324550 1.96478970 2.42370641 3.89044347 3.84024469 4.35089175 3.04325830
## 19 2.10020395 3.41910626 3.87750458 5.33977334 5.01195934 5.25308428 4.10584039
## 20 1.22874760 1.15385671 2.06067364 3.64444570 3.75920055 4.47933132 3.34388483
## 21 1.60922455 0.13012740 1.24853598 3.06078327 4.06089038 4.75220018 2.68742298
## 22 1.57923255 0.44454037 1.24252380 2.86602622 3.68228058 4.51008318 2.78255268
## 23 2.08271585 1.54169433 0.63762603 1.50285434 3.33469108 4.22072166 1.70180475
## 24 1.31124863 0.52864103 1.35668451 3.21016657 4.09040455 4.76236753 2.61453872
## 25 1.61690101 1.39500339 1.11339370 2.23810120 3.10533269 4.27901974 2.38736319
## 26 0.74265156 1.58771532 2.05295903 3.71619375 4.15063892 4.63228112 2.68127980
## 27 0.99612132 1.31558852 1.40974678 2.53780046 2.93356222 3.64887731 2.37506769
## 28 0.73163668 1.32262476 1.48733965 3.04184176 3.68725146 4.35255898 2.23712968
## 29 0.94870854 2.10236959 2.52346967 4.10118113 4.31652007 4.72070643 2.94924973
## 30 1.44457385 1.88768889 2.74994764 4.52958955 4.70058868 5.09401734 3.59979263
## 31 1.19640997 2.50919884 2.69162668 4.06081150 4.18553006 4.68321077 2.89947066
## 32 1.30829331 0.95353752 1.82649414 3.48623964 3.84748687 4.65779471 3.17488429
## 33 2.19135712 3.51198468 3.96030995 5.41507616 5.07781913 5.31476478 4.16664173
## 34 3.59187215 4.93716359 5.46219693 6.85486799 6.04396042 6.10885834 5.63915631
## 15 16 17 18 19 20 21
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16 3.98620434
## 17 5.39290960 1.65371509
## 18 4.75583855 1.98264402 2.64235905
## 19 5.68084490 3.55542434 4.07055899 1.58932010
## 20 4.85171898 1.53286368 2.13202691 1.30073783 2.69984895
## 21 5.19676189 1.42443617 1.15476635 1.86367044 3.30808262 1.04222112
## 22 4.87798582 1.06836572 1.26692098 1.86786978 3.39273137 0.94598120 0.43571597
## 23 4.53092000 1.07668100 1.03726142 2.51934945 4.01451717 2.24669273 1.62153723
## 24 5.20569937 1.48320454 1.36265154 1.49154020 2.90588604 0.90719723 0.42397751
## 25 4.44864795 0.63190277 1.52909428 1.89349527 3.40770968 1.59526643 1.40292444
## 26 5.10413778 1.94899998 2.20590245 0.60792964 1.87644398 1.26012986 1.49137620
## 27 4.02245476 0.63102062 1.69565830 1.49899572 3.06086844 1.32773472 1.30578436
## 28 4.75053064 1.36124106 1.75112809 0.95425371 2.42029463 1.27604498 1.26331957
## 29 5.18860076 2.34948825 2.70168519 0.53983571 1.37188593 1.62747793 2.00272276
## 30 5.60284685 2.56760005 2.76703265 1.15182063 1.85554091 1.23536270 1.76379849
## 31 5.05930888 2.46548058 2.96620917 0.81927081 1.31807502 2.05676006 2.42219328
## 32 5.00602810 1.45329741 1.90107728 1.37153290 2.79368615 0.32554589 0.83913748
## 33 5.73760399 3.64286530 4.15613661 1.68093106 0.09840439 2.79509920 3.40114223
## 34 6.48648762 5.01997734 5.65286405 3.10050553 1.59785792 4.08419860 4.81964925
## 22 23 24 25 26 27 28
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16
## 17
## 18
## 19
## 20
## 21
## 22
## 23 1.48311964
## 24 0.66983158 1.72153099
## 25 1.12176694 1.03263638 1.37039440
## 26 1.61715180 2.26734896 1.08476016 1.79477121
## 27 1.08655889 1.24130576 1.23728894 0.90335406 1.45444511
## 28 1.27551643 1.61860329 0.93245704 1.16171100 0.68951505 0.91436193
## 29 2.11245824 2.69989056 1.59437958 2.18796474 0.51795228 1.83654215 1.09496123
## 30 1.93761844 3.04407717 1.44278021 2.49692080 1.01965633 2.14904521 1.60644193
## 31 2.46670205 2.78325517 2.01857175 2.23938043 1.00317600 1.99015092 1.27803382
## 32 0.75906716 2.07179797 0.69073015 1.41247734 1.23029239 1.30244361 1.16504172
## 33 3.48629102 4.09667178 2.99753529 3.48943528 1.96592659 3.14976972 2.50533555
## 34 4.88436410 5.57371774 4.43411209 4.91042328 3.44881752 4.54784821 3.99114976
## 29 30 31 32 33
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16
## 17
## 18
## 19
## 20
## 21
## 22
## 23
## 24
## 25
## 26
## 27
## 28
## 29
## 30 1.08726374
## 31 0.64390257 1.69210119
## 32 1.64650686 1.32228266 2.05197333
## 33 1.45920003 1.94625348 1.38215637 2.88688194
## 34 2.95779208 3.20611791 2.86430357 4.22495385 1.52231020
#Analisi cluster hierarki
hc<-hclust(dist_mat, method = "complete")
plot(hc)
#evaluasi jumlah cluster dengan menggunakan elbow method
options(warn = -1)
fviz_nbclust(data_scaled, kmeans, method="wss")
#Analisis K-Means
km4<-kmeans(data_scaled, centers = 4, nstart = 25)
fviz_cluster(km4, data_scaled)
Analisis cluster hierarki dilakukan dengan menggunakan metode Complete Linkage dengan matriks jarak Euclidean dari data yang sudah distandarisasi. Hasil dendogram menunjukkan bahwa provinsi provinsi di Indonesia cenderung membentuk beberapa kelompok besar berdasarkan kemiripan indikator sosial-ekonomi.
Provinsi dengan karakter sosial-ekonomi yang relatif tinggi (IPM tinggi, kemiskinan rendah, jumlah kota besar), seperti DKI Jakarta, DI Yogyakarta, dan Bali senderung mengelompok dalam satu cabang dendogram. Sementara itu, provinsi dengan nilai IPM rendah dan persentase kemiskinan tinggi seperti Papua, Papua Barat, dan NTT berada pada cabang yang jauh dari kelompok sebelumnya. Hal ini, menunjukkan bahwa terdapat variasi yang jelas antar provinsi, yang sesuai dengan pemahaman umum mengenai ketimpangan antar wilayah di indonesia
Elbow Method digunakan untuk menentukan jumlah cluster optimal pada metode K-Means. Metode ini memplotkan nilai Within-Cluster Sum of Squares (WSS) untuk berbagai nilai k.
Titik tekukan pada grafik menunjukkan bahwa penurunan WSS mulai melambat, sehingga nilai k pada titik tersebut dianggap sabagai jumlah cluster terbaik. Berdasarkan grafik Elbow Method, menunjukkan titik tekuk (elbow) pada k=4, sehingga akan menggunakan empat cluster untuk analisis K-Means
Hasil clustering K-means membagi provinsi menjadi empat cluster dengan karakteristik berbeda
Cluster 1 berisi provinsi dengan kondisi sosial-ekonomi rata rata, ditandai dengan tingkat kemiskinan, perceraian, jumlah kota, dan IPM yang berada pada level menengah
Cluster 2 terdiri dari provinsi dengan kemiskinan tinggi dan IPM lebih rendah sehingga membentuk kelompok tersendiri yang relatif tertinggal
Cluster 3 berisiprovinsi yang paling maju, dengan memiliki IPM tinggi, kemiskinan rendah, dan fasilitas perkotaan lebih banyak
Cluster 4 mewakili provinsi dengan kondisi pembangunan cukup baik namun tidak setinggi cluster 3, karakteristiknya berada di antara yang maju dan rata rata
Berdasarkan hasil analisis cluster hierarki dan K-Means, dapat disimpulkan bahwa:
Provinsi di Indonesia dapat dikelompokkan menjadi empat cluster utama berdasarkan indikator sosial-ekonomi
Cluster hierarki menunjukkan pemisahan yang jelas antara provinsi dengan IPM tinggi (DKI Jakarta, DI Yogyakarta, dan Bali) dan provinsi dengan IPM rendah (Papua, Papua Barat, dan NTT)
Elbow Method menunjukkan nilai optimal pada k=4, sehingga analisis K-Means dilakukan dengan empat cluster
K-Means berhasil membentuk empat cluster yang konsisten, yaitu:
Secara umum, hasil analisis menunjukkan adanya ketimpangan sosial-ekonomi yang cukup kuat antara wilayah barat dan timur Indonesia
Berdasarkan hasil analisis, saran yang dapat diberikan adalah:
Penelitian selanjutnya sebaiknya menambahkan variabel lain seperti angka pengangguran, PDRB per kapita, indeks ketimpangan, atau angka harapan hidup untuk memberikan gambaran yang lebih komprehensif.
Disarankan menggunakan metode tambahan seperti Silhouette Score atau Indeks Dunn untuk memvalidasi jumlah klaster secara lebih mendalam.
Analisis dapat diperluas dengan pemetaan geografis (choropleth map) agar pola wilayah lebih terlihat secara visual.