Indonesia, sebagai negara kepulauan terbesar di dunia, memiliki keanekaragaman sosial dan ekonomi yang mencerminkan kondisi unik di setiap provinsinya. Perbedaan geografis, budaya, dan sumber daya alam menyebabkan ketimpangan sosial ekonomi yang cukup signifikan antarwilayah. Provinsi-provinsi di bagian barat Indonesia, seperti Jawa dan Sumatra, umumnya memiliki tingkat pendidikan, infrastruktur, dan akses ekonomi yang lebih baik dibandingkan dengan wilayah timur, seperti Papua dan Maluku.
Indikator-indikator sosial ekonomi seperti persentase penduduk miskin, rata-rata lama sekolah, pengeluaran per kapita, dan umur harapan hidup menunjukkan adanya ketimpangan regional yang memengaruhi kualitas hidup masyarakat. Berdasarkan data terbaru, wilayah barat cenderung memiliki angka kemiskinan yang lebih rendah dan tingkat pendidikan yang lebih tinggi dibandingkan wilayah timur.
Pemerintah telah mengupayakan berbagai program untuk meningkatkan kualitas hidup masyarakat, seperti pembangunan infrastruktur, peningkatan akses pendidikan, dan penyediaan layanan kesehatan. Namun, tantangan dalam mengatasi ketimpangan tetap besar. Sebagai contoh, meskipun harapan hidup nasional terus meningkat, masih terdapat variasi antarprovinsi yang mencerminkan perbedaan dalam akses terhadap layanan kesehatan.
Ketimpangan ini juga berdampak pada pembangunan ekonomi secara keseluruhan. Provinsi yang memiliki modal sosial dan ekonomi yang kuat, seperti DKI Jakarta dan Bali, menunjukkan pertumbuhan ekonomi yang optimal. Sebaliknya, daerah dengan keterbatasan infrastruktur dan akses pendidikan seringkali tertinggal dalam pencapaian indikator pembangunan.
Oleh karena itu, diperlukan analisis mendalam terhadap faktor-faktor sosial ekonomi di setiap provinsi. Salah satu metode yang relevan adalah analisis cluster, yang dapat mengelompokkan provinsi-provinsi berdasarkan kemiripan indikator sosial ekonomi. Hasil dari analisis ini diharapkan dapat menjadi dasar bagi pemerintah dalam merancang kebijakan yang lebih efektif dan berbasis data untuk mengurangi ketimpangan regional dan meningkatkan kesejahteraan masyarakat secara merata.
Data yang saya gunakan adalah Sosial Ekonomi Provinsi di Indonesia. Data tersebut berasal dari National Statistics Challenge (NSC) 2024.
> library(readxl)
> data <- read_excel("C:/Users/Widya Sazma/Documents/Data Sosial Ekonomi.xlsx")
> data <- data.frame(data)
> data
Provinsi Persentase.Penduduk.Miskin..Persen.
1 ACEH 14.45
2 SUMATERA UTARA 8.15
3 SUMATERA BARAT 5.95
4 RIAU 6.68
5 JAMBI 7.58
6 SUMATERA SELATAN 11.78
7 BENGKULU 14.04
8 LAMPUNG 11.11
9 KEP. BANGKA BELITUNG 4.52
10 KEPULAUAN RIAU 5.69
11 DKI JAKARTA 4.44
12 JAWA BARAT 7.62
13 JAWA TENGAH 10.77
14 D I YOGYAKARTA 11.04
15 JAWA TIMUR 10.35
16 BANTEN 6.17
17 BALI 4.25
18 NUSA TENGGARA BARAT 13.85
19 NUSA TENGGARA TIMUR 19.96
20 KALIMANTAN BARAT 6.71
21 KALIMANTAN TENGAH 5.11
22 KALIMANTAN SELATAN 4.29
23 KALIMANTAN TIMUR 6.11
24 KALIMANTAN UTARA 6.45
25 SULAWESI UTARA 7.38
26 SULAWESI TENGAH 12.41
27 SULAWESI SELATAN 8.70
28 SULAWESI TENGGARA 11.43
29 GORONTALO 15.15
30 SULAWESI BARAT 11.49
31 MALUKU 16.42
32 MALUKU UTARA 6.46
33 PAPUA BARAT 20.49
34 PAPUA 26.03
Rata.rata.Lama.Sekolah..Tahun.
1 9.55
2 9.82
3 9.28
4 9.32
5 8.81
6 8.50
7 9.03
8 8.29
9 8.25
10 10.41
11 11.45
12 8.83
13 8.01
14 9.83
15 8.11
16 9.15
17 9.45
18 7.74
19 7.82
20 7.71
21 8.73
22 8.55
23 9.99
24 9.34
25 9.77
26 8.96
27 8.76
28 9.31
29 8.10
30 8.13
31 10.20
32 9.26
33 7.93
34 7.15
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
1 10334
2 11049
3 11380
4 11448
5 11160
6 11472
7 11172
8 10769
9 13589
10 14998
11 19373
12 11695
13 11835
14 14924
15 12421
16 12601
17 14382
18 11095
19 8248
20 9810
21 11878
22 12953
23 13202
24 9734
25 11497
26 10149
27 11841
28 10117
29 11069
30 9718
31 9278
32 8834
33 8404
34 7562
Pengeluaran.per.Kapita.bulan Umur.Harapan.Hidup.UHH..Tahun.
1 1225976.2 73.06
2 1305339.4 73.67
3 1411823.5 74.14
4 1527549.4 74.18
5 1424125.4 73.84
6 1209986.0 74.04
7 1332558.4 73.11
8 1203017.3 74.17
9 1727549.8 73.90
10 1989702.5 74.90
11 2791715.8 75.81
12 1567666.2 74.91
13 1209906.2 74.69
14 1731559.9 75.18
15 1323486.3 74.87
16 1743686.9 74.77
17 1741522.8 74.88
18 1260820.1 72.02
19 961372.2 71.57
20 1345552.3 73.71
21 1525785.0 73.54
22 1457344.3 73.97
23 1980274.9 74.72
24 1693576.9 73.54
25 1315176.5 73.85
26 1173679.5 70.66
27 1252551.2 73.63
28 1172739.2 71.79
29 1228893.4 70.50
30 1036520.1 70.76
31 1238170.3 70.45
32 1317159.4 70.76
33 1598253.6 68.51
34 1509992.4 68.17Analisis cluster dengan metode hierarki adalah teknik pengelompokan objek yang membangun struktur hierarkis berdasarkan kemiripan sifat antar objek. Metode ini tidak memerlukan informasi awal tentang jumlah cluster yang akan terbentuk, sehingga cocok digunakan ketika jumlah kelompok belum diketahui. Pendekatan ini sering diterapkan pada data yang memiliki pola bertingkat atau terdiri dari beberapa subkelompok yang saling terkait.
Metode hierarki biasanya digunakan pada dataset dengan jumlah sampel yang relatif kecil karena prosesnya memerlukan perhitungan jarak antar pasangan objek, yang menjadi lebih kompleks seiring bertambahnya jumlah data. Hasil pengelompokan ini divisualisasikan dalam bentuk diagram pohon yang disebut dendogram, yang menggambarkan hubungan antar objek serta proses pengelompokan bertahap dari level individual hingga terbentuknya satu cluster tunggal.
Dengan uji Kaiser-Mayer-Olkin (KMO) dapat menguji apakah sampel cukup atau tidak. Hal ini penting karena menggunakan sampel yang mewakili populasi dapat memberikan hasil terbaik. Asumsi bahwa sampel mewakili populasi terpenuhi jika koefisien KMO antara 0,5 hingga 1.
Untuk mengetahui adanya multikolinieritas dengan melihat koefisien korelasi antar variabel independen.
Pengelompokan objek yang memiliki jarak terdekat terlebih dahulu. Berikut rumus perhitungan jarak yang digunakan \[ d_{ij} = min(d_{pj};d_{qj}) \]
Pengelompokan objek yang memiliki paling jauh terlebih dahulu. Berikut rumus perhitungan jarak yang digunakan. \[ d_{ij} = max(d_{pj};d_{qj}) \]
Pengelompokan yang dibentuk berdasarkan nilai rata-rata jarak seluruh individu terlebih dahulu. Rumus perhitungan jarak adalah sebagai berikut. \[ \frac{1}{n_{i}n_{j}}\sum_{i=1}^{n_{i}}\sum_{j=1}^{n_{j}}\sqrt{\sum_{k=1}^{p}(x_{ik}-y_{jk})^2} \]
Jarak antara dua cluster yang terbentuk merupakan jumlah kuadrat diantara dua cluster tersebut. Rumus perhitungan jarak adalah sebagai berikut. \[ ESS = \sum_{k=1}^{K}[\sum_{i=1}^{nk}\sum_{j=1}^{p}X^{2}_{ijk}-\frac{1}{nk}\sum_{j=1}^{p}(\sum_{i=1}^{nk}X_{ijk}) \]
Jarak antara dua cluster merupakan jarak di antara dua centroid cluster tersebut. \[ \frac{1}{C_{i}}=\frac{1}{M}\sum_{j=1}^{M}X_{j} \]
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Mengaktifkan package yang dibutuhkan terlebih dahulu
> data <- read_excel("C:/Users/Widya Sazma/Documents/Data Sosial Ekonomi.xlsx")
> data <- data.frame(data)
> data
Provinsi Persentase.Penduduk.Miskin..Persen.
1 ACEH 14.45
2 SUMATERA UTARA 8.15
3 SUMATERA BARAT 5.95
4 RIAU 6.68
5 JAMBI 7.58
6 SUMATERA SELATAN 11.78
7 BENGKULU 14.04
8 LAMPUNG 11.11
9 KEP. BANGKA BELITUNG 4.52
10 KEPULAUAN RIAU 5.69
11 DKI JAKARTA 4.44
12 JAWA BARAT 7.62
13 JAWA TENGAH 10.77
14 D I YOGYAKARTA 11.04
15 JAWA TIMUR 10.35
16 BANTEN 6.17
17 BALI 4.25
18 NUSA TENGGARA BARAT 13.85
19 NUSA TENGGARA TIMUR 19.96
20 KALIMANTAN BARAT 6.71
21 KALIMANTAN TENGAH 5.11
22 KALIMANTAN SELATAN 4.29
23 KALIMANTAN TIMUR 6.11
24 KALIMANTAN UTARA 6.45
25 SULAWESI UTARA 7.38
26 SULAWESI TENGAH 12.41
27 SULAWESI SELATAN 8.70
28 SULAWESI TENGGARA 11.43
29 GORONTALO 15.15
30 SULAWESI BARAT 11.49
31 MALUKU 16.42
32 MALUKU UTARA 6.46
33 PAPUA BARAT 20.49
34 PAPUA 26.03
Rata.rata.Lama.Sekolah..Tahun.
1 9.55
2 9.82
3 9.28
4 9.32
5 8.81
6 8.50
7 9.03
8 8.29
9 8.25
10 10.41
11 11.45
12 8.83
13 8.01
14 9.83
15 8.11
16 9.15
17 9.45
18 7.74
19 7.82
20 7.71
21 8.73
22 8.55
23 9.99
24 9.34
25 9.77
26 8.96
27 8.76
28 9.31
29 8.10
30 8.13
31 10.20
32 9.26
33 7.93
34 7.15
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
1 10334
2 11049
3 11380
4 11448
5 11160
6 11472
7 11172
8 10769
9 13589
10 14998
11 19373
12 11695
13 11835
14 14924
15 12421
16 12601
17 14382
18 11095
19 8248
20 9810
21 11878
22 12953
23 13202
24 9734
25 11497
26 10149
27 11841
28 10117
29 11069
30 9718
31 9278
32 8834
33 8404
34 7562
Pengeluaran.per.Kapita.bulan Umur.Harapan.Hidup.UHH..Tahun.
1 1225976.2 73.06
2 1305339.4 73.67
3 1411823.5 74.14
4 1527549.4 74.18
5 1424125.4 73.84
6 1209986.0 74.04
7 1332558.4 73.11
8 1203017.3 74.17
9 1727549.8 73.90
10 1989702.5 74.90
11 2791715.8 75.81
12 1567666.2 74.91
13 1209906.2 74.69
14 1731559.9 75.18
15 1323486.3 74.87
16 1743686.9 74.77
17 1741522.8 74.88
18 1260820.1 72.02
19 961372.2 71.57
20 1345552.3 73.71
21 1525785.0 73.54
22 1457344.3 73.97
23 1980274.9 74.72
24 1693576.9 73.54
25 1315176.5 73.85
26 1173679.5 70.66
27 1252551.2 73.63
28 1172739.2 71.79
29 1228893.4 70.50
30 1036520.1 70.76
31 1238170.3 70.45
32 1317159.4 70.76
33 1598253.6 68.51
34 1509992.4 68.17Memanggil data dalam bentuk xlsx menggunakan function read_excel yang disimpan dalam data.
> statdes <- summary(data)
> statdes
Provinsi Persentase.Penduduk.Miskin..Persen.
Length:34 Min. : 4.250
Class :character 1st Qu.: 6.240
Mode :character Median : 8.425
Mean :10.089
3rd Qu.:12.252
Max. :26.030
Rata.rata.Lama.Sekolah..Tahun.
Min. : 7.150
1st Qu.: 8.160
Median : 8.895
Mean : 8.928
3rd Qu.: 9.422
Max. :11.450
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
Min. : 7562
1st Qu.:10125
Median :11276
Mean :11470
3rd Qu.:12285
Max. :19373
Pengeluaran.per.Kapita.bulan Umur.Harapan.Hidup.UHH..Tahun.
Min. : 961372 Min. :68.17
1st Qu.:1231213 1st Qu.:71.85
Median :1339055 Median :73.78
Mean :1456913 Mean :73.13
3rd Qu.:1590607 3rd Qu.:74.56
Max. :2791716 Max. :75.81 Menghitung statistika deskriptif dengan perintah “summary” yang disimpan dengan nama statdes. Hasil dari perintah tersebut menunjukkan rangkuman ukuran pemusatan dan persebaran data pada keenam variabel.
> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA = 0.73
MSA for each item =
Persentase.Penduduk.Miskin..Persen.
0.79
Rata.rata.Lama.Sekolah..Tahun.
0.90
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
0.70
Pengeluaran.per.Kapita.bulan
0.69
Umur.Harapan.Hidup.UHH..Tahun.
0.67 Melakukan uji sampel representatif dengan fungsi KMO dari data[,2:6] yang artinya data yang dianalisis pada kolom kedua sampai ke enam.
> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
Persentase.Penduduk.Miskin..Persen.
Persentase.Penduduk.Miskin..Persen. 1.0000000
Rata.rata.Lama.Sekolah..Tahun. -0.4847489
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun. -0.6251270
Pengeluaran.per.Kapita.bulan -0.4348594
Umur.Harapan.Hidup.UHH..Tahun. -0.7658319
Rata.rata.Lama.Sekolah..Tahun.
Persentase.Penduduk.Miskin..Persen. -0.4847489
Rata.rata.Lama.Sekolah..Tahun. 1.0000000
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun. 0.5985096
Pengeluaran.per.Kapita.bulan 0.5890758
Umur.Harapan.Hidup.UHH..Tahun. 0.4506252
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
Persentase.Penduduk.Miskin..Persen. -0.6251270
Rata.rata.Lama.Sekolah..Tahun. 0.5985096
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun. 1.0000000
Pengeluaran.per.Kapita.bulan 0.7643166
Umur.Harapan.Hidup.UHH..Tahun. 0.7560454
Pengeluaran.per.Kapita.bulan
Persentase.Penduduk.Miskin..Persen. -0.4348594
Rata.rata.Lama.Sekolah..Tahun. 0.5890758
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun. 0.7643166
Pengeluaran.per.Kapita.bulan 1.0000000
Umur.Harapan.Hidup.UHH..Tahun. 0.4446105
Umur.Harapan.Hidup.UHH..Tahun.
Persentase.Penduduk.Miskin..Persen. -0.7658319
Rata.rata.Lama.Sekolah..Tahun. 0.4506252
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun. 0.7560454
Pengeluaran.per.Kapita.bulan 0.4446105
Umur.Harapan.Hidup.UHH..Tahun. 1.0000000Uji non-multikolinearitas menggunakan fungsi cor() untuk mengetahui korelasi antar variabel dan metode yang digunakan adalah pearson.
> datastandarisasi <- scale(data[,2:6])
> datastandarisasi
Persentase.Penduduk.Miskin..Persen. Rata.rata.Lama.Sekolah..Tahun.
[1,] 0.84129927 0.68247094
[2,] -0.37409362 0.97855237
[3,] -0.79851653 0.38638950
[4,] -0.65768529 0.43025342
[5,] -0.48405774 -0.12901152
[6,] 0.32620419 -0.46895687
[7,] 0.76220227 0.11224002
[8,] 0.19694812 -0.69924243
[9,] -1.07439142 -0.74310635
[10,] -0.84867560 1.62554514
[11,] -1.08982498 2.76600697
[12,] -0.47634096 -0.10707956
[13,] 0.13135549 -1.00628985
[14,] 0.18344375 0.98951835
[15,] 0.05032929 -0.89663006
[16,] -0.75607424 0.24383177
[17,] -1.12647969 0.57281114
[18,] 0.72554756 -1.30237128
[19,] 1.90428574 -1.21464345
[20,] -0.65189771 -1.33526922
[21,] -0.96056892 -0.21673935
[22,] -1.11876291 -0.41412698
[23,] -0.76764941 1.16497402
[24,] -0.70205678 0.45218537
[25,] -0.52264164 0.92372248
[26,] 0.44774348 0.03547817
[27,] -0.26798789 -0.18384141
[28,] 0.25868236 0.41928744
[29,] 0.97634292 -0.90759604
[30,] 0.27025753 -0.87469810
[31,] 1.22135069 1.39525958
[32,] -0.70012758 0.36445754
[33,] 2.00653308 -1.09401768
[34,] 3.07530714 -1.94936405
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
[1,] -0.5016079316
[2,] -0.1859850814
[3,] -0.0398715661
[4,] -0.0098542881
[5,] -0.1369862893
[6,] 0.0007400454
[7,] -0.1316891226
[8,] -0.3095856381
[9,] 0.9352485402
[10,] 1.5572241988
[11,] 3.4884828974
[12,] 0.0991790602
[13,] 0.1609793385
[14,] 1.5245583374
[15,] 0.4196576465
[16,] 0.4991151472
[17,] 1.2853029740
[18,] -0.1656792756
[19,] -1.4224320791
[20,] -0.7329175448
[21,] 0.1799608526
[22,] 0.6544987042
[23,] 0.7644149136
[24,] -0.7664662674
[25,] 0.0117758093
[26,] -0.5832725851
[27,] 0.1636279219
[28,] -0.5973983630
[29,] -0.1771564702
[30,] -0.7735291563
[31,] -0.9677586026
[32,] -1.1637537711
[33,] -1.3535689118
[34,] -1.7252534430
Pengeluaran.per.Kapita.bulan Umur.Harapan.Hidup.UHH..Tahun.
[1,] -0.674654199 -0.034133916
[2,] -0.442803974 0.283326813
[3,] -0.131723054 0.527927702
[4,] 0.206356667 0.548744799
[5,] -0.095784372 0.371799475
[6,] -0.721367797 0.475884960
[7,] -0.363286759 -0.008112545
[8,] -0.741725925 0.543540525
[9,] 0.790634694 0.403025120
[10,] 1.556483366 0.923452545
[11,] 3.899471602 1.397041502
[12,] 0.323553225 0.928656820
[13,] -0.721600887 0.814162786
[14,] 0.802349816 1.069172224
[15,] -0.389789915 0.907839723
[16,] 0.837777225 0.855796980
[17,] 0.831455121 0.913043997
[18,] -0.572861888 -0.575378438
[19,] -1.447663888 -0.809570779
[20,] -0.325326645 0.304143910
[21,] 0.201202326 0.215671248
[22,] 0.001260831 0.439455040
[23,] 1.528941528 0.829775609
[24,] 0.691386809 0.215671248
[25,] -0.414065938 0.377003749
[26,] -0.827433009 -1.283159736
[27,] -0.597018296 0.262509716
[28,] -0.830179947 -0.695076746
[29,] -0.666131922 -1.366428124
[30,] -1.228128186 -1.231116994
[31,] -0.639030603 -1.392449495
[32,] -0.408273030 -1.231116994
[33,] 0.412910953 -2.402078699
[34,] 0.155066072 -2.579024024
attr(,"scaled:center")
Persentase.Penduduk.Miskin..Persen.
1.008912e+01
Rata.rata.Lama.Sekolah..Tahun.
8.927647e+00
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
1.147032e+04
Pengeluaran.per.Kapita.bulan
1.456913e+06
Umur.Harapan.Hidup.UHH..Tahun.
7.312559e+01
attr(,"scaled:scale")
Persentase.Penduduk.Miskin..Persen.
5.183509e+00
Rata.rata.Lama.Sekolah..Tahun.
9.119113e-01
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
2.265362e+03
Pengeluaran.per.Kapita.bulan
3.423036e+05
Umur.Harapan.Hidup.UHH..Tahun.
1.921498e+00
> rownames(datastandarisasi) <- 1:nrow(datastandarisasi)Standarisasi ke dalam bentuk zscore dengan fungsi scale() kemudian disimpan dalam datastandarisasi.
> euc <- dist(datastandarisasi, method = "euclidean")
> euc
1 2 3 4 5 6 7
2 1.3487022
3 1.8975110 0.8418680
4 1.9152853 0.9507546 0.3706613
5 1.7458225 1.1702311 0.6321562 0.6940354
6 1.4511250 1.6538569 1.5325315 1.6256418 1.0923572
7 0.7522542 1.4614628 1.6912695 1.6633222 1.3517711 0.9528364
8 1.6429848 1.8202820 1.6169847 1.7305738 1.1249259 0.4135606 1.2071456
9 3.1788170 2.4994778 1.7801886 1.6751870 1.6315660 2.2806999 2.5968478
10 3.7254718 2.8442076 2.6636851 2.4257334 3.0192837 3.6849487 3.5058207
11 6.8528883 6.1077572 5.9331791 5.6779889 6.2374117 6.8436223 6.6123896
12 2.1549698 1.5080199 0.8570322 0.7011198 0.7363754 1.4427704 1.7276216
13 2.1252685 2.1621693 1.8095428 1.9097062 1.3507279 0.6832286 1.5935047
14 2.8339420 2.3248415 2.2228111 2.0001875 2.3979932 2.6726874 2.5232886
15 2.2217979 2.1109415 1.6699632 1.7119360 1.2483744 0.8550041 1.6334737
16 2.6124469 1.7671152 1.1662160 0.8924440 1.3127913 2.1220364 2.2156914
17 3.2004283 2.2171331 1.7246528 1.5623653 2.0201204 2.7291097 2.8395509
18 2.0902518 2.6770367 2.5695135 2.6096815 1.9913539 1.4173775 1.5392649
19 2.6030264 3.7059533 3.9115883 3.9806485 3.4290474 2.6929002 2.5591406
20 2.5672706 2.3967300 1.8850677 1.9956054 1.3768184 1.5594157 2.1343342
21 2.3128708 1.5250946 0.8041735 0.8107604 0.6691724 1.6341253 1.8820257
22 2.6574614 1.8498840 1.1185019 1.1920337 1.0604645 1.7440917 2.1832076
23 3.1664669 2.2976697 2.0255721 1.7261542 2.3274070 3.1046056 2.9213493
24 2.1056115 1.4186425 1.1474264 0.9597415 1.1939736 2.1349510 1.9557543
25 1.5553265 0.2716311 0.6855630 0.8225786 1.1104945 1.6626571 1.5750565
26 1.4709051 2.0795341 2.3949191 2.4761309 2.0901391 1.9276372 1.4662474
27 1.5866879 1.2283576 0.9669449 1.1342021 0.6350127 0.7224121 1.1679191
28 0.9375060 1.4105946 1.8474766 1.9510403 1.6558489 1.5919479 1.1200913
29 2.1040197 2.8553247 2.9525495 2.9861351 2.4672473 2.0109451 1.7391738
30 2.1363303 2.6655596 2.7508573 2.8935844 2.3198643 1.9844169 1.9676650
31 1.6480575 2.4853548 3.1470409 3.1404631 3.0544548 2.9516153 2.1326960
32 2.1022116 1.9324013 2.1080775 2.2098172 2.0028579 2.4730278 2.1828750
33 3.4683540 4.3897418 4.5461273 4.4695699 4.0703223 3.8232999 3.2908910
34 4.5364696 5.6027590 5.7478834 5.6855936 5.2226085 4.7779526 4.3610077
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 2.3528098
10 3.9254356 2.6278661
11 7.0963541 5.4301064 3.2867076
12 1.5013986 1.3984493 2.6051220 5.7554275
13 0.6274180 2.1397370 3.8779025 6.9633213 1.5123324
14 2.9793687 2.3184721 1.4355553 4.2817971 1.9795302 2.8692798
15 0.9213184 1.7895922 3.5002655 6.5398496 1.2299471 0.4520828 2.4986609
16 2.2458789 1.2135938 1.8863768 5.0075937 0.7944012 2.2131572 1.5928152
17 2.9197059 1.4555671 1.3360911 4.3945912 1.5968813 2.7859600 1.4042829
18 1.3944123 2.7533609 4.5606880 7.5559505 2.4513446 1.5812597 3.6054531
19 2.5977540 4.5971613 6.0458324 9.0768033 3.9202075 2.9761658 5.0096523
20 1.2389424 2.1370735 4.2396515 7.3400146 1.7443383 1.3920909 3.6132468
21 1.6759841 1.1149033 2.7642590 5.9103834 0.8811049 1.7394847 2.3794132
22 1.8178856 0.9019174 2.7750844 5.8530825 1.0763618 1.6792704 2.3369325
23 3.2858925 2.1192589 0.9256195 4.0036051 1.8995416 3.3093679 1.4485949
24 2.1222738 2.1232382 2.8367506 5.9410580 1.3254119 2.4569509 2.6575192
25 1.8412477 2.3211051 2.6774867 5.9540141 1.3859073 2.1120150 2.1794864
26 2.0054418 3.2696112 4.3980606 7.4783824 2.7489810 2.4797692 3.6895333
27 0.8975820 1.8718407 3.2600005 6.4758989 1.1595952 1.0750560 2.4579729
28 1.6969836 3.0512488 3.9546803 7.1250651 2.2956813 2.2165768 3.2574917
29 2.0789660 3.2746216 4.7894828 7.7254657 3.0123695 2.3656148 3.9002760
30 1.9071966 3.3898588 5.0330776 8.1528401 2.9967658 2.3129322 4.2635920
31 3.1029236 4.3280653 4.5713523 7.4470015 3.5484698 3.6201566 3.9485034
32 2.4344210 3.1433075 4.1855187 7.2819290 2.6584995 2.9336963 3.8929885
33 3.8118506 4.7817573 6.0322360 8.6326189 4.5112050 4.1772204 5.3056234
34 4.7335521 5.9202949 7.2927079 9.8283145 5.6275202 5.0394817 6.4256900
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 1.8619567
17 2.4051913 0.9310403
18 1.7879084 3.0109906 3.6385672
19 3.3166516 4.5709627 5.2795973 1.9485051
20 1.5435546 2.3831595 3.1061417 1.7478645 3.0861069
21 1.5394772 1.0820314 1.6601942 2.3164601 3.9421757 1.5699663
22 1.4237419 1.2090067 1.5117968 2.4945250 4.2134000 1.7653211 0.6158159
23 2.9539435 1.1821194 1.1154198 3.9464593 5.3973839 3.4958859 2.1042699
24 2.3324490 1.4419489 2.2159400 2.7751671 3.9532632 2.0591671 1.2846377
25 2.0225535 1.5970586 1.9870311 2.7344484 3.8724439 2.3848484 1.3875528
26 2.6504043 3.1642080 3.7193683 1.6146706 2.2355046 2.4253240 2.4359942
27 1.0650536 1.7158998 2.2430821 1.7462260 3.1890228 1.5337915 1.0584741
28 2.3606646 2.7294959 3.2914877 1.8571466 2.5402395 2.2758096 2.0948991
29 2.5421384 3.4618529 4.0238062 0.9237621 1.8512022 2.4596547 2.7589401
30 2.5981707 3.5422118 4.1381466 1.2724157 1.8527232 2.0582084 2.6444600
31 3.7285955 3.8240407 4.3292775 2.9729359 2.9117619 3.7412347 3.4595690
32 3.0391112 2.9479934 3.5153120 2.5028191 3.2559911 2.3325787 2.1623702
33 4.3139212 4.8629769 5.5428287 2.7210290 2.4551105 3.9216451 4.3384860
34 5.2263247 6.0581760 6.7625344 3.5939833 2.7753404 4.8782511 5.5436969
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 2.2616544
24 1.8626958 1.9835799
25 1.6536901 2.1598558 1.4519820
26 2.8004107 3.8191883 2.4662833 2.2386878
27 1.1861919 2.6965544 1.7664095 1.1666987 1.8869069
28 2.4774256 3.3696542 2.0241821 1.5995382 0.7273942 1.4804199
29 3.0052051 4.2267329 3.0592830 2.9562594 1.1690544 2.2014834 1.7116904
30 2.9125548 4.4103851 2.9126961 2.7800106 1.0292642 2.0674803 1.4667162
31 3.8919889 4.0801918 2.9975768 2.7211979 1.6256515 2.9550600 1.5935136
32 2.6544341 3.5161483 1.8622527 2.0765920 1.3932686 2.1250563 1.3070677
33 4.7440312 5.3828797 4.1233549 4.5540483 2.6625881 4.0526215 3.2211798
34 5.8945117 6.6463008 5.3900976 5.7688078 3.8460861 5.1480588 4.3972616
29 30 31 32 33
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 1.0906182
31 2.4473733 2.5432411
32 2.3424022 1.8170283 2.2073339
33 2.1718418 2.7319152 3.0145969 3.3962753
34 3.1673791 3.6958178 4.1516272 4.6965055 1.4525283Menghitungn jarak euclidean menggunakan fungis dist() dengan argumen didalamnya adalah datastandarisasi yang merupakan data hasil standarisasi dan menggunakan metode euclidean.
Menghitung jarak antar observasi dengan menggunakan fungsi dist() dan disimpan dalam d1.
> hiers <- hclust(dist(data[,2:6]), method = "single")
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1, d2)
> cors
[1] 0.8816674Metode single linkage menggabungkan dua kelompok berdasarkan jarak terpendek antara dua anggota dari kelompok tersebut. Matriks jarak awal (d1) dibandingkan dengan matriks jarak cophenetic dendrogram (d2) menggunakan korelasi Pearson (cors).
> hierave <- hclust(dist(data[,2:6]), method = "ave")
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.9113729Metode average linkage menggabungkan kelompok berdasarkan rata-rata jarak antar anggota kelompok. Matriks jarak awal (d1) dibandingkan dengan matriks cophenetic distance dendrogram (d3), dan hasil korelasi disimpan dalam corave.
> hiercomp <- hclust(dist(data[,2:6]), method = "complete")
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.8207282Penjelasan: Metode complete linkage menggabungkan kelompok berdasarkan jarak maksimum antara anggota kelompok. Korelasi antara matriks jarak asli (d1) dan matriks cophenetic distance dendrogram (d4) dihitung dan disimpan dalam corcomp.
> hiercen <- hclust(dist(data[,2:6]), method = "centroid")
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9030334Metode centroid linkage menggabungkan kelompok berdasarkan jarak antar titik pusat gravitasi (centroid) dari kelompok tersebut. Korelasi Pearson dihitung antara matriks jarak asli (d1) dan matriks cophenetic distance dendrogram (d5), hasilnya disimpan dalam corcen.
> hierward <- hclust(dist(data[,2:6]), method = "ward.D")
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.4923303Melakukan hierarchical clustering menggunakan metode Ward. Selanjutnya, menghitung jarak copenetic dari dendogram hasil clustering. setelah itu, ukur kualitas dendogram dengan menghitung korelasi antar matriks jarak awal dan matriks copenetic distance.
> inval <- clValid(datastandarisasi, 2:6, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5 6
Validation Measures:
2 3 4 5 6
hierarchical Connectivity 2.9290 7.0869 15.4254 22.0456 24.9829
Dunn 0.4507 0.3592 0.2247 0.2926 0.3068
Silhouette 0.5763 0.4421 0.3279 0.3051 0.2705
Optimal Scores:
Score Method Clusters
Connectivity 2.9290 hierarchical 2
Dunn 0.4507 hierarchical 2
Silhouette 0.5763 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.4506841 hierarchical 2
Silhouette 0.5762610 hierarchical 2
> plot(inval)Validasi internal dalam proses clustering dengan menggunakan metode hierarchical clustering. Validasi internal ini bertujuan untuk mengevaluasi kualitas clustering berdasarkan beberapa metrik menggunakan jarak euclidean untuk menghitung jarak antar data dan menggunakan metode average linkage. Lalu menampilkan ringkasan hasil validasi untuk setiap cluster dan menampilkan jumlah cluster terbaik menurut stiap metrik validasi. Untuk menunjukkan bagaimana setiap metrik berubah sesuai jumlah cluster, buat grafik untuk memvisualisasikan hasil validasi internal.
> hirave <- hclust(dist(scale(data[,2:6])), method = "average")
> plot(hirave, labels(data$Provinsi), hang = 1, col = "pink", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")>
> anggotaave <- data.frame(id = data$Provinsi, cutree(hirave, k = 2))
> clus_hier <- eclust(datastandarisasi, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> aggregate(data,list(idclus),mean)
Group.1 Provinsi Persentase.Penduduk.Miskin..Persen.
1 1 NA 10.2603
2 2 NA 4.4400
Rata.rata.Lama.Sekolah..Tahun.
1 8.851212
2 11.450000
Pengeluaran.per.Kapita.Disesuaikan..Ribu.Rupiah.Orang.Tahun.
1 11230.85
2 19373.00
Pengeluaran.per.Kapita.bulan Umur.Harapan.Hidup.UHH..Tahun.
1 1416464 73.04424
2 2791716 75.81000Membuat hierarchical clustering dari data yang sudah distandarisasi dan memvisualisasikan dalam bentuk dendogram.
Berdasarkan hasil dari statistika deskriptif tersebut, diperoleh bahwa rata-rata persentase penduduk miskin sebesar 10.089% dengan nilai minimum 4.250% dan nilai maksimum 26.030%. Rata-Rata lama sekolah di tiap provinsi sebesar 9 tahun dengan paling minimal 7 tahun dan maksimal 11 tahun. Pengeluaran per Kapita Disesuaikan memiliki rata-rata 11470 Ribu Rupiah per Orang per Tahun dengan pengeluaran paling minimum sebesar 7562 Ribu Rupiah per Orang per Tahun dan pengeluaran paling maksimum sebesar 19373 Ribu Rupiah per Orang per Tahun. Pengeluaran per Kapita memiliki rata-rata sebesar 1456913 bulan dengan pengeluaran per kapita terkecil 961372 bulan dan yang berbesar 2791716 bulan. Umur Harapan Hidup memiliki rata-rata sebesar 73 tahun dengan nilai minimum 68 tahun dan nilai maksimum 76 tahun.
Uji sampel representatif dengan uji Kaiser Mayer Olkin (KMO) yang bertujuan untuk menguji apakahh sampel telah representatif atau mewakili populasi. Dilihat dari output yang didapatkan, nilai uji KMO pada Persentase Penduduk Miskin sebesar 0.79, Rata-rata Lama Sekolah 0.90, Pengeluaran per Kapita Disesuaikan sebesar 0.70, Pengeluaran per Kapita sebesar 0.69, dan Umur Harapan Hidup sebesar 0.67. Uji KMO pada masing-masing variabel bernilai lebih dari 0.5 sehingga dapat disimpulkan bahwa sampel telah representatif.
Selanjutnya menggunakan uji non-multikolinieritas untuk melihat korelasi antar variabel. Dari hasil output yang didapat, seluruh nilai mutlak korelasi antar variabel kurang dari 0.8. Maka dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.
Apabila uji asumsi terpenuhi, maka dilanjutkan dengan standarisasi variabel ke bentuk zscore.
Metode dengan nilai korelasi mendekati 1 akan dipilih sebagai metode terbaik. Dari output yang didapat, Single linkage memiliki korelasi sebesar 0.8816674, Average Linkage memiliki korelasi sebesar 0.9113729, Complete Linkage memiliki korelasi sebesar 0.8207282, Centroid Linkage memiliki korelasi sebesar 0.9030334, dan Ward Method memiliki korelasi sebesar 0.423303. Nilai korelasi yang mendekati 1 adalah 0.9113729 yaitu pada metode Average Linkage. Maka dapat disimpulkan bahwa Average Linkage adalah metode terbaik.
Dari output yang didapat, dapat disimpulkan bahwa nilai Connectivity meningkat seiring bertambahnya cluster dengan nilai terendah 2.9290 pada 2 cluster yang menunjukkan kepadatan cluster terbaik terjadi pada saat jumlah cluster adalah 2.
Nilai Dunn tertinggi adalah 0.4507 pada 2 cluster. Indeks Dunn yang lebih tinggi menunjukkan pemisahan cluster yang lebih baik.
Nilai Silhouette tertinggi adalah 0.5763 pada 2 cluster. semakin tinggi nilai Silhouette, semakin baik kualitas cluster.
Dapat disimpulkan bahwa berdasarkan evaluasi dari semua ukuran validasi, jumlah cluster optimal untuk data Sosial Ekonomi Provinsi di Indonesia adalah 2 cluster.
Analisis ini membagi data provinsi menjadi dua kelompok berdasarkan indikator kesejahteraan sosial dan ekonomi. Cluster 1 cenderung terdiri dari provinsi dengan tingkat kemiskinan lebih tinggi, pendidikan lebih rendah, dan pengeluaran per kapita lebih kecil. Sementara itu, cluster 2 berisi provinsi dengan kondisi yang lebih baik. Hasil ini dapat digunakan untuk mengidentifikasi prioritas pembangunan atau kebijakan yang sesuai untuk masing-masing kelompok provinsi.
Metode Average Linkage dipilih sebagai metode terbaik berdasarkan nilai korelasi Cophenetic tertinggi (0.9113729), dibandingkan dengan metode lainnya.Validasi menggunakan metrik internal menunjukkan hasil optimal pada dua cluster berdasarkan nilai Connectivity (2.9290), Dunn Index (0.4507), dan Silhouette Index (0.5763). Hal ini menunjukkan pemisahan cluster yang terbaik. Cluster 1 terdiri dari provinsi dengan tingkat kemiskinan tinggi, pendidikan rendah, dan pengeluaran per kapita kecil. Sedangkan Cluster 2 mencakup provinsi dengan kondisi sosial ekonomi yang lebih baik.
Widodo, dkk. (2018). Analisis Cluster Penderita Disabilitas Mental di Provinsi Daerah Istimewa Yogyakarta Tahun 2016. Yogyakarta: Universitas Islam Indonesia.
Apriliana, T & Widodo, E. (2023). Analisis Cluster Hierarki untuk Pengelompokan Provinsi di Indonesia berdasarkan Jumlah Base Transceiver Station dan Kekuatan Sinyal. Yogyakarta: Universitas Islam Indonesia