Pembangunan yang merata di seluruh wilayah Indonesia menjadi salah satu tujuan utama dalam menciptakan kesejahteraan sosial bagi masyarakat. Namun, disparitas antarprovinsi masih menjadi permasalahan yang perlu diatasi, terutama dalam aspek ekonomi, pendidikan, kesehatan, dan ketenagakerjaan. Untuk memahami perbedaan karakteristik antarprovinsi, perlu dilakukan analisis mendalam yang dapat mengelompokkan provinsi-provinsi dengan karakteristik serupa. Salah satu metode yang dapat digunakan untuk tujuan ini adalah analisis kluster.
Data yang digunakan dalam penelitian ini mencakup beberapa indikator sosial-ekonomi penting seperti Tingkat Pengangguran Terbuka (TPT), pendapatan per kapita, tingkat pendidikan, dan Indeks Pembangunan Manusia (IPM) di berbagai provinsi di Indonesia. Sumber data ini diperoleh dari Badan Pusat Statistik (BPS), sehingga keakuratannya dalam mencerminkan kondisi terkini dapat diandalkan.
Metode yang digunakan dalam analisis ini adalah cluster analysis dengan teknik single linkage, yang dikenal juga sebagai nearest neighbor. Teknik single linkage mampu mengelompokkan data berdasarkan kedekatan atau kemiripan antarprovinsi, sehingga menghasilkan kluster-kluster yang dapat digunakan untuk memahami pola-pola kesamaan dan perbedaan antarprovinsi.
Untuk mengimport file data dari excel ke RStudio dapat menggunakan fungsi read_excel dari library readxl, yang kemudian disimpan dalam variabel data. View digunakan untuk menampilkan data secara keseluruhan.
Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek atau data ke dalam beberapa kelompok (cluster) yang memiliki kemiripan satu sama lain. Teknik ini merupakan bagian dari pembelajaran tanpa pengawasan (unsupervised learning) yang tidak memerlukan label atau kategori data yang telah diketahui sebelumnya. Tujuan utama dari clustering adalah untuk menemukan pola atau struktur tersembunyi dalam data. Ada berbagai metode clustering yang dapat digunakan, seperti K-means, Hierarchical Clustering, DBSCAN, dan lain-lain. Setiap metode memiliki karakteristik dan kelebihan masing-masing, tergantung pada jenis data yang dianalisis. Salah satu metode clustering yang populer adalah Hierarchical Clustering yang membentuk struktur pohon (dendrogram) untuk menggambarkan bagaimana data dikelompokkan secara hierarkis. Dalam metode ini, ada dua pendekatan utama, yaitu agglomerative (bergabung) dan divisive (membagi), yang digunakan untuk membangun cluster berdasarkan jarak antar objek. Salah satu keuntungan dari hierarchical clustering adalah dapat memberikan gambaran yang jelas mengenai hubungan antar data dalam berbagai level kedekatannya.
Penelitian ini bertujuan untuk melakukan analisis clustering terhadap data sosial dan ekonomi antar provinsi di Indonesia dan melihat pola-pola yang dapat diperoleh melalui teknik clustering atau pengelompokan.
library(ggrepel) #mengatur label pada grafik agar tumpang tindih
library(psych) #statistik deskriptif dan analisis faktor
library(GPArotation) #rotasi dalam analisis faktor untuk interpretasi komponen
library(clValid) #validasi untuk menentukan jumlah kluster optimal
library(ggplot2) #membuat grafik dan visualisasi data
library(cluster) #membantu proses clustering
library(factoextra) #visualisasi hasil clustering
library(tidyverse) #manajemen dan manipulasi data
library(car) #fungsi untuk analisis regresi dan uji asumsi
library(readxl) #membaca file excel
#Statistik Deskriptif
statdes <- summary(DataAnmul)
statdes
## Provinsi TPT Pendapatan.perKapita Tingkat.pendidikan
## Length:34 Min. :2.270 Min. : 23078 Min. :39.50
## Class :character 1st Qu.:3.487 1st Qu.: 48235 1st Qu.:60.84
## Mode :character Median :4.320 Median : 64110 Median :67.02
## Mean :4.614 Mean : 81948 Mean :65.81
## 3rd Qu.:5.763 3rd Qu.: 77369 3rd Qu.:69.79
## Max. :7.520 Max. :322615 Max. :89.69
## IPM
## Min. :62.25
## 1st Qu.:70.94
## Median :72.78
## Mean :72.62
## 3rd Qu.:73.75
## Max. :82.46
Distribusi data menunjukan bahwa rata-rata Tingkat Pengangguran Terbuka (TPT) di Indonesia berada pada level sekitar 4.614%, dengan variasi yang cukup besar antara provinsi yang memiliki Tingkat Pengangguran Terbuka (TPT) rendah hingga yang sangat tinggi (7.52%).
Pendapatan per Kapita menunjukan rentang yang sangat lebar, dengan rata-rata 81,948. Namun beberapa provinsi memiliki pendapatan per Kapita yang jauh lebih tinggi dari rata-rata.
Tingkat pendidikan dan Indeks Pembangunan Manusia (IPM) menunjukan distribusi yang cukup tinggi pada level median ke atas, bahwa sebagian besar provinsi memiliki nilai pendidikan dan IPM yang relatif baik, meski masih ada beberapa yang berada di bawah rata-rata.
#Uji Non-Multikolinearitas
korelasi <- cor(DataAnmul[,2:5], method = 'pearson')
korelasi
## TPT Pendapatan.perKapita Tingkat.pendidikan
## TPT 1.0000000 0.2466710 0.4915608
## Pendapatan.perKapita 0.2466710 1.0000000 0.3440169
## Tingkat.pendidikan 0.4915608 0.3440169 1.0000000
## IPM 0.4043021 0.4883337 0.8697827
## IPM
## TPT 0.4043021
## Pendapatan.perKapita 0.4883337
## Tingkat.pendidikan 0.8697827
## IPM 1.0000000
Multikolinearitas terjadi ketika dua atau lebih variabel independen memiliki korelasi yang tinggi diatas 0.8 atau 0.9. Berdasarkan output, dapat dilihat bahwa Tingkat Pendidikan memiliki korelasi tinggi dengan IPM yaitu sebesar 0.8698, yang menunjukan adanya potensi multikolinearitas antara kedua variabel ini. Ini dapat mempengaruhi hasil analisis jika keduanya digunakan secara bersamaan dalam model regresi. Korelasi antara variabel lainnya tidak cukup tinggi atau kurang dari 0.8 sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.
#Standarisasi
datastand <- scale(DataAnmul[,2:5])
datastand
## TPT Pendapatan.perKapita Tingkat.pendidikan IPM
## [1,] 0.99796447 -0.65460185 0.80911371 0.20155410
## [2,] 0.89930796 -0.22036959 0.80630677 0.19378150
## [3,] 0.93454243 -0.44617618 0.26456769 0.29223439
## [4,] -0.27047635 1.17230091 0.18503777 0.36736949
## [5,] -0.05906955 -0.03412236 0.07556718 0.03832957
## [6,] -0.35503907 -0.16150707 -0.09378476 -0.25961996
## [7,] -0.84127472 -0.57608079 -0.22477521 0.04092043
## [8,] -0.27047635 -0.54524420 -0.11904720 -0.38139064
## [9,] -0.03792887 -0.22717012 0.29450836 0.05905649
## [10,] 1.54057526 1.16676034 1.23109010 1.16276520
## [11,] 1.35030914 3.88755287 2.08533497 2.54887824
## [12,] 1.99157644 -0.47324906 0.06153249 0.28964352
## [13,] 0.36374406 -0.59362325 -0.69821213 0.19896323
## [14,] -0.65100860 -0.54259506 2.23410270 2.18874794
## [15,] 0.18757172 -0.17488197 0.26550334 0.19637236
## [16,] 2.04795159 -0.25524450 0.39836508 0.32332477
## [17,] -1.35569794 -0.31749921 1.00092116 1.16017433
## [18,] -1.27818211 -0.84033217 -0.20138406 -0.62752287
## [19,] -1.03858773 -0.95094978 -2.09138915 -1.53950752
## [20,] 0.30736891 -0.53530993 -0.95738610 -0.83220124
## [21,] -0.36208597 -0.10749052 -0.17612162 -0.10934976
## [22,] -0.21410120 -0.29349545 0.23743395 -0.03162380
## [23,] 0.49058814 2.16151114 0.73145509 1.44516954
## [24,] -0.42550801 1.93517149 -0.59061283 -0.03421467
## [25,] 1.04729272 -0.28780950 0.16445356 0.45027718
## [26,] -1.17247871 0.49287814 -0.94709399 -0.43320795
## [27,] -0.20000742 -0.19781962 0.14948322 0.21709929
## [28,] -1.03154084 -0.28850409 0.23088443 0.04351130
## [29,] -1.09496288 -0.63969238 -1.83595777 -0.56275123
## [30,] -1.65166746 -0.68514769 -1.03130214 -1.31410222
## [31,] 1.19527748 -0.83177094 0.86057425 -0.43579882
## [32,] -0.21410120 -0.29514309 -0.11249768 -0.62493200
## [33,] 0.53991639 0.42244987 -0.54476617 -1.54468925
## [34,] -1.36979173 -0.06279442 -2.46190500 -2.68726094
## attr(,"scaled:center")
## TPT Pendapatan.perKapita Tingkat.pendidikan
## 4.613824 81948.411765 65.812353
## IPM
## 72.622059
## attr(,"scaled:scale")
## TPT Pendapatan.perKapita Tingkat.pendidikan
## 1.419065 61906.962048 10.687802
## IPM
## 3.859714
rownames(datastand) <- 1:nrow(datastand)
Korelasi antar variabel menunjukkan bahwa ada hubungan yang cukup kuat antara Tingkat Pendidikan dan IPM, yang sesuai dengan intuisi bahwa pendidikan yang lebih tinggi seringkali berhubungan dengan IPM yang lebih baik.
Pendapatan per Kapita memiliki korelasi yang cukup kuat dengan IPM dan Tingkat Pendidikan, yang menunjukkan bahwa pendapatan juga mempengaruhi kualitas hidup secara keseluruhan, meskipun tidak sekuat pengaruh pendidikan.
TPT menunjukkan korelasi yang lebih lemah dengan variabel lain, yang mungkin menunjukkan bahwa pengangguran terhubung lebih lemah dengan pendapatan atau pendidikan secara langsung, namun masih memiliki hubungan yang cukup kuat.
#Menghitung Jarak Euclidien
jarak <- dist(datastand, method = "euclidean")
jarak
## 1 2 3 4 5 6 7
## 2 0.4453752
## 3 0.5934786 0.5961579
## 4 2.3159191 1.9297757 2.0207693
## 5 1.4377234 1.2293580 1.1212680 1.2729497
## 6 1.7611554 1.6101518 1.4754717 1.5023489 0.4704028
## 7 2.1174739 2.0597706 1.8636032 1.9123716 0.9978858 0.7181779
## 8 1.6799430 1.6312700 1.4362506 1.8981756 0.7210951 0.4121545 0.7185310
## 9 1.2413288 1.0763585 1.0241740 1.4558977 0.2933926 0.5976594 1.0183750
## 10 2.1711236 1.8586886 2.1588954 2.2375921 2.5691577 3.0226017 3.4768929
## 11 5.2814759 4.9255277 5.2308417 4.2859828 5.2638300 5.6514886 6.0293886
## 12 1.2596789 1.3493987 1.0767004 2.8010734 2.1121877 2.4350773 2.8599747
## 13 1.6364571 1.6400460 1.1327824 2.0806765 1.0565747 1.1309308 1.3044148
## 14 2.9514726 2.9198978 3.1621354 3.2560343 3.1452362 3.4126810 3.2705605
## 15 1.0873852 0.8950490 0.8004725 1.4354179 0.3764285 0.7947467 1.2182052
## 16 1.2022902 1.2262937 1.1379821 2.7313811 2.1619098 2.5229322 2.9864060
## 17 2.5708185 2.4629810 2.5607216 2.1659676 1.9688482 2.0590893 1.7568599
## 18 2.6313140 2.6107084 2.4727663 2.4910430 1.6298071 1.2082743 0.8414752
## 19 3.9597449 3.9610756 3.6130112 3.7304809 2.9975487 2.5921022 2.4822287
## 20 2.1634058 2.1477505 1.7773064 2.4482529 1.4867019 1.2853675 1.6186737
## 21 1.7934374 1.6312297 1.4667754 1.4156115 0.4270343 0.1797997 0.6885833
## 22 1.4073701 1.2725766 1.2034592 1.5210780 0.3498622 0.4460633 0.8319261
## 23 3.1209828 2.7224956 2.9230758 1.7372337 2.7445068 3.1142940 3.4863391
## 24 3.2784175 2.8991139 2.8910996 1.1700043 2.1122154 2.1676422 2.5726897
## 25 0.7838493 0.7100797 0.2698018 1.9686887 1.2107833 1.5978510 1.9921996
## 26 3.0845943 2.8755091 2.7047646 1.7882590 1.6690096 1.3618726 1.4138286
## 27 1.4419226 1.2810011 1.1695187 1.3805946 0.2899698 0.5583851 0.8517122
## 28 2.1476140 2.0215122 1.9883012 1.6793321 1.0171336 0.8191957 0.5714315
## 29 3.4584871 3.4215277 3.0495160 2.9854054 2.3355975 1.9756528 1.7403255
## 30 3.5645234 3.5176717 3.3174064 3.1087995 2.4524342 1.9865338 1.7762894
## 31 0.6922342 0.9277531 1.0497248 2.6955829 1.7466149 1.9479669 2.3702673
## 32 1.7693956 1.6612539 1.5249805 1.7971532 0.7532934 0.4141559 0.9634513
## 33 2.5004410 2.3216498 2.2225100 2.3254237 1.8595710 1.7311090 2.3497457
## 34 5.0001321 4.9147998 4.6656171 4.3670388 3.9479645 3.5413135 3.6042359
## 8 9 10 11 12 13 14
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9 0.7212984
## 10 3.2277168 2.5554013
## 11 5.9768229 5.3164295 3.1764692
## 12 2.3674801 2.0704818 2.2412584 5.3504893
## 13 1.0376987 1.1404810 3.0224168 5.8587102 1.8027099
## 14 3.5053871 2.9619202 3.1278764 4.8768134 3.9134030 3.6864672
## 15 0.9103106 0.2707056 2.3445459 5.1673403 1.8422159 1.0654272 2.9467565
## 16 2.4947038 2.1053051 1.9177121 5.0446438 0.4065646 2.0418135 3.7705030
## 17 2.2046146 1.8590735 3.2625771 5.3018289 3.5873080 2.6160478 1.7680372
## 18 1.0816230 1.6221887 4.1510152 6.6768609 3.4258415 1.9200792 3.7874755
## 19 2.4466221 3.1261940 5.4293576 7.9547381 4.1702468 2.6565842 5.7381826
## 20 1.1135736 1.6049177 3.6314130 6.4295637 2.2665254 1.0663254 4.4978078
## 21 0.5265779 0.6076630 2.9736100 5.5743189 2.4267635 1.0633859 3.3709385
## 22 0.5621132 0.2166014 2.7613682 5.4774331 2.2430959 1.1630072 3.0281472
## 23 3.4591068 2.8455861 1.5560814 2.6018270 3.3134520 3.3472128 3.3802799
## 24 2.5533120 2.3702485 3.0343535 4.5605247 3.4889776 2.6615167 4.3715853
## 25 1.6046283 1.1624762 2.0011131 5.0615592 0.9810482 1.1696630 3.2023228
## 26 1.6061297 1.8946170 3.8866946 5.9980612 3.5333396 2.0005120 4.2823826
## 27 0.7456329 0.2704454 2.6373972 5.3177500 2.2117638 1.0924251 2.9249460
## 28 0.9737189 0.9976554 3.3146216 5.7296170 3.0434569 1.7109364 2.9705708
## 29 1.9155605 2.4925943 4.7532644 7.1787241 3.7257851 2.0011553 4.9338284
## 30 1.9051042 2.5411088 4.9873107 7.3863048 4.1333298 2.5437328 4.8943301
## 31 1.7869388 1.5657753 2.6088401 5.7187750 1.3882955 1.8923266 3.5024593
## 32 0.3536722 0.8180166 3.1964262 5.9030386 2.4007229 1.2020234 3.6980331
## 33 1.7685216 2.0080571 3.4697682 6.0281342 2.5772016 2.0315784 4.9000285
## 34 3.4996103 4.1159388 6.2002383 8.4320067 5.1669107 3.8376852 6.8245739
## 15 16 17 18 19 20 21
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16 1.8711602
## 17 1.9676825 3.5569786
## 18 1.8676310 3.5593965 2.2182791
## 19 3.2671041 4.4361866 4.1656312 2.1150596
## 20 1.6424621 2.5062654 3.2584905 1.7945593 1.9418035
## 21 0.7714686 2.5193957 2.0071097 1.2827434 2.6234861 1.3281896
## 22 0.4776824 2.2956989 1.8185474 1.4067535 2.9680220 1.5488462 0.4832876
## 23 2.7068722 3.1041220 3.1157822 4.1600305 5.3761081 3.9172714 3.0192130
## 24 2.3694509 3.4672520 3.1463191 2.9889776 3.6364542 2.7224423 2.0866094
## 25 0.9091488 1.0359586 2.6417565 2.6473769 3.7200433 1.8740381 1.5646204
## 26 2.0401971 3.6487615 2.6502662 1.5435234 2.1531085 1.8456493 1.3101380
## 27 0.4057512 2.2649157 1.7217087 1.5529899 3.0622865 1.6424134 0.4970073
## 28 1.2343867 3.0968896 1.3949234 1.0012437 2.8875227 2.0080965 0.8185085
## 29 2.6178906 3.9753039 3.3448686 1.6582678 1.0579969 1.6798576 1.9444733
## 30 2.7579720 4.3124371 3.2364702 1.1505341 1.2732280 2.0243436 2.0443753
## 31 1.4834837 1.3599051 3.0559415 2.6986273 3.8647921 2.0828791 2.0325527
## 32 0.9966090 2.5057227 2.3937521 1.1989190 2.4212229 1.0423091 0.5718269
## 33 2.0417601 2.6669107 3.7210637 2.4205797 2.6019169 1.2842416 1.8139855
## 34 4.2652130 5.3817077 5.1825666 3.1568074 1.5339935 2.9565119 3.5899722
## 22 23 24 25 26 27 28
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16
## 17
## 18
## 19
## 20
## 21
## 22
## 23 2.9914244
## 24 2.3869054 2.1970214
## 25 1.3522950 2.7605060 2.8134754
## 26 1.7610358 3.4490515 1.7101023 2.7482617
## 27 0.2809822 2.8089521 2.2828496 1.2721839 1.7458937
## 28 0.8209267 3.2457153 2.4480417 2.1192973 1.4984379 0.8581553
## 29 2.3402605 4.5808370 2.9846823 3.1210499 1.4476135 2.3550668 2.1832880
## 30 2.3397501 4.8387622 3.1940349 3.4619547 1.5493329 2.4665031 1.9945206
## 31 1.6815915 3.6070817 3.5426162 1.2599636 3.2601588 1.8112539 2.4248930
## 32 0.6888175 3.3954843 2.3657001 1.6804598 1.5075722 0.8873112 1.1103960
## 33 1.9955762 3.6871078 2.3460619 2.2901491 2.0819499 2.1255829 2.4696049
## 34 3.9658143 5.9735315 3.9273310 4.7576080 2.7790487 4.0793730 3.8566294
## 29 30 31 32 33
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9
## 10
## 11
## 12
## 13
## 14
## 15
## 16
## 17
## 18
## 19
## 20
## 21
## 22
## 23
## 24
## 25
## 26
## 27
## 28
## 29
## 30 1.2344979
## 31 3.5453486 3.5323090
## 32 1.9669297 1.8809193 1.8047044
## 33 2.5362087 2.5139013 2.2819263 1.4547480
## 34 2.3051450 2.0973714 4.8248166 3.3410361 2.9771360
#Koefisien Korelasi Cophenetic
d1 <- dist(DataAnmul[,2:5])
#Single Linkage
hiers <- hclust(dist(DataAnmul[,2:5]), method = "single")
#korelasi cophenetic
hc1 <- hclust(d1, "single")
d2 <- cophenetic(hc1)
cors <- cor(d1,d2)
cors
## [1] 0.9477426
#Average Linkage
hierave <- hclust(dist(DataAnmul[,2:5]), method = "ave")
#korelasi cophenetic
hc2 <- hclust(d1, "ave")
d3 <- cophenetic(hc2)
corave <- cor(d1,d3)
corave
## [1] 0.9044026
#Complete Linkage
hiercomp <- hclust(dist(DataAnmul[,2:5]), method = "complete")
#korelasi cophenetic
hc3 <- hclust(d1, "complete")
d4 <- cophenetic(hc3)
corcomp <- cor(d1,d4)
corcomp
## [1] 0.8784726
#Centorid Linkage
hiercen <- hclust(dist(DataAnmul[,2:5]), method = "centroid")
#korelasi cophenetic
hc4 <- hclust(d1, "centroid")
d5 <- cophenetic(hc4)
corcen <- cor(d1,d5)
corcen
## [1] 0.903634
#Ward
hierward <- hclust(dist(DataAnmul[,2:5]), method = "ward.D")
#korelasi cophenetic
hc5 <- hclust(d1,"ward.D")
d6 <- cophenetic(hc5)
corward <- cor(d1,d6)
corward
## [1] 0.7455382
KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
KorCop
## cors corave corcomp corcen corward
## 1 0.9477426 0.9044026 0.8784726 0.903634 0.7455382
Koefisien korelasi cophenetic digunakan sebagai dasar dalam penentuan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Nilai korelasi yang paling mendekati 1 ialah metode single linkage, sehingga berdasarkan output, metode terbaik yang terpilih adalah metode single linkage dipilih sebagai metode terbaik.
Pengukuran validitas klaster bertujuan untuk mengevaluasi sejauh mana hasil pengelompokan data dapat mencerminkan atau mewakili keseluruhan populasi dengan baik. Penggunaan indeks validitas klaster sangat penting untuk menentukan jumlah klaster yang optimal, sehingga dapat memberikan pemahaman yang lebih akurat tentang struktur data. Indeks validitas klaster yang umum digunakan meliputi:
Indeks Connectivity: Indeks ini mengukur seberapa erat hubungan antar-poin dalam klaster. Semakin rendah nilai indeks ini, semakin baik klaster yang dihasilkan.
Indeks Silhouette: Indeks ini mengevaluasi koherensi internal klaster dan pemisahannya dari klaster lain. Nilai Silhouette yang tinggi menunjukkan bahwa klaster memiliki kejelasan dan pemisahan yang baik.
Indeks Dunn: Indeks Dunn mengukur rasio antara jarak terpendek antar-klaster dan jarak terjauh dalam klaster yang sama. Indeks ini membantu mengidentifikasi klaster yang kompak dan saling berjauhan satu sama lain.
Penggunaan ketiga indeks ini secara bersamaan dapat memberikan gambaran yang lebih komprehensif mengenai efektivitas pengelompokan data dan membantu dalam pemilihan jumlah klaster optimal yang dapat menggambarkan pola data secara lebih akurat.
#Indeks Validitas
library(clValid)
## Loading required package: cluster
inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "single")
summary(inval)
##
## Clustering Methods:
## hierarchical
##
## Cluster sizes:
## 2 3 4 5
##
## Validation Measures:
## 2 3 4 5
##
## hierarchical Connectivity 3.1790 6.3579 10.3575 12.3575
## Dunn 0.3812 0.2852 0.3228 0.2891
## Silhouette 0.5537 0.3641 0.3244 0.2452
##
## Optimal Scores:
##
## Score Method Clusters
## Connectivity 3.1790 hierarchical 2
## Dunn 0.3812 hierarchical 2
## Silhouette 0.5537 hierarchical 2
Berdasarkan indeks Connectivity, indeks Dunn, dan indeks Silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode pengelompokan single linkage berdasarkan faktor-faktor yang mempengaruhi
optimalScores(inval)
## Score Method Clusters
## Connectivity 3.1789683 hierarchical 2
## Dunn 0.3812439 hierarchical 2
## Silhouette 0.5536648 hierarchical 2
plot(inval)
#Metode Single Linkage
hirsing <- hclust(dist(scale(DataAnmul[,2:5])), method = "single")
hirsing
##
## Call:
## hclust(d = dist(scale(DataAnmul[, 2:5])), method = "single")
##
## Cluster method : single
## Distance : euclidean
## Number of objects: 34
plot(hirsing, labels(DataAnmul$Provinsi), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")
anggota_sing <- data.frame(id = DataAnmul$Provinsi, cutree(hirsing, k = 2))
anggota_sing
## id cutree.hirsing..k...2.
## 1 Aceh 1
## 2 Sumatera Utara 1
## 3 Sumatera Barat 1
## 4 Riau 1
## 5 Jambi 1
## 6 Sumatera Selatan 1
## 7 Bengkulu 1
## 8 Lampung 1
## 9 Kepulauan Bangka Belitung 1
## 10 Kepulauan Riau 1
## 11 DKI Jakarta 2
## 12 Jawa Barat 1
## 13 Jawa Tengah 1
## 14 DI. Yogyakarta 1
## 15 Jawa Timur 1
## 16 Banten 1
## 17 Bali 1
## 18 Nusa Tenggara Barat 1
## 19 Nusa Tenggara Timur 1
## 20 Kalimantan Barat 1
## 21 Kalimantan Tengah 1
## 22 Kalimantan Selatan 1
## 23 Kalimantan Timur 1
## 24 Kalimantan Utara 1
## 25 Sulawesi Utara 1
## 26 Sulawesi Tengah 1
## 27 Sulawesi Selatan 1
## 28 Sulawesi Tenggara 1
## 29 Gorontalo 1
## 30 Sulawesi Barat 1
## 31 Maluku 1
## 32 Maluku Utara 1
## 33 Papua Barat 1
## 34 Papua 1
install.packages("ggrepel", repos = "https://cran.rstudio.com/")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
##
## There is a binary version available but the source version is later:
## binary source needs_compilation
## ggrepel 0.9.5 0.9.6 TRUE
## installing the source package 'ggrepel'
## Warning in install.packages("ggrepel", repos = "https://cran.rstudio.com/"):
## installation of package 'ggrepel' had non-zero exit status
install.packages("factoextra", repos = "https://cran.rstudio.com/")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
## package 'factoextra' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\Administrator\AppData\Local\Temp\RtmpmkLAea\downloaded_packages
install.packages("dendextend")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
##
## There is a binary version available but the source version is later:
## binary source needs_compilation
## dendextend 1.17.1 1.18.1 FALSE
## installing the source package 'dendextend'
library(dendextend)
##
## ---------------------
## Welcome to dendextend version 1.18.1
## Type citation('dendextend') for how to cite the package.
##
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
##
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags:
## https://stackoverflow.com/questions/tagged/dendextend
##
## To suppress this message use: suppressPackageStartupMessages(library(dendextend))
## ---------------------
##
## Attaching package: 'dendextend'
## The following object is masked from 'package:stats':
##
## cutree
dend <- as.dendrogram(hirsing)
dend %>% set("branches_k_color", k=2) %>% plot(main = "Cluster Dendrogram")
Cluster 1 pada dendogram berwarna hijau yang terdiri dari 33 Provinsi
yaitu Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera
Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau,
Jawa Barat, Jawa Tengah, DI. Yogyakarta, Jawa Timur, Banten, Bali, NTB,
NTT, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan
Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi
Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku
Utara, Papua Barat, Papua.
Cluster 2 pada dendogram berwarna merahyang terdiri dari 1 provinsi yaitu DKI Jakarta.
plot(hirsing, labels = DataAnmul$Provinsi, main = "Cluster Dendrogram (Single Linkage)", xlab = "Provinsi", ylab = "Jarak", hang = -1)
rect.hclust(hirsing, k = 2, border = 2:3)
hirsing <- hclust(dist(datastand), method = "single")
idclus <- cutree(hirsing, k = 2)
aggregate(DataAnmul[, 2:5], by = list(idclus), mean)
## Group.1 TPT Pendapatan.perKapita Tingkat.pendidikan IPM
## 1 1 4.555758 74655.48 65.13697 72.32394
## 2 2 6.530000 322615.00 88.10000 82.46000
Cluster 1 variabel Tingkat Pengangguran Terbuka (TPT), Pendapatan per Kapita, Tingkat pendidikan, Indek Pembangunan Masyarakat (IPM) memiliki karakteristik yang rendah.
Cluster 2 variabel Tingkat Pengangguran Terbuka (TPT), Pendapatan per Kapita, Tingkat pendidikan, Indek Pembangunan Masyarakat (IPM) memiliki karakteristik yang tinggi dibandingkan dengan cluster 1.
Berdasarkan hal tersebut dapat disimpulkan cluster 1 merupakan kelompok dengan faktor kesejahteraaan yang rendah dan cluster 2 merupakan kelompok dengan faktor kesejahteraan yang tinggi.
Berdasarkan hasil analisis menggunakan metode clustering dengan data terkait Tingkat Pengangguran Terbuka (TPT), Indeks Pembangunan Manusia (IPM), Tingkat Pendidikan, dan Pendapatan per Kapita di seluruh provinsi di Indonesia, dapat disimpulkan bahwa pola distribusi sosial dan ekonomi antar provinsi memiliki karakteristik yang bervariasi. Pengelompokan provinsi berdasarkan indikator-indikator ini memberikan wawasan tentang bagaimana faktor-faktor ekonomi dan sosial saling mempengaruhi tingkat kesejahteraan masyarakat di masing-masing provinsi. Hasil analisis ini juga menunjukkan adanya kelompok provinsi dengan kondisi sosial-ekonomi serupa, yang dapat digunakan sebagai dasar perencanaan kebijakan untuk meningkatkan kesejahteraan secara merata di Indonesia.
Berdasarkan hasil analisis yang dilakukan, diharapkan penelitian ini dapat memberikan wawasan yang lebih mendalam tentang hubungan antara faktor-faktor sosial ekonomi seperti tingkat pengangguran terbuka, IPM, tingkat pendidikan, dan pendapatan per kapita di Indonesia.
Badan Pusat Statistik. 2023. Tingkat Pengangguran Terbuka Menurut Provinsi (Persen), 2023. https://www.bps.go.id/id/statistics-table/2/NTQzIzI=/tingkat-pengangguran-terbuka--februari-2024.html. Diakses pada 9 November 2024.
Badan Pusat Statistik. 2023. [Metode Baru] Indeks Pembangunan Manusia menurut Provinsi, 2022-2023. https://www.bps.go.id/id/statistics-table/2/NDk0IzI=/-metode-baru-indeks-pembangunan-manusia-menurut-provinsi.html. Diakses pada 9 November 2024.
Badan Pusat Statistik. 2024. Produk Domestik Regional Bruto per Kapita Atas Dasar Harga Berlaku Menurut Provinsi (ribu rupiah), 2023. https://www.bps.go.id/id/statistics-table/3/YWtoQlRVZzNiMU5qU1VOSlRFeFZiRTR4VDJOTVVUMDkjMw==/produk-domestik-regional-bruto-per-kapita-atas-dasar-harga-berlaku-menurut-provinsi--ribu-rupiah---2022.html?year=2023. Diakses pada 9 November 2024.
Badan Pusat Statistik. 2024. Tingkat Penyelesaian Pendidikan Menurut Jenjang Pendidikan dan Provinsi, 2021-2023. https://www.bps.go.id/id/statistics-table/2/MTk4MCMy/tingkat-penyelesaian-pendidikan-menurut-jenjang-pendidikan-dan-provinsi.html. Diakses pada 9 November 2024.