1 PENDAHULUAN

1.1 Latar Belakang

Pembangunan yang merata di seluruh wilayah Indonesia menjadi salah satu tujuan utama dalam menciptakan kesejahteraan sosial bagi masyarakat. Namun, disparitas antarprovinsi masih menjadi permasalahan yang perlu diatasi, terutama dalam aspek ekonomi, pendidikan, kesehatan, dan ketenagakerjaan. Untuk memahami perbedaan karakteristik antarprovinsi, perlu dilakukan analisis mendalam yang dapat mengelompokkan provinsi-provinsi dengan karakteristik serupa. Salah satu metode yang dapat digunakan untuk tujuan ini adalah analisis kluster.

Data yang digunakan dalam penelitian ini mencakup beberapa indikator sosial-ekonomi penting seperti Tingkat Pengangguran Terbuka (TPT), pendapatan per kapita, tingkat pendidikan, dan Indeks Pembangunan Manusia (IPM) di berbagai provinsi di Indonesia. Sumber data ini diperoleh dari Badan Pusat Statistik (BPS), sehingga keakuratannya dalam mencerminkan kondisi terkini dapat diandalkan.

Metode yang digunakan dalam analisis ini adalah cluster analysis dengan teknik single linkage, yang dikenal juga sebagai nearest neighbor. Teknik single linkage mampu mengelompokkan data berdasarkan kedekatan atau kemiripan antarprovinsi, sehingga menghasilkan kluster-kluster yang dapat digunakan untuk memahami pola-pola kesamaan dan perbedaan antarprovinsi.

Untuk mengimport file data dari excel ke RStudio dapat menggunakan fungsi read_excel dari library readxl, yang kemudian disimpan dalam variabel data. View digunakan untuk menampilkan data secara keseluruhan.

1.2 Latar Belakang Metode

1.2.1 Clustering

Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek atau data ke dalam beberapa kelompok (cluster) yang memiliki kemiripan satu sama lain. Teknik ini merupakan bagian dari pembelajaran tanpa pengawasan (unsupervised learning) yang tidak memerlukan label atau kategori data yang telah diketahui sebelumnya. Tujuan utama dari clustering adalah untuk menemukan pola atau struktur tersembunyi dalam data. Ada berbagai metode clustering yang dapat digunakan, seperti K-means, Hierarchical Clustering, DBSCAN, dan lain-lain. Setiap metode memiliki karakteristik dan kelebihan masing-masing, tergantung pada jenis data yang dianalisis. Salah satu metode clustering yang populer adalah Hierarchical Clustering yang membentuk struktur pohon (dendrogram) untuk menggambarkan bagaimana data dikelompokkan secara hierarkis. Dalam metode ini, ada dua pendekatan utama, yaitu agglomerative (bergabung) dan divisive (membagi), yang digunakan untuk membangun cluster berdasarkan jarak antar objek. Salah satu keuntungan dari hierarchical clustering adalah dapat memberikan gambaran yang jelas mengenai hubungan antar data dalam berbagai level kedekatannya.

1.3 Tujuan Penelitian

Penelitian ini bertujuan untuk melakukan analisis clustering terhadap data sosial dan ekonomi antar provinsi di Indonesia dan melihat pola-pola yang dapat diperoleh melalui teknik clustering atau pengelompokan.

2 SOURCE CODE

2.1 Library yang Dibutuhkan

library(ggrepel) #mengatur label pada grafik agar tumpang tindih

library(psych) #statistik deskriptif dan analisis faktor

library(GPArotation) #rotasi dalam analisis faktor untuk interpretasi komponen

library(clValid) #validasi untuk menentukan jumlah kluster optimal

library(ggplot2) #membuat grafik dan visualisasi data

library(cluster) #membantu proses clustering

library(factoextra) #visualisasi hasil clustering

library(tidyverse) #manajemen dan manipulasi data

library(car) #fungsi untuk analisis regresi dan uji asumsi

library(readxl) #membaca file excel

3 HASIL DAN PEMBAHASAN

3.1 Analisis Data Eksplanatori

3.1.1 Statistika Deskriptif

#Statistik Deskriptif
statdes <- summary(DataAnmul)
statdes
##    Provinsi              TPT        Pendapatan.perKapita Tingkat.pendidikan
##  Length:34          Min.   :2.270   Min.   : 23078       Min.   :39.50     
##  Class :character   1st Qu.:3.487   1st Qu.: 48235       1st Qu.:60.84     
##  Mode  :character   Median :4.320   Median : 64110       Median :67.02     
##                     Mean   :4.614   Mean   : 81948       Mean   :65.81     
##                     3rd Qu.:5.763   3rd Qu.: 77369       3rd Qu.:69.79     
##                     Max.   :7.520   Max.   :322615       Max.   :89.69     
##       IPM       
##  Min.   :62.25  
##  1st Qu.:70.94  
##  Median :72.78  
##  Mean   :72.62  
##  3rd Qu.:73.75  
##  Max.   :82.46

Distribusi data menunjukan bahwa rata-rata Tingkat Pengangguran Terbuka (TPT) di Indonesia berada pada level sekitar 4.614%, dengan variasi yang cukup besar antara provinsi yang memiliki Tingkat Pengangguran Terbuka (TPT) rendah hingga yang sangat tinggi (7.52%).

Pendapatan per Kapita menunjukan rentang yang sangat lebar, dengan rata-rata 81,948. Namun beberapa provinsi memiliki pendapatan per Kapita yang jauh lebih tinggi dari rata-rata.

Tingkat pendidikan dan Indeks Pembangunan Manusia (IPM) menunjukan distribusi yang cukup tinggi pada level median ke atas, bahwa sebagian besar provinsi memiliki nilai pendidikan dan IPM yang relatif baik, meski masih ada beberapa yang berada di bawah rata-rata.

3.2 Uji Asumsi

3.2.1 Uji Non-Multikolinearitas

#Uji Non-Multikolinearitas
korelasi <- cor(DataAnmul[,2:5], method = 'pearson')
korelasi
##                            TPT Pendapatan.perKapita Tingkat.pendidikan
## TPT                  1.0000000            0.2466710          0.4915608
## Pendapatan.perKapita 0.2466710            1.0000000          0.3440169
## Tingkat.pendidikan   0.4915608            0.3440169          1.0000000
## IPM                  0.4043021            0.4883337          0.8697827
##                            IPM
## TPT                  0.4043021
## Pendapatan.perKapita 0.4883337
## Tingkat.pendidikan   0.8697827
## IPM                  1.0000000

Multikolinearitas terjadi ketika dua atau lebih variabel independen memiliki korelasi yang tinggi diatas 0.8 atau 0.9. Berdasarkan output, dapat dilihat bahwa Tingkat Pendidikan memiliki korelasi tinggi dengan IPM yaitu sebesar 0.8698, yang menunjukan adanya potensi multikolinearitas antara kedua variabel ini. Ini dapat mempengaruhi hasil analisis jika keduanya digunakan secara bersamaan dalam model regresi. Korelasi antara variabel lainnya tidak cukup tinggi atau kurang dari 0.8 sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.

3.2.2 Standarisasi Data

#Standarisasi
datastand <- scale(DataAnmul[,2:5])
datastand
##               TPT Pendapatan.perKapita Tingkat.pendidikan         IPM
##  [1,]  0.99796447          -0.65460185         0.80911371  0.20155410
##  [2,]  0.89930796          -0.22036959         0.80630677  0.19378150
##  [3,]  0.93454243          -0.44617618         0.26456769  0.29223439
##  [4,] -0.27047635           1.17230091         0.18503777  0.36736949
##  [5,] -0.05906955          -0.03412236         0.07556718  0.03832957
##  [6,] -0.35503907          -0.16150707        -0.09378476 -0.25961996
##  [7,] -0.84127472          -0.57608079        -0.22477521  0.04092043
##  [8,] -0.27047635          -0.54524420        -0.11904720 -0.38139064
##  [9,] -0.03792887          -0.22717012         0.29450836  0.05905649
## [10,]  1.54057526           1.16676034         1.23109010  1.16276520
## [11,]  1.35030914           3.88755287         2.08533497  2.54887824
## [12,]  1.99157644          -0.47324906         0.06153249  0.28964352
## [13,]  0.36374406          -0.59362325        -0.69821213  0.19896323
## [14,] -0.65100860          -0.54259506         2.23410270  2.18874794
## [15,]  0.18757172          -0.17488197         0.26550334  0.19637236
## [16,]  2.04795159          -0.25524450         0.39836508  0.32332477
## [17,] -1.35569794          -0.31749921         1.00092116  1.16017433
## [18,] -1.27818211          -0.84033217        -0.20138406 -0.62752287
## [19,] -1.03858773          -0.95094978        -2.09138915 -1.53950752
## [20,]  0.30736891          -0.53530993        -0.95738610 -0.83220124
## [21,] -0.36208597          -0.10749052        -0.17612162 -0.10934976
## [22,] -0.21410120          -0.29349545         0.23743395 -0.03162380
## [23,]  0.49058814           2.16151114         0.73145509  1.44516954
## [24,] -0.42550801           1.93517149        -0.59061283 -0.03421467
## [25,]  1.04729272          -0.28780950         0.16445356  0.45027718
## [26,] -1.17247871           0.49287814        -0.94709399 -0.43320795
## [27,] -0.20000742          -0.19781962         0.14948322  0.21709929
## [28,] -1.03154084          -0.28850409         0.23088443  0.04351130
## [29,] -1.09496288          -0.63969238        -1.83595777 -0.56275123
## [30,] -1.65166746          -0.68514769        -1.03130214 -1.31410222
## [31,]  1.19527748          -0.83177094         0.86057425 -0.43579882
## [32,] -0.21410120          -0.29514309        -0.11249768 -0.62493200
## [33,]  0.53991639           0.42244987        -0.54476617 -1.54468925
## [34,] -1.36979173          -0.06279442        -2.46190500 -2.68726094
## attr(,"scaled:center")
##                  TPT Pendapatan.perKapita   Tingkat.pendidikan 
##             4.613824         81948.411765            65.812353 
##                  IPM 
##            72.622059 
## attr(,"scaled:scale")
##                  TPT Pendapatan.perKapita   Tingkat.pendidikan 
##             1.419065         61906.962048            10.687802 
##                  IPM 
##             3.859714
rownames(datastand) <- 1:nrow(datastand)

Korelasi antar variabel menunjukkan bahwa ada hubungan yang cukup kuat antara Tingkat Pendidikan dan IPM, yang sesuai dengan intuisi bahwa pendidikan yang lebih tinggi seringkali berhubungan dengan IPM yang lebih baik.

Pendapatan per Kapita memiliki korelasi yang cukup kuat dengan IPM dan Tingkat Pendidikan, yang menunjukkan bahwa pendapatan juga mempengaruhi kualitas hidup secara keseluruhan, meskipun tidak sekuat pengaruh pendidikan.

TPT menunjukkan korelasi yang lebih lemah dengan variabel lain, yang mungkin menunjukkan bahwa pengangguran terhubung lebih lemah dengan pendapatan atau pendidikan secara langsung, namun masih memiliki hubungan yang cukup kuat.

3.2.3 Jarak Euclidien

#Menghitung Jarak Euclidien
jarak <- dist(datastand, method = "euclidean")
jarak
##            1         2         3         4         5         6         7
## 2  0.4453752                                                            
## 3  0.5934786 0.5961579                                                  
## 4  2.3159191 1.9297757 2.0207693                                        
## 5  1.4377234 1.2293580 1.1212680 1.2729497                              
## 6  1.7611554 1.6101518 1.4754717 1.5023489 0.4704028                    
## 7  2.1174739 2.0597706 1.8636032 1.9123716 0.9978858 0.7181779          
## 8  1.6799430 1.6312700 1.4362506 1.8981756 0.7210951 0.4121545 0.7185310
## 9  1.2413288 1.0763585 1.0241740 1.4558977 0.2933926 0.5976594 1.0183750
## 10 2.1711236 1.8586886 2.1588954 2.2375921 2.5691577 3.0226017 3.4768929
## 11 5.2814759 4.9255277 5.2308417 4.2859828 5.2638300 5.6514886 6.0293886
## 12 1.2596789 1.3493987 1.0767004 2.8010734 2.1121877 2.4350773 2.8599747
## 13 1.6364571 1.6400460 1.1327824 2.0806765 1.0565747 1.1309308 1.3044148
## 14 2.9514726 2.9198978 3.1621354 3.2560343 3.1452362 3.4126810 3.2705605
## 15 1.0873852 0.8950490 0.8004725 1.4354179 0.3764285 0.7947467 1.2182052
## 16 1.2022902 1.2262937 1.1379821 2.7313811 2.1619098 2.5229322 2.9864060
## 17 2.5708185 2.4629810 2.5607216 2.1659676 1.9688482 2.0590893 1.7568599
## 18 2.6313140 2.6107084 2.4727663 2.4910430 1.6298071 1.2082743 0.8414752
## 19 3.9597449 3.9610756 3.6130112 3.7304809 2.9975487 2.5921022 2.4822287
## 20 2.1634058 2.1477505 1.7773064 2.4482529 1.4867019 1.2853675 1.6186737
## 21 1.7934374 1.6312297 1.4667754 1.4156115 0.4270343 0.1797997 0.6885833
## 22 1.4073701 1.2725766 1.2034592 1.5210780 0.3498622 0.4460633 0.8319261
## 23 3.1209828 2.7224956 2.9230758 1.7372337 2.7445068 3.1142940 3.4863391
## 24 3.2784175 2.8991139 2.8910996 1.1700043 2.1122154 2.1676422 2.5726897
## 25 0.7838493 0.7100797 0.2698018 1.9686887 1.2107833 1.5978510 1.9921996
## 26 3.0845943 2.8755091 2.7047646 1.7882590 1.6690096 1.3618726 1.4138286
## 27 1.4419226 1.2810011 1.1695187 1.3805946 0.2899698 0.5583851 0.8517122
## 28 2.1476140 2.0215122 1.9883012 1.6793321 1.0171336 0.8191957 0.5714315
## 29 3.4584871 3.4215277 3.0495160 2.9854054 2.3355975 1.9756528 1.7403255
## 30 3.5645234 3.5176717 3.3174064 3.1087995 2.4524342 1.9865338 1.7762894
## 31 0.6922342 0.9277531 1.0497248 2.6955829 1.7466149 1.9479669 2.3702673
## 32 1.7693956 1.6612539 1.5249805 1.7971532 0.7532934 0.4141559 0.9634513
## 33 2.5004410 2.3216498 2.2225100 2.3254237 1.8595710 1.7311090 2.3497457
## 34 5.0001321 4.9147998 4.6656171 4.3670388 3.9479645 3.5413135 3.6042359
##            8         9        10        11        12        13        14
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9  0.7212984                                                            
## 10 3.2277168 2.5554013                                                  
## 11 5.9768229 5.3164295 3.1764692                                        
## 12 2.3674801 2.0704818 2.2412584 5.3504893                              
## 13 1.0376987 1.1404810 3.0224168 5.8587102 1.8027099                    
## 14 3.5053871 2.9619202 3.1278764 4.8768134 3.9134030 3.6864672          
## 15 0.9103106 0.2707056 2.3445459 5.1673403 1.8422159 1.0654272 2.9467565
## 16 2.4947038 2.1053051 1.9177121 5.0446438 0.4065646 2.0418135 3.7705030
## 17 2.2046146 1.8590735 3.2625771 5.3018289 3.5873080 2.6160478 1.7680372
## 18 1.0816230 1.6221887 4.1510152 6.6768609 3.4258415 1.9200792 3.7874755
## 19 2.4466221 3.1261940 5.4293576 7.9547381 4.1702468 2.6565842 5.7381826
## 20 1.1135736 1.6049177 3.6314130 6.4295637 2.2665254 1.0663254 4.4978078
## 21 0.5265779 0.6076630 2.9736100 5.5743189 2.4267635 1.0633859 3.3709385
## 22 0.5621132 0.2166014 2.7613682 5.4774331 2.2430959 1.1630072 3.0281472
## 23 3.4591068 2.8455861 1.5560814 2.6018270 3.3134520 3.3472128 3.3802799
## 24 2.5533120 2.3702485 3.0343535 4.5605247 3.4889776 2.6615167 4.3715853
## 25 1.6046283 1.1624762 2.0011131 5.0615592 0.9810482 1.1696630 3.2023228
## 26 1.6061297 1.8946170 3.8866946 5.9980612 3.5333396 2.0005120 4.2823826
## 27 0.7456329 0.2704454 2.6373972 5.3177500 2.2117638 1.0924251 2.9249460
## 28 0.9737189 0.9976554 3.3146216 5.7296170 3.0434569 1.7109364 2.9705708
## 29 1.9155605 2.4925943 4.7532644 7.1787241 3.7257851 2.0011553 4.9338284
## 30 1.9051042 2.5411088 4.9873107 7.3863048 4.1333298 2.5437328 4.8943301
## 31 1.7869388 1.5657753 2.6088401 5.7187750 1.3882955 1.8923266 3.5024593
## 32 0.3536722 0.8180166 3.1964262 5.9030386 2.4007229 1.2020234 3.6980331
## 33 1.7685216 2.0080571 3.4697682 6.0281342 2.5772016 2.0315784 4.9000285
## 34 3.4996103 4.1159388 6.2002383 8.4320067 5.1669107 3.8376852 6.8245739
##           15        16        17        18        19        20        21
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16 1.8711602                                                            
## 17 1.9676825 3.5569786                                                  
## 18 1.8676310 3.5593965 2.2182791                                        
## 19 3.2671041 4.4361866 4.1656312 2.1150596                              
## 20 1.6424621 2.5062654 3.2584905 1.7945593 1.9418035                    
## 21 0.7714686 2.5193957 2.0071097 1.2827434 2.6234861 1.3281896          
## 22 0.4776824 2.2956989 1.8185474 1.4067535 2.9680220 1.5488462 0.4832876
## 23 2.7068722 3.1041220 3.1157822 4.1600305 5.3761081 3.9172714 3.0192130
## 24 2.3694509 3.4672520 3.1463191 2.9889776 3.6364542 2.7224423 2.0866094
## 25 0.9091488 1.0359586 2.6417565 2.6473769 3.7200433 1.8740381 1.5646204
## 26 2.0401971 3.6487615 2.6502662 1.5435234 2.1531085 1.8456493 1.3101380
## 27 0.4057512 2.2649157 1.7217087 1.5529899 3.0622865 1.6424134 0.4970073
## 28 1.2343867 3.0968896 1.3949234 1.0012437 2.8875227 2.0080965 0.8185085
## 29 2.6178906 3.9753039 3.3448686 1.6582678 1.0579969 1.6798576 1.9444733
## 30 2.7579720 4.3124371 3.2364702 1.1505341 1.2732280 2.0243436 2.0443753
## 31 1.4834837 1.3599051 3.0559415 2.6986273 3.8647921 2.0828791 2.0325527
## 32 0.9966090 2.5057227 2.3937521 1.1989190 2.4212229 1.0423091 0.5718269
## 33 2.0417601 2.6669107 3.7210637 2.4205797 2.6019169 1.2842416 1.8139855
## 34 4.2652130 5.3817077 5.1825666 3.1568074 1.5339935 2.9565119 3.5899722
##           22        23        24        25        26        27        28
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16                                                                      
## 17                                                                      
## 18                                                                      
## 19                                                                      
## 20                                                                      
## 21                                                                      
## 22                                                                      
## 23 2.9914244                                                            
## 24 2.3869054 2.1970214                                                  
## 25 1.3522950 2.7605060 2.8134754                                        
## 26 1.7610358 3.4490515 1.7101023 2.7482617                              
## 27 0.2809822 2.8089521 2.2828496 1.2721839 1.7458937                    
## 28 0.8209267 3.2457153 2.4480417 2.1192973 1.4984379 0.8581553          
## 29 2.3402605 4.5808370 2.9846823 3.1210499 1.4476135 2.3550668 2.1832880
## 30 2.3397501 4.8387622 3.1940349 3.4619547 1.5493329 2.4665031 1.9945206
## 31 1.6815915 3.6070817 3.5426162 1.2599636 3.2601588 1.8112539 2.4248930
## 32 0.6888175 3.3954843 2.3657001 1.6804598 1.5075722 0.8873112 1.1103960
## 33 1.9955762 3.6871078 2.3460619 2.2901491 2.0819499 2.1255829 2.4696049
## 34 3.9658143 5.9735315 3.9273310 4.7576080 2.7790487 4.0793730 3.8566294
##           29        30        31        32        33
## 2                                                   
## 3                                                   
## 4                                                   
## 5                                                   
## 6                                                   
## 7                                                   
## 8                                                   
## 9                                                   
## 10                                                  
## 11                                                  
## 12                                                  
## 13                                                  
## 14                                                  
## 15                                                  
## 16                                                  
## 17                                                  
## 18                                                  
## 19                                                  
## 20                                                  
## 21                                                  
## 22                                                  
## 23                                                  
## 24                                                  
## 25                                                  
## 26                                                  
## 27                                                  
## 28                                                  
## 29                                                  
## 30 1.2344979                                        
## 31 3.5453486 3.5323090                              
## 32 1.9669297 1.8809193 1.8047044                    
## 33 2.5362087 2.5139013 2.2819263 1.4547480          
## 34 2.3051450 2.0973714 4.8248166 3.3410361 2.9771360

3.3 Korelasi Cophenetic

#Koefisien Korelasi Cophenetic
d1 <- dist(DataAnmul[,2:5])

3.3.1 Single Linkage

#Single Linkage
hiers <- hclust(dist(DataAnmul[,2:5]), method = "single")

#korelasi cophenetic
hc1 <- hclust(d1, "single")
d2 <- cophenetic(hc1)
cors <- cor(d1,d2)
cors
## [1] 0.9477426

3.3.2 Average Linkage

#Average Linkage
hierave <- hclust(dist(DataAnmul[,2:5]), method = "ave")

#korelasi cophenetic
hc2 <- hclust(d1, "ave")
d3 <- cophenetic(hc2)
corave <- cor(d1,d3)
corave
## [1] 0.9044026

3.3.3 Complete Linkage

#Complete Linkage
hiercomp <- hclust(dist(DataAnmul[,2:5]), method = "complete")

#korelasi cophenetic
hc3 <- hclust(d1, "complete")
d4 <- cophenetic(hc3)
corcomp <- cor(d1,d4)
corcomp
## [1] 0.8784726

3.3.4 Centroid Method

#Centorid Linkage
hiercen <- hclust(dist(DataAnmul[,2:5]), method = "centroid")

#korelasi cophenetic
hc4 <- hclust(d1, "centroid")
d5 <- cophenetic(hc4)
corcen <- cor(d1,d5)
corcen
## [1] 0.903634

3.3.5 Ward’s Method

#Ward
hierward <- hclust(dist(DataAnmul[,2:5]), method = "ward.D")

#korelasi cophenetic
hc5 <- hclust(d1,"ward.D")
d6 <- cophenetic(hc5)
corward <- cor(d1,d6)
corward
## [1] 0.7455382
KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
KorCop
##        cors    corave   corcomp   corcen   corward
## 1 0.9477426 0.9044026 0.8784726 0.903634 0.7455382

Koefisien korelasi cophenetic digunakan sebagai dasar dalam penentuan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Nilai korelasi yang paling mendekati 1 ialah metode single linkage, sehingga berdasarkan output, metode terbaik yang terpilih adalah metode single linkage dipilih sebagai metode terbaik.

3.4 Metode Single Linkage

3.4.1 Validitas Cluster

Pengukuran validitas klaster bertujuan untuk mengevaluasi sejauh mana hasil pengelompokan data dapat mencerminkan atau mewakili keseluruhan populasi dengan baik. Penggunaan indeks validitas klaster sangat penting untuk menentukan jumlah klaster yang optimal, sehingga dapat memberikan pemahaman yang lebih akurat tentang struktur data. Indeks validitas klaster yang umum digunakan meliputi:

  1. Indeks Connectivity: Indeks ini mengukur seberapa erat hubungan antar-poin dalam klaster. Semakin rendah nilai indeks ini, semakin baik klaster yang dihasilkan.

  2. Indeks Silhouette: Indeks ini mengevaluasi koherensi internal klaster dan pemisahannya dari klaster lain. Nilai Silhouette yang tinggi menunjukkan bahwa klaster memiliki kejelasan dan pemisahan yang baik.

  3. Indeks Dunn: Indeks Dunn mengukur rasio antara jarak terpendek antar-klaster dan jarak terjauh dalam klaster yang sama. Indeks ini membantu mengidentifikasi klaster yang kompak dan saling berjauhan satu sama lain.

Penggunaan ketiga indeks ini secara bersamaan dapat memberikan gambaran yang lebih komprehensif mengenai efektivitas pengelompokan data dan membantu dalam pemilihan jumlah klaster optimal yang dapat menggambarkan pola data secara lebih akurat.

#Indeks Validitas

library(clValid)
## Loading required package: cluster
inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "single")
summary(inval)
## 
## Clustering Methods:
##  hierarchical 
## 
## Cluster sizes:
##  2 3 4 5 
## 
## Validation Measures:
##                                  2       3       4       5
##                                                           
## hierarchical Connectivity   3.1790  6.3579 10.3575 12.3575
##              Dunn           0.3812  0.2852  0.3228  0.2891
##              Silhouette     0.5537  0.3641  0.3244  0.2452
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 3.1790 hierarchical 2       
## Dunn         0.3812 hierarchical 2       
## Silhouette   0.5537 hierarchical 2

Berdasarkan indeks Connectivity, indeks Dunn, dan indeks Silhouette terpilih jumlah cluster sebanyak dua sebagai cluster optimal pada metode pengelompokan single linkage berdasarkan faktor-faktor yang mempengaruhi

optimalScores(inval)
##                  Score       Method Clusters
## Connectivity 3.1789683 hierarchical        2
## Dunn         0.3812439 hierarchical        2
## Silhouette   0.5536648 hierarchical        2
plot(inval)

#Metode Single Linkage
hirsing <- hclust(dist(scale(DataAnmul[,2:5])), method = "single")
hirsing
## 
## Call:
## hclust(d = dist(scale(DataAnmul[, 2:5])), method = "single")
## 
## Cluster method   : single 
## Distance         : euclidean 
## Number of objects: 34

3.4.2 Dendogram

plot(hirsing, labels(DataAnmul$Provinsi), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")

anggota_sing <- data.frame(id = DataAnmul$Provinsi, cutree(hirsing, k = 2))
anggota_sing
##                           id cutree.hirsing..k...2.
## 1                       Aceh                      1
## 2             Sumatera Utara                      1
## 3             Sumatera Barat                      1
## 4                       Riau                      1
## 5                      Jambi                      1
## 6           Sumatera Selatan                      1
## 7                   Bengkulu                      1
## 8                    Lampung                      1
## 9  Kepulauan Bangka Belitung                      1
## 10            Kepulauan Riau                      1
## 11               DKI Jakarta                      2
## 12                Jawa Barat                      1
## 13               Jawa Tengah                      1
## 14            DI. Yogyakarta                      1
## 15                Jawa Timur                      1
## 16                    Banten                      1
## 17                      Bali                      1
## 18       Nusa Tenggara Barat                      1
## 19       Nusa Tenggara Timur                      1
## 20          Kalimantan Barat                      1
## 21         Kalimantan Tengah                      1
## 22        Kalimantan Selatan                      1
## 23          Kalimantan Timur                      1
## 24          Kalimantan Utara                      1
## 25            Sulawesi Utara                      1
## 26           Sulawesi Tengah                      1
## 27          Sulawesi Selatan                      1
## 28         Sulawesi Tenggara                      1
## 29                 Gorontalo                      1
## 30            Sulawesi Barat                      1
## 31                    Maluku                      1
## 32              Maluku Utara                      1
## 33               Papua Barat                      1
## 34                     Papua                      1
install.packages("ggrepel", repos = "https://cran.rstudio.com/")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
## 
##   There is a binary version available but the source version is later:
##         binary source needs_compilation
## ggrepel  0.9.5  0.9.6              TRUE
## installing the source package 'ggrepel'
## Warning in install.packages("ggrepel", repos = "https://cran.rstudio.com/"):
## installation of package 'ggrepel' had non-zero exit status
install.packages("factoextra", repos = "https://cran.rstudio.com/")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
## package 'factoextra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\Administrator\AppData\Local\Temp\RtmpmkLAea\downloaded_packages
install.packages("dendextend")
## Installing package into 'C:/Users/Administrator/AppData/Local/R/win-library/4.2'
## (as 'lib' is unspecified)
## 
##   There is a binary version available but the source version is later:
##            binary source needs_compilation
## dendextend 1.17.1 1.18.1             FALSE
## installing the source package 'dendextend'
library(dendextend)
## 
## ---------------------
## Welcome to dendextend version 1.18.1
## Type citation('dendextend') for how to cite the package.
## 
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
## 
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags: 
##   https://stackoverflow.com/questions/tagged/dendextend
## 
##  To suppress this message use:  suppressPackageStartupMessages(library(dendextend))
## ---------------------
## 
## Attaching package: 'dendextend'
## The following object is masked from 'package:stats':
## 
##     cutree
dend <- as.dendrogram(hirsing)
dend %>% set("branches_k_color", k=2) %>% plot(main = "Cluster Dendrogram")

Cluster 1 pada dendogram berwarna hijau yang terdiri dari 33 Provinsi yaitu Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau, Jawa Barat, Jawa Tengah, DI. Yogyakarta, Jawa Timur, Banten, Bali, NTB, NTT, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua.

Cluster 2 pada dendogram berwarna merahyang terdiri dari 1 provinsi yaitu DKI Jakarta.

plot(hirsing, labels = DataAnmul$Provinsi, main = "Cluster Dendrogram (Single Linkage)", xlab = "Provinsi", ylab = "Jarak", hang = -1)
rect.hclust(hirsing, k = 2, border = 2:3)

3.5 Interpretasi Cluster

hirsing <- hclust(dist(datastand), method = "single")
idclus <- cutree(hirsing, k = 2)
aggregate(DataAnmul[, 2:5], by = list(idclus), mean)
##   Group.1      TPT Pendapatan.perKapita Tingkat.pendidikan      IPM
## 1       1 4.555758             74655.48           65.13697 72.32394
## 2       2 6.530000            322615.00           88.10000 82.46000

Cluster 1 variabel Tingkat Pengangguran Terbuka (TPT), Pendapatan per Kapita, Tingkat pendidikan, Indek Pembangunan Masyarakat (IPM) memiliki karakteristik yang rendah.

Cluster 2 variabel Tingkat Pengangguran Terbuka (TPT), Pendapatan per Kapita, Tingkat pendidikan, Indek Pembangunan Masyarakat (IPM) memiliki karakteristik yang tinggi dibandingkan dengan cluster 1.

Berdasarkan hal tersebut dapat disimpulkan cluster 1 merupakan kelompok dengan faktor kesejahteraaan yang rendah dan cluster 2 merupakan kelompok dengan faktor kesejahteraan yang tinggi.

4 PENUTUP

4.1 Kesimpulan

Berdasarkan hasil analisis menggunakan metode clustering dengan data terkait Tingkat Pengangguran Terbuka (TPT), Indeks Pembangunan Manusia (IPM), Tingkat Pendidikan, dan Pendapatan per Kapita di seluruh provinsi di Indonesia, dapat disimpulkan bahwa pola distribusi sosial dan ekonomi antar provinsi memiliki karakteristik yang bervariasi. Pengelompokan provinsi berdasarkan indikator-indikator ini memberikan wawasan tentang bagaimana faktor-faktor ekonomi dan sosial saling mempengaruhi tingkat kesejahteraan masyarakat di masing-masing provinsi. Hasil analisis ini juga menunjukkan adanya kelompok provinsi dengan kondisi sosial-ekonomi serupa, yang dapat digunakan sebagai dasar perencanaan kebijakan untuk meningkatkan kesejahteraan secara merata di Indonesia.

4.2 Saran

Berdasarkan hasil analisis yang dilakukan, diharapkan penelitian ini dapat memberikan wawasan yang lebih mendalam tentang hubungan antara faktor-faktor sosial ekonomi seperti tingkat pengangguran terbuka, IPM, tingkat pendidikan, dan pendapatan per kapita di Indonesia.

4.3 Daftar Pustaka

Badan Pusat Statistik. 2023. Tingkat Pengangguran Terbuka Menurut Provinsi (Persen), 2023. https://www.bps.go.id/id/statistics-table/2/NTQzIzI=/tingkat-pengangguran-terbuka--februari-2024.html. Diakses pada 9 November 2024.

Badan Pusat Statistik. 2023. [Metode Baru] Indeks Pembangunan Manusia menurut Provinsi, 2022-2023. https://www.bps.go.id/id/statistics-table/2/NDk0IzI=/-metode-baru-indeks-pembangunan-manusia-menurut-provinsi.html. Diakses pada 9 November 2024.

Badan Pusat Statistik. 2024. Produk Domestik Regional Bruto per Kapita Atas Dasar Harga Berlaku Menurut Provinsi (ribu rupiah), 2023. https://www.bps.go.id/id/statistics-table/3/YWtoQlRVZzNiMU5qU1VOSlRFeFZiRTR4VDJOTVVUMDkjMw==/produk-domestik-regional-bruto-per-kapita-atas-dasar-harga-berlaku-menurut-provinsi--ribu-rupiah---2022.html?year=2023. Diakses pada 9 November 2024.

Badan Pusat Statistik. 2024. Tingkat Penyelesaian Pendidikan Menurut Jenjang Pendidikan dan Provinsi, 2021-2023. https://www.bps.go.id/id/statistics-table/2/MTk4MCMy/tingkat-penyelesaian-pendidikan-menurut-jenjang-pendidikan-dan-provinsi.html. Diakses pada 9 November 2024.