Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")Perekonomian adalah salah satu indikator yang sering digunakan untuk mengukur keberhasilan suatu wilayah. Pembangunan ekonomi merupakan suatu proses yang berdampak pada meningkatnya pendapatan per kapita penduduk suatu masyarakat dalam jangka panjang. Kerjasama antar daerah memainkan peran penting dalam upaya memajukan perekonomian yang melibatkan berbagai daerah. Namun, mencapai tujuan tersebut tidak mudah lantaran setiap daerah memiliki variasi sumber daya alam, sumber daya manusia dan lembaga institusi yang menyebabkan pembangunan ekonomi tidak merata. Permasalahan ini dapat diatasi dengan menerapkan kebijakan khusus di kabupaten/kota yang memiliki tingkat ekonomi yang berbeda, agar kebijakan yang diterapkan efektif, disarankan untuk mengelompokkan kabupaten/kota berdasarkan indikator pembangunan ekonomi.
Statistika deskriptif adalah metode untuk menghimpun, mengatur, dan mengolah data untuk dapat disajikan dan memberikan gambaran yang jelas tentang suatu kondisi atau peristiwa tertentu dimana data diambil. Data disajikan agar dapat diambil makna tertentu berdasarkan penggambaran sehingga lebih mudah untuk dipahami.
Analisis cluster merupakan statistika multivariat yang memungkinkan dilakukan pengelompokan berdasarkan kesamaan karakteristiknya. Objek yang memiliki karakteristik yang sama dalam satu kelompok memiliki tingkat kesamaan yang tinggi, sedangkan perbedaan karakteristik antar kelompoknya rendah. Tujuan dari analisis cluster adalah untuk mengelompokkan objek menjadi beberapa kelompok yang memiliki sifat berbeda antar kelompok, sehingga objek yang berada dalam satu kelompok memiliki karakteristik homogen. Analisis cluster memiliki dua metode utama, yaitu motode hierarki dengan penentuan banyak kelompok yang terbentuk dilihat berdasarkan hasil dendogram dan metode non-hierarki dengan penentuan banyak kelompok ditentukan di awal penelitian.
Konsep dasar pengukuran analisis cluster adalah pengukuran jarak dan kesamaan. Jarak merupakan ukuran jarak pisah antar objek sedangkan kesamaan merupakan ukuran kedekatan. Simamora (2005), jarak yang paling umum digunakan adalah jarak Euclidean, yang mengukur jarak sesungguhnya menggunakan mata manusia. Menurut Nishom (2019) pengukuran jarak Euclidean menunjukkan hasil yang baik dari pengukuran jarak Manhattan dan Minkowski.
Metode ini memulai pengelompokkan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian operasi diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk ‘pohon’ di aman ada hierarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Metode ini terdapat dua macam proses yaitu aglomerative dan divissive.
Single Linkage Metode single linkage jarak antar cluster ditentukan oleh jarak paling dekat.
Complete Linkage Metode complete linkage jarak antar cluster ditentukan oleh jarak paling jauh,
Average Linkage Metode average linkage akan mengelompokkan objek berdasarkan jarak antara dua cluster yang dianggap sebagai jarak rata-rata antara semua anggota dalam satu cluster dengan semua anggota cluster.
Ward’s Method Ward’s Method jarak antara dua cluster yang terbentuk adalah jumlah kuadrat diantara dua cluster tersebut.
Centroid Method Centroid Method jarak yang digunakan adalah jarak kuadrat euclidean antara titik pusat dua kelompok. Titik pusat kelompok adalah nilai tengah objek setiap peubah dalam satu kelompok.
Koefisien korelasi cophenetic adalah koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (matriks jarak squared euclidean) dan elemen-elemen yang dihasilkan oleh dendogram (matriks cophenetic). nilai koefisien korelasi cophenetic berkisar antara -1 dan 1, nilai yang mendekati 1 berarti solusi yang dihasilkan dari proses clustering baik.
Dendogram adalah visualisasi dari prosedur yang dilakukan dengan menggunakan analisis cluster hierarki. Titik-titik pada dendogram mewakili cluster, sedangkan panjang batangnya merupakan jarak objek-objek digabung dalam cluster. Pemotongan dendogram dilakukan pada selisih jarak penggabungan terbesar ataupun pada gerombol yang dihasilkan lebih bermakna.
Pada kasus ini menggunakan data sekunder yang diperoleh dari Badan Pusat Statistik di Jawa Timur tentang indikator pembangunan ekonomi tahun 2023. Variabel yang digunakan adalah Tingkat Pengangguran Terbuka (X1), Banyak Usaha/Perusahaan Industri Pengolahan Mikro dan Kecil (X2), Pengeluaran Per Kapita (X3), dan Indeks Pembangunan Manusia (X4)
| Kabupaten/Kota | X1 | X2 | X3 | X4 |
|---|---|---|---|---|
| Pacitan | 1.83 | 46807 | 9681 | 70.94 |
| Ponorogo | 4.66 | 21739 | 10658 | 73.18 |
| Trenggalek | 4.52 | 28358 | 10465 | 71.96 |
| Tulungagung | 5.65 | 26359 | 11565 | 74.65 |
| Blitar | 4.91 | 33932 | 11499 | 72.84 |
| Kediri | 5.79 | 20159 | 11952 | 74.68 |
| Malang | 5.70 | 39721 | 10791 | 73.00 |
| Lumajang | 3.67 | 16981 | 9720 | 69.37 |
| Jember | 4.01 | 46452 | 10277 | 70.42 |
| Banyuwangi | 4.75 | 29902 | 12820 | 73.79 |
| Bondowoso | 4.15 | 36717 | 11255 | 70.56 |
| Situbondo | 3.27 | 33822 | 10702 | 70.65 |
| Probolinggo | 3.24 | 27660 | 11756 | 70.36 |
| Pasuruan | 5.48 | 31350 | 11239 | 71.91 |
| Sidoarjo | 8.05 | 16151 | 15311 | 81.88 |
| Mojokerto | 4.67 | 21972 | 13467 | 76.23 |
| Jombang | 4.66 | 28640 | 11999 | 75.16 |
| Nganjuk | 4.68 | 12366 | 12821 | 74.70 |
| Madiun | 5.14 | 8925 | 12259 | 74.02 |
| Magetan | 4.16 | 20723 | 12495 | 76.30 |
| Ngawi | 2.41 | 24468 | 11897 | 73.28 |
| Bojonegoro | 4.63 | 48419 | 10776 | 71.80 |
| Tuban | 4.40 | 18608 | 11174 | 71.40 |
| Lamongan | 5.46 | 26474 | 12019 | 75.29 |
| Gresik | 6.82 | 19351 | 13870 | 78.44 |
| Bangkalan | 6.18 | 20344 | 9438 | 66.82 |
| Sampang | 2.72 | 15389 | 9363 | 66.19 |
| Pamekasan | 1.74 | 67609 | 9420 | 70.32 |
| Sumenep | 1.71 | 31691 | 9807 | 69.13 |
| Kota Kediri | 4.06 | 4073 | 13276 | 80.97 |
| Kota Blitar | 5.24 | 3600 | 14548 | 80.78 |
| Kota Malang | 6.80 | 10837 | 17222 | 84.00 |
| Kota Probolinggo | 4.53 | 3224 | 12999 | 76.93 |
| Kota Pasuruan | 5.64 | 5371 | 14250 | 78.30 |
| Kota Mojokerto | 4.73 | 2009 | 14422 | 80.90 |
| Kota Madiun | 5.85 | 3073 | 17115 | 83.71 |
| Kota Surabaya | 6.76 | 18127 | 18977 | 83.99 |
| Kota Batu | 4.52 | 3094 | 13603 | 79.07 |
> library(readxl)
> library(magrittr)
> library(knitr)
> library(ggplot2)
> library(factoextra)
> library(cluster)> Data_IPE <- read_excel("D:/kuliah/semester 5/analisis multivariat 1/rpubs/data.xlsx")
> summary(Data_IPE)Mengimport file data dari excel ke R dapat menggunakan fungsi read_excel, yang kemudian disimpan dalam variabel Data_IPE, serta summary digunakan untuk melihat gambaran data secara keseluruhan.
Uji Sampel Representatif
Nilai KMO lebih dari 0,5 dapat disimpulkan bahwa sampel telah representatif.
Uji Non Multikolinieritas
> korelasi <- cor(Data[,2:5], method = 'pearson')
Error: object 'Data' not found
> korelasi
Error: object 'korelasi' not foundNilai Korelasi kurang dari 0,8 dapat disimpulkan bahwa tidak terjai multikolinieritas antar variabel.
> Datastand <- scale(Data_IPE[2:5])
> Datastand %>% head(38) %>% kable(caption = "Hasil standariasai Data Indikator Pembangunan Ekonomi Jawa Timur 2023")
> Data <- data.matrix(Datastand, 1:4)Melakukan standarisasi menggunakan fungsi scale dengan argument yang berisi data awal dari kolom 2 sampai kolom 5, standarisasi dilakukan untuk menyamakan satuan peubah yang berbeda. Untuk menampilkan data ke bentuk data frame dapat menggunakan operator pipa (%>%) yang ada di library magrittr dan fungsi kable yang ada di library knitr.
Perhitungan jarak menggunakan jarak euclidean.
> d1 <- dist(Data_IPE[,2:4])
> #Single Linkage
> heirs <- hclust(dist(Data_IPE[,2:4]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
> #Complete Linkage
> heirs <- hclust(dist(Data_IPE[,2:4]), method = "complete")
> #korelasi cophenetic
> hc2 <- hclust(d1, "complete")
> d3 <- cophenetic(hc2)
> corcom <- cor(d1,d3)
> corcom
> #Average Linkage
> hierave <- hclust(dist(Data_IPE[,2:4]), method = "ave")
> #korelasi cophenetic
> hc3 <- hclust(d1, "ave")
> d4 <- cophenetic(hc3)
> corave <- cor(d1,d4)
> corave
> #Ward's Method
> heirward <- hclust(dist(Data_IPE[,2:4]), method = "ward.D")
> #korelasi cophenetic
> hc4 <- hclust(d1, "ward.D")
> d5 <- cophenetic(hc4)
> corward <- cor(d1,d5)
> corward
> #Centroid Method
> heircen <- hclust(dist(Data_IPE[,2:4]), method = "centroid")
> #korelasi cophenetic
> hc5 <- hclust(d1, "centroid")
> d6 <- cophenetic(hc5)
> corcen <- cor(d1,d6)
> corcenUntuk mencari metode terbaik yang akan digunakan dapat melihat perbandingan nilai korelasi cophenetic dari masing-masing metode, nilai korelasi cophenetic terbesar akan dipilih.
Fungsi fviz_nbclust digunakan untuk menentukan jumlah cluster optimum, dimana argument yang diisikan adalah data hasil standarisasi, hierarki cluster dengan menggunakan metode Silhouette untuk memvalidari.
> clus_hier = eclust(Data, FUNcluster = "hclust", k = 2, hc_method = "ave", graph = TRUE)
> dend = fviz_dend(clus_hier, rect = TRUE, show_labels = TRUE, cex = 0.5)
>
> idclus = clus_hier$cluster
> idobs = as.numeric(names(idclus))
> print(dend)
>
> n <- length(idclus)
> idclus = clus_hier$cluster
> c1 = c(); c2 = c();
> for (i in 1:n){
+ if(idclus[i] == 1){c1 = c(c1,i)}
+ else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
> clustering$Cluster2Fungsi eclust digunakan untuk menerapkan clustering yang berisi
argumen data yang sudah di standarisasi, menerapkan metode cluster
hierarki, dengan cluster optimum sebanyak 2 cluster dan metode average
sebagai metode terbaik yang dipiih untuk melakukan clustering, serta
graph = TRUE yang artinya akan memunculkan grafik dari hasil clustering
yang kemudian disimpan pada variabel clus_hier. Fungsi fviz_dend
digunakan untuk memvisualisasikan hasil clustering berbentuk dendogram
yang berisi argument dari clus_hier, react = TRUE dengan menampilkan
label.
Kemudian untuk mendapatkan anggota tiap cluster, mendefinisikan idclus
dengan hanya memanggil cluster pada variabel clus_hier, lalu
mendefinisikan c1 dan c2 dengan c() dan menggunakan looping for, dimana
i untuk mengevaluasi setiap elemen dari 1 sampai n, di dalam loop
digunakan if else if untuk menguji dan menyeleksi setiap elemen vektor
data i=1 akan masuk ke cluster 1, jika bukan maka looping i=2 akan masuk
ke cluster 2. Mendefinisikan clustering dengan fungsi list untuk
cluster1 = c1 dan cluster2 = c2.
Statistika deskriptif pada penelitian ini digunakan untuk memberikan gambaran umum dan menyajikan data Indikator Pembangunan Ekonomi pada variabel Tingkat Pengangguran Terbuka (X1), Banyak Usaha/Perusahaan Industri Pengolahan Mikro dan Kecil (X2), Pengeluaran Per Kapita (X3), dan Indeks Pembangunan Manusia (X4).
Kabupaten/Kota X1 X2 X3
Length:38 Min. :1.710 Min. : 2009 Min. : 9363
Class :character 1st Qu.:4.082 1st Qu.:13122 1st Qu.:10720
Mode :character Median :4.665 Median :21231 Median :11924
Mean :4.663 Mean :23013 Mean :12287
3rd Qu.:5.600 3rd Qu.:30988 3rd Qu.:13419
Max. :8.050 Max. :67609 Max. :18977
X4
Min. :66.19
1st Qu.:71.06
Median :73.91
Mean :74.68
3rd Qu.:77.96
Max. :84.00
Uji Sampel Representatif
> Data <- data.frame(Data_IPE)
> kmo <- KMO(Data[,2:5])
Error in KMO(Data[, 2:5]): could not find function "KMO"
> kmo
Error: object 'kmo' not foundNilai KMO lebih dari 0,5 dapat disimpulkan bahwa sampel telah representatif.
Uji Non Multikolinieritas
> korelasi <- cor(Data[,2:5], method = 'pearson')
> korelasi
X1 X2 X3 X4
X1 1.0000000 -0.4266271 0.6333147 0.6060380
X2 -0.4266271 1.0000000 -0.5939283 -0.5977117
X3 0.6333147 -0.5939283 1.0000000 0.9378152
X4 0.6060380 -0.5977117 0.9378152 1.0000000Nilai Korelasi pada variabel X3 dan X4 lebih dari 0,8 maka dapat disimpulkan terjadi multikolinieritas antar variabel.
| X1 | X2 | X3 | X4 |
|---|---|---|---|
| -1.9826695 | 1.6073706 | -1.1514613 | -0.7942952 |
| -0.0020260 | -0.0860689 | -0.7197825 | -0.3188352 |
| -0.1000083 | 0.3610699 | -0.8050578 | -0.5777911 |
| 0.6908494 | 0.2260298 | -0.3190326 | -0.0068146 |
| 0.1729426 | 0.7376150 | -0.3481941 | -0.3910032 |
| 0.7888317 | -0.1928040 | -0.1480400 | -0.0004469 |
| 0.7258431 | 1.1286841 | -0.6610176 | -0.3570418 |
| -0.6949013 | -0.4074901 | -1.1342295 | -1.1275416 |
| -0.4569441 | 1.5833890 | -0.8881240 | -0.9046698 |
| 0.0609627 | 0.4653730 | 0.2354781 | -0.1893573 |
| -0.3589617 | 0.9257524 | -0.4560033 | -0.8749535 |
| -0.9748509 | 0.7301841 | -0.7003415 | -0.8558502 |
| -0.9958471 | 0.3139173 | -0.2346409 | -0.9174053 |
| 0.5718708 | 0.5631910 | -0.4630728 | -0.5884040 |
| 2.3705471 | -0.4635597 | 1.3361044 | 1.5278172 |
| 0.0049728 | -0.0703289 | 0.5213493 | 0.3285544 |
| -0.0020260 | 0.3801201 | -0.1272735 | 0.1014374 |
| 0.0119715 | -0.7192510 | 0.2359199 | 0.0037983 |
| 0.3339136 | -0.9517037 | -0.0123948 | -0.1405377 |
| -0.3519630 | -0.1547036 | 0.0918797 | 0.3434126 |
| -1.5767426 | 0.0982855 | -0.1723413 | -0.2976093 |
| -0.0230222 | 1.7162674 | -0.6676452 | -0.6117525 |
| -0.1839932 | -0.2975800 | -0.4917925 | -0.6966561 |
| 0.5578733 | 0.2337985 | -0.1184367 | 0.1290311 |
| 1.5097020 | -0.2473875 | 0.6994113 | 0.7976466 |
| 1.0617826 | -0.1803065 | -1.2588287 | -1.6688018 |
| -1.3597816 | -0.5150358 | -1.2919668 | -1.8025249 |
| -2.0456582 | 3.0126255 | -1.2667818 | -0.9258957 |
| -2.0666544 | 0.5862268 | -1.0957893 | -1.1784838 |
| -0.4219504 | -1.2794750 | 0.4369576 | 1.3346616 |
| 0.4039010 | -1.3114279 | 0.9989796 | 1.2943324 |
| 1.4957045 | -0.8225408 | 2.1804628 | 1.9778061 |
| -0.0930096 | -1.3368282 | 0.3145676 | 0.4771357 |
| 0.6838506 | -1.1917901 | 0.8673109 | 0.7679304 |
| 0.0469652 | -1.4189061 | 0.9433076 | 1.3198035 |
| 0.8308242 | -1.3470288 | 2.1331858 | 1.9162510 |
| 1.4677096 | -0.3300734 | 2.9558941 | 1.9756835 |
| -0.1000083 | -1.3456102 | 0.5814397 | 0.9313697 |
| Metode | Korelasi.Cophenetic |
|---|---|
| Single Linkage | 0.7317167 |
| Complete Linkage | 0.6423605 |
| Average Linkage | 0.7800783 |
| Centroid | 0.7777137 |
| Ward | 0.5822808 |
Koefisien Korelasi dengan Single Linkage yaitu sebesar
0,7317167
Koefisien Korelasi dengan Complete Linkage yaitu sebesar 0.6423605
Koefisien Korelasi dengan Average Linkage yaitu sebesar 0.7800783
Koefisien Korelasi dengan Centroid Linkage yaitu sebesar 0.7777137
Koefisien Korelasi dengan Ward’s Method yaitu sebesar 0.5822808
Nilai korelasi yang paling mendekati 1 adalah dengan metode Average Linkage, sehingga terpilih sebagai metode terbaik.
Berdasarkan plot diatas, dengan menggunakan metode silhouette untuk memvalidasi jumlah cluster, didapat jumlah cluster optimum sebanyak 2 cluster.
Dengan melihat selisih terpanjang dari gambar diatas terlihat bahwa pemotongan yang tepat akan menghasilkan 2 cluster, dimana pada cluster 1 sebanyak 37 anggota dan cluster 2 sebanyak 1 anggota.
> n <- length(idclus)
> idclus = clus_hier$cluster
> c1 = c(); c2 = c();
> for (i in 1:n){
+ if(idclus[i] == 1){c1 = c(c1,i)}
+ else if (idclus[i] == 2){c2 = c(c2,i)}
+ }
> clustering = list(Cluster1 = c1, Cluster2 = c2)
> clustering$Cluster1
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
[26] 26 27 29 30 31 32 33 34 35 36 37 38
> clustering$Cluster2
[1] 28Berdasarkan hasil clustering, diperoleh anggota tiap cluster sebagai berikut:
| Cluster | Anggota |
|---|---|
| 1 | Pacitan, Ponorogo,Trenggalek, Tulungagung, Blitar, Kediri, Malang, Lumajang, Jember, Banyuwangi, Bondowoso, Situbondo, Probolinggo, Pasuruan, Sidoarjo, Mojokerto, Jombang, Nganjuk, Madiun, Magetan, Ngawi, Bojonegoro, Tuban, Lamongan, Gresik, Bangkalan, Sampang, Sumenep, Kota Kediri, Kota Blitar, Kota Malang, Kota Probolinggo, Kota Pasuruan, Kota Mojokerto, Kota Madiun, Kota Surabaya, Kota Batu |
| 2 | Pamekasan |
> aggregate(Data, list(idclus), mean)
Group.1 X1 X2 X3 X4
1 1 0.05528806 -0.08142231 0.03423735 0.02502421
2 2 -2.04565821 3.01262546 -1.26678185 -0.92589567Tingkat Pengangguran Terbuka (X1), Banyak Usaha/Perusahaan Industri Pengolahan Mikro dan Kecil (X2), Pengeluaran Per Kapita (X3), dan Indeks Pembangunan Manusia (X4)
Berdasarkan hasil analisis diperoleh anggota cluster 1 memiliki Indeks Pembangunan Ekonomi yang lebih tinggi dibandingan anggota cluster 2.
Untuk peneliti lain sebaiknya menambahkan variabel indikator pembangunan ekonomi yang lain agar dapat membandingkan hasil penelitian.
Apriliana & Widodo, E. 2023. Analisis Cluster Hierarki untuk
Pengelompokan Provinsi di Indonesia berdasarkan Jumlah Base Transceiver
Station dan Kekuatan Sinyal. Konvergens Teknologi dan Sistem Informasi.
3(2).
Febriana, S., Diartho, H., C., Istiyani, N. 2019. Hubungan Pembangunan
Ekonomi Terhadap Kualitas Lingkungan Hidup du Provinsi Jawa Timur.
Jurnal Dinamika Ekonomi Pembangunan. 2(2).
Hasan, M. & Aziz, M. 2018. Pembangunan Ekonomi & Pemberdayaan
Masyarakat. CV Nur Lina. Goreti, M., Yuki, N., M., Wahyuningsih, S.
2016. Perbandingan Hasil Analisis Cluster dengan Menggunakan Metode
Single Linkage dan Metode C-Means. Jurnal EKSPONENSIAL. 7(1).
Martias, L., D. 2021. Statistika Deskriptif sebagai kumpulan informasi.
Jurnal Ilmu Perpustakaan dan Informasi. 16(1).
Pratiwi, S., I., Widiharih, T., Hakim, A., R. 2019. Analisis Klaster
Metode Ward dan Average Linkage dengan Validasi Dunn Index dan Koefisien
Korelasi Cophenetic. Jurnal Gaussian. 8(4).