1 PENDAHULUAN
1.1 Latar Belakang
Analisis cluster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu cluster memiliki kesamaan yang tinggi antar anggota dalam satu cluster dan perbedaan yang tinggi antar cluster yang satu dengan yang lain. Analisis cluster yang baik memiliki homogenitas (kesamaan) dalam satu cluster dan heterogenitas (perbedaan) antar cluster.Secara umum, analisis cluster dibagi dalam dua metode yaitu metode Non-hierarki dan metode Hierarki. Pada metode Non-hierarki banyaknya cluster ditentukan terlebih dahulu sedangkan metode cluster Hierarki harus melakukan analisis terlebih dahulu untuk menentukan banyaknya cluster. Menurut Dewi (2014) metode hierarki dibagi menjadi dua yaitu metode agglomerative (pemusatan) dan metode divisive.
Metode analisis cluster yang digunakan pada permasalahan pada kasus indeks ekonomi ini yaitu analisis cluster hierarki yang terdiri dari Single Linkage Method, Complete Linkage Method, Average Linkage Method, Ward’s Method, dan Centroid Method. Salah satu masalah dalam analisis cluster adalah penentuan jumlah cluster optimal dalam cluster yang sudah di bentuk. Oleh karena itu, dalam melakukan analisis cluster perlu dilakukan uji validitas cluster untuk mendapatkan jumlah cluster yang optimal, maka digunakan indeks validitas silhouette berdasarkan jarak Euclidean.Tujuan dilakukannya analisis cluster indeks ekonomi tahun 2023 ini, yaitu untuk membantu pemerintahan untuk mengambil kebijakan pembangunan ekonomi pada kab/kota yg memiliki indeks ekonomi yang rendah pada wilayah provinsi Jawa Timur untuk masa mendatang.
Memenuhi asumsi-asumsi ini sangat penting karena pelanggaran terhadap salah satu asumsi dapat menyebabkan hasil analisis menjadi tidak valid dan menyesatkan. Oleh karena itu, sebelum melakukan interpretasi hasil regresi linier, penting untuk melakukan analisis diagnostik untuk memastikan bahwa semua asumsi telah dipenuhi.
1.2 Tinjauan Pustaka
1.2.1 Statistika Deskriptif
Statistika deskriptif adalah cabang dari statistika yang berfokus pada pengumpulan, pengorganisasian, penyajian, dan analisis data untuk memberikan gambaran yang jelas dan ringkas mengenai suatu kumpulan data. Dalam penelitian, statistika deskriptif menjadi langkah awal yang penting untuk memahami distribusi data dan mengidentifikasi pola yang mungkin ada sebelum melanjutkan ke analisis yang lebih kompleks. Beberapa teknik dasar yang sering digunakan dalam statistika deskriptif meliputi ukuran pemusatan, ukuran penyebaran, dan penyajian data dalam bentuk grafik atau tabel.
1.2.2 Analisis Cluster
Analisis Cluster adalah salah satu teknik multivariat yang bertujuan mengklasifikasi suatu objek-objek ke dalam suatu kelompok-kelompok yang berbeda antara lain antara kelompok satu dengan lainnya. Objek-objek yang telah memiliki kedekatan jarak relatif sama dengan objek lainnya (Qonitatin & Novita, 2017). Karakteristik objek-objek dalam satuan kelompok memiliki tingkat kemiripan yang tinggi, sedangkan karakteristik antar objek pada suatu kelompok dengan kelompok lain memiliki tingkat kemiripan yang rendah (Mattjik & Sumertajaya, 2011). Metode Analisis Cluster ada 2 yaitu hierarki dan non hierarki. Tahap-tahap dalam analisis cluster yaitu sebagai berikut
1). Melakukan Proses Standarisasi
Hal pertama yang harus dilakukan dalam analisis clustering adalah melakukan standarisasi information yaitu menggunakan z-score, dimana tujuan dilakukan standarisasiuntuk mempersempit perbedaan satuan lebar serta dapat digunakan untuk menyamakan peubah yang memiliki satuan yang berbeda.
2). Menentukan Ukuran Kemiripan
Pada analisis cluster terdapat beberapa ukuran kemiripan diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak. Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur kedektan antara dua objek dapat digunakan metode pengukuran Euclidean Separate.
3). Memilih Prosedur Pengclusteran
Pembentukan cluster dapat dilakukan dengan dua cara, yaitu dengan metode Hierarki dan Non Hierarki.
4). Menentukan Banyaknya Cluster
Masalah utama dalam analisis cluster adalah menetukan berapa banyaknya cluster.
5). Menginterpretasikan Hasil Cluster
Tahap terakhir adalah interpretasi masing-masing cluster yang terbentuk. Saat memulai interpretasi digunakan rata-rata pada peubah.
1.2.3 Jarak Analisis Cluster
Konsep jarak dalam analisis klaster adalah ukuran untuk mengidentifikasi seberapa mirip atau tidak mirip dua objek satu sama lain. Semakin kecil nilai jarak, semakin mirip kedua objek tersebut. Sebaliknya, semakin besar nilai jarak, semakin tidak mirip kedua objek. Pengukuran jarak ini menjadi dasar dalam algoritma klasterisasi seperti K-Means, Hierarchical Clustering, dan DBSCAN, yang mengandalkan jarak untuk menentukan klaster yang dihasilkan. Jarak yang biasa digunakan yaitu jarak euclidian, mahalanobis, dan manhattan
1.2.4 Analisis Cluster Hierarki
Analisis klaster hierarki adalah metode pengelompokan yang menyusun objek-objek data ke dalam struktur hierarki atau bertingkat. Teknik ini terutama digunakan dalam bidang seperti biologi, ilmu sosial, dan pemasaran untuk mengidentifikasi pola dalam data dan menemukan hubungan antara kelompok-kelompok data. Tidak seperti algoritma klasterisasi lain, analisis klaster hierarki tidak membutuhkan jumlah klaster tertentu di awal. Metode ini menawarkan fleksibilitas dan interpretabilitas tinggi, terutama untuk dataset berdimensi kecil hingga menengah.
1.2.5 Metode Analisis Cluster Hierarki
Metode klaster hierarki terbagi menjadi dua pendekatan utama:
Pendekatan Agregatif (Agglomerative Approach)
Pendekatan ini dikenal sebagai pendekatan “bottom-up.” Pada awalnya, setiap objek dianggap sebagai klaster individual. Secara bertahap, klaster-klaster yang paling mirip digabungkan hingga terbentuk satu klaster besar yang mencakup semua objek. Proses ini menghasilkan pohon hierarki dari level terendah (objek individu) hingga level tertinggi (semua objek dalam satu klaster). Pendekatan ini umum digunakan karena efisien dan lebih mudah diimplementasikan.
Pendekatan Divisif (Divisive Approach)
Pendekatan divisif, atau “top-down,” dimulai dengan satu klaster besar yang mencakup semua objek. Kemudian, klaster ini dipecah secara bertahap menjadi klaster-klaster lebih kecil berdasarkan perbedaan objek, hingga setiap objek berada di klaster terpisah. Meskipun divisif lebih jarang digunakan, pendekatan ini berguna untuk dataset dengan struktur yang jelas dan definisi klaster yang kuat (Kaufman & Rousseeuw, 1990).
Pengukuran jarak antar-klaster adalah bagian penting dalam analisis klaster hierarki. Beberapa metode yang umum digunakan meliputi:
Single Linkage
Single linkage mengukur jarak antara dua klaster berdasarkan dua objek terdekat dari masing-masing klaster. Ini menghasilkan klaster yang cenderung berisi objek yang saling terhubung, namun rentan terhadap efek “chaining,” di mana objek yang berjauhan tetap dikelompokkan dalam satu klaster. dengan rumus \[ d_{(ij)k}=min(d_{ik},d_{jk}) \]
Complete Linkage
Complete linkage mengukur jarak antara dua klaster berdasarkan dua objek terjauh dari masing-masing klaster. dengan rumus \[ d_{(ij)k}=max(d_{ik},d_{jk}) \]
Average Linkage
Pada metode ini digunakan jarak rata-rata dari sampel pada suatu kelompok terhadap sampel pada kelompok yang lain. dengan rumus \[ d_{(ij)k}=avg(d_{ik},d_{jk}) \]
Centroid Method
Pada metode Centroid Linkage, jarak antara dua klaster dihitung berdasarkan jarak antara centroid (titik pusat) dari masing-masing klaster.Jarak yang digunakan dalam metode ini adalah jarak kuadrat Euclidean antara titik pusat dua kelompok. Dimana titik pusat kelompok ini adalah nilai tengah objek setiap peubah dalam satu kelompok. Dalam metode ini setiap kali terbentuk kelompok baru, maka titik pusatnya berubah. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok. langkah pertama menghitung centroid (rata-rata) dari cluster A dan B \[ Centroid_{A}=\frac{1}{|A|} \sum_{x_i \in A} x_i \] \[ Centroid_{B}=\frac{1}{|B|} \sum_{y_j \in B} y_i \] Kemudian, jarak anatara kedua centroid dihitung dengan \[ d_{(A,B)}=d(centroid_{A},centroid_{B}) \] Jika menggunakan jarak euclidian dihitung dengan: \[ d_{(A,B)}=\sqrt{\sum_{k=1}^n (\text{centroid}_{A,k} - \text{centroid}_{B,k})^2} \]
Ward`s Method
Ward’s Method menghitung jarak antar-klaster berdasarkan peningkatan jumlah varians total dalam data ketika dua klaster digabungkan. Dalam metode ini, dua klaster yang digabungkan adalah yang memberikan peningkatan terkecil dalam jumlah varians total.Fungsi obyektif yang digunakan yaitu Error sum of squares (SSE). Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada (Abidin, 2017:12). dengan rumus \[ ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right] \]
1.2.6 Validitas Cluster
uji validitas cluster untuk mengevaluasi hasil dari Analisis Cluster secara kuantitatif sehingga dihasilkan kelompok optimum, Indeks dalam uji validitas cluster
Indeks Dunn
Indeks Dunn (Dunn Index) digunakan untuk mengukur pemisahan dan kepadatan klaster. Indeks ini dihitung dengan mencari rasio antara jarak minimum antar-klaster (jarak terdekat antara titik dari dua klaster berbeda) dengan diameter maksimum klaster (jarak terjauh antar titik dalam klaster). Indeks Dunn yang lebih tinggi menunjukkan klaster yang lebih baik, karena ini menunjukkan bahwa klaster memiliki kepadatan tinggi dan terpisah jauh satu sama lain (Dunn, 1974). dengan rumus \[ D = \min_{1 \leq i \leq n} \left\{ \min_{1 \leq j \leq n, i \neq j} \left( \frac{d(c_i, c_j)}{\max_{1 \leq k \leq n} d'(c_k)} \right) \right\} \] Keterangan :
\(d(c_{i},c_{j}\) = Jarak antar kelompok i dan j
\(d'(c_{k})\) = Jarak dalam kelompok k
Indeks Davies-Bouldin
Indeks Davies-Bouldin mengukur rata-rata kesalahan pemisahan dan kepadatan antar-klaster. Indeks ini menghitung rasio antara jarak rata-rata antar klaster dengan jarak maksimum antar-klaster. Semakin rendah nilai Davies-Bouldin, semakin baik hasil klasterisasi, yang menunjukkan klaster memiliki pemisahan yang baik dan kepadatan yang tinggi (Davies & Bouldin, 1979). dengan rumus \[ DB = \frac{1}{n} \sum_{i=1}^{n} \max_{i \neq j} \left[ \frac{d'(c_i) + d'(c_j)}{d(c_i, c_j)} \right] \] Keterangan :
\(n\) = Jumlah kelompok
\(d(c_{i},c_{j}\) = Jarak antar kelompok i dan j
\(d'(c_{k})\) = Jarak dalam kelompok k
Indeks C
Indeks C didefinisikan sebagai rasio dari perbedaan antara jarak rata-rata di dalam klaster dan jarak rata-rata antar klaster yang terjauh. Tujuan utama dari Indeks C adalah untuk memberikan ukuran keseragaman dan pemisahan antara klaster yang berbeda. Sebuah nilai Indeks C yang rendah menunjukkan bahwa klaster memiliki kepadatan internal yang baik dan terpisah dengan jelas dari klaster lain. dengan rumus \[ C = \frac{S - S_{\min}}{S_{\max} - S_{\min}} \] Keterangan :
\(S\) = Jumlah jarak pada semua pasangan objek amatan dari kelompok yang sama, dengan jumlah pasangan tersebut
\(S_{min}\) = Jumlah dari jarak terkecil jika semua pasangan contoh berada pada kelompok yang berbeda.
\(S_{max}\) = Jumlah dari jarak terbesar dari semua pasangan
Indeks Global Shilhoutte (GSu)
Koefisien Silhouette mengukur seberapa mirip objek dengan klaster mereka sendiri dibandingkan dengan klaster lain. Nilai Silhouette untuk setiap objek bervariasi antara -1 dan 1. Nilai mendekati 1 menunjukkan objek sangat mirip dengan klasternya sendiri, sedangkan nilai mendekati -1 menunjukkan objek lebih dekat ke klaster lain. Nilai rata-rata dari semua objek digunakan sebagai indeks keseluruhan, di mana nilai yang lebih tinggi menunjukkan hasil klasterisasi yang lebih baik (Rousseeuw, 1987). dengan rumus \[ GS_u = \frac{1}{c} \sum_{i=1}^{c} S(i) \] Keterangan :
\(S(i)\) = Silhoutte kelompok ke-i
\(c\) = Jumlah kelompok
Indeks Goodman Kruskal (GK)
Indeks Goodman-Kruskal mengukur kekuatan asosiasi antara dua variabel dengan menghitung proporsi kesepakatan atau ketidaksesuaian dalam pasangan observasi. Dalam konteks klasterisasi, Goodman-Kruskal bisa digunakan untuk menilai apakah dua variabel dalam data berkaitan atau memiliki pola yang sama dalam klaster-klaster tertentu. dengan rumus \[ GK = \frac{S_c - S_d}{S_c + S_d} \] Keterangan :
\(S_{c}\) = Jumlah Pasangan Konkordan
\(S_{d}\) = Jumlah Pasangan diskordan
1.2.7 Dendogram
Dendrogram adalah grafik berbentuk pohon (tree diagram) yang menampilkan proses pengelompokan secara bertingkat. Cabang-cabang pada dendrogram mewakili kelompok (klaster) yang terbentuk pada setiap tahap penggabungan. Panjang atau ketinggian cabang pada dendrogram menunjukkan tingkat kemiripan atau jarak antar objek atau klaster. Pada tahap awal, setiap objek individu dianggap sebagai klaster terpisah, dan secara bertahap klaster yang paling mirip digabungkan hingga menjadi satu klaster besar.
1.3 Data
Data yang digunakan menggunakan data sekunder yang diambil atau didapatkan dari website BPS Jawa Timur, yang kemudian digabung dan disatukan guna untuk meneliti indeks ekonomi di Jawa Timur. Data ini menggunakan 4 variabel yaitu Indek Pembangunan Manusia (IPM), Bruto perkapita, Tingkat Pengangguran Terbuka (TPT), dan Tingkat Partisipasi Angkatan Kerja (TPAK), dimana IPM(X1), Bruto (X2), TPT(X3), TPAK(X4).
| Kab/Kota | IPM | Bruto perkapita | TPT | TPAK |
|---|---|---|---|---|
| Pacitan | 70.19 | 20826 | 1.83 | 81.64 |
| Ponorogo | 72.50 | 16540 | 4.66 | 75.88 |
| Trenggalek | 71.73 | 19175 | 4.52 | 80.72 |
| Tulungagung | 74.61 | 27922 | 5.65 | 74.70 |
| Blitar | 72.49 | 22528 | 4.91 | 74.89 |
| Kediri | 73.96 | 19196 | 5.79 | 68.74 |
| Malang | 72.16 | 27892 | 5.70 | 70.66 |
| Lumajang | 67.87 | 21778 | 3.67 | 68.49 |
| Jember | 68.64 | 23188 | 4.01 | 72.30 |
| Banyuwangi | 72.61 | 34892 | 4.75 | 79.04 |
| Bondowoso | 67.99 | 19128 | 4.15 | 74.39 |
| Situbondo | 69.16 | 21547 | 3.27 | 75.28 |
| Probolinggo | 67.79 | 22010 | 3.24 | 69.48 |
| Pasuruan | 70.29 | 72518 | 5.48 | 71.21 |
| Sidoarjo | 81.55 | 74908 | 8.05 | 69.62 |
| Mojokerto | 75.53 | 58477 | 4.67 | 72.51 |
| Jombang | 74.60 | 23387 | 4.66 | 71.91 |
| Nganjuk | 73.71 | 18315 | 4.68 | 66.89 |
| Madiun | 72.97 | 19743 | 5.14 | 74.29 |
| Magetan | 75.41 | 21364 | 4.16 | 78.48 |
| Ngawi | 72.47 | 16923 | 2.41 | 69.43 |
| Bojonegoro | 70.85 | 47976 | 4.63 | 74.29 |
| Tuban | 70.34 | 41015 | 4.40 | 74.73 |
| Lamongan | 74.53 | 22423 | 5.46 | 75.08 |
| Gresik | 77.98 | 84291 | 6.82 | 70.12 |
| Bangkalan | 65.75 | 15721 | 6.18 | 71.49 |
| Sampang | 64.13 | 14608 | 2.72 | 73.54 |
| Pamekasan | 67.96 | 14419 | 1.74 | 77.14 |
| Sumenep | 68.61 | 22890 | 1.71 | 78.86 |
| Kota Kediri | 80.44 | 310378 | 4.06 | 71.83 |
| Kota Blitar | 80.63 | 35575 | 5.24 | 72.26 |
| Kota Malang | 83.39 | 69480 | 6.80 | 67.58 |
| Kota Probolinggo | 75.43 | 38094 | 4.53 | 70.61 |
| Kota Pasuruan | 77.17 | 30670 | 5.64 | 75.65 |
| Kota Mojokerto | 82.71 | 39672 | 5.85 | 72.50 |
| Kota Madiun | 83.45 | 58825 | 6.76 | 69.29 |
| Kota Surabaya | 78.18 | 157665 | 4.52 | 68.73 |
| Kota Batu | 78.99 | 58741 | 6.29 | 78.99 |
Sumber : https://jatim.bps.go.id/id
Data : https://drive.google.com/drive/folders/1omeDT9HIYbcaPjI2uIU0X5s1yx_ovUdf?usp=sharing
1.4 Tujuan
Artikel ini membahas tentang perekonomian di Provinsi Jawa Timur menggunakan amatan data sekunder yang diambil atau didapatkan dari website BPS Jawa Timur, yang kemudian digabung dan disatukan guna untuk meneliti indeks ekonomi di Jawa Timur. Data ini menggunakan 4 variabel yaitu Indek Pembangunan Manusia (IPM), Bruto perkapita, Tingkat Pengangguran Terbuka (TPT), dan Tingkat Partisipasi Angkatan Kerja (TPAK), dimana IPM(X1), Bruto (X2), TPT(X3), TPAK(X4). Tujuan dilakukannya yaitu mungkin dari hasil analisis ini dapat dijadikan acuan dari pihak pemerintah Jawa Timur untuk menyusun program demi meningkatkan ekonomi yang berada di Provinsi Jawa Timur.
2 SOURCE CODE
2.1 Library
2.2 Impor Data
> data <- read_excel("C:/Users/nragi/OneDrive/Dokumen/KULIAH/Semester 5/Analisis Multivariat/Praktikum/Jatim.xlsx")
> data<-data.frame(data)
> View(data)Data berasal dari sumber link yang telah dicantumkan
2.3 Statistik Deskriptif
Melihat pola sebaran data
2.4 Standardisasi
2.5 Menghitung jarak menggunakan Jarak Euclidian
2.6 Single Linkage
2.7 Complete Linkage
2.8 Average Linkage
2.9 Centroid Linkage
2.10 Ward`s Method
2.12 Indeks Validitas
2.13 Plot
2.14 Plot
3 HASIL DAN PEMBAHASAN
3.1 Statistik Deskriptif
> #Statistik Deskriptif
> statdes <- summary(data)
> statdes
Kab.Kota IPM Bruto_perkapita TPT
Length:38 Min. :64.13 Min. : 14419 Min. :1.710
Class :character 1st Qu.:70.22 1st Qu.: 20014 1st Qu.:4.082
Mode :character Median :72.79 Median : 23288 Median :4.665
Mean :73.68 Mean : 43791 Mean :4.663
3rd Qu.:76.76 3rd Qu.: 46236 3rd Qu.:5.600
Max. :83.45 Max. :310378 Max. :8.050
TPAK
Min. :66.89
1st Qu.:70.24
Median :72.50
Mean :73.16
3rd Qu.:75.23
Max. :81.64 Melihat pola sebaran data
Rata-rata IPM kabupaten/kota adalah sekitar 73.68, dengan nilai minimum 64.13 dan maksimum 83.45. Kuartil pertama (25%) berada di sekitar 70.22, median (50%) di 72.79, dan kuartil ketiga (75%) di 76.76. Kesimpulannya, sebagian besar kabupaten/kota memiliki IPM di atas 70, yang menunjukkan tingkat pembangunan manusia yang cukup baik. Namun, terdapat beberapa daerah dengan nilai IPM yang cukup rendah, sekitar 64.
Rata-rata pendapatan per kapita adalah 43,791, dengan variasi yang sangat besar dari nilai minimum 14,419 hingga maksimum 310,378. Kuartil pertama dan ketiga menunjukkan bahwa 50% daerah memiliki pendapatan per kapita di kisaran 20,014 hingga 46,236. Kesimpulannya, terdapat ketimpangan yang signifikan dalam pendapatan per kapita di antara kabupaten/kota, dengan beberapa daerah yang jauh lebih makmur dibandingkan yang lain.
Rata-rata TPT adalah sekitar 4.663%, dengan nilai minimum 1.71% dan maksimum 8.05%. Nilai median dan kuartil menunjukkan bahwa 75% dari kabupaten/kota memiliki tingkat pengangguran di bawah atau sekitar 5.6%. Kesimpulannya, tingkat pengangguran cukup bervariasi, namun sebagian besar daerah memiliki TPT di bawah 5%, yang dapat dianggap sebagai tingkat pengangguran yang relatif rendah.
Rata-rata TPAK adalah 73.16%, dengan variasi dari minimum 66.89% hingga maksimum 81.64%. Kuartil pertama berada di sekitar 70.24%, median di 72.50%, dan kuartil ketiga di 75.23%. Kesimpulannya, tingkat partisipasi angkatan kerja di daerah-daerah tersebut cukup tinggi, dengan sebagian besar kabupaten/kota memiliki partisipasi di atas 70%. Ini menunjukkan bahwa mayoritas penduduk usia kerja di daerah-daerah ini berpartisipasi dalam kegiatan ekonomi.
3.2 Standardisasi
> #Uji Asumsi
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA = 0.58
MSA for each item =
IPM Bruto_perkapita TPT TPAK
0.56 0.56 0.56 0.66
>
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
IPM Bruto_perkapita TPT TPAK
IPM 1.0000000 0.5231041 0.6194610 -0.2933302
Bruto_perkapita 0.5231041 1.0000000 0.2403624 -0.2202633
TPT 0.6194610 0.2403624 1.0000000 -0.4662070
TPAK -0.2933302 -0.2202633 -0.4662070 1.0000000
>
> #Standarisasi
> datastand <- scale(data[,2:5])
> datastand
IPM Bruto_perkapita TPT TPAK
[1,] -0.690627681 -0.43869291 -1.982669548 2.25124822
[2,] -0.233541819 -0.52056585 -0.002025951 0.72224083
[3,] -0.385903773 -0.47023099 -0.100008320 2.00703176
[4,] 0.183969509 -0.31517672 0.690849371 0.40900668
[5,] -0.235520546 -0.40618061 0.172942564 0.09046348
[6,] 0.055352275 -0.46982984 0.788831740 -1.17309124
[7,] -0.300818526 -0.30371527 0.725843074 -0.66342211
[8,] -1.149692270 -0.42050742 -0.694901273 -1.23945441
[9,] -0.997330316 -0.39357302 -0.456944092 -0.22807973
[10,] -0.211775826 -0.16999839 0.060962714 1.56107127
[11,] -1.125947550 -0.47112881 -0.358961723 0.32671635
[12,] -0.894436529 -0.42492007 -0.974850898 0.56296923
[13,] -1.165522084 -0.41607566 -0.995847120 -0.97665626
[14,] -0.670840415 0.54874894 0.571870780 -0.51742314
[15,] 1.557205822 0.59440371 2.370547121 -0.93949289
[16,] 0.366012363 0.28053198 0.004972789 -0.17233467
[17,] 0.181990782 -0.38977164 -0.002025951 -0.33160627
[18,] 0.005884108 -0.48665907 0.011971530 -1.66417868
[19,] -0.140541666 -0.45938082 0.333913599 -0.17764372
[20,] 0.342267643 -0.42841582 -0.351962983 1.41241778
[21,] -0.239477999 -0.51324963 -1.576742592 -0.98992890
[22,] -0.560031721 0.07993756 -0.023022173 0.30017109
[23,] -0.660946781 -0.05303433 -0.183993208 0.41697026
[24,] 0.168139696 -0.40818636 0.557873299 0.50987870
[25,] 0.850800399 0.77364163 1.509702024 -0.80676655
[26,] -1.569182325 -0.53621072 1.061782624 -0.44309639
[27,] -1.889736047 -0.55747171 -1.359781633 0.10108158
[28,] -1.131883730 -0.56108206 -2.045658214 1.05671120
[29,] -1.003266496 -0.39926554 -2.066654436 1.51328979
[30,] 1.337567161 5.09244855 -0.421950389 -0.35284248
[31,] 1.375162968 -0.15695145 0.403901005 -0.23869784
[32,] 1.921291530 0.49071582 1.495704543 -1.48101634
[33,] 0.346225096 -0.10883247 -0.093009579 -0.67669474
[34,] 0.690523538 -0.25064877 0.683850630 0.66118672
[35,] 1.264354274 -0.07868887 0.046965233 -0.17498919
[36,] 1.786738116 0.28717962 0.830824183 -1.02709227
[37,] 1.933163890 2.17526198 1.467709580 -1.17574576
[38,] 0.890374932 0.28557502 -0.100008320 1.54779864
attr(,"scaled:center")
IPM Bruto_perkapita TPT TPAK
73.680263 43791.315789 4.662895 73.159211
attr(,"scaled:scale")
IPM Bruto_perkapita TPT TPAK
5.053755 52349.411383 1.428828 3.767150
> rownames(datastand) <- 1:nrow(datastand)1). Uji Sampel Representatif (Kaiser-Meyer-Olkin / KMO Test)
Hasil KMO menunjukkan nilai Overall MSA (Measure of Sampling Adequacy) sebesar 0.58. Dalam interpretasi KMO, nilai di bawah 0.6 umumnya dianggap kurang baik, sehingga hasil ini menunjukkan bahwa data mungkin kurang cocok untuk analisis faktor.
Nilai MSA per variabel menunjukkan bahwa IPM, Bruto_perkapita, dan TPT memiliki nilai MSA sebesar 0.56, sementara TPAK memiliki nilai MSA tertinggi sebesar 0.66. Meskipun TPAK cukup mendekati nilai ideal, hasil keseluruhan menunjukkan bahwa data belum memenuhi kriteria yang ideal untuk analisis faktor.
2). Uji Non-Multikolinearitas (Korelasi Pearson)
IPM berkorelasi positif sedang dengan Bruto_perkapita (0.523) dan TPT (0.619). Ini menunjukkan bahwa peningkatan IPM berhubungan dengan peningkatan pendapatan per kapita dan tingkat pengangguran terbuka.
TPAK berkorelasi negatif dengan IPM, Bruto_perkapita, dan TPT, terutama dengan TPT (-0.466). Artinya, daerah dengan TPAK yang lebih tinggi cenderung memiliki TPT yang lebih rendah.
Korelasi antar variabel tidak terlalu tinggi (di bawah 0.7), sehingga data ini tidak menunjukkan multikolinearitas yang kuat, dan setiap variabel memberikan informasi yang berbeda.
3). Standarisasi Data
Standarisasi mengubah data menjadi skala dengan rata-rata 0 dan standar deviasi 1, sehingga setiap variabel memiliki pengaruh yang setara dalam analisis lebih lanjut.
Setelah standarisasi, data memiliki mean dan standar deviasi yang diatur menjadi 0 dan 1. Misalnya, untuk IPM, rata-rata standar deviasi diubah menjadi 0, dan standar deviasi sekitar 5.05. Standarisasi ini berguna untuk menghilangkan pengaruh skala pada variabel (misalnya, Bruto_perkapita yang memiliki skala jauh lebih besar dibandingkan TPT), sehingga seluruh variabel dapat diinterpretasikan pada skala yang sama.
3.3 Menghitung jarak menggunakan Jarak Euclidian
> #Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 2.5448857
3 1.9229941 1.2984745
4 3.3647784 0.8914551 1.8782804
5 3.0860709 0.6654656 1.9427953 0.7442787
6 4.4681960 2.0745538 3.3313550 1.5978405 1.4368536
7 4.0001892 1.5815832 2.8014856 1.1774884 0.9427648 0.6466698
8 3.7489229 2.2754489 3.3881286 2.5352470 1.8324164 1.9132258 1.7562901
9 2.9276283 1.3075013 2.3458144 1.7677455 1.0386241 1.8865206 1.4428138
10 2.2258196 0.9115785 0.5875820 1.3790218 1.4938449 2.8577429 2.3272829
11 2.5555441 1.0405166 1.8542336 1.6879214 1.0657467 2.2276273 1.6929385
12 1.9767934 1.1906661 1.7638948 1.9933051 1.4054227 2.6511503 2.1825372
13 3.4086980 2.1802379 3.2117999 2.5683292 1.8357055 2.1718861 1.9551649
14 3.8944384 1.7890747 2.8184753 1.5328065 1.2767395 1.4289266 0.9532233
15 5.9372863 3.5833499 4.4378794 2.7116324 3.1788854 2.4381446 2.6533260
16 3.3850035 1.3422136 2.4268667 1.0937975 0.9647242 1.5084764 1.2437159
17 3.3701547 1.1403369 2.4099391 1.0169327 0.6191460 1.1644739 0.9382993
18 4.4493359 2.3986806 3.6937912 2.1954711 1.7802904 0.9205482 1.2801020
19 3.4013374 0.9669748 2.2408515 0.7730874 0.3311259 1.1119127 0.6629553
20 2.1047135 0.9689418 0.9741812 1.4601962 1.5353900 2.8408282 2.4289683
21 3.2983481 2.3262301 3.3445192 2.7050942 2.0591564 2.3912968 2.3358456
22 2.8165498 0.8036067 1.8034152 1.1095544 0.6511512 1.8736463 1.3052555
23 2.5979657 0.7263353 1.6688471 1.2441926 0.7346493 2.0399723 1.4790480
24 3.1976769 0.7297685 1.7277411 0.1917268 0.6978728 1.7035993 1.2789389
25 5.0392330 2.7338537 3.6858221 1.9439169 2.2724483 1.6830944 1.7668918
26 4.1604747 2.0673364 2.9592884 1.9965141 1.6941914 1.8030290 1.3506294
27 2.5422776 2.2301750 2.7365667 2.9425953 2.2602376 3.1671920 2.7428721
28 1.2808483 2.2576455 2.2920303 3.1144717 2.5852051 3.7979216 3.3759421
29 0.8068046 2.3442779 2.1207666 3.1999795 2.7621932 4.0615388 3.6109112
30 6.6275360 5.9419235 6.2917731 5.6913914 5.7671436 5.8925222 5.7634001
31 4.0301885 1.9514934 2.9149144 1.3949328 1.6787214 1.6914656 1.7647921
32 5.8064453 3.5726092 4.5781381 2.8085102 3.1105481 2.2358140 2.6134347
33 3.6506898 1.5719265 2.8051842 1.3645832 1.0421642 1.1130946 1.0617630
34 3.4031698 1.1835989 1.9059501 0.5695653 1.2118168 1.9562923 1.6558765
35 3.7359875 1.8017685 2.7675754 1.4066967 1.5630773 1.7779906 1.7888109
36 5.0326430 2.9133811 3.9200002 2.2391234 2.5004035 1.8957424 2.2023457
37 6.1128100 4.2100566 4.9964507 3.5180844 3.8271067 3.3141469 3.4567104
38 2.6577035 1.6137528 1.5527476 1.6679971 1.9860751 3.0759028 2.7088250
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 1.0504485
10 3.0588750 2.0338068
11 1.6027703 0.5830579 1.6206042
12 1.8418137 0.9516069 1.6124913 0.7006194
13 0.3998768 0.9378583 2.9201188 1.4522397 1.5634747
14 1.8151577 1.4617613 2.3040191 1.6811585 2.1348588 1.9606710
15 4.2242505 4.0003210 3.9115991 4.1699132 4.5275437 4.4461564 2.8947632
16 2.1017576 1.5904702 1.8827235 1.7811341 1.8939695 2.1164673 1.2599458
17 1.7545908 1.2682590 1.9466762 1.5093421 1.7048709 1.7945063 1.4042889
18 1.4211941 1.8158652 3.2484284 2.3200299 2.5977674 1.6927965 1.7772342
19 1.7904743 1.1689385 1.7850626 1.3059931 1.6825329 1.8598776 1.2122772
20 3.0620320 2.1208465 0.7525618 1.8265478 1.6245004 2.8975582 2.5610532
21 1.2949897 1.5566070 3.0509456 2.0010366 1.7917977 1.0975501 2.4806684
22 1.8493277 0.9395635 1.3344186 0.8587752 1.1583387 1.7858679 1.1200092
23 1.8381182 0.8483585 1.2587318 0.6555825 0.9162904 1.7284956 1.3441214
24 2.5231812 1.7125919 1.2461923 1.5977354 1.8658538 2.5303259 1.6355910
25 3.2365811 2.9967570 3.1184974 3.1990113 3.5399974 3.4333107 1.8246135
26 1.9772414 1.6432052 2.6448048 1.6768479 2.3722798 2.1670026 1.4932159
27 1.6749706 1.3216329 2.6675402 1.2819436 1.1703431 1.3558930 2.6121370
28 2.6677704 2.0544742 2.3857443 1.8400990 1.2105084 2.2932172 3.2823228
29 3.0791556 2.3714137 2.2821172 2.0843190 1.4517735 2.7153396 3.4777649
30 6.1188010 5.9636372 5.8301014 6.1227498 6.0471156 6.1096478 5.0688928
31 2.9416383 2.5349322 2.4239060 2.6936804 2.7868470 3.0043474 2.1886170
32 3.8882355 3.8318412 4.0372392 4.1132099 4.3644283 4.1003534 2.9162470
33 1.7360536 1.4899403 2.3122306 1.8374208 1.9883570 1.8124212 1.3907800
34 2.9880829 2.2274392 1.4207147 2.1324884 2.3029126 2.9960283 1.9733244
35 2.7618676 2.3390409 2.2806577 2.5067982 2.5236768 2.7835690 2.1287188
36 3.3906312 3.2421026 3.3903314 3.5081559 3.6721304 3.5425528 2.5367164
37 4.5741628 4.4484910 4.4238125 4.6856875 4.8729357 4.7355711 3.2653176
38 3.5753467 2.7029281 1.2034830 2.4892280 2.3292904 3.4488296 2.6876042
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 2.7752353
17 2.9763143 0.7131531
18 3.1085920 1.7157861 1.3477188
19 2.9531506 0.9551430 0.4954114 1.5282727
20 3.9326555 1.7725728 1.7864092 3.1167997 1.7979950
21 4.4764504 2.0413211 1.7623859 1.7434262 2.0792077 2.7598876
22 3.4660224 1.0591700 1.0820386 2.1216001 0.9069434 1.5549476 2.1290915
23 3.7020326 1.2445481 1.1905522 2.2365771 1.0284611 1.4718968 2.0757047
24 2.8846414 1.1334022 1.0109971 2.2487817 0.7878769 1.2934870 2.6425742
25 1.1356960 1.7733839 2.0765200 2.2979542 2.0691490 3.1771250 3.5220001
26 3.6071964 2.3668980 2.0572240 2.2530945 1.6270143 3.0177591 3.0049096
27 5.3109672 2.7799212 2.5200981 2.9319346 2.4526708 2.7809705 1.9906489
28 5.6616297 2.9440870 2.8034749 3.5968231 2.8599119 2.2772469 2.2819495
29 5.7661337 3.0773395 3.0118528 3.9297601 3.0610278 2.1821214 2.6650483
30 5.3313084 4.9308525 5.6184413 5.8998061 5.7973822 5.8814630 5.9707912
31 2.2263164 1.1718893 1.2850190 2.0418707 1.5483701 2.1066748 2.6872497
32 1.0963151 2.5294267 2.7138101 2.6189806 2.8639794 3.8889530 3.9189246
33 2.8459076 0.6449619 0.4829739 1.1156749 0.8894613 2.1292245 1.6751659
34 2.6215210 1.2422132 1.3168240 2.5264952 1.2491320 1.3379616 2.9614737
35 2.5538822 0.9684153 1.1380739 1.9922592 1.4835786 1.9109048 2.3981052
36 1.5891797 1.8523355 2.0520276 2.2015145 2.2891577 3.1541665 3.2471522
37 1.8738699 3.0318968 3.5381773 3.6273918 3.6774038 4.3954394 4.6099549
38 3.5819411 1.8013498 2.1212413 3.4216966 2.1870500 0.9444647 3.2458425
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 0.2596519
24 1.0723411 1.1715440
25 2.4589077 2.7083035 2.1218567
26 1.7684094 1.8303069 2.0486005 2.8115685
27 2.0002416 1.8018447 2.8463405 4.2825842 2.5026606
28 2.3240762 2.0868539 2.9649351 4.6717940 3.4781403 1.3992883
29 2.4645857 2.2323505 3.0442161 4.7943991 3.7354491 1.8179270 0.5016292
30 5.4140298 5.5784664 5.7731176 4.7776943 6.5069661 6.5895872 6.5332890
31 2.0673021 2.2208246 1.4505511 1.6390417 3.0475554 3.7478005 3.7585941
32 3.4358206 3.6588737 2.9537700 1.2964594 3.8083529 5.1263499 5.4230498
33 1.3476278 1.4906005 1.3974735 1.9023564 2.2890065 2.7222136 3.0342822
34 1.5176222 1.6365568 0.5800581 1.9778212 2.5593144 3.3529137 3.3202704
35 1.8932042 2.0276095 1.4283998 1.8537086 3.0561400 3.4975235 3.4454054
36 2.8356586 3.0367874 2.3537580 1.2735946 3.5120602 4.5057106 4.6748571
37 3.8738896 4.1182012 3.6686030 1.8094086 4.5077783 5.6309317 5.8489070
38 1.9257382 1.9511744 1.5852491 2.8939454 3.4696073 3.4813451 2.9720496
29 30 31 32 33 34 35
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 6.4672967
31 3.8585940 5.3153244
32 5.5678880 5.1445947 1.8582571
33 3.2552704 5.3149944 1.2246591 2.4517827
34 3.3440050 5.5873433 1.1686207 2.7041731 1.5912548
35 3.5443684 5.1959153 0.3871247 2.1354954 1.0560167 1.2098203
36 4.8066887 5.0315426 1.0818852 0.8412161 1.7911311 2.0887396 1.3218393
37 5.9138360 3.6211459 2.7857372 1.7122531 3.2280580 3.3790463 2.9236328
38 2.8149196 5.1982783 1.9688432 3.5811858 2.3238064 1.3145311 1.8061417
36 37
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 2.0035010
38 2.8809689 3.8123168
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:5])3.4 Single Linkage
> #Single Linkage
> hiers <- hclust(dist(data[,2:5]), method = "single")
>
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.9721779korelasi sebesar 0.9721779 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.
3.5 Complete Linkage
> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:5]), method = "complete")
>
> #korelasi cophenetic
> hc2 <- hclust(d1, "complete")
> d3 <- cophenetic(hc2)
> corcomp <- cor(d1,d3)
> corcomp
[1] 0.9736973korelasi sebesar 0.9736973 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.
3.6 Average Linkage
> #Average Linkage
> hierave <- hclust(dist(data[,2:5]), method = "ave")
>
> #korelasi cophenetic
> hc3 <- hclust(d1, "ave")
> d4 <- cophenetic(hc3)
> corave <- cor(d1,d4)
> corave
[1] 0.9854833korelasi sebesar 0.9854833 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.
3.7 Centroid Linkage
> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:5]), method = "centroid")
>
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9843179korelasi sebesar 0.0.9843179 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.
3.8 Ward`s Method
> #Ward
> hierward <- hclust(dist(data[,2:5]), method = "ward.D")
>
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.5590867korelasi sebesar 0.5590867 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.
3.9 Korelasi Chop semua metode
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.9721779 0.9854833 0.9736973 0.9843179 0.5590867Metode average, centroid, dan complete linkage menghasilkan korelasi yang sangat tinggi dengan jarak asli, sehingga ketiganya dianggap sangat representatif untuk menyusun dendrogram dari data ini. Oleh karena itu, saya menggunakan tingkat korelasi tertinggi yaitu average linkage.
3.10 Indeks Validitas
> #Indeks Validitas
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 2.9290 8.5877 13.6202 18.8389
Dunn 0.5924 0.2421 0.2887 0.2432
Silhouette 0.5668 0.3963 0.3221 0.2924
Optimal Scores:
Score Method Clusters
Connectivity 2.9290 hierarchical 2
Dunn 0.5924 hierarchical 2
Silhouette 0.5668 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.5923865 hierarchical 2
Silhouette 0.5667533 hierarchical 2
> plot(inval)1). Connectivity
- Nilai Connectivity semakin tinggi seiring bertambahnya jumlah klaster dari 2 hingga 5, dengan nilai terbaik pada 2 klaster (2.9290).Dalam hal ini, nilai terbaik (terendah) pada 2 klaster menunjukkan bahwa pemisahan ke dalam dua klaster menghasilkan klasterisasi yang paling kompak.
2). Dunn Index
- Dunn Index adalah ukuran yang lebih tinggi nilainya jika klaster lebih terpisah dan kompak. Nilai tertinggi diperoleh pada 2 klaster (0.5924), dengan nilai yang lebih rendah pada klaster yang lebih banyak.Dunn Index sebesar 0.5924 untuk 2 klaster menunjukkan bahwa konfigurasi ini memberikan klaster yang paling terpisah dan rapat di antara pilihan jumlah klaster.
3). Silhouette Width
- Silhouette Width mengukur seberapa mirip suatu objek dengan klasternya sendiri dibandingkan dengan klaster lain. Nilai terbaik adalah 1, sedangkan nilai mendekati nol menunjukkan klaster yang kurang optimal.Nilai tertinggi dari Silhouette diperoleh pada 2 klaster (0.5668), yang mengindikasikan bahwa data ini paling baik dipisahkan menjadi dua klaster.
Secara keseluruhan, data paling baik dipecah menjadi 2 klaster menurut metode hierarchical dengan linkage average.
3.11 Plot
> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> hirave
Call:
hclust(d = dist(scale(data[, 2:5])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 38
> plot(hirave, labels(data$Kab.Kota), hang = 1, col = "#00FFFF", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")Dendogram ini mendukung pembagian provinsi menjadi 2 klaster utama, sesuai dengan hasil indeks validitas, dan memberikan gambaran tentang bagaimana provinsi-provinsi ini dapat diklasifikasikan berdasarkan kesamaan karakteristik dalam data. Struktur hierarki ini dapat membantu dalam memahami hubungan dan perbedaan antara provinsi berdasarkan data yang dianalisis.
3.12 Plot
> anggotaave <- data.frame(id = data$Kab.Kota, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Pacitan 1
2 Ponorogo 1
3 Trenggalek 1
4 Tulungagung 1
5 Blitar 1
6 Kediri 1
7 Malang 1
8 Lumajang 1
9 Jember 1
10 Banyuwangi 1
11 Bondowoso 1
12 Situbondo 1
13 Probolinggo 1
14 Pasuruan 1
15 Sidoarjo 1
16 Mojokerto 1
17 Jombang 1
18 Nganjuk 1
19 Madiun 1
20 Magetan 1
21 Ngawi 1
22 Bojonegoro 1
23 Tuban 1
24 Lamongan 1
25 Gresik 1
26 Bangkalan 1
27 Sampang 1
28 Pamekasan 1
29 Sumenep 1
30 Kota Kediri 2
31 Kota Blitar 1
32 Kota Malang 1
33 Kota Probolinggo 1
34 Kota Pasuruan 1
35 Kota Mojokerto 1
36 Kota Madiun 1
37 Kota Surabaya 1
38 Kota Batu 1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)Dendogram ini memberikan gambaran tentang struktur pengelompokan dari provinsi yang dianalisis. Klasterisasi dua kelompok tampaknya optimal sesuai dengan validasi yang dilakukan, dengan karakteristik provinsi yang lebih mirip dikelompokkan bersama.
3.13 agregate
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
27 28 29 30 31 32 33 34 35 36 37 38
1 1 1 2 1 1 1 1 1 1 1 1
> aggregate(data,list(idclus),mean)
Group.1 Kab.Kota IPM Bruto_perkapita TPT TPAK
1 1 NA 73.49757 36586.27 4.679189 73.19514
2 2 NA 80.44000 310378.00 4.060000 71.83000Klaster 1 cenderung mewakili wilayah dengan IPM, pendapatan per kapita, dan tingkat pengangguran yang moderat, serta partisipasi angkatan kerja yang relatif tinggi.
Klaster 2 tampaknya merupakan wilayah khusus yang memiliki karakteristik sangat berbeda, yaitu IPM dan pendapatan per kapita yang sangat tinggi, tingkat pengangguran yang lebih rendah, namun partisipasi angkatan kerja yang sedikit lebih rendah dibandingkan dengan wilayah di Klaster 1.
4 KESIMPULAN
Kesimpulan yang dapat diambil dari pengujian analisis cluster hierarki tersebut yaitu, dapat disimpulakn bahwa terdapat 2 cluster pengelompokan dimana cluster 1 yaitu semua wilayah selain Kota Kediri yaitu sebanyak 37 wilayah, cenderung memiliki wilayah dengan IPM, Pendapatan per kapita , dan tingkar pengangguran yang moderat, serta partisipasi angkatan kerja yang relatif tinggi. Sedangkan cluster 2 yaitu wilayah Kota Kediri merupakan wilayah khusus yang memiliki karakteristik sangat berbeda, yaitu IPM dan pendapatan per kapita yang sangat tinggi, tingkat pengangguran yang lebih rendah, namun partisipasi angkatan kerja yang sedikit lebih rendah dibandingkan dengan wilayah di Klaster 1.
5 SARAN
Ketika membuat syntax analisis cluster pada rstud usahakan cek data jangan sampai ada anomali, atau data yang hilang karena dapat mempengaruhi hasil dari analisisnya nanti
6 DAFTAR PUSTAKA
Fauzi, A. (2020). Pengantar Statistika Deskriptif dan Inferensial. Jakarta: Penerbit Ilmu Data.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R. 2nd ed. New York: Springer.
Rousseeuw, P. J., & Kaufman, L. (2019). Finding Groups in Data: An Introduction to Cluster Analysis. New York: Wiley.
Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (2015). Handbook of Cluster Analysis. Boca Raton, FL: CRC Press.
Grolemund, G., & Wickham, H. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. Sebastopol, CA: O’Reilly Media.