1 PENDAHULUAN

1.1 Latar Belakang

Analisis cluster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu cluster memiliki kesamaan yang tinggi antar anggota dalam satu cluster dan perbedaan yang tinggi antar cluster yang satu dengan yang lain. Analisis cluster yang baik memiliki homogenitas (kesamaan) dalam satu cluster dan heterogenitas (perbedaan) antar cluster.Secara umum, analisis cluster dibagi dalam dua metode yaitu metode Non-hierarki dan metode Hierarki. Pada metode Non-hierarki banyaknya cluster ditentukan terlebih dahulu sedangkan metode cluster Hierarki harus melakukan analisis terlebih dahulu untuk menentukan banyaknya cluster. Menurut Dewi (2014) metode hierarki dibagi menjadi dua yaitu metode agglomerative (pemusatan) dan metode divisive.

Metode analisis cluster yang digunakan pada permasalahan pada kasus indeks ekonomi ini yaitu analisis cluster hierarki yang terdiri dari Single Linkage Method, Complete Linkage Method, Average Linkage Method, Ward’s Method, dan Centroid Method. Salah satu masalah dalam analisis cluster adalah penentuan jumlah cluster optimal dalam cluster yang sudah di bentuk. Oleh karena itu, dalam melakukan analisis cluster perlu dilakukan uji validitas cluster untuk mendapatkan jumlah cluster yang optimal, maka digunakan indeks validitas silhouette berdasarkan jarak Euclidean.Tujuan dilakukannya analisis cluster indeks ekonomi tahun 2023 ini, yaitu untuk membantu pemerintahan untuk mengambil kebijakan pembangunan ekonomi pada kab/kota yg memiliki indeks ekonomi yang rendah pada wilayah provinsi Jawa Timur untuk masa mendatang.

Memenuhi asumsi-asumsi ini sangat penting karena pelanggaran terhadap salah satu asumsi dapat menyebabkan hasil analisis menjadi tidak valid dan menyesatkan. Oleh karena itu, sebelum melakukan interpretasi hasil regresi linier, penting untuk melakukan analisis diagnostik untuk memastikan bahwa semua asumsi telah dipenuhi.

1.2 Tinjauan Pustaka

1.2.1 Statistika Deskriptif

Statistika deskriptif adalah cabang dari statistika yang berfokus pada pengumpulan, pengorganisasian, penyajian, dan analisis data untuk memberikan gambaran yang jelas dan ringkas mengenai suatu kumpulan data. Dalam penelitian, statistika deskriptif menjadi langkah awal yang penting untuk memahami distribusi data dan mengidentifikasi pola yang mungkin ada sebelum melanjutkan ke analisis yang lebih kompleks. Beberapa teknik dasar yang sering digunakan dalam statistika deskriptif meliputi ukuran pemusatan, ukuran penyebaran, dan penyajian data dalam bentuk grafik atau tabel.

1.2.2 Analisis Cluster

Analisis Cluster adalah salah satu teknik multivariat yang bertujuan mengklasifikasi suatu objek-objek ke dalam suatu kelompok-kelompok yang berbeda antara lain antara kelompok satu dengan lainnya. Objek-objek yang telah memiliki kedekatan jarak relatif sama dengan objek lainnya (Qonitatin & Novita, 2017). Karakteristik objek-objek dalam satuan kelompok memiliki tingkat kemiripan yang tinggi, sedangkan karakteristik antar objek pada suatu kelompok dengan kelompok lain memiliki tingkat kemiripan yang rendah (Mattjik & Sumertajaya, 2011). Metode Analisis Cluster ada 2 yaitu hierarki dan non hierarki. Tahap-tahap dalam analisis cluster yaitu sebagai berikut

1). Melakukan Proses Standarisasi

Hal pertama yang harus dilakukan dalam analisis clustering adalah melakukan standarisasi information yaitu menggunakan z-score, dimana tujuan dilakukan standarisasiuntuk mempersempit perbedaan satuan lebar serta dapat digunakan untuk menyamakan peubah yang memiliki satuan yang berbeda.

2). Menentukan Ukuran Kemiripan

Pada analisis cluster terdapat beberapa ukuran kemiripan diantaranya adalah ukuran asosiasi, ukuran korelasi dan ukuran jarak. Ukuran kemiripan dengan menghitung jarak antar dua objek. Dalam mengukur kedektan antara dua objek dapat digunakan metode pengukuran Euclidean Separate.

3). Memilih Prosedur Pengclusteran

Pembentukan cluster dapat dilakukan dengan dua cara, yaitu dengan metode Hierarki dan Non Hierarki.

4). Menentukan Banyaknya Cluster

Masalah utama dalam analisis cluster adalah menetukan berapa banyaknya cluster.

5). Menginterpretasikan Hasil Cluster

Tahap terakhir adalah interpretasi masing-masing cluster yang terbentuk. Saat memulai interpretasi digunakan rata-rata pada peubah.

1.2.3 Jarak Analisis Cluster

Konsep jarak dalam analisis klaster adalah ukuran untuk mengidentifikasi seberapa mirip atau tidak mirip dua objek satu sama lain. Semakin kecil nilai jarak, semakin mirip kedua objek tersebut. Sebaliknya, semakin besar nilai jarak, semakin tidak mirip kedua objek. Pengukuran jarak ini menjadi dasar dalam algoritma klasterisasi seperti K-Means, Hierarchical Clustering, dan DBSCAN, yang mengandalkan jarak untuk menentukan klaster yang dihasilkan. Jarak yang biasa digunakan yaitu jarak euclidian, mahalanobis, dan manhattan

1.2.4 Analisis Cluster Hierarki

Analisis klaster hierarki adalah metode pengelompokan yang menyusun objek-objek data ke dalam struktur hierarki atau bertingkat. Teknik ini terutama digunakan dalam bidang seperti biologi, ilmu sosial, dan pemasaran untuk mengidentifikasi pola dalam data dan menemukan hubungan antara kelompok-kelompok data. Tidak seperti algoritma klasterisasi lain, analisis klaster hierarki tidak membutuhkan jumlah klaster tertentu di awal. Metode ini menawarkan fleksibilitas dan interpretabilitas tinggi, terutama untuk dataset berdimensi kecil hingga menengah.

1.2.5 Metode Analisis Cluster Hierarki

Metode klaster hierarki terbagi menjadi dua pendekatan utama:

Pendekatan Agregatif (Agglomerative Approach)

Pendekatan ini dikenal sebagai pendekatan “bottom-up.” Pada awalnya, setiap objek dianggap sebagai klaster individual. Secara bertahap, klaster-klaster yang paling mirip digabungkan hingga terbentuk satu klaster besar yang mencakup semua objek. Proses ini menghasilkan pohon hierarki dari level terendah (objek individu) hingga level tertinggi (semua objek dalam satu klaster). Pendekatan ini umum digunakan karena efisien dan lebih mudah diimplementasikan.
Pendekatan Divisif (Divisive Approach)

Pendekatan divisif, atau “top-down,” dimulai dengan satu klaster besar yang mencakup semua objek. Kemudian, klaster ini dipecah secara bertahap menjadi klaster-klaster lebih kecil berdasarkan perbedaan objek, hingga setiap objek berada di klaster terpisah. Meskipun divisif lebih jarang digunakan, pendekatan ini berguna untuk dataset dengan struktur yang jelas dan definisi klaster yang kuat (Kaufman & Rousseeuw, 1990).

Pengukuran jarak antar-klaster adalah bagian penting dalam analisis klaster hierarki. Beberapa metode yang umum digunakan meliputi:

Single Linkage

Single linkage mengukur jarak antara dua klaster berdasarkan dua objek terdekat dari masing-masing klaster. Ini menghasilkan klaster yang cenderung berisi objek yang saling terhubung, namun rentan terhadap efek “chaining,” di mana objek yang berjauhan tetap dikelompokkan dalam satu klaster. dengan rumus \[ d_{(ij)k}=min(d_{ik},d_{jk}) \]
Complete Linkage

Complete linkage mengukur jarak antara dua klaster berdasarkan dua objek terjauh dari masing-masing klaster. dengan rumus \[ d_{(ij)k}=max(d_{ik},d_{jk}) \]
Average Linkage

Pada metode ini digunakan jarak rata-rata dari sampel pada suatu kelompok terhadap sampel pada kelompok yang lain. dengan rumus \[ d_{(ij)k}=avg(d_{ik},d_{jk}) \]
Centroid Method

Pada metode Centroid Linkage, jarak antara dua klaster dihitung berdasarkan jarak antara centroid (titik pusat) dari masing-masing klaster.Jarak yang digunakan dalam metode ini adalah jarak kuadrat Euclidean antara titik pusat dua kelompok. Dimana titik pusat kelompok ini adalah nilai tengah objek setiap peubah dalam satu kelompok. Dalam metode ini setiap kali terbentuk kelompok baru, maka titik pusatnya berubah. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok. langkah pertama menghitung centroid (rata-rata) dari cluster A dan B \[ Centroid_{A}=\frac{1}{|A|} \sum_{x_i \in A} x_i \] \[ Centroid_{B}=\frac{1}{|B|} \sum_{y_j \in B} y_i \] Kemudian, jarak anatara kedua centroid dihitung dengan \[ d_{(A,B)}=d(centroid_{A},centroid_{B}) \] Jika menggunakan jarak euclidian dihitung dengan: \[ d_{(A,B)}=\sqrt{\sum_{k=1}^n (\text{centroid}_{A,k} - \text{centroid}_{B,k})^2} \]
Ward`s Method

Ward’s Method menghitung jarak antar-klaster berdasarkan peningkatan jumlah varians total dalam data ketika dua klaster digabungkan. Dalam metode ini, dua klaster yang digabungkan adalah yang memberikan peningkatan terkecil dalam jumlah varians total.Fungsi obyektif yang digunakan yaitu Error sum of squares (SSE). Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada (Abidin, 2017:12). dengan rumus \[ ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right] \]

1.2.6 Validitas Cluster

uji validitas cluster untuk mengevaluasi hasil dari Analisis Cluster secara kuantitatif sehingga dihasilkan kelompok optimum, Indeks dalam uji validitas cluster

Indeks Dunn

Indeks Dunn (Dunn Index) digunakan untuk mengukur pemisahan dan kepadatan klaster. Indeks ini dihitung dengan mencari rasio antara jarak minimum antar-klaster (jarak terdekat antara titik dari dua klaster berbeda) dengan diameter maksimum klaster (jarak terjauh antar titik dalam klaster). Indeks Dunn yang lebih tinggi menunjukkan klaster yang lebih baik, karena ini menunjukkan bahwa klaster memiliki kepadatan tinggi dan terpisah jauh satu sama lain (Dunn, 1974). dengan rumus \[ D = \min_{1 \leq i \leq n} \left\{ \min_{1 \leq j \leq n, i \neq j} \left( \frac{d(c_i, c_j)}{\max_{1 \leq k \leq n} d'(c_k)} \right) \right\} \] Keterangan :

\(d(c_{i},c_{j}\) = Jarak antar kelompok i dan j

\(d'(c_{k})\) = Jarak dalam kelompok k
Indeks Davies-Bouldin

Indeks Davies-Bouldin mengukur rata-rata kesalahan pemisahan dan kepadatan antar-klaster. Indeks ini menghitung rasio antara jarak rata-rata antar klaster dengan jarak maksimum antar-klaster. Semakin rendah nilai Davies-Bouldin, semakin baik hasil klasterisasi, yang menunjukkan klaster memiliki pemisahan yang baik dan kepadatan yang tinggi (Davies & Bouldin, 1979). dengan rumus \[ DB = \frac{1}{n} \sum_{i=1}^{n} \max_{i \neq j} \left[ \frac{d'(c_i) + d'(c_j)}{d(c_i, c_j)} \right] \] Keterangan :

\(n\) = Jumlah kelompok

\(d(c_{i},c_{j}\) = Jarak antar kelompok i dan j

\(d'(c_{k})\) = Jarak dalam kelompok k
Indeks C

Indeks C didefinisikan sebagai rasio dari perbedaan antara jarak rata-rata di dalam klaster dan jarak rata-rata antar klaster yang terjauh. Tujuan utama dari Indeks C adalah untuk memberikan ukuran keseragaman dan pemisahan antara klaster yang berbeda. Sebuah nilai Indeks C yang rendah menunjukkan bahwa klaster memiliki kepadatan internal yang baik dan terpisah dengan jelas dari klaster lain. dengan rumus \[ C = \frac{S - S_{\min}}{S_{\max} - S_{\min}} \] Keterangan :

\(S\) = Jumlah jarak pada semua pasangan objek amatan dari kelompok yang sama, dengan jumlah pasangan tersebut

\(S_{min}\) = Jumlah dari jarak terkecil jika semua pasangan contoh berada pada kelompok yang berbeda.

\(S_{max}\) = Jumlah dari jarak terbesar dari semua pasangan
Indeks Global Shilhoutte (GSu)

Koefisien Silhouette mengukur seberapa mirip objek dengan klaster mereka sendiri dibandingkan dengan klaster lain. Nilai Silhouette untuk setiap objek bervariasi antara -1 dan 1. Nilai mendekati 1 menunjukkan objek sangat mirip dengan klasternya sendiri, sedangkan nilai mendekati -1 menunjukkan objek lebih dekat ke klaster lain. Nilai rata-rata dari semua objek digunakan sebagai indeks keseluruhan, di mana nilai yang lebih tinggi menunjukkan hasil klasterisasi yang lebih baik (Rousseeuw, 1987). dengan rumus \[ GS_u = \frac{1}{c} \sum_{i=1}^{c} S(i) \] Keterangan :

\(S(i)\) = Silhoutte kelompok ke-i

\(c\) = Jumlah kelompok
Indeks Goodman Kruskal (GK)

Indeks Goodman-Kruskal mengukur kekuatan asosiasi antara dua variabel dengan menghitung proporsi kesepakatan atau ketidaksesuaian dalam pasangan observasi. Dalam konteks klasterisasi, Goodman-Kruskal bisa digunakan untuk menilai apakah dua variabel dalam data berkaitan atau memiliki pola yang sama dalam klaster-klaster tertentu. dengan rumus \[ GK = \frac{S_c - S_d}{S_c + S_d} \] Keterangan :

\(S_{c}\) = Jumlah Pasangan Konkordan

\(S_{d}\) = Jumlah Pasangan diskordan

1.2.7 Dendogram

Dendrogram adalah grafik berbentuk pohon (tree diagram) yang menampilkan proses pengelompokan secara bertingkat. Cabang-cabang pada dendrogram mewakili kelompok (klaster) yang terbentuk pada setiap tahap penggabungan. Panjang atau ketinggian cabang pada dendrogram menunjukkan tingkat kemiripan atau jarak antar objek atau klaster. Pada tahap awal, setiap objek individu dianggap sebagai klaster terpisah, dan secara bertahap klaster yang paling mirip digabungkan hingga menjadi satu klaster besar.

1.3 Data

Data yang digunakan menggunakan data sekunder yang diambil atau didapatkan dari website BPS Jawa Timur, yang kemudian digabung dan disatukan guna untuk meneliti indeks ekonomi di Jawa Timur. Data ini menggunakan 4 variabel yaitu Indek Pembangunan Manusia (IPM), Bruto perkapita, Tingkat Pengangguran Terbuka (TPT), dan Tingkat Partisipasi Angkatan Kerja (TPAK), dimana IPM(X1), Bruto (X2), TPT(X3), TPAK(X4).

Kab/Kota	IPM	Bruto perkapita	TPT	TPAK
Pacitan	70.19	20826	1.83	81.64
Ponorogo	72.50	16540	4.66	75.88
Trenggalek	71.73	19175	4.52	80.72
Tulungagung	74.61	27922	5.65	74.70
Blitar	72.49	22528	4.91	74.89
Kediri	73.96	19196	5.79	68.74
Malang	72.16	27892	5.70	70.66
Lumajang	67.87	21778	3.67	68.49
Jember	68.64	23188	4.01	72.30
Banyuwangi	72.61	34892	4.75	79.04
Bondowoso	67.99	19128	4.15	74.39
Situbondo	69.16	21547	3.27	75.28
Probolinggo	67.79	22010	3.24	69.48
Pasuruan	70.29	72518	5.48	71.21
Sidoarjo	81.55	74908	8.05	69.62
Mojokerto	75.53	58477	4.67	72.51
Jombang	74.60	23387	4.66	71.91
Nganjuk	73.71	18315	4.68	66.89
Madiun	72.97	19743	5.14	74.29
Magetan	75.41	21364	4.16	78.48
Ngawi	72.47	16923	2.41	69.43
Bojonegoro	70.85	47976	4.63	74.29
Tuban	70.34	41015	4.40	74.73
Lamongan	74.53	22423	5.46	75.08
Gresik	77.98	84291	6.82	70.12
Bangkalan	65.75	15721	6.18	71.49
Sampang	64.13	14608	2.72	73.54
Pamekasan	67.96	14419	1.74	77.14
Sumenep	68.61	22890	1.71	78.86
Kota Kediri	80.44	310378	4.06	71.83
Kota Blitar	80.63	35575	5.24	72.26
Kota Malang	83.39	69480	6.80	67.58
Kota Probolinggo	75.43	38094	4.53	70.61
Kota Pasuruan	77.17	30670	5.64	75.65
Kota Mojokerto	82.71	39672	5.85	72.50
Kota Madiun	83.45	58825	6.76	69.29
Kota Surabaya	78.18	157665	4.52	68.73
Kota Batu	78.99	58741	6.29	78.99

Sumber : https://jatim.bps.go.id/id

Data : https://drive.google.com/drive/folders/1omeDT9HIYbcaPjI2uIU0X5s1yx_ovUdf?usp=sharing

1.4 Tujuan

Artikel ini membahas tentang perekonomian di Provinsi Jawa Timur menggunakan amatan data sekunder yang diambil atau didapatkan dari website BPS Jawa Timur, yang kemudian digabung dan disatukan guna untuk meneliti indeks ekonomi di Jawa Timur. Data ini menggunakan 4 variabel yaitu Indek Pembangunan Manusia (IPM), Bruto perkapita, Tingkat Pengangguran Terbuka (TPT), dan Tingkat Partisipasi Angkatan Kerja (TPAK), dimana IPM(X1), Bruto (X2), TPT(X3), TPAK(X4). Tujuan dilakukannya yaitu mungkin dari hasil analisis ini dapat dijadikan acuan dari pihak pemerintah Jawa Timur untuk menyusun program demi meningkatkan ekonomi yang berada di Provinsi Jawa Timur.

2 SOURCE CODE

2.1 Library

> # Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)

2.2 Impor Data

> data <- read_excel("C:/Users/nragi/OneDrive/Dokumen/KULIAH/Semester 5/Analisis Multivariat/Praktikum/Jatim.xlsx")
> data<-data.frame(data)
> View(data)

Data berasal dari sumber link yang telah dicantumkan

2.3 Statistik Deskriptif

> #Statistik Deskriptif
> statdes <- summary(data)
> statdes

Melihat pola sebaran data

2.4 Standardisasi

> #Uji Asumsi
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:5])
> kmo
> 
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
> 
> #Standarisasi
> datastand <- scale(data[,2:5])
> datastand
> rownames(datastand) <- 1:nrow(datastand)

2.5 Menghitung jarak menggunakan Jarak Euclidian

> #Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> jarak
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:5])

2.6 Single Linkage

> #Single Linkage
> hiers <- hclust(dist(data[,2:5]), method = "single")
> 
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors

2.7 Complete Linkage

> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:5]), method = "complete")
> 
> #korelasi cophenetic
> hc2 <- hclust(d1, "complete")
> d3 <- cophenetic(hc2)
> corcomp <- cor(d1,d3)
> corcomp

2.8 Average Linkage

> #Average Linkage
> hierave <- hclust(dist(data[,2:5]), method = "ave")
> 
> #korelasi cophenetic
> hc3 <- hclust(d1, "ave")
> d4 <- cophenetic(hc3)
> corave <- cor(d1,d4)
> corave

2.9 Centroid Linkage

> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:5]), method = "centroid")
> 
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen

2.10 Ward`s Method

> #Ward
> hierward <- hclust(dist(data[,2:5]), method = "ward.D")
> 
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward

2.11 Korelasi Chop semua metode

> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop

2.12 Indeks Validitas

> #Indeks Validitas
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
> optimalScores(inval)
> plot(inval)
> return()

2.13 Plot

> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> hirave
> plot(hirave, labels(data$Kab.Kota), hang = 1, col = "#00FFFF", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")

2.14 Plot

> anggotaave <- data.frame(id = data$Kab.Kota, cutree(hirave, k = 2))
> anggotaave
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

2.15 agregate

> idclus = clus_hier$cluster
> idclus
> aggregate(data,list(idclus),mean)

3 HASIL DAN PEMBAHASAN

3.1 Statistik Deskriptif

> #Statistik Deskriptif
> statdes <- summary(data)
> statdes
   Kab.Kota              IPM        Bruto_perkapita       TPT       
 Length:38          Min.   :64.13   Min.   : 14419   Min.   :1.710  
 Class :character   1st Qu.:70.22   1st Qu.: 20014   1st Qu.:4.082  
 Mode  :character   Median :72.79   Median : 23288   Median :4.665  
                    Mean   :73.68   Mean   : 43791   Mean   :4.663  
                    3rd Qu.:76.76   3rd Qu.: 46236   3rd Qu.:5.600  
                    Max.   :83.45   Max.   :310378   Max.   :8.050  
      TPAK      
 Min.   :66.89  
 1st Qu.:70.24  
 Median :72.50  
 Mean   :73.16  
 3rd Qu.:75.23  
 Max.   :81.64

Melihat pola sebaran data

Rata-rata IPM kabupaten/kota adalah sekitar 73.68, dengan nilai minimum 64.13 dan maksimum 83.45. Kuartil pertama (25%) berada di sekitar 70.22, median (50%) di 72.79, dan kuartil ketiga (75%) di 76.76. Kesimpulannya, sebagian besar kabupaten/kota memiliki IPM di atas 70, yang menunjukkan tingkat pembangunan manusia yang cukup baik. Namun, terdapat beberapa daerah dengan nilai IPM yang cukup rendah, sekitar 64.
Rata-rata pendapatan per kapita adalah 43,791, dengan variasi yang sangat besar dari nilai minimum 14,419 hingga maksimum 310,378. Kuartil pertama dan ketiga menunjukkan bahwa 50% daerah memiliki pendapatan per kapita di kisaran 20,014 hingga 46,236. Kesimpulannya, terdapat ketimpangan yang signifikan dalam pendapatan per kapita di antara kabupaten/kota, dengan beberapa daerah yang jauh lebih makmur dibandingkan yang lain.
Rata-rata TPT adalah sekitar 4.663%, dengan nilai minimum 1.71% dan maksimum 8.05%. Nilai median dan kuartil menunjukkan bahwa 75% dari kabupaten/kota memiliki tingkat pengangguran di bawah atau sekitar 5.6%. Kesimpulannya, tingkat pengangguran cukup bervariasi, namun sebagian besar daerah memiliki TPT di bawah 5%, yang dapat dianggap sebagai tingkat pengangguran yang relatif rendah.
Rata-rata TPAK adalah 73.16%, dengan variasi dari minimum 66.89% hingga maksimum 81.64%. Kuartil pertama berada di sekitar 70.24%, median di 72.50%, dan kuartil ketiga di 75.23%. Kesimpulannya, tingkat partisipasi angkatan kerja di daerah-daerah tersebut cukup tinggi, dengan sebagian besar kabupaten/kota memiliki partisipasi di atas 70%. Ini menunjukkan bahwa mayoritas penduduk usia kerja di daerah-daerah ini berpartisipasi dalam kegiatan ekonomi.

3.2 Standardisasi

> #Uji Asumsi
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA =  0.58
MSA for each item = 
            IPM Bruto_perkapita             TPT            TPAK 
           0.56            0.56            0.56            0.66 
> 
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
                       IPM Bruto_perkapita        TPT       TPAK
IPM              1.0000000       0.5231041  0.6194610 -0.2933302
Bruto_perkapita  0.5231041       1.0000000  0.2403624 -0.2202633
TPT              0.6194610       0.2403624  1.0000000 -0.4662070
TPAK            -0.2933302      -0.2202633 -0.4662070  1.0000000
> 
> #Standarisasi
> datastand <- scale(data[,2:5])
> datastand
               IPM Bruto_perkapita          TPT        TPAK
 [1,] -0.690627681     -0.43869291 -1.982669548  2.25124822
 [2,] -0.233541819     -0.52056585 -0.002025951  0.72224083
 [3,] -0.385903773     -0.47023099 -0.100008320  2.00703176
 [4,]  0.183969509     -0.31517672  0.690849371  0.40900668
 [5,] -0.235520546     -0.40618061  0.172942564  0.09046348
 [6,]  0.055352275     -0.46982984  0.788831740 -1.17309124
 [7,] -0.300818526     -0.30371527  0.725843074 -0.66342211
 [8,] -1.149692270     -0.42050742 -0.694901273 -1.23945441
 [9,] -0.997330316     -0.39357302 -0.456944092 -0.22807973
[10,] -0.211775826     -0.16999839  0.060962714  1.56107127
[11,] -1.125947550     -0.47112881 -0.358961723  0.32671635
[12,] -0.894436529     -0.42492007 -0.974850898  0.56296923
[13,] -1.165522084     -0.41607566 -0.995847120 -0.97665626
[14,] -0.670840415      0.54874894  0.571870780 -0.51742314
[15,]  1.557205822      0.59440371  2.370547121 -0.93949289
[16,]  0.366012363      0.28053198  0.004972789 -0.17233467
[17,]  0.181990782     -0.38977164 -0.002025951 -0.33160627
[18,]  0.005884108     -0.48665907  0.011971530 -1.66417868
[19,] -0.140541666     -0.45938082  0.333913599 -0.17764372
[20,]  0.342267643     -0.42841582 -0.351962983  1.41241778
[21,] -0.239477999     -0.51324963 -1.576742592 -0.98992890
[22,] -0.560031721      0.07993756 -0.023022173  0.30017109
[23,] -0.660946781     -0.05303433 -0.183993208  0.41697026
[24,]  0.168139696     -0.40818636  0.557873299  0.50987870
[25,]  0.850800399      0.77364163  1.509702024 -0.80676655
[26,] -1.569182325     -0.53621072  1.061782624 -0.44309639
[27,] -1.889736047     -0.55747171 -1.359781633  0.10108158
[28,] -1.131883730     -0.56108206 -2.045658214  1.05671120
[29,] -1.003266496     -0.39926554 -2.066654436  1.51328979
[30,]  1.337567161      5.09244855 -0.421950389 -0.35284248
[31,]  1.375162968     -0.15695145  0.403901005 -0.23869784
[32,]  1.921291530      0.49071582  1.495704543 -1.48101634
[33,]  0.346225096     -0.10883247 -0.093009579 -0.67669474
[34,]  0.690523538     -0.25064877  0.683850630  0.66118672
[35,]  1.264354274     -0.07868887  0.046965233 -0.17498919
[36,]  1.786738116      0.28717962  0.830824183 -1.02709227
[37,]  1.933163890      2.17526198  1.467709580 -1.17574576
[38,]  0.890374932      0.28557502 -0.100008320  1.54779864
attr(,"scaled:center")
            IPM Bruto_perkapita             TPT            TPAK 
      73.680263    43791.315789        4.662895       73.159211 
attr(,"scaled:scale")
            IPM Bruto_perkapita             TPT            TPAK 
       5.053755    52349.411383        1.428828        3.767150 
> rownames(datastand) <- 1:nrow(datastand)

1). Uji Sampel Representatif (Kaiser-Meyer-Olkin / KMO Test)

Hasil KMO menunjukkan nilai Overall MSA (Measure of Sampling Adequacy) sebesar 0.58. Dalam interpretasi KMO, nilai di bawah 0.6 umumnya dianggap kurang baik, sehingga hasil ini menunjukkan bahwa data mungkin kurang cocok untuk analisis faktor.
Nilai MSA per variabel menunjukkan bahwa IPM, Bruto_perkapita, dan TPT memiliki nilai MSA sebesar 0.56, sementara TPAK memiliki nilai MSA tertinggi sebesar 0.66. Meskipun TPAK cukup mendekati nilai ideal, hasil keseluruhan menunjukkan bahwa data belum memenuhi kriteria yang ideal untuk analisis faktor.

2). Uji Non-Multikolinearitas (Korelasi Pearson)

IPM berkorelasi positif sedang dengan Bruto_perkapita (0.523) dan TPT (0.619). Ini menunjukkan bahwa peningkatan IPM berhubungan dengan peningkatan pendapatan per kapita dan tingkat pengangguran terbuka.
TPAK berkorelasi negatif dengan IPM, Bruto_perkapita, dan TPT, terutama dengan TPT (-0.466). Artinya, daerah dengan TPAK yang lebih tinggi cenderung memiliki TPT yang lebih rendah.
Korelasi antar variabel tidak terlalu tinggi (di bawah 0.7), sehingga data ini tidak menunjukkan multikolinearitas yang kuat, dan setiap variabel memberikan informasi yang berbeda.

3). Standarisasi Data

Standarisasi mengubah data menjadi skala dengan rata-rata 0 dan standar deviasi 1, sehingga setiap variabel memiliki pengaruh yang setara dalam analisis lebih lanjut.
Setelah standarisasi, data memiliki mean dan standar deviasi yang diatur menjadi 0 dan 1. Misalnya, untuk IPM, rata-rata standar deviasi diubah menjadi 0, dan standar deviasi sekitar 5.05. Standarisasi ini berguna untuk menghilangkan pengaruh skala pada variabel (misalnya, Bruto_perkapita yang memiliki skala jauh lebih besar dibandingkan TPT), sehingga seluruh variabel dapat diinterpretasikan pada skala yang sama.

3.3 Menghitung jarak menggunakan Jarak Euclidian

> #Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> jarak
           1         2         3         4         5         6         7
2  2.5448857                                                            
3  1.9229941 1.2984745                                                  
4  3.3647784 0.8914551 1.8782804                                        
5  3.0860709 0.6654656 1.9427953 0.7442787                              
6  4.4681960 2.0745538 3.3313550 1.5978405 1.4368536                    
7  4.0001892 1.5815832 2.8014856 1.1774884 0.9427648 0.6466698          
8  3.7489229 2.2754489 3.3881286 2.5352470 1.8324164 1.9132258 1.7562901
9  2.9276283 1.3075013 2.3458144 1.7677455 1.0386241 1.8865206 1.4428138
10 2.2258196 0.9115785 0.5875820 1.3790218 1.4938449 2.8577429 2.3272829
11 2.5555441 1.0405166 1.8542336 1.6879214 1.0657467 2.2276273 1.6929385
12 1.9767934 1.1906661 1.7638948 1.9933051 1.4054227 2.6511503 2.1825372
13 3.4086980 2.1802379 3.2117999 2.5683292 1.8357055 2.1718861 1.9551649
14 3.8944384 1.7890747 2.8184753 1.5328065 1.2767395 1.4289266 0.9532233
15 5.9372863 3.5833499 4.4378794 2.7116324 3.1788854 2.4381446 2.6533260
16 3.3850035 1.3422136 2.4268667 1.0937975 0.9647242 1.5084764 1.2437159
17 3.3701547 1.1403369 2.4099391 1.0169327 0.6191460 1.1644739 0.9382993
18 4.4493359 2.3986806 3.6937912 2.1954711 1.7802904 0.9205482 1.2801020
19 3.4013374 0.9669748 2.2408515 0.7730874 0.3311259 1.1119127 0.6629553
20 2.1047135 0.9689418 0.9741812 1.4601962 1.5353900 2.8408282 2.4289683
21 3.2983481 2.3262301 3.3445192 2.7050942 2.0591564 2.3912968 2.3358456
22 2.8165498 0.8036067 1.8034152 1.1095544 0.6511512 1.8736463 1.3052555
23 2.5979657 0.7263353 1.6688471 1.2441926 0.7346493 2.0399723 1.4790480
24 3.1976769 0.7297685 1.7277411 0.1917268 0.6978728 1.7035993 1.2789389
25 5.0392330 2.7338537 3.6858221 1.9439169 2.2724483 1.6830944 1.7668918
26 4.1604747 2.0673364 2.9592884 1.9965141 1.6941914 1.8030290 1.3506294
27 2.5422776 2.2301750 2.7365667 2.9425953 2.2602376 3.1671920 2.7428721
28 1.2808483 2.2576455 2.2920303 3.1144717 2.5852051 3.7979216 3.3759421
29 0.8068046 2.3442779 2.1207666 3.1999795 2.7621932 4.0615388 3.6109112
30 6.6275360 5.9419235 6.2917731 5.6913914 5.7671436 5.8925222 5.7634001
31 4.0301885 1.9514934 2.9149144 1.3949328 1.6787214 1.6914656 1.7647921
32 5.8064453 3.5726092 4.5781381 2.8085102 3.1105481 2.2358140 2.6134347
33 3.6506898 1.5719265 2.8051842 1.3645832 1.0421642 1.1130946 1.0617630
34 3.4031698 1.1835989 1.9059501 0.5695653 1.2118168 1.9562923 1.6558765
35 3.7359875 1.8017685 2.7675754 1.4066967 1.5630773 1.7779906 1.7888109
36 5.0326430 2.9133811 3.9200002 2.2391234 2.5004035 1.8957424 2.2023457
37 6.1128100 4.2100566 4.9964507 3.5180844 3.8271067 3.3141469 3.4567104
38 2.6577035 1.6137528 1.5527476 1.6679971 1.9860751 3.0759028 2.7088250
           8         9        10        11        12        13        14
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9  1.0504485                                                            
10 3.0588750 2.0338068                                                  
11 1.6027703 0.5830579 1.6206042                                        
12 1.8418137 0.9516069 1.6124913 0.7006194                              
13 0.3998768 0.9378583 2.9201188 1.4522397 1.5634747                    
14 1.8151577 1.4617613 2.3040191 1.6811585 2.1348588 1.9606710          
15 4.2242505 4.0003210 3.9115991 4.1699132 4.5275437 4.4461564 2.8947632
16 2.1017576 1.5904702 1.8827235 1.7811341 1.8939695 2.1164673 1.2599458
17 1.7545908 1.2682590 1.9466762 1.5093421 1.7048709 1.7945063 1.4042889
18 1.4211941 1.8158652 3.2484284 2.3200299 2.5977674 1.6927965 1.7772342
19 1.7904743 1.1689385 1.7850626 1.3059931 1.6825329 1.8598776 1.2122772
20 3.0620320 2.1208465 0.7525618 1.8265478 1.6245004 2.8975582 2.5610532
21 1.2949897 1.5566070 3.0509456 2.0010366 1.7917977 1.0975501 2.4806684
22 1.8493277 0.9395635 1.3344186 0.8587752 1.1583387 1.7858679 1.1200092
23 1.8381182 0.8483585 1.2587318 0.6555825 0.9162904 1.7284956 1.3441214
24 2.5231812 1.7125919 1.2461923 1.5977354 1.8658538 2.5303259 1.6355910
25 3.2365811 2.9967570 3.1184974 3.1990113 3.5399974 3.4333107 1.8246135
26 1.9772414 1.6432052 2.6448048 1.6768479 2.3722798 2.1670026 1.4932159
27 1.6749706 1.3216329 2.6675402 1.2819436 1.1703431 1.3558930 2.6121370
28 2.6677704 2.0544742 2.3857443 1.8400990 1.2105084 2.2932172 3.2823228
29 3.0791556 2.3714137 2.2821172 2.0843190 1.4517735 2.7153396 3.4777649
30 6.1188010 5.9636372 5.8301014 6.1227498 6.0471156 6.1096478 5.0688928
31 2.9416383 2.5349322 2.4239060 2.6936804 2.7868470 3.0043474 2.1886170
32 3.8882355 3.8318412 4.0372392 4.1132099 4.3644283 4.1003534 2.9162470
33 1.7360536 1.4899403 2.3122306 1.8374208 1.9883570 1.8124212 1.3907800
34 2.9880829 2.2274392 1.4207147 2.1324884 2.3029126 2.9960283 1.9733244
35 2.7618676 2.3390409 2.2806577 2.5067982 2.5236768 2.7835690 2.1287188
36 3.3906312 3.2421026 3.3903314 3.5081559 3.6721304 3.5425528 2.5367164
37 4.5741628 4.4484910 4.4238125 4.6856875 4.8729357 4.7355711 3.2653176
38 3.5753467 2.7029281 1.2034830 2.4892280 2.3292904 3.4488296 2.6876042
          15        16        17        18        19        20        21
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16 2.7752353                                                            
17 2.9763143 0.7131531                                                  
18 3.1085920 1.7157861 1.3477188                                        
19 2.9531506 0.9551430 0.4954114 1.5282727                              
20 3.9326555 1.7725728 1.7864092 3.1167997 1.7979950                    
21 4.4764504 2.0413211 1.7623859 1.7434262 2.0792077 2.7598876          
22 3.4660224 1.0591700 1.0820386 2.1216001 0.9069434 1.5549476 2.1290915
23 3.7020326 1.2445481 1.1905522 2.2365771 1.0284611 1.4718968 2.0757047
24 2.8846414 1.1334022 1.0109971 2.2487817 0.7878769 1.2934870 2.6425742
25 1.1356960 1.7733839 2.0765200 2.2979542 2.0691490 3.1771250 3.5220001
26 3.6071964 2.3668980 2.0572240 2.2530945 1.6270143 3.0177591 3.0049096
27 5.3109672 2.7799212 2.5200981 2.9319346 2.4526708 2.7809705 1.9906489
28 5.6616297 2.9440870 2.8034749 3.5968231 2.8599119 2.2772469 2.2819495
29 5.7661337 3.0773395 3.0118528 3.9297601 3.0610278 2.1821214 2.6650483
30 5.3313084 4.9308525 5.6184413 5.8998061 5.7973822 5.8814630 5.9707912
31 2.2263164 1.1718893 1.2850190 2.0418707 1.5483701 2.1066748 2.6872497
32 1.0963151 2.5294267 2.7138101 2.6189806 2.8639794 3.8889530 3.9189246
33 2.8459076 0.6449619 0.4829739 1.1156749 0.8894613 2.1292245 1.6751659
34 2.6215210 1.2422132 1.3168240 2.5264952 1.2491320 1.3379616 2.9614737
35 2.5538822 0.9684153 1.1380739 1.9922592 1.4835786 1.9109048 2.3981052
36 1.5891797 1.8523355 2.0520276 2.2015145 2.2891577 3.1541665 3.2471522
37 1.8738699 3.0318968 3.5381773 3.6273918 3.6774038 4.3954394 4.6099549
38 3.5819411 1.8013498 2.1212413 3.4216966 2.1870500 0.9444647 3.2458425
          22        23        24        25        26        27        28
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16                                                                      
17                                                                      
18                                                                      
19                                                                      
20                                                                      
21                                                                      
22                                                                      
23 0.2596519                                                            
24 1.0723411 1.1715440                                                  
25 2.4589077 2.7083035 2.1218567                                        
26 1.7684094 1.8303069 2.0486005 2.8115685                              
27 2.0002416 1.8018447 2.8463405 4.2825842 2.5026606                    
28 2.3240762 2.0868539 2.9649351 4.6717940 3.4781403 1.3992883          
29 2.4645857 2.2323505 3.0442161 4.7943991 3.7354491 1.8179270 0.5016292
30 5.4140298 5.5784664 5.7731176 4.7776943 6.5069661 6.5895872 6.5332890
31 2.0673021 2.2208246 1.4505511 1.6390417 3.0475554 3.7478005 3.7585941
32 3.4358206 3.6588737 2.9537700 1.2964594 3.8083529 5.1263499 5.4230498
33 1.3476278 1.4906005 1.3974735 1.9023564 2.2890065 2.7222136 3.0342822
34 1.5176222 1.6365568 0.5800581 1.9778212 2.5593144 3.3529137 3.3202704
35 1.8932042 2.0276095 1.4283998 1.8537086 3.0561400 3.4975235 3.4454054
36 2.8356586 3.0367874 2.3537580 1.2735946 3.5120602 4.5057106 4.6748571
37 3.8738896 4.1182012 3.6686030 1.8094086 4.5077783 5.6309317 5.8489070
38 1.9257382 1.9511744 1.5852491 2.8939454 3.4696073 3.4813451 2.9720496
          29        30        31        32        33        34        35
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16                                                                      
17                                                                      
18                                                                      
19                                                                      
20                                                                      
21                                                                      
22                                                                      
23                                                                      
24                                                                      
25                                                                      
26                                                                      
27                                                                      
28                                                                      
29                                                                      
30 6.4672967                                                            
31 3.8585940 5.3153244                                                  
32 5.5678880 5.1445947 1.8582571                                        
33 3.2552704 5.3149944 1.2246591 2.4517827                              
34 3.3440050 5.5873433 1.1686207 2.7041731 1.5912548                    
35 3.5443684 5.1959153 0.3871247 2.1354954 1.0560167 1.2098203          
36 4.8066887 5.0315426 1.0818852 0.8412161 1.7911311 2.0887396 1.3218393
37 5.9138360 3.6211459 2.7857372 1.7122531 3.2280580 3.3790463 2.9236328
38 2.8149196 5.1982783 1.9688432 3.5811858 2.3238064 1.3145311 1.8061417
          36        37
2                     
3                     
4                     
5                     
6                     
7                     
8                     
9                     
10                    
11                    
12                    
13                    
14                    
15                    
16                    
17                    
18                    
19                    
20                    
21                    
22                    
23                    
24                    
25                    
26                    
27                    
28                    
29                    
30                    
31                    
32                    
33                    
34                    
35                    
36                    
37 2.0035010          
38 2.8809689 3.8123168
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:5])

3.4 Single Linkage

> #Single Linkage
> hiers <- hclust(dist(data[,2:5]), method = "single")
> 
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.9721779

korelasi sebesar 0.9721779 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.

3.5 Complete Linkage

> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:5]), method = "complete")
> 
> #korelasi cophenetic
> hc2 <- hclust(d1, "complete")
> d3 <- cophenetic(hc2)
> corcomp <- cor(d1,d3)
> corcomp
[1] 0.9736973

korelasi sebesar 0.9736973 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.

3.6 Average Linkage

> #Average Linkage
> hierave <- hclust(dist(data[,2:5]), method = "ave")
> 
> #korelasi cophenetic
> hc3 <- hclust(d1, "ave")
> d4 <- cophenetic(hc3)
> corave <- cor(d1,d4)
> corave
[1] 0.9854833

korelasi sebesar 0.9854833 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.

3.7 Centroid Linkage

> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:5]), method = "centroid")
> 
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9843179

korelasi sebesar 0.0.9843179 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.

3.8 Ward`s Method

> #Ward
> hierward <- hclust(dist(data[,2:5]), method = "ward.D")
> 
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.5590867

korelasi sebesar 0.5590867 mengindikasikan hubungan yang sangat erat antara d1 dan d2, sehingga penting untuk mempertimbangkan apakah kedua variabel ini diperlukan bersama dalam analisis lebih lanjut.

3.9 Korelasi Chop semua metode

> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
       cors    corave   corcomp    corcen   corward
1 0.9721779 0.9854833 0.9736973 0.9843179 0.5590867

Metode average, centroid, dan complete linkage menghasilkan korelasi yang sangat tinggi dengan jarak asli, sehingga ketiganya dianggap sangat representatif untuk menyusun dendrogram dari data ini. Oleh karena itu, saya menggunakan tingkat korelasi tertinggi yaitu average linkage.

3.10 Indeks Validitas

> #Indeks Validitas
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 

Validation Measures:
                                 2       3       4       5
                                                          
hierarchical Connectivity   2.9290  8.5877 13.6202 18.8389
             Dunn           0.5924  0.2421  0.2887  0.2432
             Silhouette     0.5668  0.3963  0.3221  0.2924

Optimal Scores:

             Score  Method       Clusters
Connectivity 2.9290 hierarchical 2       
Dunn         0.5924 hierarchical 2       
Silhouette   0.5668 hierarchical 2       
> optimalScores(inval)
                 Score       Method Clusters
Connectivity 2.9289683 hierarchical        2
Dunn         0.5923865 hierarchical        2
Silhouette   0.5667533 hierarchical        2
> plot(inval)

> return()
NULL

1). Connectivity

Nilai Connectivity semakin tinggi seiring bertambahnya jumlah klaster dari 2 hingga 5, dengan nilai terbaik pada 2 klaster (2.9290).Dalam hal ini, nilai terbaik (terendah) pada 2 klaster menunjukkan bahwa pemisahan ke dalam dua klaster menghasilkan klasterisasi yang paling kompak.

2). Dunn Index

Dunn Index adalah ukuran yang lebih tinggi nilainya jika klaster lebih terpisah dan kompak. Nilai tertinggi diperoleh pada 2 klaster (0.5924), dengan nilai yang lebih rendah pada klaster yang lebih banyak.Dunn Index sebesar 0.5924 untuk 2 klaster menunjukkan bahwa konfigurasi ini memberikan klaster yang paling terpisah dan rapat di antara pilihan jumlah klaster.

3). Silhouette Width

Silhouette Width mengukur seberapa mirip suatu objek dengan klasternya sendiri dibandingkan dengan klaster lain. Nilai terbaik adalah 1, sedangkan nilai mendekati nol menunjukkan klaster yang kurang optimal.Nilai tertinggi dari Silhouette diperoleh pada 2 klaster (0.5668), yang mengindikasikan bahwa data ini paling baik dipisahkan menjadi dua klaster.

Secara keseluruhan, data paling baik dipecah menjadi 2 klaster menurut metode hierarchical dengan linkage average.

3.11 Plot

> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> hirave

Call:
hclust(d = dist(scale(data[, 2:5])), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 38 
> plot(hirave, labels(data$Kab.Kota), hang = 1, col = "#00FFFF", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")

Dendogram ini mendukung pembagian provinsi menjadi 2 klaster utama, sesuai dengan hasil indeks validitas, dan memberikan gambaran tentang bagaimana provinsi-provinsi ini dapat diklasifikasikan berdasarkan kesamaan karakteristik dalam data. Struktur hierarki ini dapat membantu dalam memahami hubungan dan perbedaan antara provinsi berdasarkan data yang dianalisis.

3.12 Plot

> anggotaave <- data.frame(id = data$Kab.Kota, cutree(hirave, k = 2))
> anggotaave
                 id cutree.hirave..k...2.
1           Pacitan                     1
2          Ponorogo                     1
3        Trenggalek                     1
4       Tulungagung                     1
5            Blitar                     1
6            Kediri                     1
7            Malang                     1
8          Lumajang                     1
9            Jember                     1
10       Banyuwangi                     1
11        Bondowoso                     1
12        Situbondo                     1
13      Probolinggo                     1
14         Pasuruan                     1
15         Sidoarjo                     1
16        Mojokerto                     1
17          Jombang                     1
18          Nganjuk                     1
19           Madiun                     1
20          Magetan                     1
21            Ngawi                     1
22       Bojonegoro                     1
23            Tuban                     1
24         Lamongan                     1
25           Gresik                     1
26        Bangkalan                     1
27          Sampang                     1
28        Pamekasan                     1
29          Sumenep                     1
30      Kota Kediri                     2
31      Kota Blitar                     1
32      Kota Malang                     1
33 Kota Probolinggo                     1
34    Kota Pasuruan                     1
35   Kota Mojokerto                     1
36      Kota Madiun                     1
37    Kota Surabaya                     1
38        Kota Batu                     1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

Dendogram ini memberikan gambaran tentang struktur pengelompokan dari provinsi yang dianalisis. Klasterisasi dua kelompok tampaknya optimal sesuai dengan validasi yang dilakukan, dengan karakteristik provinsi yang lebih mirip dikelompokkan bersama.

3.13 agregate

> idclus = clus_hier$cluster
> idclus
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1 
27 28 29 30 31 32 33 34 35 36 37 38 
 1  1  1  2  1  1  1  1  1  1  1  1 
> aggregate(data,list(idclus),mean)
  Group.1 Kab.Kota      IPM Bruto_perkapita      TPT     TPAK
1       1       NA 73.49757        36586.27 4.679189 73.19514
2       2       NA 80.44000       310378.00 4.060000 71.83000

Klaster 1 cenderung mewakili wilayah dengan IPM, pendapatan per kapita, dan tingkat pengangguran yang moderat, serta partisipasi angkatan kerja yang relatif tinggi.
Klaster 2 tampaknya merupakan wilayah khusus yang memiliki karakteristik sangat berbeda, yaitu IPM dan pendapatan per kapita yang sangat tinggi, tingkat pengangguran yang lebih rendah, namun partisipasi angkatan kerja yang sedikit lebih rendah dibandingkan dengan wilayah di Klaster 1.

4 KESIMPULAN

Kesimpulan yang dapat diambil dari pengujian analisis cluster hierarki tersebut yaitu, dapat disimpulakn bahwa terdapat 2 cluster pengelompokan dimana cluster 1 yaitu semua wilayah selain Kota Kediri yaitu sebanyak 37 wilayah, cenderung memiliki wilayah dengan IPM, Pendapatan per kapita , dan tingkar pengangguran yang moderat, serta partisipasi angkatan kerja yang relatif tinggi. Sedangkan cluster 2 yaitu wilayah Kota Kediri merupakan wilayah khusus yang memiliki karakteristik sangat berbeda, yaitu IPM dan pendapatan per kapita yang sangat tinggi, tingkat pengangguran yang lebih rendah, namun partisipasi angkatan kerja yang sedikit lebih rendah dibandingkan dengan wilayah di Klaster 1.

5 SARAN

Ketika membuat syntax analisis cluster pada rstud usahakan cek data jangan sampai ada anomali, atau data yang hilang karena dapat mempengaruhi hasil dari analisisnya nanti

6 DAFTAR PUSTAKA

Fauzi, A. (2020). Pengantar Statistika Deskriptif dan Inferensial. Jakarta: Penerbit Ilmu Data.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R. 2nd ed. New York: Springer.
Rousseeuw, P. J., & Kaufman, L. (2019). Finding Groups in Data: An Introduction to Cluster Analysis. New York: Wiley.
Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (2015). Handbook of Cluster Analysis. Boca Raton, FL: CRC Press.
Grolemund, G., & Wickham, H. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. Sebastopol, CA: O’Reilly Media.

Analisis Cluster Hierarki untuk Mengelompokkan Kab/Kota Berdasarkan Indeks Ekonomi di Provinsi Jawa Timur

Ragil Nugroho

01 November 2024