1 PENDAHULUAN

1.1 Latar Belakang

Tingkat kesejahteraan merupakan salah satu aspek penting dalam menggambarkan kondisi sosial ekonomi masyarakat dan menjadi perhatian utama di berbagai wilayah, termasuk Jawa Timur yang memiliki jumlah penduduk besar serta karakteristik sosial ekonomi yang beragam. Di Indonesia, tingkat kesejahteraan sering dijadikan indikator utama untuk menilai kualitas hidup masyarakat serta efektivitas program pembangunan. Mengidentifikasi karakteristik wilayah dengan tingkat kesejahteraan yang bervariasi sangat diperlukan agar pemerintah dapat merancang kebijakan yang tepat sasaran dan sesuai dengan kebutuhan masing-masing daerah.

Dalam konteks Jawa Timur, yang terdiri dari berbagai kabupaten dan kota dengan karakteristik sosial, ekonomi, dan geografis yang berbeda, pendekatan yang efektif untuk mengelompokkan wilayah berdasarkan tingkat kesejahteraan rakyat menjadi penting. Pengelompokan ini akan membantu memahami perbedaan antar wilayah, mengidentifikasi pola-pola sosial dan ekonomi, serta menentukan prioritas penanganan yang sesuai dengan kondisi setiap wilayah.

Analisis hierarki (hierarchical clustering) merupakan metode yang dapat diterapkan untuk melakukan pengelompokan wilayah berdasarkan indikator tertentu, seperti tingkat kesejahteraan rakyat. Metode ini mampu menyajikan hasil pengelompokan dalam bentuk hierarki atau bertingkat, sehingga dapat memberikan gambaran hubungan antar kelompok wilayah berdasarkan kedekatan tingkat kesejahteraan rakyat. Penggunaan analisis hierarki memungkinkan visualisasi struktur hubungan antar kabupaten/kota dalam bentuk dendrogram, yang memudahkan peneliti dan pembuat kebijakan dalam mengidentifikasi kelompok wilayah dengan kondisi sosial dan ekonomi yang serupa.

Dengan penerapan analisis hierarki, diharapkan dapat diperoleh kelompok kabupaten/kota di Jawa Timur yang memiliki kesamaan berdasarkan indikator tingkat kesejahteraan rakyat. Hasil pengelompokan ini akan bermanfaat sebagai dasar bagi pemerintah daerah dan pemangku kepentingan untuk menyusun strategi yang lebih efektif dalam meningkatkan tingkat kesejahteraan rakyat di Provinsi Jawa Timur, serta melakukan intervensi yang lebih terfokus dan tepat sasaran.

1.2 Sumber Data

Data dalam penelitian ini bersumber dari data sekunder yang diperoleh dari lembaga-lembaga resmi yang menyediakan informasi mengenai indikator sosial dan ekonomi di Provinsi Jawa Timur pada tahun 2024. Sumber utama data adalah Badan Pusat Statistik (BPS) Jawa Timur, yang menyediakan data mengenai indikator tingkat kesejahteraan rakyat. Data dari BPS ini merupakan data resmi yang komprehensif dan mencakup seluruh wilayah kabupaten dan kota di Jawa Timur pada tahun 2024, sehingga sangat relevan untuk menganalisis indikator yang memengaruhi tingkat kesejahteraan rakyat. Variabel penelitian dalam penelitian ini terdiri dari:

X1 = Jumlah Penduduk (ribuan jiwa)
X2 = Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen)
X3 = PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah)
X4 = Harapan Lama Sekolah (Tahun)
X5 = Angka Harapan Hidup (Tahun)

Berikut merupakan data yang digunakan dalam penelitian ini:

> data <- read_excel("C:/Users/- ACER -/Documents/Kampus/Anmul/dataprakanmul.xlsx")
> data<-data.frame(data)
> data
          Kabupaten.Kota     X1       X2     X3    X4     X5
1      Kabupaten Pacitan  588.6 86.62114  21707 12.69 73.090
2     Kabupaten Ponorogo  962.9 78.74833  17263 13.78 73.815
3   Kabupaten Trenggalek  744.5 80.08136  19988 12.63 74.880
4  Kabupaten Tulungagung 1113.9 75.57328  28463 13.36 75.185
5       Kabupaten Blitar 1263.7 72.36133  23340 12.67 74.610
6       Kabupaten Kediri 1689.9 71.30728  19994 13.63 73.525
7       Kabupaten Malang 2736.0 72.89716  29057 13.49 73.505
8     Kabupaten Lumajang 1145.9 70.86020  22629 12.41 71.190
9       Kabupaten Jember 2603.8 73.75711  24156 13.50 70.250
10  Kabupaten Banyuwangi 1754.4 75.36076  36305 13.14 71.615
11   Kabupaten Bondowoso  792.3 75.10290  19953 13.33 67.810
12   Kabupaten Situbondo  700.7 76.65520  22465 13.20 70.160
13 Kabupaten Probolinggo 1185.2 73.18260  22909 12.64 68.330
14    Kabupaten Pasuruan 1657.2 75.31080  75804 12.78 71.045
15    Kabupaten Sidoarjo 2171.5 68.37258  78227 15.22 74.935
16   Kabupaten Mojokerto 1154.3 73.93802  61102 12.99 73.495
17     Kabupaten Jombang 1362.7 71.88394  24386 13.61 73.475
18     Kabupaten Nganjuk 1131.8 69.79251  19098 13.18 72.520
19      Kabupaten Madiun  757.8 72.33643  20576 13.27 72.520
20     Kabupaten Magetan  685.5 77.04027  22261 14.08 73.540
21       Kabupaten Ngawi  884.1 75.72752  17641 12.89 73.445
22  Kabupaten Bojonegoro 1325.3 73.85974  48568 13.18 72.805
23       Kabupaten Tuban 1225.2 74.54787  42371 12.54 72.590
24    Kabupaten Lamongan 1378.2 74.79783  23355 14.03 73.465
25      Kabupaten Gresik 1364.0 71.60873  87443 13.98 73.555
26   Kabupaten Bangkalan 1102.5 70.47973  15870 11.98 71.015
27     Kabupaten Sampang 1016.3 73.62445  14687 12.55 68.865
28   Kabupaten Pamekasan  884.7 79.12625  14972 13.69 68.530
29     Kabupaten Sumenep 1153.2 78.15996  23617 13.59 72.705
30           Kota Kediri  298.2 70.73886 317792 15.71 74.910
31           Kota Blitar  154.9 70.43828  37105 14.81 74.900
32           Kota Malang  872.7 67.51613  72618 15.79 74.335
33      Kota Probolinggo  249.5 67.55347  39646 13.98 71.225
34         Kota Pasuruan  219.4 72.71628  31901 13.67 72.550
35        Kota Mojokerto  137.4 72.68312  41391 14.13 74.310
36           Kota Madiun  201.8 70.60461  61650 14.54 73.705
37         Kota Surabaya 2922.0 70.49095 166136 14.87 75.025
38             Kota Batu  222.7 73.53497  61020 14.58 73.540

1.3 Latar Belakang Metode

Metode cluster analysis atau analisis pengelompokan merupakan teknik statistik yang digunakan untuk mengelompokkan objek atau unit analisis berdasarkan kesamaan karakteristik tertentu. Salah satu pendekatan dalam analisis cluster adalah hierarchical clustering, atau analisis cluster hierarki, yang dikenal mampu menghasilkan kelompok-kelompok dalam bentuk struktur bertingkat atau dendrogram. Metode ini memberikan keunggulan dalam memahami hubungan antar kelompok melalui struktur hierarkis yang terbentuk, sehingga sangat cocok untuk studi yang memerlukan pengelompokan wilayah berdasarkan indikator tertentu, seperti tingkat kesejahteraan rakyat.

Pada hierarchical clustering, terdapat dua pendekatan utama, yaitu metode agglomerative (bottom-up) dan divisive (top-down). Pada metode agglomerative, setiap unit analisis memulai sebagai kluster tersendiri, kemudian digabungkan satu per satu berdasarkan kesamaan tertentu hingga terbentuk satu kluster besar. Sebaliknya, metode divisive dimulai dengan satu kluster besar yang secara bertahap dibagi menjadi kluster-kluster yang lebih kecil. Pendekatan ini memungkinkan visualisasi dalam bentuk dendrogram, yang memudahkan interpretasi hasil dan melihat hubungan antar kabupaten/kota dalam indikator tingkat kesejahteraan rakyat.

Penerapan analisis hierarki dalam pengelompokan Kabupaten/Kota di Jawa Timur berdasarkan tingkat kesejahteraan rakyat bertujuan untuk mengidentifikasi pola-pola sosial dan ekonomi antar wilayah yang dapat menjadi dasar perencanaan kebijakan. Dengan hierarchical clustering, pola sosial dan ekonomi di setiap kabupaten/kota dapat dikelompokkan dan divisualisasikan, sehingga memudahkan pemangku kepentingan dalam melihat wilayah-wilayah yang membutuhkan prioritas dalam meningkatkan kesejahteraan rakyat.

1.4 Tinjauan Pustaka

1.4.1 Analisis Cluster

Analisis cluster adalah teknik statistik yang digunakan untuk mengelompokkan objek atau data ke dalam kelompok (kluster) berdasarkan kesamaan atau kedekatan karakteristik tertentu. Tujuannya adalah untuk memastikan bahwa objek dalam satu kluster lebih mirip satu sama lain daripada objek di kluster lain. Analisis ini berguna dalam berbagai bidang, seperti segmentasi pasar, biologi, pengolahan citra, dan ilmu sosial, untuk mengidentifikasi pola-pola tersembunyi dalam data. Terdapat dua jenis utama analisis cluster:

Hierarki (Hierarchical Clustering), yang mengelompokkan data dengan cara bertahap hingga membentuk struktur pohon (dendrogram), dan
Non-Hierarki (Non-Hierarchical Clustering), seperti metode k-means, yang langsung membagi data menjadi sejumlah kluster yang telah ditentukan.

1.4.2 Asumsi Analisis Cluster

1.4.2.1 Uji Kaiser Meyer Olkin

Uji KMO (Kaiser-Meyer-Olkin) adalah uji statistik yang digunakan untuk mengukur kecocokan data dalam analisis faktor. Uji ini bertujuan untuk menentukan apakah data yang digunakan memiliki korelasi yang cukup antar variabel untuk dilanjutkan dengan analisis faktor. Semakin tinggi nilai KMO, semakin cocok data untuk analisis faktor. Rumus KMO secara umum adalah: \[KMO = \frac{\sum_{i \neq j} r_{ij}^2}{\sum_{i \neq j} r_{ij}^2 + \sum_{i \neq j} \hat{r}_{ij}^2}\] Keterangan:

\(r_ij\) : koefisien korelasi antara variabel i dan j.

\(r ̂_ij\) : koefisien korelasi partial yang mengukur korelasi antara variabel i dan j setelah mengontrol variabel lain.

1.4.2.2 Uji Non-Multikolinearitas

Uji non-multikolinearitas dalam analisis cluster digunakan untuk memastikan bahwa tidak ada variabel yang memiliki korelasi yang sangat tinggi satu sama lain. Multikolinearitas terjadi ketika dua atau lebih variabel dalam dataset memiliki hubungan yang sangat kuat, yang dapat menyebabkan masalah dalam interpretasi hasil analisis cluster.

1.4.3 Jarak Euclidian

Jarak Euclidean adalah salah satu ukuran jarak yang paling umum digunakan dalam analisis kluster untuk menghitung kedekatan antara dua titik data dalam ruang multidimensi. Jarak ini mengukur “garis lurus” atau jarak langsung antara dua titik dalam ruang vektor berdasarkan koordinatnya. Rumus yang digunakan dalam mencari jarak euclidian ialah sebagai berikut: \[d(X, Y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\] Keterangan:

\(d(X,Y)\) : Jarak Euclidean antara dua titik data XXX dan YYY. Ini adalah hasil akhir yang mengukur kedekatan antara kedua titik dalam ruang multidimensi.

\(x_i\) : Nilai variabel ke-i pada titik XXX. Ini adalah nilai untuk dimensi ke-i dalam titik data pertama.

\(y_i\) : Nilai variabel ke-i pada titik YYY. Ini adalah nilai untuk dimensi ke-i dalam titik data kedua.

1.4.4 Metode Analisis Cluster

1.4.4.1 Single Linkage Method

Metode ini menggunakan jarak antar dua kluster diukur sebagai jarak terpendek antara dua titik, masing-masing dari kluster yang berbeda. Ini berarti titik yang paling dekat dalam dua kluster akan menentukan jarak antar kluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \min(d(d_{pj};d_{qj}))\]

1.4.4.2 Complete Linkage Method

Metode ini menggunakan jarak antar dua kluster diukur sebagai jarak terjauh antara dua titik dalam dua kluster. Metode ini mencoba untuk menghindari efek chaining dengan mempertimbangkan jarak yang terjauh. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \max(d(d_{pj};d_{qj}))\]

1.4.4.3 Average Linkage Method

Metode ini dilakukan dengan cara mengukur jarak antar kluster berdasarkan rata-rata jarak semua pasangan titik antara dua kluster. Hal ini sering kali memberikan keseimbangan antara pendekatan single linkage dan complete linkage. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[dd_{ij} = \frac{1}{n_i \times n_j} \sum_{t=1}^{n_i} \sum_{j=1}^{n_j} \sqrt{\sum_{k=1}^{p} (x_{tk} - y_{jk})^2}\] Keterangan:

\(d_{ij}\) adalah jarak antara klaster \(i\) dan klaster \(j\),
\(n_i\) dan \(n_j\) adalah jumlah elemen dalam klaster \(i\) dan \(j\),
\(x_{tk}\) adalah nilai variabel ke-\(k\) untuk elemen ke-\(t\) dalam klaster \(i\),
\(y_{jk}\) adalah nilai variabel ke-\(k\) untuk elemen ke-\(j\) dalam klaster \(j\),
\(p\) adalah jumlah dimensi atau variabel.

1.4.4.4 Ward Method

Metode dilakukan dengan tujuan untuk meminimalkan jumlah kuadrat dari deviasi antara kluster yang digabungkan, atau dapat dikatakan berfokus pada mengurangi variasi dalam kluster. Ward’s method menggunakan pendekatan within-cluster variance, di mana penggabungan kluster diupayakan untuk meminimalkan pertambahan variasi. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right]\] Keterangan:

\(ESS\) adalah Error Sum of Squares,
\(K\) adalah jumlah kelompok atau klaster,
\(nk\) adalah jumlah observasi dalam setiap kelompok \(k\),
\(p\) adalah jumlah variabel,
\(X_{ijk}\) adalah nilai observasi untuk variabel ke-\(j\) dalam observasi ke-\(i\) pada kelompok ke-\(k\)).

1.4.4.5 Centroid Method

Metode ini dilakukan dengan menggunakan jarak antar kluster diukur sebagai jarak antara pusat massa (centroid) dari dua kluster. Metode ini sangat mirip dengan Ward’s method, tetapi lebih sederhana karena hanya memperhitungkan jarak antar centroid. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[C_i = \frac{1}{M} \sum_{j=1}^{M} x_j\] Keterangan:

\(M\) : Menyatakan jumlah data pada suatu kelompok
\(i\) : Menyatakan fitur ke-\(i\) dalam sebuah kelompok

1.4.5 Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic mengukur korelasi antara jarak cophenetic (jarak antar data yang diperoleh dari dendrogram) dengan jarak asli antar data dalam dataset. Semakin tinggi nilai koefisien ini (mendekati +1), semakin baik hasil klasterisasi dalam menggambarkan jarak asli data. Jika koefisien ini rendah, artinya dendrogram kurang akurat dalam merepresentasikan struktur asli data. Rumus yang digunakan utuk mencari koefisien korelasi cophenetic adalah sebagai berikut: \[r_{coph} = \frac{\sum_{i<j}^n (d_{ij} - \bar{d})(d_{coph_{ij}} - \bar{d}_{coph})}{\sqrt{\left[\sum_{i<j}^n (d_{ij} - \bar{d})^2\right] \left[\sum_{i<j}^n (d_{coph_{ij}} - \bar{d}_{coph})^2\right]}}\] Keterangan:

\(r_{coph}\) adalah koefisien korelasi cophenetic
\(d_{ij}\) adalah jarak asli antara objek ke-i dan ke-j
\(\bar{d}\) adalah rata-rata \(d_{ij}\)
\(d_{coph_{ij}}\) adalah jarak cophenetic objek ke-i dan ke-j
\(\bar{d}_{coph}\) adalah rata-rata dari \(d_{coph_{ij}}\)

1.4.6 Validitas Cluster

1.4.6.1 Indeks Connectivity

Indeks connectivity mengukur seberapa terhubung atau berdekatan titik-titik data dalam klaster yang sama. Nilai ini memperhitungkan kedekatan titik data dengan tetangga terdekatnya. Connectivity yang lebih rendah menunjukkan bahwa titik-titik dalam klaster terhubung dengan baik, yang berarti bahwa objek dalam klaster dekat satu sama lain dan berada dalam grup yang sama. Rumus yang digunkan dalam perhitungan ini adalah sebagaiu berikut: \[\text{Conn}(C) = \sum_{i=1}^{N} \sum_{j=1}^{L} X_{i,\text{nn}(j)}\]

1.4.6.2 Indeks Silhoutte

Indeks Silhouette adalah metrik yang mengukur seberapa baik titik data dikelompokkan dalam klaster yang sama dan seberapa jauh mereka dari klaster lain. Nilai Silhouette menggabungkan informasi mengenai kedekatan titik data dengan klaster yang sama dan jaraknya dari klaster terdekat lainnya. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut: \[S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}\]

1.4.6.3 Indeks Dunn

Indeks Dunn mengukur rasio antara jarak minimum antar klaster dengan diameter maksimum klaster. Tujuan dari Indeks Dunn adalah untuk menemukan klaster yang kompak dan terpisah dengan baik. Semakin besar nilai Dunn, semakin baik hasil klasterisasi. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:

\[C = \frac{d_{\min}}{d_{\max}}\]

1.5 Tujuan

Untuk mengelompokkan kabupaten/kota di Jawa Timur berdasarkan indikator-indikator tingkat kesejahteraan rakyat, guna mengidentifikasi pola kesejahteraan rakyat dan kelompok wilayah yang memiliki karakteristik serupa.
Untuk mengidentifikasi pengaruh masing-masing variabel indikator tingkat kesejahteraan rakyat terhadap pembentukan kluster dan menganalisis adanya multikolinearitas antara variabel yang dapat mempengaruhi hasil pengelompokan.
Untuk memberikan rekomendasi kebijakan berdasarkan hasil pengelompokan kabupaten/kota, yang dapat membantu pemangku kebijakan dalam merancang program pembangunan yang lebih tepat sasaran sesuai dengan karakteristik tiap kluster.

2 SOURCE CODE

2.1 Library

> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)

Library yang digunakan dalam analisis ini meliputi:

psych: Digunakan untuk analisis psikometrik dan statistik deskriptif. Paket ini sering digunakan untuk analisis faktor, reliabilitas, dan statistik deskriptif lainnya.
GPArotation: Menyediakan metode rotasi untuk analisis faktor, yang membantu dalam interpretasi faktor dengan menghasilkan solusi yang lebih sederhana.
clValid: Berguna untuk validasi klaster, paket ini menyediakan berbagai indeks seperti connectivity, Dunn, dan Silhouette untuk mengevaluasi hasil klasterisasi.
ggplot2: Paket visualisasi data yang kuat, memungkinkan pembuatan berbagai jenis grafik dengan sintaks berbasis Grammar of Graphics.
cluster: Berisi algoritma untuk analisis klaster, termasuk metode seperti k-means, pam (partitioning around medoids), dan agnes (hierarchical clustering).
factoextra: Memudahkan visualisasi hasil analisis klaster, analisis faktor, dan analisis komponen utama (PCA).
tidyverse: Kumpulan paket untuk manipulasi data, analisis, dan visualisasi yang menggunakan sintaks konsisten. Paket ini termasuk dplyr, tidyr, readr, purrr, ggplot2, dll.
car: Berfungsi untuk analisis regresi dan pengujian diagnostik. Termasuk fungsi seperti Anova, VIF (Variance Inflation Factor), dan lainnya untuk diagnostik regresi.
readxl: Digunakan untuk membaca file Excel (.xls dan .xlsx) untuk dilakukan analisis.

2.2 Input Data

Berikut merupakan source kode yang digunakan untuk menginput data yang ada pada excel untuk dilakukan analisis

> data <- read_excel("C:/Users/- ACER -/Documents/Kampus/Anmul/dataprakanmul.xlsx")
> data<-data.frame(data)
> data
          Kabupaten.Kota     X1       X2     X3    X4     X5
1      Kabupaten Pacitan  588.6 86.62114  21707 12.69 73.090
2     Kabupaten Ponorogo  962.9 78.74833  17263 13.78 73.815
3   Kabupaten Trenggalek  744.5 80.08136  19988 12.63 74.880
4  Kabupaten Tulungagung 1113.9 75.57328  28463 13.36 75.185
5       Kabupaten Blitar 1263.7 72.36133  23340 12.67 74.610
6       Kabupaten Kediri 1689.9 71.30728  19994 13.63 73.525
7       Kabupaten Malang 2736.0 72.89716  29057 13.49 73.505
8     Kabupaten Lumajang 1145.9 70.86020  22629 12.41 71.190
9       Kabupaten Jember 2603.8 73.75711  24156 13.50 70.250
10  Kabupaten Banyuwangi 1754.4 75.36076  36305 13.14 71.615
11   Kabupaten Bondowoso  792.3 75.10290  19953 13.33 67.810
12   Kabupaten Situbondo  700.7 76.65520  22465 13.20 70.160
13 Kabupaten Probolinggo 1185.2 73.18260  22909 12.64 68.330
14    Kabupaten Pasuruan 1657.2 75.31080  75804 12.78 71.045
15    Kabupaten Sidoarjo 2171.5 68.37258  78227 15.22 74.935
16   Kabupaten Mojokerto 1154.3 73.93802  61102 12.99 73.495
17     Kabupaten Jombang 1362.7 71.88394  24386 13.61 73.475
18     Kabupaten Nganjuk 1131.8 69.79251  19098 13.18 72.520
19      Kabupaten Madiun  757.8 72.33643  20576 13.27 72.520
20     Kabupaten Magetan  685.5 77.04027  22261 14.08 73.540
21       Kabupaten Ngawi  884.1 75.72752  17641 12.89 73.445
22  Kabupaten Bojonegoro 1325.3 73.85974  48568 13.18 72.805
23       Kabupaten Tuban 1225.2 74.54787  42371 12.54 72.590
24    Kabupaten Lamongan 1378.2 74.79783  23355 14.03 73.465
25      Kabupaten Gresik 1364.0 71.60873  87443 13.98 73.555
26   Kabupaten Bangkalan 1102.5 70.47973  15870 11.98 71.015
27     Kabupaten Sampang 1016.3 73.62445  14687 12.55 68.865
28   Kabupaten Pamekasan  884.7 79.12625  14972 13.69 68.530
29     Kabupaten Sumenep 1153.2 78.15996  23617 13.59 72.705
30           Kota Kediri  298.2 70.73886 317792 15.71 74.910
31           Kota Blitar  154.9 70.43828  37105 14.81 74.900
32           Kota Malang  872.7 67.51613  72618 15.79 74.335
33      Kota Probolinggo  249.5 67.55347  39646 13.98 71.225
34         Kota Pasuruan  219.4 72.71628  31901 13.67 72.550
35        Kota Mojokerto  137.4 72.68312  41391 14.13 74.310
36           Kota Madiun  201.8 70.60461  61650 14.54 73.705
37         Kota Surabaya 2922.0 70.49095 166136 14.87 75.025
38             Kota Batu  222.7 73.53497  61020 14.58 73.540

Keterangan :

\(X1\) = Jumlah Penduduk (ribuan jiwa)
\(X2\) = Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen)
\(X3\) = PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah)
\(X4\) = Harapan Lama Sekolah (Tahun)
\(X5\) = Angka Harapan Hidup (Tahun)

2.3 Analisis Cluster

2.3.1 Statistika Deskriptif

> statdes <- summary(data)
> statdes
 Kabupaten.Kota           X1               X2              X3        
 Length:38          Min.   : 137.4   Min.   :67.52   Min.   : 14687  
 Class :character   1st Qu.: 711.6   1st Qu.:70.97   1st Qu.: 20859  
 Mode  :character   Median :1108.2   Median :73.36   Median : 24271  
                    Mean   :1100.4   Mean   :73.67   Mean   : 45460  
                    3rd Qu.:1353.3   3rd Qu.:75.35   3rd Qu.: 47019  
                    Max.   :2922.0   Max.   :86.62   Max.   :317792  
       X4              X5       
 Min.   :11.98   Min.   :67.81  
 1st Qu.:12.91   1st Qu.:71.32  
 Median :13.49   Median :73.45  
 Mean   :13.58   Mean   :72.66  
 3rd Qu.:14.02   3rd Qu.:73.79  
 Max.   :15.79   Max.   :75.19

Source code tersebut menggunakan fungsi (summary) digunakan untuk menghasilkan ringkasan statistik deskriptif dari suatu objek. Ketika diterapkan pada dataframe data, summary() akan memberikan statistik deskriptif dari setiap kolom dalam dataframe tersebut. Untuk variabel numerik, summary() biasanya mengembalikan nilai minimum, maksimum, median, mean, dan kuartil (Q1 dan Q3). Untuk variabel kategorikal, summary() memberikan jumlah data dalam setiap kategori.

2.3.2 Uji asumsi

> # Uji Sampel Representatif
> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA =  0.65
MSA for each item = 
  X1   X2   X3   X4   X5 
0.23 0.68 0.70 0.61 0.72 
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
             X1         X2          X3          X4           X5
X1  1.000000000 -0.1040108  0.02555656 -0.09309549 -0.003018157
X2 -0.104010794  1.0000000 -0.30554332 -0.41601162 -0.149327658
X3  0.025556562 -0.3055433  1.00000000  0.59576462  0.354077320
X4 -0.093095486 -0.4160116  0.59576462  1.00000000  0.478427348
X5 -0.003018157 -0.1493277  0.35407732  0.47842735  1.000000000

Fungsi KMO digunakan untuk menghitung nilai KMO berdasarkan subset data tersebut dan hasilnya disimpan dalam variabel kmo. Variabel ini kemudian dapat dilihat untuk mengetahui seberapa baik data tersebut untuk analisis cluster.

Fungsi cor digunakan untuk menghitung matriks korelasi antara kolom-kolom 2 hingga 6 dari data. Korelasi ini diukur menggunakan koefisien korelasi Pearson, yang mengukur hubungan linier antara dua variabel.

2.3.3 Standarisasi

> datastand <- scale(data[,3:6])
> datastand
               X2          X3           X4          X5
 [1,]  3.46621096 -0.44059718 -0.987659273  0.21716307
 [2,]  1.35944341 -0.52303074  0.219447457  0.58086171
 [3,]  1.71616222 -0.47248361 -1.054105515  1.11512247
 [4,]  0.50979741 -0.31527740 -0.245676237  1.26812673
 [5,] -0.34972110 -0.41030601 -1.009808020  0.97967608
 [6,] -0.63178546 -0.47237231  0.053331852  0.43538226
 [7,] -0.20633306 -0.30425906 -0.101709379  0.42534919
 [8,] -0.75142442 -0.42349463 -1.297741736 -0.73597819
 [9,]  0.02378965 -0.39516969 -0.090635006 -1.20753229
[10,]  0.45292741 -0.16981297 -0.489312458 -0.52277554
[11,]  0.38392535 -0.47313284 -0.278899358 -2.43156633
[12,]  0.79932015 -0.42653673 -0.422866216 -1.25268109
[13,] -0.12994915 -0.41830080 -1.043031141 -2.17070662
[14,]  0.43955815  0.56286998 -0.887989910 -0.80871792
[15,] -1.41711189  0.60781519  1.814157266  1.14271340
[16,]  0.07220085  0.29015663 -0.655428063  0.42033266
[17,] -0.47747111 -0.39090333  0.031183105  0.41029959
[18,] -1.03713832 -0.48899258 -0.445014963 -0.06877931
[19,] -0.35638527 -0.46157656 -0.345345600 -0.06877931
[20,]  0.90236446 -0.43032081  0.551678667  0.44290706
[21,]  0.55107339 -0.51601906 -0.766171799  0.39524999
[22,]  0.05125250  0.05765838 -0.445014963  0.07419188
[23,]  0.23539683 -0.05729228 -1.153774878 -0.03366358
[24,]  0.30228685 -0.41002776  0.496306799  0.40528306
[25,] -0.55111759  0.77876651  0.440934931  0.45043185
[26,] -0.85323902 -0.54887006 -1.773939803 -0.82376752
[27,] -0.01171114 -0.57081401 -1.142700504 -1.90232211
[28,]  1.46057553 -0.56552743  0.119778094 -2.07037596
[29,]  1.20199399 -0.40516782  0.009034357  0.02402655
[30,] -0.78389482  5.05160340  2.356801576  1.13017207
[31,] -0.86432933 -0.15497345  1.360107945  1.12515554
[32,] -1.64629904  0.50377158  2.445396565  0.84172143
[33,] -1.63630834 -0.10783941  0.440934931 -0.71842033
[34,] -0.25473686 -0.25150455  0.097629347 -0.05372971
[35,] -0.26361087 -0.07547070  0.607050536  0.82918009
[36,] -0.81982030  0.30032170  1.061099856  0.52567985
[37,] -0.85023653  2.23847484  1.426554187  1.18786220
[38,] -0.03565550  0.28863558  1.105397351  0.44290706
attr(,"scaled:center")
         X2          X3          X4          X5 
   73.66821 45459.63158    13.58184    72.65711 
attr(,"scaled:scale")
          X2           X3           X4           X5 
3.736914e+00 5.391008e+04 9.029856e-01 1.993409e+00 
> rownames(datastand) <- 1:nrow(datastand)

Fungsi scale digunakan untuk melakukan standarisasi pada subset data. Standarisasi ini mengubah setiap kolom agar memiliki rata-rata (mean) 0 dan deviasi standar (standard deviation) 1. Proses ini dilakukan agar semua variabel memiliki skala yang sama.

2.3.4 Jarak Euclidian

> jarak <- dist(datastand, method = "euclidean")
> jarak
           1         2         3         4         5         6         7
2  2.4565521                                                            
3  1.9683581 1.4272964                                                  
4  3.2266313 1.2057085 1.4686722                                        
5  3.8915513 2.1457102 2.0717258 1.1894972                              
6  4.2338950 2.0040752 2.6835280 1.4528453 1.2287940                    
7  3.7860819 1.6207538 2.2598967 1.1153317 1.0787620 0.4831255          
8  4.3351321 2.9157505 3.0947239 2.5933896 1.7854733 1.7928156 1.7579865
9  3.8323280 2.2571716 3.0320130 2.5289349 2.4017699 1.7764103 1.6515586
10 3.1542131 1.6330615 2.1654267 1.8141344 1.7973197 1.5750154 1.2255108
11 4.1254880 3.2058069 3.8671439 3.7053468 3.5655275 3.0596472 2.9275051
12 3.0970853 2.0242271 2.6168048 2.5459910 2.5784644 2.2641746 1.9862572
13 4.3171579 3.3755354 3.7693313 3.5890443 3.1582240 2.8720157 2.7648567
14 3.3511102 2.2765584 2.5358295 2.3456187 2.1870588 2.1571684 1.8194084
15 5.8011059 3.4419251 4.3831661 2.9704750 3.1901810 2.3204237 2.5461778
16 3.4935600 1.7633615 1.9813898 1.2019536 1.0521959 1.2568270 0.8588019
17 4.0780436 1.8590986 2.5481972 1.3390059 1.1935446 0.1776790 0.3144996
18 4.5451868 2.5706626 3.0583576 2.0616112 1.3773104 0.8167715 1.0422982
19 3.8867740 1.9206429 2.4898868 1.6027874 1.2423534 0.6993457 0.5922719
20 2.9989892 0.5890037 1.9220980 1.2182390 2.0723128 1.6136265 1.2931844
21 2.9299296 1.2881802 1.4001605 1.0367403 1.1061277 1.4402281 1.0300112
22 3.4964415 1.6573436 2.1230880 1.3470564 1.2323406 1.0612641 0.6621969
23 3.2673523 1.9348834 1.9221585 1.6313041 1.2306768 1.6128878 1.2544530
24 3.4998421 1.1125775 2.2159862 1.1606362 1.7387995 1.0361036 0.7924060
25 4.4408414 2.3261531 3.0631918 1.8607881 1.9593898 1.3123712 1.2597272
26 4.5134405 3.2929026 3.2992595 2.9366724 2.0270758 2.2314286 2.1988563
27 4.0778859 3.1470616 3.4796603 3.3456940 2.9092246 2.6999144 2.5711175
28 3.2399743 2.6553773 3.4057869 3.4993944 3.7255939 3.2664800 3.0206864
29 2.4816595 0.6269139 1.6092412 1.4490960 2.0878582 1.8810740 1.4720366
30 7.7618729 6.3671398 6.9570350 6.1048318 6.4325477 6.0271179 5.9632115
31 5.0171328 2.5841814 3.5479961 2.1243600 2.4428840 1.5291402 1.7555296
32 6.2614325 3.8873780 4.9578708 3.5697741 3.8044871 2.8052058 3.0639076
33 5.3909766 3.2991064 4.1193506 3.0110803 2.5951839 1.6197058 1.9199171
34 3.8900441 1.7597870 2.5740986 1.5664427 1.5259702 0.6573743 0.5238115
35 4.1185619 1.7454264 2.6302706 1.2551831 1.6602440 0.8687719 0.8491436
36 4.8178441 2.4776044 3.4423788 2.0989847 2.2848976 1.2869200 1.4505434
37 5.7078743 3.7860474 4.4827070 3.3427743 3.6394722 3.1382127 3.1300356
38 4.1505055 1.8463591 2.9603199 1.7800610 2.3128708 1.4287765 1.3557543
           8         9        10        11        12        13        14
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9  1.5103738                                                            
10 1.4878948 0.9288597                                                  
11 2.2813465 1.2920831 1.9453843                                        
12 1.8539706 0.8454865 0.8503365 1.2590556                              
13 1.5841659 1.3634272 1.8503439 0.9586546 1.4460237                    
14 1.6014188 1.3731465 0.8818786 2.0201547 1.2336116 1.7793498          
15 3.8366831 3.4977227 3.4902118 4.6441948 4.0895774 4.6746101 3.8156162
16 1.7138490 1.8549801 1.1285266 2.9924713 1.9736798 2.7214881 1.3319063
17 1.7765434 1.6980872 1.4338993 2.9868242 2.1454909 2.8172773 2.0202745
18 1.1217039 1.5989729 1.5906748 2.7622510 2.1859996 2.3672159 2.0076811
19 1.2287062 1.2290560 0.9833372 2.4769681 1.6566580 2.2266589 1.5890213
20 2.7468510 1.9772825 1.5119733 3.0369506 1.9584150 3.2310821 2.1999610
21 1.8075688 1.8215086 1.0241647 2.8736915 1.7038689 2.6709783 1.6250586
22 1.5031024 1.4050657 0.7559222 2.5882096 1.5984782 2.3783532 1.1754899
23 1.2735355 1.6331482 0.8606517 2.5904303 1.5730805 2.2006867 1.0476803
24 2.3730942 1.7388086 1.3831608 2.9426699 1.9598568 3.0318609 2.0869713
25 2.4323076 2.1771670 1.9288344 3.3564315 2.6311944 3.2684668 2.0927372
26 0.5104476 1.9425739 1.8948928 2.5212050 2.1806614 1.6996085 1.9215682
27 1.3975960 1.2734543 1.6452220 1.0919349 1.2723139 0.3452604 1.6582313
28 2.9501012 1.6976891 1.9844402 1.2071100 1.1914969 1.9782912 2.2188138
29 2.4701114 1.7073185 1.0788117 2.6051291 1.4068132 2.7745163 1.7368136
30 6.8422187 6.4633195 6.2948804 7.1777026 6.7765132 7.2665094 5.9944584
31 3.2577346 2.8969876 2.8056048 4.1226182 3.4168085 4.1528834 3.3180163
32 4.2615541 3.7720271 3.9159720 4.8179201 4.4113467 4.9389660 4.2649394
33 1.9763508 1.8331070 2.2961672 2.7690818 2.6580898 2.5839495 2.5560258
34 1.6397569 1.2103390 1.0353583 2.5005778 1.6882158 2.4137296 1.6391168
35 2.5371316 2.1953972 1.8847078 3.4633528 2.5783608 3.4434703 2.4124223
36 2.7720936 2.3507240 2.3116986 3.5479767 2.9179894 3.5623318 2.6897089
37 4.2683481 3.9673395 3.7543192 4.9884673 4.3817726 4.9956088 3.7168089
38 2.8608220 2.1507131 1.9810428 3.3068435 2.5336267 3.4576541 2.4168555
          15        16        17        18        19        20        21
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16 2.9899239                                                            
17 2.3655423 1.1124376                                                  
18 2.8140613 1.4564378 0.8826835                                        
19 2.8982593 1.0412351 0.6252575 0.6885567                              
20 2.9225465 1.6327509 1.4756283 2.2406103 1.6284665                    
21 3.5147626 0.9445271 1.3075011 1.6857081 1.1040213 1.3673883          
22 2.9503159 0.4675269 0.9058086 1.2263208 0.6827505 1.4463279 0.8860851
23 3.6559044 0.7757679 1.4902033 1.5196330 1.0809453 1.9286491 0.8026736
24 2.5045698 1.3674492 0.9081594 1.7061996 1.1703077 0.6041412 1.2911552
25 1.7731790 1.3528427 1.2421990 1.7023268 1.5697735 1.8938910 2.0860121
26 4.2892145 2.0878837 2.2243078 1.5406014 1.6927411 3.1794910 2.1153658
27 4.6238044 2.5259595 2.6411214 2.2151388 2.0318433 3.0374814 2.3959007
28 4.7804479 3.0764189 3.1540638 3.2511248 2.7449739 2.6140027 2.7737815
29 3.5207640 1.5357335 1.7235150 2.2881245 1.6018508 0.7485548 1.0838529
30 4.5213756 5.7429674 5.9700496 6.3285067 6.2703271 6.0519225 6.5630506
31 1.0458892 2.3736871 1.5755578 2.1966750 2.1647321 2.0775091 2.6809600
32 0.7432436 3.5765284 2.8602716 3.2465594 3.3485860 3.3336818 4.0474593
33 2.4310012 2.3613925 1.6926116 1.3081373 1.6743965 2.8124365 2.7656134
34 2.5431261 1.0918405 0.5373833 0.9814489 0.5009151 1.3504324 1.2911364
35 1.8310800 1.4168491 0.8076621 1.6378394 1.3678722 1.2797226 1.7122582
36 1.1828505 1.9373619 1.2919118 1.8143891 1.7682566 1.9406494 2.4293405
37 1.7699359 3.0936364 3.0990721 3.5434347 3.5004205 3.3932942 3.8713289
38 1.7327339 1.7642707 1.3460957 2.0671900 1.7413110 1.3051376 2.1205570
          22        23        24        25        26        27        28
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16                                                                      
17                                                                      
18                                                                      
19                                                                      
20                                                                      
21                                                                      
22                                                                      
23 0.7490636                                                            
24 1.1302463 1.7448038                                                  
25 1.3451061 2.0236222 1.4651401                                        
26 1.9386475 1.5606555 2.8318019 2.8953670                              
27 2.1891356 1.9536566 2.8523382 3.1867977 1.5067826                    
28 2.7005026 2.7439935 2.7634171 3.5087960 3.2394776 1.9467281          
29 1.3217759 1.5526690 1.0919192 2.2007863 2.8534864 2.5569183 2.1192842
30 5.8823658 6.3889303 5.9157511 4.7375006 7.2284864 7.3246420 7.1998325
31 2.2905230 2.9801691 1.6402484 1.5066861 3.7115811 4.0409841 4.1621601
32 3.4676042 4.1923628 2.9362298 2.3336706 4.7237328 4.9224818 4.9683883
33 2.0708434 2.5530034 2.2616906 1.8248081 2.3925872 2.6006127 3.4250684
34 0.7071336 1.3580739 0.8396675 1.2334251 2.1312814 2.2620195 2.6661320
35 1.3392951 2.0234487 0.7900136 0.9916783 2.9955165 3.2911322 3.4435206
36 1.8138017 2.5416345 1.4481738 0.8314911 3.2527990 3.4876708 3.6844935
37 3.2111798 3.8209122 3.1337943 1.9327362 4.6967134 4.9744887 5.0523322
38 1.6126477 2.3503434 0.9872904 0.9733943 3.3563232 3.3605462 3.2025519
          29        30        31        32        33        34        35
2                                                                       
3                                                                       
4                                                                       
5                                                                       
6                                                                       
7                                                                       
8                                                                       
9                                                                       
10                                                                      
11                                                                      
12                                                                      
13                                                                      
14                                                                      
15                                                                      
16                                                                      
17                                                                      
18                                                                      
19                                                                      
20                                                                      
21                                                                      
22                                                                      
23                                                                      
24                                                                      
25                                                                      
26                                                                      
27                                                                      
28                                                                      
29                                                                      
30 6.3604776                                                            
31 2.7148065 5.3017295                                                  
32 3.9425157 4.6387033 1.5177641                                        
33 2.9802902 5.8680745 2.2004146 2.6126761                              
34 1.4695483 5.9083369 1.8342693 2.9699715 1.5776729                    
35 1.8062650 5.4506705 1.0108809 2.3721344 2.0755740 1.0344594          
36 2.4380210 4.9618769 0.8112038 1.6554814 1.6630207 1.3739805 0.8653682
37 3.8163297 2.9642507 2.3952329 2.1910646 3.2754325 3.1404154 2.5492573
38 1.8413615 5.0283268 1.1890457 2.1436200 2.1235521 1.2656984 0.7629505
          36        37
2                     
3                     
4                     
5                     
6                     
7                     
8                     
9                     
10                    
11                    
12                    
13                    
14                    
15                    
16                    
17                    
18                    
19                    
20                    
21                    
22                    
23                    
24                    
25                    
26                    
27                    
28                    
29                    
30                    
31                    
32                    
33                    
34                    
35                    
36                    
37 2.0807222          
38 0.7898510 2.2635183

Fungsi (dist) dengan metode Euclidean digunakan untuk menghitung jarak antar baris dalam dataset yang telah distandarisasi. Hasilnya adalah sebuah objek yang berisi matriks jarak yang menunjukkan kedekatan antar objek-objek dalam dataset berdasarkan pengukuran jarak Euclidean.

2.3.5 Koefisien Korelasi Cophenetic

> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,3:6])
> #Single Linkage
> hiers <- hclust(dist(data[,3:6]), method = "single")
> hiers

Call:
hclust(d = dist(data[, 3:6]), method = "single")

Cluster method   : single 
Distance         : euclidean 
Number of objects: 38 
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.9731064
> #Average Linkage
> hierave <- hclust(dist(data[,3:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.9851773
> #Complete Linkage
> hiercomp <- hclust(dist(data[,3:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.9760977
> #Centorid Linkage
> hiercen <- hclust(dist(data[,3:6]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9840166
> #Ward
> hierward <- hclust(dist(data[,3:6]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.5696702
> 
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
       cors    corave   corcomp    corcen   corward
1 0.9731064 0.9851773 0.9760977 0.9840166 0.5696702

Source code ini bertujuan untuk melakukan hierarchical clustering dengan beberapa metode yaitu Single Lingkage Method, Average Lingkage Method, Complete Lingkage Method, Centroid Method, dan Ward Method. Kemudian menghitung koefisien korelasi cophenetic untuk setiap metode untuk menilai seberapa baik hasil clustering sesuai dengan jarak asli antar objek. Semua koefisien korelasi ini disajikan dalam sebuah data frame untuk analisis lebih lanjut.

2.3.6 Indeks Validitas

> inval <- clValid(datastand, 3:6, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 3 4 5 6 

Validation Measures:
                                 3       4       5       6
                                                          
hierarchical Connectivity   6.1258 11.8377 21.4738 24.3028
             Dunn           0.3896  0.2513  0.1835  0.2131
             Silhouette     0.3766  0.3154  0.2740  0.2336

Optimal Scores:

             Score  Method       Clusters
Connectivity 6.1258 hierarchical 3       
Dunn         0.3896 hierarchical 3       
Silhouette   0.3766 hierarchical 3       
> optimalScores(inval)
                 Score       Method Clusters
Connectivity 6.1257937 hierarchical        3
Dunn         0.3895940 hierarchical        3
Silhouette   0.3766146 hierarchical        3
> plot(inval)

Fungsi (clValid) digunakan untuk mengukur kualitas hasil Hierarchical Clustering dengan menggunakan validasi internal berdasarkan jarak Euclidean dan metode average linkage. serta fungsi (optimalScores) digunakan untuk mencari dan menampilkan skor clustering yang optimal berdasarkan validasi. Dan fungsi (plot) menghasilkan visualisasi dari hasil evaluasi clustering untuk mempermudah interpretasi.

2.3.7 Metode Average Linkage

> hirave <- hclust(dist(scale(data[,3:6])), method = "average")
> hirave

Call:
hclust(d = dist(scale(data[, 3:6])), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 38 
> plot(hirave, labels(data$Kabupaten.Kota), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "Kabupaten atau Kota", ylab = "Jarak")

> 
> anggotaave <- data.frame(id = data$Kabupaten.Kota, cutree(hirave, k = 3))
> anggotaave
                      id cutree.hirave..k...3.
1      Kabupaten Pacitan                     1
2     Kabupaten Ponorogo                     2
3   Kabupaten Trenggalek                     2
4  Kabupaten Tulungagung                     2
5       Kabupaten Blitar                     2
6       Kabupaten Kediri                     2
7       Kabupaten Malang                     2
8     Kabupaten Lumajang                     2
9       Kabupaten Jember                     2
10  Kabupaten Banyuwangi                     2
11   Kabupaten Bondowoso                     2
12   Kabupaten Situbondo                     2
13 Kabupaten Probolinggo                     2
14    Kabupaten Pasuruan                     2
15    Kabupaten Sidoarjo                     2
16   Kabupaten Mojokerto                     2
17     Kabupaten Jombang                     2
18     Kabupaten Nganjuk                     2
19      Kabupaten Madiun                     2
20     Kabupaten Magetan                     2
21       Kabupaten Ngawi                     2
22  Kabupaten Bojonegoro                     2
23       Kabupaten Tuban                     2
24    Kabupaten Lamongan                     2
25      Kabupaten Gresik                     2
26   Kabupaten Bangkalan                     2
27     Kabupaten Sampang                     2
28   Kabupaten Pamekasan                     2
29     Kabupaten Sumenep                     2
30           Kota Kediri                     3
31           Kota Blitar                     2
32           Kota Malang                     2
33      Kota Probolinggo                     2
34         Kota Pasuruan                     2
35        Kota Mojokerto                     2
36           Kota Madiun                     2
37         Kota Surabaya                     2
38             Kota Batu                     2
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 3, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

> 
> idclus = clus_hier$cluster
> idclus
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2 
27 28 29 30 31 32 33 34 35 36 37 38 
 2  2  2  3  2  2  2  2  2  2  2  2 
> aggregate(data,list(idclus),mean)
  Group.1 Kabupaten.Kota       X1       X2        X3      X4      X5
1       1             NA  588.600 86.62114  21707.00 12.6900 73.0900
2       2             NA 1136.886 73.38978  38554.64 13.5475 72.5825
3       3             NA  298.200 70.73886 317792.00 15.7100 74.9100

Source code tersebut digunakan untuk melakukan Hierarchical Clustering dengan metode average linkage method pada data yang telah distandarisasi, memvisualisasikan hasil clustering dalam bentuk dendrogram, membagi data menjadi 3 klaster, dan menghitung rata-rata nilai pada setiap klaster.

3 HASIL DAN PEMBAHASAN

3.1 Analisis Statistika Deskriptif

Berikut adalah tabel dari hasil analisis statistika deskriptif:

Variabel	Min	Mean	Median	Max
(X1) Jumlah Penduduk (ribuan jiwa)	137,4	1100,4	1108,2	2922
(X2) Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen)	67,52	73,67	73,36	86,62
(X3) PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah)	14687	45460	24271	317792
(X4) Harapan Lama Sekolah (Tahun)	11,98	13,58	13,49	15,79
(X5) Angka Harapan Hidup (Tahun)	67,81	72,66	73,45	75,19

Jumlah penduduk tiap Kota/Kabupaten di Jawa Timut pada tahun 2024 memiliki jumlah penduduk paling sedikit sejumlah 137,4 ribu jiwa dan paling banyak sejumlah 2922 ribu jiwa, dengan rata-rata jumlah penduduk sebanyak 1,075,758 dan nilai tengah (median) sebanyak 1100,4 ribu jiwa. Perbedaan yang cukup besar antara nilai minimum dan maksimum mengindikasikan adanya variasi yang signifikan antar data dalam variabel ini. Secara keseluruhan, nilai-nilai di sekitar mean dan median menunjukkan bahwa sebagian besar data mungkin terdistribusi dengan relatif merata di sekitar nilai tengah.

Tingkat Partisipasi Angkatan Kerja (TPAK) diukur dalam persentase dan menunjukkan tingkat partisipasi angkatan kerja di setiap kabupaten/kota. Nilai minimum TPAK adalah 67,52%, dan nilai maksimum mencapai 86,62%, dengan rata-rata 73,67% dan median 73,36%. Rata-rata dan median yang hampir sama menunjukkan bahwa TPAK di setiap daerah relatif simetris dan sebagian besar daerah memiliki nilai TPAK di sekitar 73%.

Produk Domestik Regional Bruto (PDRB) per kapita dihitung dalam ribu rupiah dan menggambarkan rata-rata pendapatan per kapita di kabupaten/kota di Provinsi Jawa Timur. Nilai minimum PDRB per kapita adalah 14687 ribu rupiah, sedangkan nilai maksimum mencapai 317792 ribu rupiah. Nilai rata-rata PDRB per kapita sebesar 45460 ribu rupiah, dengan median sebesar 24271 ribu rupiah.

harapan lama sekolah dalam tahun di setiap kabupaten/kota. Nilai minimum harapan lama sekolah adalah 11.98 tahun dan nilai maksimum mencapai 15.79 tahun, dengan rata-rata sebesar 13.58 tahun dan median 13.49 tahun. Rata-rata yang mendekati median menunjukkan distribusi yang relatif simetris, dengan sebagian besar daerah memiliki harapan lama sekolah sekitar 13 tahun.

angka harapan hidup dalam tahun di kabupaten/kota di Provinsi Jawa Timur. Nilai minimum angka harapan hidup adalah 67,81 tahun, dan nilai maksimum adalah 75,19 tahun, dengan rata-rata 72,66 tahun dan median 73,45 tahun. Rata-rata yang sedikit lebih rendah dari median menunjukkan sedikit skewness (kemiringan) ke bawah, tetapi perbedaannya kecil, yang berarti sebagian besar daerah memiliki angka harapan hidup di sekitar 72 tahun.

3.2 Pengujian Asumsi

3.2.1 Uji Kaiser Meyer Olkin (KMO)

Berikut adalah hasil dari Uji KMO:

Variabel	Uji KMO
Jumlah Penduduk (ribuan jiwa)	0,23
Tingkat Partisipasi Angkatan Kerja (TPAK) (%)	0,68
PDRB Perkapita (Ribu Rupiah)	0,70
Harapan Lama Sekolah (Tahun)	0,61
Angka Harapan Hidup (Tahun)	0,72

Berdasarkan hasiln uji KMO yang sudah dilakukan didapatkan bahwa terdapat empat variabel yang memiliki nilai uji KMO lebih besar dari 0.5 yaitu Tingkat Partisipasi Angakatan Kerja (TPAK) bernilai 0.68, PDRB Perkapita berniai 0.70, Harapan Lama Sekolah bernilai 0.61, dan Angka Harapan Hidup yang bernilai 0.72, sehingga dapat disimpulkan bahwa variabel tersebut telah representatif atau mewakili populasi. Sementara pada variabel Jumlah Penduduk memiliki nilai uji KMO yang kurang dari 0.5 yaitu sebesar 0.23, sehingga pada variabel Jumlah Penduduk tidak digunakan pada analisis lanjutan.

3.2.2 Uji Non-Multikolinearitas

> korelasi
             X1         X2          X3          X4           X5
X1  1.000000000 -0.1040108  0.02555656 -0.09309549 -0.003018157
X2 -0.104010794  1.0000000 -0.30554332 -0.41601162 -0.149327658
X3  0.025556562 -0.3055433  1.00000000  0.59576462  0.354077320
X4 -0.093095486 -0.4160116  0.59576462  1.00000000  0.478427348
X5 -0.003018157 -0.1493277  0.35407732  0.47842735  1.000000000

Berdasarkan dari hasil output korelasi tersebut, dapat diketahui bahwa semua korelasi antar variabel bernilai kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.

3.3 Koefisien Korelasi Cophenetic

Koefisien korelasi Cophenetic digunakan sebagai dasar dalam penentuan metode cluster terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang dipilih sebagai metode terbaik dalam penelitian ini. Berikut merupakan tabel nilai korelasi dari setiap metode:

Metode	Nilai Korelasi
Single Linkage	0.9731064
Average Linkage	0.9851773
Complete Linkage	0.9760977
Centroid	0.9840166
Ward	0.5696702

Berdasarkan tabel tersebut dapat diketahui bahwa nilai korelasi yang mendekati 1 adalah metode average linkage. Sehingga dapat disimpulkan bahwa metode terbaik yang akan dipilih dalam proses analisis cluster adalah metode average linkage.

3.4 Analisis Cluster Metode Average Linkage

Metode average linkage merupakan metode analisis yang digunakan berdasarkan rata-rata jarak dari semua objek pengamatan dari satu cluster terhadap semua objek pengamatan cluster lain. Ukuran jarak yang digunakan dalam analisis ini adalah jarak Euclidean. Dalam memilih dan menentukan jumlah cluster yang optimal pada analisis ini adalah dengan menggunakan indeks validitas cluster, yaitu indeks connectivity, indeks dunn, dan indeks silhoutte. Berikut tabel yang menyajikan hasil penentuan jumlah cluster optimal dengan metode average linkage.

Indeks	Score	Method	Clusters
Connectivity	6.1258	hierarchical	3
Dunn	0.3896	hierarchical	3
Silhouette	0.3766	hierarchical	3

Berdasarkan tabel, dapat dilihat bahwa hasil indeks Connectivity, Dunn, dan Silhoutte terpilih jumlah cluster sebanyak tiga sebagai cluster optimal pada metode pengelompokan average linkage berdasarkan faktor-faktor yang mempengaruhi tingkat kesejahteraan rakyat.

3.5 Dendogram

Hasil analisis cluster membentuk sebuah grafik cluster dendrogram seperti pada gambar berikut ini.

Berdasarkan grafik dendrogram tersebut, didapatkan bahwa hasil pengelompokan metode average linkage Kabupaten/Kota di Provinsi Jawa Timur berdasarkan indikator tingkat kesejahteraan rakyat terbentuk menjadi 3 cluster. Cluster pertama ditandai dengan grafik dendrogram yang berwarna orange yang beranggotakan Kota Keidri. Cluster ketiga ditandai dengan grafik dendrogram yang berwarna hijau yang beranggotakan Kabupaten Pacitan. Sementara pada cluster kedua ditandai dengan grafik dendogram yang berwarna biru yang teridiri dari 36 Kota atau Kabupaten yang ada di Jawa Timur.

3.6 Interpretasi Hasil

Anggota cluster sudah terbentuk sesuai dengan jumlah cluster optimal yang telah ditentukan. Selanjutnya, memberikan ciri spesifik untuk menggambarkan isi dari cluster tersebut karena setiap cluster pastinya memiliki karakteristik yang berbeda berdasarkan faktor-faktor yang memengaruhi Tingkat Pengangguran Terbuka pada Kabupaten/Kota di Provinsi Jawa Timur. Karakteristik dari tiap cluster dapat ditentukan melalui nilai rata-rata tiap variabel. Berikut tabel yang disajikan untuk nilai rata-rata tiap variabel pada masing-masing cluster dengan menggunakan metode average linkage.

> aggregate(data[,3:6],list(idclus),mean)
  Group.1       X2        X3      X4      X5
1       1 86.62114  21707.00 12.6900 73.0900
2       2 73.38978  38554.64 13.5475 72.5825
3       3 70.73886 317792.00 15.7100 74.9100

Berdasarkan output tersebut dapat diketahui bahwa:

Pada cluster pertama memiliki nilai X2 (TPAK) tinggi, X3 (PDRB per kapita) rendah, X4 (harapan lama sekolah) rendah, dan X5 (angka harapan hidup) sedang, maka dapat dinyatakan bahwa kabupaten/kota dalam cluster ini cenderung memiliki tingkat kesejahteraan yang cukup rendah. Hal ini mungkin disebabkan oleh pendapatan per kapita yang rendah, rendahnya tingkat pendidikan, dan kualitas hidup yang rendah. meskipun memiliki kesempatan kerja yang tinggi.
Cluster kedua memiliki nilai X2 sedang, X3 sedang, X4 sedang, dan X5 rendah, maka dapat dintayakan bahwa kabupaten/kota dalam cluster ini memiliki tingkat kesejahteraan yang relatif sedang. Kondisi sosial ekonomi dan demografi di kabupaten/kota ini cenderung lebih seimbang dibandingkan dengan cluster 1 dan 3.
Cluster ketiga memiliki nilai X2 rendah, X3 sedang, X4 tinggi, dan X5 tinggi, maka dapat diinterpretasikan bahwa kabupaten/kota dalam cluster ini cenderung memiliki tingkat kesejahteraan yang tinggi. Hal ini mungkin disebabkan oleh pendapatan per kapita yang tinggi, tingkat pendidikan yang tinggi, dan kualitas hidup yang baik.

4 PENUTUP

4.1 Kesimpulan

Berdasarkan hasil analisis data dan pembahasan yang telah dilakukan, dapat diambil beberapa kesimpulan yakni sebagai berikut:

Analisis klaster pada penelitian ini berhasil mengelompokkan kabupaten/kota di Jawa Timur ke dalam beberapa kelompok berdasarkan indikator tingkat kesejahteraan rakyat. Pengelompokan ini menunjukkan bahwa terdapat perbedaan signifikan dalam distribusi tingkat kesejahteraan rakyat antar kabupaten/kota di Jawa Timur.
Hasil klasterisasi yang sudah dilakukan, wilayah dengan tingkat kesejahteraan lebih rendah berada di Kabupaten Pacitan. Hal ini memungkinkan pemerintah daerah untuk melakukan intervensi yang lebih terarah pada wilayah-wilayah dengan klaster kesejahteraan rendah.
Metode analisis klaster hierarki, terutama dengan pendekatan average linkage, mampu memberikan struktur yang jelas dalam pengelompokan kabupaten/kota berdasarkan tingkat kesejahteraan rakyat. Metode ini cukup efektif untuk mengidentifikasi kelompok-kelompok yang homogen berdasarkan indikator sosial-ekonomi seperti kesejahteraan rakyat.

4.2 Saran

Berdasarkan hasil klasterisasi, disarankan agar pemerintah provinsi dan kabupaten/kota di Jawa Timur menerapkan kebijakan pembangunan yang disesuaikan dengan karakteristik klaster. Misalnya, wilayah yang tergolong dalam klaster kesejahteraan rendah perlu mendapatkan prioritas dalam alokasi bantuan sosial, pelatihan keterampilan, dan program pemberdayaan ekonomi
Disarankan agar data kesejahteraan dikumpulkan dan diperbarui secara berkala. Dengan data terbaru, analisis klaster dapat diperbaharui untuk memberikan hasil yang relevan dan akurat, sehingga pengambilan kebijakan dapat lebih responsif terhadap perubahan kondisi sosial ekonomi
Pada penelitian selanjutnya, disarankan untuk melakukan studi lanjutan menggunakan metode klasterisasi lain atau dengan indikator tambahan, seperti tingkat pendidikan dan akses terhadap fasilitas kesehatan. Hal ini dapat memperkaya analisis dan memberikan gambaran yang lebih komprehensif terkait indikator tingkat kesejahteraan rakyat di Jawa Timur

4.3 Daftar Pustaka

Badan Pusat Statistik. (2024). Angka Harapan Hidup (Tahun), 2020-2024. Pada https://www.bps.go.id/id/statisticstable/2/NDU1IzI=/angkaharapan-hidup--ahh--menurut-kabupaten-kota-dan-jenis-kelamin.html (diakses 01 Desember 2025).

Badan Pusat Statistik. (2024). Harapan Lama Sekolah (Tahun), 2019-2024. Pada https://jatim.bps.go.id/id/statisticstable/2/NDY4IzI=/harapan-lama-sekolah.html (diakses 01 Desember 2025).

Badan Pusat Statistik. (2024). Jumlah Penduduk Menurut Jenis Kelamin dan Kabupaten/Kota Provinsi Jawa Timur (Ribuan Jiwa), 2019-2024. Pada https://jatim.bps.go.id/id/statisticstable/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk--laju-pertumbuhan-penduduk--distribusi-persentase-penduduk--kepadatan-penduduk--rasio-jenis-kelamin-penduduk-menurut-kabupaten-kota-di-provinsi-jawa-timur--2024.html?year=2024 (diakses 01 Desember 2025).

Badan Pusat Statistik. (2024). PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah), 2021-2024 Pada https://jatim.bps.go.id/id/statisticstable/3/T1hBNVYwVjBjMU5oTTA5SFVuWjRVSGhuYUhsV1p6MDkjMw==/produk-domestik-regional-bruto-per-kapita-atas-dasar-harga--konstan-2010-menurut-kabupaten-kota-di-provinsi-jawa-timur--ribu-rupiah---2020.html?year=2024 (diakses 01 Desember 2025).

Badan Pusat Statistik. (2024). Tingkat Partisipasi Angkatan Kerja (TPAK) Kabko di Jawa Timur, 2021-2024 Pada https://probolinggokab.bps.go.id/id/statisticstable/1/MTQ4MSMx/angkatan-kerja-dan-tingkat-partisipasi-angkatan-kerja--tpak--di-jawa-timur-menurut-kabupaten-kota--2024.htm (diakses 01 Desember 2025).

Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.

Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2010). Multivariate Data Analysis (7th ed.). Pearson.

Johnson, R.A and Wichern, D.W; “Applied Multivariate Statistical Analysis”, 6 th edition, Pearson Prentice Hall, Upper Saddle River, 2007.