1 PENDAHULUAN
1.1 Latar Belakang
Tingkat kesejahteraan merupakan salah satu aspek penting dalam menggambarkan kondisi sosial ekonomi masyarakat dan menjadi perhatian utama di berbagai wilayah, termasuk Jawa Timur yang memiliki jumlah penduduk besar serta karakteristik sosial ekonomi yang beragam. Di Indonesia, tingkat kesejahteraan sering dijadikan indikator utama untuk menilai kualitas hidup masyarakat serta efektivitas program pembangunan. Mengidentifikasi karakteristik wilayah dengan tingkat kesejahteraan yang bervariasi sangat diperlukan agar pemerintah dapat merancang kebijakan yang tepat sasaran dan sesuai dengan kebutuhan masing-masing daerah.
Dalam konteks Jawa Timur, yang terdiri dari berbagai kabupaten dan kota dengan karakteristik sosial, ekonomi, dan geografis yang berbeda, pendekatan yang efektif untuk mengelompokkan wilayah berdasarkan tingkat kesejahteraan rakyat menjadi penting. Pengelompokan ini akan membantu memahami perbedaan antar wilayah, mengidentifikasi pola-pola sosial dan ekonomi, serta menentukan prioritas penanganan yang sesuai dengan kondisi setiap wilayah.
Analisis hierarki (hierarchical clustering) merupakan metode yang dapat diterapkan untuk melakukan pengelompokan wilayah berdasarkan indikator tertentu, seperti tingkat kesejahteraan rakyat. Metode ini mampu menyajikan hasil pengelompokan dalam bentuk hierarki atau bertingkat, sehingga dapat memberikan gambaran hubungan antar kelompok wilayah berdasarkan kedekatan tingkat kesejahteraan rakyat. Penggunaan analisis hierarki memungkinkan visualisasi struktur hubungan antar kabupaten/kota dalam bentuk dendrogram, yang memudahkan peneliti dan pembuat kebijakan dalam mengidentifikasi kelompok wilayah dengan kondisi sosial dan ekonomi yang serupa.
Dengan penerapan analisis hierarki, diharapkan dapat diperoleh kelompok kabupaten/kota di Jawa Timur yang memiliki kesamaan berdasarkan indikator tingkat kesejahteraan rakyat. Hasil pengelompokan ini akan bermanfaat sebagai dasar bagi pemerintah daerah dan pemangku kepentingan untuk menyusun strategi yang lebih efektif dalam meningkatkan tingkat kesejahteraan rakyat di Provinsi Jawa Timur, serta melakukan intervensi yang lebih terfokus dan tepat sasaran.
1.2 Sumber Data
Data dalam penelitian ini bersumber dari data sekunder yang diperoleh dari lembaga-lembaga resmi yang menyediakan informasi mengenai indikator sosial dan ekonomi di Provinsi Jawa Timur pada tahun 2024. Sumber utama data adalah Badan Pusat Statistik (BPS) Jawa Timur, yang menyediakan data mengenai indikator tingkat kesejahteraan rakyat. Data dari BPS ini merupakan data resmi yang komprehensif dan mencakup seluruh wilayah kabupaten dan kota di Jawa Timur pada tahun 2024, sehingga sangat relevan untuk menganalisis indikator yang memengaruhi tingkat kesejahteraan rakyat. Variabel penelitian dalam penelitian ini terdiri dari:
- X1 = Jumlah Penduduk (ribuan jiwa)
- X2 = Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen)
- X3 = PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah)
- X4 = Harapan Lama Sekolah (Tahun)
- X5 = Angka Harapan Hidup (Tahun)
Berikut merupakan data yang digunakan dalam penelitian ini:
> data <- read_excel("C:/Users/- ACER -/Documents/Kampus/Anmul/dataprakanmul.xlsx")
> data<-data.frame(data)
> data
Kabupaten.Kota X1 X2 X3 X4 X5
1 Kabupaten Pacitan 588.6 86.62114 21707 12.69 73.090
2 Kabupaten Ponorogo 962.9 78.74833 17263 13.78 73.815
3 Kabupaten Trenggalek 744.5 80.08136 19988 12.63 74.880
4 Kabupaten Tulungagung 1113.9 75.57328 28463 13.36 75.185
5 Kabupaten Blitar 1263.7 72.36133 23340 12.67 74.610
6 Kabupaten Kediri 1689.9 71.30728 19994 13.63 73.525
7 Kabupaten Malang 2736.0 72.89716 29057 13.49 73.505
8 Kabupaten Lumajang 1145.9 70.86020 22629 12.41 71.190
9 Kabupaten Jember 2603.8 73.75711 24156 13.50 70.250
10 Kabupaten Banyuwangi 1754.4 75.36076 36305 13.14 71.615
11 Kabupaten Bondowoso 792.3 75.10290 19953 13.33 67.810
12 Kabupaten Situbondo 700.7 76.65520 22465 13.20 70.160
13 Kabupaten Probolinggo 1185.2 73.18260 22909 12.64 68.330
14 Kabupaten Pasuruan 1657.2 75.31080 75804 12.78 71.045
15 Kabupaten Sidoarjo 2171.5 68.37258 78227 15.22 74.935
16 Kabupaten Mojokerto 1154.3 73.93802 61102 12.99 73.495
17 Kabupaten Jombang 1362.7 71.88394 24386 13.61 73.475
18 Kabupaten Nganjuk 1131.8 69.79251 19098 13.18 72.520
19 Kabupaten Madiun 757.8 72.33643 20576 13.27 72.520
20 Kabupaten Magetan 685.5 77.04027 22261 14.08 73.540
21 Kabupaten Ngawi 884.1 75.72752 17641 12.89 73.445
22 Kabupaten Bojonegoro 1325.3 73.85974 48568 13.18 72.805
23 Kabupaten Tuban 1225.2 74.54787 42371 12.54 72.590
24 Kabupaten Lamongan 1378.2 74.79783 23355 14.03 73.465
25 Kabupaten Gresik 1364.0 71.60873 87443 13.98 73.555
26 Kabupaten Bangkalan 1102.5 70.47973 15870 11.98 71.015
27 Kabupaten Sampang 1016.3 73.62445 14687 12.55 68.865
28 Kabupaten Pamekasan 884.7 79.12625 14972 13.69 68.530
29 Kabupaten Sumenep 1153.2 78.15996 23617 13.59 72.705
30 Kota Kediri 298.2 70.73886 317792 15.71 74.910
31 Kota Blitar 154.9 70.43828 37105 14.81 74.900
32 Kota Malang 872.7 67.51613 72618 15.79 74.335
33 Kota Probolinggo 249.5 67.55347 39646 13.98 71.225
34 Kota Pasuruan 219.4 72.71628 31901 13.67 72.550
35 Kota Mojokerto 137.4 72.68312 41391 14.13 74.310
36 Kota Madiun 201.8 70.60461 61650 14.54 73.705
37 Kota Surabaya 2922.0 70.49095 166136 14.87 75.025
38 Kota Batu 222.7 73.53497 61020 14.58 73.5401.3 Latar Belakang Metode
Metode cluster analysis atau analisis pengelompokan merupakan teknik statistik yang digunakan untuk mengelompokkan objek atau unit analisis berdasarkan kesamaan karakteristik tertentu. Salah satu pendekatan dalam analisis cluster adalah hierarchical clustering, atau analisis cluster hierarki, yang dikenal mampu menghasilkan kelompok-kelompok dalam bentuk struktur bertingkat atau dendrogram. Metode ini memberikan keunggulan dalam memahami hubungan antar kelompok melalui struktur hierarkis yang terbentuk, sehingga sangat cocok untuk studi yang memerlukan pengelompokan wilayah berdasarkan indikator tertentu, seperti tingkat kesejahteraan rakyat.
Pada hierarchical clustering, terdapat dua pendekatan utama, yaitu metode agglomerative (bottom-up) dan divisive (top-down). Pada metode agglomerative, setiap unit analisis memulai sebagai kluster tersendiri, kemudian digabungkan satu per satu berdasarkan kesamaan tertentu hingga terbentuk satu kluster besar. Sebaliknya, metode divisive dimulai dengan satu kluster besar yang secara bertahap dibagi menjadi kluster-kluster yang lebih kecil. Pendekatan ini memungkinkan visualisasi dalam bentuk dendrogram, yang memudahkan interpretasi hasil dan melihat hubungan antar kabupaten/kota dalam indikator tingkat kesejahteraan rakyat.
Penerapan analisis hierarki dalam pengelompokan Kabupaten/Kota di Jawa Timur berdasarkan tingkat kesejahteraan rakyat bertujuan untuk mengidentifikasi pola-pola sosial dan ekonomi antar wilayah yang dapat menjadi dasar perencanaan kebijakan. Dengan hierarchical clustering, pola sosial dan ekonomi di setiap kabupaten/kota dapat dikelompokkan dan divisualisasikan, sehingga memudahkan pemangku kepentingan dalam melihat wilayah-wilayah yang membutuhkan prioritas dalam meningkatkan kesejahteraan rakyat.
1.4 Tinjauan Pustaka
1.4.1 Analisis Cluster
Analisis cluster adalah teknik statistik yang digunakan untuk mengelompokkan objek atau data ke dalam kelompok (kluster) berdasarkan kesamaan atau kedekatan karakteristik tertentu. Tujuannya adalah untuk memastikan bahwa objek dalam satu kluster lebih mirip satu sama lain daripada objek di kluster lain. Analisis ini berguna dalam berbagai bidang, seperti segmentasi pasar, biologi, pengolahan citra, dan ilmu sosial, untuk mengidentifikasi pola-pola tersembunyi dalam data. Terdapat dua jenis utama analisis cluster:
- Hierarki (Hierarchical Clustering), yang mengelompokkan data dengan cara bertahap hingga membentuk struktur pohon (dendrogram), dan
- Non-Hierarki (Non-Hierarchical Clustering), seperti metode k-means, yang langsung membagi data menjadi sejumlah kluster yang telah ditentukan.
1.4.2 Asumsi Analisis Cluster
1.4.2.1 Uji Kaiser Meyer Olkin
Uji KMO (Kaiser-Meyer-Olkin) adalah uji statistik yang digunakan untuk mengukur kecocokan data dalam analisis faktor. Uji ini bertujuan untuk menentukan apakah data yang digunakan memiliki korelasi yang cukup antar variabel untuk dilanjutkan dengan analisis faktor. Semakin tinggi nilai KMO, semakin cocok data untuk analisis faktor. Rumus KMO secara umum adalah: \[KMO = \frac{\sum_{i \neq j} r_{ij}^2}{\sum_{i \neq j} r_{ij}^2 + \sum_{i \neq j} \hat{r}_{ij}^2}\] Keterangan:
\(r_ij\) : koefisien korelasi antara variabel i dan j.
\(r ̂_ij\) : koefisien korelasi partial yang mengukur korelasi antara variabel i dan j setelah mengontrol variabel lain.
1.4.2.2 Uji Non-Multikolinearitas
Uji non-multikolinearitas dalam analisis cluster digunakan untuk memastikan bahwa tidak ada variabel yang memiliki korelasi yang sangat tinggi satu sama lain. Multikolinearitas terjadi ketika dua atau lebih variabel dalam dataset memiliki hubungan yang sangat kuat, yang dapat menyebabkan masalah dalam interpretasi hasil analisis cluster.
1.4.3 Jarak Euclidian
Jarak Euclidean adalah salah satu ukuran jarak yang paling umum digunakan dalam analisis kluster untuk menghitung kedekatan antara dua titik data dalam ruang multidimensi. Jarak ini mengukur “garis lurus” atau jarak langsung antara dua titik dalam ruang vektor berdasarkan koordinatnya. Rumus yang digunakan dalam mencari jarak euclidian ialah sebagai berikut: \[d(X, Y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\] Keterangan:
\(d(X,Y)\) : Jarak Euclidean antara dua titik data XXX dan YYY. Ini adalah hasil akhir yang mengukur kedekatan antara kedua titik dalam ruang multidimensi.
\(x_i\) : Nilai variabel ke-i pada titik XXX. Ini adalah nilai untuk dimensi ke-i dalam titik data pertama.
\(y_i\) : Nilai variabel ke-i pada titik YYY. Ini adalah nilai untuk dimensi ke-i dalam titik data kedua.
1.4.4 Metode Analisis Cluster
1.4.4.1 Single Linkage Method
Metode ini menggunakan jarak antar dua kluster diukur sebagai jarak terpendek antara dua titik, masing-masing dari kluster yang berbeda. Ini berarti titik yang paling dekat dalam dua kluster akan menentukan jarak antar kluster. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \min(d(d_{pj};d_{qj}))\]
1.4.4.2 Complete Linkage Method
Metode ini menggunakan jarak antar dua kluster diukur sebagai jarak terjauh antara dua titik dalam dua kluster. Metode ini mencoba untuk menghindari efek chaining dengan mempertimbangkan jarak yang terjauh. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[d_{ij} = \max(d(d_{pj};d_{qj}))\]
1.4.4.3 Average Linkage Method
Metode ini dilakukan dengan cara mengukur jarak antar kluster berdasarkan rata-rata jarak semua pasangan titik antara dua kluster. Hal ini sering kali memberikan keseimbangan antara pendekatan single linkage dan complete linkage. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[dd_{ij} = \frac{1}{n_i \times n_j} \sum_{t=1}^{n_i} \sum_{j=1}^{n_j} \sqrt{\sum_{k=1}^{p} (x_{tk} - y_{jk})^2}\] Keterangan:
\(d_{ij}\) adalah jarak antara klaster \(i\) dan klaster \(j\),
\(n_i\) dan \(n_j\) adalah jumlah elemen dalam klaster \(i\) dan \(j\),
\(x_{tk}\) adalah nilai variabel ke-\(k\) untuk elemen ke-\(t\) dalam klaster \(i\),
\(y_{jk}\) adalah nilai variabel ke-\(k\) untuk elemen ke-\(j\) dalam klaster \(j\),
\(p\) adalah jumlah dimensi atau variabel.
1.4.4.4 Ward Method
Metode dilakukan dengan tujuan untuk meminimalkan jumlah kuadrat dari deviasi antara kluster yang digabungkan, atau dapat dikatakan berfokus pada mengurangi variasi dalam kluster. Ward’s method menggunakan pendekatan within-cluster variance, di mana penggabungan kluster diupayakan untuk meminimalkan pertambahan variasi. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{nk} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{nk} \sum_{j=1}^{p} \left( \sum_{i=1}^{nk} X_{ijk} \right)^2 \right]\] Keterangan:
\(ESS\) adalah Error Sum of Squares,
\(K\) adalah jumlah kelompok atau klaster,
\(nk\) adalah jumlah observasi dalam setiap kelompok \(k\),
\(p\) adalah jumlah variabel,
\(X_{ijk}\) adalah nilai observasi untuk variabel ke-\(j\) dalam observasi ke-\(i\) pada kelompok ke-\(k\)).
1.4.4.5 Centroid Method
Metode ini dilakukan dengan menggunakan jarak antar kluster diukur sebagai jarak antara pusat massa (centroid) dari dua kluster. Metode ini sangat mirip dengan Ward’s method, tetapi lebih sederhana karena hanya memperhitungkan jarak antar centroid. Rumus yang digunakan dalam metode ini adalah sebagai berikut: \[C_i = \frac{1}{M} \sum_{j=1}^{M} x_j\] Keterangan:
\(M\) : Menyatakan jumlah data pada suatu kelompok
\(i\) : Menyatakan fitur ke-\(i\) dalam sebuah kelompok
1.4.5 Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic mengukur korelasi antara jarak cophenetic (jarak antar data yang diperoleh dari dendrogram) dengan jarak asli antar data dalam dataset. Semakin tinggi nilai koefisien ini (mendekati +1), semakin baik hasil klasterisasi dalam menggambarkan jarak asli data. Jika koefisien ini rendah, artinya dendrogram kurang akurat dalam merepresentasikan struktur asli data. Rumus yang digunakan utuk mencari koefisien korelasi cophenetic adalah sebagai berikut: \[r_{coph} = \frac{\sum_{i<j}^n (d_{ij} - \bar{d})(d_{coph_{ij}} - \bar{d}_{coph})}{\sqrt{\left[\sum_{i<j}^n (d_{ij} - \bar{d})^2\right] \left[\sum_{i<j}^n (d_{coph_{ij}} - \bar{d}_{coph})^2\right]}}\] Keterangan:
\(r_{coph}\) adalah koefisien korelasi cophenetic
\(d_{ij}\) adalah jarak asli antara objek ke-i dan ke-j
\(\bar{d}\) adalah rata-rata \(d_{ij}\)
\(d_{coph_{ij}}\) adalah jarak cophenetic objek ke-i dan ke-j
\(\bar{d}_{coph}\) adalah rata-rata dari \(d_{coph_{ij}}\)
1.4.6 Validitas Cluster
1.4.6.1 Indeks Connectivity
Indeks connectivity mengukur seberapa terhubung atau berdekatan titik-titik data dalam klaster yang sama. Nilai ini memperhitungkan kedekatan titik data dengan tetangga terdekatnya. Connectivity yang lebih rendah menunjukkan bahwa titik-titik dalam klaster terhubung dengan baik, yang berarti bahwa objek dalam klaster dekat satu sama lain dan berada dalam grup yang sama. Rumus yang digunkan dalam perhitungan ini adalah sebagaiu berikut: \[\text{Conn}(C) = \sum_{i=1}^{N} \sum_{j=1}^{L} X_{i,\text{nn}(j)}\]
1.4.6.2 Indeks Silhoutte
Indeks Silhouette adalah metrik yang mengukur seberapa baik titik data dikelompokkan dalam klaster yang sama dan seberapa jauh mereka dari klaster lain. Nilai Silhouette menggabungkan informasi mengenai kedekatan titik data dengan klaster yang sama dan jaraknya dari klaster terdekat lainnya. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut: \[S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}\]
1.4.6.3 Indeks Dunn
Indeks Dunn mengukur rasio antara jarak minimum antar klaster dengan diameter maksimum klaster. Tujuan dari Indeks Dunn adalah untuk menemukan klaster yang kompak dan terpisah dengan baik. Semakin besar nilai Dunn, semakin baik hasil klasterisasi. Rumus yang digunakan dalam perhitungan ini adalah sebagai berikut:
\[C = \frac{d_{\min}}{d_{\max}}\]
1.5 Tujuan
- Untuk mengelompokkan kabupaten/kota di Jawa Timur berdasarkan indikator-indikator tingkat kesejahteraan rakyat, guna mengidentifikasi pola kesejahteraan rakyat dan kelompok wilayah yang memiliki karakteristik serupa.
- Untuk mengidentifikasi pengaruh masing-masing variabel indikator tingkat kesejahteraan rakyat terhadap pembentukan kluster dan menganalisis adanya multikolinearitas antara variabel yang dapat mempengaruhi hasil pengelompokan.
- Untuk memberikan rekomendasi kebijakan berdasarkan hasil pengelompokan kabupaten/kota, yang dapat membantu pemangku kebijakan dalam merancang program pembangunan yang lebih tepat sasaran sesuai dengan karakteristik tiap kluster.
2 SOURCE CODE
2.1 Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Library yang digunakan dalam analisis ini meliputi:
psych: Digunakan untuk analisis psikometrik dan statistik deskriptif. Paket ini sering digunakan untuk analisis faktor, reliabilitas, dan statistik deskriptif lainnya.
GPArotation: Menyediakan metode rotasi untuk analisis faktor, yang membantu dalam interpretasi faktor dengan menghasilkan solusi yang lebih sederhana.
clValid: Berguna untuk validasi klaster, paket ini menyediakan berbagai indeks seperti connectivity, Dunn, dan Silhouette untuk mengevaluasi hasil klasterisasi.
ggplot2: Paket visualisasi data yang kuat, memungkinkan pembuatan berbagai jenis grafik dengan sintaks berbasis Grammar of Graphics.
cluster: Berisi algoritma untuk analisis klaster, termasuk metode seperti k-means, pam (partitioning around medoids), dan agnes (hierarchical clustering).
factoextra: Memudahkan visualisasi hasil analisis klaster, analisis faktor, dan analisis komponen utama (PCA).
tidyverse: Kumpulan paket untuk manipulasi data, analisis, dan visualisasi yang menggunakan sintaks konsisten. Paket ini termasuk dplyr, tidyr, readr, purrr, ggplot2, dll.
car: Berfungsi untuk analisis regresi dan pengujian diagnostik. Termasuk fungsi seperti Anova, VIF (Variance Inflation Factor), dan lainnya untuk diagnostik regresi.
readxl: Digunakan untuk membaca file Excel (.xls dan .xlsx) untuk dilakukan analisis.
2.2 Input Data
Berikut merupakan source kode yang digunakan untuk menginput data yang ada pada excel untuk dilakukan analisis
> data <- read_excel("C:/Users/- ACER -/Documents/Kampus/Anmul/dataprakanmul.xlsx")
> data<-data.frame(data)
> data
Kabupaten.Kota X1 X2 X3 X4 X5
1 Kabupaten Pacitan 588.6 86.62114 21707 12.69 73.090
2 Kabupaten Ponorogo 962.9 78.74833 17263 13.78 73.815
3 Kabupaten Trenggalek 744.5 80.08136 19988 12.63 74.880
4 Kabupaten Tulungagung 1113.9 75.57328 28463 13.36 75.185
5 Kabupaten Blitar 1263.7 72.36133 23340 12.67 74.610
6 Kabupaten Kediri 1689.9 71.30728 19994 13.63 73.525
7 Kabupaten Malang 2736.0 72.89716 29057 13.49 73.505
8 Kabupaten Lumajang 1145.9 70.86020 22629 12.41 71.190
9 Kabupaten Jember 2603.8 73.75711 24156 13.50 70.250
10 Kabupaten Banyuwangi 1754.4 75.36076 36305 13.14 71.615
11 Kabupaten Bondowoso 792.3 75.10290 19953 13.33 67.810
12 Kabupaten Situbondo 700.7 76.65520 22465 13.20 70.160
13 Kabupaten Probolinggo 1185.2 73.18260 22909 12.64 68.330
14 Kabupaten Pasuruan 1657.2 75.31080 75804 12.78 71.045
15 Kabupaten Sidoarjo 2171.5 68.37258 78227 15.22 74.935
16 Kabupaten Mojokerto 1154.3 73.93802 61102 12.99 73.495
17 Kabupaten Jombang 1362.7 71.88394 24386 13.61 73.475
18 Kabupaten Nganjuk 1131.8 69.79251 19098 13.18 72.520
19 Kabupaten Madiun 757.8 72.33643 20576 13.27 72.520
20 Kabupaten Magetan 685.5 77.04027 22261 14.08 73.540
21 Kabupaten Ngawi 884.1 75.72752 17641 12.89 73.445
22 Kabupaten Bojonegoro 1325.3 73.85974 48568 13.18 72.805
23 Kabupaten Tuban 1225.2 74.54787 42371 12.54 72.590
24 Kabupaten Lamongan 1378.2 74.79783 23355 14.03 73.465
25 Kabupaten Gresik 1364.0 71.60873 87443 13.98 73.555
26 Kabupaten Bangkalan 1102.5 70.47973 15870 11.98 71.015
27 Kabupaten Sampang 1016.3 73.62445 14687 12.55 68.865
28 Kabupaten Pamekasan 884.7 79.12625 14972 13.69 68.530
29 Kabupaten Sumenep 1153.2 78.15996 23617 13.59 72.705
30 Kota Kediri 298.2 70.73886 317792 15.71 74.910
31 Kota Blitar 154.9 70.43828 37105 14.81 74.900
32 Kota Malang 872.7 67.51613 72618 15.79 74.335
33 Kota Probolinggo 249.5 67.55347 39646 13.98 71.225
34 Kota Pasuruan 219.4 72.71628 31901 13.67 72.550
35 Kota Mojokerto 137.4 72.68312 41391 14.13 74.310
36 Kota Madiun 201.8 70.60461 61650 14.54 73.705
37 Kota Surabaya 2922.0 70.49095 166136 14.87 75.025
38 Kota Batu 222.7 73.53497 61020 14.58 73.540Keterangan :
\(X1\) = Jumlah Penduduk (ribuan jiwa)
\(X2\) = Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen)
\(X3\) = PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah)
\(X4\) = Harapan Lama Sekolah (Tahun)
\(X5\) = Angka Harapan Hidup (Tahun)
2.3 Analisis Cluster
2.3.1 Statistika Deskriptif
> statdes <- summary(data)
> statdes
Kabupaten.Kota X1 X2 X3
Length:38 Min. : 137.4 Min. :67.52 Min. : 14687
Class :character 1st Qu.: 711.6 1st Qu.:70.97 1st Qu.: 20859
Mode :character Median :1108.2 Median :73.36 Median : 24271
Mean :1100.4 Mean :73.67 Mean : 45460
3rd Qu.:1353.3 3rd Qu.:75.35 3rd Qu.: 47019
Max. :2922.0 Max. :86.62 Max. :317792
X4 X5
Min. :11.98 Min. :67.81
1st Qu.:12.91 1st Qu.:71.32
Median :13.49 Median :73.45
Mean :13.58 Mean :72.66
3rd Qu.:14.02 3rd Qu.:73.79
Max. :15.79 Max. :75.19 Source code tersebut menggunakan fungsi (summary) digunakan untuk menghasilkan ringkasan statistik deskriptif dari suatu objek. Ketika diterapkan pada dataframe data, summary() akan memberikan statistik deskriptif dari setiap kolom dalam dataframe tersebut. Untuk variabel numerik, summary() biasanya mengembalikan nilai minimum, maksimum, median, mean, dan kuartil (Q1 dan Q3). Untuk variabel kategorikal, summary() memberikan jumlah data dalam setiap kategori.
2.3.2 Uji asumsi
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA = 0.65
MSA for each item =
X1 X2 X3 X4 X5
0.23 0.68 0.70 0.61 0.72
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
X1 X2 X3 X4 X5
X1 1.000000000 -0.1040108 0.02555656 -0.09309549 -0.003018157
X2 -0.104010794 1.0000000 -0.30554332 -0.41601162 -0.149327658
X3 0.025556562 -0.3055433 1.00000000 0.59576462 0.354077320
X4 -0.093095486 -0.4160116 0.59576462 1.00000000 0.478427348
X5 -0.003018157 -0.1493277 0.35407732 0.47842735 1.000000000Fungsi KMO digunakan untuk menghitung nilai KMO berdasarkan subset data tersebut dan hasilnya disimpan dalam variabel kmo. Variabel ini kemudian dapat dilihat untuk mengetahui seberapa baik data tersebut untuk analisis cluster.
Fungsi cor digunakan untuk menghitung matriks korelasi antara kolom-kolom 2 hingga 6 dari data. Korelasi ini diukur menggunakan koefisien korelasi Pearson, yang mengukur hubungan linier antara dua variabel.
2.3.3 Standarisasi
> datastand <- scale(data[,3:6])
> datastand
X2 X3 X4 X5
[1,] 3.46621096 -0.44059718 -0.987659273 0.21716307
[2,] 1.35944341 -0.52303074 0.219447457 0.58086171
[3,] 1.71616222 -0.47248361 -1.054105515 1.11512247
[4,] 0.50979741 -0.31527740 -0.245676237 1.26812673
[5,] -0.34972110 -0.41030601 -1.009808020 0.97967608
[6,] -0.63178546 -0.47237231 0.053331852 0.43538226
[7,] -0.20633306 -0.30425906 -0.101709379 0.42534919
[8,] -0.75142442 -0.42349463 -1.297741736 -0.73597819
[9,] 0.02378965 -0.39516969 -0.090635006 -1.20753229
[10,] 0.45292741 -0.16981297 -0.489312458 -0.52277554
[11,] 0.38392535 -0.47313284 -0.278899358 -2.43156633
[12,] 0.79932015 -0.42653673 -0.422866216 -1.25268109
[13,] -0.12994915 -0.41830080 -1.043031141 -2.17070662
[14,] 0.43955815 0.56286998 -0.887989910 -0.80871792
[15,] -1.41711189 0.60781519 1.814157266 1.14271340
[16,] 0.07220085 0.29015663 -0.655428063 0.42033266
[17,] -0.47747111 -0.39090333 0.031183105 0.41029959
[18,] -1.03713832 -0.48899258 -0.445014963 -0.06877931
[19,] -0.35638527 -0.46157656 -0.345345600 -0.06877931
[20,] 0.90236446 -0.43032081 0.551678667 0.44290706
[21,] 0.55107339 -0.51601906 -0.766171799 0.39524999
[22,] 0.05125250 0.05765838 -0.445014963 0.07419188
[23,] 0.23539683 -0.05729228 -1.153774878 -0.03366358
[24,] 0.30228685 -0.41002776 0.496306799 0.40528306
[25,] -0.55111759 0.77876651 0.440934931 0.45043185
[26,] -0.85323902 -0.54887006 -1.773939803 -0.82376752
[27,] -0.01171114 -0.57081401 -1.142700504 -1.90232211
[28,] 1.46057553 -0.56552743 0.119778094 -2.07037596
[29,] 1.20199399 -0.40516782 0.009034357 0.02402655
[30,] -0.78389482 5.05160340 2.356801576 1.13017207
[31,] -0.86432933 -0.15497345 1.360107945 1.12515554
[32,] -1.64629904 0.50377158 2.445396565 0.84172143
[33,] -1.63630834 -0.10783941 0.440934931 -0.71842033
[34,] -0.25473686 -0.25150455 0.097629347 -0.05372971
[35,] -0.26361087 -0.07547070 0.607050536 0.82918009
[36,] -0.81982030 0.30032170 1.061099856 0.52567985
[37,] -0.85023653 2.23847484 1.426554187 1.18786220
[38,] -0.03565550 0.28863558 1.105397351 0.44290706
attr(,"scaled:center")
X2 X3 X4 X5
73.66821 45459.63158 13.58184 72.65711
attr(,"scaled:scale")
X2 X3 X4 X5
3.736914e+00 5.391008e+04 9.029856e-01 1.993409e+00
> rownames(datastand) <- 1:nrow(datastand)Fungsi scale digunakan untuk melakukan standarisasi pada subset data. Standarisasi ini mengubah setiap kolom agar memiliki rata-rata (mean) 0 dan deviasi standar (standard deviation) 1. Proses ini dilakukan agar semua variabel memiliki skala yang sama.
2.3.4 Jarak Euclidian
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 2.4565521
3 1.9683581 1.4272964
4 3.2266313 1.2057085 1.4686722
5 3.8915513 2.1457102 2.0717258 1.1894972
6 4.2338950 2.0040752 2.6835280 1.4528453 1.2287940
7 3.7860819 1.6207538 2.2598967 1.1153317 1.0787620 0.4831255
8 4.3351321 2.9157505 3.0947239 2.5933896 1.7854733 1.7928156 1.7579865
9 3.8323280 2.2571716 3.0320130 2.5289349 2.4017699 1.7764103 1.6515586
10 3.1542131 1.6330615 2.1654267 1.8141344 1.7973197 1.5750154 1.2255108
11 4.1254880 3.2058069 3.8671439 3.7053468 3.5655275 3.0596472 2.9275051
12 3.0970853 2.0242271 2.6168048 2.5459910 2.5784644 2.2641746 1.9862572
13 4.3171579 3.3755354 3.7693313 3.5890443 3.1582240 2.8720157 2.7648567
14 3.3511102 2.2765584 2.5358295 2.3456187 2.1870588 2.1571684 1.8194084
15 5.8011059 3.4419251 4.3831661 2.9704750 3.1901810 2.3204237 2.5461778
16 3.4935600 1.7633615 1.9813898 1.2019536 1.0521959 1.2568270 0.8588019
17 4.0780436 1.8590986 2.5481972 1.3390059 1.1935446 0.1776790 0.3144996
18 4.5451868 2.5706626 3.0583576 2.0616112 1.3773104 0.8167715 1.0422982
19 3.8867740 1.9206429 2.4898868 1.6027874 1.2423534 0.6993457 0.5922719
20 2.9989892 0.5890037 1.9220980 1.2182390 2.0723128 1.6136265 1.2931844
21 2.9299296 1.2881802 1.4001605 1.0367403 1.1061277 1.4402281 1.0300112
22 3.4964415 1.6573436 2.1230880 1.3470564 1.2323406 1.0612641 0.6621969
23 3.2673523 1.9348834 1.9221585 1.6313041 1.2306768 1.6128878 1.2544530
24 3.4998421 1.1125775 2.2159862 1.1606362 1.7387995 1.0361036 0.7924060
25 4.4408414 2.3261531 3.0631918 1.8607881 1.9593898 1.3123712 1.2597272
26 4.5134405 3.2929026 3.2992595 2.9366724 2.0270758 2.2314286 2.1988563
27 4.0778859 3.1470616 3.4796603 3.3456940 2.9092246 2.6999144 2.5711175
28 3.2399743 2.6553773 3.4057869 3.4993944 3.7255939 3.2664800 3.0206864
29 2.4816595 0.6269139 1.6092412 1.4490960 2.0878582 1.8810740 1.4720366
30 7.7618729 6.3671398 6.9570350 6.1048318 6.4325477 6.0271179 5.9632115
31 5.0171328 2.5841814 3.5479961 2.1243600 2.4428840 1.5291402 1.7555296
32 6.2614325 3.8873780 4.9578708 3.5697741 3.8044871 2.8052058 3.0639076
33 5.3909766 3.2991064 4.1193506 3.0110803 2.5951839 1.6197058 1.9199171
34 3.8900441 1.7597870 2.5740986 1.5664427 1.5259702 0.6573743 0.5238115
35 4.1185619 1.7454264 2.6302706 1.2551831 1.6602440 0.8687719 0.8491436
36 4.8178441 2.4776044 3.4423788 2.0989847 2.2848976 1.2869200 1.4505434
37 5.7078743 3.7860474 4.4827070 3.3427743 3.6394722 3.1382127 3.1300356
38 4.1505055 1.8463591 2.9603199 1.7800610 2.3128708 1.4287765 1.3557543
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 1.5103738
10 1.4878948 0.9288597
11 2.2813465 1.2920831 1.9453843
12 1.8539706 0.8454865 0.8503365 1.2590556
13 1.5841659 1.3634272 1.8503439 0.9586546 1.4460237
14 1.6014188 1.3731465 0.8818786 2.0201547 1.2336116 1.7793498
15 3.8366831 3.4977227 3.4902118 4.6441948 4.0895774 4.6746101 3.8156162
16 1.7138490 1.8549801 1.1285266 2.9924713 1.9736798 2.7214881 1.3319063
17 1.7765434 1.6980872 1.4338993 2.9868242 2.1454909 2.8172773 2.0202745
18 1.1217039 1.5989729 1.5906748 2.7622510 2.1859996 2.3672159 2.0076811
19 1.2287062 1.2290560 0.9833372 2.4769681 1.6566580 2.2266589 1.5890213
20 2.7468510 1.9772825 1.5119733 3.0369506 1.9584150 3.2310821 2.1999610
21 1.8075688 1.8215086 1.0241647 2.8736915 1.7038689 2.6709783 1.6250586
22 1.5031024 1.4050657 0.7559222 2.5882096 1.5984782 2.3783532 1.1754899
23 1.2735355 1.6331482 0.8606517 2.5904303 1.5730805 2.2006867 1.0476803
24 2.3730942 1.7388086 1.3831608 2.9426699 1.9598568 3.0318609 2.0869713
25 2.4323076 2.1771670 1.9288344 3.3564315 2.6311944 3.2684668 2.0927372
26 0.5104476 1.9425739 1.8948928 2.5212050 2.1806614 1.6996085 1.9215682
27 1.3975960 1.2734543 1.6452220 1.0919349 1.2723139 0.3452604 1.6582313
28 2.9501012 1.6976891 1.9844402 1.2071100 1.1914969 1.9782912 2.2188138
29 2.4701114 1.7073185 1.0788117 2.6051291 1.4068132 2.7745163 1.7368136
30 6.8422187 6.4633195 6.2948804 7.1777026 6.7765132 7.2665094 5.9944584
31 3.2577346 2.8969876 2.8056048 4.1226182 3.4168085 4.1528834 3.3180163
32 4.2615541 3.7720271 3.9159720 4.8179201 4.4113467 4.9389660 4.2649394
33 1.9763508 1.8331070 2.2961672 2.7690818 2.6580898 2.5839495 2.5560258
34 1.6397569 1.2103390 1.0353583 2.5005778 1.6882158 2.4137296 1.6391168
35 2.5371316 2.1953972 1.8847078 3.4633528 2.5783608 3.4434703 2.4124223
36 2.7720936 2.3507240 2.3116986 3.5479767 2.9179894 3.5623318 2.6897089
37 4.2683481 3.9673395 3.7543192 4.9884673 4.3817726 4.9956088 3.7168089
38 2.8608220 2.1507131 1.9810428 3.3068435 2.5336267 3.4576541 2.4168555
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 2.9899239
17 2.3655423 1.1124376
18 2.8140613 1.4564378 0.8826835
19 2.8982593 1.0412351 0.6252575 0.6885567
20 2.9225465 1.6327509 1.4756283 2.2406103 1.6284665
21 3.5147626 0.9445271 1.3075011 1.6857081 1.1040213 1.3673883
22 2.9503159 0.4675269 0.9058086 1.2263208 0.6827505 1.4463279 0.8860851
23 3.6559044 0.7757679 1.4902033 1.5196330 1.0809453 1.9286491 0.8026736
24 2.5045698 1.3674492 0.9081594 1.7061996 1.1703077 0.6041412 1.2911552
25 1.7731790 1.3528427 1.2421990 1.7023268 1.5697735 1.8938910 2.0860121
26 4.2892145 2.0878837 2.2243078 1.5406014 1.6927411 3.1794910 2.1153658
27 4.6238044 2.5259595 2.6411214 2.2151388 2.0318433 3.0374814 2.3959007
28 4.7804479 3.0764189 3.1540638 3.2511248 2.7449739 2.6140027 2.7737815
29 3.5207640 1.5357335 1.7235150 2.2881245 1.6018508 0.7485548 1.0838529
30 4.5213756 5.7429674 5.9700496 6.3285067 6.2703271 6.0519225 6.5630506
31 1.0458892 2.3736871 1.5755578 2.1966750 2.1647321 2.0775091 2.6809600
32 0.7432436 3.5765284 2.8602716 3.2465594 3.3485860 3.3336818 4.0474593
33 2.4310012 2.3613925 1.6926116 1.3081373 1.6743965 2.8124365 2.7656134
34 2.5431261 1.0918405 0.5373833 0.9814489 0.5009151 1.3504324 1.2911364
35 1.8310800 1.4168491 0.8076621 1.6378394 1.3678722 1.2797226 1.7122582
36 1.1828505 1.9373619 1.2919118 1.8143891 1.7682566 1.9406494 2.4293405
37 1.7699359 3.0936364 3.0990721 3.5434347 3.5004205 3.3932942 3.8713289
38 1.7327339 1.7642707 1.3460957 2.0671900 1.7413110 1.3051376 2.1205570
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 0.7490636
24 1.1302463 1.7448038
25 1.3451061 2.0236222 1.4651401
26 1.9386475 1.5606555 2.8318019 2.8953670
27 2.1891356 1.9536566 2.8523382 3.1867977 1.5067826
28 2.7005026 2.7439935 2.7634171 3.5087960 3.2394776 1.9467281
29 1.3217759 1.5526690 1.0919192 2.2007863 2.8534864 2.5569183 2.1192842
30 5.8823658 6.3889303 5.9157511 4.7375006 7.2284864 7.3246420 7.1998325
31 2.2905230 2.9801691 1.6402484 1.5066861 3.7115811 4.0409841 4.1621601
32 3.4676042 4.1923628 2.9362298 2.3336706 4.7237328 4.9224818 4.9683883
33 2.0708434 2.5530034 2.2616906 1.8248081 2.3925872 2.6006127 3.4250684
34 0.7071336 1.3580739 0.8396675 1.2334251 2.1312814 2.2620195 2.6661320
35 1.3392951 2.0234487 0.7900136 0.9916783 2.9955165 3.2911322 3.4435206
36 1.8138017 2.5416345 1.4481738 0.8314911 3.2527990 3.4876708 3.6844935
37 3.2111798 3.8209122 3.1337943 1.9327362 4.6967134 4.9744887 5.0523322
38 1.6126477 2.3503434 0.9872904 0.9733943 3.3563232 3.3605462 3.2025519
29 30 31 32 33 34 35
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 6.3604776
31 2.7148065 5.3017295
32 3.9425157 4.6387033 1.5177641
33 2.9802902 5.8680745 2.2004146 2.6126761
34 1.4695483 5.9083369 1.8342693 2.9699715 1.5776729
35 1.8062650 5.4506705 1.0108809 2.3721344 2.0755740 1.0344594
36 2.4380210 4.9618769 0.8112038 1.6554814 1.6630207 1.3739805 0.8653682
37 3.8163297 2.9642507 2.3952329 2.1910646 3.2754325 3.1404154 2.5492573
38 1.8413615 5.0283268 1.1890457 2.1436200 2.1235521 1.2656984 0.7629505
36 37
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 2.0807222
38 0.7898510 2.2635183Fungsi (dist) dengan metode Euclidean digunakan untuk menghitung jarak antar baris dalam dataset yang telah distandarisasi. Hasilnya adalah sebuah objek yang berisi matriks jarak yang menunjukkan kedekatan antar objek-objek dalam dataset berdasarkan pengukuran jarak Euclidean.
2.3.5 Koefisien Korelasi Cophenetic
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,3:6])
> #Single Linkage
> hiers <- hclust(dist(data[,3:6]), method = "single")
> hiers
Call:
hclust(d = dist(data[, 3:6]), method = "single")
Cluster method : single
Distance : euclidean
Number of objects: 38
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.9731064
> #Average Linkage
> hierave <- hclust(dist(data[,3:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.9851773
> #Complete Linkage
> hiercomp <- hclust(dist(data[,3:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.9760977
> #Centorid Linkage
> hiercen <- hclust(dist(data[,3:6]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9840166
> #Ward
> hierward <- hclust(dist(data[,3:6]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.5696702
>
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.9731064 0.9851773 0.9760977 0.9840166 0.5696702Source code ini bertujuan untuk melakukan hierarchical clustering dengan beberapa metode yaitu Single Lingkage Method, Average Lingkage Method, Complete Lingkage Method, Centroid Method, dan Ward Method. Kemudian menghitung koefisien korelasi cophenetic untuk setiap metode untuk menilai seberapa baik hasil clustering sesuai dengan jarak asli antar objek. Semua koefisien korelasi ini disajikan dalam sebuah data frame untuk analisis lebih lanjut.
2.3.6 Indeks Validitas
> inval <- clValid(datastand, 3:6, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
3 4 5 6
Validation Measures:
3 4 5 6
hierarchical Connectivity 6.1258 11.8377 21.4738 24.3028
Dunn 0.3896 0.2513 0.1835 0.2131
Silhouette 0.3766 0.3154 0.2740 0.2336
Optimal Scores:
Score Method Clusters
Connectivity 6.1258 hierarchical 3
Dunn 0.3896 hierarchical 3
Silhouette 0.3766 hierarchical 3
> optimalScores(inval)
Score Method Clusters
Connectivity 6.1257937 hierarchical 3
Dunn 0.3895940 hierarchical 3
Silhouette 0.3766146 hierarchical 3
> plot(inval)Fungsi (clValid) digunakan untuk mengukur kualitas hasil Hierarchical Clustering dengan menggunakan validasi internal berdasarkan jarak Euclidean dan metode average linkage. serta fungsi (optimalScores) digunakan untuk mencari dan menampilkan skor clustering yang optimal berdasarkan validasi. Dan fungsi (plot) menghasilkan visualisasi dari hasil evaluasi clustering untuk mempermudah interpretasi.
2.3.7 Metode Average Linkage
> hirave <- hclust(dist(scale(data[,3:6])), method = "average")
> hirave
Call:
hclust(d = dist(scale(data[, 3:6])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 38
> plot(hirave, labels(data$Kabupaten.Kota), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "Kabupaten atau Kota", ylab = "Jarak")>
> anggotaave <- data.frame(id = data$Kabupaten.Kota, cutree(hirave, k = 3))
> anggotaave
id cutree.hirave..k...3.
1 Kabupaten Pacitan 1
2 Kabupaten Ponorogo 2
3 Kabupaten Trenggalek 2
4 Kabupaten Tulungagung 2
5 Kabupaten Blitar 2
6 Kabupaten Kediri 2
7 Kabupaten Malang 2
8 Kabupaten Lumajang 2
9 Kabupaten Jember 2
10 Kabupaten Banyuwangi 2
11 Kabupaten Bondowoso 2
12 Kabupaten Situbondo 2
13 Kabupaten Probolinggo 2
14 Kabupaten Pasuruan 2
15 Kabupaten Sidoarjo 2
16 Kabupaten Mojokerto 2
17 Kabupaten Jombang 2
18 Kabupaten Nganjuk 2
19 Kabupaten Madiun 2
20 Kabupaten Magetan 2
21 Kabupaten Ngawi 2
22 Kabupaten Bojonegoro 2
23 Kabupaten Tuban 2
24 Kabupaten Lamongan 2
25 Kabupaten Gresik 2
26 Kabupaten Bangkalan 2
27 Kabupaten Sampang 2
28 Kabupaten Pamekasan 2
29 Kabupaten Sumenep 2
30 Kota Kediri 3
31 Kota Blitar 2
32 Kota Malang 2
33 Kota Probolinggo 2
34 Kota Pasuruan 2
35 Kota Mojokerto 2
36 Kota Madiun 2
37 Kota Surabaya 2
38 Kota Batu 2
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 3, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
27 28 29 30 31 32 33 34 35 36 37 38
2 2 2 3 2 2 2 2 2 2 2 2
> aggregate(data,list(idclus),mean)
Group.1 Kabupaten.Kota X1 X2 X3 X4 X5
1 1 NA 588.600 86.62114 21707.00 12.6900 73.0900
2 2 NA 1136.886 73.38978 38554.64 13.5475 72.5825
3 3 NA 298.200 70.73886 317792.00 15.7100 74.9100Source code tersebut digunakan untuk melakukan Hierarchical Clustering dengan metode average linkage method pada data yang telah distandarisasi, memvisualisasikan hasil clustering dalam bentuk dendrogram, membagi data menjadi 3 klaster, dan menghitung rata-rata nilai pada setiap klaster.
3 HASIL DAN PEMBAHASAN
3.1 Analisis Statistika Deskriptif
Berikut adalah tabel dari hasil analisis statistika deskriptif:
| Variabel | Min | Mean | Median | Max |
|---|---|---|---|---|
| (X1) Jumlah Penduduk (ribuan jiwa) | 137,4 | 1100,4 | 1108,2 | 2922 |
| (X2) Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota (Persen) | 67,52 | 73,67 | 73,36 | 86,62 |
| (X3) PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah) | 14687 | 45460 | 24271 | 317792 |
| (X4) Harapan Lama Sekolah (Tahun) | 11,98 | 13,58 | 13,49 | 15,79 |
| (X5) Angka Harapan Hidup (Tahun) | 67,81 | 72,66 | 73,45 | 75,19 |
Jumlah penduduk tiap Kota/Kabupaten di Jawa Timut pada tahun 2024 memiliki jumlah penduduk paling sedikit sejumlah 137,4 ribu jiwa dan paling banyak sejumlah 2922 ribu jiwa, dengan rata-rata jumlah penduduk sebanyak 1,075,758 dan nilai tengah (median) sebanyak 1100,4 ribu jiwa. Perbedaan yang cukup besar antara nilai minimum dan maksimum mengindikasikan adanya variasi yang signifikan antar data dalam variabel ini. Secara keseluruhan, nilai-nilai di sekitar mean dan median menunjukkan bahwa sebagian besar data mungkin terdistribusi dengan relatif merata di sekitar nilai tengah.
Tingkat Partisipasi Angkatan Kerja (TPAK) diukur dalam persentase dan menunjukkan tingkat partisipasi angkatan kerja di setiap kabupaten/kota. Nilai minimum TPAK adalah 67,52%, dan nilai maksimum mencapai 86,62%, dengan rata-rata 73,67% dan median 73,36%. Rata-rata dan median yang hampir sama menunjukkan bahwa TPAK di setiap daerah relatif simetris dan sebagian besar daerah memiliki nilai TPAK di sekitar 73%.
Produk Domestik Regional Bruto (PDRB) per kapita dihitung dalam ribu rupiah dan menggambarkan rata-rata pendapatan per kapita di kabupaten/kota di Provinsi Jawa Timur. Nilai minimum PDRB per kapita adalah 14687 ribu rupiah, sedangkan nilai maksimum mencapai 317792 ribu rupiah. Nilai rata-rata PDRB per kapita sebesar 45460 ribu rupiah, dengan median sebesar 24271 ribu rupiah.
harapan lama sekolah dalam tahun di setiap kabupaten/kota. Nilai minimum harapan lama sekolah adalah 11.98 tahun dan nilai maksimum mencapai 15.79 tahun, dengan rata-rata sebesar 13.58 tahun dan median 13.49 tahun. Rata-rata yang mendekati median menunjukkan distribusi yang relatif simetris, dengan sebagian besar daerah memiliki harapan lama sekolah sekitar 13 tahun.
angka harapan hidup dalam tahun di kabupaten/kota di Provinsi Jawa Timur. Nilai minimum angka harapan hidup adalah 67,81 tahun, dan nilai maksimum adalah 75,19 tahun, dengan rata-rata 72,66 tahun dan median 73,45 tahun. Rata-rata yang sedikit lebih rendah dari median menunjukkan sedikit skewness (kemiringan) ke bawah, tetapi perbedaannya kecil, yang berarti sebagian besar daerah memiliki angka harapan hidup di sekitar 72 tahun.
3.2 Pengujian Asumsi
3.2.1 Uji Kaiser Meyer Olkin (KMO)
Berikut adalah hasil dari Uji KMO:
| Variabel | Uji KMO |
|---|---|
| Jumlah Penduduk (ribuan jiwa) | 0,23 |
| Tingkat Partisipasi Angkatan Kerja (TPAK) (%) | 0,68 |
| PDRB Perkapita (Ribu Rupiah) | 0,70 |
| Harapan Lama Sekolah (Tahun) | 0,61 |
| Angka Harapan Hidup (Tahun) | 0,72 |
Berdasarkan hasiln uji KMO yang sudah dilakukan didapatkan bahwa terdapat empat variabel yang memiliki nilai uji KMO lebih besar dari 0.5 yaitu Tingkat Partisipasi Angakatan Kerja (TPAK) bernilai 0.68, PDRB Perkapita berniai 0.70, Harapan Lama Sekolah bernilai 0.61, dan Angka Harapan Hidup yang bernilai 0.72, sehingga dapat disimpulkan bahwa variabel tersebut telah representatif atau mewakili populasi. Sementara pada variabel Jumlah Penduduk memiliki nilai uji KMO yang kurang dari 0.5 yaitu sebesar 0.23, sehingga pada variabel Jumlah Penduduk tidak digunakan pada analisis lanjutan.
3.2.2 Uji Non-Multikolinearitas
> korelasi
X1 X2 X3 X4 X5
X1 1.000000000 -0.1040108 0.02555656 -0.09309549 -0.003018157
X2 -0.104010794 1.0000000 -0.30554332 -0.41601162 -0.149327658
X3 0.025556562 -0.3055433 1.00000000 0.59576462 0.354077320
X4 -0.093095486 -0.4160116 0.59576462 1.00000000 0.478427348
X5 -0.003018157 -0.1493277 0.35407732 0.47842735 1.000000000Berdasarkan dari hasil output korelasi tersebut, dapat diketahui bahwa semua korelasi antar variabel bernilai kurang dari 0.8, sehingga dapat disimpulkan bahwa tidak terjadi multikolinearitas antar variabel.
3.3 Koefisien Korelasi Cophenetic
Koefisien korelasi Cophenetic digunakan sebagai dasar dalam penentuan metode cluster terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi mendekati 1 yang dipilih sebagai metode terbaik dalam penelitian ini. Berikut merupakan tabel nilai korelasi dari setiap metode:
| Metode | Nilai Korelasi |
|---|---|
| Single Linkage | 0.9731064 |
| Average Linkage | 0.9851773 |
| Complete Linkage | 0.9760977 |
| Centroid | 0.9840166 |
| Ward | 0.5696702 |
Berdasarkan tabel tersebut dapat diketahui bahwa nilai korelasi yang mendekati 1 adalah metode average linkage. Sehingga dapat disimpulkan bahwa metode terbaik yang akan dipilih dalam proses analisis cluster adalah metode average linkage.
3.4 Analisis Cluster Metode Average Linkage
Metode average linkage merupakan metode analisis yang digunakan berdasarkan rata-rata jarak dari semua objek pengamatan dari satu cluster terhadap semua objek pengamatan cluster lain. Ukuran jarak yang digunakan dalam analisis ini adalah jarak Euclidean. Dalam memilih dan menentukan jumlah cluster yang optimal pada analisis ini adalah dengan menggunakan indeks validitas cluster, yaitu indeks connectivity, indeks dunn, dan indeks silhoutte. Berikut tabel yang menyajikan hasil penentuan jumlah cluster optimal dengan metode average linkage.
| Indeks | Score | Method | Clusters |
|---|---|---|---|
| Connectivity | 6.1258 | hierarchical | 3 |
| Dunn | 0.3896 | hierarchical | 3 |
| Silhouette | 0.3766 | hierarchical | 3 |
Berdasarkan tabel, dapat dilihat bahwa hasil indeks Connectivity, Dunn, dan Silhoutte terpilih jumlah cluster sebanyak tiga sebagai cluster optimal pada metode pengelompokan average linkage berdasarkan faktor-faktor yang mempengaruhi tingkat kesejahteraan rakyat.
3.5 Dendogram
Hasil analisis cluster membentuk sebuah grafik cluster dendrogram
seperti pada gambar berikut ini.
Berdasarkan grafik dendrogram tersebut, didapatkan bahwa hasil pengelompokan metode average linkage Kabupaten/Kota di Provinsi Jawa Timur berdasarkan indikator tingkat kesejahteraan rakyat terbentuk menjadi 3 cluster. Cluster pertama ditandai dengan grafik dendrogram yang berwarna orange yang beranggotakan Kota Keidri. Cluster ketiga ditandai dengan grafik dendrogram yang berwarna hijau yang beranggotakan Kabupaten Pacitan. Sementara pada cluster kedua ditandai dengan grafik dendogram yang berwarna biru yang teridiri dari 36 Kota atau Kabupaten yang ada di Jawa Timur.
3.6 Interpretasi Hasil
Anggota cluster sudah terbentuk sesuai dengan jumlah cluster optimal yang telah ditentukan. Selanjutnya, memberikan ciri spesifik untuk menggambarkan isi dari cluster tersebut karena setiap cluster pastinya memiliki karakteristik yang berbeda berdasarkan faktor-faktor yang memengaruhi Tingkat Pengangguran Terbuka pada Kabupaten/Kota di Provinsi Jawa Timur. Karakteristik dari tiap cluster dapat ditentukan melalui nilai rata-rata tiap variabel. Berikut tabel yang disajikan untuk nilai rata-rata tiap variabel pada masing-masing cluster dengan menggunakan metode average linkage.
> aggregate(data[,3:6],list(idclus),mean)
Group.1 X2 X3 X4 X5
1 1 86.62114 21707.00 12.6900 73.0900
2 2 73.38978 38554.64 13.5475 72.5825
3 3 70.73886 317792.00 15.7100 74.9100Berdasarkan output tersebut dapat diketahui bahwa:
Pada cluster pertama memiliki nilai X2 (TPAK) tinggi, X3 (PDRB per kapita) rendah, X4 (harapan lama sekolah) rendah, dan X5 (angka harapan hidup) sedang, maka dapat dinyatakan bahwa kabupaten/kota dalam cluster ini cenderung memiliki tingkat kesejahteraan yang cukup rendah. Hal ini mungkin disebabkan oleh pendapatan per kapita yang rendah, rendahnya tingkat pendidikan, dan kualitas hidup yang rendah. meskipun memiliki kesempatan kerja yang tinggi.
Cluster kedua memiliki nilai X2 sedang, X3 sedang, X4 sedang, dan X5 rendah, maka dapat dintayakan bahwa kabupaten/kota dalam cluster ini memiliki tingkat kesejahteraan yang relatif sedang. Kondisi sosial ekonomi dan demografi di kabupaten/kota ini cenderung lebih seimbang dibandingkan dengan cluster 1 dan 3.
Cluster ketiga memiliki nilai X2 rendah, X3 sedang, X4 tinggi, dan X5 tinggi, maka dapat diinterpretasikan bahwa kabupaten/kota dalam cluster ini cenderung memiliki tingkat kesejahteraan yang tinggi. Hal ini mungkin disebabkan oleh pendapatan per kapita yang tinggi, tingkat pendidikan yang tinggi, dan kualitas hidup yang baik.
4 PENUTUP
4.1 Kesimpulan
Berdasarkan hasil analisis data dan pembahasan yang telah dilakukan, dapat diambil beberapa kesimpulan yakni sebagai berikut:
Analisis klaster pada penelitian ini berhasil mengelompokkan kabupaten/kota di Jawa Timur ke dalam beberapa kelompok berdasarkan indikator tingkat kesejahteraan rakyat. Pengelompokan ini menunjukkan bahwa terdapat perbedaan signifikan dalam distribusi tingkat kesejahteraan rakyat antar kabupaten/kota di Jawa Timur.
Hasil klasterisasi yang sudah dilakukan, wilayah dengan tingkat kesejahteraan lebih rendah berada di Kabupaten Pacitan. Hal ini memungkinkan pemerintah daerah untuk melakukan intervensi yang lebih terarah pada wilayah-wilayah dengan klaster kesejahteraan rendah.
Metode analisis klaster hierarki, terutama dengan pendekatan average linkage, mampu memberikan struktur yang jelas dalam pengelompokan kabupaten/kota berdasarkan tingkat kesejahteraan rakyat. Metode ini cukup efektif untuk mengidentifikasi kelompok-kelompok yang homogen berdasarkan indikator sosial-ekonomi seperti kesejahteraan rakyat.
4.2 Saran
Berdasarkan hasil klasterisasi, disarankan agar pemerintah provinsi dan kabupaten/kota di Jawa Timur menerapkan kebijakan pembangunan yang disesuaikan dengan karakteristik klaster. Misalnya, wilayah yang tergolong dalam klaster kesejahteraan rendah perlu mendapatkan prioritas dalam alokasi bantuan sosial, pelatihan keterampilan, dan program pemberdayaan ekonomi
Disarankan agar data kesejahteraan dikumpulkan dan diperbarui secara berkala. Dengan data terbaru, analisis klaster dapat diperbaharui untuk memberikan hasil yang relevan dan akurat, sehingga pengambilan kebijakan dapat lebih responsif terhadap perubahan kondisi sosial ekonomi
Pada penelitian selanjutnya, disarankan untuk melakukan studi lanjutan menggunakan metode klasterisasi lain atau dengan indikator tambahan, seperti tingkat pendidikan dan akses terhadap fasilitas kesehatan. Hal ini dapat memperkaya analisis dan memberikan gambaran yang lebih komprehensif terkait indikator tingkat kesejahteraan rakyat di Jawa Timur
4.3 Daftar Pustaka
Badan Pusat Statistik. (2024). Angka Harapan Hidup (Tahun), 2020-2024. Pada https://www.bps.go.id/id/statisticstable/2/NDU1IzI=/angkaharapan-hidup--ahh--menurut-kabupaten-kota-dan-jenis-kelamin.html (diakses 01 Desember 2025).
Badan Pusat Statistik. (2024). Harapan Lama Sekolah (Tahun), 2019-2024. Pada https://jatim.bps.go.id/id/statisticstable/2/NDY4IzI=/harapan-lama-sekolah.html (diakses 01 Desember 2025).
Badan Pusat Statistik. (2024). Jumlah Penduduk Menurut Jenis Kelamin dan Kabupaten/Kota Provinsi Jawa Timur (Ribuan Jiwa), 2019-2024. Pada https://jatim.bps.go.id/id/statisticstable/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk--laju-pertumbuhan-penduduk--distribusi-persentase-penduduk--kepadatan-penduduk--rasio-jenis-kelamin-penduduk-menurut-kabupaten-kota-di-provinsi-jawa-timur--2024.html?year=2024 (diakses 01 Desember 2025).
Badan Pusat Statistik. (2024). PDRB Perkapita Menurut Kabupaten/Kota di Provinsi Jawa Timur (Ribu Rupiah), 2021-2024 Pada https://jatim.bps.go.id/id/statisticstable/3/T1hBNVYwVjBjMU5oTTA5SFVuWjRVSGhuYUhsV1p6MDkjMw==/produk-domestik-regional-bruto-per-kapita-atas-dasar-harga--konstan-2010-menurut-kabupaten-kota-di-provinsi-jawa-timur--ribu-rupiah---2020.html?year=2024 (diakses 01 Desember 2025).
Badan Pusat Statistik. (2024). Tingkat Partisipasi Angkatan Kerja (TPAK) Kabko di Jawa Timur, 2021-2024 Pada https://probolinggokab.bps.go.id/id/statisticstable/1/MTQ4MSMx/angkatan-kerja-dan-tingkat-partisipasi-angkatan-kerja--tpak--di-jawa-timur-menurut-kabupaten-kota--2024.htm (diakses 01 Desember 2025).
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2010). Multivariate Data Analysis (7th ed.). Pearson.
Johnson, R.A and Wichern, D.W; “Applied Multivariate Statistical Analysis”, 6 th edition, Pearson Prentice Hall, Upper Saddle River, 2007.