- 1 PENDAHULUAN
- 2 SOURCE CODE
- 3 HASIL DAN PEMBAHASAN
- 4 KESIMPULAN
- 5 DAFTAR PUSTAKA
1 PENDAHULUAN
1.1 Latar Belakang
Menurut Pratowo (2012), Indeks Pembangunan Manusia (IPM) merupakan ukuran yang sering digunakan untuk menggambarkan kualitas hidup masyarakat suatu wilayah dengan mempertimbangkan aspek pendidikan, kesehatan, dan ekonomi. IPM memberikan gambaran yang komprehensif tentang kesejahteraan masyarakat, yang mencakup berbagai dimensi pembangunan seperti sektor pendidikan, kesehatan, dan ekonomi. Dalam konteks pembangunan yang berkelanjutan, tidak hanya sektor-sektor tersebut yang harus berkembang, tetapi masyarakat juga diharapkan dapat berperan aktif dalam meningkatkan pembangunan.
Di Jawa Timur, meskipun IPM secara keseluruhan mengalami peningkatan, terdapat perbedaan yang signifikan antar kabupaten/kota. Beberapa wilayah menunjukkan IPM yang rendah, dipengaruhi oleh berbagai faktor struktural dan sosial-ekonomi. Tingginya Tingkat Pengangguran Terbuka (TPT), rendahnya Tingkat Partisipasi Angkatan Kerja (TPAK), serta perbedaan daya beli masyarakat yang tercermin dari Tingkat Per Kapita Riil adalah beberapa faktor yang mempengaruhi rendahnya IPM. Kabupaten/kota dengan IPM rendah umumnya mengalami permasalahan seperti tingginya angka pengangguran, rendahnya tingkat partisipasi angkatan kerja, serta rendahnya pendapatan per kapita yang berhubungan dengan keterbatasan akses terhadap pendidikan dan layanan kesehatan yang berkualitas.
Analisis cluster digunakan untuk mengelompokkan IPM di Kabupaten/Kota Jawa Timur sehingga kita dapat melihat mengetahui karakteristik IPM yang ada di wilayah tersebut. Hal ini akan sangat membantu pemerintah dalam merumuskan kebijakan pembangunan yang tepat sasaran sesuai dengan kondisi masing-masing wilayah, baik dalam hal penanggulangan pengangguran, peningkatan partisipasi angkatan kerja, maupun peningkatan pendapatan/pengeluaran masyarakat.
1.2 Rumusan Masalah
- Bagaimana pengelompokkan IPM di Jawa Timur tahun 2023 berdasarkan indikator ekonomi menggunakan analisis cluster?
- Apa saja karakteristik utama dari cluster kabupaten/kota dengan IPM tinggi, dan rendah di Jawa Timur?
1.3 Tujuan
- Mengelompokkan IPM di Jawa Timur tahun 2023 berdasarkan indikator ekonomi menggunakan analisis cluster.
- Mengidentifikasi karakteristik utama yang membedakan cluster IPM tinggi, dan rendah di Jawa Timur.
1.4 Manfaat
- Bagi Penulis
Menambah pemahaman dan keterampilan dalam menganalisis data menggunakan analisis cluster, khususnya dalam mengelompokkan IPM di Jawa Timur berdasarkan indikator ekonomi.
- Bagi Pembaca
Memberikan wawasan mengenai pola atau karakteristik pengelompokan IPM di Jawa Timur berdasarkan indikator ekonomi. Serta dapat dijadikan referensi bagi mahasiswa lain yang mempelajari analisis data sosial-ekonomi, khususnya dalam penerapan analisis cluster.
1.5 Data
Studi ini menggunakan data sekunder yang diperoleh dari website Badan Pusat Statistik Jawa Timur Tahun 2023 mengenai Indeks Pembangunan Manusia (IPM) dengan beberapa indikator ekonomi meliputi:
Tingkat Pengangguran Terbuka (TPT), yang merupakan salah satu indikator sosial ekonomi yang memengaruhi tingkat kesejahteraan masyarakat (\(X_1\))
Tingkat Partisipasi Angkatan Kerja (TPAK), yang menggambarkan tingkat keterlibatan masyarakat usia produktif dalam aktivitas ekonomi (\(X_2\))
Tingkat Perkapita Riil, yang merupakan total pendapatan/pengeluaran masyarakat di masing-masing kabupaten/kota dibagi jumlah penduduk dalam ribu rupiah (\(X_3\))
1.6 Tinjauan Pustaka
1.6.1 Pengertian Analisis Cluster
Analisis cluster (cluster analysis) adalah metode statistik yang digunakan untuk mengelompokkan objek-objek atau data berdasarkan kesamaan karakteristik. Tujuan utama dari analisis cluster adalah untuk mengidentifikasi kelompok atau cluster yang memiliki kemiripan tinggi.
1.6.2 Uji Asumsi
1.6.2.1 Uji Sampel representatif
Sampel representatif yaitu keadaan saat suatu sampel yang diambil oleh peneliti dapat mempresentasikan atau telah cukup mewakilkan populasi yang diamati (Supranto, 2004). Asumsi ini dapat dilakukan dengan uji Kaiser Mayer Olkin (KMO). Jika nilai KMO > 0,5, maka sampel mewakili populasi sehingga layak untuk dilakukan analisis cluster (Yamin dan Kurniawan, 2011:122). \[ KMO = \frac{\sum_{i=1}^{p} \sum_{j=1}^{p} r_{ij}^2}{\sum_{i=1}^{p} \sum_{j=1}^{p} r_{ij}^2 + \sum_{i=1}^{p} \sum_{j=1}^{p} a_{ij}^2} \]
\[ a_{ij} = \frac{-r_{ij}}{\sqrt{r_{i \cdot j} \cdot r_{j \cdot i}}} \]
dengan,
\(n\): banyak variabel
\(r_{ij}\): korelasi antara variabel \(x_i\) dan \(x_j\)
\(a_{ij}\): korelasi parsial antara variabel \(x_i\) dan \(x_j\)
\(v_{ij}\): invers matriks korelasi antara variabel \(x_i\) dan \(x_j\)
1.6.2.2 Uji Non-Multikolinearitas
Uji non-multikolinearitas dalam analisis cluster digunakan untuk memastikan bahwa variabel yang digunakan dalam analisis tidak memiliki hubungan linier yang sangat kuat. Menurut Gujarati (1995) Apabila nilai mutlak dari korelasi lebih dari 0.8 maka dapat dikatakan terjadi multikolinearitas.
\[ r_{xy} = \frac{s_{xy}}{\sqrt{s_{xx} \cdot s_{yy}}} \]
\[ r_{xy} = \frac{\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \overline{X})^2} \cdot \sqrt{\sum_{i=1}^{n} (Y_i - \overline{Y})^2}} \]
1.6.3 Jarak Analisis Cluster
1.6.3.1 Jarak Euclidean
Jarak Euclidean adalah rumus untuk menghitung jarak antara dua titik dalam bidang kartesius. Secara ilmiah, jarak Euclidean adalah jarak lurus antara dua titik dalam ruang Euclidean n-dimensi. Jarak ini dihitung berdasarkan teorema Pythagoras dan dirumuskan sebagai berikut: \[ d_{\text{Euclidean}}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} \]
dengan,
\(n =\) jumlah dimensi dalam data
\(x =\) koordinat titik pertama di ruang \(n\)-dimensi \((x_1, x_2, \ldots, x_n)\)
\(y =\) koordinat titik kedua di ruang \(n\)-dimensi \((y_1, y_2, \ldots, y_n)\)
1.6.3.2 Jarak Manhattan
Jarak manhattan mengukur jarak antara dua titik dalam ruang n-dimensi dengan menghitung jumlah perbedaan absolut antara koordinat-koordinatnya. \[ d_{\text{Manhattan}}(x, y) = \sum_{i=1}^{n} |x_i - y_i| \] dengan,
\(n\): jumlah dimensi dalam data
\(x = (x_1, x_2, \ldots, x_n)\): koordinat titik pertama di ruang \(n\)-dimensi
\(y = (y_1, y_2, \ldots, y_n)\): koordinat titik kedua di ruang \(n\)-dimensi
\(|x_i - y_i|\): jarak absolut antara koordinat \(x_i\) dan \(y_i\) pada dimensi ke-\(i\)
\(d_{\text{Manhattan}}(x, y)\): jarak Manhattan antara titik \(x\) dan \(y\)
1.6.3.3 Jarak Mahalanobis
Jarak mahalanobis bisa dipakai ketika terdapat korelasi pada data, karena memperhitungkan adanya korelasi dalam data. \[ d_{\text{Mahalanobis}}(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)} \]
dengan,
\(x\): vektor koordinat titik pertama (\(x_1, x_2, \ldots, x_n\))
\(y\): vektor koordinat titik kedua (\(y_1, y_2, \ldots, y_n\))
\((x - y)\): selisih antara dua vektor \(x\) dan \(y\)
\(S\): matriks kovarians dari data
\(S^{-1}\): invers dari matriks kovarians \(S\)
\((x - y)^T\): transpos dari vektor selisih \((x - y)\)
\(d_{\text{Mahalanobis}}(x, y)\): jarak Mahalanobis antara dua titik \(x\) dan \(y\)
1.6.4 Jenis Analisis Cluster
1.6.4.1 Analisis Cluster Hierarki
Analisis cluster hierarki adalah metode statistik yang digunakan untuk mengelompokkan objek atau data berdasarkan kemiripan atau kedekatannya. Proses ini menghasilkan struktur hierarkis yang menggambarkan bagaimana objek-objek tersebut bisa dikelompokkan menjadi cluster yang kemudian dapat divisualisasikan dalam bentuk dendrogram. Analisis ini sangat berguna ketika kita ingin melihat hubungan antar objek dalam beberapa tingkat kedekatan atau ketika jumlah cluster tidak diketahui sebelumnya.
Metode analisis cluster meliputi:
- Single Linkage
Pada metode single linkage, jarak antara dua cluster dihitung berdasarkan jarak terpendek antara satu objek di cluster pertama dan satu objek di cluster berikutnya. \[ d_{ij} = \min(d_{pj}, d_{qj}) \] dengan,
\(d_{ij}\): jarak antara dua kluster \(i\) dan \(j\)
\(d_{pj}\): jarak antara elemen \(p\) dari kluster \(i\) dan elemen \(j\) dari kluster \(j\)
\(d_{qj}\): jarak antara elemen \(q\) dari kluster \(i\) dan elemen \(j\) dari kluster \(j\)
\(\min\): fungsi minimum, yaitu memilih nilai terkecil antara \(d_{pj}\) dan \(d_{qj}\)
- Complete Linkage
Pada metode single linkage, jarak antara dua cluster dihitung berdasarkan jarak terjauh antara satu objek di cluster pertama dan satu objek di cluster berikutnya. \[ d_{ij} = \max(d_{pj}, d_{qj}) \] dengan,
\(d_{ij}\): jarak antara dua kluster \(i\) dan \(j\)
\(d_{pj}\): jarak antara elemen \(p\) dari kluster \(i\) dan elemen \(j\) dari kluster \(j\)
\(d_{qj}\): jarak antara elemen \(q\) dari kluster \(i\) dan elemen \(j\) dari kluster \(j\)
\(\max\): fungsi maksimum, yaitu memilih nilai terbesar antara \(d_{pj}\) dan \(d_{qj}\)
- Average Linkage
Dalam metode ini, jarak antar dua cluster dihitung sebagai rata-rata jarak antara semua pasangan objek yang ada di kedua cluster tersebut. \[ d_{ij} = \frac{1}{n_i \times n_j} \sum_{i=1}^{n_i} \sum_{j=1}^{n_j} \sqrt{\sum_{k=1}^{p} (x_{ik} - y_{jk})^2} \]
dengan,
\(d_{ij}\): jarak antara dua kluster \(i\) dan \(j\)
\(n_i\): jumlah elemen dalam kluster \(i\)
\(n_j\): jumlah elemen dalam cluster \(j\)
\(x_{ik}\): nilai fitur \(k\) dari elemen \(i\) pada cluster \(i\)
\(y_{jk}\): nilai fitur \(k\) dari elemen \(j\) pada cluster \(j\)
\(p\): jumlah total fitur yang digunakan untuk menghitung jarak
\(\sqrt{\sum_{k=1}^{p} (x_{ik} - y_{jk})^2}\): jarak Euclidean antara elemen \(i\) dan elemen \(j\) berdasarkan fitur \(k\)
- Ward’s Method
Jarak cluster yang terbentuk merupakan jumlah kuadrat diantara dua cluster tersebut. \[ ESS = \sum_{k=1}^{K} \left[ \sum_{i=1}^{n_k} \sum_{j=1}^{p} X_{ijk}^2 - \frac{1}{n_k} \sum_{j=1}^{p} \left( \sum_{i=1}^{n_k} X_{ijk} \right)^2 \right] \]
dengan,
\(ESS\): Error Sum of Squares (jumlah kuadrat kesalahan)
\(K\): jumlah cluster atau kelompok
\(n_k\): jumlah elemen dalam kluster \(k\)
\(p\): jumlah fitur yang digunakan untuk perhitungan
\(X_{ijk}\): nilai elemen ke-\(i\) pada fitur ke-\(j\) dalam cluster \(k\)
\(\sum_{i=1}^{n_k} \sum_{j=1}^{p} X_{ijk}^2\): jumlah kuadrat nilai elemen dalam cluster \(k\)
\(\frac{1}{n_k} \sum_{j=1}^{p} \left( \sum_{i=1}^{n_k} X_{ijk} \right)^2\): rata-rata kuadrat dari jumlah elemen dalam cluster \(k\)
- Centroid Method
Centroid Method dalam analisis cluster hierarki menghitung jarak antar cluster berdasarkan posisi centroid, yaitu titik rata-rata dari semua objek dalam cluster tersebut. Jarak antar cluster dihitung dengan mengukur jarak antara centroid kedua cluster menggunakan ukuran jarak seperti Euclidean distance. Cluster yang memiliki jarak centroid terkecil akan digabungkan. Berikut adalah rumus menghitung centroid cluster A dan B : \[ C_A = \left( \frac{1}{n_A} \sum_{i=1}^{n_A} x_{Ai}, \frac{1}{n_A} \sum_{i=1}^{n_A} y_{Ai}, \dots \right) \]
\[ C_B = \left( \frac{1}{n_B} \sum_{i=1}^{n_B} x_{Bi}, \frac{1}{n_B} \sum_{i=1}^{n_B} y_{Bi}, \dots \right) \]
\[ d(C_A, C_B) = \sqrt{\sum_{i=1}^{n} (x_{Ai} - x_{Bi})^2} \]
1.6.4.2 Analisis Cluster Non-Hierarki
- K-Means Clustering
Metode pada Non-Hirarki dilakukan jika pemilihan banyaknya cluster sudah ditentukan sebelumnya. Dalam pendekatan ini, data dikelompokkan ke dalam jumlah cluster yang telah diinisialisasikan di awal. Prosesnya dimulai dengan menginisialisasi jumlah cluster, kemudian hitung jarak antara objek dengan pusat cluster. Metode ini memerlukan beberapa kali iterasi hingga cluster tidak berubah. Hal ini dikarenakan hasil cluster sangat bergantung pada inisialisasi cluster awal.
1.6.5 Indeks Validitas
- Indeks Connectivity
Indeks Connectivity mengukur sejauh mana elemen-elemen dalam suatu sistem atau jaringan terhubung satu sama lain. Semakin kecil nilai indeks maka jumlah cluster yang terbentuk semakin optimal. \[ C = \frac{1}{k(k-1)} \sum_{i \neq j} \frac{d(C_i, C_j)}{\max(\delta(C_i), \delta(C_j))} \] dengan,
\(k\): Jumlah kluster
\(d(C_i, C_j)\): Jarak antara cluster \(C_i\) dan cluster \(C_j\)
\(\delta(C_i)\): Diameter cluster \(C_i\), yaitu jarak maksimum antara dua elemen dalam cluster \(C_i\)
\(\max(\delta(C_i), \delta(C_j))\): Nilai maksimum dari diameter cluster \(C_i\) dan \(C_j\)
\(\sum_{i \neq j}\): Penjumlahan dilakukan untuk setiap pasangan cluster yang berbeda, yaitu cluster \(i\) dan cluster \(j\)
- Indeks Silhouette
Indeks Silhouette digunakan untuk mengevaluasi atau mengukur seberapa baik objek dikelompokkan ke dalam klaster yang benar. semakin besar nilai indeks maka jumlah cluster yang terbentuk semakin optimal. \[ S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} \]
dengan,
\(a(i)\): Jarak rata-rata antara elemen \(i\) dan elemen lainnya dalam cluster yang sama
\(b(i)\): Jarak rata-rata antara elemen \(i\) dan elemen yang paling dekat dari cluster lain
\(\max\{a(i), b(i)\}\): Nilai maksimum antara jarak rata-rata dalam cluster \(a(i)\) dan jarak rata-rata ke cluster terdekat \(b(i)\)
- Indeks Dunn
Indeks Dunn menghitung rasio antara jarak antar cluster yang paling dekat dengan diameter cluster terbesar. Semakin besar nilai indeks maka jumlah cluster yang terbentuk semakin optimal. \[ D = \frac{\min_{1 \leq i \neq j \leq k} d(C_i, C_j)}{\max_{1 \leq i \leq k} \delta(C_i)} \] dengan,
\(k\): Jumlah cluster
\(d(C_i, C_j)\): Jarak antara cluster \(C_i\) dan cluster \(C_j\)
\(\min_{1 \leq i \neq j \leq k} d(C_i, C_j)\): Jarak minimum antara setiap pasangan cluster yang berbeda
\(\delta(C_i)\): Diameter kluster \(C_i\), yaitu jarak terbesar antara dua elemen dalam cluster \(C_i\)
\(\max_{1 \leq i \leq k} \delta(C_i)\): Nilai maksimum dari semua cluster
2 SOURCE CODE
2.1 Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)Berikut penjelasan singkat untuk setiap library:
psych: Analisis faktor dan reliabilitas
GPArotation: Rotasi matriks dalam analisis faktor
clValid: Validasi cluster
ggplot2: Visualisasi data menggunakan “Grammar of Graphics”
cluster: Analisis kluster (k-means, hierarchical)
factoextra: Visualisasi hasil PCA dan analisis cluster
tidyverse: Paket untuk manipulasi dan visualisasi data
car: Analisis regresi dan diagnostik model
readxl: Membaca file Excel ke dalam R
2.2 Impor Data
> data <- read_excel("D:/Data IPM Jatim 2023.xlsx")
> data<-data.frame(data)
> View(data)
> library(rmarkdown)
> paged_table(data)Impor data dari file Excel ke dalam R menggunakan read_excel(), lalu mengonversinya menjadi data frame dengan data.frame(). Fungsi View() digunakan menampilkan data dalam tampilan tabel di RStudio. Dengan package rmarkdown,gunakan paged_table() untuk menampilkan data dalam format tabel.
2.3 Statistika Deskriptif
> #Statistika Deskriptif
> statdes <- summary(data)
> statdes
Daerah IPM TPT TPAK
Length:38 Min. :64.13 Min. :1.710 Min. :66.89
Class :character 1st Qu.:70.22 1st Qu.:4.082 1st Qu.:70.24
Mode :character Median :72.79 Median :4.665 Median :72.50
Mean :73.68 Mean :4.663 Mean :73.16
3rd Qu.:76.76 3rd Qu.:5.600 3rd Qu.:75.23
Max. :83.45 Max. :8.050 Max. :81.64
Tingkat.Perkapita.Riil
Min. : 9363
1st Qu.:10720
Median :11924
Mean :12287
3rd Qu.:13419
Max. :18977
> str(data)
'data.frame': 38 obs. of 5 variables:
$ Daerah : chr "Kabupaten Pacitan" "Kabupaten Ponorogo" "Kabupaten Trenggalek" "Kabupaten Tulungagung" ...
$ IPM : num 70.2 72.5 71.7 74.6 72.5 ...
$ TPT : num 1.83 4.66 4.52 5.65 4.91 5.79 5.7 3.67 4.01 4.75 ...
$ TPAK : num 81.6 75.9 80.7 74.7 73.5 ...
$ Tingkat.Perkapita.Riil: num 9681 10658 10465 11565 11499 ...Melihat ringkasan statistik dasar dari data dengan summary(data), seperti rata-rata, median, dan quartil, yang kemudian disimpan di statdes dan ditampilkan. Sementara itu, str(data) digunakan memeriksa struktur data, termasuk tipe variabel dan jumlah elemen di setiap kolom.
2.4 Uji Asumsi
2.4.1 Uji Sampel Representatif
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA = 0.65
MSA for each item =
IPM TPT TPAK
0.59 0.86 0.59
Tingkat.Perkapita.Riil
0.61 Menghitung nilai KMO pada kolom 2 hingga 5 dari data untuk menilai apakah data cocok menggunakan analisis cluster.
2.4.2 Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
IPM TPT TPAK Tingkat.Perkapita.Riil
IPM 1.0000000 0.6194610 -0.2933302 0.9186877
TPT 0.6194610 1.0000000 -0.4662070 0.6333147
TPAK -0.2933302 -0.4662070 1.0000000 -0.4205865
Tingkat.Perkapita.Riil 0.9186877 0.6333147 -0.4205865 1.0000000Melakukan uji korelasi Pearson pada kolom 2 hingga 5 dari data menggunakan fungsi cor() yang disimpan dalam korelasi. Uji ini berguna untuk mendeteksi multikolinearitas.
2.5 Standarisasi data
> datastand <- scale(data[,2:5])
> datastand
IPM TPT TPAK Tingkat.Perkapita.Riil
[1,] -0.690627681 -1.982669548 2.25124822 -1.15146131
[2,] -0.233541819 -0.002025951 0.72224083 -0.71978250
[3,] -0.385903773 -0.100008320 2.00703176 -0.80505784
[4,] 0.183969509 0.690849371 0.40900668 -0.31903257
[5,] -0.235520546 0.172942564 0.09046348 -0.34819409
[6,] 0.055352275 0.788831740 -1.17309124 -0.14804004
[7,] -0.300818526 0.725843074 -0.66342211 -0.66101762
[8,] -1.149692270 -0.694901273 -1.23945441 -1.13422950
[9,] -0.997330316 -0.456944092 -0.22807973 -0.88812398
[10,] -0.211775826 0.060962714 1.56107127 0.23547808
[11,] -1.125947550 -0.358961723 0.32671635 -0.45600333
[12,] -0.894436529 -0.974850898 0.56296923 -0.70034149
[13,] -1.165522084 -0.995847120 -0.97665626 -0.23464091
[14,] -0.670840415 0.571870780 -0.51742314 -0.46307279
[15,] 1.557205822 2.370547121 -0.93949289 1.33610440
[16,] 0.366012363 0.004972789 -0.17233467 0.52134931
[17,] 0.181990782 -0.002025951 -0.33160627 -0.12727351
[18,] 0.005884108 0.011971530 -1.66417868 0.23591992
[19,] -0.140541666 0.333913599 -0.17764372 -0.01239481
[20,] 0.342267643 -0.351962983 1.41241778 0.09187971
[21,] -0.239477999 -1.576742592 -0.98992890 -0.17234131
[22,] -0.560031721 -0.023022173 0.30017109 -0.66764524
[23,] -0.660946781 -0.183993208 0.41697026 -0.49179246
[24,] 0.168139696 0.557873299 0.50987870 -0.11843668
[25,] 0.850800399 1.509702024 -0.80676655 0.69941129
[26,] -1.569182325 1.061782624 -0.44309639 -1.25882871
[27,] -1.889736047 -1.359781633 0.10108158 -1.29196679
[28,] -1.131883730 -2.045658214 1.05671120 -1.26678185
[29,] -1.003266496 -2.066654436 1.51328979 -1.09578932
[30,] 1.337567161 -0.421950389 -0.35284248 0.43695765
[31,] 1.375162968 0.403901005 -0.23869784 0.99897960
[32,] 1.921291530 1.495704543 -1.48101634 2.18046285
[33,] 0.346225096 -0.093009579 -0.67669474 0.31456765
[34,] 0.690523538 0.683850630 0.66118672 0.86731093
[35,] 1.264354274 0.046965233 -0.17498919 0.94330761
[36,] 1.786738116 0.830824183 -1.02709227 2.13318584
[37,] 1.933163890 1.467709580 -1.17574576 2.95589407
[38,] 0.890374932 -0.100008320 1.54779864 0.58143971
attr(,"scaled:center")
IPM TPT TPAK
73.680263 4.662895 73.159211
Tingkat.Perkapita.Riil
12287.052632
attr(,"scaled:scale")
IPM TPT TPAK
5.053755 1.428828 3.767150
Tingkat.Perkapita.Riil
2263.256801
> rownames(datastand) <- 1:nrow(datastand)Mengubah data sehingga memiliki mean 0 dan standar deviasi 1 pada kolom 2 hingga 5 menggunakan fungsi scale().
2.6 Menghitung Jarak Euclidean
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 2.5799393
3 1.9536906 1.3002978
4 3.4640172 0.9555669 1.9339380
5 3.1887325 0.7535506 1.9947621 0.7392696
6 4.5793734 2.1512993 3.3955262 1.5995047 1.4493304
7 4.0278816 1.5677482 2.8002395 1.2260919 0.9880105 0.8085381
8 3.7489184 2.3107190 3.4037181 2.6610014 1.9938395 2.1518759 1.8151705
9 2.9391016 1.3121629 2.3460326 1.8554361 1.1705150 2.0250603 1.4578115
10 2.6087693 1.2730281 1.1566451 1.4792250 1.5863366 2.8677311 2.4903955
11 2.6482853 1.0722920 1.8868017 1.6862736 1.0692150 2.2488138 1.6970694
12 2.0275679 1.1869775 1.7664193 2.0264792 1.4487476 2.7076961 2.1795239
13 3.5297691 2.2311166 3.2616103 2.5677337 1.8391876 2.1729471 1.9979595
14 3.8295545 1.4571390 2.6499881 1.2743138 0.8552019 1.0505114 0.4702356
15 6.3539014 3.9779279 4.8110188 3.0438614 3.4555759 2.6485167 3.1971890
16 3.7066507 1.6432248 2.6618401 1.2440923 1.1023721 1.4698777 1.6135290
17 3.5220037 1.2784084 2.5021439 1.0321624 0.6571746 1.1619042 1.0760496
18 4.6603773 2.5818377 3.8376370 2.2580211 1.8719365 0.9972718 1.5523175
19 3.5869403 1.1965341 2.3768913 0.8190825 0.4685886 1.1201073 0.9143247
20 2.4445061 1.2606158 1.3235473 1.5126793 1.5970577 2.8506405 2.5399196
21 3.4397991 2.3897667 3.4035699 2.7018179 2.0638764 2.3910261 2.3771989
22 2.8103475 0.5365610 1.7229344 1.0938585 0.5382713 1.8650189 1.2476163
23 2.6525188 0.6007967 1.6459444 1.2284716 0.6600135 2.0263104 1.4674397
24 3.3602600 0.9389088 1.8581411 0.2614328 0.7347182 1.7027410 1.3853391
25 5.2297078 2.7951912 3.7817315 1.9053912 2.2066984 1.4158952 1.9524281
26 4.1607172 2.1364002 2.9931492 2.1955476 1.9190185 2.1166858 1.4586033
27 2.5433853 2.3021107 2.7781769 3.0897833 2.4446865 3.3663025 2.8030434
28 1.2801922 2.3226127 2.3363086 3.2461813 2.7391777 3.9582148 3.4201897
29 0.8077614 2.3711403 2.1394251 3.2918306 2.8615663 4.1700536 3.6357361
30 3.9816808 2.2668418 3.1914899 1.9290013 1.9082678 2.0310339 2.3029865
31 4.5593242 2.5749280 3.4136686 1.9125790 2.1379587 2.0196081 2.4183759
32 6.6296852 4.4891278 5.3804519 3.6722941 3.9070695 3.0819056 3.7779533
33 3.9202002 1.8361124 2.9986682 1.4902881 1.1987257 1.1500724 1.4286805
34 3.9524227 1.9613558 2.5261130 1.3144016 1.7093163 2.1931659 2.2527537
35 4.2680272 2.4118423 3.2500692 1.8751992 2.0009839 2.0492192 2.3922933
36 5.9656946 3.9968444 4.8400420 3.2656110 3.4537683 2.8678856 3.5083818
37 6.8850602 4.8956805 5.6666257 4.1109339 4.3474013 3.6907270 4.3457530
38 3.0889755 1.9098467 1.9396283 1.7978214 2.0809103 3.0696387 2.9213301
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 1.0785567
10 3.3421641 2.3127616
11 1.7396266 0.7215746 1.7360372
12 1.8922254 0.9694510 1.8468626 0.7405629
13 0.9844498 1.1428525 2.9474653 1.4679818 1.6313344
14 1.6750496 1.1955935 2.2977989 1.3364854 1.9146507 1.7220701
15 4.7871492 4.4691903 3.9909492 4.4118552 4.8586770 4.6059179 3.4080211
16 2.5820283 2.0153890 1.8502412 1.8875017 2.1405574 2.1367482 1.5762645
17 2.0227715 1.4789726 1.9679524 1.5425815 1.7982648 1.7975229 1.0972546
18 1.9729993 2.1335829 3.2329574 2.4209616 2.7606465 1.7555641 1.6047063
19 2.1125340 1.4591052 1.7788050 1.3792275 1.8174158 1.8726086 0.8101858
20 3.2983816 2.3360614 0.7212421 1.9064701 1.8073748 2.9158716 2.4314841
21 1.6104738 1.7091073 3.0588829 2.0206032 1.8658835 1.0950135 2.2606193
22 1.8404534 0.8409388 1.5918030 0.6918187 1.0430419 1.7694032 1.0375386
23 1.9121630 0.8722524 1.4490161 0.5062275 0.8630074 1.7093931 1.2022246
24 2.7199497 1.8775452 1.2733882 1.6317929 1.9544164 2.5329806 1.3704768
25 3.5230248 3.1840903 3.0082892 3.1653125 3.6130789 3.3533042 2.1517451
26 1.9777819 1.6784516 3.0155984 1.8579860 2.4345911 2.3938314 1.2983774
27 1.6767971 1.3722025 3.0493807 1.5279919 1.3046661 1.7135901 2.5073095
28 2.6673598 2.0823512 2.7920627 2.0087893 1.3295282 2.5106041 3.1918437
29 3.0793222 2.3804822 2.6320654 2.1791163 1.5044491 2.8485721 3.4053557
30 3.0847482 2.6878203 2.5174051 2.7077762 2.7239126 2.7267199 2.4204386
31 3.6241351 3.1513571 2.5412762 3.0453541 3.2530602 3.2374029 2.5356712
32 5.0274479 4.8287954 4.4323496 4.7900213 5.1486774 4.6715472 3.9356587
33 2.2395879 1.8934920 2.3127742 1.9592438 2.2099078 1.8687167 1.4514063
34 3.5924855 2.8324212 1.5527841 2.5000112 2.7803903 3.1879645 2.2416274
35 3.4390745 2.9539976 2.3862281 2.8439583 2.9917638 3.0036627 2.4729883
36 4.6552725 4.3790545 3.8583196 4.2937194 4.5832666 4.2025844 3.6203688
37 5.5600411 5.2883489 4.6336307 5.1568718 5.5093207 5.0882331 4.4391540
38 3.9023163 3.0006992 1.1664106 2.5884249 2.5619823 3.4739171 2.8714042
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 2.8752811
17 3.1672260 0.6928145
18 3.1152934 1.5610285 1.3924325
19 3.0706818 0.8060459 0.5037699 1.5480742
20 3.9959623 1.6804319 1.7993867 3.1195826 1.8007499
21 4.5920715 2.0045222 1.7586325 1.7903925 2.0846548 2.7712083
22 3.9703461 1.5796554 1.1145324 2.2353043 0.9803240 1.6541817 2.1039215
23 4.0776312 1.5697419 1.1987063 2.3116686 1.0594512 1.5382594 2.0490976
24 3.0711006 1.1043522 1.0108680 2.2751768 0.7933310 1.3103177 2.6410350
25 1.2895958 1.7127286 1.9083534 1.9766284 1.8076783 3.0030444 3.3923957
26 4.2973544 2.8467826 2.3433188 2.7033781 2.0481382 3.3044914 3.1952167
27 5.8125996 3.2115148 2.7711517 3.3053992 2.7646477 3.1035742 2.2834817
28 6.1232279 3.3401717 3.0213579 3.8973979 3.1212562 2.6484362 2.5303766
29 6.1785942 3.4092567 3.1637304 4.1483522 3.2465398 2.4842226 2.8181992
30 2.9998178 1.0797625 1.3529601 1.9291674 1.7287997 2.0568767 2.1442343
31 2.1226407 1.1874609 1.6927831 2.1547132 1.8245176 2.2775461 2.9097002
32 1.3798901 3.0176945 3.4518335 3.1120805 3.4797010 4.3175609 4.4593397
33 2.9407799 0.5541929 0.5912365 1.0526932 0.8804326 2.1168499 1.6969702
34 2.5254754 1.1750021 1.6443444 2.5934787 1.5134874 1.5361750 3.1276579
35 2.4947044 0.9933969 1.5312034 2.0743805 1.7232081 2.0625658 2.6089726
36 1.7511266 2.4554266 2.9769499 2.8013314 3.0473606 3.6883086 3.9011237
37 1.9068283 3.3954977 3.9300412 3.6702053 3.9233525 4.5544844 4.8794924
38 3.6475260 1.8023447 2.1320989 3.3512752 2.1402962 0.7886062 3.2350516
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 0.2840102
24 1.1014901 1.1771902
25 2.7265079 2.8408592 1.9427902
26 1.7598667 1.9248139 2.3411253 3.1660556
27 1.9961096 1.9059030 3.0751489 4.5314734 2.5027896
28 2.3128746 2.1673614 3.1758715 4.8897942 3.4780605 1.3995103
29 2.4551689 2.2865530 3.1972473 4.9833017 3.7364967 1.8216243 0.5046639
30 2.3252096 2.3464590 1.8385771 2.0598912 3.6789256 3.8066048 3.6910953
31 2.6448554 2.6727635 1.8137251 1.3820981 3.7737852 4.3742459 4.3700553
32 4.4438547 4.4980708 3.6334104 1.9478895 5.0276933 6.1023384 6.3392970
33 1.6568671 1.6938102 1.4320657 1.7286712 2.7445355 3.1289172 3.3916080
34 2.1330683 2.1181191 1.1328494 1.7002342 3.3149682 3.9762256 3.9347399
35 2.4807718 2.4839594 1.7490164 1.6641075 3.7389932 4.1230922 4.0648014
36 3.9802845 3.9996054 3.1822078 1.8550222 4.8127287 5.5963973 5.7179124
37 4.8730558 4.8868005 4.0293860 2.5300463 5.5436332 6.5026057 6.6748128
38 2.2861308 2.2009663 1.5879347 2.8549305 3.8404988 3.8624717 3.3959054
29 30 31 32 33 34 35
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 3.7438371
31 4.3838440 1.0061519
32 6.3986826 2.8862989 2.1046494
33 3.5357518 1.1003730 1.4021035 3.0221424
34 3.8747961 1.6896510 1.1722763 2.9132968 1.6785426
35 4.0764806 0.7164245 0.3831969 2.4013896 1.2286483 1.1999460
36 5.7497243 2.2589824 1.5032123 0.8175896 2.5216457 2.3824384 1.7404625
37 6.6903963 3.3087401 2.4800457 0.8339115 3.4899679 3.1456463 2.7418678
38 3.2043506 1.9841722 1.9633780 3.9165908 2.3055888 1.2337660 1.8056600
36 37
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 1.0611363
38 3.2722921 4.0744172Menghitung jarak Euclidean antara baris-baris data yang telah distandarisasi (datastand) menggunakan fungsi dist().
2.7 Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:5])
>
> #Single Linkage
> hiers <- hclust(dist(data[,2:5]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.7854809
>
> #Average Linkage
> hierave <- hclust(dist(data[,2:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.8435665
>
> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.8108348
>
> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:5]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.8390563
>
> #Ward
> hierward <- hclust(dist(data[,2:5]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.6285958
>
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.7854809 0.8435665 0.8108348 0.8390563 0.6285958Menyimpan nilai-nilai korelasi cophenetic dari beberapa metode clustering, kemudian hasilnya disusun ke dalam satu data frame agar lebih mudah dianalisis.
2.8 Indeks Validitas
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 6.2067 13.2433 23.7786 25.0587
Dunn 0.2966 0.3343 0.2910 0.3109
Silhouette 0.4260 0.3330 0.3058 0.2793
Optimal Scores:
Score Method Clusters
Connectivity 6.2067 hierarchical 2
Dunn 0.3343 hierarchical 3
Silhouette 0.4260 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 6.2067460 hierarchical 2
Dunn 0.3343312 hierarchical 3
Silhouette 0.4259903 hierarchical 2Menguji validitas cluster dengan data yang telah distandarisasi menggunakan metode hierarchical clustering dan jarak Euclidean. Fungsi clValid() mengevaluasi hasil cluster dengan validasi internal dan metode average linkage. Hasil validasi kemudian dirangkum dengan summary(inval). Selanjutnya, optimalScores(inval) digunakan untuk menghitung skor optimal yang membantu menentukan jumlah kluster terbaik berdasarkan evaluasi tersebut. Proses ini memungkinkan kita untuk memilih cluster yang paling sesuai.
2.9 Proses Clustering Metode Average Linkage
> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> plot(hirave, labels(data$Daerah), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "Kab/Kota", ylab = "Jarak")Melakukan hierarchical clustering pada data yang telah distandarisasi dengan metode average linkage. Fungsi hclust() digunakan untuk menghitung kluster berdasarkan jarak Euclidean, sementara plot() menampilkan dendrogram yang menggambarkan pengelompokkan data atau cluster. Label pada dendrogram diambil dari kolom Daerah untuk menunjukkan nama kabupaten/kota, dengan pengaturan warna biru.
2.10 Hasil Cluster
> anggotaave <- data.frame(id = data$Daerah, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Kabupaten Pacitan 1
2 Kabupaten Ponorogo 1
3 Kabupaten Trenggalek 1
4 Kabupaten Tulungagung 1
5 Kabupaten Blitar 1
6 Kabupaten Kediri 1
7 Kabupaten Malang 1
8 Kabupaten Lumajang 1
9 Kabupaten Jember 1
10 Kabupaten Banyuwangi 1
11 Kabupaten Bondowoso 1
12 Kabupaten Situbondo 1
13 Kabupaten Probolinggo 1
14 Kabupaten Pasuruan 1
15 Kabupaten Sidoarjo 2
16 Kabupaten Mojokerto 1
17 Kabupaten Jombang 1
18 Kabupaten Nganjuk 1
19 Kabupaten Madiun 1
20 Kabupaten Magetan 1
21 Kabupaten Ngawi 1
22 Kabupaten Bojonegoro 1
23 Kabupaten Tuban 1
24 Kabupaten Lamongan 1
25 Kabupaten Gresik 2
26 Kabupaten Bangkalan 1
27 Kabupaten Sampang 1
28 Kabupaten Pamekasan 1
29 Kabupaten Sumenep 1
30 Kota Kediri 1
31 Kota Blitar 1
32 Kota Malang 2
33 Kota Probolinggo 1
34 Kota Pasuruan 1
35 Kota Mojokerto 1
36 Kota Madiun 2
37 Kota Surabaya 2
38 Kota Batu 1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1
27 28 29 30 31 32 33 34 35 36 37 38
1 1 1 1 1 2 1 1 1 2 2 1
> aggregate(data,list(idclus),mean)
Group.1 Daerah IPM TPT TPAK Tingkat.Perkapita.Riil
1 1 NA 72.44758 4.330606 73.77909 11648.88
2 2 NA 81.81600 6.856000 69.06800 16499.00Melakukan hierarcical cluster menggunakan hclust() yang hasilnya disimpan dalam variabel hirave. Hasil cluster kemudian ditampilkan dengan plot dan disimpan dalam clus_hier. Selanjutnya, diagram dendrogram divisualisasikan menggunakan fviz_dend() untuk menampilkan cluster secara grafis. Terakhir, rata-rata untuk setiap variabel dihitung menggunakan aggregate().
3 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
> statdes <- summary(data)
> statdes
Daerah IPM TPT TPAK
Length:38 Min. :64.13 Min. :1.710 Min. :66.89
Class :character 1st Qu.:70.22 1st Qu.:4.082 1st Qu.:70.24
Mode :character Median :72.79 Median :4.665 Median :72.50
Mean :73.68 Mean :4.663 Mean :73.16
3rd Qu.:76.76 3rd Qu.:5.600 3rd Qu.:75.23
Max. :83.45 Max. :8.050 Max. :81.64
Tingkat.Perkapita.Riil
Min. : 9363
1st Qu.:10720
Median :11924
Mean :12287
3rd Qu.:13419
Max. :18977 - IPM (Indeks Pembangunan Manusia)
Indeks Pembangunan Manusia (IPM) pada 38 kabupaten/kota berkisar antara 64,13% hingga 83,45% dengan rata-rata 73,68%. Q1 menunjukkan sebanyak 25% Kabupaten/Kota di Jawa Timur memiliki IPM kurang dari 70,22%. Q2 (median) menunjukkan sebanyak 50% kabupaten/kota di Jawa Timur memiliki IPM yang lebih rendah dari 72,79%, dan 50% lainnya memiliki IPM yang lebih tinggi dari 72,79%. Q3 menunjukkan sebanyak 75% Kabupaten/Kota di Jawa Timur memiliki IPM di bawah 83,45%.
- TPT (Tingkat Pengangguran Terbuka)
Tingkat Pengangguran Terbuka (TPT) menunjukkan proporsi penduduk yang menganggur di antara angkatan kerja. TPT di 38 kabupaten/kota berkisar dari 1,71% hingga 8,05%, dengan rata-rata 4.663%. Q1 menunjukkan sebanyak 25% Kabupaten/Kota di Jawa Timur memiliki TPT kurang dari 4,082%. Q2 (median) menunjukkan sebanyak 50% kabupaten/kota di Jawa Timur memiliki TPT yang lebih rendah dari 4,665%, dan 50% lainnya memiliki TPAK yang lebih tinggi dari 4,665%. Q3 menunjukkan sebanyak 75% Kabupaten/Kota di Jawa Timur memiliki TPT di bawah 5,6%.
- TPAK (Tingkat Partisipasi Angkatan Kerja)
Tingkat Partisipasi Angkatan Kerja (TPAK) mencerminkan persentase penduduk usia kerja yang aktif dalam pasar tenaga kerja. Rentangnya dari 66.89% hingga 81.64%, dengan rata-rata 73,16%. Q1 menunjukkan sebanyak 25% Kabupaten/Kota di Jawa Timur memiliki TPAK kurang dari 70.24%. Q2 (median) menunjukkan sebanyak 50% kabupaten/kota di Jawa Timur memiliki TPAK yang lebih rendah dari 72.50%, dan 50% lainnya memiliki TPAK yang lebih tinggi dari 72.50%. Q3 menunjukkan sebanyak 75% Kabupaten/Kota di Jawa Timur memiliki TPAK di bawah 75.23%.
- Tingkat Perkapita Riil
Pendapatan perkapita riil mencerminkan daya beli masyarakat. Rentangnya dari Rp.9363 hingga Rp.18977 satuan mata uang dengan rata-rata sebesar Rp.12287. Q1 menunjukkan sebanyak 25% Kabupaten/Kota di Jawa Timur memiliki Tingkat Perkapita Riil kurang dari Rp,10720. Q2 (median) menunjukkan sebanyak 50% kabupaten/kota di Jawa Timur memiliki Tingkat Perkapita Riil yang lebih rendah dari Rp.11924, dan 50% lainnya memiliki Tingkat Perkapita Riil yang lebih tinggi dari Rp.11924. Q3 menunjukkan sebanyak 75% Kabupaten/Kota di Jawa Timur memiliki Tingkat Perkapita Riil di bawah Rp.18977.
3.2 Uji Asumsi
- Uji Sampel Representatif Uji asumsi pertama ialah uji sampel representatif menggunakan uji Kaiser Mayer Olkin (KMO)
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA = 0.65
MSA for each item =
IPM TPT TPAK
0.59 0.86 0.59
Tingkat.Perkapita.Riil
0.61 Uji KMO pada masing masing variabel tersebut bernilai lebih dari 0.5 sehingga dapat disimpulkan bahwa sampel telah cukup untuk bisa dilanjutkan analisis cluster.
- Uji Non-Multikolinearitas Uji ini digunakan untuk memastikan bahwa variabel yang digunakan dalam analisis tidak memiliki hubungan linier yang sangat kuat.
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
IPM TPT TPAK Tingkat.Perkapita.Riil
IPM 1.0000000 0.6194610 -0.2933302 0.9186877
TPT 0.6194610 1.0000000 -0.4662070 0.6333147
TPAK -0.2933302 -0.4662070 1.0000000 -0.4205865
Tingkat.Perkapita.Riil 0.9186877 0.6333147 -0.4205865 1.0000000Berdasarkan output, dilihat bahwa hampir semua nilai korelasi antar variabel kurang dari 0,8. Hanya variabel Tingkat Perkapita Riil saja yang mempunyai nilai korelasi lebih dari 0,8. Namun,hal ini tidak menjadi masalah karena multikolinearitas terjadi ketika ada korelasi yang kuat antara dua atau lebih variabel independen.
3.3 Standarisasi Data
Dengan standarisasi, setiap variabel memiliki mean 0 dan standar deviasi 1, sehingga semua variabel memiliki bobot yang sama.
> datastand <- scale(data[,2:5])
> datastand
IPM TPT TPAK Tingkat.Perkapita.Riil
[1,] -0.690627681 -1.982669548 2.25124822 -1.15146131
[2,] -0.233541819 -0.002025951 0.72224083 -0.71978250
[3,] -0.385903773 -0.100008320 2.00703176 -0.80505784
[4,] 0.183969509 0.690849371 0.40900668 -0.31903257
[5,] -0.235520546 0.172942564 0.09046348 -0.34819409
[6,] 0.055352275 0.788831740 -1.17309124 -0.14804004
[7,] -0.300818526 0.725843074 -0.66342211 -0.66101762
[8,] -1.149692270 -0.694901273 -1.23945441 -1.13422950
[9,] -0.997330316 -0.456944092 -0.22807973 -0.88812398
[10,] -0.211775826 0.060962714 1.56107127 0.23547808
[11,] -1.125947550 -0.358961723 0.32671635 -0.45600333
[12,] -0.894436529 -0.974850898 0.56296923 -0.70034149
[13,] -1.165522084 -0.995847120 -0.97665626 -0.23464091
[14,] -0.670840415 0.571870780 -0.51742314 -0.46307279
[15,] 1.557205822 2.370547121 -0.93949289 1.33610440
[16,] 0.366012363 0.004972789 -0.17233467 0.52134931
[17,] 0.181990782 -0.002025951 -0.33160627 -0.12727351
[18,] 0.005884108 0.011971530 -1.66417868 0.23591992
[19,] -0.140541666 0.333913599 -0.17764372 -0.01239481
[20,] 0.342267643 -0.351962983 1.41241778 0.09187971
[21,] -0.239477999 -1.576742592 -0.98992890 -0.17234131
[22,] -0.560031721 -0.023022173 0.30017109 -0.66764524
[23,] -0.660946781 -0.183993208 0.41697026 -0.49179246
[24,] 0.168139696 0.557873299 0.50987870 -0.11843668
[25,] 0.850800399 1.509702024 -0.80676655 0.69941129
[26,] -1.569182325 1.061782624 -0.44309639 -1.25882871
[27,] -1.889736047 -1.359781633 0.10108158 -1.29196679
[28,] -1.131883730 -2.045658214 1.05671120 -1.26678185
[29,] -1.003266496 -2.066654436 1.51328979 -1.09578932
[30,] 1.337567161 -0.421950389 -0.35284248 0.43695765
[31,] 1.375162968 0.403901005 -0.23869784 0.99897960
[32,] 1.921291530 1.495704543 -1.48101634 2.18046285
[33,] 0.346225096 -0.093009579 -0.67669474 0.31456765
[34,] 0.690523538 0.683850630 0.66118672 0.86731093
[35,] 1.264354274 0.046965233 -0.17498919 0.94330761
[36,] 1.786738116 0.830824183 -1.02709227 2.13318584
[37,] 1.933163890 1.467709580 -1.17574576 2.95589407
[38,] 0.890374932 -0.100008320 1.54779864 0.58143971
attr(,"scaled:center")
IPM TPT TPAK
73.680263 4.662895 73.159211
Tingkat.Perkapita.Riil
12287.052632
attr(,"scaled:scale")
IPM TPT TPAK
5.053755 1.428828 3.767150
Tingkat.Perkapita.Riil
2263.256801
> rownames(datastand) <- 1:nrow(datastand)3.4 Korelasi Cophenetic
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.7854809 0.8435665 0.8108348 0.8390563 0.6285958Koefisien korelasi cophenetic digunakan sebagai dasar dalam menentukan metode terbaik yang akan digunakan dalam analisis cluster. Dimana nilai korelasi yang mendekati 1 dipilih sebagai metode terbaik. Nilai korelasi yang paling mendekati 1 ialah metode average linkage, sehingga berdasarkan output, metode terbaik yang terpilih adalah metode average linkage dipilih sebagai metode terbaik.
3.5 Indeks Validitas
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 6.2067 13.2433 23.7786 25.0587
Dunn 0.2966 0.3343 0.2910 0.3109
Silhouette 0.4260 0.3330 0.3058 0.2793
Optimal Scores:
Score Method Clusters
Connectivity 6.2067 hierarchical 2
Dunn 0.3343 hierarchical 3
Silhouette 0.4260 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 6.2067460 hierarchical 2
Dunn 0.3343312 hierarchical 3
Silhouette 0.4259903 hierarchical 2Berdasarkan indeks connectivity, indeks dunn dan indeks silhouette terpilih jumlah cluster sebanyak 2 sebagai cluster optimal dengan metode average linkage.
3.6 Proses Clustering Metode Average Linkage
> plot(hirave, labels(data$Daerah), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "Kab/Kota", ylab = "Jarak")
Terlihat hasil pengelompokan IPM dengan metode average linkage di Jawa
Timur Tahun 2020 berdasarkan indikator ekonomi.
3.7 Hasil Cluster
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1
27 28 29 30 31 32 33 34 35 36 37 38
1 1 1 1 1 2 1 1 1 2 2 1
> aggregate(data,list(idclus),mean)
Group.1 Daerah IPM TPT TPAK Tingkat.Perkapita.Riil
1 1 NA 72.44758 4.330606 73.77909 11648.88
2 2 NA 81.81600 6.856000 69.06800 16499.00Terlihat bahwa pemotongan yang tepat akan menghasilkan 2 cluster, di mana cluster 1 pada kotak berwarna biru dan cluster 2 pada kotak berwarna merah. Sehingga terbentuk cluster sebagai berikut:
Cluster 1 (IPM rendah) : Kabupaten Pacitan, Kabupaten Ponorogo, Kabupaten Trenggalek, Kabupaten Tulungagung, Kabupaten Blitar, Kabupaten Kediri, Kabupaten Malang, Kabupaten Lumajang, Kabupaten Jember, Kabupaten Banyuwangi, Kabupaten Bondowoso, Kabupaten Situbondo, Kabupaten Probolinggo, Kabupaten Pasuruan, Kabupaten Mojokerto, Kabupaten Jombang, Kabupaten Nganjuk, Kabupaten Madiun, Kabupaten Magetan, Kabupaten Ngawi, Kabupaten Bojonegoro, Kabupaten Tuban, Kabupaten Lamongan, Kabupaten Bangkalan, Kabupaten Sampang, Kabupaten Pamekasan, Kabupaten Sumenep, Kota Kediri, Kota Blitar, Kota Probolinggo, Kota Pasuruan, Kota Mojokerto, Kota Batu.
Cluster 2 (IPM Tinggi) : Kota Malang, Kota Madiun, Kota Surabaya, Kabupaten Sidoarjo, Kabupaten Gresik.
4 KESIMPULAN
Berdasarkan hasil analissi cluster menggunakan metode average linkage, IPM di Jawa Timur dapat dikelompokkan menjadi 2 cluster:
- Cluster 1 (IPM Rendah)
Mayoritas kabupaten/kota di Jawa Timur termasuk dalam cluster ini. Hal ini menunjukkan bahwa sebagian besar wilayah memiliki nilai IPM yang relatif lebih rendah dibandingkan dengan rata-rata wilayah lainnya. Daerah-daerah ini cenderung membutuhkan perhatian lebih untuk meningkatkan kualitas pendidikan, kesehatan, dan ekonomi guna memperbaiki tingkat kesejahteraan masyarakat.
- Cluster 2 (IPM Tinggi)
Hanya beberapa daerah yang masuk ke cluster ini, yaitu Kota Malang, Kota Madiun, Kota Surabaya, Kabupaten Sidoarjo, dan Kabupaten Gresik. Daerah-daerah ini memiliki nilai IPM lebih tinggi yang mencerminkan pembangunan berkelanjutan baik dalam sektor pendidikan, kesehatan, dan ekonomi. Hal ini juga dikarenakan daerah ini memiliki sektor yang berpotensi menignkatkan IPM. Seperti Kota Malang dan Kota Surabaya yang merupakan pusat pendidikan dan ekonomi, sehingga memiliki akses yang baik terhadap fasilitas kesehatan, pendidikan, dan lapangan pekerjaan. Kabupaten Sidoarjo dan Kabupaten Gresik memiliki IPM tinggi karena merupakan kawasan industri yang memiliki kontribusi besar dalam meningkatkan pendapatan masyarakat serta penyediaan layanan publik. Kota Madiun juga memiliki keunggulan di sektor transportasi dan industri kereta api, yang berkontribusi pada kesejahteraan masyarakat.
5 DAFTAR PUSTAKA
Fatihin, C., & Andayani, S. (2023). Clustering kabupaten/kota di Jawa Timur berdasarkan indikator IPM menggunakan SOM dan FCM. Jurnal Kajian dan Terapan Matematika, 9(3), 134–147.
Azfirmawarman, D., Magriasti, L., & Yulhendri. (2023). Indeks pembangunan manusia di Indonesia (kajian perubahan metodologi penghitungan). Jurnal Pendidikan dan Konseling, 5(5), 117–125.
Badan Pusat Statistik Provinsi Jawa Timur. Indeks Pembangunan Manusia menurut Kabupaten/Kota. Diakses pada 28 November 2024, dari https://jatim.bps.go.id/id/statistics-table/2/MzYjMg==/indeks-pembangunan-manusia-menurut-kebupaten-kota.html
Badan Pusat Statistik Provinsi Jawa Timur. Tingkat Pengangguran Terbuka (TPT) Provinsi Jawa Timur. Diakses pada 28 November 2024, dari https://jatim.bps.go.id/indicator/6/54/1/tingkat-pengangguran-terbuka-tpt-provinsi-jawa-timur.html
Badan Pusat Statistik Provinsi Jawa Timur. Tingkat Partisipasi Angkatan Kerja (TPAK) menurut Kabupaten/Kota. Diakses pada 28 November 2024, dari https://jatim.bps.go.id/id/statistics-table/2/Mjc3IzI=/tingkat-partisipasi-angkatan-kerja--tpak--menurut-kabupaten-kota.html
Badan Pusat Statistik Provinsi Jawa Timur. Pengeluaran per kapita riil disesuaikan. Diakses pada 28 November 2024, dari https://jatim.bps.go.id/id/statistics-table/2/MzQjMg==/pengeluaran-per-kapita-riil-disesuaikan.html