1 PENDAHULUAN

1.1 Latar Belakang

Suatu negara melaksanakan pembangunan ekonomi bertujuan untuk mewujudkan kehidupan masyarakat yang sejahtera. Dalam proses pembangunan ekonomi banyak dilibatkan berbagai perubahan baik dari segi sosial maupun ekonomi masyarakatnya. Diantaranya seperti penurunan tingkat kemiskinan, penurunan ketimpangan (disparitas) serta penurunan tingkat pengangguran, dikarenakan banyak melibatkan berbagai perubahan, sehingga pembangunan ekonomi dikatakan bersifat multidimensional (Todaro dan Smith, 2015).

Sukirno (2017) mendefinisikan Pembangunan ekonomi sebagai suatu keadaan terjadinya pertumbuhan ekonomi yang diikuti oleh perkembangan berbagai aspek dalam perekonomian, yakni perkembangan pendidikan, keahlian dan terjadinya perbaikan teknologi. Dalam proses pembangunan ekonomi, terdapat interaksi antara berbagai faktor, seperti sumber daya alam (SDA), sumber daya manusia (SDM), modal, dan teknologi. Di antara faktor-faktor tersebut, SDM memiliki peran yang sangat penting. SDM tidak hanya berfungsi sebagai salah satu komponen utama atau modal pembangunan, tetapi juga berperan dalam menggerakkan dinamika pembangunan. Peran ini dapat terlihat baik sebagai tenaga kerja yang produktif maupun sebagai konsumen yang menikmati hasil dari pembangunan tersebut.

Pertumbuhan angkatan kerja dipengaruhi oleh 2 faktor yaitu struktur umur penduduk dan tingkat partisipasi angkatan kerja. Jumlah angkatan kerja dalam suatu negara atau daerah pada suatu waktu tertentu tergantung dari jumlah penduduk usia kerja. Perbandingan antara angkatan kerja dan penduduk dalam usia kerja ini disebut Tingkat Partisipasi Angkatan Kerja (TPAK).

Masalah pengangguran masih menjadi salah satu titik berat dalam pembangunan di Jawa Timur. Untuk mendukung upaya pemerintah dalam mengendalikan laju pengangguran, diperlukan indikator-indikator sebagai dasar perencanaan, monitoring, maupun evaluasi program. Informasi tersebut akan memberikan banyak manfaat bagi pemerintah daerah dalam membuat perencanaan atau kebijakan strategis dalam rangka perluasan kesempatan kerja yang pada akhirnya dapat mengurangi pengangguran serta meningkatkan kesejahteraan masyarakat.

1.2 Rumusan Masalah

Berdasarkan uraian latar belakang yang telah dijelaskan, maka dapat dirumuskan masalah penelitian sebagai berikut :

Bagaimana mengelompokkan Kota/Kabupaten di Provinsi Jawa Timur berdasarkan tingkat keseimbangan pasar tenaga kerja?
Bagaimana mengetahui cluster mana yang memiliki tingkat keseimbangan pasar tenaga kerja yang lebih baik?

1.3 Tujuan Penelitian

Tujuan Penelitian yang ingin dicapai yaitu :

Untuk mengetahui pengelompokan Kota/Kabupaten di Provinsi Jawa Timur berdasarkan tingkat keseimbangan pasar tenaga kerja.
Untuk mengetahui cluster mana yang memiliki tingkat keseimbangan pasar tenaga kerja yang lebih baik.

1.4 Batasan Masalah

Agar penelitian ini lebih terfokus dan terarah, maka peneliti memberikan batasan masalah sebagai berikut.

Penelitian hanya difokuskan untuk mengukur tingkat keseimbangan pasar tenaga kerja di Kota/Kabupaten Provinsi Jawa Timur pada tahun 2022/2023
Indikator yang digunakan adalah angkatan kerja, penduduk usia kerja, tingkat partisipasi angkatan kerja, pengangguran, dan tingkat pengangguran terbuka.
Analisis yang digunakan untuk mengelompokkan Kota/Kabupaten di Provinsi Jawa Timur pada tahun 2022/2023 berdasarkan tingkat keseimbangan pasar tenaga kerja adalah analisis cluster hierarki dengan menggunakan metode Average Linkage.

1.5 Data

Sumber data yang digunakan dalam penelitian ini berasal dari hasil pengumpulan data Sakernas yang merupakan survei khusus untuk menghasilkan data-data ketenagakerjaan. Data diperoleh dari instansi pemerintah Badan Pusat Statistik (BPS) Provinsi Jawa Timur pada tahun 2022/2023. Data tersebut memuat informasi mengenai jumlah angkatan kerja, penduduk usia kerja, TPAK, pengangguran, dan TPT setiap Kota/Kabupaten di Provinsi Jawa Timur.

library(readxl)
DATA <- read_excel("Documents/DATA_UAP.xlsx")
library(DT)
datatable(DATA,caption = "Tingkat keseimbangan pasar tenaga kerja")

1.6 Latar Belakang Metode

Berdasarkan kondisi angkatan kerja di setiap Kota/Kabupaten di Provinsi Jawa Timur, maka dilakukan analisis cluster untuk mengelompokkan wilayah-wilayah tersebut ke dalam beberapa kelompok berdasarkan karakteristik keadaan angkatan kerja masing-masing wilayah. Dalam penelitian ini, analisis cluster hierarki diterapkan menggunakan beberapa pendekatan, yaitu Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, dan Centroid Linkage. Melalui metode ini, dapat diidentifikasi kelompok-kelompok wilayah dengan tingkat angkatan kerja yang masih rendah. Hasil analisis ini diharapkan menjadi acuan strategis bagi Pemerintah, terutama Pemerintah Daerah (Pemda), untuk lebih fokus dalam memperbaiki dan meningkatkan kondisi angkatan kerja di Provinsi Jawa Timur.

2 TINJAUAN PUSTAKA

2.1 Statistik Deskriptif

Statistika deskriptif merupakan cabang ilmu statistika yang mempelajari mengenai cara pengumpulan, penyusunan, dan penyajian data dari suatu penelitian. Statistika Deskriptif adalah bagian dari statistika yang bertujuan untuk merangkum, menyajikan, dan mendeskripsikan data dalam format yang mudah dipahami sehingga informasi yang diberikan lebih lengkap. Statistika deskriptif terbatas pada aktivitas menggambarkan atau memberikan penjelasan mengenai data, keadaan, atau fenomena tertentu, dengan kata lain hanya memberikan gambaran umum dari data yang diperoleh.

2.2 Analisis Cluster

Analisis cluster adalah metode pengelompokan data untuk menciptakan kategori baru dengan mengidentifikasi kelompok-kelompok yang memiliki karakteristik serupa. Objek-objek dalam satu klaster memiliki kesamaan yang tinggi satu sama lain, namun berbeda secara signifikan dari objek-objek di klaster lainnya. Analisis cluster juga disebut analisis klasifikasi atau taksonomi numerik (numerical taxonomi), karena berkenaan dengan prosedur pengklasteran dimana setiap objek hanya masuk ke dalam satu cluster saja, tidak terjadi tumpang tindih (Supranto, 2004).

Secara umum analisis cluster dibedakan menjadi 2 metode yaitu metode hierarki dan metode non hierarki. Analisis cluster dengan metode hierarki merupakan metode pengelompokan yang jumlah clusternya belum diketahui dan dilakukan dengan metode Single Linkage, Complete Linkage, serta Average Linkage, sedangkan pada metode non hierarki dilakukan analisis dengan metode K-Means Cluster.

Langkah-langkah analisis cluster menurut Hamelia & Bagus (2019) : 1. Melakukan Standarisasi Data Langkah pertama dalam analisis cluster adalah standarisasi data, biasanya menggunakan metode z-score. Tujuan standarisasi ini adalah untuk mengurangi perbedaan skala antar variabel dan menyamakan satuan variabel yang memiliki unit berbeda. 2. Menentukan Ukuran Kemiripan Dalam analisis cluster, ukuran kemiripan dapat ditentukan dengan beberapa metode, seperti ukuran asosiasi, ukuran korelasi, dan ukuran jarak. Proses ini melibatkan perhitungan jarak antar objek, dengan salah satu metode yang sering digunakan adalah Euclidean Distance. 3. Memilih Metode Pengelompokan Cluster dapat dibentuk menggunakan dua pendekatan utama, yaitu metode hierarki dan metode non-hierarki. 4. Menentukan Jumlah Cluster Tantangan utama dalam analisis cluster adalah menentukan jumlah kelompok (cluster) yang tepat. 5. Menginterpretasikan Hasil Cluster Tahap akhir adalah interpretasi hasil cluster yang terbentuk. Interpretasi ini biasanya dilakukan dengan melihat rata-rata nilai dari variabel pada setiap cluster.

2.2.1 Standarisasi Data

Standarisasi data merupakan proses mengubah data mentah ke dalam format yang konsisten sehingga dapat lebih mudah dianalisis dan dibandingkan. Proses ini dilakukan terutama ketika data mempunyai skala data yang berbeda dan memerlukan keseragaman untuk analisis yang valid. Jika variabel-variabel dalam data tidak distandarisasi, maka hasil analisis statistik menjadi bias karena variabel yang memiliki unit pengukuran lebih besar cenderung mendominasi hasi. Oleh karena itu standarisasi data penting untuk dilakukan agar diperoleh hasil analisis yang valid.

Proses standarisai data dilakukan dengan mengubah nilai-nilai dalam dataset sehingga memiliki rata-rata 0 dan simpangan baku 1. Proses ini sering disebut transformasi Z-Score, dimana setiap nilai dihitung berdasarkan jaraknya dari rata-rata dalam satuan simpangan baku dengan rumus sebagai berikut : \[Z = \frac{X_i - \bar{X}}{s}\]

Dengan :
\(\mathbf{X_i}\) : data ke-\(i\)
\(\bar{x}\) : rata-rata data
\(s\) : simpangan baku

2.2.2 Jarak Analisis Cluster

Jarak Euclidean
Jarak euclidean adalah perhitungan jarak dari dua buah titik dalam euclidean space untuk mempelajari hubungan antara sudut dan jarak. Euclidean distance memiliki rumus sebagai berikut : \[d_{\text{Euclidean}}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\]

Dengan :
\(x_i\) : nilai obyek-x pada variabel ke-\(i\)
\(y_i\) : nilai obyek-y pada variabel ke-\(i\)

Jarak Mahalanobis
Jarak Mahalanobis yaitu menghitung jarak antara sebuh variabel dengan pusat dari semua pengamatan. Penggunaan jarak mahalanobis yang paling umum adalah untuk menemukan outlier multivariat yang menunjukkan kombinasi dua variabel atau lebih yang tidak biasa. Rumus dari jarak mahalanobis adalah sebagai berikut : \[ d_{\text{Mahalanobis}}(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)} \]

Dengan :
\(S^{-1}\) : suatu matriks varian kovarians

Jarak Manhattan Jarak
Manhattan adalah jarak dari suatu titik ke titik yang lain pada suatu sitem koordinat kartesius dengan menyusuri bagian vertikal dan horizontal tanpa pernah kemabli. Dengan sederhana, perhitungan jarak dilakukan dengan mengambil nilai absolut atau nilai mutlak. Rumus dari jarak manhattan adalah sebagai berikut : \[ d_{\text{Manhattan}}(x, y) = \sum_{i=1}^{n} |x_i - y_i| \]

Dengan :
\(x_i\) : nilai obyek-x pada variabel ke-\(i\)
\(y_i\) : nilai obyek-y pada variabel ke-\(i\)

2.2.3 Analisis Cluster Hierarki

Metode hierarki memulai pengelompokan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya hingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek dari yang paling mirip hingga yang paling tidak mirip. Teknik pengelompokan pada metode hierarki menggunakan teknik penggabungan (agglomerative) dan teknik pembagian (divisive). Teknik pengelompokan antar kelompok adalah sebagai berikut:

Single Linkage
Metode Single Linkage adalah teknik clustering yang menggabungkan objek berdasarkan jarak terdekat di antara keduanya. Jika dua objek memiliki jarak yang sangat kecil, keduanya akan digabungkan menjadi satu cluster, dan proses ini terus berlanjut untuk objek-objek lainnya. Pengukuran jarak dalam metode ini dapat dijelaskan dengan rumus berikut : \[ d_{\text{Single Linkage}}(A, B) = \min \{ d(x, y) \ | \ x \in A, y \in B \} \]
Complete Linkage Pada metode Complete Linkage, pengukuran jarak dilakukan dengan mempertimbangkan jarak maksimum atau terjauh antara dua objek. Rumus yang digunakan untuk menghitung jarak dalam metode ini adalah sebagai berikut : \[ d_{\text{Complete Linkage}}(A, B) = \max \{ d(x, y) \ | \ x \in A, y \in B \} \]
Average Linkage
Kriteria yang digunakan untuk mengukur jarak pada metode Average Linkage adalah rata-rata jarak antara setiap individu dalam satu kelompok dengan setiap individu dalam kelompok lainnya. Rumus untuk pengukuran ini dapat dituliskan sebagai berikut : \[ d_{\text{Average Linkage}}(A, B) = \frac{1}{|A| \cdot |B|} \sum_{x \in A} \sum_{y \in B} d(x, y) \]
Ward’s Method Jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel. Rumus untuk pengukuran ini dapat dituliskan sebagai berikut : \[ ESS = \sum_{j=1}^{k} \left( \sum_{i=1}^{n_j} x_{ij}^2 - \frac{1}{n_j} \left( \sum_{i=1}^{n_j} x_{ij} \right)^2 \right) \]
Centroid Linkage Jarak antara dua cluster dalam metode ini berdasarkan jarak centroid dua cluster yang bersangkutan. Rumus untuk pengukuran ini dapat dituliskan sebagai berikut : \[ d_{\text{Centroid Linkage}}(A, B) = \| C_A - C_B \| \]

2.2.4 Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic merupakan koefisien korelasi antara elemen-elemen asli matriks ketidakmiripan (matriks jarak Euclidean) dan elemen-elemen yang dihasilkan oleh dendrogram (matriks cophenetic) (Silva & Dias, 2013). Koefisien korelasi cophenetic digunakan untuk menguji validitas cluster untuk melihat kebaikan (goodness) atau kualitas (quality) hasil analisis cluster.

2.2.5 Dendogram

Hasil dari metode hierarki dapat disajikan dalam bentuk dendogram. Dendogram adalah representatif visual dari langkah-langkah dalam analisis cluster yang menunjukkan bagaimana cluster terbentuk dan nilai koefisien jarak pada setiap langkah.

Dendogram akan membentuk struktur yang berbeda tergantung pada jarak dan metode linkage yang digunakan dalam proses pengklusteran. Untuk menentukan jumlah cluster yang terbentuk, dendogram dipotong berdasarkan selisih jarak penggabungan yang paling besar. Pemotongan dendogram dilakukan pada titik di mana terdapat selisih jarak penggabungan yang terbesar atau pada bagian yang menghasilkan kelompok yang lebih bermakna. Pemotongan ini sering dilakukan pada selisih jarak penggabungan yang paling besar untuk menentukan jumlah cluster yang optimal.

3 SOURCE CODE

3.1 Library yang Dibutuhkan

library(psych)
library(GPArotation)

## 
## Attaching package: 'GPArotation'

## The following objects are masked from 'package:psych':
## 
##     equamax, varimin

library(clValid)

## Loading required package: cluster

library(ggplot2)

## 
## Attaching package: 'ggplot2'

## The following objects are masked from 'package:psych':
## 
##     %+%, alpha

library(cluster)
library(factoextra)

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ ggplot2::%+%()   masks psych::%+%()
## ✖ ggplot2::alpha() masks psych::alpha()
## ✖ dplyr::filter()  masks stats::filter()
## ✖ dplyr::lag()     masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(car)

## Loading required package: carData
## 
## Attaching package: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
## 
## The following object is masked from 'package:psych':
## 
##     logit

library(knitr)
library(readxl)
library(MVN)
library(dendextend)

## 
## ---------------------
## Welcome to dendextend version 1.18.1
## Type citation('dendextend') for how to cite the package.
## 
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
## 
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags: 
##   https://stackoverflow.com/questions/tagged/dendextend
## 
##  To suppress this message use:  suppressPackageStartupMessages(library(dendextend))
## ---------------------
## 
## 
## Attaching package: 'dendextend'
## 
## The following object is masked from 'package:stats':
## 
##     cutree

library(DT)
library(rmarkdown)
library(prettydoc)

Untuk memudahkan analisis perlu mengaktifkan packages yang dibutuhkan terlebih dahulu. Berikut adalah library yang digunakan untuk membantu dalam pemrograman ini.

library(psych) digunakan untuk analisis statistik psikometri dan psikologi, termasuk analisis faktor, reliabilitas, analisis regresi, dan lainnya.
library(GPArotation) digunakan untuk melakukan rotasi dalam analisis faktor dengan berbagai metode rotasi yang berbeda.
library(clValid) digunakan untuk mengevaluasi hasil klasterisasi dan memberikan berbagai metrik untuk validasi cluster seperti indeks internal dan eksternal.
library(ggplot2) digunakan untuk memvisualisasi data yang sangat fleksibel dan kuat berdasarkan sistem grafik grammar of graphics.
library(cluster) digunakan untuk berbagai teknik klasterisasi baik secara hierarki dan non-hierarki.
library(factoextra) digunakan untuk memvisualisasi hasil teknik reduksi dimensi, klasterisasi, dan analisis faktor, dengan tujuan untuk menyederhanakan eksplorasi data multivariat.
library(tidyverse) merupakan kumpulan package yang digunakan untuk manipulasi data, visualisasi, dan analisis data dalam format yang lebih mudah digunakan dan konsisten.
library(car) merupakan package yang menyediakan berbagai fungsi untuk analisis regresi, diagnosa model, dan visualisasi data.
library(knitr) digunakan untuk menggabungkan kode R dengan teks dalam laporan atau dokumen unruk menghasilkan hasil analisis yang dinamis.
library(readxl) digunakan untuk membaca file excel (.xlsx dan .xls) ke dalam R.
library (MVN) digunakan untuk memeriksa normalitas multivariat dalam data, baik dengan uji statistik maupun visualisasi.
library(dendextend) digunakan untuk memvisualisasikan dan memodifikasi hasil analisis cluster hierarki.
library(DT) digunakan untuk membuat tabel interaktif berbasis JavaScript di dalam R.
library(rmarkdown) digunakan untuk membuat dokumen yang dapat dikompilasi dengan R, yang mencakup teks, kode R, dan hasilnya dalam format seperti HTML, PDF, atau Word.
library(prettydoc) digunakan untuk membuat laporan berbasis R Markdown dengan desain yang lebih menarik dan estetis.

3.2 Memanggil Data

library(readxl)
DATA <- read_excel("Documents/DATA_UAP.xlsx")
library(DT)
datatable(DATA,caption = "Tingkat keseimbangan pasar tenaga kerja")

Memanggil data dari excel ke R menggunakan fungsi “read_excel” dari library(readxl) dan kemudian disimpan dalam variabel DATA. Dalam function terdapat argumen yang menunjukkan letak data tersimpan serta menggunakan fungsi “datatable()” untuk melihat gambaran data secara keseluruhan dalam bentuk tabel.

3.3 Statistik Deskriptif

# Statistik Deskriptif
Data1 <- DATA[,-1]
Data1

## # A tibble: 38 × 5
##    `Angkatan Kerja` `Penduduk Usia Kerja`  TPAK Pengangguran   TPT
##               <dbl>                 <dbl> <dbl>        <dbl> <dbl>
##  1           394708                483456  81.6         7207  1.83
##  2           593370                782001  75.9        27659  4.66
##  3           484167                599807  80.7        21905  4.52
##  4           665557                890993  74.7        37579  5.65
##  5           734660                999506  73.5        36049  4.91
##  6           910477               1324474  68.7        52753  5.79
##  7          1516928               2146759  70.7        86484  5.7 
##  8           622373                908693  68.5        22826  3.67
##  9          1488624               2058816  72.3        59716  4.01
## 10          1095024               1385485  79.0        52041  4.75
## # ℹ 28 more rows

statdesk <- summary(Data1)
statdesk

##  Angkatan Kerja    Penduduk Usia Kerja      TPAK        Pengangguran   
##  Min.   :  76689   Min.   : 105777     Min.   :66.89   Min.   :  3629  
##  1st Qu.: 433788   1st Qu.: 572847     1st Qu.:70.24   1st Qu.: 12054  
##  Median : 602454   Median : 871264     Median :72.50   Median : 25242  
##  Mean   : 628125   Mean   : 865662     Mean   :73.16   Mean   : 30673  
##  3rd Qu.: 753870   3rd Qu.:1054954     3rd Qu.:75.23   3rd Qu.: 37622  
##  Max.   :1569714   Max.   :2283993     Max.   :81.64   Max.   :106120  
##       TPT       
##  Min.   :1.710  
##  1st Qu.:4.082  
##  Median :4.665  
##  Mean   :4.663  
##  3rd Qu.:5.600  
##  Max.   :8.050

Fungsi “summary()” digunakan untuk menghasilkan statistik deskriptif dasar dari dataset bernama “Data1”. Ketika fungsi ini diterapkan dalam data, maka akan memberikan gambaran umum mengenai ukuran pemusatan dan persebaran data untuk setiap variabel dalam dataset. Ukuran pemusatan mencakup nilai rata-rata, media, dan modus. Sedangkan ukuran penyebaran mencakup nilai minimum, maksimum, dan kuartil (Q1 dan Q3) yang menunjukkan rentang distribusi data.

Pada analisis ini, data disimpan dalam variabel “statdesk” yang akan berisi objek yang menyimpan seluruh informasi ringkasan dataset tersebut.

3.4 Analisis Cluster

3.4.1 Standarisasi Data

datastand <- scale(Data1)
datastand

##       Angkatan Kerja Penduduk Usia Kerja        TPAK Pengangguran          TPT
##  [1,]    -0.61542653         -0.71015858  2.25124822  -0.94074152 -1.982669548
##  [2,]    -0.09163575         -0.15544720  0.72224083  -0.12084187 -0.002025951
##  [3,]    -0.37955959         -0.49397267  2.00703176  -0.35151382 -0.100008320
##  [4,]     0.09869197          0.04706532  0.40900668   0.27684072  0.690849371
##  [5,]     0.28088843          0.24868784  0.09046348   0.21550460  0.172942564
##  [6,]     0.74444625          0.85249445 -1.17309124   0.88515077  0.788831740
##  [7,]     2.34341054          2.38034065 -0.66342211   2.23739187  0.725843074
##  [8,]    -0.01516665          0.07995280 -1.23945441  -0.31459187 -0.694901273
##  [9,]     2.26878442          2.21693820 -0.22807973   1.16429028 -0.456944092
## [10,]     1.23102153          0.96585591  1.56107127   0.85660743  0.060962714
## [11,]    -0.42049269         -0.43797291  0.32671635  -0.45065384 -0.358961723
## [12,]    -0.53692726         -0.56076397  0.56296923  -0.67398950 -0.974850898
## [13,]     0.02616721          0.09782909 -0.97665626  -0.40194574 -0.995847120
## [14,]     0.75770832          0.78032038 -0.51742314   0.78164105  0.571870780
## [15,]     1.44578783          1.53118603 -0.93949289   2.56916820  2.370547121
## [16,]     0.05174743          0.05134998 -0.17233467  -0.01821411  0.004972789
## [17,]     0.34459379          0.35236886 -0.33160627   0.18684098 -0.002025951
## [18,]    -0.08440885          0.04731058 -1.66417868  -0.11077954  0.011971530
## [19,]    -0.48824785         -0.47315136 -0.17764372  -0.31779899  0.333913599
## [20,]    -0.52043537         -0.58862914  1.41241778  -0.51182961 -0.351962983
## [21,]    -0.35472025         -0.28748763 -0.98992890  -0.75192246 -1.576742592
## [22,]     0.41769859          0.35868808  0.30017109   0.23001680 -0.023022173
## [23,]     0.26843317          0.20642093  0.41697026   0.05707298 -0.183993208
## [24,]     0.52030423          0.43448535  0.50987870   0.57626525  0.557873299
## [25,]     0.29236552          0.34974343 -0.80676655   0.78953858  1.509702024
## [26,]    -0.05095840         -0.02625145 -0.44309639   0.27916588  1.061782624
## [27,]    -0.17414792         -0.18840529  0.10108158  -0.61786494 -1.359781633
## [28,]    -0.28190546         -0.35306934  1.05671120  -0.86661701 -2.045658214
## [29,]     0.27057408          0.11326762  1.51328979  -0.73003388 -2.066654436
## [30,]    -1.21759003         -1.17819008 -0.35284248  -0.95890182 -0.421950389
## [31,]    -1.42626316         -1.38428121 -0.23869784  -1.04641605  0.403901005
## [32,]    -0.44331767         -0.34373079 -1.48101634   0.02456082  1.495704543
## [33,]    -1.30352714         -1.25653846 -0.67669474  -0.98676366 -0.093009579
## [34,]    -1.32843239         -1.30318293  0.66118672  -0.94843860  0.683850630
## [35,]    -1.45391311         -1.41190483 -0.17498919  -1.08417986  0.046965233
## [36,]    -1.36120260         -1.30850252 -1.02709227  -0.96752095  0.830824183
## [37,]     2.48258572          2.63532820 -1.17574576   3.02457891  1.467709580
## [38,]    -1.29693038         -1.28799337  1.54779864  -0.98307547 -0.100008320
## attr(,"scaled:center")
##      Angkatan Kerja Penduduk Usia Kerja                TPAK        Pengangguran 
##        6.281254e+05        8.656625e+05        7.315921e+01        3.067334e+04 
##                 TPT 
##        4.662895e+00 
## attr(,"scaled:scale")
##      Angkatan Kerja Penduduk Usia Kerja                TPAK        Pengangguran 
##        3.792774e+05        5.381988e+05        3.767150e+00        2.494452e+04 
##                 TPT 
##        1.428828e+00

rownames(datastand) <- 1:nrow(datastand)
hasildata <- mvn(Data1, multivariateOutlierMethod = "adj", showNewData = TRUE)

Proses utama yang dilakukan dalam analisis cluster yaitu melakukan standarisasi pada data menggunakan fungsi “scale()”. Fungsi ini digunakan untuk mengubah nilai-nilai dalam dataset sehingga memiliki distribusi dengan rata-rata 0 dan simpangan baku 1 kemudian disimpan dalam variabel “datastand”.

3.4.2 Menghitung Jarak

jarak <- dist(datastand, method = "euclidean")
jarak

##            1         2         3         4         5         6         7
## 2  2.7413700                                                            
## 3  2.0133588 1.3823883                                                  
## 4  3.6204167 0.9019863 2.0237134                                        
## 5  3.5178582 0.9192306 2.2487735 0.6688098                              
## 6  5.1992635 2.6352875 3.9381368 1.9870557 1.7331429                    
## 7  6.6511486 4.5134014 5.4947275 3.9342120 3.7094490 2.6425910          
## 8  3.9012823 2.1040732 3.3700306 2.2364183 1.7084955 2.1952409 4.4404526
## 9  5.4582628 3.7364984 4.6672853 3.4537697 3.0371304 2.5900264 1.6650300
## 10 3.7552144 2.1609614 2.5316833 2.0460904 2.0008305 2.8733011 3.2457940
## 11 2.5869906 0.7619622 1.7044521 1.4638778 1.3213414 2.8937200 4.9964805
## 12 1.9913869 1.2807398 1.7273918 2.1156106 1.9120476 3.4920794 5.4606757
## 13 3.5704304 2.0077295 3.1972345 2.2877051 1.7244420 2.4424839 4.5395938
## 14 4.6113822 2.0682471 3.3204721 1.4488675 1.1658348 0.7021908 2.6904925
## 15 7.1220096 4.5645393 5.5451958 3.7298636 3.7989210 2.5188904 2.1019353
## 16 3.4206066 0.9349709 2.3141198 0.9474513 0.4933041 1.8851209 4.0650334
## 17 3.7304332 1.2858600 2.6475170 1.0910370 0.4736946 1.4937192 3.5989710
## 18 4.5665892 2.3950904 3.7320745 2.2232292 1.8398742 1.7809766 4.2851338
## 19 3.4243945 1.1043898 2.2303539 1.2001175 1.2226317 2.4334802 4.8040915
## 20 1.8896028 1.0598053 0.6866978 1.8718222 1.9736574 3.6897949 5.4813676
## 21 3.3094224 2.4282027 3.3713643 2.9111606 2.4199263 3.2889550 5.3611309
## 22 3.3507276 0.9085384 2.1494485 0.8500142 0.3367598 1.8998468 3.6488781
## 23 3.0359137 0.6469576 1.9007204 0.9316207 0.5109325 2.1918933 3.9724423
## 24 3.7931688 1.2518123 2.2818498 0.6673560 0.7389653 1.7905617 3.3577164
## 25 5.1467914 2.4196389 3.6019396 1.5939281 1.7122519 1.0583596 3.3258642
## 26 4.3362091 1.6334173 2.8420741 0.9441648 1.1244952 1.5425548 3.9396365
## 27 2.3627121 1.5761554 2.3294169 2.2869831 1.8552546 3.2289936 5.1013081
## 28 1.2942680 2.2180489 2.2323494 3.0855231 2.7759070 4.3106640 5.8854705
## 29 1.4349431 2.3372992 2.2463682 3.1418133 2.8200563 4.3301590 5.5477927
## 30 3.1303541 2.0852485 2.6855208 2.5650821 2.4922011 3.6759485 6.0806290
## 31 3.6081318 2.2882593 2.7691791 2.5743174 2.7083366 3.8035980 6.2809434
## 32 5.2081268 2.6977419 3.8575703 2.1748839 2.2652024 2.0437319 4.6199770
## 33 3.5941336 2.3229727 3.0068591 2.6562153 2.6231260 3.6290952 6.1313064
## 34 3.2401759 2.0015079 2.0826026 2.3291216 2.6343372 3.9599770 6.2415258
## 35 3.3499444 2.2737474 2.7048939 2.6734232 2.7463830 3.9223876 6.3665590
## 36 4.4247235 2.7225003 3.4754718 2.7566765 2.8640170 3.5438872 6.1438152
## 37 7.7564897 5.4837206 6.4784423 4.8007366 4.6598422 3.3522619 1.2316222
## 38 2.1998608 2.0420551 1.4428455 2.6906942 2.9130437 4.5202273 6.5308265
##            8         9        10        11        12        13        14
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9  3.6124415                                                            
## 10 3.4819235 2.4912078                                                  
## 11 1.7368924 4.1480367 2.8473031                                        
## 12 2.0344585 4.4565576 3.1413462 0.7166927                              
## 13 0.4114487 3.5810381 3.3683837 1.6103927 1.7876564                    
## 14 2.1013371 2.3739886 2.2011894 2.4433517 3.0253999 2.2517680          
## 15 4.6950494 3.4091167 3.8581846 5.0530604 5.6810709 4.9225343 2.7651194
## 16 1.3121370 3.3495995 2.4495208 1.0153581 1.6284929 1.3411332 1.4525861
## 17 1.3264002 2.8900180 2.2796718 1.4755300 2.0244935 1.3844225 1.0351225
## 18 0.8529123 3.7620297 3.7302222 2.1366379 2.6126116 1.2601359 1.9160936
## 19 1.6479206 4.2026655 3.0827734 0.8705940 1.5486411 1.7333225 2.1223667
## 20 2.8091340 4.6002811 2.7475899 1.1023724 1.0662535 2.6276102 3.1238590
## 21 1.1320222 4.3198564 3.9827749 1.8260010 1.6993290 0.8681265 3.0934333
## 22 1.8394381 2.8670222 1.7377242 1.3835122 1.8838712 1.7881268 1.2728031
## 23 1.7998132 3.1241169 1.8739113 1.0892238 1.5551212 1.6977882 1.5931638
## 24 2.4157109 2.8556140 1.4892923 1.8907618 2.4542735 2.4368502 1.1285773
## 25 2.5365255 3.4257353 2.9951076 2.7282648 3.4216727 2.8036755 1.1684391
## 26 2.0211959 3.6809394 2.8248039 1.8573726 2.5671811 2.2369139 1.3425794
## 27 1.5583223 3.9815996 3.1033809 1.0970327 0.7968197 1.2093984 2.8069969
## 28 2.7677266 4.6271203 3.4191001 1.8913693 1.2392288 2.3980876 3.7962456
## 29 3.1168345 4.1988419 2.9488700 2.2767660 1.7901570 2.7411812 3.7487372
## 30 2.0747201 5.3109734 4.2172238 1.3810755 1.4387849 2.0503312 3.4324661
## 31 2.6229032 5.6789565 4.4229606 1.7786678 2.0375052 2.6880149 3.5920643
## 32 2.3097514 4.5380826 4.0649123 2.6349414 3.2901915 2.6569734 2.2496901
## 33 2.1393617 5.4577639 4.4488532 1.6777299 1.8665519 2.2021587 3.4629719
## 34 3.0907744 5.6468622 4.0193674 1.7378321 2.0034785 3.0984421 3.6177072
## 35 2.5634641 5.6867688 4.4320850 1.6835503 1.8227043 2.5817640 3.6839103
## 36 2.5571221 5.6962203 4.7445815 2.2711884 2.6671073 2.7498565 3.4984785
## 37 5.3478703 2.8781587 4.3038071 5.9619130 6.4808258 5.5066063 3.5613119
## 38 3.4761678 5.7350845 3.8575768 1.8254450 1.7138378 3.3442791 4.0410703
##           15        16        17        18        19        20        21
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16 4.1245950                                                            
## 17 3.7784058 0.4937969                                                  
## 18 4.2206109 1.5009233 1.4634299                                        
## 19 4.5629741 0.8744586 1.3290335 1.6704061                              
## 20 5.5493912 1.9024895 2.2991235 3.2176503 1.7466371                    
## 21 5.7587053 1.9971577 2.1662997 1.8907268 2.1333490 2.7289461          
## 22 3.8947771 0.7169665 0.6378337 2.0796886 1.4725855 1.9165428 2.4610534
## 23 4.2210730 0.6779796 0.7983858 2.1325035 1.3404130 1.6115824 2.2816344
## 24 3.3789642 1.2210069 1.1003875 2.4519680 1.7785324 2.2262595 3.1395865
## 25 2.5791359 1.8617503 1.6961951 2.0055796 2.0714689 3.4095928 3.5721946
## 26 3.4451771 1.1380528 1.2051794 1.6588348 1.1608476 2.5698172 2.9128165
## 27 5.5440521 1.5509363 1.7999446 2.3062093 1.7933405 1.7397237 1.1391975
## 28 6.4674309 2.5904262 2.8467133 3.5224539 2.7466693 1.7981629 2.1050832
## 29 6.3230732 2.7733329 2.9273948 3.8640433 3.1163470 2.0288692 2.6567262
## 30 5.9180892 2.0549273 2.5045046 2.3266185 1.4290058 2.0382645 1.8221305
## 31 5.8463567 2.3380118 2.8011104 2.6288872 1.4998463 2.2442999 2.6315744
## 32 3.8233044 2.0827714 2.1670335 1.5921865 1.7845215 3.4841747 3.2085881
## 33 5.8406307 2.1793139 2.6095205 2.2225583 1.4687426 2.3908881 2.0479316
## 34 5.7888361 2.4001263 2.8783316 3.1514831 1.6182278 1.7295467 3.1392412
## 35 6.0332827 2.3550333 2.8266078 2.6779226 1.5758977 2.1344210 2.4255902
## 36 5.5524424 2.4818242 2.8597424 2.2975718 1.6883374 2.9636053 2.8106440
## 37 1.8364122 4.9990940 4.5506443 5.0473269 5.6516978 6.4751850 6.3370606
## 38 6.3544452 2.7410964 3.2087159 3.7872791 2.2194520 1.1814976 3.2500782
##           22        23        24        25        26        27        28
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16                                                                      
## 17                                                                      
## 18                                                                      
## 19                                                                      
## 20                                                                      
## 21                                                                      
## 22                                                                      
## 23 0.3390114                                                            
## 24 0.7194289 0.9716022                                                  
## 25 1.9757043 2.2189536 1.6565492                                        
## 26 1.4489587 1.5802357 1.3375252 0.9233697                              
## 27 1.7874729 1.5131329 2.4780474 3.3979624 2.6469297                    
## 28 2.6195533 2.3117461 3.2284817 4.4361830 3.6576736 1.2183013          
## 29 2.5790820 2.3183074 3.1252109 4.5319403 3.8413407 1.6719352 0.8661776
## 30 2.6524067 2.4097412 3.1116039 3.4071863 2.5358259 1.8084043 2.4875922
## 31 2.9223383 2.7194737 3.2115737 3.2979923 2.4428390 2.5313227 3.1754850
## 32 2.5992524 2.6896191 2.5849092 1.4360139 1.2590189 3.3415751 4.4499045
## 33 2.8304230 2.6277910 3.2342830 3.2966449 2.4643915 2.1822327 2.9482088
## 34 2.7981328 2.5792890 2.9666150 3.3491243 2.4762432 2.6785316 3.1002076
## 35 2.9318455 2.7003094 3.2853980 3.4932014 2.6170145 2.3253713 2.9048626
## 36 3.1414634 3.0192167 3.3761120 3.0134273 2.3042415 2.9761563 3.8346192
## 37 4.6537123 4.9872858 4.2845804 3.8928494 4.6627992 6.1582543 7.0029961
## 38 2.9471353 2.6554420 3.1954505 4.0602153 3.1703491 2.5066177 2.4381635
##           29        30        31        32        33        34        35
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16                                                                      
## 17                                                                      
## 18                                                                      
## 19                                                                      
## 20                                                                      
## 21                                                                      
## 22                                                                      
## 23                                                                      
## 24                                                                      
## 25                                                                      
## 26                                                                      
## 27                                                                      
## 28                                                                      
## 29                                                                      
## 30 3.1815683                                                            
## 31 3.7940890 0.8881083                                                  
## 32 4.7900076 2.6857393 2.4354278                                        
## 33 3.6209639 0.4768462 0.6882603 2.4014373                              
## 34 3.5919650 1.5096588 0.9559871 2.8104884 1.5484519                    
## 35 3.5697480 0.6145563 0.3666274 2.6825654 0.5723163 1.0727557          
## 36 4.4259969 1.4358750 0.9055545 1.8454367 0.9912841 1.6950969 1.1719262
## 37 6.7136833 6.9534398 7.0724187 5.1507073 6.9467289 7.0575742 7.1956963
## 38 2.8902457 1.9326198 1.8642705 3.7888834 2.2247396 1.1844570 1.7435076
##           36        37
## 2                     
## 3                     
## 4                     
## 5                     
## 6                     
## 7                     
## 8                     
## 9                     
## 10                    
## 11                    
## 12                    
## 13                    
## 14                    
## 15                    
## 16                    
## 17                    
## 18                    
## 19                    
## 20                    
## 21                    
## 22                    
## 23                    
## 24                    
## 25                    
## 26                    
## 27                    
## 28                    
## 29                    
## 30                    
## 31                    
## 32                    
## 33                    
## 34                    
## 35                    
## 36                    
## 37 6.8332344          
## 38 2.7388512 7.4574742

Pada analisis ini digunakan fungsi “dist()” untuk menghitung jarak euclidean dengan memberikan ‘datastand’ sebagai argumen ke dalam fungsi. Fungsi “dist()” menghitung jarak antar baris dalam ‘datastand’ berdasarkan rumus euclidean yang merupakan akar kuadrat dari jumlah selisih kuadrat antara dua titik data. Hasil perhitungan ini kemudian disimpan dalam variabel ‘jarak’.

3.4.3 Koefisien Korelasi Cophenetic

# Koefisien Korelasi *Cophenetic*
## Single Linkage
hiers <- hclust(dist(Data1), method = "single")
# Korelasi *Cophenetic*
d1 = dist(Data1)
hc1 = hclust(d1, "single")
d2 = cophenetic(hc1)
cor.sing = cor(d1,d2)
cor.sing

## [1] 0.8477441

## Average Linkage
hierave <- hclust(dist(Data1), method = "ave")
# Korelasi *Cophenetic*
d1 = dist(Data1)
hc2 = hclust(d1, "ave")
d3 = cophenetic(hc2)
cor.ave = cor(d1,d3)
cor.ave

## [1] 0.8708003

## Complete Linkage
hiercomp <- hclust(dist(Data1), method = "complete")
# Korelasi *Cophenetic*
d1 = dist(Data1)
hc3 = hclust(d1, "complete")
d4 = cophenetic(hc3)
cor.comp = cor(d1,d4)
cor.comp

## [1] 0.5660287

## Centroid Linkage
hiercen <- hclust(dist(Data1), method = "centroid")
# Korelasi *Cophenetic*
d1 <- dist(Data1)
hc4 <- hclust(d1, "centroid")
d5 <- cophenetic(hc4)
cor.centr <- cor(d1,d5)
cor.centr

## [1] 0.8686592

## Ward
hierward <- hclust(dist(Data1), method = "ward.D")
# Korelasi *Cophenetic*
d1 <- dist(Data1)
hc5 <- hclust(d1,"ward.D")
d6 <- cophenetic(hc5)
cor.ward <- cor(d1,d6)
cor.ward

## [1] 0.7634847

#Menampilkan Hasil Koefisien Korelasi *Cophenetic Dari Beberapa Metode*
KorCoph <- data.frame(cor.sing, cor.ave, cor.comp, cor.centr, cor.ward)
KorCoph

##    cor.sing   cor.ave  cor.comp cor.centr  cor.ward
## 1 0.8477441 0.8708003 0.5660287 0.8686592 0.7634847

#Membuat Dataframe untuk Jarak Cophenetic
JarakCoph <- data.frame(Metode = c("Single Linkage", "Complete Linkage", "Average Linkage", "Ward's Method", "Centroid Linkage"), Korelasi = c(cor.sing, cor.ave, cor.comp, cor.centr, cor.ward))
JarakCoph

##             Metode  Korelasi
## 1   Single Linkage 0.8477441
## 2 Complete Linkage 0.8708003
## 3  Average Linkage 0.5660287
## 4    Ward's Method 0.8686592
## 5 Centroid Linkage 0.7634847

Analisis data pada kasus ini menggunakan metode cluster hierarki yang dimulai dengan memanfaatkan fungsi “hclust()”. Fungsi tersebut diberikan argumen yang merujuk pada ‘Data1’ yang akan dianalisis, dan parameter method digunakan untuk menentukan jenis metode klasterisasi yang akan diterapkan. Metode yang digunakan yaitu single linkage, average linkage, complete linkage, centroid linkage, dan Ward.D. Langkah selanjutnya yaitu menghitung jarak antar observasi dengan menggunakan fungsi “dist()” kemudian menyimpan hasilnya dalam ‘d1’.

Metode single linkage mengelompokkan data berdasarkan jarak terdekat antar anggota klaster. Dalam langkah ini, fungsi hclust() dijalankan dengan menggunakan d1 (yang berisi jarak antar observasi) sebagai argumen pertama dan “single” sebagai metode yang digunakan untuk klasterisasi. Hasil klasterisasi ini disimpan dalam variabel ‘hc1’.
Metode average linkage, cluster-cluster dihubungkan berdasarkan rata-rata jarak antar semua pasangan observasi antara dua klaster. Fungsi hclust() dijalankan kembali dengan argumen d1 untuk jarak antar data dan “ave” untuk metode yang digunakan. Hasilnya disimpan dalam variabel ‘hc2’. Kemudian menghitung korelasi cophenetic dengan memanfaatkan fungsi “cor()” menggunakan argumen ‘d1’ dan ‘d3’ dan disimpan dalam variabel ‘cor.ave’.
Metode complete linkage, cluster dihubungkan berdasarkan jarak terjauh antar pasangan observasi dari dua cluster yang berbeda. Fungsi hclust() dijalankan dengan argumen d1 dan “complete” untuk menentukan metode, dan hasil klasterisasi disimpan dalam variabel ‘hc3’. Kemudian menghitung korelasi cophenetic dengan memanfaatkan fungsi “cor()” menggunakan argumen ‘d1’ dan ‘d4’ dan disimpan dalam variabel ‘cor.comp’.
Metode centroid linkage, cluster-cluster dihubungkan berdasarkan jarak antara pusat (centroid) dari masing-masing klaster. Fungsi hclust() dijalankan dengan d1 dan “centroid” sebagai argumen, dan hasil klasterisasi disimpan dalam variabel ‘hc4’. Kemudian menghitung korelasi cophenetic dengan memanfaatkan fungsi “cor()” menggunakan argumen ‘d1’ dan ‘d5’ dan disimpan dalam variabel ‘cor.centr’
Metode Ward’s bertujuan untuk meminimalkan total varians dalam klaster dan menghasilkan klaster yang lebih homogen. Fungsi hclust() dijalankan dengan d1 untuk jarak antar observasi dan “ward” untuk metode yang digunakan, dan hasilnya disimpan dalam variabel ‘hc5’. Kemudian menghitung korelasi cophenetic dengan memanfaatkan fungsi “cor()” menggunakan argumen ‘d1’ dan ‘d6’ dan disimpan dalam variabel ‘cor.ward’.

Langkah selanjutnya yaitu menampilkan hasil korelasi cophenetic dengan membuat data.frame yang disimpan dalam variabel ‘KorCoph’.

3.4.4 Analisis Cluster Metode Average Linkage

a. Membuat Dendogram

## Membuat Dendogram
hc <- hclust(jarak, method = "ave")
plot(hc, hang = -1, main = "Cluster Dendogram With Average Linkage Method", sub = " ", xlab = "Kota/Kabupaten", ylab = "Jarak")

Pada tahap ini, digunakan fungsi “hclust()” untuk melakukan analisis clustering hierarki yang mengambil data jarak antar observasi sebagai argumen pertama dan ‘ave’ sebagai metode yang digunakan untuk penggabungan cluster. Setelah dilakukan kalsterisasi, langkah selanjutnya yaitu membuat dendogram yang menggambarkan hasil klasterisasi tersebut dengan menggunakan fungsi “plot()” dengan argumen didalamnya yaitu “hc, hang, main, sub, xlab, dan ylab”.

b. Penentuan Jumlah Cluster

## Penentuan Jumlah Cluster
plot(hc, hang = -1, main = "Cluster Dendogram With Average Linkage Method", sub = " ", xlab = "Kota/Kabupaten", ylab = "Jarak")
cut_level <- 2 #Menentukan jumlah cluster yaitu sebanyak 2
clusters <- cutree(hc, k=cut_level)
print(clusters)

##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
##  1  1  1  1  1  1  2  1  2  2  1  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1 
## 27 28 29 30 31 32 33 34 35 36 37 38 
##  1  1  1  1  1  1  1  1  1  1  2  1

#Menggabungkan menjadi 2 Cluster 
anggotaave <- data.frame(id = DATA$`Kota/Kabupaten`, cutree(hc, k = cut_level))
anggotaave

##                  id cutree.hc..k...cut_level.
## 1           Pacitan                         1
## 2          Ponorogo                         1
## 3        Trenggalek                         1
## 4       Tulungagung                         1
## 5            Blitar                         1
## 6            Kediri                         1
## 7            Malang                         2
## 8          Lumajang                         1
## 9            Jember                         2
## 10       Banyuwangi                         2
## 11        Bondowoso                         1
## 12        Situbondo                         1
## 13      Probolinggo                         1
## 14         Pasuruan                         1
## 15         Sidoarjo                         2
## 16        Mojokerto                         1
## 17          Jombang                         1
## 18          Nganjuk                         1
## 19           Madiun                         1
## 20          Magetan                         1
## 21            Ngawi                         1
## 22       Bojonegoro                         1
## 23            Tuban                         1
## 24         Lamongan                         1
## 25           Gresik                         1
## 26        Bangkalan                         1
## 27          Sampang                         1
## 28        Pamekasan                         1
## 29          Sumenep                         1
## 30      Kota Kediri                         1
## 31      Kota Blitar                         1
## 32      Kota Malang                         1
## 33 Kota Probolinggo                         1
## 34    Kota Pasuruan                         1
## 35   Kota Mojokerto                         1
## 36      Kota Madiun                         1
## 37    Kota Surabaya                         2
## 38        Kota Batu                         1

rect.hclust(hc, k = cut_level, border="red")

Pada tahop ini dilakukan penentuan jumlah cluster yaitu sebanyak 2 cluster dan akan disimpan dalam variabel “cut_level”. Selanjutnya, dendrogram yang telah dibuat sebelumnya akan dipotong untuk membentuk cluster-cluster yang diinginkan. Pemotongan ini dilakukan dengan menggunakan fungsi “cutree()”, yang mengambil hasil klasterisasi hierarki (hc) sebagai argumen, serta jumlah klaster yang ditentukan “cut_level” sebanyak 2. Hasil dari pemotongan ini disimpan dalam variabel clusters. Kemudian, hasil klasterisasi yang telah diperoleh dapat ditampilkan dengan menggunakan fungsi “print()”, yang akan menampilkan nomor cluster untuk setiap observasi dalam dataset. Untuk menampilkan anggota dari setiap cluster, digunakan fungsi “data.frame()” untuk menyusun hasil pengelompokan ke dalam sebuah data frame yang disimpan dalam variabel anggotaave.

Kemudian, untuk memvisualisasikan hasil klasterisasi pada dendrogram, fungsi rect.hclust() digunakan untuk menggambar persegi panjang berwarna merah yang membatasi area masing-masing cluster pada dendrogram. Hal ini memudahkan dalam mengidentifikasi batas antar klaster dan menunjukkan dengan jelas pengelompokan yang telah dibuat dalam analisis hierarki.

3.4.5 Karakteristik Setiap Cluster

## Karakteristik Setiap Cluster
library(cluster)
clusters <- cutree(hc, k = cut_level)
clusters

##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
##  1  1  1  1  1  1  2  1  2  2  1  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1 
## 27 28 29 30 31 32 33 34 35 36 37 38 
##  1  1  1  1  1  1  1  1  1  1  2  1

result <- aggregate(datastand, list(clusters), mean)
result

##   Group.1 Angkatan Kerja Penduduk Usia Kerja        TPAK Pengangguran
## 1       1     -0.2961088          -0.2948378  0.04380816   -0.2985466
## 2       2      1.9543180           1.9459298 -0.28913384    1.9704073
##          TPT
## 1 -0.1263066
## 2  0.8336237

#Membuat Dataframe Daftar Cluster
daftar_cluster = data.frame('Kota_Kabupaten' = DATA$`Kota/Kabupaten`, Cluster = clusters)
daftar_cluster

##      Kota_Kabupaten Cluster
## 1           Pacitan       1
## 2          Ponorogo       1
## 3        Trenggalek       1
## 4       Tulungagung       1
## 5            Blitar       1
## 6            Kediri       1
## 7            Malang       2
## 8          Lumajang       1
## 9            Jember       2
## 10       Banyuwangi       2
## 11        Bondowoso       1
## 12        Situbondo       1
## 13      Probolinggo       1
## 14         Pasuruan       1
## 15         Sidoarjo       2
## 16        Mojokerto       1
## 17          Jombang       1
## 18          Nganjuk       1
## 19           Madiun       1
## 20          Magetan       1
## 21            Ngawi       1
## 22       Bojonegoro       1
## 23            Tuban       1
## 24         Lamongan       1
## 25           Gresik       1
## 26        Bangkalan       1
## 27          Sampang       1
## 28        Pamekasan       1
## 29          Sumenep       1
## 30      Kota Kediri       1
## 31      Kota Blitar       1
## 32      Kota Malang       1
## 33 Kota Probolinggo       1
## 34    Kota Pasuruan       1
## 35   Kota Mojokerto       1
## 36      Kota Madiun       1
## 37    Kota Surabaya       2
## 38        Kota Batu       1

Mengekstrak informasi mengenai cluster-cluster yang dihasilkan dari proses clustering hierarki yang telah dilakukan sebelumnya, yang disimpan dalam variabel clusters. Selanjutnya, untuk mendapatkan gambaran yang lebih jelas mengenai karakteristik masing-masing cluster, data rata-rata dari setiap cluster dihitung menggunakan fungsi “aggregate()”. Fungsi ini akan mengelompokkan data berdasarkan cluster yang telah diidentifikasi dan menghitung nilai rata-rata untuk setiap variabel dalam cluster tersebut. Hasil perhitungan rata-rata ini disimpan dalam variabel result.

4 HASIL DAN PEMBAHASAN

4.1 Statistik Deskriptif

# Statistik Deskriptif
Data1 <- DATA[,-1]
Data1

## # A tibble: 38 × 5
##    `Angkatan Kerja` `Penduduk Usia Kerja`  TPAK Pengangguran   TPT
##               <dbl>                 <dbl> <dbl>        <dbl> <dbl>
##  1           394708                483456  81.6         7207  1.83
##  2           593370                782001  75.9        27659  4.66
##  3           484167                599807  80.7        21905  4.52
##  4           665557                890993  74.7        37579  5.65
##  5           734660                999506  73.5        36049  4.91
##  6           910477               1324474  68.7        52753  5.79
##  7          1516928               2146759  70.7        86484  5.7 
##  8           622373                908693  68.5        22826  3.67
##  9          1488624               2058816  72.3        59716  4.01
## 10          1095024               1385485  79.0        52041  4.75
## # ℹ 28 more rows

statdesk <- summary(Data1)
statdesk

##  Angkatan Kerja    Penduduk Usia Kerja      TPAK        Pengangguran   
##  Min.   :  76689   Min.   : 105777     Min.   :66.89   Min.   :  3629  
##  1st Qu.: 433788   1st Qu.: 572847     1st Qu.:70.24   1st Qu.: 12054  
##  Median : 602454   Median : 871264     Median :72.50   Median : 25242  
##  Mean   : 628125   Mean   : 865662     Mean   :73.16   Mean   : 30673  
##  3rd Qu.: 753870   3rd Qu.:1054954     3rd Qu.:75.23   3rd Qu.: 37622  
##  Max.   :1569714   Max.   :2283993     Max.   :81.64   Max.   :106120  
##       TPT       
##  Min.   :1.710  
##  1st Qu.:4.082  
##  Median :4.665  
##  Mean   :4.663  
##  3rd Qu.:5.600  
##  Max.   :8.050

Statistik deskriptif pada tahap ini akan memberikan gambaran umum mengenai ukuran pemusatan dan persebaran data untuk setiap variabel angkatan kerja, penduduk usia kerja, TPAK, pengangguran, dan TPT dalam dataset angkatan kerja di setiap Kota/Kabupaten pada Provinsi Jawa Timur. Ringkasan informasi yang didapatkan sebagai berikut : - Pada variabel angkatan kerja, Kota Mojokerto mencatat angkatan kerja terendah yaitu 76.689 sementara angkatan kerja tertinggi yaitu Kota Surabaya sebesar 1.569.714. - Pada variabel penduduk usia kerja, Kota Mojokerto memiliki penduduk usia kerja terendah yaitu 10.577 dan penduduk usia kerja tertinggi dimiliki oleh Kota Surabaya yaitu sebesar 2.283.993. - Pada variabel TPAK, Nganjuk merupakan kabupaten dengan TPAK terendah yaitu 66.89 dan Kabupaten Pacitan memiliki TPAK tertinggi yaitu 81.64. - Pada variabel pengangguran, Mojokerto merupakan Kota dengan pengangguran terendah yaitu 3.629 dan Kota dengan pengangguran tertinggi yaitu Surabaya sebesar 106.120. -Pada variabel TPT, angka terendah diperoleh oleh Kabupaten Sumenep yaitu 1.71 dan TPT tertinggi diperoleh oleh Kabupaten Sidoarjo yaitu 8.05. - Rata-rata angkatan kerja di seluruh Kota/Kabupaten Provinsi Jawa Timur yaitu 628.125. Rata-rata penduduk usia kerja di seluruh Kota/Kabupaten Provinsi Jawa Timur yaitu 865.662. Rata-rata TPAK di seluruh Kota/Kabupaten Provinsi Jawa Timur adalah 73.16. Rata-rata pengangguran di seluruh Kota/Kabupaten Provinsi Jawa Timur yaitu sebesar 30.673 dan rata-rata TPT di seluruh Kota/Kabupaten Provinsi Jawa Timur adalah 4.663.

4.2 Analisis Cluster

4.2.1 Standarisasi

Tahap awal dalam melakukan analisis cluster yaitu standarisasi ke dalam bentuk z-score. Standarisasi ini bertujuan untuk menyetarakan skala semua variabel, sehingga setiap variabel memiliki rata-rata nol dan simpangan baku satu. Hasil dari standarisasi digunakan dalam pengelompokan Kota/Kabupaten di Provinsi Jawa Timur berdasarkan keadaan angkatan kerja.

datatable(datastand,caption = "Tabel 4.1 Data Standarisasi")

4.2.2 Menghitung Jarak

Setelah proses standarisasi data selesai dilakukan, langkah berikutnya adalah menghitung jarak antara nilai tengah dari setiap objek pada masing-masing peubah dalam satu kelompok. Perhitungan ini dilakukan menggunakan metode jarak Euclidean, sehingga memberikan gambaran sejauh mana kesamaan atau perbedaan antara objek-objek dalam data tersebut. Detal hasil perhitungan jarak euclidean dapat dilihat pada subbab 3.4.2.

4.2.3 Koefisien Korelasi Cophenetic

Penentuan metode terbaik yang akan digunakan dalam analisis cluster hierarki dilihat dari koefisien korelasi cophenetic. Metode dengan nilai korelasi mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Adapun hasil lengkap perhitungan koefisien korelasi cophenetic untuk masing-masing metode yang diuji disajikan pada tabel berikut :

datatable(JarakCoph, caption = "Koefisien Korelasi Cophenetic")

Berdasarkan hasil perhitungan koefisien korelasi cophenetic, diketahui bahwa metode Average Linkage memiliki nilai koefisien korelasi tertinggi dibandingkan dengan metode lainnya, yaitu sebesar 0.8708003. Nilai ini menunjukkan bahwa metode Average Linkage paling baik dalam merepresentasikan struktur hubungan atau jarak antar objek dalam data, karena nilai koefisiennya mendekati angka 1. Pemilihan ini didasarkan pada keunggulannya dalam memberikan hasil pengelompokan yang lebih akurat dan sesuai dengan karakteristik data yang dianalisis.

4.2.4 Analisis Cluster Metode Average Linkage

Dendogram yang dihasilkan menggunakan metode Average Linkage menunjukkan pengelompokan hierarkis data berdasarkan jarak Euclidean. Garis horizontal pada dendogram merepresentasikan penggabungan antar objek atau cluster pada jarak tertentu, sementara garis vertikal menunjukkan tingkat kemiripan antar objek. Dari dendogram ini, terlihat bahwa dataset dikelompokkan menjadi dua cluster utama, yang ditandai dengan kotak merah. Cluster pertama, yang berada di sisi kiri dendogram, memiliki jumlah anggota yang lebih banyak dengan cabang yang lebih rapat dan panjang, menandakan tingkat kemiripan yang lebih tinggi antar anggotanya. Sedangkan cluster kedua, yang berada di bagian kanan dendogram, memiliki lebih sedikit anggota, dengan cabang yang lebih terpisah, menunjukkan kemiripan yang lebih rendah di antara anggotanya.

Pemotongan dendogram pada jarak tertentu menghasilkan dua cluster optimal, yang sesuai dengan struktur data. Proses pengelompokan menunjukkan bahwa objek yang digabungkan pada jarak Euclidean yang rendah memiliki kemiripan yang tinggi, sedangkan penggabungan pada jarak yang lebih besar menandakan perbedaan yang lebih signifikan. Secara keseluruhan, dendogram ini menggambarkan bahwa dua cluster merupakan hasil pengelompokan yang paling tepat, dengan cluster pertama terdiri atas 33 Kota/Kabupaten dan cluster kedua hanya terdiri atas 5 Kota/Kabupaten.

Berdasarkan hasil analisis cluster penggunakan metode Average Linkage, diperoleh anggota tiap cluster sebagai berikut:

datatable(daftar_cluster, caption = "Anggota Cluster")

4.2.5 Karakteristik Setiap Cluster

Tahap selanjutnya yang dilakukan setelah menentukan jumlah cluster beserta anggota yang terbentuk adalah mengidentifikasikan karakteristik dari masing-masing cluster. Setiap cluster memiliki karakterisitik yang berbeda berdasarkan angkatan kerja, penduduk usia kerja, TPAK, pengangguran, dan TPT. Karakteristik keadaan angkatan kerja dari setiap cluster dapat dilihat melalui nilai rata-rata masing-masing variabel. Tinggi rendahnya nilai rata-rata setiap variabel pada masing-masing cluster dengan metode Average Linkage disajikan pada tabel berikut:

datatable(result,caption = "Karakteristik Cluster")

Berdasarkan tabel dapat diketahui bahwa 33 Kota/Kabupaten di Provinsi Jawa Timur yang berada pada cluster 1 memiliki angkatan kerja, jumlah penduduk usia kerja, pengangguran, dan TPT yang rendah dan pengangguran yang tinggi dibandingkan dengan Kota/kabupaten yang berada di cluster 2. Berdasarkan karakteristik tersebut dapat diketahui bahwa cluster 1 merupakan kelompok Kota/Kabupaten dengan tingkat keseimbangan pasar tenaga kerja yang lebih baik.

Pada 5 Kota/Kabupaten di Provinsi Jawa Timur yang berada pada cluster 2 memiliki angkatan kerja, jumlah penduduk usia kerja, pengangguran, dan TPT yang tinggi dan pengangguran yang rendah dibandingkan dengan Kota/kabupaten yang berada di cluster 1. Sehingga dapat diketahui bahwa cluster 2 merupakan kelompok Kota/Kabupaten dengan tingkat keseimbangan pasar tenaga kerja yang buruk.

5 PENUTUP

5.1 Kesimpulan

Berdasarkan tingkat keseimbangan pasar tenaga kerja di setiap Kota/Kabupaten pada Provinsi Jawa Timur, digunakan metode analisis cluster hierarki untuk mengelompokkan setiap Kota/Kabupaten Provinsi Jawa Timur menjadi beberapa kelompok berdasarkan angkatan kerja, penduduk usia kerja, TPAK, pengangguran, dan TPT. Metode analisis cluster yang digunakan pada kasus ini adalah Average Linkage karena memiliki nilai koefisien cophenetic yang paling mendekati satu dan tertinggi daripada metode lainnya. Hasil yang didapatkan dengan menggunakan analisis cluster metode Average Linkage yaitu terbentuk 2 cluster, dimana cluster 1 terdiri dari 33 Kota/kabupaten dan cluster 2 terdiri dari 5 Kota/Kabupaten. Berdasarkan karakteristik setiap cluster, dapat ditentukan bahwa cluster 1 merupakan kelompok Kota/Kabupaten dengan tingkat keseimbangan pasar tenaga kerja yang baik, sedangkan cluster 2 merupakan kelompok Kota/Kabupaten dengan tingkat keseimbangan pasar tenaga kerja yang buruk. Sehingga dapat disimpulkan bahwa cluster yang memiliki tingkat keseimbangan pasar tenaga kerja lebih baik yaitu cluster 1 yang terdiri dari 33 Kota/kelurahan.

BAB 6 DAFTAR PUSTAKA

Badan Pusat Statistik Provinsi Jawa Timur.2024.Laporan Eksekutif Keadaan Angkatan Kerja Provinsi Jawa Timur 2023.Surabaya: BPS Provinsi Jawa Timur.

Hemelia, & Sumargo, B.(2019).Pengklasifikasian Pengguna Internet Lingkungan Pedesaan Menurut Jenjang Pendidikan di Indonesia Menggunakan Metode Cluster Average Linkage.Jurnal Statistika dan Aplikasinya (JSA), 3(1), 22-29.

Sukirno (2017) Makro ekonomi Teori Pengantar. Edisi 3. Jakarta: Rajawali Pers.

Supranto, J. (2004). Analisis multivariat: Arti dan interpretasi. Jakarta : PT. Asdi Mahasatya.

Todaro, Smith, 2005, Pembangunan Ekonomi di Dunia Ketiga, Edisi Kedelapan, Jakarta : Erlangga.

ANALISIS CLUSTER HIERARKI

Jesica Bunga Angelica

2024-11-25