Pendahuluan

Data yang digunakan dalam analisis ini adalah data Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) menurut provinsi di Indonesia pada tahun 2023. Data ini akan diolah menggunakan dua metode clustering, yaitu K-Means dan Fuzzy C-Means, dengan tujuan untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan karakteristik TPT dan TPAK. Tujuan utama dari analisis ini adalah untuk mengidentifikasi pola distribusi pengangguran dan partisipasi angkatan kerja antarprovinsi, sehingga dapat memberikan wawasan bagi pengambilan kebijakan tenaga kerja.

library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
library(cluster)
## Warning: package 'cluster' was built under R version 4.4.3
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.4.3
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(e1071)
## Warning: package 'e1071' was built under R version 4.4.3
library(fclust)
## Warning: package 'fclust' was built under R version 4.4.3
## Registered S3 method overwritten by 'fclust':
##   method       from 
##   print.fclust e1071
data <- read_excel("C:/Users/ASTHAGINA DELIA P/Downloads/Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Provinsi, 2023.xlsx")

Penentuan Jumlah Cluster Optimal

Proses penentuan jumlah cluster optimal dalam analisis ini dilakukan menggunakan metode silhouette yang menggunakan fungsi fviz_nbclust dari paket factoextra. Metode silhouette mengukur seberapa baik setiap titik data ditempatkan dalam clusternya dibandingkan dengan cluster lain berdasarkan nilai koefisien silhouette. Nilai silhouette berkisar antara -1 hingga 1, di mana nilai yang lebih tinggi menunjukkan bahwa titik data lebih cocok berada di clusternya dan kurang mirip dengan cluster lain.

data_clust <- data %>%
  select(`Tingkat Pengangguran Terbuka (TPT) - Agustus`, `Tingkat Partisipasi Angkatan Kerja (TPAK) - Agustus`)
  
data_scaled <- scale(data_clust)

fviz_nbclust(data_clust, kmeans, method = "silhouette") + 
  ggtitle("Silhouette Score")

K-means Clustering

set.seed(123)
kmeans_result <- kmeans(data_scaled, centers = 3, nstart = 25)
data_clust$Cluster_KMeans <- as.factor(kmeans_result$cluster)

fviz_cluster(kmeans_result, data = data_scaled, geom = "point", ellipse.type = "norm") +
  ggtitle("K-Means Clustering")

Berdasarkan visualisasi pada metode K-Means Pola yang terlihat yaitu cluster 1: Provinsi dengan TPT rendah dan TPAK tinggi, menunjukkan kondisi ketenagakerjaan yang relatif baik dengan tingkat pengangguran rendah dan partisipasi tenaga kerja yang tinggi. Cluster 2: Provinsi dengan TPT sedang dan TPAK sedang, mengindikasikan kondisi ketenagakerjaan yang moderat. Cluster 3: Provinsi dengan TPT tinggi dan TPAK rendah, mencerminkan tantangan ketenagakerjaan yang signifikan, seperti pengangguran tinggi dan partisipasi tenaga kerja yang terbatas.

Fuzzy C-means Clustering

fcm_result <- cmeans(data_scaled, centers = 3, m = 2)
data$cluster_fuzzy <- as.factor(fcm_result$cluster)

fviz_cluster(list(data = data_scaled, cluster = fcm_result$cluster),
             ellipse.type = "norm", geom = "point") +
  ggtitle("Fuzzy C-Means Clustering")

Visualisasi Fuzzy C-Means juga menunjukkan tiga cluster, namun dengan pendekatan yang memungkinkan provinsi memiliki keanggotaan parsial di beberapa cluster Pola yang terlihat mirip dengan K-Means, tetapi batas antar cluster lebih fleksibel, yang memungkinkan provinsi dengan karakteristik ambigu untuk memiliki keanggotaan di lebih dari satu cluster. Hal ini terlihat dari elips yang lebih tumpang tindih pada visualisasi.

write.csv(data, "D:/data/hasil_clustering4.csv", row.names = FALSE)

Visualisasi pemetaan

visualisasi pemetaan fuzzy c-means
visualisasi pemetaan fuzzy c-means

Cluster 1 (Warna Krem, 9 Provinsi): Provinsi dalam cluster ini cenderung tersebar merata di berbagai wilayah, termasuk sebagian Sumatra, Kalimantan, dan Papua. Cluster ini kemungkinan mencerminkan provinsi dengan TPT rendah dan TPAK tinggi, menunjukkan kondisi ketenagakerjaan yang relatif baik.

Cluster 2 (Warna Oranye, 18 Provinsi): Cluster ini mendominasi, mencakup sebagian besar provinsi di Jawa, Sumatra, Kalimantan, Sulawesi, dan Indonesia Timur. Ini menunjukkan karakteristik ketenagakerjaan yang moderat, dengan TPT dan TPAK berada pada tingkat sedang.

Cluster 3 (Warna Merah Tua, 7 Provinsi): Provinsi dalam cluster ini terkonsentrasi di wilayah tertentu, seperti Sumatra Barat, Kalimantan Selatan, Sulawesi Tenggara, dan Maluku Utara. Cluster ini kemungkinan mencerminkan TPT tinggi dan TPAK rendah, menunjukkan tantangan ketenagakerjaan yang signifikan


visualisasi pemetaan k-means
visualisasi pemetaan k-means

Cluster 1 (Warna Biru Muda, 16 Provinsi): Cluster ini tersebar di berbagai wilayah, termasuk sebagian Sumatra, Jawa, Kalimantan, Sulawesi, dan Indonesia Timur. Karakteristiknya mirip dengan Cluster 2 pada Fuzzy C-Means, yaitu TPT dan TPAK sedang.

Cluster 2 (Warna Biru Tua, 10 Provinsi): Provinsi dalam cluster ini terkonsentrasi di Kalimantan, Sulawesi, dan Maluku, mirip dengan Cluster 3 pada Fuzzy C-Means, menunjukkan TPT tinggi dan TPAK rendah.

Cluster 3 (Warna Hijau, 8 Provinsi): Cluster ini mencakup provinsi di Sumatra Utara, Kalimantan Utara, dan Papua, mirip dengan Cluster 1 pada Fuzzy C-Means, dengan TPT rendah dan TPAK tinggi.

Provinsi dengan TPT tinggi dan TPAK rendah (Cluster 3 pada Fuzzy C-Means, Cluster 2 pada K-Means) cenderung terkonsentrasi di wilayah timur Indonesia (seperti Maluku dan Sulawesi Tenggara) dan beberapa bagian Kalimantan. Ini mengindikasikan tantangan ketenagakerjaan di wilayah yang lebih terpencil.

Provinsi dengan TPT rendah dan TPAK tinggi (Cluster 1 pada Fuzzy C-Means, Cluster 3 pada K-Means) tersebar di wilayah yang lebih berkembang atau memiliki akses lebih baik ke peluang kerja, seperti Sumatra Utara dan Kalimantan Utara.

Insight

Saran

Kesimpulan

Analisis clustering menggunakan metode K-Means dan Fuzzy C-Means terhadap data Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) menurut provinsi tahun 2023 mengungkapkan adanya tiga kelompok provinsi di Indonesia dengan karakteristik ketenagakerjaan yang beragam: provinsi dengan TPT rendah dan TPAK tinggi (seperti Sumatra Utara), provinsi dengan TPT dan TPAK sedang yang mendominasi (terutama di Jawa dan Sumatra), serta provinsi dengan TPT tinggi dan TPAK rendah yang terkonsentrasi di wilayah timur seperti Maluku dan Sulawesi Tenggara, sebagaimana terlihat pada grafik dan peta spasial, hasil ini menunjukkan ketimpangan regional yang memerlukan kebijakan prioritas seperti penciptaan lapangan kerja di wilayah timur, pengembangan keterampilan di wilayah berkembang, serta investasi sektor industri di wilayah moderat, dengan rekomendasi untuk analisis lanjutan terhadap faktor penyebab dan pemantauan berkala guna mendukung kebijakan ketenagakerjaan yang lebih efektif.