Dataset ini memuat indikator ketenagakerjaan di Indonesia menurut provinsi, yang terdiri dari Tingkat Pengangguran Terbuka (TPT), Tingkat Partisipasi Angkatan Kerja (TPAK), persentase pekerja informal, dan persentase pekerja sektor pertanian. Data dan tema ketenagakerjaan dipilih karena merupakan isu strategis yang mencerminkan kondisi sosial ekonomi masyarakat di Indonesia. Variasi indikator seperti tingkat pengangguran, tingkat partisipasi angkatan kerja, pekerja informal, dan sektor pertanian antarprovinsi menunjukkan perbedaan karakteristik pasar kerja yang menarik untuk dianalisis. Selain relevan dengan kondisi nyata dan kebijakan publik, data ini juga bersifat numerik dan multivariat sehingga sangat sesuai digunakan untuk analisis statistik deskriptif, visualisasi, serta analisis cluster hirarki guna mengelompokkan provinsi berdasarkan kesamaan karakteristik ketenagakerjaan.

Sumber Data : Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Provinsi, 2023

Proportion of Informal Employment in Total Employment by Province, 2023

Persentase Tenaga Kerja Informal Sektor Pertanian (Persen), 2023

Pengambilan Data

library(readxl)
Ketenagakerjaan <- read_excel("Ketenagakerjaan.xlsx")
Ketenagakerjaan
## # A tibble: 34 × 5
##    Provinsi                    TPT  TPAK Informal Pertanian
##    <chr>                     <dbl> <dbl>    <dbl>     <dbl>
##  1 Aceh                       6.03  64.8     59.9      84.2
##  2 Sumatera Utara             5.89  71.1     58.5      80.6
##  3 Sumatera Barat             5.94  69.6     64.2      88.8
##  4 Riau                       4.23  64.4     52.1      66.8
##  5 Jambi                      4.53  68.8     59.7      77.2
##  6 Sumatera Selatan           4.11  70.7     63.0      82.4
##  7 Bengkulu                   3.42  70.9     67.8      90.4
##  8 Lampung                    4.23  70.0     70.7      91.2
##  9 Kepulauan Bangka Belitung  4.56  68.3     51.1      69.9
## 10 Kepulauan Riau             6.8   68.7     33.7      80.0
## # ℹ 24 more rows
# Note: Data berupa persentase

Statistik Deskriptif

summary(Ketenagakerjaan)
##    Provinsi              TPT             TPAK          Informal    
##  Length:34          Min.   :2.270   Min.   :63.60   Min.   :33.67  
##  Class :character   1st Qu.:3.487   1st Qu.:66.66   1st Qu.:52.71  
##  Mode  :character   Median :4.320   Median :69.69   Median :59.80  
##                     Mean   :4.614   Mean   :69.34   Mean   :59.35  
##                     3rd Qu.:5.763   3rd Qu.:71.02   3rd Qu.:65.11  
##                     Max.   :7.520   Max.   :77.20   Max.   :84.43  
##    Pertanian    
##  Min.   :59.72  
##  1st Qu.:80.61  
##  Median :89.75  
##  Mean   :86.46  
##  3rd Qu.:93.78  
##  Max.   :99.06

Penjelasan Statistik Deskriptif

  1. Tingkat Pengangguran Terbuka (TPT)

    Nilai TPT rata-rata sebesar 4,61%, dengan nilai minimum 2,27% dan maksimum 7,52%. Median TPT yang berada di 4,32% menunjukkan bahwa sebagian besar provinsi memiliki tingkat pengangguran di bawah 5%. Rentang nilai yang cukup lebar mengindikasikan adanya perbedaan kondisi pasar kerja antarprovinsi, khususnya antara wilayah yang lebih urban dan wilayah dengan dominasi sektor informal dan pertanian.

  2. Tingkat Partisipasi Angkatan Kerja (TPAK)

    Rata-rata TPAK sebesar 69,34%, dengan median 69,69%, menunjukkan bahwa sekitar dua pertiga penduduk usia kerja di setiap provinsi aktif dalam pasar tenaga kerja. Variasi TPAK relatif kecil dibandingkan variabel lain, yang menandakan bahwa tingkat partisipasi kerja antarprovinsi cenderung homogen.

  3. Persentase Pekerja Informal

    Rata-rata persentase pekerja informal sebesar 59,35%, dengan nilai maksimum mencapai 84,43%. Nilai kuartil atas yang cukup tinggi menunjukkan bahwa lebih dari separuh provinsi memiliki ketergantungan besar terhadap sektor informal. Variasi yang lebar mencerminkan ketimpangan struktur pekerjaan antarwilayah.

  4. Persentase Pekerja Sektor Pertanian

    Rata-rata persentase pekerja sektor pertanian sebesar 86,46%, dengan median 89,75%, menunjukkan bahwa sektor pertanian masih menjadi penyerap tenaga kerja utama di sebagian besar provinsi. Nilai maksimum yang mendekati 100% mengindikasikan dominasi sektor primer di wilayah tertentu, terutama di luar pusat-pusat urban.

Secara keseluruhan, statistik deskriptif menunjukkan bahwa perbedaan utama ketenagakerjaan antarprovinsi bukan pada tingkat partisipasi kerja, melainkan pada struktur lapangan pekerjaan, khususnya proporsi pekerja informal dan sektor pertanian. Kondisi ini menguatkan alasan penggunaan analisis cluster untuk mengelompokkan provinsi berdasarkan kesamaan karakteristik ketenagakerjaan.

Visualisasi Deskriptif

Bar Chart TPT

library(ggplot2)
tema_pastel <- theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", size = 14, hjust = 0.5),
    axis.title = element_text(face = "bold"),
    axis.text.y = element_text(size = 9),
    panel.grid.major = element_line(color = "#ECECEC"),
    panel.grid.minor = element_blank()
  )

ggplot(Ketenagakerjaan, aes(x = reorder(Provinsi, TPT), y = TPT)) +
  geom_col(fill = "#A7C7E7") +
  coord_flip() +
  labs(
    title = "Tingkat Pengangguran Terbuka (TPT) per Provinsi",
    x = "Provinsi",
    y = "TPT (%)"
  ) +
  tema_pastel

#Provinsi dengan TPT tertinggi : Banten
#Provinsi dengan TPT terendah : Sulawesi Barat

Penjelasan

Visualisasi bar chart menunjukkan bahwa nilai TPT bervariasi cukup lebar antarprovinsi. Provinsi dengan karakter perkotaan dan industri cenderung memiliki TPT lebih tinggi, sedangkan beberapa provinsi lain menunjukkan TPT relatif rendah, yang umumnya terkait dengan dominasi sektor informal dan pertanian sebagai penyerap tenaga kerja. Hal ini mengindikasikan adanya perbedaan struktur pasar kerja antarwilayah di Indonesia.

Histogram TPT

library(ggplot2)
ggplot(Ketenagakerjaan, aes(x = TPT)) +
  geom_histogram(
    fill = "#B5EAD7",
    color = "white",
    bins = 10
  ) +
  labs(
    title = "Distribusi Tingkat Pengangguran Terbuka",
    x = "TPT (%)",
    y = "Frekuensi"
  ) +
  tema_pastel

Penjelasan

Histogram memperlihatkan bahwa sebagian besar provinsi memiliki TPT pada kisaran menengah, dengan hanya beberapa provinsi berada pada nilai ekstrem (tinggi atau rendah). Pola distribusi ini menunjukkan bahwa pengangguran tidak tersebar secara merata, melainkan terkonsentrasi pada kelompok provinsi tertentu, yang penting untuk menjadi perhatian dalam perumusan kebijakan ketenagakerjaan.

Box Plot

data_long <- stack(Ketenagakerjaan[, c("TPT", "TPAK", "Informal", "Pertanian")])

ggplot(data_long, aes(x = ind, y = values, fill = ind)) +
  geom_boxplot(alpha = 0.8) +
  scale_fill_manual(values = c(
    "#FFDAC1", "#C7CEEA", "#E2F0CB", "#FEC8D8"
  )) +
  labs(
    title = "Sebaran Indikator Ketenagakerjaan",
    x = "Variabel",
    y = "Persentase (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(face = "bold", hjust = 0.5)
  )

Penjelasan

Box plot menunjukkan bahwa:

  -TPT memiliki sebaran relatif sempit dibandingkan variabel lain
  
  -TPAK cenderung lebih homogen antarprovinsi
  
  -Persentase pekerja informal dan sektor pertanian memiliki variasi paling besar
  
Hal ini mengindikasikan bahwa perbedaan utama antarprovinsi terletak pada struktur pekerjaan, bukan pada tingkat partisipasi kerja.

Scatter Plot TPAK vs TPT

ggplot(Ketenagakerjaan, aes(x = TPAK, y = TPT)) +
  geom_point(size = 3, color = "#D5AAFF", alpha = 0.8) +
  geom_smooth(method = "lm", color = "#B28DFF", se = FALSE) +
  labs(
    title = "Hubungan TPAK dan TPT",
    x = "TPAK (%)",
    y = "TPT (%)"
  ) +
  tema_pastel
## `geom_smooth()` using formula = 'y ~ x'

Penjelasan

Scatter plot memperlihatkan hubungan yang relatif lemah antara TPAK dan TPT. Artinya, tingginya partisipasi angkatan kerja tidak selalu diikuti oleh meningkatnya pengangguran, karena daya serap tenaga kerja sangat dipengaruhi oleh struktur ekonomi wilayah, khususnya keberadaan sektor informal dan pertanian.

Bar Chart Rata-Rata Nasional

rata2 <- colMeans(Ketenagakerjaan[, -1])
rata2_df <- data.frame(
  Variabel = names(rata2),
  Nilai = rata2
)

ggplot(rata2_df, aes(x = Variabel, y = Nilai)) +
  geom_col(fill = "#FFF1C1") +
  labs(
    title = "Rata-rata Indikator Ketenagakerjaan Nasional",
    x = "",
    y = "Persentase (%)"
  ) +
  tema_pastel

Penjelasan

Berdasarkan grafik rata-rata indikator ketenagakerjaan nasional, terlihat bahwa Tingkat Partisipasi Angkatan Kerja (TPAK) memiliki nilai yang relatif tinggi, menunjukkan bahwa sebagian besar penduduk usia kerja di Indonesia aktif terlibat dalam kegiatan ekonomi. Di sisi lain, persentase pekerja informal juga masih cukup besar, yang mengindikasikan bahwa banyak tenaga kerja bekerja pada sektor yang belum memiliki perlindungan dan kepastian kerja yang memadai. Selain itu, sektor pertanian masih menjadi salah satu sektor yang dominan dalam menyerap tenaga kerja di berbagai provinsi, mencerminkan pentingnya peran sektor primer dalam perekonomian Indonesia. Sementara itu, Tingkat Pengangguran Terbuka (TPT) berada pada level yang relatif rendah dibandingkan indikator lainnya, menandakan bahwa sebagian besar angkatan kerja telah terserap ke dalam pasar kerja. 

Kesimpulan Visualisasi Data

Secara keseluruhan, visualisasi data menunjukkan adanya perbedaan karakteristik ketenagakerjaan antarprovinsi di Indonesia, terutama pada struktur pekerjaan informal dan sektor pertanian. Variasi ini menjadi dasar yang kuat untuk dilakukan analisis lanjutan menggunakan metode cluster guna mengelompokkan provinsi berdasarkan kesamaan kondisi pasar tenaga kerja

Analisis Cluster Hirarki

str(Ketenagakerjaan)
## tibble [34 × 5] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi : chr [1:34] "Aceh" "Sumatera Utara" "Sumatera Barat" "Riau" ...
##  $ TPT      : num [1:34] 6.03 5.89 5.94 4.23 4.53 4.11 3.42 4.23 4.56 6.8 ...
##  $ TPAK     : num [1:34] 64.8 71.1 69.6 64.5 68.8 ...
##  $ Informal : num [1:34] 59.9 58.5 64.2 52.1 59.7 ...
##  $ Pertanian: num [1:34] 84.2 80.6 88.8 66.8 77.2 ...
rownames(Ketenagakerjaan) <- Ketenagakerjaan$Provinsi
## Warning: Setting row names on a tibble is deprecated.
data_num <- Ketenagakerjaan[, c("TPT", "TPAK", "Informal", "Pertanian")]

data_scaled <- scale(data_num)

dist_matrix <- dist(data_scaled, method = "euclidean")

hc <- hclust(dist_matrix, method = "ward.D2")

library(dendextend)
## 
## ---------------------
## Welcome to dendextend version 1.19.1
## Type citation('dendextend') for how to cite the package.
## 
## Type browseVignettes(package = 'dendextend') for the package vignette.
## The github page is: https://github.com/talgalili/dendextend/
## 
## Suggestions and bug-reports can be submitted at: https://github.com/talgalili/dendextend/issues
## You may ask questions at stackoverflow, use the r and dendextend tags: 
##   https://stackoverflow.com/questions/tagged/dendextend
## 
##  To suppress this message use:  suppressPackageStartupMessages(library(dendextend))
## ---------------------
## 
## Attaching package: 'dendextend'
## The following object is masked from 'package:stats':
## 
##     cutree
dend <- as.dendrogram(hc)
dend_col <- color_branches(dend, k = 3)
## Loading required namespace: colorspace
plot(
  hc,
  labels = rownames(Ketenagakerjaan),
  main = "Dendrogram Cluster Hirarki Provinsi (3 Cluster)",
  ylab = "Jarak",
  sub = "",
  cex = 0.7
)
rect.hclust(hc, k = 3, border = c("pink", "purple", "blue"))

# Menentukan jumlah cluster optimal
wss <- numeric(10)

for (k in 1:10) {
  wss[k] <- sum(kmeans(data_scaled, centers = k, nstart = 25)$withinss)
}

plot(
  1:10, wss,
  type = "b",
  pch = 19,
  xlab = "Jumlah Cluster",
  ylab = "Within Sum of Squares",
  main = "Metode Elbow untuk Menentukan Jumlah Cluster"
)

cluster <- cutree(hc, k = 3)
Ketenagakerjaan$Cluster <- factor(cluster)
Ketenagakerjaan[, c("Provinsi", "Cluster")]
## # A tibble: 34 × 2
##    Provinsi                  Cluster
##    <chr>                     <fct>  
##  1 Aceh                      1      
##  2 Sumatera Utara            2      
##  3 Sumatera Barat            2      
##  4 Riau                      1      
##  5 Jambi                     2      
##  6 Sumatera Selatan          2      
##  7 Bengkulu                  2      
##  8 Lampung                   2      
##  9 Kepulauan Bangka Belitung 1      
## 10 Kepulauan Riau            1      
## # ℹ 24 more rows
ringkasan_cluster <- aggregate(
  Ketenagakerjaan[, c("TPT", "TPAK", "Informal", "Pertanian")],
  by = list(Cluster = Ketenagakerjaan$Cluster),
  FUN = mean
)

print(ringkasan_cluster)
##   Cluster      TPT     TPAK Informal Pertanian
## 1       1 5.902727 65.71091 50.41000  78.47273
## 2       2 4.392941 69.78118 61.92588  88.03706
## 3       3 2.876667 74.74000 68.45333  96.66167
## Cluster 1: "Jawa Barat", "Banten", "Maluku", "Aceh", "Sulawesi Utara", "Riau", "Kep. Bangka Belitung", "Kalimantan Tengah", "DKI Jakarta", "Kepulauan Riau", "Kalimantan Timur"

## Cluster 2: "Kalimantan Selatan", "Kalimatan Utara", "Sumatera Selatan", "Jambi", "Kalimantan Barat", "Jawa Tengah", "Jawa Timur", "Sumatera Utara", "Sumatera Barat", "Papua Barat", "Sulawesi Selatan", "Maluku Utara", "Lampung", "Bengkulu", "Sulawesi Tenggara", "Sulawesi Tengah", "Gorontalo"

## Cluster 3: "DI Yogyakarta", "Bali", "Papua", "Sulawesi Barat", "Nusa Tenggara Barat", "Nusa Tenggara Timur"

Penjelasan Analisis Cluster Hirarki

Jumlah cluster dipilih sebanyak tiga karena pada dendrogram terlihat adanya lonjakan jarak yang signifikan setelah pembentukan tiga cluster. Selain itu, metode Elbow menunjukkan bahwa penurunan variasi dalam cluster mulai melambat setelah tiga cluster, sehingga jumlah tersebut dianggap optimal dan mudah diinterpretasikan

CLUSTER 1

Provinsi dalam cluster ini dicirikan oleh tingkat pekerja informal dan sektor pertanian yang tinggi, dengan TPT relatif rendah. Cluster ini menggambarkan wilayah dengan struktur ekonomi agraris dan dominasi sektor informal.

CLUSTER 2

Cluster ini memiliki TPAK yang relatif tinggi dengan proporsi pekerja informal sedang. Struktur ketenagakerjaan pada cluster ini lebih berimbang antara sektor formal dan informal.

CLUSTER 3

Provinsi pada cluster ini menunjukkan TPT yang relatif lebih tinggi serta ketergantungan yang lebih rendah pada sektor pertanian, mencerminkan wilayah yang lebih urban dan industrial.

KESIMPULAN

Analisis cluster hirarki berhasil mengelompokkan provinsi di Indonesia ke dalam beberapa kelompok dengan karakteristik ketenagakerjaan yang berbeda. Perbedaan utama antarcluster terletak pada tingkat informalitas dan dominasi sektor pertanian, bukan pada tingkat partisipasi angkatan kerja