Analisis Model Log-Linear

Hubungan Wilayah dan Tingkat Pendidikan terhadap Pengangguran Terbuka di Bandung Tahun 2025

Syahid Fattahul Ihsan dan Muhammad Zihan Fadillah

knitr::opts_chunk$set(
  echo = TRUE,
  warning = FALSE,
  message = FALSE,
  fig.align = "center",
  fig.width = 8.5,
  fig.height = 5.4
)

packages <- c(
  "dplyr",
  "ggplot2",
  "knitr",
  "kableExtra",
  "broom",
  "scales",
  "vcd"
)

installed <- rownames(installed.packages())

for (p in packages) {
  if (!(p %in% installed)) {
    install.packages(p)
  }
}

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.5.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.3
library(knitr)
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.3
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
library(broom)
library(scales)
library(vcd)
## Warning: package 'vcd' was built under R version 4.5.3
## Loading required package: grid
nice_kable <- function(x,
                       caption = NULL,
                       digits = 4,
                       full_width = FALSE,
                       color = "#12395B") {
  kable(
    x,
    caption = caption,
    digits = digits
  ) %>%
    kable_styling(
      full_width = full_width,
      bootstrap_options = c(
        "striped",
        "hover",
        "condensed",
        "responsive"
      ),
      position = "center"
    ) %>%
    row_spec(
      0,
      bold = TRUE,
      color = "white",
      background = color
    )
}

¹ Affiliation 1;
² Affiliation 2;

Abstract

Penelitian ini bertujuan untuk menganalisis hubungan antara wilayah (Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan terhadap pola pengangguran terbuka menggunakan pendekatan model log-linear. Data mencakup 228.163 pengangguran terbuka yang diklasifikasikan ke dalam lima kategori pendidikan: SD ke Bawah, SMP, SMA Umum, SMA Kejuruan, dan Diploma/PT. Penelitian ini akan membuat 5 model yakni model Null, model efek Wilayah, model efek Tingkat Pendidikan, model Independensi, dan model Saturasi. Perbandingan model menggunakan statistik uji Likelihood Ratio G² dan Pearson X², AIC dan BIC. Hasil menunjukkan bahwa model independensi ditolak secara signifikan (G² = 21.384,77; df = 4; p < 0,0001), artinya terdapat interaksi antara wilayah dan tingkat pendidikan. Berdasarkan seluruh model, model saturated terpilih sebagai model yang paling sesuai. Odds ratio pada seluruh kategori pendidikan selain Diploma/PT bernilai lebih besar dari 1 artinya kelompok pendidikan menengah dan bawah secara relatif lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung. Hal ini menunjukan kebijakan ketenagakerjaan perlu dirancang secara berbeda untuk masing-masing wilayah, dengan mempertimbangkan karakteristik distribusi tingkat pendidikan angkatan kerja setempat.

Keywords: model log-linear; tabel kontingensi; pengangguran terbuka; pendidikan; residual standar; odds ratio.

<div class="label">Total Pengangguran</div>
<div class="value">228.163</div>
<div class="label">Wilayah</div>
<div class="value">2</div>
<div class="label">Kategori Pendidikan</div>
<div class="value">5</div>
<div class="label">Model</div>
<div class="value">5</div>

1. Pendahuluan

Pengangguran terbuka merupakan salah satu indikator utama dalam mengukur kondisi ketenagakerjaan suatu wilayah. Berdasarkan data Badan Pusat Statistik, tingkat pengangguran terbuka (TPT) di Indonesia pada Agustus 2023 mencapai 5,32%, dengan jumlah penganggur sebesar 7,86 juta orang [1]. Jawa Barat sendiri merupakan Provinsi dengan TPT tertinggi di antara provinsi-provinsi lainya, dengan TPT sebesar 7,89% pada Februari 2023 yang kemudian menurun menjadi 6,91% pada Februari 2024 [2]. Kondisi ini menjadikan Jawa Barat, khususnya wilayah Bandung, sebagai objek yang relevan untuk dilakukan analisis.

Perbedaan karakteristik antara Kabupaten Bandung dan Kota Bandung mencerminkan dua struktur ekonomi yang berbeda dalam satu kawasan. Kota Bandung sebagai pusat pendidikan tinggi dan aktivitas ekonomi perkotaan memiliki konsentrasi angkatan kerja terdidik yang tinggi, sementara Kabupaten Bandung lebih banyak bertumpu pada sektor industri manufaktur dan informal. Perbedaan ini mengakibatkan distribusi pengangguran terbuka yang beragam antara kedua wilayah, terutama jika dilihat menurut jenjang pendidikan tenaga kerja. Jibril, Susilo, dan Sakti (2022) menunjukkan bahwa faktor lokasi atau unsur spasial memegang peranan signifikan dalam menjelaskan variasi tingkat pengangguran terbuka antar wilayah di Indonesia, sehingga pendekatan yang mempertimbangkan keragaman wilayah sangat diperlukan dalam analisis ketenagakerjaan [3].

Hubungan antara tingkat pendidikan dan pengangguran tidak bersifat linier. Beberapa penelitian menunjukkan bahwa peningkatan tingkat pendidikan tidak selalu diikuti dengan penurunan pengangguran, bahkan pada beberapa kondisi justru mendorong kenaikan pengangguran terbuka di kalangan tenaga kerja terdidik akibat ketidaksesuaian keterampilan (skills mismatch) dengan kebutuhan pasar kerja [4]. Haryanto dan Wibowo (2022) menegaskan bahwa faktor tingkat pendidikan merupakan salah satu variabel penting yang memengaruhi jumlah pengangguran di Indonesia; pemodelan yang tepat terhadap data pengangguran sebagai data cacah (count data) memerlukan pendekatan statistik berbasis distribusi Poisson yang mampu menangkap keragaman struktur data tersebut [5].

Analisis data kategorik, khususnya melalui model log-linear, merupakan pendekatan statistik yang tepat untuk memodelkan hubungan antara dua atau lebih variabel kategorik dalam tabel kontingensi. Model log-linear memungkinkan peneliti untuk menguji ada tidaknya asosiasi antar variabel sekaligus mengidentifikasi komponen interaksi yang menjelaskan pola frekuensi pada setiap sel tabel. Satria, Imro’ah, dan Huda (2023) menerapkan model log-linear dua arah pada data kategorik untuk menganalisis hubungan antara variabel wilayah dan variabel respons, dengan menggunakan uji Chi-Square dan uji rasio likelihood sebagai kriteria pemilihan model [6].

Penelitian ini bertujuan untuk menganalisis interaksi antara wilayah (Kabupaten Bandung dan Kota Bandung) dengan tingkat pendidikan terhadap jumlah pengangguran terbuka menggunakan model log-linear. Melalui pendekatan dua arah, penelitian ini mengevaluasi model-model yang dibentuk untuk menentukan struktur hubungan yang paling sesuai dengan data. Hasil analisis diharapkan dapat memberikan informasi yang berguna dalam menyusun kebijakan dalam menangani masalah tingginya pengangguran.

2. Materials and Methods

2.1. Data

Data yang digunakan dalam penelitian ini merupakan data pengangguran terbuka menurut tingkat pendidikan di Kabupaten Bandung dan Kota Bandung. Variabel yang diamati meliputi wilayah (dua kategori: Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan (lima kategori: SD ke Bawah, SMP, SMA Umum, SMA Kejuruan, dan Diploma/PT). Total frekuensi pengangguran yang dianalisis adalah 228.163 orang. Data berasal dari Open data Jabar [7].

data <- data.frame(
  Wilayah = c(
    rep("Kabupaten Bandung", 5),
    rep("Kota Bandung", 5)
  ),
  Pendidikan = rep(
    c(
      "SD ke Bawah",
      "SMP",
      "SMA Umum",
      "SMA Kejuruan",
      "Diploma/PT"
    ),
    2
  ),
  Freq = c(
    18433,
    25153,
    43658,
    36838,
    4775,
    8477,
    11871,
    23569,
    34997,
    20392
  )
)

data$Wilayah <- factor(
  data$Wilayah,
  levels = c(
    "Kabupaten Bandung",
    "Kota Bandung"
  )
)

data$Pendidikan <- factor(
  data$Pendidikan,
  levels = c(
    "Diploma/PT",
    "SD ke Bawah",
    "SMP",
    "SMA Umum",
    "SMA Kejuruan"
  )
)

tab <- xtabs(
  Freq ~ Wilayah + Pendidikan,
  data = data
)

tab
##                    Pendidikan
## Wilayah             Diploma/PT SD ke Bawah   SMP SMA Umum SMA Kejuruan
##   Kabupaten Bandung       4775       18433 25153    43658        36838
##   Kota Bandung           20392        8477 11871    23569        34997
tab_paper <- addmargins(tab)

nice_kable(
  tab_paper,
  caption = "Table 1. Tabel kontingensi pengangguran terbuka menurut tingkat pendidikan dan wilayah.",
  digits = 0,
  color = "#2C7FB8"
)
Table 1. Tabel kontingensi pengangguran terbuka menurut tingkat pendidikan dan wilayah.
Diploma/PT SD ke Bawah SMP SMA Umum SMA Kejuruan Sum
Kabupaten Bandung 4775 18433 25153 43658 36838 128857
Kota Bandung 20392 8477 11871 23569 34997 99306
Sum 25167 26910 37024 67227 71835 228163

2.2. Metode Analisis

Metode analisis yang digunakan adalah model log-linear dua arah untuk data kategorik. Log-linear memodelkan log dari harapan frekuensi sel sebagai kombinasi efek baris, kolom, dan interaksi, sehingga pola asosiasi bisa dijelaskan secara rinci (Justyna, 2016).

2.3. Model

Model log-linear digunakan untuk memodelkan frekuensi sel dalam tabel kontingensi dua arah. Diberikan tabel dengan baris i dan kolom j, Model yang dapat dibuat adalah sebagai berikut :

  1. Model Null

\[ log(\mu_{ij}) = \lambda \]

  1. Model Efek Wilayah

\[ log(\mu_{ij}) = \lambda + \lambda_i^X \]

  1. Model Efek Pendidikan

\[ log(\mu_{ij}) = \lambda + \lambda_j^Y \]

  1. Model Independent

\[ log(\mu_{ij}) = \lambda + \lambda_i^X + \lambda_j^Y \]

  1. Model Saturated

\[ log(\mu_{ij}) = \lambda + \lambda_i^X + \lambda_j^Y + \lambda_{ij}^{XY} \]

2.4. Tahapan Analisis

2.4.1. Statistika Deskriptif

Statistika deskriptif adalah ilmu statistik yang bertujuan mengumpulkan, mengolah, menyaji, dan menganalisis data kuantitatif secara deskriptif untuk menyederhanakan data dan memudahkan pembaca menangkap informasi (Maswar, 2017). Komponen statistik deskriptif meliputi penyajian data (tabel/grafik), ukuran pemusatan, ukuran letak, ukuran penyebaran, dan distribusi data. Semua ini dipakai untuk merangkum dan menjelaskan data.

2.4.2. Estimasi & Perbandingan Model

Untuk tabel kontingensi dengan sel ke‑i yang mempunyai ekspektasi μᵢ, model log‑linear menulis log μ = Xλ, di mana X adalah matriks desain, λ vektor parameter log‑linear (Klimova & Kuhn, 2022).

Dalam ekspansi loglinear penuh:

\[ log \mu_x = \sum_{D \subseteq V} \lambda_D(x_D) \]

Dengan D himpunan indeks variabel, \(\lambda_D\) efek utama dan interaksi (Fienberg & Rinaldo, 2011).

Persamaan likelihood log‑linear diringkas sebagai:

\[ X^\top n = X^\top \hat{\mu} \]

Artinya, margin yang diimplikasikan model (dari \(\hat{\mu}\)) harus sama dengan margin data observasi untuk sufficient statistics terkait (Jing & Papathomas, 2017).

Secara umum, langkah estimasi MLE diawali dengan pemilihan efek utama dan interaksi yang masuk dan susun matriks desain X. Selanjutnya, tulis log‑likelihood poisson / multinomial dan turunkan persamaan Xᵀn = Xᵀμ(λ) (Hammond dkk., 2023).

Dalam penghitungan MLE dengan algoritma numerik, ada dua pendekatan utama.

Pendekatan pertama adalah Iterative Proportional Fitting (IPF). Pada pendekatan ini, frekuensi sel disesuaikan secara bergantian agar margin model‑spesifik sama dengan margin data. Proses diulang sampai konvergen (Hammond dkk., 2023).

Pendekatan kedua adalah maksimum likelihood umum Newton–Raphson (IRWLS). Pada pendekatan ini, model diperlakukan sebagai GLM Poisson log μ = Xλ. Iteratively re‑weighted least squares (IRWLS) digunakan untuk memecahkan Xᵀn = Xᵀμ berulang kali (Vinciotti & Wit, 2026).

Dalam analisis tabel kontingensi, pemilihan model log‑linear biasanya dilakukan dengan membandingkan goodness of fit (Deviance) dan kriteria informasi (AIC, BIC) untuk mencari model yang pas sekaligus hemat parameter (Jing & Papathomas, 2017).

Menurut Jose dkk. (2020) dan Brzezińska (2013), nilai deviance, AIC, dan BIC dapat dihitung dengan rumus berikut.

\[ Deviance = -2 log-likelihood \]

\[ AIC = Deviance + 2k,\quad k = jumlah\ parameter \]

\[ BIC = Deviance + log(n)\cdot k,\quad n = ukuran\ sampel \]

Model yang dipilih adalah model dengan deviance kecil / tidak signifikan dan nilai AIC / BIC paling kecil dibanding kandidat-kandidat model lainnya (Li dkk., 2020).

2.4.3. Uji Goodness of Fit

Goodness of fit umumnya diuji dengan statistik Pearson chi-square dan likelihood ratio yang asimtotik berdistribusi chi‑square bila model benar (Skinner & Shlomo, 2008).

Statistik Pearson chi-square dihitung dengan rumus berikut.

\[ X^2 = \sum_i \frac{(n_i-\hat{\mu}_i)^2}{\hat{\mu}_i} \]

Di bawah H₀, \(X^2 \sim \chi^2_{df}\) secara asimtotik (Skinner & Shlomo, 2008).

Adapun likelihood ratio dihitung dengan rumus berikut.

\[ G^2 = 2 \sum_i n_i ln\left(\frac{n_i}{\hat{\mu}_i}\right) \]

Likelihood ratio juga asimtotik \(\chi^2_{df}\) bila asumsi terpenuhi (Maydeu-Olivares & Joe, 2006).

Nilai statistik uji dibandingkan dengan distribusi \(\chi^2_{df}\). Jika p-value kecil, maka model dianggap tidak fit (Skinner & Shlomo, 2008).

2.4.4. Uji Likelihood Ratio

Uji likelihood ratio membandingkan model yang lebih sederhana dengan model alternatif yang lebih lengkap menggunakan deviance atau G² sebagai statistik uji (Oliveira dkk., 2016).

Untuk membandingkan dua model bersarang:

\[ G^2_{dif} = G^2_{restr} - G^2_{unrestr} \]

\(G^2_{dif}\) asimtotik berdistribusi \(\chi^2\) dengan derajat bebas = selisih df kedua model (Maydeu-Olivares & Cai, 2006).

Jika p-value kecil, tolak H0 sehingga dilakukan penambahan parameter penting, misalnya efek interaksi. Model lebih lengkap memberi peningkatan kecocokan yang bermakna. Sebaliknya, p-value besar berarti tidak ada bukti kuat bahwa parameter tambahan diperlukan. Dengan kata lain, model yang lebih sederhana sudah cukup (Maydeu-Olivares & Cai, 2006).

2.4.5. Analisis Residual

Untuk tiap sel dengan observasi \(n_i\) dan harapan \(\hat{\mu}_i\), terdapat perhitungan residual biasa, residual Pearson, dan residual deviance.

Residual biasa:

\[ e_i = n_i - \hat{\mu}_i \]

Residual Pearson:

\[ r_{Pi} = \frac{n_i-\hat{\mu}_i}{\sqrt{\hat{\mu}_i}} \]

Residual deviance didefinisikan sebagai akar bertanda dari kontribusi deviance sel ke‑i terhadap deviance total (Feng & Sadeghpour, 2020).

Pola residual diperiksa dengan melihat besar-kecil nilainya dan visualisasi grafis / biplot. Setelahnya, pola residual dihubungkan dengan struktur data. Residual besar dan berpola sistematis menandakan bahwa model tidak sepenuhnya cocok dan perlu dimodifikasi, sedangkan residual yang kecil dan acak mendukung kecocokan model terhadap data (Brighenti dkk., 2022).

2.4.6. Odds Ratio

Odds ratio dipakai untuk mengukur kekuatan asosiasi / interaksi antar kategori, dan dapat dihitung dari frekuensi terduga model (Bouchet-Valat, 2019).

Pada tabel data kategori yang lebih besar dari 2x2, digunakan set odds ratio lokal atau matriks log odds ratio (Lawal, 2003).

Setiap odds ratio lokal dihitung dengan rumus berikut.

\[ OR = \frac{\hat{m}_{11} \times \hat{m}_{22}}{\hat{m}_{12} \times \hat{m}_{21}} \]

Dengan \(\hat{m}_{ij}\) adalah frekuensi terduga untuk setiap sel perpotongan dari kategori i dan kategori j.

OR = 1 berarti tidak ada asosiasi, interaksi terkait = 0 di skala log. OR > 1 berarti asosiasi positif. OR < 1 berarti asosiasi negatif. Besar kecilnya |log OR| mencerminkan kekuatan interaksi. Nilai besar berarti penyimpangan kuat dari independensi (Norton & Dowd, 2018).

3. Hasil

3.1. Statistik Deskriptif

ggplot(
  data,
  aes(
    x = Pendidikan,
    y = Freq,
    fill = Wilayah
  )
) +
  geom_col(
    position = "dodge",
    width = 0.74,
    color = "white"
  ) +
  scale_y_continuous(
    labels = comma
  ) +
  scale_fill_manual(
    values = c(
      "#2C7FB8",
      "#F39C12"
    )
  ) +
  labs(
    x = "Tingkat Pendidikan",
    y = "Jumlah Pengangguran",
    fill = "Wilayah"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(
      face = "bold",
      color = "#12395B"
    ),
    axis.text.x = element_text(
      angle = 30,
      hjust = 1
    ),
    legend.position = "top"
  )
Gambar 1. Jumlah pengangguran terbuka menurut pendidikan di kabupaten bandung dan Kota bandung

Gambar 1. Jumlah pengangguran terbuka menurut pendidikan di kabupaten bandung dan Kota bandung

Gambar diatas menunjukkan perbedaan jumlah pengangguran terbuka antara Kabupaten Bandung dan Kota Bandung berdasarkan tingkat pendidikan. Kabupaten Bandung memiliki jumlah pengangguran lebih tinggi pada lulusan SMA Umum, SMA Kejuruan, dan SMP, sedangkan Kota Bandung cenderung lebih rendah kecuali pada jenjang Diploma/PT yang justru lebih tinggi

prop_baris <- round(
  prop.table(
    tab,
    margin = 1
  ),
  4
)

nice_kable(
  prop_baris,
  caption = "Table 2. Proporsi jumlah pengangguran pengangguran terbuka menurut tingkat pendidikan per wilayah",
  digits = 4,
  color = "#2C7FB8"
)
Table 2. Proporsi jumlah pengangguran pengangguran terbuka menurut tingkat pendidikan per wilayah
Diploma/PT SD ke Bawah SMP SMA Umum SMA Kejuruan
Kabupaten Bandung 0.0371 0.1431 0.1952 0.3388 0.2859
Kota Bandung 0.2053 0.0854 0.1195 0.2373 0.3524

Tabel diatas menunjukan bahwa pada wilayah Kabupaten bandung Proporsi Jumlah Pengangguran terbuka terbesar berada pada tingkat pendidikan SMA (umum) dan yang terkecil adalah Diploma/PT, Berbeda dengan Kota bandung yang memiliki proporsi tersebar adalah SMA (kejuruan) dan yang terkecil adalah SD ke bawah.

3.2. Estimasi Model

Dalam Penelitian ini dibuat 5 model yakni, model null, efek wilayah, efek pendidikan, independensi, dan saturated. Semua model tersebut akan diestimasi parameter nya. Estimasi akan disajikan dalam tabel sebagai berikut :

m_null <- glm(
  Freq ~ 1,
  family = poisson(link = "log"),
  data = data
)

m_wilayah <- glm(
  Freq ~ Wilayah,
  family = poisson(link = "log"),
  data = data
)

m_pendidikan <- glm(
  Freq ~ Pendidikan,
  family = poisson(link = "log"),
  data = data
)

m_ind <- glm(
  Freq ~ Wilayah + Pendidikan,
  family = poisson(link = "log"),
  data = data
)

m_sat <- glm(
  Freq ~ Wilayah * Pendidikan,
  family = poisson(link = "log"),
  data = data
)
ambil_parameter <- function(model, nama_model) {
  broom::tidy(model) %>%
    mutate(
      Model = nama_model,
      Estimate = estimate,
      Std_Error = std.error,
      z_value = statistic,
      p_value = p.value
    ) %>%
    select(
      Model,
      Parameter = term,
      Estimate,
      Std_Error,
      z_value,
      p_value
    )
}

param_table <- bind_rows(
  ambil_parameter(
    m_null,
    "M0: Null"
  ),
  ambil_parameter(
    m_wilayah,
    "M1: Efek Wilayah"
  ),
  ambil_parameter(
    m_pendidikan,
    "M2: Efek Pendidikan"
  ),
  ambil_parameter(
    m_ind,
    "M3: Independensi"
  ),
  ambil_parameter(
    m_sat,
    "M4: Saturated"
  )
) %>%
  mutate(
    p_value = ifelse(
      p_value < 0.001,
      0,
      round(p_value, 4)
    )
  )

nice_kable(
  param_table,
  caption = "Table 3. Estimasi dari semua model",
  digits = 4,
  full_width = TRUE,
  color = "#12395B"
)
Table 3. Estimasi dari semua model
Model Parameter Estimate Std_Error z_value p_value
M0: Null (Intercept) 10.0352 0.0021 4793.4694 0
M1: Efek Wilayah (Intercept) 10.1570 0.0028 3646.0309 0
M1: Efek Wilayah WilayahKota Bandung -0.2605 0.0042 -61.6911 0
M2: Efek Pendidikan (Intercept) 9.4401 0.0063 1497.5945 0
M2: Efek Pendidikan PendidikanSD ke Bawah 0.0670 0.0088 7.6365 0
M2: Efek Pendidikan PendidikanSMP 0.3860 0.0082 47.2517 0
M2: Efek Pendidikan PendidikanSMA Umum 0.9825 0.0074 132.9586 0
M2: Efek Pendidikan PendidikanSMA Kejuruan 1.0488 0.0073 143.1865 0
M3: Independensi (Intercept) 9.5619 0.0066 1456.2812 0
M3: Independensi WilayahKota Bandung -0.2605 0.0042 -61.6911 0
M3: Independensi PendidikanSD ke Bawah 0.0670 0.0088 7.6365 0
M3: Independensi PendidikanSMP 0.3860 0.0082 47.2517 0
M3: Independensi PendidikanSMA Umum 0.9825 0.0074 132.9587 0
M3: Independensi PendidikanSMA Kejuruan 1.0488 0.0073 143.1865 0
M4: Saturated (Intercept) 8.4711 0.0145 585.3681 0
M4: Saturated WilayahKota Bandung 1.4517 0.0161 90.3009 0
M4: Saturated PendidikanSD ke Bawah 1.3507 0.0162 83.1841 0
M4: Saturated PendidikanSMP 1.6616 0.0158 105.2604 0
M4: Saturated PendidikanSMA Umum 2.2130 0.0152 145.1870 0
M4: Saturated PendidikanSMA Kejuruan 2.0431 0.0154 132.8365 0
M4: Saturated WilayahKota Bandung:PendidikanSD ke Bawah -2.2285 0.0208 -107.3846 0
M4: Saturated WilayahKota Bandung:PendidikanSMP -2.2026 0.0196 -112.6286 0
M4: Saturated WilayahKota Bandung:PendidikanSMA Umum -2.0682 0.0180 -114.9362 0
M4: Saturated WilayahKota Bandung:PendidikanSMA Kejuruan -1.5030 0.0177 -84.7955 0

3.3. Perbandingan Model

Model yang telah dibuat akan dibandingkan dengan melihat Deviance, AIC, dan BIC. Perbandingan di sajikan dalam tabel berikut :

models <- list(
  Null = m_null,
  `Efek Wilayah` = m_wilayah,
  `Efek Pendidikan` = m_pendidikan,
  Independensi = m_ind,
  Saturated = m_sat
)

comparison_table <- data.frame(
  Model = names(models),
  df = sapply(
    models,
    df.residual
  ),
  Deviance = sapply(
    models,
    deviance
  ),
  AIC = sapply(
    models,
    AIC
  ),
  BIC = sapply(
    models,
    BIC
  ),
  row.names = NULL
)

nice_kable(
  comparison_table,
  caption = "Table 2. Perbandingan Model",
  digits = 4,
  color = "#12395B"
)
Table 2. Perbandingan Model
Model df Deviance AIC BIC
Null 9 68650.60 68769.4862 68769.7888
Efek Wilayah 8 64812.47 64933.3548 64933.9599
Efek Pendidikan 5 25222.90 25349.7874 25351.3004
Independensi 4 21384.77 21513.6560 21515.4715
Saturated 0 0.00 136.8837 139.9095

Nilai deviance yang semakin kecil menunjukkan model semakin mampu merepresentasikan frekuensi observasi. Model saturated memiliki deviance mendekati nol karena model ini mereproduksi seluruh frekuensi observasi, tetapi hal ini tidak berarti model saturated harus langsung dipilih tanpa interpretasi substantif.

3.4. Uji Goodness Of Fit

gof_ind <- data.frame(
  Model = "Independensi",
  df = df.residual(m_ind),
  `p-value (G²)` = pchisq(
    deviance(m_ind),
    df = df.residual(m_ind),
    lower.tail = FALSE
  ),
  `p-value (X²)` = pchisq(
    sum(residuals(m_ind, type = "pearson")^2),
    df = df.residual(m_ind),
    lower.tail = FALSE
  ),
  check.names = FALSE
)

gof_ind <- gof_ind %>%
  mutate(
    `p-value (G²)` = ifelse(
      `p-value (G²)` < 0.0001,
      "< 0,0001",
      round(`p-value (G²)`, 4)
    ),
    `p-value (X²)` = ifelse(
      `p-value (X²)` < 0.0001,
      "< 0,0001",
      round(`p-value (X²)`, 4)
    )
  )

nice_kable(
  gof_ind,
  caption = "Table 2. Hasil Uji Goodness Of Fit",
  digits = 4,
  color = "#D7301F"
)
Table 2. Hasil Uji Goodness Of Fit
Model df p-value (G²) p-value (X²)
Independensi 4 < 0,0001 < 0,0001

Model independensi memiliki p-value kurang dari 0,001 sehingga model tersebut tidak fit terhadap data. Artinya, asumsi bahwa wilayah dan pendidikan saling independen tidak sesuai dengan data pengangguran terbuka.

3.5. Uji likelihood Ratio

Pengujian signifikansi model dilakukan menggunakan Likelihood Ratio Test (LRT) melalui analisis deviance. Hasil pengujian disajikan pada Tabel

lrt_paper <- anova(
  m_null,
  m_wilayah,
  m_ind,
  m_sat,
  test = "Chisq"
)

nice_kable(
  lrt_paper,
  caption = "Table 2. Hasil Uji Likelihood Ratio",
  digits = 4,
  color = "#2C7FB8"
)
Table 2. Hasil Uji Likelihood Ratio
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
9 68650.60 NA NA NA
8 64812.47 1 3838.131 0
4 21384.77 4 43427.699 0
0 0.00 4 21384.772 0

Hasil analisis menunjukkan bahwa setiap penambahan faktor pada model menyebabkan penurunan residual deviance yang signifikan (p-value < 0,001). Hal ini menandakan bahwa faktor-faktor yang ditambahkan berpengaruh signifikan meningkatkan kecocokan model. Oleh karena itu, model akhir merupakan model terbaik karena mampu menjelaskan data secara baik dengan residual deviance sebesar 0.

3.6. Analisis Residual

data_residual <- data %>%
  mutate(
    Ekspektasi = fitted(m_ind),
    `Residu Pearson` = residuals(
      m_ind,
      type = "pearson"
    ),
    `Residu Standar` = rstandard(
      m_ind,
      type = "pearson"
    )
  )

residual_paper <- data_residual %>%
  select(
    Wilayah,
    Pendidikan,
    Observasi = Freq,
    Ekspektasi,
    `Residu Pearson`,
    `Residu Standar`
  )

nice_kable(
  residual_paper,
  caption = "Table 2. Hasil Uji Likelihood Ratio",
  digits = 4,
  full_width = TRUE,
  color = "#12395B"
)
Table 2. Hasil Uji Likelihood Ratio
Wilayah Pendidikan Observasi Ekspektasi Residu Pearson Residu Standar
Kabupaten Bandung SD ke Bawah 18433 15197.65 26.2442 42.3564
Kabupaten Bandung SMP 25153 20909.62 29.3453 48.5984
Kabupaten Bandung SMA Umum 43658 37967.02 29.2068 52.7126
Kabupaten Bandung SMA Kejuruan 36838 40569.43 -18.5257 -33.9246
Kabupaten Bandung Diploma/PT 4775 14213.28 -79.1673 -127.2212
Kota Bandung SD ke Bawah 8477 11712.35 -29.8950 -42.3564
Kota Bandung SMP 11871 16114.38 -33.4276 -48.5984
Kota Bandung SMA Umum 23569 29259.98 -33.2698 -52.7126
Kota Bandung SMA Kejuruan 34997 31265.57 21.1029 33.9246
Kota Bandung Diploma/PT 20392 10953.72 90.1803 127.2212
data_plot_resid <- data_residual %>%
  mutate(
    Kategori = paste(
      Wilayah,
      Pendidikan,
      sep = " - "
    )
  )

ggplot(
  data_plot_resid,
  aes(
    x = reorder(Kategori, `Residu Standar`),
    y = `Residu Standar`
  )
) +
  geom_col(
    fill = "#5C6BC0",
    width = 0.72
  ) +
  coord_flip() +
  geom_hline(
    yintercept = c(-2, 2),
    linetype = "dashed",
    color = "#D7301F",
    linewidth = 1
  ) +
  geom_hline(
    yintercept = 0,
    color = "#263238"
  ) +
  labs(
    x = "Kombinasi Wilayah dan Pendidikan",
    y = "Residual Standar"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(
      face = "bold",
      color = "#12395B"
    )
  )
Gambar 2. Residual Standard

Gambar 2. Residual Standard

Residual terbesar terdapat pada kategori Diploma/PT. Kota Bandung–Diploma/PT memiliki residual positif sangat besar, sedangkan Kabupaten Bandung–Diploma/PT memiliki residual negatif sangat besar. Hal tersebut menunjukan bahwa kategori Diploma/PT merupakan sumber interaksi terbesar antar wilayah dan tingkat pendidikan.

3.7. Odds Ratio

ref <- "Diploma/PT"

hitung_or <- function(kat, ref, tab) {
  a <- tab["Kabupaten Bandung", kat]
  b <- tab["Kabupaten Bandung", ref]
  c <- tab["Kota Bandung", kat]
  d <- tab["Kota Bandung", ref]

  OR <- (a * d) / (b * c)
  Log_OR <- log(OR)
  SE_Log_OR <- sqrt(
    1 / a + 1 / b + 1 / c + 1 / d
  )
  Z <- Log_OR / SE_Log_OR
  p_value <- 2 * (1 - pnorm(abs(Z)))
  CI_95_Lower <- exp(Log_OR - 1.96 * SE_Log_OR)
  CI_95_Upper <- exp(Log_OR + 1.96 * SE_Log_OR)

  data.frame(
    Pendidikan = kat,
    Referensi = ref,
    OR = OR,
    Log_OR = Log_OR,
    SE_Log_OR = SE_Log_OR,
    Z = Z,
    p_value = p_value,
    CI_95_Lower = CI_95_Lower,
    CI_95_Upper = CI_95_Upper
  )
}

kategori_uji <- setdiff(
  colnames(tab),
  ref
)

odds_paper <- do.call(
  rbind,
  lapply(
    kategori_uji,
    hitung_or,
    ref = ref,
    tab = tab
  )
)

odds_paper <- odds_paper %>%
  mutate(
    p_value = ifelse(
      p_value < 0.001,
      0,
      round(p_value, 4)
    )
  )

nice_kable(
  odds_paper,
  caption = "Table 2. Odds ratio",
  digits = 4,
  color = "#F39C12"
)
Table 2. Odds ratio
Pendidikan Referensi OR Log_OR SE_Log_OR Z p_value CI_95_Lower CI_95_Upper
SD ke Bawah Diploma/PT 9.2862 2.2285 0.0208 107.3846 0 8.9161 9.6718
SMP Diploma/PT 9.0488 2.2026 0.0196 112.6286 0 8.7085 9.4023
SMA Umum Diploma/PT 7.9106 2.0682 0.0180 114.9362 0 7.6365 8.1946
SMA Kejuruan Diploma/PT 4.4952 1.5030 0.0177 84.7955 0 4.3417 4.6541

Seluruh OR lebih besar dari 1. Artinya, dibandingkan Diploma/PT, kategori SD ke bawah, SMP, SMA Umum, dan SMA Kejuruan relatif lebih dominan pada Kabupaten Bandung dibandingkan Kota Bandung.

3.8. Pemilihan Model Terbaik

Dari Perbandingan model dan uji yang telah dilakukan maka didapatkan model terbaik, yakni model saturated atau model model interaksi, berikut model tersebut :

\[ log(\mu_{ij}) = 8.4711 + 1.4517X_{kota} + 1.3507Y_{SD} + 1.6616Y_{SMP} + 2.2130Y_{SMA} + 2.0431Y_{SMK} - 2.2285X_{kota}Y_{SD} - 2.2026X_{kota}Y_{SMP} - 2.0682X_{kota}Y_{SMA} - 1.5030X_{kota}Y_{SMK} \]

4. Discussion

Hasil penelitian menunjukkan bahwa wilayah dan tingkat pendidikan memiliki interaksi yang signifikan terhadap jumlah pengangguran terbuka di Kabupaten Bandung dan Kota Bandung. Pengujian goodness of fit pada model independensi menghasilkan nilai deviance G2 = 21.384,77 dengan derajat bebas 4 dan p < 0,001, sehingga hipotesis bahwa wilayah dan tingkat pendidikan saling independen ditolak. Hal ini menunjukkan bahwa pola jumlah pengangguran terbuka tidak dapat dijelaskan hanya dengan efek wilayah atau efek pendidikan secara independent, melainkan terdapat interaksi yang perlu dipertimbangkan.

Perbandingan kelima model log-linear yang dibuat yakni model null, model efek wilayah, model efek pendidikan, model independensi, dan model saturated, menunjukkan penurunan deviance yang konsisten seiring penambahan parameter. Model saturated memperoleh nilai AIC = 136,88 dan BIC = 139,91, jauh lebih rendah dibandingkan model lainnya. Penurunan deviance yang signifikan pada setiap tahap penambahan faktor (uji likelihood ratio dengan p < 0,001) mengonfirmasi bahwa setiap komponen baik efek utama wilayah, efek utama pendidikan, maupun interaksi keduanya memiliki pengaruh yang signifikan .

Pada Analisis residual. Penyimpangan terbesar terdapat pada kategori Diploma/Perguruan Tinggi: Kota Bandung menghasilkan residual standar sebesar +127,221, sedangkan Kabupaten Bandung menghasilkan residual standar sebesar −127,221. Ini berarti jumlah pengangguran lulusan Diploma/PT di Kota Bandung jauh melebihi frekuensi harapan model independensi, sementara di Kabupaten Bandung jauh di bawah ekspektasi. Kondisi ini mungkin disebabkan karena Kota Bandung merupakan kota pusat pendidikan tinggi dan memiliki banyak perguruan tinggi yang tinggi, sehingga lulusan dari perguruan tinggi sangat besar. Di sisi lain, ketersediaan lapangan kerja yang membutuhkan untuk lulusan Diploma/Sarjana belum sepenuhnya mampu menyerap seluruh lulusan tersebut, terutama bagi yang memiliki preferensi kerja tertentu atau sedang dalam masa tunggu kerja yang panjang. Temuan ini sejalan dengan fenomena educated unemployment yang kerap terjadi di kota-kota besar dengan populasi mahasiswa tinggi.

Di Kabupaten Bandung, pengangguran lebih besar pada kelompok pendidikan menengah dan rendah. Residual standar pada kategori SMA Umum (+52,713), SMP (+48,598), dan SD ke Bawah (+42,356) seluruhnya bernilai positif di Kabupaten Bandung, menandakan bahwa frekuensi observasi lebih besar daripada frekuensi harapan di bawah asumsi independensi. Kondisi ini berkaitan erat dengan struktur ekonomi Kabupaten Bandung yang lebih banyak bertumpu pada sektor industri manufaktur, informal, dan pertanian. Ketidaksesuaian antara keterampilan tenaga kerja lulusan pendidikan menengah dan bawah dengan kebutuhan industri, terbatasnya akses pelatihan vokasional, serta minimnya informasi pasar kerja dapat menjadi faktor yang memperparah pola tersebut.

Pada Hasil odds ratio. Seluruh kategori pendidikan selain Diploma/PT memiliki nilai odds ratio lebih besar dari 1, dengan kisaran antara 4,4952 (SMA Kejuruan) hingga 9,2862 (SD ke Bawah), semuanya signifikan secara statistik (p < 0,001). Artinya, relatif terhadap Diploma/PT, kelompok pendidikan SD ke Bawah, SMP, SMA Umum, dan SMA Kejuruan lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung. Ini mengindikasikan bahwa Diploma/PT merupakan kategori yang secara proporsional jauh lebih menonjol di Kota Bandung, sementara pendidikan menengah dan bawah lebih menonjol di Kabupaten Bandung. Odds ratio tertinggi pada kategori SD ke Bawah (OR = 9,286) dan SMP (OR = 9,049) mengisyaratkan bahwa disparitas antara dua wilayah justru paling tajam pada kelompok pendidikan terendah.

Dari sudut pandang kebijakan ketenagakerjaan, temuan ini memiliki implikasi yang berbeda untuk masing-masing wilayah. Kota Bandung memerlukan strategi yang diarahkan pada penyerapan lulusan Diploma dan sarjana. Di sisi lain, Kabupaten Bandung memerlukan penguatan pelatihan dan peningkatan keterampilan bagi angkatan kerja berpendidikan menengah dan bawah, sekaligus membangun jembatan yang lebih efektif antara lulusan pendidikan menengah dengan kebutuhan industri lokal. Pendekatan kebijakan yang seragam tanpa mempertimbangkan interaksi wilayah dan tingkat pendidikan berisiko tidak tepat sasaran dalam mengatasi pengangguran terbuka di kedua wilayah ini.

5. Conclusions

Dari Hasil dan Diskusi yang telah dilakukan didapat beberapa kesimpulan sebagai berikut :

  1. Terdapat interaksi antara wilayah (Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan dalam membentuk pola pengangguran terbuka.
  2. Pada Analisis residual standar terlihat bahwa penyimpangan terbesar terjadi pada kategori Diploma/PT di Kota Bandung memiliki proporsi pengangguran berpendidikan tinggi yang jauh melebihi ekspektasi, sedangkan Kabupaten Bandung jauh di bawah ekspektasi.
  3. Dari perbandingan kelima model log-linear, model saturated terpilih sebagai model yang paling sesuai.
  4. Hasil odds ratio menunjukkan bahwa seluruh kategori pendidikan selain Diploma/PT memiliki nilai OR > 1 dan signifikan secara statistik (p < 0,001), dengan OR tertinggi pada kategori SD ke Bawah (OR = 9,286) dan SMP (OR = 9,049). Ini berarti kelompok pendidikan menengah dan bawah secara relatif lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung, sementara Diploma/PT justru lebih menonjol di Kota Bandung.
  5. Untuk pemangku kebijakan diperlukan strategi ketenagakerjaan yang berbeda antara kedua wilayah. Kota Bandung perlu memperkuat program penyerapan lulusan pendidikan bagi lulusan Sarjana dan Diploma, sedangkan Kabupaten Bandung membutuhkan penguatan pelatihan keterampilan terhadap lulusan menengah ke bawah.
  6. Untuk penelitian selanjutnya, disarankan untuk memasukkan variabel tambahan seperti jenis kelamin, usia, dan sektor industri guna membangun model log-linear tiga arah atau lebih yang mampu menjelaskan keragaman data..

References

  1. Badan Pusat Statistik. (2023). Keadaan Ketenagakerjaan Indonesia Agustus 2023. Jakarta: BPS Indonesia.

  2. Badan Pusat Statistik Provinsi Jawa Barat. (2024). Berita Resmi Statistik: Keadaan Ketenagakerjaan Jawa Barat Februari 2024. Bandung: BPS Jawa Barat.

  3. Jibril, H. T., Susilo, S., & Sakti, R. K. (2022). Pemodelan tingkat pengangguran di Indonesia dengan random effect spasial autoregression (SAR-RE). JPPI (Jurnal Penelitian Pendidikan Indonesia), 8(4), 1090–1101. https://doi.org/10.29210/020221721

  4. Khoiruddin, M. A., Setyanti, A. M., Suman, A., Prasetyia, F., & Susilo, S. (2024). Exploring determinants of education-job mismatch among educated workers in Indonesia. Jurnal Ekonomi Pembangunan: Kajian Masalah Ekonomi dan Pembangunan, 25(2), 263–281. https://doi.org/10.23917/jep.v25i2.23994

  5. Haryanto, A. E. P., & Wibowo, W. (2022). Pemodelan faktor-faktor yang memengaruhi jumlah pengangguran di Indonesia menggunakan metode generalized Poisson regression dan negative binomial regression. Jurnal Ketenagakerjaan, 17(2), 174–186. https://doi.org/10.47198/naker.v17i2.132

  6. Satria, T. A. I., Imro’ah, N., & Huda, N. M. (2023). Penerapan model log linier dalam menganalisis tabel kontingensi dua arah. BIMASTER: Buletin Ilmiah Matematika, Statistika dan Terapannya, 12(4). https://jurnal.untan.ac.id/index.php/jbmstr/article/view/72242

  7. Dinas Tenaga Kerja dan Transmigrasi Provinsi Jawa Barat. (2025). Jumlah pengangguran terbuka berdasarkan pendidikan dan kabupaten/kota di Jawa Barat. Available online : . https://opendata.jabarprov.go.id/id/dataset/jumlah-pengangguran-terbuka-berdasarkan-pendidikan-dan-kabupatenkota-di-jawa-barat

  8. Justyna, B. (2016). Ordinal Log-Linear Models for Contingency Tables. Folia Oeconomica Stetinensia, 16, 264-273. https://doi.org/10.1515/foli-2016-0017

  9. Maswar, M. (2017). ANALISIS STATISTIK DESKRIPTIF NILAI UAS EKONOMITRIKA MAHASISWA DENGAN PROGRAM SPSS 23 & EVIEWS 8.1. 273-292. https://doi.org/10.35316/jpii.v1i2.54

  10. Klimova, A., & Kuhn, M. (2022). On the maximum likelihood estimation in general log-linear models.

  11. Fienberg, S., & Rinaldo, A. (2011). Maximum Likelihood Estimation in Log-Linear Models: Theory and Algorithms. arXiv: Statistics Theory. https://doi.org/10.1214/12-aos986

  12. Jing, W., & Papathomas, M. (2017). On the correspondence of deviances and maximum-likelihood and interval estimates from log-linear to logistic regression modelling. Royal Society Open Science, 7. https://doi.org/10.1098/rsos.191483

  13. Hammond, C., Van Der Heijden, P. G. M., & Smith, P. A. (2023). Generating contingency tables with fixed marginal probabilities and dependence structures described by loglinear models. Journal of Statistical Computation and Simulation, 94, 2797 - 2812. https://doi.org/10.1080/00949655.2024.2353760

  14. Vinciotti, V., & Wit, E. C. (2026). Loglinear modelling of huge contingency tables.

  15. Jose, A., Philip, M., Prasanna, L., & Manjula, M. (2020). Comparison of Probit and Logistic Regression Models in the Analysis of Dichotomous Outcomes. 1-19. https://doi.org/10.3844/amjbsp.2020.1.19

  16. Brzezińska, J. (2013). Model Selection Methods in Log-Linear Analysis. 107-114.

  17. Li, Y., Yu, J., & Zeng, T. (2020). Deviance information criterion for latent variable models and misspecified models. Journal of Econometrics. https://doi.org/10.1016/j.jeconom.2019.11.002

  18. Skinner, C., & Shlomo, N. (2008). Assessing Identification Risk in Survey Microdata Using Log-Linear Models. Journal of the American Statistical Association, 103, 1001 - 989. https://doi.org/10.1198/016214507000001328

  19. Maydeu-Olivares, A., & Joe, H. (2006). Limited Information Goodness-of-fit Testing in Multidimensional Contingency Tables. Psychometrika, 71, 713-732. https://doi.org/10.1007/s11336-005-1295-9

  20. Oliveira, N. L., Pereira, C., Diniz, M., & Polpo, A. (2016). A discussion on significance indices for contingency tables under small sample sizes. PLoS ONE, 13. https://doi.org/10.1371/journal.pone.0199102

  21. Maydeu-Olivares, A., & Cai, L. (2006). A Cautionary Note on Using G2(dif) to Assess Relative Model Fit in Categorical Data Analysis. Multivariate Behavioral Research, 41, 55 - 64. https://doi.org/10.1207/s15327906mbr4101_4

  22. Brighenti, C. R. G., Mafra, D. A., & Cirillo, M. A. (2022). Heterogeneity among contingency tables diagnosed by hierarchical log-linear models and their effect on Biplots. Semina: Ciências Exatas e Tecnológicas. https://doi.org/10.5433/1679-0375.2022v43n2p135

  23. Feng, C., Li, L., & Sadeghpour, A. (2020). A comparison of residual diagnosis tools for diagnosing regression models for count data. BMC Medical Research Methodology, 20. https://doi.org/10.1186/s12874-020-01055-2

  24. Bouchet-Valat, M. (2019). General Marginal-free Association Indices for Contingency Tables: From the Altham Index to the Intrinsic Association Coefficient. Sociological Methods & Research, 51, 203 - 236. https://doi.org/10.1177/0049124119852389

  25. Lawal, B. H. (2003). The Structure of the Log Odds-Ratios in Non-Independence and Symmetry Diagonal Models for Square Contingency Tables. Quality and Quantity, 37, 111-134. https://doi.org/10.1023/a:1023391731581

  26. Norton, E., & Dowd, B. (2018). Log Odds and the Interpretation of Logit Models. Health Services Research, 53, 859–878. https://doi.org/10.1111/1475-6773.12712