Analisis Model Log-Linear

Hubungan Wilayah dan Tingkat Pendidikan terhadap Pengangguran Terbuka di Bandung Tahun 2025

Syahid Fattahul Ihsan dan Muhammad Zihan Fadillah

knitr::opts_chunk$set(
  echo = TRUE,
  warning = FALSE,
  message = FALSE,
  fig.align = "center",
  fig.width = 8.5,
  fig.height = 5.4
)

packages <- c(
  "dplyr",
  "ggplot2",
  "knitr",
  "kableExtra",
  "broom",
  "scales",
  "vcd"
)

installed <- rownames(installed.packages())

for (p in packages) {
  if (!(p %in% installed)) {
    install.packages(p)
  }
}

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.5.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.5.3

library(knitr)
library(kableExtra)

## Warning: package 'kableExtra' was built under R version 4.5.3

## 
## Attaching package: 'kableExtra'

## The following object is masked from 'package:dplyr':
## 
##     group_rows

library(broom)
library(scales)
library(vcd)

## Warning: package 'vcd' was built under R version 4.5.3

## Loading required package: grid

nice_kable <- function(x,
                       caption = NULL,
                       digits = 4,
                       full_width = FALSE,
                       color = "#12395B") {
  kable(
    x,
    caption = caption,
    digits = digits
  ) %>%
    kable_styling(
      full_width = full_width,
      bootstrap_options = c(
        "striped",
        "hover",
        "condensed",
        "responsive"
      ),
      position = "center"
    ) %>%
    row_spec(
      0,
      bold = TRUE,
      color = "white",
      background = color
    )
}

¹ Affiliation 1; syahid24002@mail.unpad.ac.id
² Affiliation 2; muhammad24274@mail.unpad.ac.id

Abstract

Penelitian ini bertujuan untuk menganalisis hubungan antara wilayah (Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan terhadap pola pengangguran terbuka menggunakan pendekatan model log-linear. Data mencakup 228.163 pengangguran terbuka yang diklasifikasikan ke dalam lima kategori pendidikan: SD ke Bawah, SMP, SMA Umum, SMA Kejuruan, dan Diploma/PT. Penelitian ini akan membuat 5 model yakni model Null, model efek Wilayah, model efek Tingkat Pendidikan, model Independensi, dan model Saturasi. Perbandingan model menggunakan statistik uji Likelihood Ratio G² dan Pearson X², AIC dan BIC. Hasil menunjukkan bahwa model independensi ditolak secara signifikan (G² = 21.384,77; df = 4; p < 0,0001), artinya terdapat interaksi antara wilayah dan tingkat pendidikan. Berdasarkan seluruh model, model saturated terpilih sebagai model yang paling sesuai. Odds ratio pada seluruh kategori pendidikan selain Diploma/PT bernilai lebih besar dari 1 artinya kelompok pendidikan menengah dan bawah secara relatif lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung. Hal ini menunjukan kebijakan ketenagakerjaan perlu dirancang secara berbeda untuk masing-masing wilayah, dengan mempertimbangkan karakteristik distribusi tingkat pendidikan angkatan kerja setempat.

Keywords: model log-linear; tabel kontingensi; pengangguran terbuka; pendidikan; residual standar; odds ratio.

<div class="label">Total Pengangguran</div>
<div class="value">228.163</div>

<div class="label">Wilayah</div>
<div class="value">2</div>

<div class="label">Kategori Pendidikan</div>
<div class="value">5</div>

<div class="label">Model</div>
<div class="value">5</div>

1. Pendahuluan

Pengangguran terbuka merupakan salah satu indikator utama dalam mengukur kondisi ketenagakerjaan suatu wilayah. Berdasarkan data Badan Pusat Statistik, tingkat pengangguran terbuka (TPT) di Indonesia pada Agustus 2023 mencapai 5,32%, dengan jumlah penganggur sebesar 7,86 juta orang [1]. Jawa Barat sendiri merupakan Provinsi dengan TPT tertinggi di antara provinsi-provinsi lainya, dengan TPT sebesar 7,89% pada Februari 2023 yang kemudian menurun menjadi 6,91% pada Februari 2024 [2]. Kondisi ini menjadikan Jawa Barat, khususnya wilayah Bandung, sebagai objek yang relevan untuk dilakukan analisis.

Perbedaan karakteristik antara Kabupaten Bandung dan Kota Bandung mencerminkan dua struktur ekonomi yang berbeda dalam satu kawasan. Kota Bandung sebagai pusat pendidikan tinggi dan aktivitas ekonomi perkotaan memiliki konsentrasi angkatan kerja terdidik yang tinggi, sementara Kabupaten Bandung lebih banyak bertumpu pada sektor industri manufaktur dan informal. Perbedaan ini mengakibatkan distribusi pengangguran terbuka yang beragam antara kedua wilayah, terutama jika dilihat menurut jenjang pendidikan tenaga kerja. Jibril, Susilo, dan Sakti (2022) menunjukkan bahwa faktor lokasi atau unsur spasial memegang peranan signifikan dalam menjelaskan variasi tingkat pengangguran terbuka antar wilayah di Indonesia, sehingga pendekatan yang mempertimbangkan keragaman wilayah sangat diperlukan dalam analisis ketenagakerjaan [3].

Hubungan antara tingkat pendidikan dan pengangguran tidak bersifat linier. Beberapa penelitian menunjukkan bahwa peningkatan tingkat pendidikan tidak selalu diikuti dengan penurunan pengangguran, bahkan pada beberapa kondisi justru mendorong kenaikan pengangguran terbuka di kalangan tenaga kerja terdidik akibat ketidaksesuaian keterampilan (skills mismatch) dengan kebutuhan pasar kerja [4]. Haryanto dan Wibowo (2022) menegaskan bahwa faktor tingkat pendidikan merupakan salah satu variabel penting yang memengaruhi jumlah pengangguran di Indonesia; pemodelan yang tepat terhadap data pengangguran sebagai data cacah (count data) memerlukan pendekatan statistik berbasis distribusi Poisson yang mampu menangkap keragaman struktur data tersebut [5].

Analisis data kategorik, khususnya melalui model log-linear, merupakan pendekatan statistik yang tepat untuk memodelkan hubungan antara dua atau lebih variabel kategorik dalam tabel kontingensi. Model log-linear memungkinkan peneliti untuk menguji ada tidaknya asosiasi antar variabel sekaligus mengidentifikasi komponen interaksi yang menjelaskan pola frekuensi pada setiap sel tabel. Satria, Imro’ah, dan Huda (2023) menerapkan model log-linear dua arah pada data kategorik untuk menganalisis hubungan antara variabel wilayah dan variabel respons, dengan menggunakan uji Chi-Square dan uji rasio likelihood sebagai kriteria pemilihan model [6].

Penelitian ini bertujuan untuk menganalisis interaksi antara wilayah (Kabupaten Bandung dan Kota Bandung) dengan tingkat pendidikan terhadap jumlah pengangguran terbuka menggunakan model log-linear. Melalui pendekatan dua arah, penelitian ini mengevaluasi model-model yang dibentuk untuk menentukan struktur hubungan yang paling sesuai dengan data. Hasil analisis diharapkan dapat memberikan informasi yang berguna dalam menyusun kebijakan dalam menangani masalah tingginya pengangguran.

2. Materials and Methods

2.1. Data

Data yang digunakan dalam penelitian ini merupakan data pengangguran terbuka menurut tingkat pendidikan di Kabupaten Bandung dan Kota Bandung. Variabel yang diamati meliputi wilayah (dua kategori: Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan (lima kategori: SD ke Bawah, SMP, SMA Umum, SMA Kejuruan, dan Diploma/PT). Total frekuensi pengangguran yang dianalisis adalah 228.163 orang. Data berasal dari Open data Jabar [7].

data <- data.frame(
  Wilayah = c(
    rep("Kabupaten Bandung", 5),
    rep("Kota Bandung", 5)
  ),
  Pendidikan = rep(
    c(
      "SD ke Bawah",
      "SMP",
      "SMA Umum",
      "SMA Kejuruan",
      "Diploma/PT"
    ),
    2
  ),
  Freq = c(
    18433,
    25153,
    43658,
    36838,
    4775,
    8477,
    11871,
    23569,
    34997,
    20392
  )
)

data$Wilayah <- factor(
  data$Wilayah,
  levels = c(
    "Kabupaten Bandung",
    "Kota Bandung"
  )
)

data$Pendidikan <- factor(
  data$Pendidikan,
  levels = c(
    "Diploma/PT",
    "SD ke Bawah",
    "SMP",
    "SMA Umum",
    "SMA Kejuruan"
  )
)

tab <- xtabs(
  Freq ~ Wilayah + Pendidikan,
  data = data
)

tab

##                    Pendidikan
## Wilayah             Diploma/PT SD ke Bawah   SMP SMA Umum SMA Kejuruan
##   Kabupaten Bandung       4775       18433 25153    43658        36838
##   Kota Bandung           20392        8477 11871    23569        34997

tab_paper <- addmargins(tab)

nice_kable(
  tab_paper,
  caption = "Table 1. Tabel kontingensi pengangguran terbuka menurut tingkat pendidikan dan wilayah.",
  digits = 0,
  color = "#2C7FB8"
)

Table 1. Tabel kontingensi pengangguran terbuka menurut tingkat pendidikan dan wilayah.
	Diploma/PT	SD ke Bawah	SMP	SMA Umum	SMA Kejuruan	Sum
Kabupaten Bandung	4775	18433	25153	43658	36838	128857
Kota Bandung	20392	8477	11871	23569	34997	99306
Sum	25167	26910	37024	67227	71835	228163

2.2. Metode Analisis

Metode analisis yang digunakan adalah model log-linear dua arah untuk data kategorik. Log-linear memodelkan log dari harapan frekuensi sel sebagai kombinasi efek baris, kolom, dan interaksi, sehingga pola asosiasi bisa dijelaskan secara rinci (Justyna, 2016).

2.3. Model

Model log-linear digunakan untuk memodelkan frekuensi sel dalam tabel kontingensi dua arah. Diberikan tabel dengan baris i dan kolom j, Model yang dapat dibuat adalah sebagai berikut :

Model Null

\[ log(\mu_{ij}) = \lambda \]

Model Efek Wilayah

\[ log(\mu_{ij}) = \lambda + \lambda_i^X \]

Model Efek Pendidikan

\[ log(\mu_{ij}) = \lambda + \lambda_j^Y \]

Model Independent

\[ log(\mu_{ij}) = \lambda + \lambda_i^X + \lambda_j^Y \]

Model Saturated

\[ log(\mu_{ij}) = \lambda + \lambda_i^X + \lambda_j^Y + \lambda_{ij}^{XY} \]

2.4. Tahapan Analisis

2.4.1. Statistika Deskriptif

Statistika deskriptif adalah ilmu statistik yang bertujuan mengumpulkan, mengolah, menyaji, dan menganalisis data kuantitatif secara deskriptif untuk menyederhanakan data dan memudahkan pembaca menangkap informasi (Maswar, 2017). Komponen statistik deskriptif meliputi penyajian data (tabel/grafik), ukuran pemusatan, ukuran letak, ukuran penyebaran, dan distribusi data. Semua ini dipakai untuk merangkum dan menjelaskan data.

2.4.2. Estimasi & Perbandingan Model

Untuk tabel kontingensi dengan sel ke‑i yang mempunyai ekspektasi μᵢ, model log‑linear menulis log μ = Xλ, di mana X adalah matriks desain, λ vektor parameter log‑linear (Klimova & Kuhn, 2022).

Dalam ekspansi loglinear penuh:

\[ log \mu_x = \sum_{D \subseteq V} \lambda_D(x_D) \]

Dengan D himpunan indeks variabel, \(\lambda_D\) efek utama dan interaksi (Fienberg & Rinaldo, 2011).

Persamaan likelihood log‑linear diringkas sebagai:

\[ X^\top n = X^\top \hat{\mu} \]

Artinya, margin yang diimplikasikan model (dari \(\hat{\mu}\)) harus sama dengan margin data observasi untuk sufficient statistics terkait (Jing & Papathomas, 2017).

Secara umum, langkah estimasi MLE diawali dengan pemilihan efek utama dan interaksi yang masuk dan susun matriks desain X. Selanjutnya, tulis log‑likelihood poisson / multinomial dan turunkan persamaan Xᵀn = Xᵀμ(λ) (Hammond dkk., 2023).

Dalam penghitungan MLE dengan algoritma numerik, ada dua pendekatan utama.

Pendekatan pertama adalah Iterative Proportional Fitting (IPF). Pada pendekatan ini, frekuensi sel disesuaikan secara bergantian agar margin model‑spesifik sama dengan margin data. Proses diulang sampai konvergen (Hammond dkk., 2023).

Pendekatan kedua adalah maksimum likelihood umum Newton–Raphson (IRWLS). Pada pendekatan ini, model diperlakukan sebagai GLM Poisson log μ = Xλ. Iteratively re‑weighted least squares (IRWLS) digunakan untuk memecahkan Xᵀn = Xᵀμ berulang kali (Vinciotti & Wit, 2026).

Dalam analisis tabel kontingensi, pemilihan model log‑linear biasanya dilakukan dengan membandingkan goodness of fit (Deviance) dan kriteria informasi (AIC, BIC) untuk mencari model yang pas sekaligus hemat parameter (Jing & Papathomas, 2017).

Menurut Jose dkk. (2020) dan Brzezińska (2013), nilai deviance, AIC, dan BIC dapat dihitung dengan rumus berikut.

\[ Deviance = -2 log-likelihood \]

\[ AIC = Deviance + 2k,\quad k = jumlah\ parameter \]

\[ BIC = Deviance + log(n)\cdot k,\quad n = ukuran\ sampel \]

Model yang dipilih adalah model dengan deviance kecil / tidak signifikan dan nilai AIC / BIC paling kecil dibanding kandidat-kandidat model lainnya (Li dkk., 2020).

2.4.3. Uji Goodness of Fit

Goodness of fit umumnya diuji dengan statistik Pearson chi-square dan likelihood ratio yang asimtotik berdistribusi chi‑square bila model benar (Skinner & Shlomo, 2008).

Statistik Pearson chi-square dihitung dengan rumus berikut.

\[ X^2 = \sum_i \frac{(n_i-\hat{\mu}_i)^2}{\hat{\mu}_i} \]

Di bawah H₀, \(X^2 \sim \chi^2_{df}\) secara asimtotik (Skinner & Shlomo, 2008).

Adapun likelihood ratio dihitung dengan rumus berikut.

\[ G^2 = 2 \sum_i n_i ln\left(\frac{n_i}{\hat{\mu}_i}\right) \]

Likelihood ratio juga asimtotik \(\chi^2_{df}\) bila asumsi terpenuhi (Maydeu-Olivares & Joe, 2006).

Nilai statistik uji dibandingkan dengan distribusi \(\chi^2_{df}\). Jika p-value kecil, maka model dianggap tidak fit (Skinner & Shlomo, 2008).

2.4.4. Uji Likelihood Ratio

Uji likelihood ratio membandingkan model yang lebih sederhana dengan model alternatif yang lebih lengkap menggunakan deviance atau G² sebagai statistik uji (Oliveira dkk., 2016).

Untuk membandingkan dua model bersarang:

\[ G^2_{dif} = G^2_{restr} - G^2_{unrestr} \]

\(G^2_{dif}\) asimtotik berdistribusi \(\chi^2\) dengan derajat bebas = selisih df kedua model (Maydeu-Olivares & Cai, 2006).

Jika p-value kecil, tolak H0 sehingga dilakukan penambahan parameter penting, misalnya efek interaksi. Model lebih lengkap memberi peningkatan kecocokan yang bermakna. Sebaliknya, p-value besar berarti tidak ada bukti kuat bahwa parameter tambahan diperlukan. Dengan kata lain, model yang lebih sederhana sudah cukup (Maydeu-Olivares & Cai, 2006).

2.4.5. Analisis Residual

Untuk tiap sel dengan observasi \(n_i\) dan harapan \(\hat{\mu}_i\), terdapat perhitungan residual biasa, residual Pearson, dan residual deviance.

Residual biasa:

\[ e_i = n_i - \hat{\mu}_i \]

Residual Pearson:

\[ r_{Pi} = \frac{n_i-\hat{\mu}_i}{\sqrt{\hat{\mu}_i}} \]

Residual deviance didefinisikan sebagai akar bertanda dari kontribusi deviance sel ke‑i terhadap deviance total (Feng & Sadeghpour, 2020).

Pola residual diperiksa dengan melihat besar-kecil nilainya dan visualisasi grafis / biplot. Setelahnya, pola residual dihubungkan dengan struktur data. Residual besar dan berpola sistematis menandakan bahwa model tidak sepenuhnya cocok dan perlu dimodifikasi, sedangkan residual yang kecil dan acak mendukung kecocokan model terhadap data (Brighenti dkk., 2022).

2.4.6. Odds Ratio

Odds ratio dipakai untuk mengukur kekuatan asosiasi / interaksi antar kategori, dan dapat dihitung dari frekuensi terduga model (Bouchet-Valat, 2019).

Pada tabel data kategori yang lebih besar dari 2x2, digunakan set odds ratio lokal atau matriks log odds ratio (Lawal, 2003).

Setiap odds ratio lokal dihitung dengan rumus berikut.

\[ OR = \frac{\hat{m}_{11} \times \hat{m}_{22}}{\hat{m}_{12} \times \hat{m}_{21}} \]

Dengan \(\hat{m}_{ij}\) adalah frekuensi terduga untuk setiap sel perpotongan dari kategori i dan kategori j.

OR = 1 berarti tidak ada asosiasi, interaksi terkait = 0 di skala log. OR > 1 berarti asosiasi positif. OR < 1 berarti asosiasi negatif. Besar kecilnya |log OR| mencerminkan kekuatan interaksi. Nilai besar berarti penyimpangan kuat dari independensi (Norton & Dowd, 2018).

3. Hasil

3.1. Statistik Deskriptif

ggplot(
  data,
  aes(
    x = Pendidikan,
    y = Freq,
    fill = Wilayah
  )
) +
  geom_col(
    position = "dodge",
    width = 0.74,
    color = "white"
  ) +
  scale_y_continuous(
    labels = comma
  ) +
  scale_fill_manual(
    values = c(
      "#2C7FB8",
      "#F39C12"
    )
  ) +
  labs(
    x = "Tingkat Pendidikan",
    y = "Jumlah Pengangguran",
    fill = "Wilayah"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(
      face = "bold",
      color = "#12395B"
    ),
    axis.text.x = element_text(
      angle = 30,
      hjust = 1
    ),
    legend.position = "top"
  )

Gambar 1. Jumlah pengangguran terbuka menurut pendidikan di kabupaten bandung dan Kota bandung

Gambar diatas menunjukkan perbedaan jumlah pengangguran terbuka antara Kabupaten Bandung dan Kota Bandung berdasarkan tingkat pendidikan. Kabupaten Bandung memiliki jumlah pengangguran lebih tinggi pada lulusan SMA Umum, SMA Kejuruan, dan SMP, sedangkan Kota Bandung cenderung lebih rendah kecuali pada jenjang Diploma/PT yang justru lebih tinggi

prop_baris <- round(
  prop.table(
    tab,
    margin = 1
  ),
  4
)

nice_kable(
  prop_baris,
  caption = "Table 2. Proporsi jumlah pengangguran pengangguran terbuka menurut tingkat pendidikan per wilayah",
  digits = 4,
  color = "#2C7FB8"
)

Table 2. Proporsi jumlah pengangguran pengangguran terbuka menurut tingkat pendidikan per wilayah
	Diploma/PT	SD ke Bawah	SMP	SMA Umum	SMA Kejuruan
Kabupaten Bandung	0.0371	0.1431	0.1952	0.3388	0.2859
Kota Bandung	0.2053	0.0854	0.1195	0.2373	0.3524

Tabel diatas menunjukan bahwa pada wilayah Kabupaten bandung Proporsi Jumlah Pengangguran terbuka terbesar berada pada tingkat pendidikan SMA (umum) dan yang terkecil adalah Diploma/PT, Berbeda dengan Kota bandung yang memiliki proporsi tersebar adalah SMA (kejuruan) dan yang terkecil adalah SD ke bawah.

3.2. Estimasi Model

Dalam Penelitian ini dibuat 5 model yakni, model null, efek wilayah, efek pendidikan, independensi, dan saturated. Semua model tersebut akan diestimasi parameter nya. Estimasi akan disajikan dalam tabel sebagai berikut :

m_null <- glm(
  Freq ~ 1,
  family = poisson(link = "log"),
  data = data
)

m_wilayah <- glm(
  Freq ~ Wilayah,
  family = poisson(link = "log"),
  data = data
)

m_pendidikan <- glm(
  Freq ~ Pendidikan,
  family = poisson(link = "log"),
  data = data
)

m_ind <- glm(
  Freq ~ Wilayah + Pendidikan,
  family = poisson(link = "log"),
  data = data
)

m_sat <- glm(
  Freq ~ Wilayah * Pendidikan,
  family = poisson(link = "log"),
  data = data
)

ambil_parameter <- function(model, nama_model) {
  broom::tidy(model) %>%
    mutate(
      Model = nama_model,
      Estimate = estimate,
      Std_Error = std.error,
      z_value = statistic,
      p_value = p.value
    ) %>%
    select(
      Model,
      Parameter = term,
      Estimate,
      Std_Error,
      z_value,
      p_value
    )
}

param_table <- bind_rows(
  ambil_parameter(
    m_null,
    "M0: Null"
  ),
  ambil_parameter(
    m_wilayah,
    "M1: Efek Wilayah"
  ),
  ambil_parameter(
    m_pendidikan,
    "M2: Efek Pendidikan"
  ),
  ambil_parameter(
    m_ind,
    "M3: Independensi"
  ),
  ambil_parameter(
    m_sat,
    "M4: Saturated"
  )
) %>%
  mutate(
    p_value = ifelse(
      p_value < 0.001,
      0,
      round(p_value, 4)
    )
  )

nice_kable(
  param_table,
  caption = "Table 3. Estimasi dari semua model",
  digits = 4,
  full_width = TRUE,
  color = "#12395B"
)

Table 3. Estimasi dari semua model
Model	Parameter	Estimate	Std_Error	z_value
M0: Null	(Intercept)	10.0352	0.0021	4793.4694
M1: Efek Wilayah	(Intercept)	10.1570	0.0028	3646.0309
M1: Efek Wilayah	WilayahKota Bandung	-0.2605	0.0042	-61.6911
M2: Efek Pendidikan	(Intercept)	9.4401	0.0063	1497.5945
M2: Efek Pendidikan	PendidikanSD ke Bawah	0.0670	0.0088	7.6365
M2: Efek Pendidikan	PendidikanSMP	0.3860	0.0082	47.2517
M2: Efek Pendidikan	PendidikanSMA Umum	0.9825	0.0074	132.9586
M2: Efek Pendidikan	PendidikanSMA Kejuruan	1.0488	0.0073	143.1865
M3: Independensi	(Intercept)	9.5619	0.0066	1456.2812
M3: Independensi	WilayahKota Bandung	-0.2605	0.0042	-61.6911
M3: Independensi	PendidikanSD ke Bawah	0.0670	0.0088	7.6365
M3: Independensi	PendidikanSMP	0.3860	0.0082	47.2517
M3: Independensi	PendidikanSMA Umum	0.9825	0.0074	132.9587
M3: Independensi	PendidikanSMA Kejuruan	1.0488	0.0073	143.1865
M4: Saturated	(Intercept)	8.4711	0.0145	585.3681
M4: Saturated	WilayahKota Bandung	1.4517	0.0161	90.3009
M4: Saturated	PendidikanSD ke Bawah	1.3507	0.0162	83.1841
M4: Saturated	PendidikanSMP	1.6616	0.0158	105.2604
M4: Saturated	PendidikanSMA Umum	2.2130	0.0152	145.1870
M4: Saturated	PendidikanSMA Kejuruan	2.0431	0.0154	132.8365
M4: Saturated	WilayahKota Bandung:PendidikanSD ke Bawah	-2.2285	0.0208	-107.3846
M4: Saturated	WilayahKota Bandung:PendidikanSMP	-2.2026	0.0196	-112.6286
M4: Saturated	WilayahKota Bandung:PendidikanSMA Umum	-2.0682	0.0180	-114.9362
M4: Saturated	WilayahKota Bandung:PendidikanSMA Kejuruan	-1.5030	0.0177	-84.7955

3.3. Perbandingan Model

Model yang telah dibuat akan dibandingkan dengan melihat Deviance, AIC, dan BIC. Perbandingan di sajikan dalam tabel berikut :

models <- list(
  Null = m_null,
  `Efek Wilayah` = m_wilayah,
  `Efek Pendidikan` = m_pendidikan,
  Independensi = m_ind,
  Saturated = m_sat
)

comparison_table <- data.frame(
  Model = names(models),
  df = sapply(
    models,
    df.residual
  ),
  Deviance = sapply(
    models,
    deviance
  ),
  AIC = sapply(
    models,
    AIC
  ),
  BIC = sapply(
    models,
    BIC
  ),
  row.names = NULL
)

nice_kable(
  comparison_table,
  caption = "Table 2. Perbandingan Model",
  digits = 4,
  color = "#12395B"
)

Table 2. Perbandingan Model
Model	df	Deviance	AIC	BIC
Null	9	68650.60	68769.4862	68769.7888
Efek Wilayah	8	64812.47	64933.3548	64933.9599
Efek Pendidikan	5	25222.90	25349.7874	25351.3004
Independensi	4	21384.77	21513.6560	21515.4715
Saturated	0	0.00	136.8837	139.9095

Nilai deviance yang semakin kecil menunjukkan model semakin mampu merepresentasikan frekuensi observasi. Model saturated memiliki deviance mendekati nol karena model ini mereproduksi seluruh frekuensi observasi, tetapi hal ini tidak berarti model saturated harus langsung dipilih tanpa interpretasi substantif.

3.4. Uji Goodness Of Fit

gof_ind <- data.frame(
  Model = "Independensi",
  df = df.residual(m_ind),
  `p-value (G²)` = pchisq(
    deviance(m_ind),
    df = df.residual(m_ind),
    lower.tail = FALSE
  ),
  `p-value (X²)` = pchisq(
    sum(residuals(m_ind, type = "pearson")^2),
    df = df.residual(m_ind),
    lower.tail = FALSE
  ),
  check.names = FALSE
)

gof_ind <- gof_ind %>%
  mutate(
    `p-value (G²)` = ifelse(
      `p-value (G²)` < 0.0001,
      "< 0,0001",
      round(`p-value (G²)`, 4)
    ),
    `p-value (X²)` = ifelse(
      `p-value (X²)` < 0.0001,
      "< 0,0001",
      round(`p-value (X²)`, 4)
    )
  )

nice_kable(
  gof_ind,
  caption = "Table 2. Hasil Uji Goodness Of Fit",
  digits = 4,
  color = "#D7301F"
)

Table 2. Hasil Uji Goodness Of Fit
Model	df	p-value (G²)	p-value (X²)
Independensi	4	< 0,0001	< 0,0001

Model independensi memiliki p-value kurang dari 0,001 sehingga model tersebut tidak fit terhadap data. Artinya, asumsi bahwa wilayah dan pendidikan saling independen tidak sesuai dengan data pengangguran terbuka.

3.5. Uji likelihood Ratio

Pengujian signifikansi model dilakukan menggunakan Likelihood Ratio Test (LRT) melalui analisis deviance. Hasil pengujian disajikan pada Tabel

lrt_paper <- anova(
  m_null,
  m_wilayah,
  m_ind,
  m_sat,
  test = "Chisq"
)

nice_kable(
  lrt_paper,
  caption = "Table 2. Hasil Uji Likelihood Ratio",
  digits = 4,
  color = "#2C7FB8"
)

Table 2. Hasil Uji Likelihood Ratio
Resid. Df	Resid. Dev	Df	Deviance	Pr(>Chi)
9	68650.60	NA	NA	NA
8	64812.47	1	3838.131	0
4	21384.77	4	43427.699	0
0	0.00	4	21384.772	0

Hasil analisis menunjukkan bahwa setiap penambahan faktor pada model menyebabkan penurunan residual deviance yang signifikan (p-value < 0,001). Hal ini menandakan bahwa faktor-faktor yang ditambahkan berpengaruh signifikan meningkatkan kecocokan model. Oleh karena itu, model akhir merupakan model terbaik karena mampu menjelaskan data secara baik dengan residual deviance sebesar 0.

3.6. Analisis Residual

data_residual <- data %>%
  mutate(
    Ekspektasi = fitted(m_ind),
    `Residu Pearson` = residuals(
      m_ind,
      type = "pearson"
    ),
    `Residu Standar` = rstandard(
      m_ind,
      type = "pearson"
    )
  )

residual_paper <- data_residual %>%
  select(
    Wilayah,
    Pendidikan,
    Observasi = Freq,
    Ekspektasi,
    `Residu Pearson`,
    `Residu Standar`
  )

nice_kable(
  residual_paper,
  caption = "Table 2. Hasil Uji Likelihood Ratio",
  digits = 4,
  full_width = TRUE,
  color = "#12395B"
)

Table 2. Hasil Uji Likelihood Ratio
Wilayah	Pendidikan	Observasi	Ekspektasi	Residu Pearson	Residu Standar
Kabupaten Bandung	SD ke Bawah	18433	15197.65	26.2442	42.3564
Kabupaten Bandung	SMP	25153	20909.62	29.3453	48.5984
Kabupaten Bandung	SMA Umum	43658	37967.02	29.2068	52.7126
Kabupaten Bandung	SMA Kejuruan	36838	40569.43	-18.5257	-33.9246
Kabupaten Bandung	Diploma/PT	4775	14213.28	-79.1673	-127.2212
Kota Bandung	SD ke Bawah	8477	11712.35	-29.8950	-42.3564
Kota Bandung	SMP	11871	16114.38	-33.4276	-48.5984
Kota Bandung	SMA Umum	23569	29259.98	-33.2698	-52.7126
Kota Bandung	SMA Kejuruan	34997	31265.57	21.1029	33.9246
Kota Bandung	Diploma/PT	20392	10953.72	90.1803	127.2212

data_plot_resid <- data_residual %>%
  mutate(
    Kategori = paste(
      Wilayah,
      Pendidikan,
      sep = " - "
    )
  )

ggplot(
  data_plot_resid,
  aes(
    x = reorder(Kategori, `Residu Standar`),
    y = `Residu Standar`
  )
) +
  geom_col(
    fill = "#5C6BC0",
    width = 0.72
  ) +
  coord_flip() +
  geom_hline(
    yintercept = c(-2, 2),
    linetype = "dashed",
    color = "#D7301F",
    linewidth = 1
  ) +
  geom_hline(
    yintercept = 0,
    color = "#263238"
  ) +
  labs(
    x = "Kombinasi Wilayah dan Pendidikan",
    y = "Residual Standar"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(
      face = "bold",
      color = "#12395B"
    )
  )

Gambar 2. Residual Standard

Residual terbesar terdapat pada kategori Diploma/PT. Kota Bandung–Diploma/PT memiliki residual positif sangat besar, sedangkan Kabupaten Bandung–Diploma/PT memiliki residual negatif sangat besar. Hal tersebut menunjukan bahwa kategori Diploma/PT merupakan sumber interaksi terbesar antar wilayah dan tingkat pendidikan.

3.7. Odds Ratio

ref <- "Diploma/PT"

hitung_or <- function(kat, ref, tab) {
  a <- tab["Kabupaten Bandung", kat]
  b <- tab["Kabupaten Bandung", ref]
  c <- tab["Kota Bandung", kat]
  d <- tab["Kota Bandung", ref]

  OR <- (a * d) / (b * c)
  Log_OR <- log(OR)
  SE_Log_OR <- sqrt(
    1 / a + 1 / b + 1 / c + 1 / d
  )
  Z <- Log_OR / SE_Log_OR
  p_value <- 2 * (1 - pnorm(abs(Z)))
  CI_95_Lower <- exp(Log_OR - 1.96 * SE_Log_OR)
  CI_95_Upper <- exp(Log_OR + 1.96 * SE_Log_OR)

  data.frame(
    Pendidikan = kat,
    Referensi = ref,
    OR = OR,
    Log_OR = Log_OR,
    SE_Log_OR = SE_Log_OR,
    Z = Z,
    p_value = p_value,
    CI_95_Lower = CI_95_Lower,
    CI_95_Upper = CI_95_Upper
  )
}

kategori_uji <- setdiff(
  colnames(tab),
  ref
)

odds_paper <- do.call(
  rbind,
  lapply(
    kategori_uji,
    hitung_or,
    ref = ref,
    tab = tab
  )
)

odds_paper <- odds_paper %>%
  mutate(
    p_value = ifelse(
      p_value < 0.001,
      0,
      round(p_value, 4)
    )
  )

nice_kable(
  odds_paper,
  caption = "Table 2. Odds ratio",
  digits = 4,
  color = "#F39C12"
)

Table 2. Odds ratio
Pendidikan	Referensi	OR	Log_OR	SE_Log_OR	Z	CI_95_Lower	CI_95_Upper
SD ke Bawah	Diploma/PT	9.2862	2.2285	0.0208	107.3846	8.9161	9.6718
SMP	Diploma/PT	9.0488	2.2026	0.0196	112.6286	8.7085	9.4023
SMA Umum	Diploma/PT	7.9106	2.0682	0.0180	114.9362	7.6365	8.1946
SMA Kejuruan	Diploma/PT	4.4952	1.5030	0.0177	84.7955	4.3417	4.6541

Seluruh OR lebih besar dari 1. Artinya, dibandingkan Diploma/PT, kategori SD ke bawah, SMP, SMA Umum, dan SMA Kejuruan relatif lebih dominan pada Kabupaten Bandung dibandingkan Kota Bandung.

3.8. Pemilihan Model Terbaik

Dari Perbandingan model dan uji yang telah dilakukan maka didapatkan model terbaik, yakni model saturated atau model model interaksi, berikut model tersebut :

\[ log(\mu_{ij}) = 8.4711 + 1.4517X_{kota} + 1.3507Y_{SD} + 1.6616Y_{SMP} + 2.2130Y_{SMA} + 2.0431Y_{SMK} - 2.2285X_{kota}Y_{SD} - 2.2026X_{kota}Y_{SMP} - 2.0682X_{kota}Y_{SMA} - 1.5030X_{kota}Y_{SMK} \]

4. Discussion

Hasil penelitian menunjukkan bahwa wilayah dan tingkat pendidikan memiliki interaksi yang signifikan terhadap jumlah pengangguran terbuka di Kabupaten Bandung dan Kota Bandung. Pengujian goodness of fit pada model independensi menghasilkan nilai deviance G2 = 21.384,77 dengan derajat bebas 4 dan p < 0,001, sehingga hipotesis bahwa wilayah dan tingkat pendidikan saling independen ditolak. Hal ini menunjukkan bahwa pola jumlah pengangguran terbuka tidak dapat dijelaskan hanya dengan efek wilayah atau efek pendidikan secara independent, melainkan terdapat interaksi yang perlu dipertimbangkan.

Perbandingan kelima model log-linear yang dibuat yakni model null, model efek wilayah, model efek pendidikan, model independensi, dan model saturated, menunjukkan penurunan deviance yang konsisten seiring penambahan parameter. Model saturated memperoleh nilai AIC = 136,88 dan BIC = 139,91, jauh lebih rendah dibandingkan model lainnya. Penurunan deviance yang signifikan pada setiap tahap penambahan faktor (uji likelihood ratio dengan p < 0,001) mengonfirmasi bahwa setiap komponen baik efek utama wilayah, efek utama pendidikan, maupun interaksi keduanya memiliki pengaruh yang signifikan .

Pada Analisis residual. Penyimpangan terbesar terdapat pada kategori Diploma/Perguruan Tinggi: Kota Bandung menghasilkan residual standar sebesar +127,221, sedangkan Kabupaten Bandung menghasilkan residual standar sebesar −127,221. Ini berarti jumlah pengangguran lulusan Diploma/PT di Kota Bandung jauh melebihi frekuensi harapan model independensi, sementara di Kabupaten Bandung jauh di bawah ekspektasi. Kondisi ini mungkin disebabkan karena Kota Bandung merupakan kota pusat pendidikan tinggi dan memiliki banyak perguruan tinggi yang tinggi, sehingga lulusan dari perguruan tinggi sangat besar. Di sisi lain, ketersediaan lapangan kerja yang membutuhkan untuk lulusan Diploma/Sarjana belum sepenuhnya mampu menyerap seluruh lulusan tersebut, terutama bagi yang memiliki preferensi kerja tertentu atau sedang dalam masa tunggu kerja yang panjang. Temuan ini sejalan dengan fenomena educated unemployment yang kerap terjadi di kota-kota besar dengan populasi mahasiswa tinggi.

Di Kabupaten Bandung, pengangguran lebih besar pada kelompok pendidikan menengah dan rendah. Residual standar pada kategori SMA Umum (+52,713), SMP (+48,598), dan SD ke Bawah (+42,356) seluruhnya bernilai positif di Kabupaten Bandung, menandakan bahwa frekuensi observasi lebih besar daripada frekuensi harapan di bawah asumsi independensi. Kondisi ini berkaitan erat dengan struktur ekonomi Kabupaten Bandung yang lebih banyak bertumpu pada sektor industri manufaktur, informal, dan pertanian. Ketidaksesuaian antara keterampilan tenaga kerja lulusan pendidikan menengah dan bawah dengan kebutuhan industri, terbatasnya akses pelatihan vokasional, serta minimnya informasi pasar kerja dapat menjadi faktor yang memperparah pola tersebut.

Pada Hasil odds ratio. Seluruh kategori pendidikan selain Diploma/PT memiliki nilai odds ratio lebih besar dari 1, dengan kisaran antara 4,4952 (SMA Kejuruan) hingga 9,2862 (SD ke Bawah), semuanya signifikan secara statistik (p < 0,001). Artinya, relatif terhadap Diploma/PT, kelompok pendidikan SD ke Bawah, SMP, SMA Umum, dan SMA Kejuruan lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung. Ini mengindikasikan bahwa Diploma/PT merupakan kategori yang secara proporsional jauh lebih menonjol di Kota Bandung, sementara pendidikan menengah dan bawah lebih menonjol di Kabupaten Bandung. Odds ratio tertinggi pada kategori SD ke Bawah (OR = 9,286) dan SMP (OR = 9,049) mengisyaratkan bahwa disparitas antara dua wilayah justru paling tajam pada kelompok pendidikan terendah.

Dari sudut pandang kebijakan ketenagakerjaan, temuan ini memiliki implikasi yang berbeda untuk masing-masing wilayah. Kota Bandung memerlukan strategi yang diarahkan pada penyerapan lulusan Diploma dan sarjana. Di sisi lain, Kabupaten Bandung memerlukan penguatan pelatihan dan peningkatan keterampilan bagi angkatan kerja berpendidikan menengah dan bawah, sekaligus membangun jembatan yang lebih efektif antara lulusan pendidikan menengah dengan kebutuhan industri lokal. Pendekatan kebijakan yang seragam tanpa mempertimbangkan interaksi wilayah dan tingkat pendidikan berisiko tidak tepat sasaran dalam mengatasi pengangguran terbuka di kedua wilayah ini.

5. Conclusions

Dari Hasil dan Diskusi yang telah dilakukan didapat beberapa kesimpulan sebagai berikut :

Terdapat interaksi antara wilayah (Kabupaten Bandung dan Kota Bandung) dan tingkat pendidikan dalam membentuk pola pengangguran terbuka.
Pada Analisis residual standar terlihat bahwa penyimpangan terbesar terjadi pada kategori Diploma/PT di Kota Bandung memiliki proporsi pengangguran berpendidikan tinggi yang jauh melebihi ekspektasi, sedangkan Kabupaten Bandung jauh di bawah ekspektasi.
Dari perbandingan kelima model log-linear, model saturated terpilih sebagai model yang paling sesuai.
Hasil odds ratio menunjukkan bahwa seluruh kategori pendidikan selain Diploma/PT memiliki nilai OR > 1 dan signifikan secara statistik (p < 0,001), dengan OR tertinggi pada kategori SD ke Bawah (OR = 9,286) dan SMP (OR = 9,049). Ini berarti kelompok pendidikan menengah dan bawah secara relatif lebih dominan di Kabupaten Bandung dibandingkan Kota Bandung, sementara Diploma/PT justru lebih menonjol di Kota Bandung.
Untuk pemangku kebijakan diperlukan strategi ketenagakerjaan yang berbeda antara kedua wilayah. Kota Bandung perlu memperkuat program penyerapan lulusan pendidikan bagi lulusan Sarjana dan Diploma, sedangkan Kabupaten Bandung membutuhkan penguatan pelatihan keterampilan terhadap lulusan menengah ke bawah.
Untuk penelitian selanjutnya, disarankan untuk memasukkan variabel tambahan seperti jenis kelamin, usia, dan sektor industri guna membangun model log-linear tiga arah atau lebih yang mampu menjelaskan keragaman data..

References

Badan Pusat Statistik. (2023). Keadaan Ketenagakerjaan Indonesia Agustus 2023. Jakarta: BPS Indonesia.
Badan Pusat Statistik Provinsi Jawa Barat. (2024). Berita Resmi Statistik: Keadaan Ketenagakerjaan Jawa Barat Februari 2024. Bandung: BPS Jawa Barat.
Jibril, H. T., Susilo, S., & Sakti, R. K. (2022). Pemodelan tingkat pengangguran di Indonesia dengan random effect spasial autoregression (SAR-RE). JPPI (Jurnal Penelitian Pendidikan Indonesia), 8(4), 1090–1101. https://doi.org/10.29210/020221721
Khoiruddin, M. A., Setyanti, A. M., Suman, A., Prasetyia, F., & Susilo, S. (2024). Exploring determinants of education-job mismatch among educated workers in Indonesia. Jurnal Ekonomi Pembangunan: Kajian Masalah Ekonomi dan Pembangunan, 25(2), 263–281. https://doi.org/10.23917/jep.v25i2.23994
Haryanto, A. E. P., & Wibowo, W. (2022). Pemodelan faktor-faktor yang memengaruhi jumlah pengangguran di Indonesia menggunakan metode generalized Poisson regression dan negative binomial regression. Jurnal Ketenagakerjaan, 17(2), 174–186. https://doi.org/10.47198/naker.v17i2.132
Satria, T. A. I., Imro’ah, N., & Huda, N. M. (2023). Penerapan model log linier dalam menganalisis tabel kontingensi dua arah. BIMASTER: Buletin Ilmiah Matematika, Statistika dan Terapannya, 12(4). https://jurnal.untan.ac.id/index.php/jbmstr/article/view/72242
Dinas Tenaga Kerja dan Transmigrasi Provinsi Jawa Barat. (2025). Jumlah pengangguran terbuka berdasarkan pendidikan dan kabupaten/kota di Jawa Barat. Available online : . https://opendata.jabarprov.go.id/id/dataset/jumlah-pengangguran-terbuka-berdasarkan-pendidikan-dan-kabupatenkota-di-jawa-barat
Justyna, B. (2016). Ordinal Log-Linear Models for Contingency Tables. Folia Oeconomica Stetinensia, 16, 264-273. https://doi.org/10.1515/foli-2016-0017
Maswar, M. (2017). ANALISIS STATISTIK DESKRIPTIF NILAI UAS EKONOMITRIKA MAHASISWA DENGAN PROGRAM SPSS 23 & EVIEWS 8.1. 273-292. https://doi.org/10.35316/jpii.v1i2.54
Klimova, A., & Kuhn, M. (2022). On the maximum likelihood estimation in general log-linear models.
Fienberg, S., & Rinaldo, A. (2011). Maximum Likelihood Estimation in Log-Linear Models: Theory and Algorithms. arXiv: Statistics Theory. https://doi.org/10.1214/12-aos986
Jing, W., & Papathomas, M. (2017). On the correspondence of deviances and maximum-likelihood and interval estimates from log-linear to logistic regression modelling. Royal Society Open Science, 7. https://doi.org/10.1098/rsos.191483
Hammond, C., Van Der Heijden, P. G. M., & Smith, P. A. (2023). Generating contingency tables with fixed marginal probabilities and dependence structures described by loglinear models. Journal of Statistical Computation and Simulation, 94, 2797 - 2812. https://doi.org/10.1080/00949655.2024.2353760
Vinciotti, V., & Wit, E. C. (2026). Loglinear modelling of huge contingency tables.
Jose, A., Philip, M., Prasanna, L., & Manjula, M. (2020). Comparison of Probit and Logistic Regression Models in the Analysis of Dichotomous Outcomes. 1-19. https://doi.org/10.3844/amjbsp.2020.1.19
Brzezińska, J. (2013). Model Selection Methods in Log-Linear Analysis. 107-114.
Li, Y., Yu, J., & Zeng, T. (2020). Deviance information criterion for latent variable models and misspecified models. Journal of Econometrics. https://doi.org/10.1016/j.jeconom.2019.11.002
Skinner, C., & Shlomo, N. (2008). Assessing Identification Risk in Survey Microdata Using Log-Linear Models. Journal of the American Statistical Association, 103, 1001 - 989. https://doi.org/10.1198/016214507000001328
Maydeu-Olivares, A., & Joe, H. (2006). Limited Information Goodness-of-fit Testing in Multidimensional Contingency Tables. Psychometrika, 71, 713-732. https://doi.org/10.1007/s11336-005-1295-9
Oliveira, N. L., Pereira, C., Diniz, M., & Polpo, A. (2016). A discussion on significance indices for contingency tables under small sample sizes. PLoS ONE, 13. https://doi.org/10.1371/journal.pone.0199102
Maydeu-Olivares, A., & Cai, L. (2006). A Cautionary Note on Using G2(dif) to Assess Relative Model Fit in Categorical Data Analysis. Multivariate Behavioral Research, 41, 55 - 64. https://doi.org/10.1207/s15327906mbr4101_4
Brighenti, C. R. G., Mafra, D. A., & Cirillo, M. A. (2022). Heterogeneity among contingency tables diagnosed by hierarchical log-linear models and their effect on Biplots. Semina: Ciências Exatas e Tecnológicas. https://doi.org/10.5433/1679-0375.2022v43n2p135
Feng, C., Li, L., & Sadeghpour, A. (2020). A comparison of residual diagnosis tools for diagnosing regression models for count data. BMC Medical Research Methodology, 20. https://doi.org/10.1186/s12874-020-01055-2
Bouchet-Valat, M. (2019). General Marginal-free Association Indices for Contingency Tables: From the Altham Index to the Intrinsic Association Coefficient. Sociological Methods & Research, 51, 203 - 236. https://doi.org/10.1177/0049124119852389
Lawal, B. H. (2003). The Structure of the Log Odds-Ratios in Non-Independence and Symmetry Diagonal Models for Square Contingency Tables. Quality and Quantity, 37, 111-134. https://doi.org/10.1023/a:1023391731581
Norton, E., & Dowd, B. (2018). Log Odds and the Interpretation of Logit Models. Health Services Research, 53, 859–878. https://doi.org/10.1111/1475-6773.12712

Analisis Model Log-Linear pada Hubungan Wilayah dan Tingkat Pendidikan terhadap Pengangguran Terbuka di Bandung Tahun 2025

Syahid Fattahul Ihsan¹

Muhammad Zihan Fadillah²