Abstract

Pendidikan merupakan salah satu faktor penting yang memengaruhi kualitas sumber daya manusia dan partisipasi penduduk dalam kegiatan ekonomi. Penelitian ini bertujuan untuk menganalisis asosiasi antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024 menggunakan Uji Independensi Chi-Square. Data yang digunakan merupakan data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) berupa tabel kontingensi penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk. Analisis dilakukan menggunakan Uji Chi-Square, koefisien Cramér’s V, residual terstandarisasi, dan visualisasi Mosaic Plot. Hasil penelitian menunjukkan bahwa terdapat asosiasi yang signifikan antara kedua variabel, ditunjukkan oleh nilai statistik Chi-Square sebesar 7.580.457 yang lebih besar daripada nilai kritis χ² pada taraf signifikansi 5%. Meskipun demikian, kekuatan asosiasi yang terbentuk tergolong lemah dengan nilai Cramér’s V sebesar 0,1331.

Keywords: Uji Chi-Square · Cramér’s V · tingkat pendidikan · status kegiatan penduduk · residual terstandarisasi · Mosaic Plot

1 Introduction

Pendidikan merupakan salah satu faktor penting yang memengaruhi kualitas sumber daya manusia dan berperan dalam meningkatkan produktivitas tenaga kerja. Tingkat pendidikan yang lebih tinggi umumnya memberikan peluang yang lebih besar bagi seseorang untuk memperoleh pekerjaan yang layak, meningkatkan pendapatan, serta berpartisipasi secara aktif dalam kegiatan ekonomi. Oleh karena itu, hubungan antara tingkat pendidikan dan status kegiatan penduduk menjadi isu yang penting untuk dikaji dalam rangka memahami kondisi ketenagakerjaan di Indonesia (Schultz, 1961).

Perkembangan ekonomi suatu negara sangat dipengaruhi oleh kualitas tenaga kerja yang dimiliki. Pendidikan berfungsi sebagai sarana peningkatan pengetahuan, keterampilan, dan kompetensi individu sehingga mampu meningkatkan daya saing di pasar kerja. Individu dengan tingkat pendidikan yang lebih tinggi cenderung memiliki akses yang lebih luas terhadap kesempatan kerja formal dan memiliki risiko pengangguran yang lebih rendah dibandingkan dengan individu yang berpendidikan rendah (Becker, 1993).

Data Badan Pusat Statistik (BPS) menunjukkan bahwa karakteristik ketenagakerjaan penduduk Indonesia masih bervariasi menurut tingkat pendidikan yang ditamatkan. Sebagian besar penduduk yang berpendidikan rendah masih terkonsentrasi pada pekerjaan informal atau bahkan berada di luar angkatan kerja, sedangkan penduduk dengan pendidikan menengah dan tinggi memiliki peluang yang lebih besar untuk berpartisipasi dalam kegiatan ekonomi yang produktif (BPS, 2024).

Untuk mengetahui apakah terdapat hubungan yang signifikan antara kedua variabel kategorik tersebut, diperlukan metode analisis yang sesuai. Salah satu metode yang umum digunakan adalah Uji Independensi Chi-Square — metode yang digunakan untuk menguji apakah dua variabel kategorik saling bebas atau memiliki hubungan yang signifikan secara statistik (Agresti, 2018). Selain itu, untuk mengetahui kekuatan hubungan yang terbentuk, dapat digunakan ukuran asosiasi seperti Cramér’s V (Agresti, 2013).

Penelitian ini bertujuan untuk menganalisis hubungan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024. Hasil penelitian diharapkan dapat memberikan gambaran mengenai keterkaitan pendidikan dengan partisipasi penduduk dalam kegiatan ekonomi serta menjadi bahan informasi dalam penyusunan kebijakan pembangunan sumber daya manusia dan ketenagakerjaan di Indonesia.

2 Materials and Methods

2.1 Data dan Variabel Penelitian

Penelitian ini menggunakan data sekunder yang bersumber dari Badan Pusat Statistik (BPS). Data yang digunakan adalah data penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024.

Penelitian ini melibatkan dua variabel dengan skala berbeda, sebagaimana disajikan pada tabel berikut.

Tabel 1. Variabel Penelitian
Variabel	Skala	Kategori	Posisi dalam Tabel
Tingkat Pendidikan Tertinggi yang Ditamatkan	Ordinal	Tidak/Belum pernah sekolah, Tidak/Belum tamat SD, SD/sederajat, SMP/sederajat, SMA/SMK/sederajat, Perguruan Tinggi	Variabel Baris
Status Kegiatan Penduduk	Nominal	Bekerja, Pengangguran, Bukan Angkatan Kerja	Variabel Kolom

Variabel Tingkat Pendidikan Tertinggi yang Ditamatkan menunjukkan jenjang pendidikan formal tertinggi yang telah diselesaikan oleh penduduk berumur 15 tahun ke atas. Variabel ini dikategorikan sebagai variabel ordinal karena terdapat urutan tingkat pendidikan dari yang paling rendah hingga paling tinggi.

Variabel Status Kegiatan Penduduk menunjukkan aktivitas utama penduduk berumur 15 tahun ke atas. Variabel ini dikategorikan sebagai variabel nominal karena kategori yang ada tidak memiliki urutan atau tingkatan tertentu.

2.2 Uji Independensi Chi-Square

Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk. Hipotesis yang diuji adalah sebagai berikut:

\[H_0: \text{Tingkat pendidikan dan status kegiatan penduduk saling independen (tidak terdapat hubungan)}\]

\[H_1: \text{Tingkat pendidikan dan status kegiatan penduduk tidak saling independen (terdapat hubungan)}\]

Statistik uji Chi-Square dihitung dengan rumus:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{1}\]

di mana:

\(O_{ij}\) : nilai observasi pada sel \((i,j)\) dalam tabel kontingensi
\(E_{ij}\) : nilai frekuensi harapan setiap sel, dihitung dengan:

\[E_{ij} = \frac{R_i \times C_j}{N} \tag{2}\]

dengan \(R_i\) = total baris ke-\(i\), \(C_j\) = total kolom ke-\(j\), dan \(N\) = total sampel.

Keputusan diambil dengan menolak \(H_0\) apabila \(\chi^2_{\text{hitung}} > \chi^2_{\text{tabel}}\) atau \(p\text{-value} < \alpha\).

2.3 Ukuran Asosiasi Cramér’s V

Apabila pada Uji Chi-Square \(H_0\) ditolak, langkah selanjutnya adalah mengukur kekuatan hubungan menggunakan Cramér’s V. Uji Chi-Square hanya menginformasikan apakah terdapat hubungan secara statistik, namun tidak dapat mengukur seberapa kuat hubungan tersebut (Agresti, 2013).

Cramér’s V pertama kali diperkenalkan oleh Cramér (1946) sebagai ukuran asosiasi yang diturunkan dari Chi-Square. Rumus Cramér’s V adalah:

\[V = \sqrt{\frac{\chi^2}{N \times \min(r-1,\; k-1)}} \tag{3}\]

Nilai \(V\) berkisar antara 0 hingga 1. Interpretasi kekuatan asosiasi berdasarkan nilai Cramér’s V disajikan pada tabel berikut.

Tabel 2. Interpretasi Nilai Cramér’s V
Nilai V	Interpretasi
0,00 – 0,10	Sangat Lemah
0,11 – 0,30	Lemah
0,31 – 0,50	Sedang
0,51 – 1,00	Kuat

2.4 Residual Terstandarisasi

Residual dalam tabel kontingensi digunakan untuk mengidentifikasi sel mana yang menyumbang paling banyak terhadap hubungan antara variabel kategori. Nilai residual terstandarisasi dihitung dengan rumus:

\[r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - p_{i+})(1 - p_{+j})}} \tag{4}\]

di mana \(p_{i+}\) adalah probabilitas marginal baris dan \(p_{+j}\) adalah probabilitas marginal kolom.

Jika suatu sel memiliki residual yang besar (positif atau negatif), berarti frekuensi observasi dalam sel tersebut sangat berbeda dari yang diharapkan, sehingga sel tersebut banyak berkontribusi terhadap hubungan antar variabel.

2.5 Mosaic Plot

Mosaic Plot merupakan representasi grafis dari tabel kontingensi yang memvisualisasikan distribusi dan pola asosiasi antar variabel kategori secara intuitif (Friendly, 1994). Setiap sel tabel kontingensi direpresentasikan sebagai persegi panjang, di mana luas setiap persegi panjang sebanding dengan proporsi frekuensi sel tersebut terhadap total keseluruhan observasi.

2.6 Penggunaan Generative AI

Dalam penelitian ini, generative artificial intelligence (AI) dimanfaatkan untuk membantu penyusunan dokumen R Markdown sebagai bahan presentasi. AI juga dilibatkan dalam proses penulisan naskah, penelusuran referensi, serta interpretasi hasil analisis sebagai bahan pertimbangan. Meski demikian, seluruh tahapan analisis dan keputusan akhir mengenai arah analisis, relevansi interpretasi, serta simpulan yang digunakan sepenuhnya merupakan tanggung jawab penulis.

3 Data

3.1 Input Data

Data yang digunakan adalah tabel kontingensi penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, bersumber dari BPS.

# ── Input data kontingensi ──────────────────────────────────────────────────
tingkat_pendidikan <- c(
  "Tidak/Belum Pernah Sekolah",
  "Tidak/Belum Tamat SD",
  "SD/Sederajat",
  "SMP/Sederajat",
  "SMA/SMK/Sederajat",
  "Perguruan Tinggi"
)

# Kolom: Bekerja | Pengangguran | Bukan Angkatan Kerja
obs_matrix <- matrix(
  c(1437402,  13598,   629291,
    16231950,  394364,  9090142,
    34283869,  857486, 14745133,
    25808289, 1154255, 19483242,
    46405741, 3729453, 16675041,
    18011795, 1045706,  4001088),
  nrow  = 6,
  byrow = TRUE,
  dimnames = list(
    tingkat_pendidikan,
    c("Bekerja", "Pengangguran", "Bukan Angkatan Kerja")
  )
)

# Tampilkan sebagai tabel
kable(obs_matrix,
      caption  = "Tabel 3. Tabel Kontingensi: Tingkat Pendidikan × Status Kegiatan Penduduk",
      format.args = list(big.mark = "."),
      align = "rrr") |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = TRUE, font_size = 13) |>
  add_header_above(c(" " = 1, "Status Kegiatan Penduduk" = 3)) |>
  row_spec(0, bold = TRUE, background = "#2c7bb6", color = "white") |>
  column_spec(1, bold = TRUE)

Tabel 3. Tabel Kontingensi: Tingkat Pendidikan × Status Kegiatan Penduduk
	Status Kegiatan Penduduk
	Bekerja	Pengangguran	Bukan Angkatan Kerja
Tidak/Belum Pernah Sekolah	1.437.402	13.598	629.291
Tidak/Belum Tamat SD	16.231.950	394.364	9.090.142
SD/Sederajat	34.283.869	857.486	14.745.133
SMP/Sederajat	25.808.289	1.154.255	19.483.242
SMA/SMK/Sederajat	46.405.741	3.729.453	16.675.041
Perguruan Tinggi	18.011.795	1.045.706	4.001.088

4 Results

4.1 Statistik Deskriptif

4.1.1 Tabel Frekuensi dan Total Marginal

# Tambahkan total baris dan kolom
obs_with_total <- cbind(obs_matrix,
                        Total = rowSums(obs_matrix))
obs_with_total <- rbind(obs_with_total,
                        Total = colSums(obs_with_total))

kable(obs_with_total,
      caption = "Tabel Kontingensi dengan Total Marginal",
      format.args = list(big.mark = "."),
      align = "rrrr") |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = TRUE, font_size = 13) |>
  row_spec(nrow(obs_with_total), bold = TRUE, background = "#e8f4f8") |>
  column_spec(1, bold = TRUE) |>
  column_spec(5, bold = TRUE, background = "#e8f4f8")

Tabel Kontingensi dengan Total Marginal
	Bekerja	Pengangguran	Bukan Angkatan Kerja	Total
Tidak/Belum Pernah Sekolah	1.437.402	13.598	629.291	2.080.291
Tidak/Belum Tamat SD	16.231.950	394.364	9.090.142	25.716.456
SD/Sederajat	34.283.869	857.486	14.745.133	49.886.488
SMP/Sederajat	25.808.289	1.154.255	19.483.242	46.445.786
SMA/SMK/Sederajat	46.405.741	3.729.453	16.675.041	66.810.235
Perguruan Tinggi	18.011.795	1.045.706	4.001.088	23.058.589
Total	142.179.046	7.194.862	64.623.937	213.997.845

4.1.2 Distribusi Bersyarat Baris

Distribusi bersyarat baris menyatakan distribusi status kegiatan pada setiap kategori tingkat pendidikan (dalam persen).

# Hitung distribusi bersyarat baris (proporsi per baris)
prop_baris <- prop.table(obs_matrix, margin = 1) * 100

prop_df <- as.data.frame(round(prop_baris, 2))
prop_df$Total <- rowSums(prop_df)

kable(prop_df,
      caption = "Tabel 4. Distribusi Bersyarat Baris: Persentase Status Kegiatan pada Setiap Tingkat Pendidikan (%)",
      col.names = c("Bekerja (%)", "Pengangguran (%)", "Bukan Angkatan Kerja (%)", "Total (%)"),
      align = "rrrr") |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = TRUE, font_size = 13) |>
  column_spec(1, bold = TRUE) |>
  row_spec(which.max(prop_df[,1]), background = "#d4edda") |>   # max bekerja
  row_spec(which.max(prop_df[,2]), background = "#fff3cd") |>   # max pengangguran
  row_spec(which.max(prop_df[,3]), background = "#f8d7da")      # max bukan AK

Tabel 4. Distribusi Bersyarat Baris: Persentase Status Kegiatan pada Setiap Tingkat Pendidikan (%)
	Bekerja (%)	Pengangguran (%)	Bukan Angkatan Kerja (%)	Total (%)
Tidak/Belum Pernah Sekolah	69.10	0.65	30.25	100.00
Tidak/Belum Tamat SD	63.12	1.53	35.35	100.00
SD/Sederajat	68.72	1.72	29.56	100.00
SMP/Sederajat	55.57	2.49	41.95	100.01
SMA/SMK/Sederajat	69.46	5.58	24.96	100.00
Perguruan Tinggi	78.11	4.53	17.35	99.99

Catatan interpretasi:

🟢 Proporsi bekerja tertinggi: Perguruan Tinggi (78,12%)
🟡 Proporsi pengangguran tertinggi: SMA/SMK/Sederajat (5,58%)
🔴 Proporsi bukan angkatan kerja tertinggi: SMP/Sederajat (41,95%)

4.1.3 Visualisasi Distribusi Bersyarat

# Reshape ke long format untuk ggplot
library(tidyr)

prop_long <- as.data.frame(prop_baris) |>
  tibble::rownames_to_column("Pendidikan") |>
  pivot_longer(-Pendidikan, names_to = "Status", values_to = "Persen")

# Urutan kategori
prop_long$Pendidikan <- factor(prop_long$Pendidikan,
  levels = c("Tidak/Belum Pernah Sekolah","Tidak/Belum Tamat SD",
             "SD/Sederajat","SMP/Sederajat","SMA/SMK/Sederajat","Perguruan Tinggi"))

prop_long$Status <- factor(prop_long$Status,
  levels = c("Bukan Angkatan Kerja","Pengangguran","Bekerja"))

ggplot(prop_long, aes(x = Pendidikan, y = Persen, fill = Status)) +
  geom_bar(stat = "identity", position = "stack", width = 0.7) +
  geom_text(aes(label = paste0(round(Persen, 1), "%")),
            position = position_stack(vjust = 0.5),
            size = 3.2, color = "white", fontface = "bold") +
  scale_fill_manual(values = c(
    "Bekerja"             = "#2c7bb6",
    "Pengangguran"        = "#d7191c",
    "Bukan Angkatan Kerja"= "#fdae61"
  )) +
  labs(
    title    = "Distribusi Status Kegiatan Penduduk\nMenurut Tingkat Pendidikan (2024)",
    subtitle = "Sumber: BPS, 2024",
    x        = "Tingkat Pendidikan",
    y        = "Persentase (%)",
    fill     = "Status Kegiatan"
  ) +
  scale_x_discrete(labels = function(x) stringr::str_wrap(x, width = 12)) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title      = element_text(face = "bold", hjust = 0.5),
    plot.subtitle   = element_text(hjust = 0.5, color = "gray50"),
    legend.position = "bottom",
    axis.text.x     = element_text(size = 9)
  )

Gambar: Distribusi Status Kegiatan per Tingkat Pendidikan (Stacked Bar Chart)

Berdasarkan distribusi bersyarat baris, terlihat bahwa penduduk dengan tingkat pendidikan Perguruan Tinggi memiliki proporsi bekerja tertinggi (78,12%), sedangkan penduduk dengan tingkat pendidikan SMP/Sederajat memiliki proporsi bekerja terendah (55,57%). Pola ini mengindikasikan adanya kecenderungan bahwa tingkat pendidikan yang lebih tinggi berasosiasi dengan proporsi bekerja yang lebih besar.

4.2 Uji Independensi Chi-Square

# Lakukan Uji Chi-Square
hasil_chi <- chisq.test(obs_matrix, correct = FALSE)

# Derajat bebas dan nilai kritis
df_val    <- hasil_chi$parameter
chi_kritis <- qchisq(0.95, df = df_val)

# Tampilkan hasil
hasil_df <- data.frame(
  Statistik = c("χ² hitung", "Derajat Bebas (df)", "χ² tabel (α = 0,05)", "p-value"),
  Nilai     = c(
    formatC(hasil_chi$statistic, format = "f", digits = 0, big.mark = "."),
    df_val,
    round(chi_kritis, 5),
    formatC(hasil_chi$p.value, format = "e", digits = 3)
  )
)

kable(hasil_df,
      caption = "Tabel 5. Hasil Uji Chi-Square",
      col.names = c("Statistik", "Nilai"),
      align = "lr") |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = FALSE, position = "center", font_size = 13) |>
  row_spec(1, bold = TRUE, background = "#d4edda") |>
  column_spec(1, bold = TRUE)

Tabel 5. Hasil Uji Chi-Square
Statistik	Nilai
χ² hitung	7.580.457
Derajat Bebas (df)	10
χ² tabel (α = 0,05)	18.30704
p-value	0.000e+00

Keputusan:

\[\chi^2_{\text{hitung}} = 7.580.457 \gg \chi^2_{\text{tabel}} = 18{,}307 \quad \Rightarrow \quad \textbf{Tolak } H_0\]

Dengan demikian, terdapat cukup bukti bahwa terdapat asosiasi yang signifikan antara tingkat pendidikan tertinggi yang ditamatkan dengan status kegiatan penduduk di Indonesia tahun 2024 pada taraf signifikansi \(\alpha = 0{,}05\).

⚠️ Catatan: Besarnya nilai \(\chi^2\) yang diperoleh merupakan konsekuensi dari penggunaan data survei nasional berskala sangat besar (\(N \approx 214\) juta). Dengan ukuran sampel sebesar ini, uji Chi-Square menjadi sangat sensitif terhadap perbedaan antarkategori sekecil apapun, sehingga interpretasi tidak seharusnya bertumpu pada signifikansi statistik semata.

4.3 Ukuran Asosiasi Cramér’s V

# Hitung Cramér's V secara manual
N_total  <- sum(obs_matrix)
r_rows   <- nrow(obs_matrix)
k_cols   <- ncol(obs_matrix)
chi2_val <- hasil_chi$statistic

V <- sqrt(chi2_val / (N_total * min(r_rows - 1, k_cols - 1)))

hasil_v_df <- data.frame(
  Ukuran       = c("Cramér's V", "Interpretasi"),
  Nilai        = c(round(V, 4), "Lemah (0,11 – 0,30)")
)

kable(hasil_v_df,
      caption = "Tabel 6. Hasil Uji Cramér's V",
      col.names = c("Ukuran", "Nilai"),
      align = "lr") |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = FALSE, position = "center", font_size = 13) |>
  row_spec(1, bold = TRUE, background = "#fff3cd") |>
  column_spec(1, bold = TRUE)

Tabel 6. Hasil Uji Cramér’s V
	Ukuran	Nilai
X-squared	Cramér’s V	0.1331
	Interpretasi	Lemah (0,11 – 0,30)

Nilai \(V = 0{,}1331\) berada pada rentang \(0{,}10 < V \leq 0{,}30\), sehingga mengindikasikan bahwa kekuatan asosiasi antara tingkat pendidikan dan status kegiatan penduduk Indonesia tahun 2024 tergolong lemah. Meskipun uji Chi-Square membuktikan bahwa asosiasi tersebut signifikan secara statistik, nilai Cramér’s V yang tergolong lemah menunjukkan bahwa dalam praktiknya tingkat pendidikan hanya memberikan kontribusi yang terbatas dalam menjelaskan variasi status kegiatan penduduk.

4.4 Residual Terstandarisasi

# Hitung frekuensi harapan
E <- hasil_chi$expected

# Hitung marginal probability
p_row <- rowSums(obs_matrix) / N_total
p_col <- colSums(obs_matrix) / N_total

# Hitung residual terstandarisasi
r_std <- matrix(NA, nrow = r_rows, ncol = k_cols,
                dimnames = dimnames(obs_matrix))

for (i in 1:r_rows) {
  for (j in 1:k_cols) {
    r_std[i, j] <- (obs_matrix[i,j] - E[i,j]) /
      sqrt(E[i,j] * (1 - p_row[i]) * (1 - p_col[j]))
  }
}

r_std_rounded <- round(r_std, 4)

kable(r_std_rounded,
      caption = "Tabel 7. Residual Terstandarisasi",
      align   = "rrr",
      format.args = list(big.mark = ".")) |>
  kable_styling(bootstrap_options = c("striped","hover","bordered"),
                full_width = TRUE, font_size = 13) |>
  column_spec(1, bold = TRUE) |>
  # Warna berdasarkan arah residual
  column_spec(2, color = ifelse(r_std_rounded[,1] > 0, "#155724", "#721c24"),
              bold = TRUE) |>
  column_spec(3, color = ifelse(r_std_rounded[,2] > 0, "#155724", "#721c24"),
              bold = TRUE) |>
  column_spec(4, color = ifelse(r_std_rounded[,3] > 0, "#155724", "#721c24"),
              bold = TRUE)

Tabel 7. Residual Terstandarisasi
	Bekerja	Pengangguran	Bukan Angkatan Kerja
Tidak/Belum Pernah Sekolah	81.5459	-217.7838	1.6333
Tidak/Belum Tamat SD	-380.1802	-548.4633	606.3433
SD/Sederajat	390.1657	-735.2734	-112.6122
SMP/Sederajat	-1.773.4733	-374.7131	1.971.1252
SMA/SMK/Sederajat	630.2399	1.213.8667	-1.124.7694
Perguruan Tinggi	1.256.7657	330.7848	-1.422.4468

Interpretasi Residual Terstandarisasi:

Mengingat data bersumber dari survei nasional berskala besar, interpretasi difokuskan pada arah dan pola residual antarkategori, bukan pada besaran absolutnya.

Kelompok Pendidikan	Pola Residual	Interpretasi
Tidak/Belum Pernah Sekolah	Bekerja: ✅ positif; Pengangguran: ❌ negatif	Cenderung langsung terserap sektor informal/subsisten tanpa pencarian kerja formal
Tidak/Belum Tamat SD	Bekerja: ❌ negatif; Bukan AK: ✅ positif	Sebagian besar tidak aktif di pasar kerja formal
SD/Sederajat	Bekerja: ✅ positif; Bukan AK: ❌ negatif	Sudah aktif di pasar kerja, namun dominan di sektor informal
SMP/Sederajat	Bukan AK: ✅ tertinggi; Bekerja: ❌ sangat negatif	Umumnya masih usia sekolah, belum memasuki dunia kerja
SMA/SMK/Sederajat	Pengangguran: ✅ positif tinggi; Bukan AK: ❌ sangat negatif	Aktif di pasar kerja tetapi belum terserap → fenomena educated unemployment
Perguruan Tinggi	Bekerja: ✅ tertinggi; Bukan AK: ❌ paling negatif	Paling kompetitif di pasar kerja formal, sejalan teori human capital

4.4.1 Heatmap Residual Terstandarisasi

# Reshape untuk ggplot
r_std_df <- as.data.frame(r_std) |>
  tibble::rownames_to_column("Pendidikan") |>
  pivot_longer(-Pendidikan, names_to = "Status", values_to = "Residual")

r_std_df$Pendidikan <- factor(r_std_df$Pendidikan,
  levels = rev(c("Tidak/Belum Pernah Sekolah","Tidak/Belum Tamat SD",
                 "SD/Sederajat","SMP/Sederajat","SMA/SMK/Sederajat","Perguruan Tinggi")))

r_std_df$Status <- factor(r_std_df$Status,
  levels = c("Bekerja","Pengangguran","Bukan Angkatan Kerja"))

ggplot(r_std_df, aes(x = Status, y = Pendidikan, fill = Residual)) +
  geom_tile(color = "white", linewidth = 0.8) +
  geom_text(aes(label = round(Residual, 1)), size = 3.5, fontface = "bold") +
  scale_fill_gradient2(
    low      = "#d7191c",
    mid      = "white",
    high     = "#2c7bb6",
    midpoint = 0,
    name     = "Residual\nTerstandarisasi"
  ) +
  labs(
    title    = "Heatmap Residual Terstandarisasi",
    subtitle = "Biru (+) = lebih tinggi dari ekspektasi | Merah (-) = lebih rendah dari ekspektasi",
    x        = "Status Kegiatan Penduduk",
    y        = "Tingkat Pendidikan"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title    = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5, color = "gray50", size = 10),
    axis.text.x   = element_text(size = 10),
    axis.text.y   = element_text(size = 9)
  )

Gambar: Heatmap Residual Terstandarisasi

4.5 Mosaic Plot

# Urutkan level faktor
obs_table <- as.table(obs_matrix)

# Gunakan vcd::mosaic
vcd::mosaic(
  obs_table,
  shade      = TRUE,
  legend     = TRUE,
  direction  = c("v", "h"),
  labeling_args = list(
    set_varnames = c(A = "Tingkat Pendidikan", B = "Status Kegiatan"),
    abbreviate   = c(A = TRUE, B = FALSE),
    rot_labels   = c(0, 0, 90, 0),
    gp_labels    = gpar(fontsize = 9)
  ),
  main = "Mosaic Plot: Tingkat Pendidikan tertinggi yang\nditamatkan vs Status Kegiatan Penduduk Indonesia 2024"
)

Gambar 1. Mosaic Plot: Tingkat Pendidikan vs Status Kegiatan Penduduk Indonesia 2024

Mosaic Plot memperlihatkan pola asosiasi yang konsisten antara tingkat pendidikan dan status ketenagakerjaan penduduk Indonesia tahun 2024:

Pendidikan rendah (Tidak/Belum Tamat SD, SMP/Sederajat): didominasi warna merah muda pada kolom bekerja dan biru pada kolom bukan angkatan kerja, mencerminkan rendahnya partisipasi di pasar kerja formal.
SMA/SMK/Sederajat: menampilkan warna biru pada kolom pengangguran, mengindikasikan proporsi pengangguran lebih tinggi dari ekspektasi — cerminan fenomena educated unemployment.
Perguruan Tinggi: menampilkan warna biru dominan pada kolom bekerja dan merah muda pada kolom bukan angkatan kerja, menegaskan bahwa semakin tinggi jenjang pendidikan, semakin besar peluang seseorang terserap ke pasar kerja formal.

5 Discussion

Hasil analisis menunjukkan bahwa terdapat asosiasi yang signifikan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, sebagaimana dibuktikan oleh nilai \(\chi^2_{\text{hitung}} = 7.580.457\) yang jauh melampaui \(\chi^2_{\text{tabel}} = 18{,}307\). Temuan ini konsisten dengan teori human capital (Schultz, 1961; Becker, 1993) yang menyatakan bahwa pendidikan merupakan investasi yang meningkatkan produktivitas dan daya saing individu di pasar kerja.

Namun demikian, nilai Cramér’s V yang tergolong lemah (\(V = 0{,}1331\)) mengindikasikan bahwa meskipun asosiasi terbukti signifikan secara statistik, tingkat pendidikan hanya mampu menjelaskan sebagian kecil dari variasi status kegiatan penduduk. Kondisi ini wajar mengingat status ketenagakerjaan seseorang juga dipengaruhi oleh faktor lain seperti:

Kondisi ekonomi makro
Struktur pasar kerja
Lokasi geografis
Karakteristik demografis individu

Analisis residual terstandarisasi memberikan gambaran yang lebih rinci mengenai pola asosiasi yang terbentuk:

Kelompok SMP/Sederajat mencatatkan residual bukan angkatan kerja tertinggi, mengindikasikan bahwa sebagian besar individu pada jenjang ini belum memasuki pasar kerja dan kemungkinan besar masih melanjutkan pendidikan ke jenjang yang lebih tinggi. Temuan ini sejalan dengan program wajib belajar 12 tahun.
Kelompok SMA/SMK/Sederajat memperlihatkan residual pengangguran yang tinggi dan positif, mencerminkan fenomena educated unemployment yang kerap terjadi pada lulusan pendidikan menengah. Fenomena ini dapat dijelaskan oleh ketidaksesuaian antara kompetensi yang dimiliki lulusan SMA/SMK dengan kebutuhan dunia kerja (skill mismatch).
Kelompok Perguruan Tinggi secara konsisten menunjukkan residual bekerja tertinggi dan residual bukan angkatan kerja paling negatif, menegaskan bahwa pendidikan tinggi memberikan keunggulan kompetitif yang nyata dalam memperoleh pekerjaan formal. Temuan ini memperkuat argumen bahwa investasi pada pendidikan tinggi memberikan returns yang lebih besar dibandingkan jenjang pendidikan di bawahnya.

Secara keseluruhan, hasil penelitian ini mengimplikasikan perlunya kebijakan yang tidak hanya mendorong peningkatan akses pendidikan, tetapi juga memastikan relevansi kurikulum dengan kebutuhan pasar kerja, khususnya pada jenjang SMA/SMK. Upaya pengurangan skill mismatch melalui penguatan pendidikan vokasi dan pelatihan berbasis kompetensi perlu terus ditingkatkan.

6 Conclusions

Berdasarkan hasil analisis yang telah dilakukan, dapat ditarik beberapa simpulan sebagai berikut:

Pertama, uji independensi Chi-Square membuktikan bahwa terdapat asosiasi yang signifikan secara statistik antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, ditunjukkan oleh nilai \(\chi^2_{\text{hitung}} = 7.580.457 \gg \chi^2_{\text{tabel}} = 18{,}307\) pada taraf signifikansi \(\alpha = 0{,}05\).

Kedua, meskipun asosiasi terbukti signifikan, nilai Cramér’s V sebesar 0,1331 mengindikasikan bahwa kekuatan asosiasi antara kedua variabel tergolong lemah. Hal ini menunjukkan bahwa tingkat pendidikan hanya merupakan salah satu dari sekian banyak faktor yang memengaruhi status kegiatan penduduk.

Ketiga, analisis residual terstandarisasi mengungkapkan pola asosiasi yang berbeda antarkategori:

SMP/Sederajat: cenderung berada di luar angkatan kerja
SMA/SMK/Sederajat: menghadapi fenomena educated unemployment yang ditandai oleh tingginya proporsi pengangguran
Perguruan Tinggi: memiliki proporsi bekerja yang paling tinggi di antara seluruh kelompok pendidikan

Pola ini secara keseluruhan konsisten dengan prediksi teori human capital bahwa investasi pendidikan yang lebih tinggi berasosiasi dengan peluang penyerapan tenaga kerja formal yang lebih besar.

Rekomendasi: Kebijakan ketenagakerjaan sebaiknya tidak hanya difokuskan pada perluasan akses pendidikan, tetapi juga pada peningkatan relevansi dan kualitas pendidikan menengah melalui penguatan program vokasi dan pelatihan berbasis kompetensi guna menekan angka educated unemployment. Penelitian selanjutnya disarankan untuk mempertimbangkan variabel kontrol tambahan seperti jenis kelamin, wilayah, dan sektor pekerjaan guna memperoleh gambaran yang lebih komprehensif.

7 References

Schultz, T. W. (1961). Investment in Human Capital. The American Economic Review, 51(1), 1–17.
Becker, G. S. (1993). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education (3rd ed.). Chicago, IL: The University of Chicago Press.
Badan Pusat Statistik. (2024). Statistik Indonesia 2024. Jakarta: BPS.
Agresti, A. (2018). An Introduction to Categorical Data Analysis (3rd ed.). Hoboken, NJ: John Wiley & Sons.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Hoboken, NJ: John Wiley & Sons.
Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers (7th ed.). Hoboken, NJ: John Wiley & Sons.
Badan Pusat Statistik. (2024). Penduduk Berumur 15 Tahun ke Atas Menurut Pendidikan Tertinggi yang Ditamatkan dan Jenis Kegiatan Selama Seminggu Terakhir, 2024. Diakses dari: https://www.bps.go.id
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton, NJ: Princeton University Press, p. 282.
Friendly, M. (1994). Mosaic displays for multi-way contingency tables. Journal of the American Statistical Association, 89(425), 190–200. https://doi.org/10.2307/2291215

8 Supplementary Materials

Kode R yang digunakan dalam seluruh tahap analisis tersedia sebagai file tambahan: Google Drive — Kode Analisis

9 Author Contributions

Kontribusi	Penulis
Konseptualisasi	A.Q.S. dan A.A.S.
Metodologi	A.Q.S. dan A.A.S.
Perangkat lunak	A.Q.S. dan A.A.S.
Validasi	A.Q.S. dan A.A.S.
Analisis formal	A.Q.S. dan A.A.S.
Kurasi data	A.Q.S. dan A.A.S.
Penulisan — draf awal	A.Q.S. dan A.A.S.
Penulisan — tinjauan & penyuntingan	A.Q.S. dan A.A.S.
Visualisasi	A.Q.S. dan A.A.S.

Seluruh penulis telah membaca dan menyetujui versi akhir naskah yang diterbitkan.

Funding: Penelitian ini tidak menerima pendanaan eksternal.

Data Availability: Data yang digunakan dalam penelitian ini tersedia secara publik dan dapat diakses melalui website BPS.

Acknowledgments: Para penulis mengucapkan terima kasih kepada dosen pembimbing Program Studi Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Padjadjaran. Selama proses penyusunan naskah, penulis menggunakan perangkat berbasis kecerdasan buatan: Claude (Anthropic) untuk penyusunan dan pengecekan sintaksis kode R, serta ChatGPT (OpenAI) untuk eksplorasi alternatif penyusunan argumen dan pengecekan tata bahasa. Seluruh analisis, interpretasi, dan penulisan substansi dilakukan sepenuhnya oleh penulis.

Conflicts of Interest: Para penulis menyatakan tidak ada konflik yang terjadi.

Mathematics 2025, 13, x · Program Studi Statistika, FMIPA, Universitas Padjadjaran

Analisis Asosiasi antara Tingkat Pendidikan Tertinggi yang Ditamatkan dan Status Kegiatan Penduduk Indonesia Tahun 2024
Menggunakan Uji Independensi Chi-Square

Asrial Qodri Siregar¹ · Atthoriq Adrian Setiawan²
¹ asrial24001@mail.unpad.ac.id
² atthoriq24001@mail.unpad.ac.id
Program Studi Statistika, Fakultas MIPA, Universitas Padjadjaran

Juni 2025

Abstract

1 Introduction

2 Materials and Methods

2.1 Data dan Variabel Penelitian

2.2 Uji Independensi Chi-Square

2.3 Ukuran Asosiasi Cramér’s V

2.4 Residual Terstandarisasi

2.5 Mosaic Plot

2.6 Penggunaan Generative AI

3 Data

3.1 Input Data

4 Results

4.1 Statistik Deskriptif

4.1.1 Tabel Frekuensi dan Total Marginal

4.1.2 Distribusi Bersyarat Baris

4.1.3 Visualisasi Distribusi Bersyarat

4.2 Uji Independensi Chi-Square

4.3 Ukuran Asosiasi Cramér’s V

4.4 Residual Terstandarisasi

4.4.1 Heatmap Residual Terstandarisasi

4.5 Mosaic Plot

5 Discussion

6 Conclusions

7 References

8 Supplementary Materials

9 Author Contributions

Analisis Asosiasi antara Tingkat Pendidikan Tertinggi yang Ditamatkan dan Status Kegiatan Penduduk Indonesia Tahun 2024 Menggunakan Uji Independensi Chi-Square

Asrial Qodri Siregar¹ · Atthoriq Adrian Setiawan² ¹ asrial24001@mail.unpad.ac.id ² atthoriq24001@mail.unpad.ac.id Program Studi Statistika, Fakultas MIPA, Universitas Padjadjaran

Juni 2025

Abstract

1 Introduction

2 Materials and Methods

2.1 Data dan Variabel Penelitian

2.2 Uji Independensi Chi-Square

2.3 Ukuran Asosiasi Cramér’s V

2.4 Residual Terstandarisasi

2.5 Mosaic Plot

2.6 Penggunaan Generative AI

3 Data

3.1 Input Data

4 Results

4.1 Statistik Deskriptif

4.1.1 Tabel Frekuensi dan Total Marginal

4.1.2 Distribusi Bersyarat Baris

4.1.3 Visualisasi Distribusi Bersyarat

4.2 Uji Independensi Chi-Square

4.3 Ukuran Asosiasi Cramér’s V

4.4 Residual Terstandarisasi

4.4.1 Heatmap Residual Terstandarisasi

4.5 Mosaic Plot

5 Discussion

6 Conclusions

7 References

8 Supplementary Materials

9 Author Contributions

Analisis Asosiasi antara Tingkat Pendidikan Tertinggi yang Ditamatkan dan Status Kegiatan Penduduk Indonesia Tahun 2024
Menggunakan Uji Independensi Chi-Square

Asrial Qodri Siregar¹ · Atthoriq Adrian Setiawan²
¹ asrial24001@mail.unpad.ac.id
² atthoriq24001@mail.unpad.ac.id
Program Studi Statistika, Fakultas MIPA, Universitas Padjadjaran