Analisis Asosiasi antara Tingkat
Pendidikan Tertinggi yang Ditamatkan dan Status Kegiatan Penduduk
Indonesia Tahun 2024
Menggunakan Uji Independensi Chi-Square
Asrial Qodri Siregar¹ · Atthoriq Adrian
Setiawan²
¹ asrial24001@mail.unpad.ac.id
² atthoriq24001@mail.unpad.ac.id
Program Studi Statistika, Fakultas MIPA, Universitas
Padjadjaran
Pendidikan merupakan salah satu faktor penting yang memengaruhi kualitas sumber daya manusia dan partisipasi penduduk dalam kegiatan ekonomi. Penelitian ini bertujuan untuk menganalisis asosiasi antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024 menggunakan Uji Independensi Chi-Square. Data yang digunakan merupakan data sekunder yang diperoleh dari Badan Pusat Statistik (BPS) berupa tabel kontingensi penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk. Analisis dilakukan menggunakan Uji Chi-Square, koefisien Cramér’s V, residual terstandarisasi, dan visualisasi Mosaic Plot. Hasil penelitian menunjukkan bahwa terdapat asosiasi yang signifikan antara kedua variabel, ditunjukkan oleh nilai statistik Chi-Square sebesar 7.580.457 yang lebih besar daripada nilai kritis χ² pada taraf signifikansi 5%. Meskipun demikian, kekuatan asosiasi yang terbentuk tergolong lemah dengan nilai Cramér’s V sebesar 0,1331.
Keywords: Uji Chi-Square · Cramér’s V · tingkat pendidikan · status kegiatan penduduk · residual terstandarisasi · Mosaic Plot
Pendidikan merupakan salah satu faktor penting yang memengaruhi kualitas sumber daya manusia dan berperan dalam meningkatkan produktivitas tenaga kerja. Tingkat pendidikan yang lebih tinggi umumnya memberikan peluang yang lebih besar bagi seseorang untuk memperoleh pekerjaan yang layak, meningkatkan pendapatan, serta berpartisipasi secara aktif dalam kegiatan ekonomi. Oleh karena itu, hubungan antara tingkat pendidikan dan status kegiatan penduduk menjadi isu yang penting untuk dikaji dalam rangka memahami kondisi ketenagakerjaan di Indonesia (Schultz, 1961).
Perkembangan ekonomi suatu negara sangat dipengaruhi oleh kualitas tenaga kerja yang dimiliki. Pendidikan berfungsi sebagai sarana peningkatan pengetahuan, keterampilan, dan kompetensi individu sehingga mampu meningkatkan daya saing di pasar kerja. Individu dengan tingkat pendidikan yang lebih tinggi cenderung memiliki akses yang lebih luas terhadap kesempatan kerja formal dan memiliki risiko pengangguran yang lebih rendah dibandingkan dengan individu yang berpendidikan rendah (Becker, 1993).
Data Badan Pusat Statistik (BPS) menunjukkan bahwa karakteristik ketenagakerjaan penduduk Indonesia masih bervariasi menurut tingkat pendidikan yang ditamatkan. Sebagian besar penduduk yang berpendidikan rendah masih terkonsentrasi pada pekerjaan informal atau bahkan berada di luar angkatan kerja, sedangkan penduduk dengan pendidikan menengah dan tinggi memiliki peluang yang lebih besar untuk berpartisipasi dalam kegiatan ekonomi yang produktif (BPS, 2024).
Untuk mengetahui apakah terdapat hubungan yang signifikan antara kedua variabel kategorik tersebut, diperlukan metode analisis yang sesuai. Salah satu metode yang umum digunakan adalah Uji Independensi Chi-Square — metode yang digunakan untuk menguji apakah dua variabel kategorik saling bebas atau memiliki hubungan yang signifikan secara statistik (Agresti, 2018). Selain itu, untuk mengetahui kekuatan hubungan yang terbentuk, dapat digunakan ukuran asosiasi seperti Cramér’s V (Agresti, 2013).
Penelitian ini bertujuan untuk menganalisis hubungan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024. Hasil penelitian diharapkan dapat memberikan gambaran mengenai keterkaitan pendidikan dengan partisipasi penduduk dalam kegiatan ekonomi serta menjadi bahan informasi dalam penyusunan kebijakan pembangunan sumber daya manusia dan ketenagakerjaan di Indonesia.
Penelitian ini menggunakan data sekunder yang bersumber dari Badan Pusat Statistik (BPS). Data yang digunakan adalah data penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024.
Penelitian ini melibatkan dua variabel dengan skala berbeda, sebagaimana disajikan pada tabel berikut.
| Variabel | Skala | Kategori | Posisi dalam Tabel |
|---|---|---|---|
| Tingkat Pendidikan Tertinggi yang Ditamatkan | Ordinal | Tidak/Belum pernah sekolah, Tidak/Belum tamat SD, SD/sederajat, SMP/sederajat, SMA/SMK/sederajat, Perguruan Tinggi | Variabel Baris |
| Status Kegiatan Penduduk | Nominal | Bekerja, Pengangguran, Bukan Angkatan Kerja | Variabel Kolom |
Variabel Tingkat Pendidikan Tertinggi yang Ditamatkan menunjukkan jenjang pendidikan formal tertinggi yang telah diselesaikan oleh penduduk berumur 15 tahun ke atas. Variabel ini dikategorikan sebagai variabel ordinal karena terdapat urutan tingkat pendidikan dari yang paling rendah hingga paling tinggi.
Variabel Status Kegiatan Penduduk menunjukkan aktivitas utama penduduk berumur 15 tahun ke atas. Variabel ini dikategorikan sebagai variabel nominal karena kategori yang ada tidak memiliki urutan atau tingkatan tertentu.
Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk. Hipotesis yang diuji adalah sebagai berikut:
\[H_0: \text{Tingkat pendidikan dan status kegiatan penduduk saling independen (tidak terdapat hubungan)}\]
\[H_1: \text{Tingkat pendidikan dan status kegiatan penduduk tidak saling independen (terdapat hubungan)}\]
Statistik uji Chi-Square dihitung dengan rumus:
\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{1}\]
di mana:
\[E_{ij} = \frac{R_i \times C_j}{N} \tag{2}\]
dengan \(R_i\) = total baris ke-\(i\), \(C_j\) = total kolom ke-\(j\), dan \(N\) = total sampel.
Keputusan diambil dengan menolak \(H_0\) apabila \(\chi^2_{\text{hitung}} > \chi^2_{\text{tabel}}\) atau \(p\text{-value} < \alpha\).
Apabila pada Uji Chi-Square \(H_0\) ditolak, langkah selanjutnya adalah mengukur kekuatan hubungan menggunakan Cramér’s V. Uji Chi-Square hanya menginformasikan apakah terdapat hubungan secara statistik, namun tidak dapat mengukur seberapa kuat hubungan tersebut (Agresti, 2013).
Cramér’s V pertama kali diperkenalkan oleh Cramér (1946) sebagai ukuran asosiasi yang diturunkan dari Chi-Square. Rumus Cramér’s V adalah:
\[V = \sqrt{\frac{\chi^2}{N \times \min(r-1,\; k-1)}} \tag{3}\]
Nilai \(V\) berkisar antara 0 hingga 1. Interpretasi kekuatan asosiasi berdasarkan nilai Cramér’s V disajikan pada tabel berikut.
| Nilai V | Interpretasi |
|---|---|
| 0,00 – 0,10 | Sangat Lemah |
| 0,11 – 0,30 | Lemah |
| 0,31 – 0,50 | Sedang |
| 0,51 – 1,00 | Kuat |
Residual dalam tabel kontingensi digunakan untuk mengidentifikasi sel mana yang menyumbang paling banyak terhadap hubungan antara variabel kategori. Nilai residual terstandarisasi dihitung dengan rumus:
\[r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - p_{i+})(1 - p_{+j})}} \tag{4}\]
di mana \(p_{i+}\) adalah probabilitas marginal baris dan \(p_{+j}\) adalah probabilitas marginal kolom.
Jika suatu sel memiliki residual yang besar (positif atau negatif), berarti frekuensi observasi dalam sel tersebut sangat berbeda dari yang diharapkan, sehingga sel tersebut banyak berkontribusi terhadap hubungan antar variabel.
Mosaic Plot merupakan representasi grafis dari tabel kontingensi yang memvisualisasikan distribusi dan pola asosiasi antar variabel kategori secara intuitif (Friendly, 1994). Setiap sel tabel kontingensi direpresentasikan sebagai persegi panjang, di mana luas setiap persegi panjang sebanding dengan proporsi frekuensi sel tersebut terhadap total keseluruhan observasi.
Dalam penelitian ini, generative artificial intelligence (AI) dimanfaatkan untuk membantu penyusunan dokumen R Markdown sebagai bahan presentasi. AI juga dilibatkan dalam proses penulisan naskah, penelusuran referensi, serta interpretasi hasil analisis sebagai bahan pertimbangan. Meski demikian, seluruh tahapan analisis dan keputusan akhir mengenai arah analisis, relevansi interpretasi, serta simpulan yang digunakan sepenuhnya merupakan tanggung jawab penulis.
Data yang digunakan adalah tabel kontingensi penduduk berumur 15 tahun ke atas menurut tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, bersumber dari BPS.
# ── Input data kontingensi ──────────────────────────────────────────────────
tingkat_pendidikan <- c(
"Tidak/Belum Pernah Sekolah",
"Tidak/Belum Tamat SD",
"SD/Sederajat",
"SMP/Sederajat",
"SMA/SMK/Sederajat",
"Perguruan Tinggi"
)
# Kolom: Bekerja | Pengangguran | Bukan Angkatan Kerja
obs_matrix <- matrix(
c(1437402, 13598, 629291,
16231950, 394364, 9090142,
34283869, 857486, 14745133,
25808289, 1154255, 19483242,
46405741, 3729453, 16675041,
18011795, 1045706, 4001088),
nrow = 6,
byrow = TRUE,
dimnames = list(
tingkat_pendidikan,
c("Bekerja", "Pengangguran", "Bukan Angkatan Kerja")
)
)
# Tampilkan sebagai tabel
kable(obs_matrix,
caption = "Tabel 3. Tabel Kontingensi: Tingkat Pendidikan × Status Kegiatan Penduduk",
format.args = list(big.mark = "."),
align = "rrr") |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = TRUE, font_size = 13) |>
add_header_above(c(" " = 1, "Status Kegiatan Penduduk" = 3)) |>
row_spec(0, bold = TRUE, background = "#2c7bb6", color = "white") |>
column_spec(1, bold = TRUE)| Bekerja | Pengangguran | Bukan Angkatan Kerja | |
|---|---|---|---|
| Tidak/Belum Pernah Sekolah | 1.437.402 | 13.598 | 629.291 |
| Tidak/Belum Tamat SD | 16.231.950 | 394.364 | 9.090.142 |
| SD/Sederajat | 34.283.869 | 857.486 | 14.745.133 |
| SMP/Sederajat | 25.808.289 | 1.154.255 | 19.483.242 |
| SMA/SMK/Sederajat | 46.405.741 | 3.729.453 | 16.675.041 |
| Perguruan Tinggi | 18.011.795 | 1.045.706 | 4.001.088 |
# Tambahkan total baris dan kolom
obs_with_total <- cbind(obs_matrix,
Total = rowSums(obs_matrix))
obs_with_total <- rbind(obs_with_total,
Total = colSums(obs_with_total))
kable(obs_with_total,
caption = "Tabel Kontingensi dengan Total Marginal",
format.args = list(big.mark = "."),
align = "rrrr") |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = TRUE, font_size = 13) |>
row_spec(nrow(obs_with_total), bold = TRUE, background = "#e8f4f8") |>
column_spec(1, bold = TRUE) |>
column_spec(5, bold = TRUE, background = "#e8f4f8")| Bekerja | Pengangguran | Bukan Angkatan Kerja | Total | |
|---|---|---|---|---|
| Tidak/Belum Pernah Sekolah | 1.437.402 | 13.598 | 629.291 | 2.080.291 |
| Tidak/Belum Tamat SD | 16.231.950 | 394.364 | 9.090.142 | 25.716.456 |
| SD/Sederajat | 34.283.869 | 857.486 | 14.745.133 | 49.886.488 |
| SMP/Sederajat | 25.808.289 | 1.154.255 | 19.483.242 | 46.445.786 |
| SMA/SMK/Sederajat | 46.405.741 | 3.729.453 | 16.675.041 | 66.810.235 |
| Perguruan Tinggi | 18.011.795 | 1.045.706 | 4.001.088 | 23.058.589 |
| Total | 142.179.046 | 7.194.862 | 64.623.937 | 213.997.845 |
Distribusi bersyarat baris menyatakan distribusi status kegiatan pada setiap kategori tingkat pendidikan (dalam persen).
# Hitung distribusi bersyarat baris (proporsi per baris)
prop_baris <- prop.table(obs_matrix, margin = 1) * 100
prop_df <- as.data.frame(round(prop_baris, 2))
prop_df$Total <- rowSums(prop_df)
kable(prop_df,
caption = "Tabel 4. Distribusi Bersyarat Baris: Persentase Status Kegiatan pada Setiap Tingkat Pendidikan (%)",
col.names = c("Bekerja (%)", "Pengangguran (%)", "Bukan Angkatan Kerja (%)", "Total (%)"),
align = "rrrr") |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = TRUE, font_size = 13) |>
column_spec(1, bold = TRUE) |>
row_spec(which.max(prop_df[,1]), background = "#d4edda") |> # max bekerja
row_spec(which.max(prop_df[,2]), background = "#fff3cd") |> # max pengangguran
row_spec(which.max(prop_df[,3]), background = "#f8d7da") # max bukan AK| Bekerja (%) | Pengangguran (%) | Bukan Angkatan Kerja (%) | Total (%) | |
|---|---|---|---|---|
| Tidak/Belum Pernah Sekolah | 69.10 | 0.65 | 30.25 | 100.00 |
| Tidak/Belum Tamat SD | 63.12 | 1.53 | 35.35 | 100.00 |
| SD/Sederajat | 68.72 | 1.72 | 29.56 | 100.00 |
| SMP/Sederajat | 55.57 | 2.49 | 41.95 | 100.01 |
| SMA/SMK/Sederajat | 69.46 | 5.58 | 24.96 | 100.00 |
| Perguruan Tinggi | 78.11 | 4.53 | 17.35 | 99.99 |
Catatan interpretasi:
# Reshape ke long format untuk ggplot
library(tidyr)
prop_long <- as.data.frame(prop_baris) |>
tibble::rownames_to_column("Pendidikan") |>
pivot_longer(-Pendidikan, names_to = "Status", values_to = "Persen")
# Urutan kategori
prop_long$Pendidikan <- factor(prop_long$Pendidikan,
levels = c("Tidak/Belum Pernah Sekolah","Tidak/Belum Tamat SD",
"SD/Sederajat","SMP/Sederajat","SMA/SMK/Sederajat","Perguruan Tinggi"))
prop_long$Status <- factor(prop_long$Status,
levels = c("Bukan Angkatan Kerja","Pengangguran","Bekerja"))
ggplot(prop_long, aes(x = Pendidikan, y = Persen, fill = Status)) +
geom_bar(stat = "identity", position = "stack", width = 0.7) +
geom_text(aes(label = paste0(round(Persen, 1), "%")),
position = position_stack(vjust = 0.5),
size = 3.2, color = "white", fontface = "bold") +
scale_fill_manual(values = c(
"Bekerja" = "#2c7bb6",
"Pengangguran" = "#d7191c",
"Bukan Angkatan Kerja"= "#fdae61"
)) +
labs(
title = "Distribusi Status Kegiatan Penduduk\nMenurut Tingkat Pendidikan (2024)",
subtitle = "Sumber: BPS, 2024",
x = "Tingkat Pendidikan",
y = "Persentase (%)",
fill = "Status Kegiatan"
) +
scale_x_discrete(labels = function(x) stringr::str_wrap(x, width = 12)) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5, color = "gray50"),
legend.position = "bottom",
axis.text.x = element_text(size = 9)
)Gambar: Distribusi Status Kegiatan per Tingkat Pendidikan (Stacked Bar Chart)
Berdasarkan distribusi bersyarat baris, terlihat bahwa penduduk dengan tingkat pendidikan Perguruan Tinggi memiliki proporsi bekerja tertinggi (78,12%), sedangkan penduduk dengan tingkat pendidikan SMP/Sederajat memiliki proporsi bekerja terendah (55,57%). Pola ini mengindikasikan adanya kecenderungan bahwa tingkat pendidikan yang lebih tinggi berasosiasi dengan proporsi bekerja yang lebih besar.
# Lakukan Uji Chi-Square
hasil_chi <- chisq.test(obs_matrix, correct = FALSE)
# Derajat bebas dan nilai kritis
df_val <- hasil_chi$parameter
chi_kritis <- qchisq(0.95, df = df_val)
# Tampilkan hasil
hasil_df <- data.frame(
Statistik = c("χ² hitung", "Derajat Bebas (df)", "χ² tabel (α = 0,05)", "p-value"),
Nilai = c(
formatC(hasil_chi$statistic, format = "f", digits = 0, big.mark = "."),
df_val,
round(chi_kritis, 5),
formatC(hasil_chi$p.value, format = "e", digits = 3)
)
)
kable(hasil_df,
caption = "Tabel 5. Hasil Uji Chi-Square",
col.names = c("Statistik", "Nilai"),
align = "lr") |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = FALSE, position = "center", font_size = 13) |>
row_spec(1, bold = TRUE, background = "#d4edda") |>
column_spec(1, bold = TRUE)| Statistik | Nilai |
|---|---|
| χ² hitung | 7.580.457 |
| Derajat Bebas (df) | 10 |
| χ² tabel (α = 0,05) | 18.30704 |
| p-value | 0.000e+00 |
Keputusan:
\[\chi^2_{\text{hitung}} = 7.580.457 \gg \chi^2_{\text{tabel}} = 18{,}307 \quad \Rightarrow \quad \textbf{Tolak } H_0\]
Dengan demikian, terdapat cukup bukti bahwa terdapat asosiasi yang signifikan antara tingkat pendidikan tertinggi yang ditamatkan dengan status kegiatan penduduk di Indonesia tahun 2024 pada taraf signifikansi \(\alpha = 0{,}05\).
⚠️ Catatan: Besarnya nilai \(\chi^2\) yang diperoleh merupakan konsekuensi dari penggunaan data survei nasional berskala sangat besar (\(N \approx 214\) juta). Dengan ukuran sampel sebesar ini, uji Chi-Square menjadi sangat sensitif terhadap perbedaan antarkategori sekecil apapun, sehingga interpretasi tidak seharusnya bertumpu pada signifikansi statistik semata.
# Hitung Cramér's V secara manual
N_total <- sum(obs_matrix)
r_rows <- nrow(obs_matrix)
k_cols <- ncol(obs_matrix)
chi2_val <- hasil_chi$statistic
V <- sqrt(chi2_val / (N_total * min(r_rows - 1, k_cols - 1)))
hasil_v_df <- data.frame(
Ukuran = c("Cramér's V", "Interpretasi"),
Nilai = c(round(V, 4), "Lemah (0,11 – 0,30)")
)
kable(hasil_v_df,
caption = "Tabel 6. Hasil Uji Cramér's V",
col.names = c("Ukuran", "Nilai"),
align = "lr") |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = FALSE, position = "center", font_size = 13) |>
row_spec(1, bold = TRUE, background = "#fff3cd") |>
column_spec(1, bold = TRUE)| Ukuran | Nilai | |
|---|---|---|
| X-squared | Cramér’s V | 0.1331 |
| Interpretasi | Lemah (0,11 – 0,30) |
Nilai \(V = 0{,}1331\) berada pada rentang \(0{,}10 < V \leq 0{,}30\), sehingga mengindikasikan bahwa kekuatan asosiasi antara tingkat pendidikan dan status kegiatan penduduk Indonesia tahun 2024 tergolong lemah. Meskipun uji Chi-Square membuktikan bahwa asosiasi tersebut signifikan secara statistik, nilai Cramér’s V yang tergolong lemah menunjukkan bahwa dalam praktiknya tingkat pendidikan hanya memberikan kontribusi yang terbatas dalam menjelaskan variasi status kegiatan penduduk.
# Hitung frekuensi harapan
E <- hasil_chi$expected
# Hitung marginal probability
p_row <- rowSums(obs_matrix) / N_total
p_col <- colSums(obs_matrix) / N_total
# Hitung residual terstandarisasi
r_std <- matrix(NA, nrow = r_rows, ncol = k_cols,
dimnames = dimnames(obs_matrix))
for (i in 1:r_rows) {
for (j in 1:k_cols) {
r_std[i, j] <- (obs_matrix[i,j] - E[i,j]) /
sqrt(E[i,j] * (1 - p_row[i]) * (1 - p_col[j]))
}
}
r_std_rounded <- round(r_std, 4)
kable(r_std_rounded,
caption = "Tabel 7. Residual Terstandarisasi",
align = "rrr",
format.args = list(big.mark = ".")) |>
kable_styling(bootstrap_options = c("striped","hover","bordered"),
full_width = TRUE, font_size = 13) |>
column_spec(1, bold = TRUE) |>
# Warna berdasarkan arah residual
column_spec(2, color = ifelse(r_std_rounded[,1] > 0, "#155724", "#721c24"),
bold = TRUE) |>
column_spec(3, color = ifelse(r_std_rounded[,2] > 0, "#155724", "#721c24"),
bold = TRUE) |>
column_spec(4, color = ifelse(r_std_rounded[,3] > 0, "#155724", "#721c24"),
bold = TRUE)| Bekerja | Pengangguran | Bukan Angkatan Kerja | |
|---|---|---|---|
| Tidak/Belum Pernah Sekolah | 81.5459 | -217.7838 | 1.6333 |
| Tidak/Belum Tamat SD | -380.1802 | -548.4633 | 606.3433 |
| SD/Sederajat | 390.1657 | -735.2734 | -112.6122 |
| SMP/Sederajat | -1.773.4733 | -374.7131 | 1.971.1252 |
| SMA/SMK/Sederajat | 630.2399 | 1.213.8667 | -1.124.7694 |
| Perguruan Tinggi | 1.256.7657 | 330.7848 | -1.422.4468 |
Interpretasi Residual Terstandarisasi:
Mengingat data bersumber dari survei nasional berskala besar, interpretasi difokuskan pada arah dan pola residual antarkategori, bukan pada besaran absolutnya.
| Kelompok Pendidikan | Pola Residual | Interpretasi |
|---|---|---|
| Tidak/Belum Pernah Sekolah | Bekerja: ✅ positif; Pengangguran: ❌ negatif | Cenderung langsung terserap sektor informal/subsisten tanpa pencarian kerja formal |
| Tidak/Belum Tamat SD | Bekerja: ❌ negatif; Bukan AK: ✅ positif | Sebagian besar tidak aktif di pasar kerja formal |
| SD/Sederajat | Bekerja: ✅ positif; Bukan AK: ❌ negatif | Sudah aktif di pasar kerja, namun dominan di sektor informal |
| SMP/Sederajat | Bukan AK: ✅ tertinggi; Bekerja: ❌ sangat negatif | Umumnya masih usia sekolah, belum memasuki dunia kerja |
| SMA/SMK/Sederajat | Pengangguran: ✅ positif tinggi; Bukan AK: ❌ sangat negatif | Aktif di pasar kerja tetapi belum terserap → fenomena educated unemployment |
| Perguruan Tinggi | Bekerja: ✅ tertinggi; Bukan AK: ❌ paling negatif | Paling kompetitif di pasar kerja formal, sejalan teori human capital |
# Reshape untuk ggplot
r_std_df <- as.data.frame(r_std) |>
tibble::rownames_to_column("Pendidikan") |>
pivot_longer(-Pendidikan, names_to = "Status", values_to = "Residual")
r_std_df$Pendidikan <- factor(r_std_df$Pendidikan,
levels = rev(c("Tidak/Belum Pernah Sekolah","Tidak/Belum Tamat SD",
"SD/Sederajat","SMP/Sederajat","SMA/SMK/Sederajat","Perguruan Tinggi")))
r_std_df$Status <- factor(r_std_df$Status,
levels = c("Bekerja","Pengangguran","Bukan Angkatan Kerja"))
ggplot(r_std_df, aes(x = Status, y = Pendidikan, fill = Residual)) +
geom_tile(color = "white", linewidth = 0.8) +
geom_text(aes(label = round(Residual, 1)), size = 3.5, fontface = "bold") +
scale_fill_gradient2(
low = "#d7191c",
mid = "white",
high = "#2c7bb6",
midpoint = 0,
name = "Residual\nTerstandarisasi"
) +
labs(
title = "Heatmap Residual Terstandarisasi",
subtitle = "Biru (+) = lebih tinggi dari ekspektasi | Merah (-) = lebih rendah dari ekspektasi",
x = "Status Kegiatan Penduduk",
y = "Tingkat Pendidikan"
) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5, color = "gray50", size = 10),
axis.text.x = element_text(size = 10),
axis.text.y = element_text(size = 9)
)Gambar: Heatmap Residual Terstandarisasi
# Urutkan level faktor
obs_table <- as.table(obs_matrix)
# Gunakan vcd::mosaic
vcd::mosaic(
obs_table,
shade = TRUE,
legend = TRUE,
direction = c("v", "h"),
labeling_args = list(
set_varnames = c(A = "Tingkat Pendidikan", B = "Status Kegiatan"),
abbreviate = c(A = TRUE, B = FALSE),
rot_labels = c(0, 0, 90, 0),
gp_labels = gpar(fontsize = 9)
),
main = "Mosaic Plot: Tingkat Pendidikan tertinggi yang\nditamatkan vs Status Kegiatan Penduduk Indonesia 2024"
)Gambar 1. Mosaic Plot: Tingkat Pendidikan vs Status Kegiatan Penduduk Indonesia 2024
Mosaic Plot memperlihatkan pola asosiasi yang konsisten antara tingkat pendidikan dan status ketenagakerjaan penduduk Indonesia tahun 2024:
Hasil analisis menunjukkan bahwa terdapat asosiasi yang signifikan antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, sebagaimana dibuktikan oleh nilai \(\chi^2_{\text{hitung}} = 7.580.457\) yang jauh melampaui \(\chi^2_{\text{tabel}} = 18{,}307\). Temuan ini konsisten dengan teori human capital (Schultz, 1961; Becker, 1993) yang menyatakan bahwa pendidikan merupakan investasi yang meningkatkan produktivitas dan daya saing individu di pasar kerja.
Namun demikian, nilai Cramér’s V yang tergolong lemah (\(V = 0{,}1331\)) mengindikasikan bahwa meskipun asosiasi terbukti signifikan secara statistik, tingkat pendidikan hanya mampu menjelaskan sebagian kecil dari variasi status kegiatan penduduk. Kondisi ini wajar mengingat status ketenagakerjaan seseorang juga dipengaruhi oleh faktor lain seperti:
Analisis residual terstandarisasi memberikan gambaran yang lebih rinci mengenai pola asosiasi yang terbentuk:
Kelompok SMP/Sederajat mencatatkan residual bukan angkatan kerja tertinggi, mengindikasikan bahwa sebagian besar individu pada jenjang ini belum memasuki pasar kerja dan kemungkinan besar masih melanjutkan pendidikan ke jenjang yang lebih tinggi. Temuan ini sejalan dengan program wajib belajar 12 tahun.
Kelompok SMA/SMK/Sederajat memperlihatkan residual pengangguran yang tinggi dan positif, mencerminkan fenomena educated unemployment yang kerap terjadi pada lulusan pendidikan menengah. Fenomena ini dapat dijelaskan oleh ketidaksesuaian antara kompetensi yang dimiliki lulusan SMA/SMK dengan kebutuhan dunia kerja (skill mismatch).
Kelompok Perguruan Tinggi secara konsisten menunjukkan residual bekerja tertinggi dan residual bukan angkatan kerja paling negatif, menegaskan bahwa pendidikan tinggi memberikan keunggulan kompetitif yang nyata dalam memperoleh pekerjaan formal. Temuan ini memperkuat argumen bahwa investasi pada pendidikan tinggi memberikan returns yang lebih besar dibandingkan jenjang pendidikan di bawahnya.
Secara keseluruhan, hasil penelitian ini mengimplikasikan perlunya kebijakan yang tidak hanya mendorong peningkatan akses pendidikan, tetapi juga memastikan relevansi kurikulum dengan kebutuhan pasar kerja, khususnya pada jenjang SMA/SMK. Upaya pengurangan skill mismatch melalui penguatan pendidikan vokasi dan pelatihan berbasis kompetensi perlu terus ditingkatkan.
Berdasarkan hasil analisis yang telah dilakukan, dapat ditarik beberapa simpulan sebagai berikut:
Pertama, uji independensi Chi-Square membuktikan bahwa terdapat asosiasi yang signifikan secara statistik antara tingkat pendidikan tertinggi yang ditamatkan dan status kegiatan penduduk Indonesia tahun 2024, ditunjukkan oleh nilai \(\chi^2_{\text{hitung}} = 7.580.457 \gg \chi^2_{\text{tabel}} = 18{,}307\) pada taraf signifikansi \(\alpha = 0{,}05\).
Kedua, meskipun asosiasi terbukti signifikan, nilai Cramér’s V sebesar 0,1331 mengindikasikan bahwa kekuatan asosiasi antara kedua variabel tergolong lemah. Hal ini menunjukkan bahwa tingkat pendidikan hanya merupakan salah satu dari sekian banyak faktor yang memengaruhi status kegiatan penduduk.
Ketiga, analisis residual terstandarisasi mengungkapkan pola asosiasi yang berbeda antarkategori:
Pola ini secara keseluruhan konsisten dengan prediksi teori human capital bahwa investasi pendidikan yang lebih tinggi berasosiasi dengan peluang penyerapan tenaga kerja formal yang lebih besar.
Rekomendasi: Kebijakan ketenagakerjaan sebaiknya tidak hanya difokuskan pada perluasan akses pendidikan, tetapi juga pada peningkatan relevansi dan kualitas pendidikan menengah melalui penguatan program vokasi dan pelatihan berbasis kompetensi guna menekan angka educated unemployment. Penelitian selanjutnya disarankan untuk mempertimbangkan variabel kontrol tambahan seperti jenis kelamin, wilayah, dan sektor pekerjaan guna memperoleh gambaran yang lebih komprehensif.
Schultz, T. W. (1961). Investment in Human Capital. The American Economic Review, 51(1), 1–17.
Becker, G. S. (1993). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education (3rd ed.). Chicago, IL: The University of Chicago Press.
Badan Pusat Statistik. (2024). Statistik Indonesia 2024. Jakarta: BPS.
Agresti, A. (2018). An Introduction to Categorical Data Analysis (3rd ed.). Hoboken, NJ: John Wiley & Sons.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Hoboken, NJ: John Wiley & Sons.
Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers (7th ed.). Hoboken, NJ: John Wiley & Sons.
Badan Pusat Statistik. (2024). Penduduk Berumur 15 Tahun ke Atas Menurut Pendidikan Tertinggi yang Ditamatkan dan Jenis Kegiatan Selama Seminggu Terakhir, 2024. Diakses dari: https://www.bps.go.id
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton, NJ: Princeton University Press, p. 282.
Friendly, M. (1994). Mosaic displays for multi-way contingency tables. Journal of the American Statistical Association, 89(425), 190–200. https://doi.org/10.2307/2291215
Kode R yang digunakan dalam seluruh tahap analisis tersedia sebagai file tambahan: Google Drive — Kode Analisis