NEET (Not in Education, Employment, or Training) merupakan indikator yang menggambarkan proporsi penduduk usia produktif yang tidak sedang bersekolah, tidak bekerja, dan tidak mengikuti pelatihan. Tingginya persentase NEET dapat menjadi indikasi permasalahan dalam pasar tenaga kerja maupun sistem pendidikan.
Penelitian ini bertujuan untuk menganalisis faktor-faktor yang mempengaruhi persentase NEET di Indonesia tahun 2024 dengan menggunakan metode regresi linier berganda.
Data yang digunakan bersumber dari Badan Pusat Statistik (BPS) tahun 2024, meliputi 38 provinsi di Indonesia. Variabel yang diamati adalah:
data <- read_excel("D:/KULIAH/SEMESTER 6/KOMLAN/KOMPUTASI STATISTIKA LANJUT SEPTIN/DATA_ANAREG_SEPTIN.xlsx", sheet = "Sheet1")
kable(data)| Provinsi | Y | X1 | X2 | X3 |
|---|---|---|---|---|
| Aceh | 28.56 | 65.11 | 43.59 | 9.64 |
| Sumatera Utara | 19.78 | 71.36 | 41.22 | 9.93 |
| Sumatera Barat | 21.31 | 70.28 | 44.13 | 9.94 |
| Riau | 21.79 | 66.33 | 44.42 | 9.43 |
| Jambi | 20.71 | 68.87 | 44.24 | 8.90 |
| Sumatera Selatan | 23.36 | 70.82 | 41.00 | 8.57 |
| Bengkulu | 20.92 | 71.71 | 43.57 | 9.04 |
| Lampung | 22.53 | 70.41 | 42.07 | 8.36 |
| Kep. Bangka Belitung | 21.26 | 68.87 | 47.61 | 8.33 |
| Kep. Riau | 14.52 | 69.17 | 45.44 | 10.50 |
| DKI Jakarta | 15.19 | 65.10 | 50.50 | 11.49 |
| Jawa Barat | 23.49 | 67.71 | 46.66 | 8.87 |
| Jawa Tengah | 17.93 | 73.74 | 47.42 | 8.02 |
| DI Yogyakarta | 11.18 | 74.78 | 47.10 | 9.92 |
| Jawa Timur | 17.02 | 73.45 | 46.07 | 8.28 |
| Banten | 23.79 | 66.17 | 45.70 | 9.23 |
| Bali | 7.26 | 77.11 | 49.05 | 9.54 |
| Nusa Tenggara Barat | 15.44 | 77.23 | 45.60 | 7.78 |
| Nusa Tenggara Timur | 17.02 | 77.50 | 42.32 | 8.02 |
| Kalimantan Barat | 21.22 | 70.44 | 44.67 | 7.78 |
| Kalimantan Tengah | 21.78 | 68.71 | 41.09 | 8.81 |
| Kalimantan Selatan | 18.69 | 70.22 | 44.62 | 8.62 |
| Kalimantan Timur | 19.35 | 67.07 | 44.45 | 10.02 |
| Kalimantan Utara | 16.87 | 70.35 | 43.30 | 9.35 |
| Sulawesi Utara | 28.33 | 66.07 | 42.86 | 9.84 |
| Sulawesi Tengah | 20.67 | 71.10 | 43.82 | 9.04 |
| Sulawesi Selatan | 21.65 | 67.38 | 42.26 | 8.86 |
| Sulawesi Tenggara | 19.78 | 72.81 | 43.44 | 9.42 |
| Gorontalo | 21.89 | 69.95 | 44.21 | 8.29 |
| Sulawesi Barat | 20.25 | 71.40 | 41.65 | 8.15 |
| Maluku | 29.43 | 66.52 | 41.69 | 10.26 |
| Maluku Utara | 27.85 | 69.13 | 38.33 | 9.37 |
| Papua Barat | 26.93 | 71.25 | 41.02 | 7.86 |
| Papua Barat Daya | 25.04 | 67.81 | 42.27 | 8.39 |
| Papua | 27.85 | 68.40 | 40.46 | 9.82 |
| Papua Selatan | 23.96 | 71.67 | 40.11 | 8.38 |
| Papua Tengah | 31.20 | 73.13 | 36.66 | 6.12 |
| Papua Pegunungan | 17.74 | 88.22 | 32.48 | 4.21 |
Ringkasan statistik deskriptif:
## Provinsi Y X1 X2
## Length:38 Min. : 7.26 Min. :65.10 Min. :32.48
## Class :character 1st Qu.:18.12 1st Qu.:67.96 1st Qu.:41.66
## Mode :character Median :21.24 Median :70.31 Median :43.58
## Mean :21.15 Mean :70.72 Mean :43.34
## 3rd Qu.:23.71 3rd Qu.:71.70 3rd Qu.:45.25
## Max. :31.20 Max. :88.22 Max. :50.50
## X3
## Min. : 4.210
## 1st Qu.: 8.300
## Median : 8.885
## Mean : 8.852
## 3rd Qu.: 9.615
## Max. :11.490
Matriks korelasi digunakan untuk melihat kekuatan dan arah hubungan linear antar variabel yang digunakan dalam penelitian.
## Y X1 X2 X3
## Y 1.0000000 -0.4595758 -0.5239855 -0.1037258
## X1 -0.4595758 1.0000000 -0.3448859 -0.6899189
## X2 -0.5239855 -0.3448859 1.0000000 0.5784780
## X3 -0.1037258 -0.6899189 0.5784780 1.0000000
Berdasarkan matriks korelasi di atas, dapat diamati hubungan linear antara variabel dependen yaitu persentase NEET (Y) dengan variabel independen yang terdiri dari Tingkat Partisipasi Angkatan Kerja (X1), Indeks Pembangunan Manusia (X2), dan Rata-rata Lama Sekolah (X3). Nilai korelasi berkisar antara -1 hingga 1, di mana nilai yang mendekati 1 menunjukkan hubungan positif yang kuat, nilai yang mendekati -1 menunjukkan hubungan negatif yang kuat, sedangkan nilai yang mendekati 0 menunjukkan hubungan yang lemah antar variabel.
Heatmap korelasi digunakan untuk memvisualisasikan kekuatan hubungan antar variabel dalam bentuk warna sehingga lebih mudah diinterpretasikan.
library(corrplot)
corr_matrix <- cor(data[,c("Y","X1","X2","X3")])
corrplot(corr_matrix,
method = "color",
type = "upper",
addCoef.col = "black",
tl.col = "black",
tl.srt = 45,
col = colorRampPalette(c("blue","white","red"))(200))Pada heatmap korelasi di atas, warna yang semakin mendekati merah menunjukkan hubungan positif yang semakin kuat antar variabel, sedangkan warna yang semakin mendekati biru menunjukkan hubungan negatif yang semakin kuat. Warna yang mendekati putih menunjukkan bahwa hubungan antar variabel relatif lemah. Visualisasi ini memudahkan dalam melihat pola hubungan antar variabel yang digunakan dalam model regresi.
Scatter plot matriks digunakan untuk melihat pola hubungan antar pasangan variabel serta mengidentifikasi kemungkinan adanya hubungan linear antara variabel independen dan variabel dependen.
Berdasarkan scatter plot matriks di atas, dapat diamati pola sebaran titik antar pasangan variabel. Apabila titik-titik data menunjukkan kecenderungan mengikuti pola garis lurus, maka terdapat indikasi hubungan linear antar variabel tersebut. Scatter plot juga membantu dalam mengidentifikasi kemungkinan adanya pola tertentu, outlier, maupun hubungan non-linear antar variabel sebelum dilakukan analisis regresi linier berganda.
Model yang akan diestimasi:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \varepsilon \]
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.1935 -1.4789 -0.0676 1.9365 4.3762
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 154.3074 12.0352 12.821 1.41e-14 ***
## X1 -1.1070 0.1232 -8.984 1.68e-10 ***
## X2 -0.9342 0.1413 -6.611 1.40e-07 ***
## X3 -1.6245 0.4937 -3.290 0.00234 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.331 on 34 degrees of freedom
## Multiple R-squared: 0.8027, Adjusted R-squared: 0.7853
## F-statistic: 46.11 on 3 and 34 DF, p-value: 4.459e-12
Dari output diperoleh persamaan regresi:
\[ \hat{Y} = 154.3074 -1.107 X_1 -0.9342 X_2 -1.6245 X_3 \]
Nilai p-value dari uji F adalah 4.4589726^{-12}.
Jika p-value < 0.05 maka model signifikan secara simultan.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 154.3073801 12.0352174 12.821321 1.408682e-14
## X1 -1.1070447 0.1232188 -8.984382 1.681597e-10
## X2 -0.9341757 0.1413136 -6.610655 1.402611e-07
## X3 -1.6244817 0.4937064 -3.290380 2.335755e-03
Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam model regresi.
Nilai koefisien determinasi (R²)
## [1] 0.8027058
Nilai Adjusted R²
## [1] 0.7852975
Nilai koefisien determinasi (R²) yang diperoleh adalah sebesar 0.8027, yang berarti bahwa sebesar 80.27% variasi pada persentase NEET dapat dijelaskan oleh variabel Tingkat Partisipasi Angkatan Kerja (X1), Indeks Pembangunan Manusia (X2), dan Rata-rata Lama Sekolah (X3) dalam model regresi.
Sementara itu, nilai Adjusted R² sebesar 0.7853 menunjukkan bahwa setelah memperhitungkan jumlah variabel dalam model, sekitar 78.53% variasi persentase NEET masih dapat dijelaskan oleh model yang digunakan.
##
## Shapiro-Wilk normality test
##
## data: resid
## W = 0.97238, p-value = 0.4596
Jika p-value > 0.05 maka residual berdistribusi normal.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 7.3842, df = 3, p-value = 0.06061
Jika p-value > 0.05 maka tidak terjadi heteroskedastisitas.
## X1 X2 X3
## 1.924579 1.515717 2.548470
Nilai VIF < 10 menunjukkan tidak ada multikolinearitas serius.
ggplot(data, aes(X1,Y))+
geom_point(color="steelblue")+
geom_smooth(method="lm", se=FALSE,
color="red")+
labs(title = "Hubungan Tingkat Partisipasi Angkatan Kerja dengan NEET",
x = "Tingkat Partisipasi Angkatan Kerja (%)",
y = "NEET (%)")ggplot(data, aes(X2,Y))+
geom_point(color="steelblue")+
geom_smooth(method="lm", se=FALSE,
color="red")+
labs(title = "Hubungan Indeks Pembangunan Manusia (IPM) dengan NEET",
x = "Indeks Pembangunan Manusia",
y = "NEET (%)")ggplot(data, aes(X3,Y))+
geom_point(color="steelblue")+
geom_smooth(method="lm", se=FALSE,
color="red")+
labs(title = "Hubungan Rata-rata Lama Sekolah dengan NEET",
x = "Rata-rata Lama Sekolah (tahun)",
y = "NEET (%)")Keterangan: Berdasarkan visualisasi scatter plot di atas, hubungan antara masing-masing variabel independen dengan persentase NEET dapat diamati melalui pola sebaran titik dan garis regresi. Garis regresi menunjukkan kecenderungan arah hubungan antara variabel penjelas dengan NEET. Jika titik-titik data mengikuti arah garis regresi, maka terdapat indikasi hubungan linear antara variabel tersebut dengan persentase NEET.
Empat grafik diagnostik di atas digunakan untuk mengevaluasi apakah model regresi memenuhi asumsi dasar regresi linear.
Residuals vs Fitted digunakan untuk melihat apakah terdapat pola tertentu pada residual. Jika titik-titik menyebar secara acak di sekitar garis horizontal, maka asumsi linearitas model terpenuhi.
Normal Q-Q Plot digunakan untuk memeriksa apakah residual berdistribusi normal. Apabila titik-titik mengikuti garis diagonal, maka asumsi normalitas residual dapat dianggap terpenuhi.
Scale-Location Plot digunakan untuk melihat kesamaan varians residual (homoskedastisitas). Jika titik-titik tersebar relatif merata, maka varians residual dapat dianggap konstan.
Residuals vs Leverage digunakan untuk mendeteksi adanya pengamatan yang memiliki pengaruh besar terhadap model regresi. Titik yang berada jauh dari kelompok data lainnya dapat menjadi indikasi observasi yang berpengaruh.
Berdasarkan analisis regresi linier berganda dengan data 38 provinsi di Indonesia tahun 2024, diperoleh bahwa variabel TPAK (X1), IPM (X2), dan RLS (X3) berpengaruh terhadap persentase NEET.
Model memenuhi asumsi klasik karena:
Koefisien determinasi sebesar 80.27% menunjukkan bahwa model mampu menjelaskan variasi persentase NEET dengan cukup baik.