1 Pendahuluan

NEET (Not in Education, Employment, or Training) merupakan indikator yang menggambarkan proporsi penduduk usia produktif yang tidak sedang bersekolah, tidak bekerja, dan tidak mengikuti pelatihan. Tingginya persentase NEET dapat menjadi indikasi permasalahan dalam pasar tenaga kerja maupun sistem pendidikan.

Penelitian ini bertujuan untuk menganalisis faktor-faktor yang mempengaruhi persentase NEET di Indonesia tahun 2024 dengan menggunakan metode regresi linier berganda.

2 Deskripsi Data

Data yang digunakan bersumber dari Badan Pusat Statistik (BPS) tahun 2024, meliputi 38 provinsi di Indonesia. Variabel yang diamati adalah:

  • Y : Persentase penduduk usia produktif yang tidak sekolah, tidak bekerja, dan tidak mengikuti pelatihan (%)
  • X1 : Tingkat Partisipasi Angkatan Kerja (%)
  • X2 : Indeks Pembangunan Manusia (IPM)
  • X3 : Rata-rata Lama Sekolah (tahun)
data <- read_excel("D:/KULIAH/SEMESTER 6/KOMLAN/KOMPUTASI STATISTIKA LANJUT SEPTIN/DATA_ANAREG_SEPTIN.xlsx", sheet = "Sheet1")

kable(data)
Provinsi Y X1 X2 X3
Aceh 28.56 65.11 43.59 9.64
Sumatera Utara 19.78 71.36 41.22 9.93
Sumatera Barat 21.31 70.28 44.13 9.94
Riau 21.79 66.33 44.42 9.43
Jambi 20.71 68.87 44.24 8.90
Sumatera Selatan 23.36 70.82 41.00 8.57
Bengkulu 20.92 71.71 43.57 9.04
Lampung 22.53 70.41 42.07 8.36
Kep. Bangka Belitung 21.26 68.87 47.61 8.33
Kep. Riau 14.52 69.17 45.44 10.50
DKI Jakarta 15.19 65.10 50.50 11.49
Jawa Barat 23.49 67.71 46.66 8.87
Jawa Tengah 17.93 73.74 47.42 8.02
DI Yogyakarta 11.18 74.78 47.10 9.92
Jawa Timur 17.02 73.45 46.07 8.28
Banten 23.79 66.17 45.70 9.23
Bali 7.26 77.11 49.05 9.54
Nusa Tenggara Barat 15.44 77.23 45.60 7.78
Nusa Tenggara Timur 17.02 77.50 42.32 8.02
Kalimantan Barat 21.22 70.44 44.67 7.78
Kalimantan Tengah 21.78 68.71 41.09 8.81
Kalimantan Selatan 18.69 70.22 44.62 8.62
Kalimantan Timur 19.35 67.07 44.45 10.02
Kalimantan Utara 16.87 70.35 43.30 9.35
Sulawesi Utara 28.33 66.07 42.86 9.84
Sulawesi Tengah 20.67 71.10 43.82 9.04
Sulawesi Selatan 21.65 67.38 42.26 8.86
Sulawesi Tenggara 19.78 72.81 43.44 9.42
Gorontalo 21.89 69.95 44.21 8.29
Sulawesi Barat 20.25 71.40 41.65 8.15
Maluku 29.43 66.52 41.69 10.26
Maluku Utara 27.85 69.13 38.33 9.37
Papua Barat 26.93 71.25 41.02 7.86
Papua Barat Daya 25.04 67.81 42.27 8.39
Papua 27.85 68.40 40.46 9.82
Papua Selatan 23.96 71.67 40.11 8.38
Papua Tengah 31.20 73.13 36.66 6.12
Papua Pegunungan 17.74 88.22 32.48 4.21

Ringkasan statistik deskriptif:

summary(data)
##    Provinsi               Y               X1              X2       
##  Length:38          Min.   : 7.26   Min.   :65.10   Min.   :32.48  
##  Class :character   1st Qu.:18.12   1st Qu.:67.96   1st Qu.:41.66  
##  Mode  :character   Median :21.24   Median :70.31   Median :43.58  
##                     Mean   :21.15   Mean   :70.72   Mean   :43.34  
##                     3rd Qu.:23.71   3rd Qu.:71.70   3rd Qu.:45.25  
##                     Max.   :31.20   Max.   :88.22   Max.   :50.50  
##        X3        
##  Min.   : 4.210  
##  1st Qu.: 8.300  
##  Median : 8.885  
##  Mean   : 8.852  
##  3rd Qu.: 9.615  
##  Max.   :11.490

3 Eksplorasi Data

3.1 Matriks Korelasi

Matriks korelasi digunakan untuk melihat kekuatan dan arah hubungan linear antar variabel yang digunakan dalam penelitian.

cor(data[,c("Y","X1","X2","X3")])
##             Y         X1         X2         X3
## Y   1.0000000 -0.4595758 -0.5239855 -0.1037258
## X1 -0.4595758  1.0000000 -0.3448859 -0.6899189
## X2 -0.5239855 -0.3448859  1.0000000  0.5784780
## X3 -0.1037258 -0.6899189  0.5784780  1.0000000

Berdasarkan matriks korelasi di atas, dapat diamati hubungan linear antara variabel dependen yaitu persentase NEET (Y) dengan variabel independen yang terdiri dari Tingkat Partisipasi Angkatan Kerja (X1), Indeks Pembangunan Manusia (X2), dan Rata-rata Lama Sekolah (X3). Nilai korelasi berkisar antara -1 hingga 1, di mana nilai yang mendekati 1 menunjukkan hubungan positif yang kuat, nilai yang mendekati -1 menunjukkan hubungan negatif yang kuat, sedangkan nilai yang mendekati 0 menunjukkan hubungan yang lemah antar variabel.


3.2 Heatmap Korelasi

Heatmap korelasi digunakan untuk memvisualisasikan kekuatan hubungan antar variabel dalam bentuk warna sehingga lebih mudah diinterpretasikan.

library(corrplot)

corr_matrix <- cor(data[,c("Y","X1","X2","X3")])

corrplot(corr_matrix,
         method = "color",
         type = "upper",
         addCoef.col = "black",
         tl.col = "black",
         tl.srt = 45,
         col = colorRampPalette(c("blue","white","red"))(200))

Pada heatmap korelasi di atas, warna yang semakin mendekati merah menunjukkan hubungan positif yang semakin kuat antar variabel, sedangkan warna yang semakin mendekati biru menunjukkan hubungan negatif yang semakin kuat. Warna yang mendekati putih menunjukkan bahwa hubungan antar variabel relatif lemah. Visualisasi ini memudahkan dalam melihat pola hubungan antar variabel yang digunakan dalam model regresi.


3.3 Scatter Plot Matriks

Scatter plot matriks digunakan untuk melihat pola hubungan antar pasangan variabel serta mengidentifikasi kemungkinan adanya hubungan linear antara variabel independen dan variabel dependen.

pairs(data[, c("Y", "X1", "X2", "X3")], 
      main = "Scatter Plot Matriks", 
      pch = 19, col = "steelblue")

Berdasarkan scatter plot matriks di atas, dapat diamati pola sebaran titik antar pasangan variabel. Apabila titik-titik data menunjukkan kecenderungan mengikuti pola garis lurus, maka terdapat indikasi hubungan linear antar variabel tersebut. Scatter plot juga membantu dalam mengidentifikasi kemungkinan adanya pola tertentu, outlier, maupun hubungan non-linear antar variabel sebelum dilakukan analisis regresi linier berganda.

4 Estimasi Model Regresi Linier Berganda

Model yang akan diestimasi:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \varepsilon \]

model <- lm(Y ~ X1 + X2 + X3, data = data)
summary(model)
## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.1935 -1.4789 -0.0676  1.9365  4.3762 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 154.3074    12.0352  12.821 1.41e-14 ***
## X1           -1.1070     0.1232  -8.984 1.68e-10 ***
## X2           -0.9342     0.1413  -6.611 1.40e-07 ***
## X3           -1.6245     0.4937  -3.290  0.00234 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.331 on 34 degrees of freedom
## Multiple R-squared:  0.8027, Adjusted R-squared:  0.7853 
## F-statistic: 46.11 on 3 and 34 DF,  p-value: 4.459e-12

Dari output diperoleh persamaan regresi:

\[ \hat{Y} = 154.3074 -1.107 X_1 -0.9342 X_2 -1.6245 X_3 \]

4.1 Interpretasi Koefisien

  • Setiap kenaikan satu persen TPAK (X1), persentase NEET diperkirakan berubah sebesar -1.107%.
  • Setiap kenaikan satu satuan IPM (X2), persentase NEET diperkirakan berubah sebesar -0.9342%.
  • Setiap kenaikan satu tahun RLS (X3), persentase NEET diperkirakan berubah sebesar -1.6245%.

4.2 Uji Signifikansi Serentak (Uji F)

Nilai p-value dari uji F adalah 4.4589726^{-12}.

Jika p-value < 0.05 maka model signifikan secara simultan.

4.3 Uji Signifikansi Parsial (Uji t)

summary(model)$coefficients
##                Estimate Std. Error   t value     Pr(>|t|)
## (Intercept) 154.3073801 12.0352174 12.821321 1.408682e-14
## X1           -1.1070447  0.1232188 -8.984382 1.681597e-10
## X2           -0.9341757  0.1413136 -6.610655 1.402611e-07
## X3           -1.6244817  0.4937064 -3.290380 2.335755e-03

4.4 Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam model regresi.

Nilai koefisien determinasi (R²)

summary(model)$r.squared
## [1] 0.8027058

Nilai Adjusted R²

summary(model)$adj.r.squared
## [1] 0.7852975

Nilai koefisien determinasi (R²) yang diperoleh adalah sebesar 0.8027, yang berarti bahwa sebesar 80.27% variasi pada persentase NEET dapat dijelaskan oleh variabel Tingkat Partisipasi Angkatan Kerja (X1), Indeks Pembangunan Manusia (X2), dan Rata-rata Lama Sekolah (X3) dalam model regresi.

Sementara itu, nilai Adjusted R² sebesar 0.7853 menunjukkan bahwa setelah memperhitungkan jumlah variabel dalam model, sekitar 78.53% variasi persentase NEET masih dapat dijelaskan oleh model yang digunakan.

5 Pengujian Asumsi Klasik

5.1 Uji Normalitas Residual

resid <- residuals(model)
shapiro.test(resid)
## 
##  Shapiro-Wilk normality test
## 
## data:  resid
## W = 0.97238, p-value = 0.4596

Jika p-value > 0.05 maka residual berdistribusi normal.

5.2 Uji Heteroskedastisitas (Breusch-Pagan)

bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 7.3842, df = 3, p-value = 0.06061

Jika p-value > 0.05 maka tidak terjadi heteroskedastisitas.

5.3 Uji Multikolinearitas (VIF)

vif(model)
##       X1       X2       X3 
## 1.924579 1.515717 2.548470

Nilai VIF < 10 menunjukkan tidak ada multikolinearitas serius.

5.4 Uji Autokorelasi (Durbin-Watson)

dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.0714, p-value = 0.5147
## alternative hypothesis: true autocorrelation is greater than 0

Nilai mendekati 2 menunjukkan tidak ada autokorelasi.

6 Visualisasi Hubungan Variabel

ggplot(data, aes(X1,Y))+
  geom_point(color="steelblue")+
  geom_smooth(method="lm", se=FALSE,
              color="red")+
  labs(title = "Hubungan Tingkat Partisipasi Angkatan Kerja dengan NEET",
       x = "Tingkat Partisipasi Angkatan Kerja (%)",
       y = "NEET (%)")

ggplot(data, aes(X2,Y))+
  geom_point(color="steelblue")+
  geom_smooth(method="lm", se=FALSE,
              color="red")+
  labs(title = "Hubungan Indeks Pembangunan Manusia (IPM) dengan NEET",
       x = "Indeks Pembangunan Manusia",
       y = "NEET (%)")

ggplot(data, aes(X3,Y))+
  geom_point(color="steelblue")+
  geom_smooth(method="lm", se=FALSE,
              color="red")+
  labs(title = "Hubungan Rata-rata Lama Sekolah dengan NEET",
       x = "Rata-rata Lama Sekolah (tahun)",
       y = "NEET (%)")

Keterangan: Berdasarkan visualisasi scatter plot di atas, hubungan antara masing-masing variabel independen dengan persentase NEET dapat diamati melalui pola sebaran titik dan garis regresi. Garis regresi menunjukkan kecenderungan arah hubungan antara variabel penjelas dengan NEET. Jika titik-titik data mengikuti arah garis regresi, maka terdapat indikasi hubungan linear antara variabel tersebut dengan persentase NEET.

7 Diagnostik Model Regresi

par(mfrow=c(2,2))
plot(model)

par(mfrow=c(1,1))

Empat grafik diagnostik di atas digunakan untuk mengevaluasi apakah model regresi memenuhi asumsi dasar regresi linear.

  • Residuals vs Fitted digunakan untuk melihat apakah terdapat pola tertentu pada residual. Jika titik-titik menyebar secara acak di sekitar garis horizontal, maka asumsi linearitas model terpenuhi.

  • Normal Q-Q Plot digunakan untuk memeriksa apakah residual berdistribusi normal. Apabila titik-titik mengikuti garis diagonal, maka asumsi normalitas residual dapat dianggap terpenuhi.

  • Scale-Location Plot digunakan untuk melihat kesamaan varians residual (homoskedastisitas). Jika titik-titik tersebar relatif merata, maka varians residual dapat dianggap konstan.

  • Residuals vs Leverage digunakan untuk mendeteksi adanya pengamatan yang memiliki pengaruh besar terhadap model regresi. Titik yang berada jauh dari kelompok data lainnya dapat menjadi indikasi observasi yang berpengaruh.

8 Kesimpulan

Berdasarkan analisis regresi linier berganda dengan data 38 provinsi di Indonesia tahun 2024, diperoleh bahwa variabel TPAK (X1), IPM (X2), dan RLS (X3) berpengaruh terhadap persentase NEET.

Model memenuhi asumsi klasik karena:

  • Normalitas residual terpenuhi (p = 0.4596 > 0.05)
  • Tidak terjadi heteroskedastisitas (p = 0.06061 > 0.05)
  • Tidak ada multikolinearitas serius (nilai VIF < 10)
  • Tidak ada autokorelasi (DW = 2.0714)

Koefisien determinasi sebesar 80.27% menunjukkan bahwa model mampu menjelaskan variasi persentase NEET dengan cukup baik.