UTS Analisis Model Prediksi
November 17, 2025
1 Deskripsi Data
Dataset berisi laju pertumbuhan penduduk pada 38 provinsi di Indonesia untuk berbagai periode waktu (1971–2024).
Dataset memiliki 3 komponen utama:
| Variabel | Keterangan |
|---|---|
| Provinsi | Nama provinsi |
| Periode | Rentang tahun (1971–1980, 1980–1990, dst.) |
| Laju | Laju pertumbuhan penduduk untuk periode tersebut |
| Tahun | Tahun akhir periode (diektraksi dari Periode) |
1.1 Interpretasi Dataset
Untuk keperluan analisis regresi non-linear, variabel laju pertumbuhan penduduk yang semula dinyatakan dalam bentuk persentase dikonversi terlebih dahulu ke dalam bentuk desimal. Konversi ini dilakukan agar proses pemodelan menjadi lebih stabil dan interpretasi parameter lebih konsisten, mengingat penggunaan satuan persen sering menghasilkan skala data yang terlalu besar dan kurang tepat untuk estimasi model non-linear.
Selain itu, nilai proporsi tersebut disesuaikan dengan jumlah penduduk pada masing-masing wilayah. Jumlah penduduk nasional digunakan sebagai basis perhitungan, kemudian dikalikan dengan proporsi (desimal) masing-masing provinsi sehingga diperoleh estimasi nilai absolut yang lebih representatif. Langkah ini bertujuan untuk memastikan bahwa variabel yang digunakan dalam model mencerminkan besaran penduduk secara riil, bukan sekadar persentase relatif, sehingga hasil analisis dapat menggambarkan dinamika pertumbuhan penduduk secara lebih akurat.
2 Identifikasi Masalah
Laju pertumbuhan penduduk berubah sepanjang waktu, dan sering kali mengikuti pola penurunan yang tidak linear. Berdasarkan karakteristik tersebut, diperlukan suatu pendekatan pemodelan yang mampu menangkap hubungan antara Periode (Tahun) dan laju pertumbuhan penduduk secara lebih akurat. Oleh karena itu, penelitian ini mengkaji apakah hubungan tersebut dapat dijelaskan melalui model regresi non-linear.
Pemilihan model regresi non-linear didasarkan pada beberapa pertimbangan berikut:
- Tren pertumbuhan penduduk tidak bersifat konstan, melainkan mengalami perubahan secara gradual.
- Terdapat kecenderungan penurunan laju pertumbuhan dari waktu ke waktu, sehingga pendekatan linear tidak lagi memadai.
- Pola pertumbuhan lebih menyerupai bentuk eksponensial atau logistik, yang secara teoretis lebih sesuai dipresentasikan menggunakan model non-linear.
3 Persiapan Data
Tujuan:
- Mengubah data wide → long
- Menyamakan tipe data agar tidak error
- Mengambil Tahun akhir dari kolom Periode
Fokus analisis diarahkan pada Provinsi DI Yogyakarta guna memperoleh hasil yang lebih terukur dan dapat diinterpretasikan secara konsisten.
4 Eksplorasi Data Analisis (EDA)
Tahapan ini bertujuan untuk melihat distribusi laju pertumbuhan, tren per periode, dan variasi antar provinsi.
4.1 Interpretasi Exploratory Data Analysis (EDA)
Statistik deskriptif menunjukkan bahwa laju pertumbuhan penduduk DI Yogyakarta berada pada rentang 0.0078–0.0124 dengan nilai rata-rata 0.0103, menandakan pertumbuhan yang relatif stabil dan tanpa variasi ekstrem. Hal ini juga terlihat pada histogram, di mana distribusi nilai terkonsentrasi pada interval sempit sekitar 0.009–0.012.
Analisis tren per periode menunjukkan bahwa laju pertumbuhan mengalami penurunan bertahap dari 1980 hingga sekitar 2010, kemudian meningkat kembali pada periode setelahnya hingga mencapai nilai tertinggi sekitar 1,24%. Pola ini membentuk kurva non-linear yang mengindikasikan dinamika pertumbuhan tidak konstan sepanjang waktu.
Grafik batang per periode memperkuat temuan tersebut, dengan periode setelah 2010 menunjukkan nilai pertumbuhan yang lebih tinggi dibandingkan periode 1980–2010. Variasi antarperiode tampak ada, tetapi tetap dalam rentang yang relatif sempit.
Secara keseluruhan, EDA mengindikasikan bahwa laju pertumbuhan penduduk DI Yogyakarta stabil, tidak menunjukkan outlier, dan mengikuti pola non-linear dari penurunan menuju peningkatan kembali. Temuan ini mendukung pemilihan model regresi non-linear untuk analisis selanjutnya.
5 Membangun Model Regresi Non-Linear
Berdasarkan eksplorasi data, pola laju pertumbuhan penduduk tidak menunjukkan penurunan eksponensial yang konsisten. Sebaliknya, terdapat variasi dan perubahan arah tren pada beberapa periode sehingga bentuk eksponensial sederhana tidak lagi menggambarkan dinamika data secara tepat.
Untuk menangkap pola yang lebih fleksibel tersebut, digunakan model regresi non-linear polinomial. Model ini memungkinkan kurva yang dapat berubah arah (melengkung naik atau turun) sesuai pola data. Secara umum, bentuk model polinomial dapat dituliskan sebagai:
\([ \text{Laju} = \beta_0 + \beta_1 \cdot \text{Tahun} + \beta_2 \cdot \text{Tahun}^2 + \cdots + \beta_k \cdot \text{Tahun}^k ]\)
Model polinomial memberikan fleksibilitas bentuk kurva sehingga lebih mampu merepresentasikan variasi laju pertumbuhan penduduk antar periode, khususnya ketika pola tidak mengikuti bentuk eksponensial murni.
##
## Call:
## lm(formula = Laju ~ poly(Tahun, 2, raw = TRUE), data = d_prov)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.630e-03 -3.982e-04 9.752e-05 5.580e-04 1.089e-03
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.343e+01 8.536e+00 3.917 0.00577 **
## poly(Tahun, 2, raw = TRUE)1 -3.343e-02 8.526e-03 -3.921 0.00574 **
## poly(Tahun, 2, raw = TRUE)2 8.360e-06 2.129e-06 3.927 0.00570 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.000957 on 7 degrees of freedom
## Multiple R-squared: 0.7452, Adjusted R-squared: 0.6724
## F-statistic: 10.24 on 2 and 7 DF, p-value: 0.00835
5.1 Interpretasi Model Regresi Non-Linear Polinomial
Model regresi non-linear dengan pendekatan polinomial orde dua digunakan untuk mengkaji hubungan antara Tahun dan laju pertumbuhan penduduk di Provinsi DI Yogyakarta. Hasil estimasi menunjukkan bahwa kedua komponen polinomial, yaitu komponen linear dan kuadratik, memiliki pengaruh yang signifikan terhadap variabel respon (p < 0.01). Hal ini mengindikasikan bahwa perubahan laju pertumbuhan penduduk dari waktu ke waktu tidak bersifat linear, melainkan mengikuti pola melengkung (curvilinear).
Koefisien linear bernilai negatif, yang menunjukkan bahwa laju pertumbuhan cenderung menurun seiring bertambahnya tahun. Namun, nilai koefisien kuadratik yang positif menandakan adanya perubahan tingkat penurunan tersebut, sehingga penurunan tidak berlangsung secara konstan. Dengan demikian, model mengungkap bahwa tren laju pertumbuhan mengalami perlambatan yang tidak linear dan cenderung menuju stabilisasi pada periode-periode selanjutnya.
Secara keseluruhan, model memiliki kemampuan prediktif yang baik, ditunjukkan oleh nilai R² sebesar 0.7452 dan adjusted R² sebesar 0.6724, yang berarti bahwa sekitar 67–74% variasi laju pertumbuhan dapat dijelaskan oleh model. Selain itu, uji F menunjukkan bahwa model signifikan secara keseluruhan (p = 0.00835), sehingga bentuk polinomial orde dua dapat dinyatakan sesuai untuk menggambarkan pola dinamis laju pertumbuhan penduduk di wilayah tersebut.
6 Uji Statistik Model
Tujuan:
Melakukan evaluasi untuk menilai apakah model regresi non-linear yang dibangun memenuhi asumsi-asumsi statistik yang diperlukan guna memastikan validitas dan reliabilitas hasil pemodelan.
6.1 Residual & Normalitas
##
## Shapiro-Wilk normality test
##
## data: res
## W = 0.95673, p-value = 0.748
6.1.1 Interpretasi Uji Residual & Normalitas
Berdasarkan uji Shapiro–Wilk, residual dari model regresi non-linear menunjukkan nilai statistik W = 0.95673 dengan p-value = 0.748. Karena nilai p lebih besar dari 0.05, maka tidak terdapat bukti yang cukup untuk menolak hipotesis nol bahwa residual berdistribusi normal. Dengan demikian, asumsi normalitas residual terpenuhi.
Hal ini juga diperkuat oleh pola pada QQ Plot, di mana titik-titik residual tampak berada dekat dengan garis referensi, menunjukkan tidak adanya penyimpangan yang berarti dari distribusi normal. Secara keseluruhan, hasil ini mengindikasikan bahwa model memiliki karakteristik residual yang sesuai dengan asumsi normalitas, sehingga validitas inferensi statistik model dapat diterima.
6.2 Homogenitas
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.7552852, Df = 1, p = 0.38481
6.2.1 Interpretasi Uji Homogenitas Varians
Uji homogenitas varians (Non-constant Variance Score Test) menghasilkan nilai Chi-square = 0.755 dengan derajat bebas 1 dan p-value = 0.384. Karena nilai p lebih besar dari 0.05, maka tidak terdapat bukti yang cukup untuk menolak hipotesis nol bahwa varians residual bersifat konstan. Dengan demikian, model tidak menunjukkan indikasi heteroskedastisitas.
Hasil ini mengindikasikan bahwa asumsi homogenitas varians terpenuhi, sehingga penyebaran residual relatif stabil di seluruh rentang nilai prediksi dan model regresi dapat dianggap memenuhi salah satu asumsi penting dalam analisis inferensial.
6.3 Autokorelasi
## lag Autocorrelation D-W Statistic p-value
## 1 0.04800053 1.900907 0.638
## Alternative hypothesis: rho != 0
6.3.1 Interpretasi Uji Autokorelasi
Uji Durbin–Watson menunjukkan nilai statistik sebesar 1.9009 dengan p-value = 0.642. Karena p-value lebih besar dari 0.05, tidak terdapat bukti yang cukup untuk menolak hipotesis nol bahwa tidak terjadi autokorelasi pada residual model. Nilai autokorelasi lag-1 yang sangat kecil (0.048) semakin menguatkan bahwa hubungan serial antar residual bersifat minimal.
Dengan demikian, residual dapat dianggap independen satu sama lain, dan asumsi tidak adanya autokorelasi terpenuhi. Hasil ini menegaskan bahwa model regresi non-linear yang dibangun tidak dipengaruhi oleh pola keterkaitan residual dari satu observasi ke observasi berikutnya.
7 Evaluasi Model (R², MAPE, MSE)
## [1] 0.7452061
## [1] 0.06293522
## [1] 6.411472e-07
7.1 Interpretasi Evaluasi Kinerja Model
Evaluasi performa model regresi non-linear polinomial dilakukan menggunakan tiga metrik utama, yaitu R², MAPE, dan MSE. Hasil perhitungan menunjukkan bahwa model memiliki nilai R² sebesar 0.745, yang berarti sekitar 74,5% variasi laju pertumbuhan penduduk dapat dijelaskan oleh model. Nilai ini mengindikasikan bahwa model memiliki kemampuan penjelasan yang kuat dan sesuai untuk menggambarkan pola hubungan antara Tahun dan laju pertumbuhan.
Selanjutnya, nilai MAPE sebesar 0.0629 atau sekitar 6,29% mengindikasikan bahwa tingkat kesalahan relatif prediksi model berada pada kategori sangat rendah. Dengan nilai MAPE yang berada jauh di bawah 10%, model dapat dikatakan memiliki akurasi prediksi yang baik dan stabil.
Sementara itu, nilai MSE sebesar 6.41 × 10⁻⁷ menunjukkan bahwa rata-rata kesalahan kuadrat antara prediksi dan nilai aktual berada pada tingkat yang sangat kecil. Nilai MSE yang rendah menggambarkan bahwa prediksi model sangat dekat dengan observasi sebenarnya.
Secara keseluruhan, ketiga indikator evaluasi menunjukkan bahwa model regresi non-linear polinomial orde dua yang digunakan memiliki kinerja yang baik, baik dari sisi kemampuan penjelasan maupun akurasi prediksi.
8 Visualisasi Model Non-Linear
Tujuan:
Melihat apakah model mengikuti pola data aslinya.
8.1 Interpretasi Visualisasi Model Regresi Non-Linear Polinomial
Gambar menunjukkan hubungan antara Tahun Akhir Periode dan laju pertumbuhan penduduk di Provinsi DI Yogyakarta, yang kemudian dimodelkan menggunakan regresi polinomial orde dua. Titik-titik biru merepresentasikan data empiris laju pertumbuhan penduduk pada kurun waktu 1971–2024, sedangkan garis merah menggambarkan kurva prediksi model polinomial.
Secara visual, model mampu menangkap pola melengkung yang muncul pada data. Laju pertumbuhan tampak mengalami penurunan dari tahun 1971 hingga sekitar tahun 2000, diikuti oleh tren peningkatan kembali pada periode-periode berikutnya. Pola ini konsisten dengan bentuk kurva U yang dihasilkan oleh model polinomial orde dua. Kedekatan antara titik data aktual dan garis prediksi menunjukkan bahwa model memiliki kemampuan yang cukup baik dalam mengikuti dinamika empiris laju pertumbuhan.
9 Kesimpulan Kesesuaian Model
Berdasarkan hasil analisis statistik dan evaluasi visual, model regresi non-linear polinomial orde dua dapat dinyatakan cocok untuk menggambarkan hubungan antara Tahun dan laju pertumbuhan penduduk di Provinsi DI Yogyakarta. Hal ini didukung oleh beberapa temuan berikut:
- Model signifikan secara statistik, dengan kedua koefisien prediktor (Tahun dan Tahun²) signifikan pada tingkat kepercayaan 1%.
- Asumsi-asumsi dasar regresi terpenuhi, termasuk normalitas residual, homogenitas varians, dan tidak ditemukannya autokorelasi.
- Kinerja model cukup baik, tercermin dari nilai R² sebesar 0.745, MAPE sebesar 6.29%, serta MSE yang sangat rendah, yang menunjukkan bahwa prediksi model sangat dekat dengan data aktual.
- Bentuk kurva prediksi konsisten dengan pola empiris, di mana terjadi penurunan laju pertumbuhan hingga awal 2000-an, kemudian menunjukkan peningkatan kembali hingga periode 2020-an.
Dengan demikian, model regresi polinomial orde dua dapat dianggap memadai dan representatif dalam menjelaskan pola perubahan laju pertumbuhan penduduk di Provinsi DI Yogyakarta sepanjang periode pengamatan. Model ini tidak hanya sesuai secara statistik, tetapi juga logis secara substantif berdasarkan pola historis yang tampak pada data.