Members

Column

Identitas Kelompok

  • Alya Maura Raditha
    NIM: 52240003

  • Rachelia Bevina Tambajong
    NIM: 52240021

  • Dosen Pengampu:
    Bakti Siregar, M.Sc.

  • Program Studi:
    Sains Data


Column

Dataset

Table

EDA

## Column

Line Chart

Pie Chart

Histogram

Bar Chart

Scatter Plots

Regresi


Klasifikasi


Klastering


Time Series


Insights

1. PEMAHAMAN DATASET & EXPLORATORY DATA ANALYSIS (EDA)

1.1 Konteks Dataset dan Tujuan Analisis

Dataset yang digunakan merupakan data Anggaran Pendapatan dan Belanja Negara (APBN) Indonesia yang mencakup informasi anggaran dan realisasi belanja pemerintah pada periode 2016–2024. Data ini merepresentasikan kondisi fiskal nasional dan mencerminkan kebijakan pemerintah dalam mengalokasikan serta merealisasikan anggaran negara.

Tujuan utama dari analisis ini adalah untuk:

  1. Memahami karakteristik dan struktur data APBN.
  2. Mengidentifikasi pola, tren, dan distribusi data anggaran.
  3. Menjadi dasar bagi analisis lanjutan seperti regresi, klasifikasi, klastering, dan analisis deret waktu.

1.2 Struktur Data dan Jenis Variabel

Dataset memiliki struktur time series tahunan, dengan setiap observasi merepresentasikan satu periode anggaran. Variabel utama dalam dataset meliputi:

Seluruh variabel keuangan memiliki skala nilai yang sangat besar (orde triliunan rupiah), sehingga memerlukan perhatian khusus dalam analisis distribusi dan pemodelan statistik.

1.3 Statistik Deskriptif Utama

Hasil statistik deskriptif menunjukkan bahwa:

Temuan ini menunjukkan bahwa data tidak berdistribusi normal secara sempurna dan berpotensi mengandung outlier struktural.

1.4 Missing Values, Outliers, dan Distribusi Data

1.5 Visualisasi Data

Sebagai bagian dari EDA, digunakan minimal lima visualisasi utama yang relevan, yaitu:

1. Line Chart – Tren total anggaran APBN per tahun

Visualisasi menunjukkan bahwa total anggaran APBN berfluktuasi dengan kecenderungan meningkat hingga sekitar tahun 2020, kemudian mengalami penurunan pada periode setelahnya. Pola ini mencerminkan pengaruh dinamika ekonomi dan kebijakan fiskal makro terhadap perencanaan anggaran. Tren yang tidak konsisten mengindikasikan bahwa data bersifat tidak stasioner, sehingga perlu penanganan khusus pada analisis deret waktu.

2. Pie Chart – Komposisi jenis belanja APBN

Diagram komposisi menunjukkan bahwa belanja modal merupakan komponen terbesar dalam struktur APBN. Hal ini mengindikasikan fokus pemerintah pada investasi jangka panjang, seperti pembangunan infrastruktur dan aset produktif. Sementara itu, belanja pegawai dan belanja barang memiliki proporsi lebih kecil, menunjukkan bahwa pengeluaran operasional bukan prioritas utama dalam dataset ini.

3. Histogram (log scale) – Distribusi realisasi anggaran

Histogram realisasi anggaran menunjukkan distribusi yang tidak simetris dengan kecenderungan skewness ke kanan. Sebagian besar nilai berada pada tingkat menengah, namun terdapat beberapa nilai ekstrem yang tinggi. Pola ini mengindikasikan adanya outlier serta variasi realisasi yang signifikan, sehingga analisis lanjutan perlu mempertimbangkan transformasi data atau metode yang robust.

4. Bar Chart – Kementerian dengan total anggaran terbesar

Grafik menunjukkan bahwa alokasi anggaran antar kementerian tidak merata, dengan beberapa kementerian menerima anggaran jauh lebih besar dibandingkan yang lain. Ketimpangan ini mencerminkan prioritas kebijakan nasional, khususnya pada sektor infrastruktur dan pendidikan. Perbedaan alokasi yang signifikan juga mengindikasikan adanya heterogenitas dalam data.

5. Scatter Plot – Hubungan antara total anggaran dan realisasi anggaran

Scatter plot menunjukkan hubungan positif antara total anggaran dan realisasi anggaran, meskipun dengan sebaran yang cukup besar. Hal ini mengindikasikan bahwa peningkatan anggaran tidak selalu diikuti oleh realisasi yang proporsional. Pola tersebut menunjukkan potensi inefisiensi penyerapan anggaran serta keberadaan observasi anomali yang perlu dianalisis lebih lanjut.

Kesimpulan EDA

Secara keseluruhan, Exploratory Data Analysis menunjukkan bahwa data APBN Indonesia memiliki karakteristik kompleks, dengan variasi nilai yang besar, distribusi tidak simetris, serta dinamika anggaran yang fluktuatif. Temuan ini menegaskan bahwa analisis lanjutan harus mempertimbangkan transformasi data dan metode yang robust agar hasil analisis lebih andal dan kontekstual.


2. ANALISIS HUBUNGAN & POLA

2.1 Hubungan Antar Variabel Kunci

Analisis difokuskan pada variabel utama dalam dataset APBN, yaitu total_anggaran, realisasi_anggaran, serta komponen belanja (belanja_pegawai, belanja_barang, dan belanja_modal). Tujuan analisis ini adalah untuk memahami keterkaitan antar komponen belanja dan hubungannya dengan realisasi anggaran negara.

2.2 Analisis Korelasi

Hubungan antar variabel numerik dianalisis menggunakan korelasi Pearson.

Hasil korelasi menunjukkan bahwa:

2.3 Analisis Regresi

Analisis regresi linear dilakukan dengan:

Hasil regresi menunjukkan bahwa total anggaran berpengaruh signifikan dan positif terhadap realisasi anggaran. Nilai R² yang relatif tinggi mengindikasikan bahwa model mampu menjelaskan sebagian besar variasi realisasi. Namun, interpretasi koefisien individual perlu dilakukan dengan hati-hati karena adanya hubungan antar variabel independen.

2.4 Identifikasi Permasalahan Data

Beberapa permasalahan yang teridentifikasi dalam analisis ini meliputi:

Kesimpulan Analisis Hubungan dan Pola

Pola hubungan dalam data APBN bersifat kompleks dan multidimensi. Realisasi anggaran tidak hanya ditentukan oleh besaran alokasi, tetapi juga oleh struktur belanja dan faktor waktu. Pendekatan transformasi logaritmik dan analisis segmentasi (clustering) diperlukan untuk menangani heterogenitas data sebelum pemodelan lanjutan.


3. ANALISIS LANJUTAN

3.1 Pemilihan Metode Analisis Lanjutan

Berdasarkan karakteristik dataset APBN yang memiliki dimensi waktu, struktur belanja, dan indikator kinerja anggaran, analisis lanjutan dilakukan menggunakan tiga pendekatan utama:

Pendekatan ini dipilih agar analisis tidak hanya bersifat deskriptif, tetapi juga memberikan wawasan struktural dan prediktif.

3.2 Justifikasi Kontekstual Metode

3.3 Hasil dan Interpretasi Analisis Lanjutan

Kesimpulan Analisis Lanjutan

Analisis lanjutan menunjukkan bahwa:

Ketiga pendekatan ini saling melengkapi dan memperkaya pemahaman terhadap dinamika APBN secara komprehensif.

3.4 Analisis Klasifikasi Status Defisit APBN

3.4.1 Definisi Permasalahan dan Variabel Target

Analisis klasifikasi dilakukan untuk mengidentifikasi risiko terjadinya defisit APBN berdasarkan karakteristik anggaran dan komponen belanja. Permasalahan ini diformulasikan sebagai klasifikasi biner, dengan variabel target status_bin, di mana nilai 1 menunjukkan kondisi defisit dan nilai 0 menunjukkan kondisi non-defisit. Pendekatan ini digunakan sebagai early warning system dalam evaluasi risiko fiskal.

3.4.2 Distribusi Kelas dan Ketidakseimbangan Data

Distribusi data menunjukkan bahwa dari 99 observasi, sebanyak 57 observasi (57,6%) termasuk dalam kelas defisit dan 42 observasi (42,4%) termasuk dalam kelas non-defisit. Komposisi ini relatif seimbang dengan dominasi ringan pada kelas defisit, sehingga tidak diperlukan teknik penanganan ketidakseimbangan kelas khusus. Namun, evaluasi model tetap mempertimbangkan metrik yang sensitif terhadap distribusi kelas.

3.4.3 Pemilihan dan Justifikasi Metode Klasifikasi

Metode logistic regression digunakan karena mampu menghasilkan estimasi probabilitas kejadian defisit, memiliki tingkat interpretabilitas yang tinggi, serta sesuai untuk ukuran dataset yang terbatas. Metode ini juga memungkinkan analisis hubungan antara variabel anggaran dan risiko defisit secara langsung dalam konteks kebijakan fiskal.

3.4.4 Pelatihan dan Pengujian Model

Model dilatih dan diuji menggunakan pendekatan hold-out validation dengan pembagian 80% data pelatihan dan 20% data pengujian secara stratified untuk menjaga proporsi kelas. Variabel prediktor yang digunakan meliputi total_anggaran, belanja_pegawai, belanja_barang, dan belanja_modal.

3.4.5 Evaluasi Kinerja Model

Hasil evaluasi menunjukkan bahwa model mencapai akurasi sebesar 66,7%, lebih tinggi dibandingkan No Information Rate (55,6%). Nilai recall sebesar 70% menunjukkan kemampuan model dalam mengidentifikasi kondisi defisit, sementara precision sebesar 65% menunjukkan ketepatan prediksi defisit. Nilai F1-score menunjukkan keseimbangan antara precision dan recall, dan ROC–AUC sebesar 0,65 mengindikasikan kemampuan diskriminatif model yang moderat.

3.4.6 Interpretasi dan Keterbatasan Model

Hasil estimasi menunjukkan bahwa total anggaran berpengaruh negatif terhadap probabilitas defisit, sementara belanja barang menunjukkan pengaruh yang mendekati signifikan. Model ini unggul dalam interpretabilitas dan stabilitas, namun memiliki keterbatasan berupa **daya prediksi yang masih moderat, keterbatasan variabel, serta ukuran dataset yang relatif kecil. Pengembangan lanjutan dapat dilakukan melalui penambahan variabel makroekonomi atau penerapan metode klasifikasi non-linear.

3.5 Analisis Klastering Anggaran APBN

3.5.1 Tujuan Analisis Klastering

Analisis klastering bertujuan untuk mengelompokkan tahun anggaran APBN berdasarkan kemiripan pola dan skala belanja, tanpa menggunakan variabel target tertentu. Pendekatan ini digunakan untuk mengidentifikasi segmentasi struktural dalam pengelolaan anggaran, sehingga dapat memberikan pemahaman yang lebih mendalam mengenai perbedaan karakteristik fiskal antar periode. Klastering bersifat eksploratif dan melengkapi analisis deskriptif serta prediktif dengan perspektif unsupervised learning.

3.5.2 Pemilihan Variabel dan Prapemrosesan Data

Variabel yang digunakan dalam analisis klastering meliputi:

Kelima variabel tersebut dipilih karena merepresentasikan skala fiskal, struktur belanja, dan kinerja realisasi anggaran secara komprehensif.

Sebelum proses klastering, dilakukan transformasi logaritmik untuk mengatasi perbedaan skala yang sangat besar serta mengurangi pengaruh pencilan. Selanjutnya, data distandardisasi menggunakan z-score standardization, sehingga setiap variabel memiliki kontribusi yang seimbang dalam perhitungan jarak. Hasil evaluasi variansi pasca transformasi menunjukkan bahwa seluruh variabel memiliki variansi yang tidak nol, dengan variasi relatif lebih besar pada belanja barang dan belanja modal, yang mengindikasikan peran penting kedua variabel tersebut dalam pembentukan klaster.

3.5.3 Metode Klastering dan Justifikasi

Metode klastering yang digunakan adalah K-Means, dengan beberapa pertimbangan utama:

  1. Struktur data bersifat numerik dan relatif homogen.
  2. K-Means efisien untuk dataset berukuran kecil hingga menengah.
  3. Hasil klaster mudah diinterpretasikan melalui nilai rata-rata setiap variabel.

Metode ini sesuai dengan tujuan analisis yang menekankan pada segmentasi pola anggaran daripada pembentukan struktur hierarkis yang kompleks.

3.5.4 Penentuan Jumlah Klaster Optimal

Penentuan jumlah klaster dilakukan menggunakan dua pendekatan utama:

a. Elbow Method

Hasil Elbow Method menunjukkan penurunan within-cluster sum of squares (WSS) yang tajam hingga klaster pertama, kemudian melandai pada jumlah klaster berikutnya. Pola ini mengindikasikan bahwa data APBN relatif homogen dan tidak memiliki pemisahan klaster yang sangat kuat. Namun, demi tujuan eksplorasi dan interpretasi kebijakan, pembentukan lebih dari satu klaster tetap relevan.

b. Silhouette Analysis

Silhouette Analysis menunjukkan bahwa nilai rata-rata silhouette tertinggi diperoleh pada k = 2 dan k = 6, sedangkan nilai terendah terdapat pada k = 3. Meskipun secara geometris k = 6 memberikan pemisahan yang lebih baik, jumlah klaster yang lebih kecil dipilih untuk menjaga keseimbangan antara kualitas pemisahan dan kemudahan interpretasi.

Berdasarkan pertimbangan tersebut, jumlah klaster k = 3 dipilih sebagai kompromi antara validitas statistik dan interpretabilitas substantif.

3.5.5 Interpretasi Karakteristik Klaster

Berdasarkan nilai rata-rata variabel dalam masing-masing klaster, diperoleh tiga kelompok utama:

Meskipun pemisahan klaster tidak sepenuhnya kuat secara geometris, perbedaan karakteristik antar klaster tetap dapat diinterpretasikan secara substantif.

3.5.6 Implikasi Praktis dan Kesimpulan Klastering

Hasil analisis klastering menunjukkan bahwa APBN Indonesia cenderung memiliki struktur anggaran yang homogen, dengan variasi utama terletak pada skala dan intensitas belanja, bukan pada komposisi belanja secara fundamental. Temuan ini mengindikasikan bahwa perubahan APBN dari tahun ke tahun lebih dipengaruhi oleh besaran anggaran daripada pergeseran struktur kebijakan fiskal.

Secara praktis, hasil klastering dapat dimanfaatkan untuk:

Dengan demikian, analisis klastering memberikan kontribusi penting dalam memperkaya pemahaman terhadap dinamika APBN secara struktural dan kontekstual.


3.6 Analisis Deret Waktu (Time Series)

3.6.1 Struktur dan Karakteristik Data

Data yang dianalisis merupakan data tahunan total anggaran APBN** dengan interval waktu yang konsisten. Karena bersifat tahunan, data tidak memiliki komponen musiman. Visualisasi awal menunjukkan adanya fluktuasi non-linear antar tahun dengan lonjakan yang tidak berulang, mengindikasikan bahwa dinamika APBN lebih dipengaruhi oleh kebijakan dan faktor struktural dibandingkan pola siklikal reguler.

3.6.2 Analisis Tren (Trend Regression)

Analisis regresi tren linear dilakukan untuk mengidentifikasi kecenderungan jangka panjang dalam data. Hasil menunjukkan bahwa variabel waktu memiliki koefisien negatif dan signifikan secara statistik (p-value = 0,0272), yang mengindikasikan adanya kecenderungan penurunan nilai anggaran dalam jangka panjang.

Namun demikian, nilai Adjusted R-squared sebesar 0,4573 menunjukkan bahwa model tren linear hanya mampu menjelaskan sekitar 45,7% variasi data. Hal ini mengindikasikan bahwa sebagian besar fluktuasi anggaran dipengaruhi oleh faktor lain di luar tren waktu, sehingga struktur data tidak sepenuhnya linear dan memiliki volatilitas yang relatif tinggi.

3.6.3 Identifikasi Komponen Deret Waktu

Berdasarkan karakteristik data, komponen deret waktu dapat diidentifikasi sebagai berikut:

Dominasi noise menunjukkan keterbatasan pendekatan time series univariat dalam menangkap dinamika APBN secara komprehensif.

3.6.4 Metode dan Justifikasi Model

Tiga metode deret waktu digunakan dan dibandingkan:

Pendekatan ini memungkinkan evaluasi objektif antar model dengan tingkat kompleksitas yang berbeda.

3.6.5 Evaluasi dan Interpretasi Peramalan

Evaluasi kinerja dilakukan menggunakan RMSE, MAE, dan MAPE. Hasil menunjukkan bahwa ARIMA menghasilkan error terendah, sehingga memiliki performa terbaik dalam merepresentasikan pola historis data.

Visualisasi peramalan menunjukkan bahwa seluruh model menghasilkan prediksi yang relatif datar, yang disebabkan oleh:

Kesimpulan Time Series

Analisis deret waktu menunjukkan bahwa meskipun anggaran APBN bersifat fluktuatif, struktur statistiknya tidak cukup kuat untuk menghasilkan proyeksi tren yang tajam. Model ARIMA memberikan performa terbaik, namun hasil peramalan lebih tepat digunakan sebagai indikasi arah umum. Pengembangan lanjutan disarankan menggunakan model dengan variabel eksogen (ARIMAX) atau pendekatan berbasis skenario kebijakan.


4. PEMODELAN PREDIKTIF/ ANALITIS (REGRESI)

4.1 Tujuan Analisis Regresi

Tujuan utama analisis regresi dalam penelitian ini adalah untuk mengukur dan menganalisis pengaruh komponen belanja negara terhadap realisasi anggaran APBN. Analisis ini difokuskan pada pemahaman hubungan struktural antar variabel, bukan semata-mata untuk tujuan prediksi numerik jangka pendek.

4.2 Identifikasi Variabel

Seluruh variabel ditransformasikan ke dalam bentuk logaritmik untuk meningkatkan kesesuaian model.

4.3 Spesifikasi dan Justifikasi Model

Model yang digunakan adalah regresi linear berganda dengan transformasi log-log, yang dirumuskan sebagai:

\[\begin{equation} \log(\text{Realisasi Anggaran}) = \beta_0 + \beta_1 \log(\text{Belanja Pegawai}) + \beta_2 \log(\text{Belanja Barang}) + \beta_3 \log(\text{Belanja Modal}) \end{equation}\]

Pemilihan model ini didasarkan pada beberapa pertimbangan:

4.4 Pemeriksaan Asumsi Regresi

Beberapa asumsi utama regresi diperiksa dan dibahas sebagai berikut:

1. Linearitas

Hubungan antara variabel independen dan dependen menjadi lebih mendekati linear setelah transformasi log.

2. Normalitas Residual

Distribusi residual menunjukkan perbaikan setelah transformasi, meskipun tidak sepenuhnya normal akibat jumlah observasi yang terbatas.

3. Homoskedastisitas

Transformasi log membantu mengurangi pola variansi yang meningkat seiring besarnya nilai anggaran, meskipun indikasi heteroskedastisitas ringan masih dapat muncul.

4. Independensi

Data bersifat tahunan dan tidak saling tumpang tindih antar observasi, sehingga asumsi independensi relatif terpenuhi.

5. Multikolinearitas

Nilai Variance Inflation Factor (VIF) sekitar 1 menunjukkan tidak adanya multikolinearitas yang serius antar variabel independen.

4.5 Interpretasi Koefisien dan Signifikansi Statistik

Berdasarkan hasil estimasi model:

4.6 Evaluasi Kinerja Model

Kinerja model dievaluasi menggunakan beberapa metrik berikut:

Secara keseluruhan, model ini lebih tepat digunakan sebagai model analitis struktural daripada model prediksi presisi.

4.7 Keterbatasan Model

Beberapa keterbatasan utama dalam analisis regresi ini meliputi:

4.8 Potensi Pengembangan Model

Untuk meningkatkan kualitas analisis di masa depan, beberapa pengembangan yang dapat dilakukan antara lain:

Kesimpulan Analisis Regresi

Analisis regresi menunjukkan bahwa realisasi anggaran APBN Indonesia tidak semata-mata ditentukan oleh besaran belanja, melainkan oleh struktur dan karakteristik belanja serta faktor non-kuantitatif lainnya. Meskipun memiliki keterbatasan, model regresi berganda memberikan wawasan penting mengenai dinamika struktural dalam pengelolaan fiskal nasional.


5. INSIGHT, KESIMPULAN, DAN REKOMENDASI BERBASIS DATA

5.1 Ringkasan Temuan Utama

5.2 Insight Utama

5.3 Rekomendasi

Kesimpulan Akhir

APBN Indonesia merupakan sistem fiskal yang kompleks dan dipengaruhi kuat oleh faktor struktural di luar data historis. Analisis statistik memberikan wawasan penting, namun tidak dapat berdiri sendiri. Pendekatan analisis terpadu menjadi kunci untuk mendukung perumusan kebijakan fiskal yang lebih berbasis data dan kontekstual.