BUKU AJAR

EKONOMETRIKA DATA PANEL

Tim Penulis:

Kelompok 4

Muhammad Raehan Suryam

Sahara Salsa Billa

KATA PENGANTAR

Puji dan syukur senantiasa kami panjatkan ke hadirat Allah SWT, Tuhan Yang Maha Esa, atas limpahan rahmat, taufik, serta hidayah-Nya sehingga penulisan “Buku Ajar: Ekonometrika Data Panel (Teori dan Aplikasi Kontemporer)” ini dapat diselesaikan dengan baik. Buku ini disusun sebagai wujud dedikasi kami dalam menyediakan literatur pendamping yang komprehensif, sistematis, dan aplikatif bagi mahasiswa di lingkungan Fakultas Ekonomi dan Bisnis, khususnya pada Program Studi Ekonomi Pembangunan.

Ekonometrika saat ini telah berkembang dari sekadar pelengkap statistik menjadi instrumen utama dalam analisis kebijakan dan pengambilan keputusan ekonomi berbasis bukti (evidence-based policy). Dalam konteks tersebut, pemahaman mengenai model data panel menjadi sangat krusial. Pendekatan data panel mampu menjembatani keterbatasan analisis runtun waktu (time series) dan lintas bagian (cross-section) dengan memfasilitasi pengendalian heterogenitas individu yang tidak teramati, sehingga menghasilkan estimasi parameter yang lebih efisien dan terbebas dari bias.

Buku ajar ini tidak hanya menitikberatkan pada aspek derivasi matematis dan pembuktian teorema, tetapi juga pada aspek aplikasi empiris. Penulis menyadari bahwa tantangan terbesar bagi mahasiswa dalam mempelajari ekonometrika adalah mengonversi formula matematis menjadi interpretasi ekonomi yang logis. Oleh karena itu, di dalam buku ini disajikan sintesis antara teori dasar, kriteria pemilihan model (seperti Uji Chow, Uji Hausman, dan Uji Lagrange Multiplier), validasi asumsi klasik, serta implementasi kasus nyata yang memanfaatkan data dari 38 Provinsi di Indonesia.

Penyusunan buku ajar ini tentunya tidak lepas dari bimbingan, arahan, dan dukungan dari berbagai pihak. Pada kesempatan ini, tim penulis mengucapkan terima kasih yang sebesar-besarnya kepada dosen pengampu mata kuliah Ekonometrika yang senantiasa menanamkan budaya berpikir kritis dan metodologis. Terima kasih juga kami sampaikan kepada rekan-rekan Kelompok 4 yang telah mencurahkan waktu dan pemikirannya dalam mengumpulkan data empiris, menyusun kerangka analisis di RStudio, hingga merampungkan draf buku ini.

Penulis menyadari bahwa buku ini masih jauh dari kata sempurna dan tidak luput dari kekurangan, baik dari segi kedalaman materi maupun teknik penyajian. Oleh karena itu, kritik dan saran yang konstruktif dari para pembaca, akademisi, dan praktisi sangat kami harapkan guna penyempurnaan edisi berikutnya. Akhir kata, semoga buku ajar ini dapat memberikan kontribusi nyata dalam memperkaya khazanah keilmuan ekonometrika dan membawa manfaat bagi pengembangan riset ekonomi di masa depan.

Makassar, 19 Mei 2026

Tim Penulis (Kelompok 4)

BAB 1: TEORI DATA PANEL & KAPAN DIGUNAKAN

1.1 Konsep Dasar dan Definisi Data Panel: Gabungan Cross-Section dan Time Series

1.1.1 Pengertian dan Hakikat Data Panel dalam Ekonometrika Modern

Data panel, yang dalam literatur ekonometrika juga dikenal sebagai longitudinal data atau pooled data, merupakan struktur dataset yang merepresentasikan pengamatan terhadap sejumlah unit individu (cross-section) yang diikuti secara berulang selama beberapa periode waktu (time series). Secara fundamental, data panel bukanlah sekadar penggabungan mekanis antara data silang dan data runtun waktu, melainkan sebuah kerangka observasi yang dirancang khusus untuk menangkap dinamika perubahan sekaligus heterogenitas karakteristik antar-unit yang tidak dapat diobservasi secara langsung.

Dalam konteks penelitian ekonomi dan sosial, data panel muncul sebagai respons terhadap keterbatasan metodologis yang melekat pada pendekatan tradisional. Jika data cross-section murni hanya memberikan “potret sesaat” (snapshot) yang mengabaikan evolusi temporal, dan data time series murni hanya melacak perilaku satu entitas secara historis tanpa memperhitungkan variasi antar-entitas, maka data panel hadir sebagai sintesis yang mampu mengakomodasi kedua dimensi tersebut secara simultan. Seperti yang ditekankan dalam praktik ekonometrika terapan, data panel memungkinkan peneliti untuk mengisolasi pengaruh yang bersifat spesifik individu, mengontrol variabel yang tidak teramati (unobserved variables), serta meningkatkan derajat kebebasan (degrees of freedom) dalam estimasi model.

1.1.2 Dimensi Ganda: Indeks Cross-Section (i) dan Time Series (t)

Struktur data panel secara eksplisit didefinisikan oleh dua dimensi independen yang saling beririsan. Dimensi pertama dilambangkan dengan indeks i (di mana i = 1, 2, ..., N), yang merepresentasikan unit cross-section atau entitas observasi. Unit ini dapat berupa wilayah administratif (provinsi, kabupaten/kota), sektor ekonomi, rumah tangga, dan lain-lain. Dimensi kedua dilambangkan dengan indeks t (di mana t = 1, 2, ..., T), yang merepresentasikan dimensi waktu. Frekuensi temporal ini dapat bersifat tahunan, kuartalan, bulanan, atau bahkan harian, tergantung pada ketersediaan data dan konteks fenomena yang diteliti.

Konvensi notasi dalam ekonometrika data panel secara konsisten menggunakan bentuk \(Y_{it}\) atau \(X_{kit}\) untuk menunjukkan bahwa nilai variabel terikat maupun bebas bersifat spesifik terhadap entitas i pada periode t. Sebagai ilustrasi, jika peneliti mengamati Tingkat Kemiskinan di 38 provinsi Indonesia selama periode 2018–2023, maka N = 38 dan T = 6. Total jumlah observasi yang tersedia untuk estimasi model adalah hasil perkalian N × T, yaitu 228 observasi. Struktur matriks ini memungkinkan setiap unit memiliki lintasan waktunya sendiri, sehingga peneliti dapat membandingkan tidak hanya perbedaan antar-provinsi pada tahun yang sama, tetapi juga perubahan internal setiap provinsi sepanjang waktu. Dimensi ganda inilah yang membuat data panel memiliki lebih banyak informasi dibandingkan jenis data lainnya.

1.1.3 Notasi Matematis dan Klasifikasi Struktur: Balanced vs Unbalanced Panel

Secara matematis, model regresi data panel dasar dapat dituliskan sebagai: \(Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\) di mana \(u_{it}\) adalah error yang mencakup faktor-faktor lain di luar model yang memengaruhi \(Y_{it}\). Dalam teori data panel, error \(u_{it}\) dibagi menjadi dua bagian, yaitu \(\mu_i\)yang menunjukkan karakteristik khusus setiap individu yang tetap dari waktu ke waktu, dan \(v_{it}\) yang menunjukkan faktor lain yang dapat berubah menurut individu dan waktu. Pembagian error ini menjadi dasar dari Common Effect, Fixed Effect, dan Random Effect yang akan dibahas pada bagian selanjutnya.

Berdasarkan kelengkapan observasinya, data panel dibagi menjadi dua jenis, yaitu Balanced Panel dan Unbalanced Panel. Data disebut balanced jika setiap unit observasi memiliki data yang lengkap pada seluruh periode penelitian. Sebaliknya, data disebut unbalanced jika terdapat data yang hilang, adanya unit yang masuk atau keluar dari pengamatan, atau perbedaan frekuensi pelaporan.

1.1.4 Contoh Kontekstual dan Sumber Data Panel di Indonesia

Penerapan data panel dalam penelitian ekonomi Indonesia sangat beragam, mencakup level makro wilayah hingga mikro rumah tangga. Pada level makro, data panel provinsi atau kabupaten/kota sering kali memanfaatkan publikasi resmi Badan Pusat Statistik (BPS), seperti PDRB menurut lapangan usaha, Indeks Pembangunan Manusia (IPM), tingkat pengangguran terbuka (TPT), dan data kemiskinan yang dirilis secara berkala. Contoh klasik dalam literatur adalah analisis determinan pertumbuhan ekonomi daerah atau disparitas kesejahteraan antar-wilayah, di mana N bisa mencapai 34 provinsi atau 514 kabupaten/kota, sedangkan T mencakup rentang 10–20 tahun.

Sementara itu, untuk meneliti level mikro seperti rumah tangga atau keluarga, data panel biasanya diambil dari survei khusus yang rutin melacak orang yang sama selama bertahun-tahun. Namun, apa pun level datanya, syarat utamanya tetap satu yaitu kita harus memastikan aturan pencatatan datanya tidak berubah dari tahun ke tahun agar datanya adil dan sah saat dibandingkan.

1.1.5 Keunggulan Komparatif: Mengapa Memilih Data Panel?

Memilih data panel itu bukan sekadar soal selera peneliti, tapi sebuah keharusan kalau kita ingin menjawab masalah yang tidak bisa diselesaikan oleh data biasa. Berikut adalah 4 keunggulan utamanya:

Mengontrol Faktor Bawaan yang Sulit Diukur: Di dunia nyata, banyak hal yang memengaruhi hasil tapi susah dinilai dengan angka, seperti bakat, motivasi, atau budaya kerja. Data panel bisa “mengunci” faktor-faktor bawaan yang sifatnya tetap ini. Hasilnya, hitungan kita tidak akan melenceng atau bias akibat ada variabel penting yang terlewat.
Memperbanyak Jumlah Data secara Otomatis: Karena data panel mengalikan jumlah objek (\(N\)) dengan rentang waktu (\(T\)), jumlah sampel kita otomatis menjadi berlipat ganda tanpa harus mencari objek baru. Semakin banyak datanya, semakin akurat hasil tebakannya, dan semakin kuat pembuktian statistiknya.
Menangkap Proses Adaptasi (Dinamika): Saat ada kebijakan ekonomi baru (misalnya harga barang naik), masyarakat butuh waktu untuk beradaptasi, jadi tidak langsung berubah hari itu juga. Data biasa tidak bisa melihat proses adaptasi ini, tapi data panel bisa melihat proses adaptasi dari “efek kejut (dampak dari kejadian besar)” tersebut dari tahun ke tahun secara perlahan.
Mencegah Penyakit Model Statistik: Menggabungkan data dari banyak tempat sekaligus banyak waktu akan membuat angkanya menjadi sangat bervariasi dan acak. Variasi yang kaya ini sangat ampuh mencegah penyakit statistik seperti Multikolinearitas (ketika ada variabel penentu yang pergerakannya terlalu mirip atau kembar). Dengan begitu, hasil akhir rumus kita menjadi jauh lebih sehat dan valid.

1.1.6 Dasar Teori dan Cara Memilih Model

Inti sebenarnya dari menggunakan data panel adalah bagaimana kita menyikapi “karakter bawaan” dari setiap objek penelitian (yang disimbolkan dengan \(\mu_i\)). Berdasarkan karakter bawaan ini, kita dihadapkan pada tiga pilihan model hitungan:

Fixed Effect Model (FEM): Kita memakai model ini jika karakter bawaan si objek punya hubungan dengan faktor yang sedang kita teliti (X). Model FEM ini akan bekerja dengan cara “membuang” karakter bawaan tersebut dari hitungan, supaya kita bisa melihat murni efek dari faktor X saja.
Random Effect Model (REM): Sebaliknya, model ini digunakan ketika karakter bawaan yang menetap pada objek diasumsikan tidak memiliki hubungan (korelasi) dengan variabel X. Karena karakter bawaan ini tidak ikut campur atau mengganggu variabel X, kita tidak perlu membuang atau menghapusnya dari data.
Common Effect Model (CEM): Ini adalah pendekatan di mana kita tutup mata dan menganggap semua objek itu sifatnya sama persis. Memakai CEM di data panel sangat dilarang keras, karena mengabaikan karakter bawaan pasti akan menghasilkan tebakan rumus yang melenceng, keliru, dan tidak bisa diandalkan.

Oleh karena itu, memahami data panel bukan cuma sekadar tahu cara menggabungkan jumlah objek (\(N\)) dikali rentang waktu (\(T\)). Lebih dari itu, data panel adalah cara kita mengakui fakta bahwa di dunia nyata, setiap objek itu pasti punya karakter yang berbeda-beda dan keadaannya selalu berubah seiring berjalannya waktu.Pemahaman dasar ini wajib dikuasai terlebih dahulu sebelum mulai menyusun data dan menguji rumus. Nanti, pada bab-bab selanjutnya, buku ini baru akan mengajarkan praktik cara menghitungnya satu per satu. Mulai dari cara membedakan data makro-mikro, cara mencari nilai CEM/FEM/REM, sampai memastikan apakah data yang kita pakai sudah benar dan sesuai syarat.

1.2 Notasi Matematis dan Struktur Data Panel (i, t, dan N×T Observasi)

1.2.1 Fondasi Notasi Ganda: Indeks Cross-Section dan Time Series

Dalam ekonometrika data panel, setiap variabel yang kita amati selalu dibekali dengan dua “identitas” utama. Identitas ini ditulis menggunakan notasi subskrip ganda (dua huruf kecil di bawah variabel), yang mencerminkan gabungan antara ruang dan waktu.Indeks pertama (\(i\)), merepresentasikan unit cross-section atau entitas individu yang diamati (\(i = 1, 2, ..., N\)). Bayangkan \(i\) ini sebagai jawaban dari pertanyaan “Siapa?”. Entitas ini bisa berupa nama provinsi, kabupaten, perusahaan, atau individu responden.Indeks kedua (\(t\)), merepresentasikan dimensi waktu observasi (\(t = 1, 2, ..., T\)). Bayangkan \(t\) ini sebagai jawaban dari pertanyaan “Kapan?”. Waktu ini bisa dalam bentuk tahunan, kuartalan, atau bulanan.Sebagai contoh, notasi \(Y_{it}\) secara tegas menyatakan bahwa nilai tersebut adalah milik objek ke-\(i\) pada waktu ke-\(t\). Ini adalah sebuah nilai yang unik.

Bandingkan dengan data cross-section biasa yang hanya menggunakan \(Y_i\) (hanya peduli “siapa”, tapi mengabaikan dinamika waktu), atau data time series murni yang hanya menggunakan \(Y_t\) (hanya peduli “kapan”, tapi mengabaikan perbedaan karakter antar-objek). Dengan notasi ganda \(Y_{it}\), data panel memungkinkan kita melacak perjalanan hidup suatu objek dari waktu ke waktu, sekaligus membandingkan kondisinya dengan objek lain di periode yang sama.

1.2.2 Membedah “Sifat” Error dalam Data Panel

Secara matematis, model regresi data panel dasar dapat dituliskan sebagai berikut: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\] Dalam persamaan ini, \(Y_{it}\) adalah variabel yang kita amati, \(\alpha\) adalah konstanta, dan \(\beta\) adalah koefisien regresi yang mengukur besarnya pengaruh variabel bebas (\(X\)) terhadap variabel terikat (\(Y\)). Bagian yang paling menarik dan menjadi inti dari data panel sebenarnya tersembunyi pada \(u_{it}\), atau yang biasa kita sebut sebagai komponen error. Dalam ekonometrika data panel, kita tidak lagi menganggap \(u_{it}\) sebagai tumpukan angka acak yang tidak bermakna. Sebaliknya, kita membongkarnya menjadi dua bagian besar yang memiliki “sifat” yang sangat berbeda:\[u_{it} = \mu_i + \nu_{it}\]

\(\mu_i\) (Karakter Bawaan): Ini adalah sifat permanen atau ciri khas yang menetap pada objek yang kita amati. Jika objeknya adalah sebuah wilayah/provinsi, \(\mu_i\) bisa berupa kondisi topografi, jarak geografis, budaya masyarakat, atau infrastruktur dasar yang tidak berubah dari tahun ke tahun. Karena sifatnya yang konstan dan hanya menempel pada objek tersebut, ia hanya memiliki indeks tunggal yaitu \(i\).
\(\nu_{it}\) (Guncangan Dinamis): Ini adalah dinamika sementara atau guncangan acak yang nilainya bisa naik-turun setiap saat. Contohnya adalah perubahan kebijakan pemerintah di tahun tertentu, fluktuasi harga pasar, atau anomali cuaca. Karena sifatnya yang berubah-ubah seiring berjalannya waktu dan bisa berbeda untuk setiap objek, ia memiliki indeks ganda yaitu \(it\).

Memahami perbedaan sifat antara karakter bawaan (\(\mu_i\)) dan guncangan dinamis (\(\nu_{it}\)) inilah yang menjadi kunci utama untuk memahami perbedaan metodologi antara Common Effect Model (CEM), Fixed Effect Model (FEM), dan Random Effect Model (REM). Model mana yang paling jujur dalam menjelaskan fenomena data kita? Jawabannya sepenuhnya bergantung pada bagaimana kita memperlakukan kedua komponen error ini, yang akan dibahas secara mendalam pada sub-bab berikutnya.

1.2.3 Menyusun Data ke Dalam Bentuk Matriks (\(N \times T\))

Agar dapat diproses dalam perhitungan komputasi, data panel harus diubah dari bentuk nilai satuan (skalar) menjadi susunan tabel (matriks) yang ditumpuk memanjang ke bawah (stacked). Pada struktur data yang lengkap di setiap periode (balanced panel), total observasinya adalah jumlah individu dikali jumlah waktu \((N \times T)\). Variabel terikat \((y)\) disusun menjadi satu vektor kolom tunggal berukuran \((NT \times 1)\): \[\mathbf{y} = \begin{bmatrix} Y_{11} \\ Y_{12} \\ \vdots \\ Y_{1T} \\ Y_{21} \\ \vdots \\ Y_{NT} \end{bmatrix}\]

Matriks variabel bebas (\(X\)) juga disusun dengan pola memanjang yang sama sebanyak (\(NT\)) baris. Artinya, setiap baris mewakili data observasi pada individu dan waktu tertentu (\(i,t\)), sedangkan susunan kolomnya terdiri dari seluruh variabel independen beserta satu kolom tambahan untuk nilai konstanta. Nilai error (\(u\)) juga ditumpuk menjadi satu kolom berukuran (\(NT \times 1\)).

Penyusunan data ke dalam bentuk matriks ini merupakan syarat wajib agar observasi dapat diproses ke dalam model regresi panel. Struktur baris dan kolom yang sistematis ini berfungsi sebagai panduan mutlak bagi perangkat lunak statistik, sehingga sistem dapat membaca batas data antar-individu dan antar-waktu dengan presisi tanpa risiko tercampurnya data saat estimasi dilakukan

1.2.4 Pengaruh Dimensi Panel (\(N\) dan \(T\)) terhadap Pemilihan Model

Karakteristik jumlah observasi individu (\(N\)) dan rentang waktu (\(T\)) sangat memengaruhi kecenderungan pemilihan model, terutama karena dampaknya secara matematis terhadap sisa derajat kebebasan (degrees of freedom). Dalam praktik terapan, perbandingan dimensi ini sering dijadikan pedoman awal sebelum pengujian formal dilakukan.

Apabila \(N\) jauh lebih besar daripada \(T\) (contoh: \(N = 514\) kabupaten/kota, \(T = 5\) tahun), dataset dikategorikan sebagai Large-N, Small-T (Panel Pendek). Pada kondisi ini, penggunaan Fixed Effect Model (FEM) akan sangat menguras derajat kebebasan karena komputasi harus mengestimasi konstanta spesifik sebanyak jumlah \(N\). Oleh karena itu, Random Effect Model (REM) sering kali menjadi pilihan awal yang lebih efisien karena mampu menjaga keutuhan derajat kebebasan, dengan asumsi bahwa efek bawaan individu (\(\alpha_i\)) murni acak dan tidak berkorelasi dengan variabel independen.

Sebaliknya, apabila \(T\) lebih besar atau sebanding dengan \(N\) (contoh: \(N = 34\) provinsi, \(T = 20\) tahun), dataset disebut Large-T, Small-N (Panel Panjang). Pada kondisi seperti ini, sisa derajat kebebasan masih sangat aman dan memadai meskipun kita menggunakan Fixed Effect Model (FEM). Selain itu, waktu pengamatan yang panjang membuat karakteristik asli bawaan dari suatu wilayah hampir pasti akan ikut memengaruhi variabel bebas yang sedang diteliti. Oleh karena itu, FEM menjadi pilihan model yang paling tepat dan kuat untuk digunakan agar hasil perhitungan kita tidak bias akibat adanya faktor-faktor tersembunyi yang tidak ikut diamati.

1.3 Klasifikasi Data Panel: Balanced vs Unbalanced

1.3.1 Definisi Operasional Balanced dan Unbalanced Panel

Dalam ekonometrika data panel, hal mendasar yang harus kita pahami pertama kali adalah perbedaan antara data yang seimbang (Balanced Panel) dan data yang tidak seimbang (Unbalanced Panel).Sebuah data dikatakan sebagai balanced panel apabila setiap subjek yang diteliti (misalnya provinsi) memiliki jumlah tahun pencatatan yang sama persis dan utuh dari awal hingga akhir. Sederhananya, tidak ada data yang bolong, tidak ada subjek yang tiba-tiba masuk, dan tidak ada yang tiba-tiba keluar. Secara matematis, total jumlah datanya adalah hasil perkalian murni antara jumlah subjek (\(N\)) dengan jumlah tahun pengamatan (\(T\)).Sebaliknya, data disebut sebagai unbalanced panel jika rentang waktu pencatatannya berbeda-beda antar-subjek (ada data yang bolong atau rentang waktunya belang-belang). Ketidakseimbangan data di lapangan ini umumnya disebabkan oleh tiga hal nyata:

Responden hilang (attrition): Misalnya dalam sebuah survei berulang, ada responden yang pindah rumah atau menolak diwawancara lagi di tahun berikutnya.
Pendatang baru (late entry): Ada subjek baru yang masuk di pertengahan periode penelitian. Contoh nyatanya adalah munculnya data dari provinsi baru hasil pemekaran wilayah.
Berhenti di tengah jalan (early exit): Subjek menghilang sebelum masa penelitian habis, misalnya sebuah perusahaan yang diteliti tiba-tiba bangkrut di tahun ketiga.

1.3.2 Klasifikasi Berdasarkan Sumber Variasi: Within, Between, dan Overall

Selain melihat apakah datanya lengkap atau bolong-bolong, data panel juga bisa dibedakan dari asal-usul perbedaan angkanya (atau disebut variasi). Sederhananya, ada tiga jenis perbedaan angka yang sangat penting untuk dipahami: 1. Variasi Within (Pergerakan dari Dalam): Ini adalah perubahan angka yang terjadi di dalam satu provinsi yang sama dari tahun ke tahun. Contohnya: kita fokus melihat pergerakan naik-turunnya nilai IPM di Jawa Barat saja dari tahun 2017 sampai 2024.
2. Variasi Between (Ketimpangan Antar-Daerah): Ini adalah perbedaan nilai rata-rata antara satu provinsi dengan provinsi lainnya. Contohnya: kita membandingkan seberapa jauh perbedaan rata-rata kemiskinan di DKI Jakarta dengan di Papua.
3. Variasi Overall (Keseluruhan): Ini adalah gabungan dari semuanya. Kita melihat semua angka yang ada di dalam tabel secara campur aduk, tanpa peduli ini data dari provinsi mana atau tahun berapa.

Membedakan tiga hal ini sangat penting, karena setiap rumus statistik (model) punya cara kerja yang berbeda dalam memakan data: Fixed Effect Model (FEM) hanya peduli pada variasi Within. Model ini sengaja membuang perbedaan karakter bawaan antar-provinsi (Between) supaya bisa murni melihat apa yang berubah di dalam daerah itu sendiri. Random Effect Model (REM) memadukan atau menggabungkan variasi Within dan Between ke dalam hitungannya. Sedangkan Common Effect Model (CEM / Pooled OLS) adalah metode paling dasar yang asal campur semua data (Overall) tanpa mau tahu bahwa setiap provinsi punya karakter yang berbeda-beda.

1.3.3 Cara Memilih Rumus (Model) Berdasarkan Sifat Asli Data

Membagi data panel menjadi beberapa jenis sebenarnya berguna sebagai petunjuk awal untuk memilih rumus (model) mana yang paling cocok. Secara sederhana, pemilihan model ini tidak berpatokan pada besar-kecilnya data, melainkan sangat bergantung pada sifat asli dari objek yang kita teliti:

Jika Objek Punya “Karakter Bawaan” yang Kuat dan Timpang Jika objek yang kita teliti (misalnya data antar-provinsi) memiliki kondisi dasar yang sangat berbeda dan permanen (seperti beda lokasi geografis, iklim, budaya, atau pusat bisnis), maka secara logika kita disarankan menggunakan Fixed Effect Model (FEM). Kenapa? Karena FEM memang diciptakan khusus untuk “mengunci” perbedaan-perbedaan bawaan tersebut agar tidak mengacaukan perhitungan variabel ekonomi kita.
Jika Objek Dianggap Punya Karakter yang Acak atau Mirip Sebaliknya, jika objek yang kita teliti dianggap tidak memiliki ketimpangan bawaan yang berarti, atau perbedaannya murni dianggap sebagai kebetulan acak saja, maka pendekatan Random Effect Model (REM) bisa digunakan. REM sangat ahli dalam menghitung data secara cepat dan efisien, dengan satu syarat mutlak: karakter bawaan objek tersebut tidak boleh punya kaitan dengan variabel yang sedang diteliti.
Keputusan Selalu Kembali ke Kondisi Asli di Lapangan Pada akhirnya, tidak ada aturan kaku yang memaksa sebuah data harus memakai satu model tertentu. Peneliti harus melihat realitas nyata di lapangan. Jika secara logika ekonomi karakter bawaan objeknya memang terbukti kuat, timpang, dan memengaruhi hasil, maka menggunakan FEM adalah jalan keluar yang secara akademis paling aman dan masuk akal.

1.4 Keunggulan Utama Data Panel

1.4.1 Mengendalikan Faktor Bawaan Daerah yang Tidak Tercatat

Kehebatan paling dasar dari data panel adalah kemampuannya untuk mengunci “faktor bawaan” yang menetap pada suatu daerah. Dalam kenyataannya, banyak hal yang memengaruhi tingkat kemiskinan tetapi datanya tidak tersedia di BPS, seperti budaya kerja masyarakat, kualitas kejujuran pemerintah daerah, atau kondisi geografis permanen (pesisir pantai versus pegunungan). Jika kita hanya membandingkan data antar-provinsi pada satu waktu saja (cross-section murni), faktor-faktor yang tidak tercatat ini akan mengacaukan perhitungan dan membuat kesimpulan akhirnya menjadi bias (salah sasaran).Data panel mengatasi masalah ini dengan cara memecah faktor gangguan tak terduga (error) menjadi dua komponen utama:

Faktor Bawaan (\(\mu_i\)): Ini mewakili karakteristik unik suatu provinsi yang sifatnya permanen atau tidak berubah dari tahun ke tahun (misalnya letak geografis atau budaya lokal).
Faktor Acak (\(v_{it}\)): Ini mewakili gangguan yang sifatnya insidental dan terus berubah setiap tahun (misalnya bencana alam mendadak atau efek krisis ekonomi).

Melalui pendekatan Fixed Effect Model (FEM), perangkat lunak secara matematis mampu menyaring dan membuang “Faktor Bawaan” (\(\mu_i\)) tersebut dari perhitungan. Hasilnya, tebakan angka yang kita peroleh menjadi jauh lebih murni. Kita bisa melihat dampak nyata dari pergerakan suatu variabel ekonomi dari tahun ke tahun, tanpa lagi dipusingkan oleh perbedaan ketimpangan geografis maupun budaya antar-provinsi.

1.4.2 Memperbanyak Jumlah Observasi untuk Meningkatkan Akurasi

Keunggulan kedua dari data panel adalah kemampuannya untuk melipatgandakan jumlah data (degrees of freedom) secara otomatis tanpa perlu menambah variabel baru. Jika kita hanya menggunakan data cross-section, jumlah data yang kita miliki hanyalah sebanyak jumlah wilayah \((N)\). Begitu pula jika memakai data time series, datanya hanya sebanyak jumlah tahun (\(T\)). Namun, melalui data panel, total observasi kita menjadi hasil kali dari keduanya \((N \times T)\).Peningkatan ukuran sampel yang masif ini memberikan tiga keuntungan statistik yang sangat krusial bagi keakuratan model:

Tebakan Angka Jauh Lebih Tepat Sasaran Bayangkan kita sedang menyurvei rasa makanan di kantin. Meminta pendapat 300 orang pasti hasilnya jauh lebih meyakinkan dan mewakili kenyataan daripada hanya bertanya pada 5 orang. Sama halnya dengan ini, jumlah data yang berlipat ganda membuat perangkat lunak (seperti RStudio) bisa menghitung angka pengaruh dengan sangat akurat dan minim meleset.
Lebih Peka Melihat Pengaruh yang Sangat Kecil Karena datanya sangat banyak, model kita ibarat berubah menjadi “kaca pembesar” atau kamera beresolusi tinggi. Dia menjadi sangat peka dan bisa mendeteksi pengaruh sekecil apa pun dari sebuah variabel. Pengaruh kecil ini biasanya akan terlewat atau dianggap tidak ada jika kita hanya menggunakan data yang sedikit.
Melihat Pola Layaknya Menonton Video Kalau kita hanya memakai data satu tahun (cross-section), ibaratnya kita cuma memotret sebuah “foto diam”. Kita tidak tahu alur cerita lengkapnya. Dengan data panel (yang menggabungkan banyak provinsi dan banyak tahun), kita ibarat sedang memutar “video”. Kita jadi bisa melihat pola sebab-akibat yang sesungguhnya terjadi dari waktu ke waktu di setiap daerah.

1.4.3 Manfaat Nyata Data Panel untuk Pembuatan Kebijakan Pemerintah

Semua kehebatan perhitungan data panel yang sudah dibahas sebelumnya bukanlah sekadar unjuk kemampuan berhitung, melainkan memiliki tujuan akhir yang jauh lebih penting: menghasilkan rekomendasi kebijakan yang tepat sasaran.Dengan kemampuannya mengunci faktor-faktor “pengganggu” (seperti ketimpangan geografi dan budaya daerah), kita bisa melihat secara jernih apakah sebuah program pemerintah benar-benar berhasil menurunkan kemiskinan, atau penurunan itu hanya terjadi karena kebetulan belaka. Selain itu, karena data panel merekam pergerakan dari tahun ke tahun, kita bisa mengevaluasi seberapa cepat ekonomi suatu daerah merespons kebijakan yang baru diterapkan.Sebagai contoh nyata, dalam studi tentang masalah kemiskinan daerah, pendekatan data panel memberikan empat kekuatan utama bagi peneliti:

Mengunci Karakter Bawaan Daerah: Peneliti bisa menetralisir faktor-faktor permanen (seperti letak geografis atau sejarah budaya suatu provinsi) agar tidak mengacaukan hasil perhitungan pengaruh variabel utama.
Menghitung Pengaruh dengan Sangat Akurat: Berkat jumlah data yang melimpah (\(N \times T\)), pengukuran terhadap seberapa kuat pengaruh Indeks Pembangunan Manusia (IPM) atau tingkat pengangguran terhadap kemiskinan menjadi jauh lebih tajam dan dapat dipercaya.
Melihat Efek Jangka Panjang: Peneliti bisa melacak apakah sebuah kebijakan pengentasan kemiskinan dampaknya hanya terasa sesaat di tahun itu saja, atau berhasil bertahan secara berkelanjutan di tahun-tahun berikutnya.
Menghasilkan Saran yang Spesifik: Kita tidak lagi memberikan saran “satu obat untuk semua provinsi”. Peneliti bisa merumuskan kebijakan yang berbeda-beda, disesuaikan dengan kondisi dan keunikan masing-masing daerah.

1.5 Kriteria Pemilihan: Kapan Harus Menggunakan Data Panel?

1.5.1 Pertanyaan Penelitian sebagai Penentu Utama

Keputusan menggunakan data panel sebaiknya tidak didasarkan pada sekadar ingin memakai rumus yang terlihat canggih. Semuanya harus dikembalikan pada apa yang sebenarnya ingin kita cari tahu. Data panel baru menjadi senjata yang tepat jika kita ingin meneliti sebuah kejadian dari dua sisi sekaligus: melihat perbandingan antar-daerah, dan melihat perubahannya dari tahun ke tahun.

Secara umum, data panel sangat wajib digunakan jika pertanyaan penelitian kita masuk ke dalam tiga kategori ini:

Mencari Dampak Murni (Menyaring Faktor Bawaan): Kita ingin tahu persis apakah peningkatan IPM benar-benar menurunkan kemiskinan, tanpa mau hasil hitungannya dikacaukan oleh fakta bahwa letak geografis dan budaya tiap provinsi itu berbeda-beda.
Melihat Proses Perubahan Waktu: Kita tidak hanya ingin melihat hasil akhir, tapi ingin melacak seberapa cepat tingkat pengangguran di berbagai daerah berubah dan menyesuaikan diri setelah adanya suatu peristiwa ekonomi.
Membandingkan Reaksi Antar-Daerah: Kita ingin melihat apakah sebuah fenomena ekonomi nasional memberikan dampak yang sama atau justru berbeda antara daerah industri dengan daerah pertanian.

Namun sebaliknya, jika pertanyaan penelitian kita hanya sekadar memotret kondisi sesaat (misalnya: “Daerah mana yang paling miskin di tahun 2023?”), maka data cross-section sudah cukup. Begitu pula jika kita hanya ingin melihat satu garis waktu (misalnya: “Bagaimana tren kemiskinan nasional selama 10 tahun terakhir?”), maka data time-series adalah jawabannya.

1.5.2 Syarat Mutlak: Pastikan Datanya Tersedia dan Berkualitas

Secara praktik, rumus secanggih apa pun tidak akan ada gunanya kalau datanya tidak tersedia atau kualitasnya buruk. Di Indonesia, sumber data resmi yang paling bisa diandalkan untuk membandingkan kondisi antar-wilayah (seperti kemiskinan, pengangguran, atau IPM) adalah Badan Pusat Statistik (BPS). Sementara itu, untuk data tingkat keluarga, peneliti biasanya menggunakan hasil survei besar seperti Susenas.

Sebelum mulai memasukkan data ke dalam perangkat lunak, ada beberapa syarat kelayakan utama yang harus dipastikan oleh peneliti. Pertama, aturan hitungnya harus konsisten. Misalnya, jika BPS pernah mengubah cara menghitung angka kemiskinan di pertengahan tahun pengamatan, data tersebut harus disesuaikan terlebih dahulu agar perbandingannya tetap adil dan setara dari awal sampai akhir. Kedua, datanya tidak boleh banyak yang bolong atau kosong. Jika terlalu banyak data provinsi atau tahun yang hilang secara beruntun, perangkat lunak akan kesulitan menghitung dan kesimpulan akhirnya bisa salah total (bias).

Syarat ketiga adalah jarak waktu pengambilan data harus cocok dengan masalah yang sedang diteliti. Jika kita ingin meneliti masalah kemiskinan atau infrastruktur, menggunakan data tahunan sudah sangat pas. Namun, jika kita meneliti hal yang lebih cepat berubah seperti nilai tukar uang, kita mungkin membutuhkan data bulanan. Keempat, jumlah datanya harus cukup banyak agar hasil tebakannya kuat dan meyakinkan. Secara teori dasar, total hasil kali antara jumlah daerah dan rentang tahun pengamatannya minimal harus menyentuh angka 50 titik data \((N \times T \ge 50)\).

1.5.3 Karakteristik Masalah: Mempertimbangkan Perbedaan Daerah dan Perubahan Waktu

Memilih untuk menggunakan data panel juga harus melihat sifat asli dari masalah yang sedang kita teliti. Biasanya, fenomena ekonomi di lapangan memiliki dua ciri khas yang sulit dihitung jika kita hanya menggunakan metode biasa. Ciri pertama adalah perbedaan bawaan antar-daerah. Kita tahu bahwa setiap provinsi pasti memiliki kondisi awal yang berbeda, misalnya perbedaan kekayaan daerah, kebiasaan masyarakat, atau kualitas aturan pemerintah daerahnya. Perbedaan bawaan ini pasti akan membuat reaksi setiap daerah menjadi berbeda meskipun diberikan kebijakan ekonomi yang sama. Nah, dengan data panel, kita bisa mengunci atau menetralisir perbedaan tersebut. Hasilnya, hitungan kita akan benar-benar bersih dan murni menunjukkan pengaruh dari variabel yang sedang kita teliti, tanpa terganggu oleh keunikan tiap provinsi.

Ciri kedua adalah adanya keterkaitan dengan masa lalu. Dalam ilmu ekonomi, kondisi sebuah wilayah pada hari ini sering kali merupakan akibat atau rentetan dari kejadian di tahun-tahun sebelumnya. Karena data panel mencatat informasi secara berurutan dari tahun ke tahun, peneliti bisa melihat proses perubahan ini dengan sangat jelas.

1.5.4 Memastikan Keandalan Hitungan dan Pemilihan Pendekatan yang Tepat

Dari segi statistik, data panel sangat diunggulkan karena mampu menampung banyak daerah dalam rentang waktu bertahun-tahun sekaligus. Namun, keunggulan ini baru bisa berfungsi maksimal jika angka-angkanya memang bervariasi atau mengalami dinamika dari waktu ke waktu. Jika kita meneliti sebuah indikator yang angkanya selalu sama terus-menerus (stagnan) di suatu wilayah, perangkat lunak statistik akan kesulitan memprosesnya karena tidak ada perubahan yang bisa diukur. Oleh karena itu, kita harus memastikan bahwa data yang kita masukkan memang memiliki variasi pergerakan agar hasil estimasinya kuat dan akurat.

Selain itu, saat mengolah data panel, kita tidak boleh asal memilih atau menebak rumus hitungan mana yang mau dipakai. Kalau kita salah memilih rumus, angka yang keluar pasti akan meleset dan kesimpulan penelitian kita jadi tidak bisa dipercaya. Makanya, sebelum mulai menghitung hasil akhirnya, kita diwajibkan melakukan “tes kecocokan” data terlebih dahulu. Tes kecocokan ini berfungsi sebagai penilai yang adil untuk memilihkan rumus mana yang paling pas dengan wujud data kita. Dengan begitu, kita punya bukti kuat mengapa kita memakai rumus tersebut, dan hasil penelitian kita benar-benar bisa dipertanggungjawabkan.

1.5.5 Relevansi Data Panel untuk Merumuskan Kebijakan

Dalam penelitian ekonomi terapan, penggunaan data panel bukanlah sekadar untuk memperumit hitungan, melainkan sebuah kebutuhan nyata untuk menghasilkan rekomendasi kebijakan yang tepat. Sebuah kebijakan pemerintah pasti akan memberikan dampak yang berbeda-beda di setiap wilayah dan membutuhkan waktu agar hasilnya benar-benar terlihat. Nah, data panel sangat membantu kita untuk menilai efektivitas kebijakan tersebut melalui dua cara yang logis.

Pertama, data panel membantu kita melihat di mana sebuah kebijakan paling efektif. Misalnya, kebijakan pengembangan ekonomi pesisir atau maritim mungkin akan sangat berhasil memacu pertumbuhan di provinsi kepulauan, namun responsnya bisa jadi berbeda di provinsi yang didominasi daratan. Dengan data panel, perbedaan reaksi antar-daerah ini bisa tertangkap dengan jelas. Kedua, data panel bisa digunakan untuk melacak dampak jangka panjang. Contohnya, ketika pemerintah mengucurkan dana investasi untuk pendidikan atau infrastruktur hari ini, manfaatnya dalam menurunkan angka kemiskinan mungkin baru akan terlihat beberapa tahun ke depan. Rentetan waktu pada data panel mampu merekam proses panjang tersebut secara utuh.

1.5.6 Tantangan Praktis dan Cara Mengatasinya dalam Penggunaan Data Panel

Meskipun memiliki banyak keunggulan, penggunaan data panel juga memiliki beberapa tantangan praktis di lapangan yang harus disadari oleh peneliti. Tantangan pertama adalah proses pengolahan datanya yang cukup rumit dan membutuhkan perangkat lunak statistik khusus. Untuk mengatasinya, peneliti bisa memanfaatkan program pengolah data yang sifatnya terbuka dan gratis, serta membiasakan diri dengan alur kerja menggunakan jumlah data yang kecil terlebih dahulu sebelum memasukkan data penelitian yang sebenarnya.

Tantangan kedua adalah risiko kesalahan dalam memilih jenis hitungan. Seperti yang telah dibahas sebelumnya, peneliti wajib disiplin melakukan “tes kecocokan” awal agar hasil akhirnya tidak meleset atau keliru. Terakhir, tantangan ketiga terletak pada kehati-hatian dalam menerjemahkan hasil akhir. Karena data panel memuat gabungan pergerakan waktu dan perbedaan antar-wilayah, peneliti harus teliti saat membaca angka yang dihasilkan agar rekomendasi kebijakan yang diberikan nantinya benar-benar tepat sasaran.

1.6 Keterbatasan Kelengkapan Data

Selain urusan metode pengolahan, hal lain yang sering menjadi kendala di lapangan adalah masalah ketersediaan catatan data di setiap daerah. Dalam praktiknya, sering kali kita menemukan ada data dari provinsi tertentu yang kosong atau tidak tercatat oleh instansi terkait pada tahun-tahun tertentu. Kondisi data yang tidak seimbang ini tentu menjadi keterbatasan tersendiri dalam proses penelitian.

Namun, masalah kekosongan data ini masih dapat diatasi. Program pengolah data pada dasarnya memiliki kemampuan untuk tetap menjalankan perhitungan. Sistem secara otomatis akan melakukan penyesuaian dengan cara melewati atau mengabaikan baris data yang kosong tersebut. Syarat utamanya hanya satu: sisa total data yang berhasil kita kumpulkan harus tetap cukup banyak, sehingga mesin hitung bisa bekerja maksimal dan hasil kesimpulannya tetap dapat dipercaya secara ilmiah..

BAB 2: IMPLEMENTASI PANEL MAKRO & MIKRO

2.1 Konsep Proporsi Jumlah Daerah dan Waktu Serta Pengaruhnya pada Pemilihan Model

Dalam analisis data panel, jumlah wilayah yang diteliti (disimbolkan dengan N) dan jumlah periode waktunya (disimbolkan dengan T) bukanlah sekadar catatan pelengkap. Proporsi antara keduanya merupakan fondasi penting yang akan menentukan bagaimana program pengolah data menghitung hasil akhir dan model mana yang paling akurat untuk dipilih.

Secara umum, terdapat dua kondisi proporsi data. Kondisi pertama adalah ketika jumlah wilayah jauh lebih banyak dibandingkan rentang waktunya (Large-N, Small-T). Contoh nyata di Indonesia adalah meneliti pertumbuhan ekonomi di 514 kabupaten/kota (N = 514) namun hanya dalam rentang waktu 5 tahun (T = 5). Sebaliknya, kondisi kedua terjadi ketika rentang waktu penelitian lebih panjang atau sebanding dengan jumlah wilayahnya (Large-T, Small-N). Contohnya adalah menganalisis kinerja keuangan di 34 provinsi (N = 34) selama rentang waktu 20 tahun (T = 20).

Bentuk tabel data ini sangat penting untuk diperhatikan. Perangkat lunak statistik pada dasarnya memiliki metode perhitungan yang berbeda saat memproses data yang didominasi oleh banyaknya jumlah wilayah, dibandingkan dengan data yang didominasi oleh panjangnya rentang waktu. Jika peneliti mengabaikan hal ini, sistem komputer bisa keliru dalam memilih cara perhitungannya, sehingga angka hasil akhirnya menjadi tidak akurat. Oleh karena itu, mengenali apakah data kita lebih condong ke jumlah wilayah (Large-N) atau rentang waktu (Large-T) adalah langkah wajib sebelum mulai mengolah data, agar kesimpulan penelitian kita tidak salah sasaran.

2.2 Panel Makro: Studi Wilayah, Provinsi, dan Negara dengan Data Agregat BPS

2.2.1 Karakteristik Data Panel Makro dan Sumber Resmi di Indonesia

Data panel makro pada dasarnya adalah sekumpulan data tingkat daerah seperti kabupaten, provinsi, atau negara yang dicatat secara rutin dari tahun ke tahun. Di Indonesia, sumber data yang paling resmi dan terpercaya untuk keperluan penelitian ini adalah Badan Pusat Statistik (BPS). Untuk melihat kemajuan suatu daerah, BPS secara rutin menerbitkan indikator-indikator penting seperti Produk Domestik Regional Bruto (PDRB), Indeks Pembangunan Manusia (IPM), tingkat pengangguran, tingkat inflasi, hingga jumlah penduduk miskin.

Keunggulan utama menggunakan data dari BPS adalah perhitungannya yang sudah terstandar dan mencakup seluruh wilayah Indonesia. Meskipun demikian, peneliti tetap harus berhati-hati dan tidak boleh asal menggabungkan angka. Ada kondisi-kondisi tertentu di lapangan yang bisa membuat urutan data menjadi tidak selaras dari tahun ke tahun. Misalnya, adanya pemekaran daerah (sebuah kabupaten atau provinsi mekar menjadi wilayah baru). Oleh karena itu, sebelum memasukkan angka-angka tersebut ke dalam program pengolah data, peneliti wajib meneliti catatan panduan dari BPS agar data yang diolah benar-benar nyambung dan tidak menghasilkan kesimpulan yang salah.

2.2.2 Struktur Dimensi Large-N/Small-T dalam Panel Makro Wilayah

Bentuk data yang paling sering digunakan dalam penelitian ekonomi daerah di Indonesia adalah kondisi di mana jumlah wilayahnya jauh lebih banyak daripada rentang waktunya (Large-N, Small-T). Sebagai contoh, sebuah penelitian ekonomi sering kali menggunakan data dari seluruh 34 provinsi atau 514 kabupaten/kota di Indonesia, namun rentang waktu pengamatannya hanya berkisar antara 5 hingga 10 tahun. Pada bentuk data seperti ini, perbedaan karakteristik antara satu daerah dengan daerah lainnya akan terlihat jauh lebih menonjol dibandingkan dengan perubahan dari tahun ke tahun di masing-masing daerah tersebut.

Secara teori, bentuk data yang didominasi oleh jumlah wilayah ini membuat pendekatan Random Effect Model (REM) terlihat lebih ideal dan efisien untuk digunakan. Akan tetapi, peneliti tidak boleh mengambil jalan pintas dengan hanya menebak berdasarkan bentuk datanya saja. Keputusan akhir untuk memilih model yang sah harus tetap dibuktikan secara objektif melalui pengujian standar, yaitu Uji Chow dan Uji Hausman.

Terlebih lagi, dalam realita ekonomi daerah, setiap wilayah pasti memiliki keunikan karakteristik bawaan yang kuat dan tidak mudah berubah misalnya perbedaan kondisi geografis pesisir dan daratan, atau kapasitas anggaran di masing-masing daerah. Mengingat keunikan daerah ini sangat memengaruhi perekonomian, pada akhirnya Fixed Effect Model (FEM) sering kali terbukti menjadi pilihan yang lebih kuat dan akurat di lapangan, meskipun rentang waktu penelitiannya tergolong singkat.

2.3 Panel Mikro: Analisis Rumah Tangga dan Individu dengan Data Susenas/IFLS

2.3.1 Karakteristik Data Panel Mikro dan Sumber Survei Longitudinal

Berbeda dengan data panel makro yang melihat angka gabungan tingkat daerah, data panel mikro adalah jenis data yang melacak perkembangan orang atau rumah tangga yang sama dari waktu ke waktu secara spesifik. Data ini mampu memotret dinamika kehidupan yang jauh lebih detail, seperti kebiasaan konsumsi, riwayat pekerjaan, tingkat pendidikan, hingga status kesehatan suatu keluarga. Di Indonesia, sumber data panel mikro yang paling terpercaya dan sering diandalkan dalam penelitian ekonomi adalah Indonesian Family Life Survey (IFLS) dan Survei Sosial Ekonomi Nasional (Susenas).

IFLS sejak awal memang dirancang khusus sebagai survei jangka panjang untuk mewawancarai keluarga yang sama dari tahun ke tahun. Sementara itu, meskipun Susenas awalnya mendata keluarga yang berbeda setiap tahunnya, data ini tetap bisa disiasati dan dirangkai menjadi data panel dengan mencocokkan identitas, kode wilayah, dan karakteristik kepala keluarganya.

Jika dibandingkan dengan data tingkat wilayah, menyusun data panel mikro memiliki tantangan tersendiri. Pertama, rentang waktu pengamatannya sering kali lebih pendek, namun kedalaman ragam pertanyaan yang diajukan jauh lebih banyak. Kedua, perubahan angka di dalam data sangat dipengaruhi oleh kejadian di tingkat keluarga itu sendiri, seperti adanya anggota keluarga yang sakit, pindah kerja, atau menerima bantuan sosial. Ketiga, peneliti harus siap menghadapi tingkat kerumitan penyusunan data yang jauh lebih tinggi. Hal ini dikarenakan subjek penelitiannya adalah manusia yang bisa berpindah tempat tinggal, keluarga yang bisa berpisah rumah, atau responden yang menolak diwawancarai lagi pada tahun berikutnya, sehingga data menjadi terputus di tengah jalan.

2.3.2 Teknik Pencocokan dan Pelacakan Responden Berkelanjutan

Tantangan operasional paling besar dalam menyusun data panel tingkat keluarga adalah proses pencocokan (matching). Peneliti harus memastikan bahwa rumah tangga yang diamati pada tahun ini adalah entitas yang sama persis dengan yang diamati pada tahun-tahun sebelumnya.

Dalam penggunaan data seperti IFLS, proses pelacakan ini relatif lebih mudah dan terstruktur. Pihak penyelenggara survei sudah menyediakan kode identitas unik untuk setiap keluarga, sehingga jejak mereka dari tahun ke tahun lebih mudah diikuti. Namun, untuk data seperti Susenas yang pada awalnya tidak dirancang khusus untuk dilacak setiap tahun, peneliti harus bekerja ekstra. Peneliti harus mengandalkan teknik pencocokan secara manual berdasarkan kombinasi berbagai petunjuk, seperti kode wilayah tempat tinggal, nama kepala keluarga, tahun lahir, jenis kelamin, dan status perkawinan.

Kesalahan dalam proses pencocokan ini bisa berakibat fatal, karena sistem komputer bisa secara keliru menganggap dua keluarga yang berbeda sebagai satu keluarga yang sama. Oleh karena itu, setelah data berhasil digabungkan, peneliti wajib melakukan pengecekan logika secara ketat. Sebagai contoh, usia seseorang secara logika harus selalu bertambah setiap tahunnya, informasi dasar seperti jenis kelamin atau tempat lahir tidak mungkin berubah, dan jumlah anggota keluarga tidak boleh tiba-tiba berubah drastis tanpa adanya catatan kelahiran, kematian, atau kepindahan. Proses pengecekan silang yang sangat teliti ini menjadi syarat mutlak agar data akhir yang diolah benar-benar mencerminkan kondisi riil di masyarakat, bukan sekadar hasil dari kesalahan pencatatan administrasi.

2.3.3 Keunggulan Kelengkapan Data Makro Provinsi Dibandingkan Data Mikro

Tantangan paling merepotkan saat menggunakan data tingkat rumah tangga (mikro) adalah tingginya risiko kehilangan jejak responden dari tahun ke tahun. Misalnya, ada keluarga yang pindah domisili atau menolak untuk diwawancarai kembali pada periode survei berikutnya. Jika hal ini terjadi, jumlah sampel penelitian akan menyusut secara drastis dan kelengkapan data menjadi sangat rapuh.

Kondisi ini berbanding terbalik dengan karakteristik data agregat tingkat wilayah (makro) seperti provinsi atau kabupaten. Berbeda dengan rumah tangga atau individu yang bisa berpindah-pindah, unit wilayah administratif bersifat jauh lebih permanen. Batas-batas wilayah dan pencatatan datanya umumnya sudah terstruktur dengan sangat rapi setiap tahunnya oleh lembaga resmi seperti BPS. Secara konseptual, keunggulan inilah yang membuat ketersediaan bahan baku pada data makro menjadi jauh lebih terjamin, stabil, dan minim risiko kehilangan observasi saat diproses di dalam perangkat lunak statistik.

2.4 Sumber Data Panel Resmi Indonesia: BPS, Sakernas, dan Susenas

2.4.1 Ekosistem Data Statistik Resmi Indonesia dan Peran Strategis BPS

Badan Pusat Statistik (BPS) merupakan lembaga pemerintah non-kementerian yang memegang mandat sebagai penyelenggara statistik dasar di Indonesia. Bagi kajian ilmu Ekonomi Pembangunan, kehadiran instansi ini sangatlah krusial karena menyediakan kumpulan data agregat yang terstandarisasi dari Sabang sampai Merauke. Konsistensi metode pencatatan BPS memastikan bahwa perbandingan kondisi ekonomi antar-daerah memiliki standar ukur yang sama dan diakui secara akademis.

Dalam praktiknya, BPS merilis instrumen publikasi penting seperti Produk Domestik Regional Bruto (PDRB) Provinsi/Kabupaten, tingkat kemiskinan, hingga Indeks Pembangunan Manusia (IPM) yang sering menjadi variabel utama dalam pemodelan ekonomi. Saat ini, pengumpulan data semakin dipermudah melalui portal resmi BPS. Peneliti dapat mengunduh langsung data rentet waktu dalam format spreadsheet (Excel) yang siap diolah di perangkat lunak statistik. Hal ini tidak hanya mempercepat kerja peneliti, tetapi juga meminimalisir kesalahan akibat pencatatan manual.

2.4.2 Survei Sosial Ekonomi Nasional (Susenas)

Selain data agregat wilayah, Indonesia juga memiliki instrumen survei skala nasional yang memotret kondisi rumah tangga, yaitu Susenas. Survei yang dilaksanakan secara rutin oleh BPS ini bertujuan utama untuk memantau kondisi sosial ekonomi penduduk. Susenas menyediakan gambaran detail mengenai pengeluaran konsumsi, status kesehatan, pendidikan, hingga indikator kesejahteraan dan kemiskinan di tingkat keluarga. Meskipun menggunakan sampel responden yang berbeda setiap tahunnya, kumpulan data ini tetap menjadi rujukan standar bagi para peneliti yang ingin menganalisis dinamika sosial masyarakat Indonesia.

2.4.3 Survei Angkatan Kerja Nasional (Sakernas)

Melengkapi data sosial dari Susenas, BPS juga menyelenggarakan survei yang secara khusus dirancang untuk mengumpulkan data kependudukan di sektor ketenagakerjaan, yaitu Sakernas. Survei ini berfokus memotret dinamika pasar tenaga kerja di Indonesia dengan menyediakan variabel-variabel spesifik seperti status pekerjaan, jam kerja, rata-rata upah, dan tingkat pengangguran. Kelengkapan indikator dari Sakernas ini sangat membantu peneliti dalam mengevaluasi kondisi ketenagakerjaan maupun dampak kebijakan ekonomi terhadap penyerapan tenaga kerja di suatu daerah.

2.5 Teknik Penataan dan Manajemen Data Panel: Formatting, Merging, dan Cleaning

2.5.1 Prinsip Dasar Format Data Panel: Struktur Long dan Wide

Sebelum data panel dianalisis, data harus disusun dalam bentuk yang sesuai. Secara umum, terdapat dua bentuk penyimpanan data, yaitu format wide dan format long.

Pada format wide, satu objek ditulis dalam satu baris. Data dari tahun yang berbeda diletakkan pada kolom yang berbeda. Format ini mudah dibaca, tetapi biasanya belum siap digunakan untuk analisis data panel.

Pada format long, setiap baris menunjukkan satu objek pada satu waktu tertentu. Jika suatu objek diamati selama beberapa tahun, maka objek tersebut akan muncul beberapa kali. Format inilah yang paling sering digunakan dalam analisis data panel.

Karena itu, data yang masih berbentuk wide biasanya diubah terlebih dahulu menjadi format long. Proses ini disebut reshaping. Pada tahap ini, peneliti harus memastikan tidak ada data yang hilang atau tercatat dua kali.

Format long memudahkan peneliti melihat perubahan data dari waktu ke waktu pada objek yang sama. Oleh karena itu, format ini lebih sesuai untuk analisis data panel.

2.5.2 Penataan Identitas Unit dan Waktu

Setiap data panel harus memiliki dua informasi penting, yaitu identitas objek dan waktu pengamatan. Identitas objek digunakan untuk membedakan setiap objek yang diteliti. Contohnya adalah kode provinsi, kode perusahaan, atau nomor rumah tangga. Waktu pengamatan menunjukkan kapan data dicatat. Contohnya adalah tahun 2018, 2019, dan 2020.

Peneliti harus memastikan bahwa identitas objek dan waktu ditulis dengan benar. Selain itu, tidak boleh ada data yang sama tercatat lebih dari satu kali pada objek dan tahun yang sama. Pemeriksaan ini penting agar data dapat diolah dengan baik dan tidak menimbulkan kesalahan saat analisis dilakukan.

2.5.3 Teknik Merging Dataset

Dalam penelitian, data sering berasal dari beberapa sumber yang berbeda. Oleh karena itu, data perlu digabungkan menjadi satu dataset.

Penggabungan data dapat dilakukan dengan dua cara. Cara pertama adalah menggabungkan data dari beberapa tahun menjadi satu rangkaian data. Cara kedua adalah menggabungkan data yang memiliki objek dan tahun yang sama, tetapi memiliki variabel yang berbeda. Sebagai contoh, data kemiskinan dapat digabungkan dengan data IPM berdasarkan provinsi dan tahun yang sama. Hasilnya, kedua variabel tersebut dapat dianalisis dalam satu dataset.

2.5.4 Prosedur Cleaning Data Panel

Sebelum dianalisis, data perlu dibersihkan terlebih dahulu. Proses ini disebut cleaning data.Pada tahap ini, peneliti memeriksa apakah ada data yang kosong atau data yang nilainya jauh berbeda dari data lainnya.

Jika ditemukan masalah tersebut, peneliti perlu menanganinya agar hasil analisis tidak terganggu. Pada beberapa kasus, terutama data ekonomi yang memiliki angka sangat besar, peneliti dapat mengubah bentuk data menggunakan logaritma agar data lebih mudah dianalisis.

2.5.5 Validasi Struktur Dataset dan Transisi ke Tahap Estimasi Model

Tahap terakhir adalah memeriksa kembali seluruh data yang telah disusun.Peneliti perlu memastikan jumlah objek, jumlah tahun, dan jumlah data sudah sesuai. Selain itu, perlu diperiksa apakah terdapat data yang ganda, data yang hilang, atau kesalahan dalam urutan tahun.

Sebagai langkah awal sebelum melakukan pengujian, peneliti menyajikan tabel statistik deskriptif untuk melihat profil dan karakteristik umum dari setiap variabel. Profil ini mencakup angka rata-rata, nilai tertinggi (maksimum), nilai terendah (minimum), serta sebaran datanya (standar deviasi).

Setelah karakteristik dasar data ini dipahami dan dipastikan tidak ada kesalahan input (seperti data yang kosong atau ganda), dataset tersebut secara resmi siap diproses ke tahap analisis lanjutan. Tahap berikutnya adalah menyeleksi dan menguji tiga pendekatan utama dalam ekonometrika panel yaitu Common Effect Model (CEM), Fixed Effect Model (FEM), dan Random Effect Model (REM) guna menentukan model mana yang paling akurat untuk menjawab tujuan penelitian.

2.6 Eksekusi Komputasi Data Panel

Dalam penelitian data panel, jumlah data yang digunakan biasanya cukup banyak karena mencakup beberapa objek dan beberapa periode waktu sekaligus. Oleh karena itu, proses pengolahan dan analisis data menjadi sulit jika dilakukan secara manual. Selain membutuhkan waktu yang lama, perhitungan manual juga lebih berisiko menimbulkan kesalahan.

Untuk mengatasi hal tersebut, peneliti biasanya menggunakan perangkat lunak statistik. Salah satu perangkat lunak yang sering digunakan adalah RStudio. Melalui RStudio, peneliti dapat mengolah data, menjalankan model data panel, serta melakukan berbagai pengujian yang diperlukan dalam penelitian.

Penggunaan perangkat lunak statistik membantu proses analisis menjadi lebih cepat, lebih teratur, dan lebih akurat. Dengan demikian, peneliti dapat lebih fokus pada pemahaman dan interpretasi hasil penelitian daripada melakukan perhitungan secara manual.

BAB 3: ESTIMASI MODEL & PEMILIHAN TERBAIK

3.1 Konsep Dasar Common Effect Model (CEM)

3.1.1 Pengertian Common Effect Model (CEM)

Common Effect Model (CEM) atau yang sering disebut sebagai Pooled OLS adalah metode paling dasar dan sederhana dalam mengolah data panel. Prinsip kerja model ini sangat gampang: ia menggabungkan seluruh data dari berbagai wilayah dan berbagai tahun menjadi satu kelompok besar, lalu menghitungnya secara bersamaan.

Kelemahan utama dari metode ini adalah sifatnya yang “pukul rata”. CEM menganggap bahwa kondisi ekonomi di semua wilayah itu sama persis. Model ini seolah-olah menutup mata terhadap keunikan masing-masing daerah atau tren perubahan dari tahun ke tahun. Sebagai contoh, model ini mengasumsikan bahwa sebuah kebijakan ekonomi akan memberikan efek yang sama persis di wilayah pesisir kepulauan maupun di daerah pegunungan daratan, tanpa mempertimbangkan perbedaan potensi geografis dan struktur ekonomi di antara keduanya.

Karena di dunia nyata setiap daerah pasti memiliki karakteristik yang berbeda-beda, cara “pukul rata” ini sering kali menghasilkan tebakan yang kurang akurat. Oleh karena itu, pendekatan CEM biasanya hanya digunakan sebagai perhitungan awal atau sekadar pemanasan. Setelah itu, peneliti tetap harus melakukan pengujian lanjutan untuk menentukan apakah metode dasar ini layak dipakai, atau harus diganti dengan model lain yang lebih peka terhadap keunikan masing-masing daerah.

3.1.2 Bentuk Persamaan dan Asumsi Dasar

Secara matematis, CEM dinyatakan sebagai perluasan langsung dari regresi linier biasa. Seluruh data disatukan ke dalam satu persamaan berikut:\[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\]Dalam persamaan ini, angka koefisien (\(\beta\)) diasumsikan berlaku identik untuk semua daerah dan semua tahun. Komponen error (\(u_{it}\)) juga tidak dipisah-pisah berdasarkan wilayah, melainkan dibiarkan menjadi satu gangguan acak gabungan.Asumsi “pukul rata” ini menyiratkan bahwa respons variabel terikat terhadap variabel bebas bersifat universal. Misalnya, jika CEM diterapkan pada data kemiskinan provinsi, model ini mengasumsikan bahwa setiap kenaikan satu poin IPM akan menghasilkan penurunan kemiskinan yang persis sama di Aceh, Jawa Barat, maupun Papua, tanpa memperhitungkan perbedaan struktur ekonomi daerah yang sebenarnya sangat memengaruhi kondisi tersebut.

3.1.3 Cara Kerja Penggabungan Data (Pooled OLS)

Dalam menghitung model CEM, seluruh data observasi digabungkan menjadi satu kesatuan memanjang ke bawah tanpa membedakan waktu maupun wilayah. Prinsip kerjanya murni mencari garis tebakan yang paling akurat dengan cara meminimalkan total error atau selisih antara data aktual dengan nilai prediksi di lapangan.

Keuntungan utama dari cara ini adalah proses perhitungannya di perangkat lunak statistik menjadi sangat efisien dan mudah dieksekusi tanpa memerlukan pengaturan struktur panel yang rumit. Namun, kemudahan ini bisa menjadi jebakan. Pemaksaan penggabungan data pada kondisi antar-provinsi yang karakteristiknya sangat berbeda (heterogen) justru berpotensi besar menghasilkan estimasi tebakan yang tidak akurat.

3.1.4 Cara Membaca Hasil Estimasi CEM

Ketika model CEM selesai dihitung, angka koefisien yang dihasilkan menunjukkan besaran efek “rata-rata” dari sebuah variabel bebas terhadap variabel terikat. Artinya, angka tersebut menebak gambaran umum dampak suatu kebijakan yang berlaku sama untuk seluruh wilayah dan periode. Apabila data telah diubah ke dalam bentuk logaritma natural (Ln), maka angka koefisien ini dapat langsung dibaca sebagai persentase elastisitas.

Kelemahan utama dari cara baca ini adalah sifatnya yang pukul rata (one-size-fits-all). Rekomendasi kebijakan yang ditarik dari angka rata-rata CEM ini bisa jadi kurang tepat sasaran di dunia nyata. Sebuah program intervensi ekonomi yang sukses di provinsi dengan infrastruktur matang, belum tentu menghasilkan tingkat kesuksesan yang sama jika diterapkan di wilayah dengan keterbatasan akses jalan atau pelabuhan.

3.1.5 Kelemahan Utama CEM pada Data Wilayah

Secara teoritis, pemaksaan penggunaan CEM pada data antar-wilayah sangat rawan menghasilkan kesimpulan yang bias. Kelemahan terbesar dari CEM adalah model ini rentan melewatkan faktor-faktor penting yang tidak tercatat dalam angka (omitted variable bias).

Dalam realitas ekonomi, setiap provinsi pasti memiliki faktor unik seperti etos kerja masyarakat lokal, kualitas birokrasi, atau kondisi iklim budaya setempat. Karena CEM menutup mata terhadap keunikan tersebut, faktor-faktor tersembunyi ini akhirnya tercampur aduk dan mengganggu akurasi perhitungan. Kondisi ini menyebabkan hasil estimasi CEM menjadi tidak stabil dan kurang pas jika dijadikan dasar pengambilan keputusan yang spesifik untuk satu daerah tertentu.

3.1.6 Alasan CEM Hanya Menjadi Model Awal

Meskipun memiliki keterbatasan yang jelas, CEM tetap memiliki peran penting sebagai “garis start” dalam alur analisis. CEM difungsikan murni sebagai model dasar sebelum peneliti melangkah lebih jauh.

Setelah menghitung CEM, peneliti wajib melanjutkan analisis ke tahap pengujian formal, yaitu Uji Chow. Uji ini dirancang khusus untuk membandingkan apakah asumsi “pukul rata” milik CEM ini masih layak dipertahankan, atau harus segera digugurkan dan beralih menggunakan Fixed Effect Model (FEM) yang jauh lebih peka dalam mengakui keunikan karakteristik setiap provinsi.

3.2 Konsep Dasar Fixed Effect Model (FEM)

3.2.1 Pengertian dan Logika Dasar FEM

Berbeda dengan model sebelumnya yang bersifat “pukul rata”, Fixed Effect Model (FEM) adalah pendekatan yang sangat menghargai perbedaan. Dalam literatur ekonometrika standar, tokoh-tokoh terkemuka seperti Baltagi maupun Gujarati secara konsisten menekankan bahwa setiap entitas pengamatan (seperti provinsi atau kabupaten) pasti memiliki karakteristik bawaan yang unik dan berbeda satu sama lain.

Logika dasar FEM berasumsi bahwa ada faktor-faktor permanen di setiap daerah—seperti letak geografis (pesisir atau pegunungan), warisan budaya, atau karakter demografi alamiah—yang secara diam-diam memengaruhi kondisi ekonomi daerah tersebut. Jika faktor-faktor bawaan ini diabaikan begitu saja seperti pada model Common Effect, maka hasil perhitungan regresi akan menjadi bias dan kesimpulannya melenceng. Oleh karena itu, FEM hadir untuk “mengunci” atau mengontrol karakteristik unik tersebut agar peneliti bisa melihat secara jernih dampak murni dari sebuah variabel ekonomi.

3.2.2 Cara Kerja FEM Mengakui Keunikan Wilayah

Secara matematis, untuk mengakui keunikan setiap daerah, FEM memberikan semacam “nilai dasar” yang berbeda-beda untuk setiap wilayah. Jika dituliskan dalam persamaan dasar, bentuknya tetap sederhana seperti regresi pada umumnya:\[Y_{it} = \alpha_i + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\]Perbedaan utamanya hanya terletak pada lambang intersep (\(\alpha_i\)). Huruf \(i\) kecil di sana menandakan bahwa titik awal atau kondisi dasar setiap provinsi dibiarkan berbeda-beda. Aceh memiliki nilai dasar sendiri, Jakarta memiliki nilai dasar sendiri, begitu pula dengan Papua. Pendekatan ini sering disebut sebagai penambahan variabel pembeda. Dengan cara ini, sistem komputasi dipaksa untuk menghitung secara spesifik dengan mempertimbangkan identitas dan kapasitas masing-masing daerah.

3.2.3 Proses Membersihkan Data dari Faktor Permanen

Dalam praktiknya, jika sebuah penelitian menggunakan puluhan provinsi atau ratusan kabupaten, membuat variabel pembeda untuk masing-masing daerah akan membuat perhitungan komputer menjadi sangat berat dan lambat. Untuk menyiasatinya, perangkat lunak statistik menggunakan sebuah trik operasional yang elegan.

Trik ini bekerja dengan cara mencari nilai rata-rata dari setiap daerah selama periode pengamatan, lalu menguranginya dari data asli. Proses ini ibarat “mencuci bersih” data dari semua faktor bawaan daerah yang sifatnya permanen (tidak berubah dari tahun ke tahun). Setelah faktor-faktor statis seperti luas wilayah laut atau karakter geografis dieliminasi, maka data yang tersisa murni hanyalah indikator ekonomi yang bergerak fluktuatif dari waktu ke waktu.

3.2.4 Keunggulan Utama Analisis FEM pada Kebijakan Publik

Keunggulan utama dari FEM adalah kemampuannya menghasilkan estimasi yang sangat akurat dan terfokus. Karena model ini secara otomatis menyaring dan membuang semua gangguan dari faktor lingkungan yang menetap, hasil hitungannya menjadi sangat tajam.

Sebagai contoh nyata dalam studi empiris, ketika peneliti ingin mengevaluasi efektivitas kebijakan penyaluran dana publik terhadap pengentasan kemiskinan di 38 provinsi di Indonesia, FEM akan secara otomatis mengabaikan fakta bahwa suatu daerah adalah daerah kepulauan yang terpencil atau pusat bisnis yang padat. Model ini akan memfokuskan hitungannya secara presisi pada satu pertanyaan utama: “Apakah penambahan anggaran di provinsi tersebut dari tahun ke tahun benar-benar berhasil menurunkan angka kemiskinannya?” Hal ini membuat kesimpulan yang ditarik menjadi jauh lebih kredibel sebagai landasan bagi para pembuat kebijakan.

3.2.5 Cara Membaca Hasil dan Implikasi Kebijakan

Karena cara kerjanya yang menyaring faktor permanen, cara membaca angka koefisien pada FEM juga menjadi lebih spesifik. Angka koefisien dalam FEM dibaca sebagai pengukur pengaruh perubahan suatu variabel di dalam entitas daerah yang sama dari waktu ke waktu.

Misalnya, jika koefisien IPM terhadap kemiskinan bernilai -0.45 dengan tingkat signifikansi yang kuat, maka hal ini diartikan: “Jika angka IPM di suatu provinsi berhasil dinaikkan satu poin, maka tingkat kemiskinan di provinsi yang sama tersebut akan turun sebesar 0.45 persen, terlepas dari apakah provinsi itu berada di dalam atau di luar pulau Jawa.” Namun perlu dicatat, kelemahan FEM adalah model ini tidak bisa digunakan untuk mengukur dampak dari variabel yang nilainya tidak pernah berubah, seperti “status otonomi khusus”. Dengan demikian, rekomendasi kebijakan yang dihasilkan oleh FEM sangat ideal untuk program-program intervensi yang bersifat dinamis.

3.2.6 Tahap Pengujian Lanjutan dan Transisi Model

Setelah model FEM berhasil dihitung, interpretasi yang baik harus selalu diiringi dengan validasi model. Sama halnya dengan pengujian sebelumnya, diperlukan alat uji diagnostik untuk memastikan keabsahan spesifikasi ini.

Sebagai prosedur wajib, peneliti harus melakukan Uji Chow guna membuktikan secara statistik bahwa pemakaian FEM memang lebih superior dibandingkan dengan model “pukul rata” (CEM). Jika FEM terbukti memenangkan Uji Chow, tahap penentuan selanjutnya adalah menghadapkan FEM dengan model alternatif terakhir, yaitu Random Effect Model (REM). Pertarungan keakuratan antara FEM dan REM ini kemudian akan diputuskan melalui sebuah pengujian akhir yang dikenal sebagai Uji Hausman, yang bertugas memastikan model mana yang benar-benar konsisten dan paling efisien untuk digunakan.

3.3 Konsep Dasar Random Effect Model (REM)

3.3.1 Pengertian dan Logika Dasar Random Effect Model

Jika Common Effect Model (CEM) menganggap semua daerah itu sama persis, dan Fixed Effect Model (FEM) menganggap perbedaan setiap daerah itu mutlak dan harus “dicuci bersih”, maka Random Effect Model (REM) hadir sebagai jalan tengah. Logika dasar REM berasumsi bahwa keunikan karakteristik suatu daerah memang ada, tetapi sifatnya hanyalah kebetulan atau variasi acak (random) dari alam, bukan sesuatu yang secara pasti saling berhubungan langsung dengan kebijakan yang sedang diukur.Secara matematis, REM memecah komponen tingkat kesalahan (error) menjadi dua bagian yang jelas:\[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\]

Meskipun terlihat panjang, persamaan ini sebenarnya sangat logis. Persamaan ini pada dasarnya adalah regresi biasa, namun komponen gangguannya (error) secara sengaja dipecah menjadi dua elemen utama:

Elemen \(\mu_i\) (Karakteristik Unik Wilayah): Ini mewakili faktor bawaan daerah yang tidak pernah berubah seiring berjalannya waktu, seperti letak geografis, budaya, atau status kepulauan.
Elemen \(\nu_{it}\) (Gangguan Acak Murni): Ini mewakili sisa gangguan lainnya yang benar-benar acak dan nilainya selalu berubah-ubah setiap tahunnya di daerah tersebut.Karena REM memandang karakteristik unik wilayah \((\mu_i)\) ini sebagai elemen acak yang berdiri sendiri, REM tidak merasa perlu untuk menghapus atau mengeliminasinya seperti prosedur yang dilakukan oleh FEM.

3.3.2 Cara Kerja REM Melalui Pendekatan Pembobotan (\(\theta\))

Keunikan utama dari metode REM terletak pada kemampuannya meramu data. Karena REM tidak membuang karakteristik unik daerah secara total, metode ini menggunakan sebuah trik statistik bernama pembobotan (quasi-demeaning) untuk mencari titik keseimbangan terbaik.Proses penentuan bobot ini menggunakan sebuah parameter yang disimbolkan dengan huruf Theta \[\theta = 1 - \sqrt{\frac{\sigma_\nu^2}{\sigma_\nu^2 + T\sigma_\mu^2}}\] Penjelasan dari rumus pembobotan ini sebenarnya sangat sederhana. Nilai \(\theta\) ini berfungsi seperti “timbangan” yang angkanya berkisar antara 0 sampai 1. Jika karakteristik antar-provinsi ternyata sangat seragam (tidak ada heterogenitas), maka nilai \(\theta\) akan menjadi 0, dan sistem akan otomatis menghitungnya menggunakan cara “pukul rata” (CEM). Sebaliknya, jika karakteristik antar-provinsi sangat berbeda tajam, nilai \(\theta\) akan mendekati 1, dan sistem akan otomatis menghitungnya mirip dengan cara kerja FEM. Dengan rumus timbangan ini, REM mampu menghasilkan estimasi tebakan yang jauh lebih halus dan efisien tanpa membuang informasi berharga mengenai karakteristik wilayah.

3.3.3 Eksekusi Perhitungan REM pada Perangkat Lunak

Untuk menghitung pembobotan variasi \(\theta\) dan memproses matriks datanya, iterasi matematisnya sangat panjang jika dilakukan secara manual. Oleh karena itu, dalam praktik penelitian ekonomi modern, kalkulasi ini diserahkan sepenuhnya kepada algoritma bawaan pada perangkat lunak statistik. Tugas utama seorang peneliti bukanlah memecahkan turunan rumusnya secara manual, melainkan membaca keluaran hasil dari sistem, memastikan tidak ada asumsi yang dilanggar, dan mengartikan angka-angka koefisien tersebut menjadi narasi implikasi kebijakan yang bermakna bagi pembangunan daerah.

3.3.4 Keunggulan REM dalam Mengukur Faktor Permanen Daerah

Inilah keunggulan absolut yang dimiliki oleh REM. FEM memiliki kelemahan fatal yaitu akan secara otomatis menghapus semua variabel yang nilainya statis atau tidak berubah dari tahun ke tahun. Padahal, dalam studi ekonomi regional, faktor permanen ini sangat krusial.Sebagai contoh, jika sebuah penelitian ingin mengukur dampak “status provinsi pesisir/kepulauan” terhadap laju pertumbuhan ekonomi daerah. Status kepulauan adalah fakta permanen yang tidak berubah. Jika menggunakan FEM, variabel ini akan terhapus dan dianggap tidak ada. Sebaliknya, karena REM menganggap faktor kepulauan ini sebagai bagian dari variasi acak populasi (\(\mu_i\)), REM mampu menghitung dan mengeluarkan angka koefisien untuk variabel permanen tersebut. Hal ini menjadikan REM sangat berharga untuk menganalisis karakteristik struktural daerah.

3.3.5 Titik Lemah REM dan Uji Validitas Hausman

Meskipun mampu mengukur variabel permanen secara efisien, REM memiliki syarat mutlak yang tidak boleh dilanggar: keunikan karakteristik bawaan suatu daerah sama sekali tidak boleh memiliki kaitan atau pengaruh terhadap variabel kebijakan yang sedang diteliti. Sebagai contoh nyata, jika keunikan suatu provinsi berupa “sumber daya alam yang melimpah” ternyata memengaruhi besarnya “alokasi anggaran infrastruktur” di provinsi tersebut, maka syarat REM otomatis gugur. Jika syarat ini dilanggar, sistem pembobotan REM akan menjadi kacau, menghasilkan estimasi yang sangat bias, dan kesimpulannya akan menyesatkan pengambil kebijakan.

Untuk memastikan apakah syarat mutlak ini terpenuhi atau tidak, peneliti tidak boleh hanya menebak-nebak. Peneliti wajib melakukan sebuah prosedur pembuktian formal yang disebut Uji Hausman.

Logika cara kerja Uji Hausman ini sebenarnya sangat sederhana dan membumi. Uji ini bertugas mengukur jarak atau selisih antara hasil tebakan yang dikeluarkan oleh Fixed Effect Model (FEM) dengan hasil tebakan dari Random Effect Model (REM). Jika jarak atau perbedaan hasil dari kedua model tersebut terlampau jauh dan njomplang, itu menjadi bukti statistik yang kuat bahwa sistem REM telah mengalami kebocoran atau bias. Jika hal ini terjadi, maka REM harus segera digugurkan secara permanen, dan peneliti wajib kembali menggunakan FEM sebagai satu-satunya model yang paling kebal dan aman untuk diinterpretasikan.

3.3.6 Kesimpulan Alur Pemilihan Model Terbaik

Pemahaman yang mendalam mengenai karakteristik CEM, FEM, dan REM akan berujung pada satu prosedur penting, yaitu turnamen seleksi model. Pemilihan model diatur oleh protokol pengujian statistik yang ketat melalui tiga “pertandingan” utama:

Uji Chow: Pertandingan babak pertama untuk membandingkan kecocokan antara CEM melawan FEM.
Uji Hausman: Pertandingan paling krusial untuk menguji asumsi bias, yang mempertemukan FEM melawan REM.
Uji Lagrange Multiplier (LM): Pertandingan alternatif pembanding antara CEM melawan REM.

Ketiga uji inilah yang akan menjadi penentu mutlak dalam menetapkan spesifikasi model mana yang paling kuat, akurat, dan dapat dipertanggungjawabkan keabsahannya sebagai landasan perumusan kebijakan ekonomi.

3.4 Uji Chow (F-Test): Prosedur Pemilihan antara CEM dan FEM

3.4.1 Landasan Logika Uji Chow dalam Data Kewilayahan

Dalam analisis ekonometrika data panel, peneliti tidak diperkenankan untuk sekadar memilih model berdasarkan asumsi atau selera pribadi. Pemilihan model harus didasarkan pada pembuktian statistik yang objektif. Uji Chow, yang juga dikenal sebagai Uji F, bertindak sebagai “babak penyisihan pertama” yang secara khusus dirancang untuk mengadu dua model dasar: Common Effect Model (CEM) melawan Fixed Effect Model (FEM).Tujuan utama dari uji ini hanya satu: menjawab secara pasti apakah keunikan karakteristik setiap daerah (seperti perbedaan letak geografis atau kapasitas institusi) benar-benar berdampak nyata pada hasil penelitian, ataukah keunikan tersebut sebenarnya hanya perbedaan sepele yang bisa diabaikan dengan cara “pukul rata” (CEM).Secara matematis, Uji Chow menguji sebuah pernyataan dasar (Hipotesis Nol) yang dituliskan dengan simbol berikut:\[H_0 : \mu_1 = \mu_2 = \dots = \mu_N = \mu\] Rumus ini sebenarnya sekadar bahasa simbol untuk mengatakan: “Karakteristik daerah 1 itu sama persis dengan daerah 2, sama dengan daerah 3, dan seterusnya sampai daerah ke-N”. Dengan kata lain, \(H_0\) menganggap semua wilayah itu kembar identik tanpa ada keunikan struktural yang membedakan mereka. Jika uji ini berhasil menolak \(H_0\), maka itu menjadi bukti sah bahwa setiap daerah memiliki keunikan yang signifikan, sehingga model FEM wajib digunakan.

3.4.2 Formulasi Statistik dan Cara Kerja Komputasi

Untuk menentukan siapa pemenang antara CEM dan FEM, Uji Chow tidak menebak secara asal, melainkan membandingkan tingkat kesalahan (tingkat error) dari kedua model tersebut. Model yang menghasilkan kesalahan tebakan lebih kecil akan keluar sebagai pemenang.Proses membandingkan kesalahan ini dihitung menggunakan rumus Statistik F berikut:\[F = \frac{(RSS_R - RSS_U)/(N - 1)}{RSS_U/(NT - N - k)}\] Penjelasan dari rumus di atas sangatlah logis. \(RSS_R\) adalah total error dari model CEM (yang sifatnya terbatas/restricted), sedangkan \(RSS_U\) adalah total error dari model FEM (yang sifatnya bebas/unrestricted). Rumus F ini murni hanya menghitung selisih: “Seberapa banyak tingkat kesalahan kita berkurang jika kita beralih dari model CEM ke model FEM?”

Meskipun rumusnya terlihat rumit, dalam eksekusi riilnya, seorang peneliti tidak perlu menghitung pembagian ini dengan kalkulator. Perangkat lunak statistik modern (seperti RStudio atau EViews) akan secara otomatis mengeksekusi perhitungan matriks ini dan langsung menyajikan hasil akhirnya saat perintah regresi dijalankan. Peneliti hanya perlu fokus pada cara membaca angka probabilitas (p-value) yang dihasilkan oleh perangkat lunak tersebut.

3.4.3 Cara Membaca Hasil Uji dan Implikasinya pada Kebijakan

Cara membaca hasil Uji Chow sangatlah berpusat pada nilai probabilitas (p-value) dibandingkan dengan batas toleransi kesalahan yang wajar, yaitu 5% atau \(\alpha = 0.05\). Aturan mainnya sangat tegas:

Jika p-value < 0.05, maka hipotesis “semua daerah itu sama” (\(H_0\)) dinyatakan gugur. Pemenangnya adalah FEM.
Jika p-value > 0.05, maka perbedaan antar-daerah dianggap tidak penting. Pemenangnya adalah CEM.

Sebagai contoh praktis dalam penelitian ekonomi regional, mari kita bayangkan sebuah studi yang meneliti potensi sektor maritim dan Blue Economy di berbagai pesisir wilayah Sulawesi. Jika Uji Chow menghasilkan angka p-value sebesar 0.001 (jauh di bawah 0.05), maka ini adalah bukti statistik yang mengonfirmasi bahwa setiap pesisir memiliki karakteristik unik yang sangat kuat memengaruhi ekonomi (misalnya perbedaan kontur laut, fasilitas pelabuhan, atau tradisi nelayan lokal). Mengabaikan fakta ini dan memaksakan pemakaian CEM akan menghasilkan rekomendasi kebijakan kelautan yang salah sasaran. Sebaliknya, jika hasilnya mengarah pada FEM, pembuat kebijakan bisa merancang intervensi yang lebih spesifik.

3.4.4 Syarat Adil Pertandingan (Asumsi Pendukung Uji Chow)

Agar hasil dari Uji Chow ini sah dan dapat dipertanggungjawabkan di hadapan forum akademik, ada beberapa “syarat adil” yang harus dipenuhi oleh data yang digunakan. Jika syarat ini dilanggar, maka perangkat lunak akan mengeluarkan angka p-value yang menipu.

Syarat utama yang paling sering disorot adalah konsistensi data observasi. Model CEM dan FEM yang sedang diadu harus dihitung menggunakan jumlah baris data yang sama persis. Jika saat memproses FEM ada beberapa data kabupaten yang tiba-tiba “hilang” (karena ada baris yang kosong atau missing value), maka perbandingan total error (RSS) antara kedua model menjadi tidak seimbang dan tidak valid. Ibarat pertandingan tinju, kedua model harus bertarung di atas arena yang sama dengan jumlah ronde yang sama. Oleh karena itu, memastikan kelengkapan data sebelum menekan tombol run di perangkat lunak adalah langkah preventif yang sangat krusial.

3.4.5 Batasan Uji Chow sebagai Uji Tahap Awal

Uji Chow memang memegang peranan yang sangat penting sebagai gerbang pertama analisis. Uji ini sangat berguna untuk membantu peneliti memutuskan apakah kita sebaiknya menggunakan model “pukul rata” (CEM) atau beralih ke model yang lebih peka terhadap keunikan daerah (FEM).

Namun, Uji Chow memiliki satu kelemahan yang sangat mendasar. Uji ini ibarat sebuah alat ukur yang hanya bisa melihat dua pilihan (CEM dan FEM), dan sama sekali tidak menyadari keberadaan pilihan ketiga, yaitu Random Effect Model (REM). Karena keterbatasan inilah, Uji Chow tidak bisa dijadikan sebagai penentu keputusan yang mutlak. Peneliti tidak diperbolehkan langsung menutup analisis hanya dengan mengandalkan hasil Uji Chow, melainkan harus melangkah ke tahap pengujian selanjutnya untuk memastikan model yang terpilih benar-benar yang terbaik.

3.4.6 Langkah Lanjutan Menuju Uji Hausman

Karena Uji Chow memiliki titik lemah, peneliti wajib melanjutkan pencarian model terbaik ini ke tahap berikutnya. Alur pencarian ini sangat terstruktur dan memiliki aturan main yang jelas:

Jika Uji Chow menyatakan FEM lebih baik dari CEM, maka FEM harus diadu lagi melawan REM. Pertandingan ini dilakukan melalui Uji Hausman.
Jika Uji Chow menyatakan CEM yang lebih baik, maka CEM tetap disarankan untuk diuji melawan REM melalui pengujian lain yang disebut Uji Lagrange Multiplier (LM).

Melangkah dari Uji Chow menuju Uji Hausman bukanlah sekadar rutinitas menekan tombol di aplikasi statistik, melainkan sebuah cara peneliti untuk berpikir lebih kritis. Pada Uji Chow, kita hanya bertanya di level permukaan: “Apakah karakteristik setiap daerah itu berbeda?” Namun saat masuk ke Uji Hausman, pertanyaannya menjadi jauh lebih mendalam: “Apakah perbedaan antar-daerah itu akan membuat hasil perhitungan regresi kita menjadi bias dan melenceng?” Dengan memahami perbedaan tujuan dari kedua uji ini, peneliti bisa memastikan bahwa model akhir yang dipilih tidak hanya bagus di atas kertas, tetapi juga benar-benar aman saat digunakan untuk merumuskan kebijakan ekonomi daerah.

3.5 Uji Hausman: Prosedur Pemilihan antara FEM dan REM Berdasarkan Konsistensi

3.5.1 Landasan Logika Uji Hausman dalam Data Kewilayahan

Uji Hausman, yang diformulasikan oleh ekonom Jerry A. Hausman pada tahun 1978, merupakan prosedur pengujian tingkat lanjut yang sangat fundamental dalam ekonometrika data panel. Jika Uji Chow diibaratkan sebagai babak penyisihan, maka Uji Hausman adalah babak final yang dirancang untuk menguji kelayakan Random Effect Model (REM) dengan menghadapkannya langsung melawan Fixed Effect Model (FEM).

Landasan logika dari uji ini berakar pada satu pertanyaan krusial yang menjadi kelemahan utama REM: “Apakah karakteristik bawaan suatu daerah (seperti geografi atau budaya) memiliki korelasi silang atau hubungan diam-diam dengan variabel kebijakan yang sedang kita teliti?” Secara formal, Uji Hausman menguji keabsahan dari pertanyaan tersebut melalui penetapan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\)) berikut:\[H_0 : E[\mu_i | \mathbf{X}_{it}] = 0\]\[H_1 : E[\mu_i | \mathbf{X}_{it}] \neq 0\] Meskipun menggunakan simbol statistik, maknanya sesungguhnya sangat lugas.

Simbol \(H_0\) berarti: Karakteristik unik suatu wilayah (\(\mu_i\)) terbukti benar-benar acak dan sama sekali tidak memiliki hubungan dengan variabel kebijakan (\(\mathbf{X}_{it}\)). Jika ini yang terjadi, maka REM adalah model yang sah, konsisten, dan sangat efisien untuk digunakan.
Sebaliknya, simbol \(H_1\) berarti: Karakteristik unik wilayah tersebut ternyata memiliki hubungan dengan variabel kebijakan. Jika hal ini terjadi, sistem REM mengalami kebocoran (bias), sehingga peneliti wajib membuang REM dan menggunakan FEM sebagai satu-satunya model yang aman.

3.5.2 Formulasi Statistik dan Cara Kerja Komputasi

Untuk menentukan apakah terjadi kebocoran pada sistem REM atau tidak, Uji Hausman menggunakan cara kerja yang sangat cerdas tanpa perlu menjabarkan rumus matriks yang rumit.

Logika utamanya murni hanya mengukur jarak penyimpangan. Uji ini pertama-tama akan menghitung tebakan koefisien menggunakan cara kerja FEM, lalu menghitung hal yang sama menggunakan cara kerja REM. Setelah itu, Uji Hausman akan membandingkan hasil dari keduanya. Apabila jarak atau selisih antara hasil hitungan FEM dan REM ini terlampau lebar dan sangat jauh berbeda, maka itu menjadi alarm atau bukti kuat bahwa perhitungan REM ternyata melenceng (bias).

Dalam proses implementasinya, peneliti sama sekali tidak perlu melakukan perhitungan selisih ini secara manual. Perintah bawaan pada perangkat lunak statistik (seperti fungsi phtest() di RStudio atau hausman di Stata) akan mengeksekusi perhitungan jarak tersebut secara otomatis dalam hitungan detik. Tugas utama peneliti adalah fokus menafsirkan angka probabilitas yang dihasilkan dari perhitungan tersebut.

3.5.3 Cara Membaca Hasil Uji dan Implikasinya pada Kebijakan

Penarikan kesimpulan dari Uji Hausman didasarkan pada perbandingan antara nilai probabilitas (p-value) dari statistik uji terhadap batas toleransi kesalahan yang wajar (tingkat signifikansi \(\alpha = 0.05\)). Aturan keputusannya adalah sebagai berikut:

Jika p-value < 0.05, maka hipotesis nol (\(H_0\)) ditolak. Artinya, terbukti ada kebocoran atau korelasi silang pada data. Pemenang mutlaknya adalah FEM.
Jika p-value > 0.05, maka hipotesis nol (\(H_0\)) diterima. Artinya, data terbukti murni acak tanpa ada korelasi silang. Pemenangnya adalah REM.

Sebagai ilustrasi dalam konteks riset Pembangunan Ekonomi, misalkan kita meneliti dampak “alokasi dana maritim” terhadap pertumbuhan sektor Blue Economy di kawasan pesisir. Jika Uji Hausman menghasilkan p-value = 0.002 (lebih kecil dari 0.05), hal ini memberi tahu kita bahwa karakteristik bawaan pesisir (seperti kedalaman pelabuhan alamiah) ternyata secara diam-diam memengaruhi besarnya dana yang dialokasikan ke sana. Menggunakan REM pada kondisi ini akan menghasilkan kesimpulan yang menyesatkan. Oleh karena itu, kita wajib menggunakan FEM untuk “mencuci bersih” faktor pelabuhan alamiah tersebut agar kita bisa melihat efektivitas murni dari dana maritim yang disalurkan.

3.5.4 Syarat Adil Pertandingan (Asumsi Pendukung Validitas Uji Hausman)

Validitas kesimpulan dari Uji Hausman sangat bergantung pada dipenuhinya syarat-syarat integritas data. Syarat pertama dan paling utama adalah keseragaman jumlah sampel. Model FEM dan REM yang akan dibandingkan selisihnya haruslah diestimasi menggunakan tabel data yang sama persis ukurannya. Apabila terdapat data yang kosong di tahun tertentu (missing value) yang membuat baris observasi tidak seimbang, maka nilai p-value yang keluar berpotensi menipu peneliti.

Selain itu, model yang dirancang juga harus bebas dari gangguan ekstrem yang tidak terpola (heteroskedastisitas). Apabila variasi tingkat kesalahan antar-provinsi terlampau liar dan tidak dikendalikan dengan baik, Uji Hausman akan gagal menangkap selisih yang sebenarnya. Oleh karena itu, memastikan data sudah bersih dan spesifikasi variabel bebasnya sudah logis merupakan syarat wajib sebelum mengeksekusi uji ini.

3.5.5 Peran Uji Hausman sebagai Penentu Keputusan Akhir

Di dalam tahapan memilih model, Uji Hausman bertindak layaknya hakim tertinggi. Uji inilah yang pada akhirnya akan memaksa kita untuk memilih di antara dua pilihan yang bertolak belakang: mau hasil yang “Super Aman” (FEM) atau hasil yang “Hemat dan Fleksibel” (REM).

Jika kita ingin hasil perhitungan yang sangat aman, kebal dari gangguan, dan tidak terpengaruh oleh keunikan bawaan daerah, maka FEM adalah jawabannya. Namun, jika data kita ternyata bersih dari kebocoran dan kita butuh model yang bisa mengukur dampak dari faktor yang nilainya tetap (seperti letak geografis atau status kepulauan), maka REM adalah pilihan yang jauh lebih hemat dan praktis. Uji Hausman bertindak sebagai wasit netral yang memastikan bahwa keputusan kita memilih FEM atau REM murni didasarkan pada bukti perhitungan angka, bukan sekadar tebak-tebakan atau selera peneliti semata.

3.5.6 Langkah Alternatif: Transisi Menuju Uji LM

Uji Hausman adalah jalur yang wajib dilewati apabila model FEM berhasil menang melawan model “pukul rata” (CEM) pada pertandingan pertama (yaitu Uji Chow). Pertanyaannya: bagaimana jika pada Uji Chow tadi, justru model CEM yang keluar sebagai pemenang?

Jika CEM yang menang di tahap awal, peneliti tidak boleh langsung bersorak dan mengambil kesimpulan untuk menutup skripsi. Kita masih punya satu kewajiban terakhir, yaitu kita tetap harus mengadu sang pemenang awal (CEM) dengan model REM. Masalahnya, instrumen Uji Chow dan Uji Hausman tidak dirancang untuk memimpin pertandingan antara CEM melawan REM. Oleh karena itu, kita membutuhkan satu “wasit pengganti” untuk memimpin pertandingan alternatif ini.

Wasit pamungkas inilah yang bernama Uji Lagrange Multiplier (LM). Kita akan membedah cara kerja Uji LM ini di sub-bab berikutnya agar seluruh proses pemilihan model kita benar-benar tuntas, aman, dan tidak bisa dibantah oleh dosen penguji mana pun.

3.6 Uji Lagrange Multiplier (LM) Breusch-Pagan: Pemilihan antara CEM dan REM

3.6.1 Landasan Logika Uji LM dalam Data Kewilayahan

Uji Lagrange Multiplier (LM) atau yang sering disebut sebagai Uji Breusch-Pagan, adalah uji pelengkap yang sangat penting dalam rangkaian analisis data panel. Jika kita ibaratkan Uji Chow adalah babak penyisihan pertama (mengadu CEM vs FEM), maka Uji LM ini adalah “pertandingan alternatif” yang dirancang khusus untuk mengadu model “pukul rata” (CEM) secara langsung melawan model variasi acak (REM).Pertanyaan dasar yang ingin dijawab oleh uji ini sangatlah sederhana: “Apakah perbedaan antar-daerah itu benar-benar ada dan cukup penting untuk dihitung menggunakan REM, ataukah perbedaannya sangat kecil sehingga kita cukup menggunakan cara pukul rata (CEM) saja?” Untuk menjawabnya, Uji LM menetapkan sebuah pernyataan awal (Hipotesis Nol) yang dituliskan dengan simbol yang sangat ringkas:\[H_0 : \sigma_\mu^2 = 0\]\[H_1 : \sigma_\mu^2 > 0\] Simbol ini sangat mudah dibaca. \(H_0\) (angkanya 0) berarti tidak ada perbedaan karakteristik yang berarti di antara wilayah-wilayah yang diteliti. Semuanya dianggap mirip, sehingga model CEM sudah lebih dari cukup. Sebaliknya, \(H_1\) (angkanya lebih dari 0) menandakan bahwa setiap wilayah memiliki variasi atau keunikan yang tidak bisa diabaikan, sehingga kita wajib menggunakan REM.

3.6.2 Cara Kerja Komputasi

Untuk menentukan mana yang lebih baik antara CEM dan REM, Uji LM berfokus pada evaluasi sisa tingkat kesalahan (residual) dari model CEM. Logikanya begini: Uji ini akan melihat seberapa banyak kesalahan tebakan yang dihasilkan ketika kita memaksa semua daerah dianggap sama persis. Jika tingkat kesalahannya ternyata menumpuk dan polanya sangat beragam antar-daerah, itu adalah bukti nyata bahwa pendekatan “pukul rata” telah gagal.

Perhitungan matematis untuk melacak tumpukan kesalahan ini sebenarnya sangat panjang dan berlapis. Namun, peneliti sama sekali tidak perlu membuang waktu menghitungnya secara manual. Semua beban perhitungan rumit ini diserahkan kepada perangkat lunak analisis data, seperti perintah plmtest() jika menggunakan RStudio. Saat kita menjalankan perintah tersebut, sistem akan langsung memberikan angka hasil akhir, dan tugas peneliti murni hanya membaca serta mengartikan angka tersebut.

3.6.3 Cara Membaca Hasil Uji dan Implikasinya pada Kebijakan

Cara menentukan pemenang pada Uji LM sama persis dengan aturan main pada uji-uji sebelumnya, yaitu dengan melihat nilai probabilitas (p-value) yang dihasilkan oleh perangkat lunak. Batas kewajaran yang digunakan adalah 5% atau 0.05.

Jika p-value < 0.05, maka perbedaan antar-daerah terbukti sangat nyata. Pemenangnya adalah REM.
Jika p-value > 0.05, maka perbedaan daerah terbukti tidak penting. Pemenangnya adalah CEM.

Mari kita ambil contoh nyata dalam kajian ekonomi regional. Misalnya, kita sedang meneliti tingkat kemiskinan di berbagai kabupaten/kota di Sulawesi. Jika Uji LM menghasilkan angka p-value yang sangat kecil atau mendekati nol (misalnya p-value < 0.001, yang pada keluaran perangkat lunak sering tertulis 0.000), ini adalah alarm bahwa perbedaan karakteristik (seperti apakah kabupaten itu di pesisir, di pegunungan, atau kualitas institusinya) sangatlah berdampak pada kemiskinan. Memaksakan model CEM akan membuat rekomendasi kebijakan kita salah sasaran. Sebaliknya, jika p-value menunjukkan angka 0.18, berarti karakteristik antar-kabupaten tersebut tidak terlalu berbeda tajam, sehingga model CEM yang sederhana sudah cukup aman untuk dijadikan dasar kebijakan

3.6.4 Rangkuman Tiga Serangkai Penentu Model

Dengan hadirnya Uji LM, maka lengkaplah sudah tiga alat uji yang menjadi penentu mutlak dalam ekonometrika data panel. Ketiganya memiliki tugas dan porsi pertandingannya masing-masing yang tidak boleh tertukar:

Uji Chow: Bertugas memimpin pertandingan tahap awal antara CEM melawan FEM.
Uji Hausman: Bertugas memimpin babak final (mendeteksi bias) antara FEM melawan REM.
Uji LM: Bertugas memimpin pertandingan alternatif antara CEM melawan REM.

Peneliti sama sekali tidak disarankan untuk hanya mengandalkan satu uji saja. Untuk mendapatkan model regresi yang benar-benar tidak bisa dibantah, peneliti harus menjalankan uji-uji ini secara berurutan sesuai alur, dan membaca keseluruhan hasilnya sebagai satu kesatuan cerita yang utuh.

3.6.5 Fungsi Uji LM sebagai Pengunci Keputusan

Keberadaan Uji LM sangatlah krusial sebagai alat pengunci atau validasi. Bayangkan jika pada Uji Chow sebelumnya, model CEM berhasil mengalahkan FEM. Kita tidak boleh langsung berhenti di situ. Kita harus tetap menguji CEM melawan REM menggunakan Uji LM.

Uji LM ini bertindak sebagai alat pengecekan ganda (double check) untuk memastikan secara matematis bahwa pendekatan variasi acak (REM) memang tidak bisa memberikan perbaikan yang lebih baik daripada regresi linier biasa (CEM). Dengan lolos dari Uji LM, barulah model akhir tersebut sah untuk digunakan.

3.6.6 Kesimpulan Pemilihan Model dan Transisi ke Uji Asumsi Klasik

Rangkaian panjang dari Uji Chow, Uji Hausman, hingga Uji LM pada akhirnya hanya akan menghasilkan satu nama model pemenang (entah itu CEM, FEM, atau REM). Namun, mendapatkan model pemenang ini bukanlah akhir dari perjalanan penyusunan metodologi skripsi.

Setelah kita menetapkan model mana yang terbaik, kita memiliki satu kewajiban terakhir: memastikan kesehatan data yang digunakan. Ibarat sebuah mobil pembalap yang sudah terpilih, kita tetap harus mengecek kondisi mesinnya sebelum digunakan melaju di sirkuit. Pengecekan kesehatan mesin data inilah yang dikenal dengan istilah Validasi Asumsi Klasik. Pada bab selanjutnya, analisis akan bergeser sepenuhnya untuk mendiagnosis apakah data kita terjangkit “penyakit” statistik (seperti multikolinearitas atau heteroskedastisitas) dan bagaimana cara mengobatinya agar kesimpulan yang dihasilkan benar-benar akurat.

BAB 4: ASUMSI KLASIK & VALIDASI MODEL

4.1 Review Asumsi Klasik OLS dalam Konteks Data Panel: Relevansi dan Modifikasi

4.1.1 Fondasi Teoritis Asumsi Gauss-Markov dan Adaptasinya pada Struktur Panel

Dalam ekonometrika klasik, estimator Ordinary Least Squares (OLS) dianggap sebagai Best Linear Unbiased Estimator (BLUE) apabila seluruh asumsi Gauss-Markov terpenuhi. Asumsi-asumsi fundamental tersebut meliputi: (1) linearitas dalam parameter, (2) random sampling, (3) tidak ada multikolinearitas sempurna, (4) eksogenitas strict \(E[u_{it} | X_{i1}, \dots, X_{iT}] = 0\), (5) homoskedastisitas \(Var(u_{it} | X_{it}) = \sigma^2\), dan (6) tidak ada autokorelasi serial \(Cov(u_{it}, u_{is} | X_{it}, X_{is}) = 0\) untuk \(t \neq s\). Namun, ketika diterapkan pada data panel dengan struktur \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), asumsi-asumsi ini memerlukan modifikasi substantif akibat dekomposisi error menjadi komponen individu \(\mu_i\) dan idiosinkratik \(\nu_{it}\).

Pertama, asumsi random sampling dalam konteks panel tidak lagi berarti observasi \((i,t)\) independen dan identik terdistribusi (i.i.d.), melainkan observasi dalam dimensi waktu untuk unit yang sama berkorelasi melalui komponen \(\mu_i\). Kedua, asumsi homoskedastisitas harus dievaluasi secara terpisah untuk variasi antar-individu dan variasi dalam individu, karena heterogenitas kapasitas fiskal atau skala usaha dapat menghasilkan varians error yang berbeda antar-unit. Ketiga, asumsi tidak ada autokorelasi serial menjadi lebih kompleks: meskipun \(\nu_{it}\) mungkin tidak berkorelasi, keberadaan \(\mu_i\) yang konstan terhadap waktu secara otomatis menciptakan korelasi positif antar-observasi dalam unit yang sama, dengan koefisien korelasi intra-kelas \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\). Oleh karena itu, validasi asumsi klasik dalam data panel tidak dapat direplikasi secara mekanis dari prosedur cross-section atau time-series murni, melainkan memerlukan pendekatan diagnostik yang disesuaikan dengan struktur error komponen.

4.1.2 Multikolinearitas dalam Data Panel: Sumber, Deteksi, dan Implikasi terhadap Estimasi

Multikolinearitas merujuk pada kondisi di mana dua atau lebih variabel bebas dalam model regresi memiliki korelasi linier yang tinggi, sehingga menyulitkan identifikasi pengaruh marginal masing-masing variabel. Dalam data panel, sumber multikolinearitas dapat berasal dari tiga mekanisme. Pertama, korelasi spasial antar-variabel pada level agregat, misalnya PDRB per kapita dan IPM yang cenderung bergerak bersama antar-provinsi akibat faktor pembangunan yang sama. Kedua, korelasi temporal dalam dimensi waktu, seperti inflasi dan suku bunga yang sering kali sinkron dalam respons terhadap kebijakan moneter. Ketiga, interaksi antara variasi within dan between, di mana variabel yang memiliki pola perubahan serupa baik antar-unit maupun dalam unit sepanjang waktu dapat menghasilkan matriks korelasi yang tinggi secara keseluruhan.

Deteksi multikolinearitas dalam panel dapat dilakukan melalui tiga pendekatan komplementer. Pendekatan pertama adalah matriks korelasi pairwise antar-variabel bebas, dihitung baik pada level pooled, within, maupun between untuk mengidentifikasi sumber korelasi dominan. Pendekatan kedua adalah Variance Inflation Factor (VIF), yang dihitung sebagai \(VIF_j = 1 / (1 - R_j^2)\) di mana \(R_j^2\) adalah koefisien determinasi dari regresi variabel \(X_j\) terhadap seluruh variabel bebas lainnya. Konvensi empiris menyatakan bahwa VIF > 10 mengindikasikan multikolinearitas problematik. Pendekatan ketiga adalah Condition Number, yaitu rasio antara nilai eigen terbesar dan terkecil dari matriks \(\mathbf{X}'\mathbf{X}\), dengan nilai > 30 menandakan ketidakstabilan numerik. Implikasi multikolinearitas terhadap estimasi panel meliputi: (1) inflasi standar error koefisien \(\hat{\beta}_j\), sehingga daya uji statistik menurun; (2) ketidakstabilan tanda dan magnitudo koefisien terhadap penambahan atau pengurangan variabel; dan (3) kesulitan interpretasi elastisitas parsial karena efek variabel saling tumpang-tindih. Namun, penting dicatat bahwa multikolinearitas tidak menggerogoti konsistensi estimator OLS, melainkan hanya mengurangi presisi inferensi.

4.1.3 Heteroskedastisitas dalam Konteks Panel: Struktur, Diagnostik, dan Konsekuensi Inferensial

Heteroskedastisitas terjadi ketika varians error \(Var(u_{it} | X_{it})\) tidak konstan melainkan bervariasi terhadap nilai variabel bebas atau karakteristik unit. Dalam data panel, heteroskedastisitas dapat muncul dalam tiga bentuk struktural. Pertama, heteroskedastisitas antar-individu, di mana unit dengan skala ekonomi lebih besar (misalnya provinsi dengan PDRB tinggi) memiliki varians error yang lebih besar akibat kompleksitas dinamika yang tidak termodelkan. Kedua, heteroskedastisitas dalam dimensi waktu, misalnya volatilitas error yang meningkat selama periode krisis ekonomi. Ketiga, heteroskedastisitas kombinasi, di mana varians error bergantung pada interaksi antara karakteristik individu dan periode waktu, seperti \(Var(u_{it}) = \sigma^2 \cdot Z_{it}^\gamma\) dengan \(Z_{it}\) sebagai variabel penjelas heteroskedastisitas.

Diagnostik heteroskedastisitas dalam panel memerlukan pendekatan yang mempertimbangkan struktur error komponen. Uji Breusch-Pagan untuk data panel menguji hipotesis nol homoskedastisitas dengan meregresikan kuadrat residual \(\hat{u}_{it}^2\) terhadap variabel penjelas yang diduga mempengaruhi varians, kemudian menghitung statistik LM yang berdistribusi \(\chi^2\) dengan derajat kebebasan sesuai jumlah variabel uji. Uji White yang dimodifikasi untuk panel memasukkan juga kuadrat dan interaksi variabel untuk mendeteksi bentuk heteroskedastisitas non-linier. Uji Glejser, yang meregresikan nilai absolut residual \(|\hat{u}_{it}|\) terhadap variabel penjelas, lebih robust terhadap deviasi normalitas. Konsekuensi heteroskedastisitas terhadap inferensi panel meliputi: (1) estimator OLS tetap tidak bias dan konsisten, namun tidak efisien; (2) matriks kovarians estimator yang konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid; dan (3) pemilihan model berdasarkan kriteria informasi seperti AIC/BIC dapat terdistorsi. Oleh karena itu, deteksi dan koreksi heteroskedastisitas menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel.

4.1.4 Autokorelasi dalam Dimensi Time-Series Panel: Mekanisme, Pengujian, dan Tantangan Spesifik

Autokorelasi serial merujuk pada korelasi antara error pada periode yang berbeda dalam unit yang sama, yaitu \(Cov(u_{it}, u_{is}) \neq 0\) untuk \(t \neq s\). Dalam data panel, autokorelasi dapat muncul melalui dua mekanisme utama. Pertama, autokorelasi dalam komponen idiosinkratik \(\nu_{it}\), misalnya akibat persistensi guncangan ekonomi atau keterlambatan penyesuaian perilaku yang tidak sepenuhnya tertangkap oleh variabel bebas. Kedua, autokorelasi semu yang dihasilkan oleh keberadaan komponen individu \(\mu_i\) yang konstan terhadap waktu: meskipun \(\nu_{it}\) tidak berkorelasi serial, observasi dalam unit yang sama akan memiliki korelasi positif sebesar \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\) akibat shared \(\mu_i\). Distingsi antara kedua mekanisme ini krusial karena implikasi metodologisnya berbeda: autokorelasi dalam \(\nu_{it}\) memerlukan koreksi standar error atau spesifikasi dinamis, sedangkan korelasi akibat \(\mu_i\) sudah tertangani oleh transformasi Within pada Fixed Effect Model.

Pengujian autokorelasi dalam panel menghadapi tantangan unik. Uji Durbin-Watson konvensional tidak valid karena dirancang untuk time-series murni dengan satu unit. Uji Wooldridge untuk autokorelasi panel menguji hipotesis nol tidak ada autokorelasi serial orde pertama dalam \(\nu_{it}\) dengan memanfaatkan residual dari estimasi First-Difference, kemudian menghitung statistik yang berdistribusi normal asimtotik. Uji Breusch-Godfrey yang dimodifikasi untuk panel memungkinkan pengujian autokorelasi hingga orde tertentu dengan meregresikan residual terhadap lag residual dan variabel bebas. Tantangan spesifik meliputi: (1) dalam konfigurasi Large-N/Small-T, daya uji autokorelasi sering kali rendah akibat keterbatasan variasi temporal; (2) autokorelasi dapat terkonfusi dengan heteroskedastisitas atau cross-sectional dependence, sehingga diagnostik harus dilakukan secara simultan; dan (3) koreksi autokorelasi melalui penambahan lag variabel terikat dalam model dinamis dapat menginduksi bias Nickell pada short panel. Oleh karena itu, interpretasi hasil uji autokorelasi dalam panel harus disertai dengan sensitivity analysis terhadap konfigurasi dimensi dan spesifikasi model.

4.1.5 Interaksi Pelanggaran Asumsi dan Pendekatan Diagnostik Terintegrasi

Dalam praktik empiris, pelanggaran asumsi klasik jarang terjadi secara terisolasi; multikolinearitas, heteroskedastisitas, dan autokorelasi sering kali muncul bersamaan dan saling berinteraksi, sehingga pendekatan diagnostik yang terpisah-pisah dapat menghasilkan kesimpulan yang misleading. Sebagai ilustrasi, multikolinearitas tinggi dapat menginflasi residual yang kemudian terdeteksi sebagai heteroskedastisitas palsu; autokorelasi yang tidak terkontrol dapat menyebabkan estimasi varians error yang bias, yang pada gilirannya mempengaruhi uji multikolinearitas; dan heteroskedastisitas yang bervariasi terhadap waktu dapat termanifestasi sebagai autokorelasi semu dalam residual. Oleh karena itu, protokol diagnostik yang rigor dalam data panel harus bersifat terintegrasi dan iteratif.

Pendekatan terintegrasi dimulai dengan estimasi model awal (CEM, FEM, atau REM) berdasarkan prosedur seleksi model Bab 3, kemudian melakukan diagnostik simultan terhadap ketiga asumsi menggunakan residual dari model terpilih. Jika terdeteksi pelanggaran, peneliti menerapkan koreksi yang sesuai (seperti robust standard errors, transformasi variabel, atau spesifikasi model alternatif), lalu mengestimasi ulang model dan mengulangi diagnostik hingga asumsi terpenuhi atau pelanggaran tersisa tidak lagi mengancam validitas inferensi substantif. Software ekonometrika modern seperti Stata, R (paket plm/lmtest), atau EViews menyediakan perintah terintegrasi untuk diagnostik panel, misalnya xttest3 untuk heteroskedastisitas, xtserial untuk autokorelasi, dan vif untuk multikolinearitas dalam konteks panel. Namun, otomatisasi software tidak menggantikan pemahaman teoritis: peneliti harus tetap mengevaluasi apakah koreksi yang diterapkan sesuai dengan mekanisme pelanggaran yang terdeteksi dan konteks substantif penelitian.

4.1.6 Transisi ke Prosedur Pengujian Formal: Dari Diagnostik ke Inferensi yang Robust

Pemahaman mendalam terhadap adaptasi asumsi klasik dalam konteks data panel bukan berakhir pada identifikasi pelanggaran, melainkan menjadi fondasi untuk menerapkan prosedur pengujian formal yang menghasilkan inferensi statistik yang robust. Setelah diagnostik awal mengidentifikasi potensi masalah multikolinearitas, heteroskedastisitas, atau autokorelasi, peneliti harus melanjutkan ke pengujian formal dengan statistik yang distribusinya telah dimodifikasi untuk struktur panel. Untuk multikolinearitas, interpretasi VIF dan Condition Number harus mempertimbangkan sumber variasi (within vs between) yang dimanfaatkan oleh model terpilih. Untuk heteroskedastisitas, uji Breusch-Pagan atau White untuk panel harus diterapkan pada residual dari estimator yang konsisten (FEM atau REM), bukan pada residual Pooled OLS yang bias. Untuk autokorelasi, uji Wooldridge atau Breusch-Godfrey panel harus memperhitungkan kemungkinan korelasi intra-kelas akibat komponen \(\mu_i\).

Lebih lanjut, ketika pelanggaran asumsi terkonfirmasi, peneliti tidak boleh berhenti pada pelaporan masalah, melainkan harus menerapkan teknik remedial yang sesuai: transformasi variabel atau ridge regression untuk multikolinearitas; robust standard errors (Clustered, Driscoll-Kraay) atau Feasible GLS untuk heteroskedastisitas; dan koreksi Newey-West atau spesifikasi dynamic panel untuk autokorelasi. Bab selanjutnya akan mengupas secara mendalam prosedur pengujian multikolinearitas dalam data panel, termasuk interpretasi VIF, matriks korelasi within-between, serta strategi mitigasi ketika kolinearitas tinggi terdeteksi, sehingga peneliti dapat menghasilkan estimasi yang presisi dan inferensi yang kredibel dalam konteks penelitian empiris yang rigorous.

4.2 Uji Multikolinearitas: VIF, Tolerance, dan Matriks Korelasi antar Variabel Bebas

4.2.1 Konsep Multikolinearitas dalam Konteks Data Panel: Definisi dan Sumber Masalah

Multikolinearitas merupakan kondisi statistika di mana terdapat korelasi linier yang kuat antara dua atau lebih variabel bebas dalam model regresi. Dalam konteks data panel, permasalahan ini menjadi lebih kompleks karena struktur data yang menggabungkan dimensi cross-section (\(i\)) dan time series (\(t\)). Secara formal, multikolinearitas terjadi ketika matriks \(\mathbf{X}'\mathbf{X}\) mendekati singular, sehingga inversinya \((\mathbf{X}'\mathbf{X})^{-1}\) menjadi tidak stabil dan menghasilkan varians estimator \(\hat{\beta}\) yang sangat besar.

Dalam data panel, sumber multikolinearitas dapat berasal dari tiga mekanisme utama. Pertama, korelasi spasial antar-variabel pada level agregat, misalnya antara PDRB per kapita dan Indeks Pembangunan Manusia (IPM) yang cenderung bergerak bersama antar-provinsi akibat faktor pembangunan yang sama. Kedua, korelasi temporal dalam dimensi waktu, seperti inflasi dan suku bunga kebijakan yang sering kali sinkron dalam respons terhadap siklus moneter. Ketiga, interaksi antara variasi within dan between, di mana variabel yang memiliki pola perubahan serupa baik antar-unit maupun dalam unit sepanjang waktu dapat menghasilkan matriks korelasi pooled yang tinggi secara keseluruhan. Penting untuk dicatat bahwa multikolinearitas tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, melainkan hanya mengurangi presisi inferensi melalui inflasi standar error, sehingga daya uji statistik menurun dan interpretasi elastisitas parsial menjadi tidak stabil.

4.2.2 Diagnostik Multikolinearitas: Matriks Korelasi Pairwise dan Interpretasinya

Langkah awal dalam mendeteksi multikolinearitas adalah melalui pemeriksaan matriks korelasi pairwise antar-variabel bebas. Dalam data panel, matriks ini dapat dihitung pada tiga level: pooled (seluruh observasi \(N \times T\)), within (setelah transformasi demeaning), dan between (berdasarkan rata-rata unit \(\bar{X}_i\)). Koefisien korelasi Pearson \(r_{jk}\) antara variabel \(X_j\) dan \(X_k\) dihitung sebagai: \[r_{jk} = \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} (X_{jit} - \bar{X}_j)(X_{kit} - \bar{X}_k)}{\sqrt{\sum_{i=1}^{N} \sum_{t=1}^{T} (X_{jit} - \bar{X}_j)^2 \sum_{i=1}^{N} \sum_{t=1}^{T} (X_{kit} - \bar{X}_k)^2}}\] Konvensi empiris menyatakan bahwa nilai \(|r_{jk}| > 0.8\) mengindikasikan potensi multikolinearitas problematik. Namun, korelasi pairwise yang rendah tidak menjamin tidak adanya multikolinearitas, karena masalah ini dapat muncul dari kombinasi linier tiga variabel atau lebih (multikolinearitas sempurna atau near-perfect). Oleh karena itu, matriks korelasi hanya berfungsi sebagai diagnostik awal, dan peneliti wajib melanjutkan ke metode yang lebih robust seperti Variance Inflation Factor (VIF).

4.2.3 Variance Inflation Factor (VIF): Formulasi, Perhitungan, dan Ambang Batas Kritis

Variance Inflation Factor (VIF) merupakan indikator kuantitatif paling umum untuk mengukur tingkat multikolinearitas. Untuk setiap variabel bebas \(X_j\), VIF dihitung dengan meregresikan \(X_j\) terhadap seluruh variabel bebas lainnya dalam model, kemudian menggunakan koefisien determinasi \(R_j^2\) dari regresi tersebut: \[VIF_j = \frac{1}{1 - R_j^2}\] Nilai VIF mengukur seberapa besar varians estimator \(\hat{\beta}_j\) terinflasi akibat korelasi dengan variabel bebas lainnya. Konvensi interpretasi VIF adalah sebagai berikut: (1) \(VIF_j < 5\) menunjukkan multikolinearitas rendah dan dapat diabaikan; (2) \(5 \leq VIF_j < 10\) mengindikasikan multikolinearitas moderat yang memerlukan perhatian; (3) \(VIF_j \geq 10\) menandakan multikolinearitas tinggi yang problematik dan memerlukan tindakan remedial. Dalam data panel, perhitungan VIF harus dilakukan pada residual dari model terpilih (FEM atau REM), bukan pada data pooled mentah, agar hasil diagnostik mencerminkan struktur error yang sesungguhnya.

4.2.4 Tolerance dan Condition Number: Pelengkap Diagnostik Multikolinearitas

Selain VIF, dua indikator tambahan yang sering digunakan adalah Tolerance dan Condition Number. Tolerance didefinisikan sebagai kebalikan dari VIF: \[\text{Tolerance}_j = 1 - R_j^2 = \frac{1}{VIF_j}\] Nilai Tolerance yang rendah (misalnya \(< 0.1\)) mengindikasikan bahwa variabel \(X_j\) hampir dapat diprediksi secara linier dari variabel bebas lainnya, sehingga kontribusinya yang unik terhadap penjelasan variabel terikat menjadi minimal. Condition Number (\(\kappa\)) dihitung sebagai rasio antara nilai eigen terbesar (\(\lambda_{\max}\)) dan terkecil (\(\lambda_{\min}\)) dari matriks \(\mathbf{X}'\mathbf{X}\): \[\kappa = \sqrt{\frac{\lambda_{\max}}{\lambda_{\min}}}\] Nilai \(\kappa > 30\) umumnya dianggap menandakan ketidakstabilan numerik akibat multikolinearitas. Dalam implementasi software seperti Stata, R (paket car), atau EViews, ketiga indikator ini (VIF, Tolerance, Condition Number) sering dilaporkan secara simultan, memungkinkan peneliti untuk melakukan triangulasi diagnostik dan mengambil keputusan yang lebih informed mengenai kebutuhan remediasi.

4.2.5 Strategi Remedial: Transformasi Variabel, Ridge Regression, dan Penghapusan Selektif

Ketika multikolinearitas terdeteksi, peneliti dapat menerapkan beberapa strategi remedial yang disesuaikan dengan konteks penelitian. Pertama, transformasi variabel, seperti pembentukan rasio atau selisih antar-variabel yang berkorelasi tinggi (misalnya \(X_1/X_2\) atau \(X_1 - X_2\)), dapat mengurangi redundansi informasi sambil mempertahankan substansi ekonomi. Kedua, ridge regression, yang menambahkan konstanta positif \(k\) pada diagonal matriks \(\mathbf{X}'\mathbf{X}\) sebelum inversi: \[\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}'\mathbf{X} + k\mathbf{I})^{-1}\mathbf{X}'\mathbf{y}\] Teknik ini mengorbankan unbiasedness untuk mendapatkan varians yang lebih kecil, sehingga sering menghasilkan prediksi yang lebih stabil meskipun interpretasi koefisien menjadi kurang intuitif. Ketiga, penghapusan selektif variabel yang memiliki VIF tertinggi, dengan pertimbangan teoritis bahwa variabel tersebut tidak esensial bagi pertanyaan penelitian. Strategi ini harus dilakukan dengan hati-hati untuk menghindari bias spesifikasi. Dalam data panel, peneliti juga dapat mempertimbangkan pendekatan Hybrid Model atau Correlated Random Effects yang memungkinkan estimasi efek variabel time-invariant sambil mengurangi ketergantungan pada variasi within yang mungkin terkolinear.

4.2.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Uji Heteroskedastisitas

Multikolinearitas yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Koefisien yang tidak stabil akibat inflasi standar error dapat menghasilkan rekomendasi yang sensitif terhadap perubahan kecil dalam spesifikasi model atau sampel data. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, multikolinearitas antara IPM dan variabel pendidikan dapat menyebabkan elastisitas kemiskinan terhadap investasi manusia terestimasi dengan presisi rendah, sehingga sulit menentukan prioritas alokasi anggaran secara optimal. Oleh karena itu, diagnostik dan remediasi multikolinearitas bukan sekadar prosedur teknis, melainkan prasyarat etis untuk menghasilkan bukti empiris yang dapat dipertanggungjawabkan dalam perumusan kebijakan publik.

Setelah memastikan bahwa multikolinearitas telah tertangani atau tidak mengancam validitas inferensi substantif, peneliti harus melanjutkan ke pengujian asumsi klasik berikutnya, yaitu heteroskedastisitas. Dalam data panel, heteroskedastisitas dapat muncul dalam bentuk yang lebih kompleks akibat struktur error komponen \(\mu_i + \nu_{it}\), sehingga memerlukan pendekatan diagnostik dan koreksi yang disesuaikan dengan karakteristik dimensi \(N\) dan \(T\). Bab selanjutnya akan mengupas secara mendalam prosedur pengujian heteroskedastisitas dalam data panel, termasuk uji Breusch-Pagan, White, dan Glejser yang dimodifikasi untuk konteks panel, serta teknik remedial seperti robust standard errors dan Feasible GLS yang menjamin inferensi yang valid meskipun asumsi homoskedastisitas dilanggar.

4.3 Uji Heteroskedastisitas: Metode Glejser, Breusch-Pagan, dan White untuk Panel

4.3.1 Konsep Heteroskedastisitas dalam Data Panel: Definisi dan Sumber Pelanggaran

Heteroskedastisitas merupakan kondisi statistika di mana varians dari komponen error \(u_{it}\) dalam model regresi tidak konstan melainkan bervariasi terhadap nilai variabel bebas atau karakteristik unit observasi. Dalam konteks data panel dengan spesifikasi \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), heteroskedastisitas dapat muncul dalam tiga bentuk struktural yang memerlukan penanganan berbeda. Pertama, heteroskedastisitas antar-individu (between-unit heteroskedasticity), di mana unit dengan skala ekonomi lebih besar (misalnya provinsi dengan PDRB tinggi atau perusahaan kapitalisasi besar) memiliki varians error \(\sigma_i^2\) yang lebih besar akibat kompleksitas dinamika yang tidak termodelkan. Kedua, heteroskedastisitas dalam dimensi waktu (within-unit heteroskedasticity), misalnya volatilitas error yang meningkat selama periode krisis ekonomi atau perubahan kebijakan struktural. Ketiga, heteroskedastisitas kombinasi, di mana varians error bergantung pada interaksi antara karakteristik individu dan periode waktu, seperti \(Var(u_{it}) = \sigma^2 \cdot Z_{it}^\gamma\) dengan \(Z_{it}\) sebagai variabel penjelas heteroskedastisitas.

Sumber heteroskedastisitas dalam penelitian panel ekonomi Indonesia sering kali bersifat substantif. Dalam studi determinan kemiskinan menggunakan data 38 provinsi, provinsi dengan kapasitas fiskal tinggi mungkin memiliki varians error lebih kecil karena stabilitas kebijakan, sementara provinsi dengan ketergantungan transfer pusat tinggi menunjukkan volatilitas residual lebih besar. Dalam panel mikro rumah tangga, heterogenitas preferensi risiko atau akses informasi dapat menghasilkan varians konsumsi yang berbeda antar-kelompok pendapatan. Pelanggaran homoskedastisitas tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, Fixed Effect, atau Random Effect, namun menyebabkan matriks kovarians estimator konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid. Oleh karena itu, deteksi dan koreksi heteroskedastisitas menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel.

4.3.2 Uji Breusch-Pagan untuk Data Panel: Formulasi dan Prosedur Implementasi

Uji Breusch-Pagan (BP) merupakan prosedur diagnostik paling umum untuk mendeteksi heteroskedastisitas dalam regresi linier, yang dapat dimodifikasi untuk konteks data panel. Prosedur ini menguji hipotesis nol homoskedastisitas \(H_0: Var(u_{it} | X_{it}) = \sigma^2\) terhadap alternatif bahwa varians error bergantung linier pada variabel penjelas. Langkah-langkah implementasi uji BP untuk panel adalah sebagai berikut:

Pertama, estimasi model panel terpilih (CEM, FEM, atau REM) dan peroleh residual \(\hat{u}_{it}\). Kedua, kuadratkan residual tersebut menjadi \(\hat{u}_{it}^2\). Ketiga, regresikan \(\hat{u}_{it}^2\) terhadap variabel bebas yang diduga mempengaruhi varians, biasanya menggunakan spesifikasi yang sama dengan model utama atau subset variabel yang relevan: \[\hat{u}_{it}^2 = \delta_0 + \delta_1 X_{1it} + \delta_2 X_{2it} + \dots + \delta_k X_{kit} + e_{it}\] Keempat, hitung statistik LM (Lagrange Multiplier) sebagai \(LM = \frac{1}{2} \cdot N \cdot T \cdot R^2\), di mana \(R^2\) adalah koefisien determinasi dari regresi auxiliar tersebut. Di bawah \(H_0\), statistik LM berdistribusi asimtotik chi-square dengan derajat kebebasan sama dengan jumlah variabel penjelas dalam regresi auxiliar: \(LM \sim \chi^2_k\).

Dalam implementasi software seperti Stata, perintah xttest3 setelah estimasi FEM atau REM secara otomatis melakukan uji Breusch-Pagan untuk heteroskedastisitas antar-individu. Di R, paket plm menyediakan fungsi bptest() yang dapat diaplikasikan pada objek model panel. Peneliti harus memastikan bahwa residual yang digunakan berasal dari estimator yang konsisten (misalnya residual Within untuk FEM), karena penggunaan residual dari model yang salah spesifikasi dapat menghasilkan statistik uji yang misleading.

4.3.3 Uji White yang Dimodifikasi untuk Panel: Deteksi Heteroskedastisitas Non-Linier

Uji White merupakan generalisasi dari uji Breusch-Pagan yang mampu mendeteksi bentuk heteroskedastisitas non-linier dengan memasukkan kuadrat dan interaksi variabel bebas ke dalam regresi auxiliar. Dalam konteks data panel, formulasi uji White dimodifikasi untuk mengakomodasi struktur error komponen. Spesifikasi regresi auxiliar menjadi: \[\hat{u}_{it}^2 = \delta_0 + \sum_{j=1}^{k} \delta_j X_{jit} + \sum_{j=1}^{k} \sum_{l=j}^{k} \delta_{jl} X_{jit} X_{lit} + e_{it}\] di mana istilah kuadrat \(X_{jit}^2\) dan interaksi \(X_{jit} X_{lit}\) memungkinkan deteksi pola heteroskedastisitas yang lebih kompleks, seperti varians yang meningkat secara kuadratik terhadap pendapatan atau berinteraksi antara investasi dan infrastruktur.

Statistik uji White untuk panel dihitung sebagai \(W = N \cdot T \cdot R^2\) dari regresi auxiliar tersebut, yang berdistribusi \(\chi^2\) dengan derajat kebebasan sama dengan jumlah parameter dalam regresi auxiliar (tidak termasuk konstanta). Keunggulan uji White terletak pada kemampuannya mendeteksi berbagai bentuk heteroskedastisitas tanpa memerlukan spesifikasi eksplisit fungsi varians. Namun, kelemahannya adalah konsumsi derajat kebebasan yang tinggi akibat penambahan banyak variabel kuadrat dan interaksi, sehingga daya uji dapat menurun dalam konfigurasi Large-N/Small-T. Peneliti disarankan untuk menerapkan uji White hanya ketika terdapat indikasi teoretis atau empiris bahwa heteroskedastisitas bersifat non-linier, atau sebagai robustness check setelah uji Breusch-Pagan.

4.3.4 Uji Glejser untuk Panel: Pendekatan Robust terhadap Deviasi Normalitas

Uji Glejser merupakan alternatif diagnostik heteroskedastisitas yang lebih robust terhadap deviasi dari asumsi normalitas error. Berbeda dengan Breusch-Pagan dan White yang menggunakan kuadrat residual, uji Glejser meregresikan nilai absolut residual \(|\hat{u}_{it}|\) terhadap variabel bebas yang diduga mempengaruhi varians: \[|\hat{u}_{it}| = \delta_0 + \delta_1 X_{1it} + \delta_2 X_{2it} + \dots + \delta_k X_{kit} + e_{it}\] Hipotesis nol homoskedastisitas diuji melalui signifikansi koefisien \(\delta_j\) dalam regresi tersebut. Jika minimal satu \(\delta_j\) signifikan secara statistik, maka \(H_0\) ditolak dan disimpulkan terdapat heteroskedastisitas.

Keunggulan uji Glejser dalam konteks panel mikro Indonesia terletak pada ketahanannya terhadap outlier dan distribusi residual yang skewed, yang sering ditemui dalam data konsumsi rumah tangga atau pendapatan individu. Dalam implementasi praktis, peneliti dapat menerapkan uji Glejser secara terpisah untuk setiap variabel bebas atau secara simultan untuk seluruh vektor \(X_{it}\). Software seperti Stata memungkinkan implementasi manual melalui perintah gen abs_res = abs(residual) diikuti regresi panel dengan variabel dependen abs_res. Interpretasi hasil uji Glejser harus mempertimbangkan bahwa signifikansi koefisien mencerminkan hubungan linier antara nilai absolut residual dan variabel bebas, sehingga pola heteroskedastisitas non-linier mungkin tidak terdeteksi.

4.3.5 Teknik Remedial: Robust Standard Errors, Feasible GLS, dan Transformasi Variabel

Ketika heteroskedastisitas terkonfirmasi, peneliti dapat menerapkan beberapa teknik remedial yang disesuaikan dengan konteks penelitian dan konfigurasi dimensi panel. Pertama, robust standard errors atau heteroskedasticity-consistent covariance matrix estimator (HCCME) merupakan pendekatan paling umum yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Untuk data panel, Clustered Standard Errors (Liang-Zeger) mengelompokkan observasi berdasarkan unit cross-section \(i\), sehingga mengizinkan heteroskedastisitas antar-individu dan autokorelasi dalam dimensi waktu: \[\widehat{Var}_{cluster}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{i=1}^{N} \mathbf{X}_i' \hat{\mathbf{u}}_i \hat{\mathbf{u}}_i' \mathbf{X}_i \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(\mathbf{X}_i\) dan \(\hat{\mathbf{u}}_i\) adalah matriks desain dan vektor residual untuk unit \(i\).

Kedua, Feasible Generalized Least Squares (FGLS) memodelkan struktur heteroskedastisitas secara eksplisit melalui estimasi fungsi varians \(\hat{\sigma}_i^2\), kemudian menerapkan transformasi weighted untuk menghasilkan estimator yang efisien. Prosedur FGLS untuk heteroskedastisitas antar-individu melibatkan: (1) estimasi model awal untuk memperoleh residual \(\hat{u}_{it}\); (2) estimasi \(\hat{\sigma}_i^2 = \frac{1}{T_i} \sum_{t=1}^{T_i} \hat{u}_{it}^2\); (3) transformasi variabel \(Y_{it}^* = Y_{it} / \hat{\sigma}_i\) dan \(X_{kit}^* = X_{kit} / \hat{\sigma}_i\); (4) estimasi model pada data tertransformasi. Ketiga, transformasi variabel seperti logaritma atau Box-Cox dapat menstabilkan varians ketika heteroskedastisitas bersifat proporsional terhadap level variabel, misalnya \(Var(u_{it}) \propto Y_{it}^2\).

Namun demikian, pada data agregat makro 38 provinsi, memaksakan transformasi atau perbaikan matematis ini berisiko menghilangkan keaslian ketimpangan wilayah tersebut. Oleh karena itu, pelaporan hasil tanpa modifikasi (baseline) sering kali dipertahankan dalam analisis kewilayahan, dengan menjadikan ketiadaan robust standard error sebagai batasan penelitian yang wajar

4.3.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Uji Autokorelasi

Heteroskedastisitas yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Standar error yang bias dapat menyebabkan kesimpulan yang salah mengenai signifikansi variabel kebijakan, sehingga rekomendasi alokasi anggaran atau desain program menjadi tidak optimal. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, heteroskedastisitas antar-provinsi dapat menyebabkan interval kepercayaan untuk elastisitas kemiskinan terhadap IPM terlalu sempit untuk provinsi maju dan terlalu lebar untuk provinsi tertinggal, sehingga prioritas intervensi tidak tepat sasaran.

Setelah memastikan bahwa heteroskedastisitas telah tertangani melalui diagnostik dan remediasi yang sesuai, peneliti harus melanjutkan ke pengujian asumsi klasik berikutnya, yaitu autokorelasi. Dalam data panel, autokorelasi dapat muncul melalui mekanisme yang lebih kompleks akibat struktur error komponen \(\mu_i + \nu_{it}\) dan korelasi temporal dalam dimensi time series. Bab selanjutnya akan mengupas secara mendalam prosedur pengujian autokorelasi dalam data panel, termasuk uji Wooldridge, Breusch-Godfrey yang dimodifikasi, serta pertimbangan khusus mengenai korelasi intra-kelas akibat komponen efek individu, sehingga peneliti dapat menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous.

4.4 Uji Autokorelasi: Pertimbangan Khusus pada Dimensi Time-Series Data Panel

4.4.1 Konsep Autokorelasi dalam Data Panel: Definisi dan Sumber Pelanggaran

Autokorelasi serial merujuk pada kondisi statistika di mana terdapat korelasi antara komponen error pada periode waktu yang berbeda dalam unit cross-section yang sama, yaitu \(Cov(u_{it}, u_{is}) \neq 0\) untuk \(t \neq s\). Dalam konteks data panel dengan spesifikasi \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), autokorelasi dapat muncul melalui dua mekanisme struktural yang memerlukan penanganan berbeda. Pertama, autokorelasi dalam komponen idiosinkratik \(\nu_{it}\), yang terjadi akibat persistensi guncangan ekonomi, keterlambatan penyesuaian perilaku, atau omitted variables yang bersifat dinamis dan tidak sepenuhnya tertangkap oleh variabel bebas dalam model. Kedua, autokorelasi semu yang dihasilkan oleh keberadaan komponen individu \(\mu_i\) yang konstan terhadap waktu: meskipun \(\nu_{it}\) tidak berkorelasi serial, observasi dalam unit yang sama akan memiliki korelasi positif sebesar \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\) akibat shared \(\mu_i\), yang dikenal sebagai koefisien korelasi intra-kelas (intra-class correlation coefficient).

Dalam penelitian ekonomi Indonesia menggunakan data panel, sumber autokorelasi sering kali bersifat substantif. Pada panel makro provinsi, kebijakan fiskal atau moneter yang bersifat persisten dapat menciptakan korelasi error antar-periode dalam wilayah yang sama. Pada panel mikro rumah tangga, preferensi konsumsi atau norma sosial yang stabil sepanjang waktu dapat menghasilkan residual yang berkorelasi serial. Pelanggaran asumsi tidak ada autokorelasi tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, Fixed Effect, atau Random Effect, namun menyebabkan matriks kovarians estimator konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid. Oleh karena itu, deteksi dan koreksi autokorelasi menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel, terutama ketika dimensi waktu \(T\) cukup panjang untuk memungkinkan identifikasi pola temporal yang sistematis.

4.4.2 Uji Wooldridge untuk Autokorelasi Panel: Formulasi dan Prosedur Implementasi

Uji Wooldridge merupakan prosedur diagnostik paling umum dan robust untuk mendeteksi autokorelasi serial orde pertama dalam data panel, yang dirancang khusus untuk mengakomodasi struktur error komponen. Prosedur ini menguji hipotesis nol tidak ada autokorelasi serial \(H_0: Cov(\nu_{it}, \nu_{i,t-1}) = 0\) terhadap alternatif bahwa terdapat korelasi positif atau negatif antara residual pada periode berurutan. Langkah-langkah implementasi uji Wooldridge untuk panel adalah sebagai berikut:

Pertama, estimasi model panel terpilih (CEM, FEM, atau REM) dan peroleh residual \(\hat{u}_{it}\). Kedua, lakukan transformasi first-difference pada residual untuk menghilangkan efek individu \(\mu_i\): \(\Delta \hat{u}_{it} = \hat{u}_{it} - \hat{u}_{i,t-1}\). Ketiga, regresikan \(\Delta \hat{u}_{it}\) terhadap lag pertama residual dalam level, \(\hat{u}_{i,t-1}\), dengan spesifikasi: \[\Delta \hat{u}_{it} = \delta_0 + \delta_1 \hat{u}_{i,t-1} + e_{it}\] Keempat, uji signifikansi koefisien \(\delta_1\) menggunakan statistik t atau Wald. Di bawah \(H_0\), nilai \(\delta_1\) seharusnya mendekati \(-0.5\) untuk balanced panel dengan \(T\) besar; deviasi signifikan dari nilai ini mengindikasikan keberadaan autokorelasi. Statistik uji Wooldridge berdistribusi asimtotik normal standar: \(W \sim N(0, 1)\).

Dalam implementasi software seperti Stata, perintah xtserial setelah estimasi model panel secara otomatis melakukan uji Wooldridge dan melaporkan statistik serta probabilitasnya. Di R, paket plm menyediakan fungsi pbgtest() atau pdwtest() yang dapat diaplikasikan pada objek model panel untuk mendeteksi autokorelasi. Peneliti harus memastikan bahwa residual yang digunakan berasal dari estimator yang konsisten (misalnya residual Within untuk FEM), karena penggunaan residual dari model yang salah spesifikasi dapat menghasilkan statistik uji yang misleading.

4.4.3 Uji Breusch-Godfrey yang Dimodifikasi untuk Panel: Deteksi Autokorelasi Orde Tinggi

Uji Breusch-Godfrey (BG) merupakan generalisasi dari uji Durbin-Watson yang mampu mendeteksi autokorelasi hingga orde \(p\) tertentu, yang dapat dimodifikasi untuk konteks data panel. Dalam spesifikasi panel, uji BG menguji hipotesis nol tidak ada autokorelasi serial hingga orde \(p\): \(H_0: Cov(\nu_{it}, \nu_{i,t-j}) = 0\) untuk \(j = 1, 2, \dots, p\). Prosedur implementasi uji BG untuk panel melibatkan langkah-langkah berikut:

Pertama, estimasi model panel terpilih dan peroleh residual \(\hat{u}_{it}\). Kedua, regresikan residual tersebut terhadap variabel bebas asli dalam model ditambah dengan \(p\) lag residual: \[\hat{u}_{it} = \delta_0 + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \rho_1 \hat{u}_{i,t-1} + \dots + \rho_p \hat{u}_{i,t-p} + e_{it}\] Ketiga, hitung statistik LM (Lagrange Multiplier) sebagai \(LM = (NT) \cdot R^2\), di mana \(R^2\) adalah koefisien determinasi dari regresi auxiliar tersebut. Di bawah \(H_0\), statistik LM berdistribusi asimtotik chi-square dengan derajat kebebasan sama dengan jumlah lag yang diuji: \(LM \sim \chi^2_p\).

Keunggulan uji BG terletak pada kemampuannya mendeteksi autokorelasi orde tinggi tanpa memerlukan spesifikasi eksplisit struktur korelasi temporal. Namun, kelemahannya adalah konsumsi derajat kebebasan yang tinggi akibat penambahan banyak variabel lag residual, sehingga daya uji dapat menurun dalam konfigurasi Large-N/Small-T. Peneliti disarankan untuk menerapkan uji BG hanya ketika terdapat indikasi teoretis atau empiris bahwa autokorelasi bersifat persisten melampaui orde pertama, atau sebagai robustness check setelah uji Wooldridge.

4.4.4 Pertimbangan Khusus: Korelasi Intra-Kelas Akibat Komponen Efek Individu

Salah satu tantangan unik dalam mendeteksi autokorelasi data panel adalah membedakan antara autokorelasi sejati dalam komponen idiosinkratik \(\nu_{it}\) dengan korelasi semu yang dihasilkan oleh komponen efek individu \(\mu_i\). Dalam model dengan dekomposisi error \(u_{it} = \mu_i + \nu_{it}\), keberadaan \(\mu_i\) yang konstan terhadap waktu secara otomatis menciptakan korelasi positif antar-observasi dalam unit yang sama, dengan koefisien korelasi intra-kelas: \[\rho = \frac{\sigma_\mu^2}{\sigma_\mu^2 + \sigma_\nu^2}\] Nilai \(\rho\) yang tinggi dapat termanifestasi sebagai autokorelasi semu dalam residual pooled, meskipun \(\nu_{it}\) sendiri tidak berkorelasi serial. Distingsi antara kedua mekanisme ini krusial karena implikasi metodologisnya berbeda: autokorelasi dalam \(\nu_{it}\) memerlukan koreksi standar error atau spesifikasi model dinamis, sedangkan korelasi akibat \(\mu_i\) sudah tertangani secara deterministik oleh transformasi Within pada Fixed Effect Model.

Dalam praktik diagnostik, peneliti disarankan untuk menerapkan uji autokorelasi pada residual Within (untuk FEM) atau residual GLS (untuk REM), bukan pada residual Pooled OLS, agar hasil uji mencerminkan pola korelasi dalam komponen idiosinkratik yang sesungguhnya. Selain itu, interpretasi hasil uji harus mempertimbangkan konfigurasi dimensi panel: dalam Large-N/Small-T, daya uji autokorelasi sering kali rendah akibat keterbatasan variasi temporal, sehingga peneliti perlu melengkapi diagnostik dengan pemeriksaan visual plot residual terhadap waktu atau analisis korelogram per unit.

4.4.5 Teknik Remedial: Koreksi Newey-West, Dynamic Panel, dan Clustered Standard Errors

Ketika autokorelasi terkonfirmasi, peneliti dapat menerapkan beberapa teknik remedial yang disesuaikan dengan konteks penelitian dan konfigurasi dimensi panel. Pertama, koreksi standar error Newey-West atau heteroskedasticity and autocorrelation consistent (HAC) covariance matrix estimator merupakan pendekatan paling umum yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Untuk data panel, koreksi Newey-West memungkinkan autokorelasi hingga lag tertentu dalam dimensi waktu sambil mengizinkan heteroskedastisitas antar-individu: \[\widehat{Var}_{HAC}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{t=1}^{T} \mathbf{X}_t' \hat{\mathbf{u}}_t \hat{\mathbf{u}}_t' \mathbf{X}_t + \sum_{j=1}^{m} w_j \sum_{t=j+1}^{T} (\mathbf{X}_t' \hat{\mathbf{u}}_t \hat{\mathbf{u}}_{t-j}' \mathbf{X}_{t-j} + \mathbf{X}_{t-j}' \hat{\mathbf{u}}_{t-j} \hat{\mathbf{u}}_t' \mathbf{X}_t) \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(w_j\) adalah bobot kernel (misalnya Bartlett atau Parzen) dan \(m\) adalah lag truncation parameter.

Kedua, spesifikasi Dynamic Panel Model dengan menyertakan lag variabel terikat sebagai regressor dapat secara eksplisit menangkap persistensi temporal: \(Y_{it} = \rho Y_{i,t-1} + \beta_1 X_{1it} + \dots + \mu_i + \nu_{it}\). Namun, estimator konvensional pada model dinamis short panel dapat mengalami bias Nickell, sehingga peneliti disarankan untuk menerapkan Generalized Method of Moments (GMM) seperti Arellano-Bond atau Blundell-Bond yang menggunakan instrumen lag untuk mengatasi endogenitas. Ketiga, Clustered Standard Errors pada level unit cross-section \(i\) mengelompokkan observasi berdasarkan individu, sehingga mengizinkan autokorelasi dalam dimensi waktu dan heteroskedastisitas antar-individu secara simultan, menjadi pilihan yang robust dan mudah diimplementasikan dalam software modern.

4.4.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Sintesis Validasi Model

Autokorelasi yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Standar error yang bias dapat menyebabkan kesimpulan yang salah mengenai signifikansi variabel kebijakan, sehingga rekomendasi alokasi anggaran atau desain program menjadi tidak optimal. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, autokorelasi dalam residual dapat menyebabkan interval kepercayaan untuk elastisitas kemiskinan terhadap IPM terlalu sempit, sehingga peneliti overconfident dalam merekomendasikan intervensi berdasarkan temuan yang sebenarnya kurang presisi.

Setelah memastikan bahwa autokorelasi telah tertangani melalui diagnostik dan remediasi yang sesuai, peneliti telah menyelesaikan rangkaian validasi asumsi klasik dalam data panel: multikolinearitas, heteroskedastisitas, dan autokorelasi. Bab selanjutnya akan mengupas secara mendalam sintesis prosedur validasi model, strategi integrasi diagnostik asumsi dengan seleksi model terbaik, serta protokol komprehensif untuk menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous. Transisi dari pengujian asumsi klasik ke sintesis validasi model menandai pergeseran dari prosedur diagnostik teknis ke inferensi substantif yang menjamin konsistensi, efisiensi, dan relevansi kebijakan dari hasil penelitian panel.

4.5 Teknik Remedial: Transformasi Variabel, Weighted Estimation, dan Robust Standard Error

4.5.1 Prinsip Umum Remediasi dalam Ekonometrika Data Panel

Ketika diagnostik asumsi klasik mengidentifikasi pelanggaran terhadap homoskedastisitas, autokorelasi, atau multikolinearitas dalam data panel, peneliti tidak boleh mengabaikan temuan tersebut atau melanjutkan estimasi dengan spesifikasi awal yang bermasalah. Prinsip umum remediasi dalam ekonometrika panel berakar pada upaya untuk menghasilkan estimator yang tetap konsisten, efisien, dan inferensi statistik yang valid meskipun asumsi klasik tidak terpenuhi secara sempurna. Pendekatan remedial dapat diklasifikasikan ke dalam tiga strategi utama: (1) transformasi variabel untuk menstabilkan varians atau mengurangi kolinearitas; (2) weighted estimation atau estimasi terbobot yang mengakomodasi struktur heteroskedastisitas atau korelasi error; dan (3) robust standard errors yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Pemilihan strategi remedial harus didasarkan pada mekanisme pelanggaran yang terdeteksi, konfigurasi dimensi panel (\(N\) versus \(T\)), dan tujuan substantif penelitian. Penting untuk dicatat bahwa remediasi bukan sekadar prosedur teknis, melainkan bagian integral dari proses inferensi kausal yang bertanggung jawab, sehingga setiap koreksi harus didokumentasikan secara transparan dan divalidasi melalui sensitivity analysis.

4.5.2 Transformasi Variabel: Logaritma, Box-Cox, dan Diferensiasi untuk Menangani Heteroskedastisitas

Transformasi variabel merupakan pendekatan remedial paling intuitif untuk menangani heteroskedastisitas yang bersifat proporsional terhadap level variabel. Dalam data panel, transformasi logaritmik sering diterapkan pada variabel berskala monetary atau count data untuk menstabilkan varians dan menginterpretasikan koefisien sebagai elastisitas. Spesifikasi model setelah transformasi logaritmik dapat dituliskan sebagai: \[\ln Y_{it} = \alpha + \beta_1 \ln X_{1it} + \beta_2 \ln X_{2it} + \dots + \beta_k \ln X_{kit} + \mu_i + \nu_{it}\] di mana koefisien \(\beta_j\) mencerminkan elastisitas \(Y\) terhadap \(X_j\), yaitu persentase perubahan \(Y\) untuk setiap satu persen perubahan \(X_j\). Transformasi logaritmik juga memiliki keunggulan tambahan dalam mereduksi skewness distribusi dan meminimalkan pengaruh outlier ekstrem.

Untuk kasus heteroskedastisitas yang lebih kompleks, transformasi Box-Cox menawarkan fleksibilitas parametrik melalui keluarga transformasi: \[Y_{it}^{(\lambda)} = \begin{cases} \frac{Y_{it}^\lambda - 1}{\lambda} & \text{jika } \lambda \neq 0 \\ \ln Y_{it} & \text{jika } \lambda = 0 \end{cases}\] Parameter \(\lambda\) dapat diestimasi secara numerik melalui maximum likelihood untuk menemukan transformasi optimal yang menstabilkan varians residual. Dalam implementasi praktis, peneliti sering memulai dengan \(\lambda = 0\) (log transform) sebagai baseline, kemudian menguji robustness hasil terhadap nilai \(\lambda\) alternatif.

Transformasi diferensiasi atau first-differencing juga dapat digunakan untuk menghilangkan komponen efek individu \(\mu_i\) sekaligus mengurangi persistensi autokorelasi dalam dimensi waktu. Spesifikasi first-difference model dinyatakan sebagai: \[\Delta Y_{it} = \beta_1 \Delta X_{1it} + \beta_2 \Delta X_{2it} + \dots + \beta_k \Delta X_{kit} + \Delta \nu_{it}\] di mana \(\Delta Z_{it} = Z_{it} - Z_{i,t-1}\). Pendekatan ini efektif untuk long panel dengan \(T\) cukup besar, namun dapat mengonsumsi derajat kebebasan dan mengurangi variasi within yang informatif dalam short panel.

4.5.3 Weighted Estimation: Feasible GLS untuk Heteroskedastisitas Antar-Individu

Feasible Generalized Least Squares (FGLS) merupakan pendekatan weighted estimation yang secara eksplisit memodelkan struktur heteroskedastisitas atau korelasi error untuk menghasilkan estimator yang efisien. Dalam konteks heteroskedastisitas antar-individu, FGLS mengasumsikan bahwa varians error berbeda antar-unit namun konstan dalam dimensi waktu: \(Var(u_{it}) = \sigma_i^2\). Prosedur FGLS untuk panel melibatkan empat langkah iteratif:

Pertama, estimasi model awal menggunakan Fixed Effect atau Random Effect untuk memperoleh residual \(\hat{u}_{it}\). Kedua, estimasi varians spesifik individu melalui rata-rata kuadrat residual per unit: \[\hat{\sigma}_i^2 = \frac{1}{T_i} \sum_{t=1}^{T_i} \hat{u}_{it}^2\] Ketiga, lakukan transformasi weighted dengan membagi setiap observasi dengan estimasi standar deviasi unit: \[Y_{it}^* = \frac{Y_{it}}{\hat{\sigma}_i}, \quad X_{kit}^* = \frac{X_{kit}}{\hat{\sigma}_i}\] Keempat, estimasi model pada data tertransformasi menggunakan OLS atau Within estimator, menghasilkan koefisien \(\hat{\boldsymbol{\beta}}_{FGLS}\) yang efisien asalkan struktur heteroskedastisitas termodelkan dengan benar.

Dalam implementasi software seperti Stata, perintah xtgls atau xtpcse secara otomatis menerapkan FGLS dengan koreksi heteroskedastisitas panel. Di R, paket plm menyediakan fungsi pgls() untuk estimasi GLS panel. Peneliti harus memverifikasi konvergensi prosedur iteratif dan melakukan diagnostic check pada residual tertransformasi untuk memastikan bahwa koreksi telah efektif.

4.5.4 Robust Standard Errors: Clustered, Driscoll-Kraay, dan Newey-West untuk Inferensi yang Valid

Ketika struktur error panel melanggar asumsi homoskedastisitas atau independensi serial, robust standard errors menyediakan koreksi matriks kovarians yang memungkinkan inferensi statistik tetap valid tanpa mengubah estimator koefisien slope. Tiga pendekatan robust yang paling relevan untuk data panel adalah:

Pertama, Clustered Standard Errors (Liang-Zeger) mengelompokkan observasi berdasarkan unit cross-section \(i\), sehingga mengizinkan heteroskedastisitas antar-individu dan autokorelasi dalam dimensi waktu. Matriks kovarians clustered dihitung sebagai: \[\widehat{Var}_{cluster}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{i=1}^{N} \mathbf{X}_i' \hat{\mathbf{u}}_i \hat{\mathbf{u}}_i' \mathbf{X}_i \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(\mathbf{X}_i\) dan \(\hat{\mathbf{u}}_i\) adalah matriks desain dan vektor residual untuk unit \(i\). Pendekatan ini robust terhadap bentuk heteroskedastisitas dan autokorelasi yang tidak diketahui, asalkan korelasi error terbatas dalam unit yang sama.

Kedua, Driscoll-Kraay standard errors memperluas koreksi clustered untuk mengakomodasi cross-sectional dependence, yaitu korelasi error antar-unit yang muncul akibat spillover kebijakan atau guncangan makro bersama. Statistik ini menggunakan kernel weighting dalam dimensi waktu dan cross-section untuk menghasilkan estimasi kovarians yang konsisten bahkan ketika \(N\) dan \(T\) keduanya besar.

Ketiga, Newey-West standard errors, yang awalnya dikembangkan untuk time-series murni, dapat diadaptasi untuk panel dengan menerapkan koreksi heteroskedastisitas dan autokorelasi (HAC) pada residual within atau GLS. Parameter lag truncation \(m\) dalam koreksi Newey-West harus dipilih secara hati-hati, umumnya menggunakan aturan praktis \(m \approx \sqrt[4]{T}\) atau kriteria informasi seperti AIC.

Dalam praktik, Clustered Standard Errors menjadi pilihan default untuk sebagian besar aplikasi panel karena keseimbangan antara robustness dan kemudahan implementasi. Software modern seperti Stata (vce(cluster id)), R (vcovHC(..., type = "HC1", cluster = "group")), atau EViews (opsi Cross-section Weights) menyediakan implementasi yang terintegrasi.

Meskipun metode perbaikan ini tersedia di berbagai perangkat lunak, implementasinya pada data panel provinsi harus dilakukan secara hati-hati. Jika perbaikan matematis dikhawatirkan justru mengaburkan realitas ketimpangan ekonomi yang asli di lapangan, peneliti dapat memilih untuk tidak menerapkannya dan mencatat hal tersebut sebagai saran untuk pengembangan metodologi pada penelitian lanjutan.

4.5.5 Penanganan Multikolinearitas: Ridge Regression, Principal Component, dan Variabel Komposit

Ketika diagnostik mengidentifikasi multikolinearitas tinggi (VIF > 10) antar-variabel bebas dalam model panel, peneliti dapat menerapkan tiga strategi remedial yang disesuaikan dengan konteks penelitian. Pertama, Ridge Regression menambahkan konstanta positif \(k\) pada diagonal matriks \(\mathbf{X}'\mathbf{X}\) sebelum inversi: \[\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}'\mathbf{X} + k\mathbf{I})^{-1}\mathbf{X}'\mathbf{y}\] Parameter regularisasi \(k\) dapat dipilih melalui cross-validation atau kriteria informasi seperti Generalized Cross-Validation (GCV). Ridge regression mengorbankan unbiasedness untuk mendapatkan varians estimator yang lebih kecil, sehingga sering menghasilkan prediksi yang lebih stabil meskipun interpretasi koefisien menjadi kurang intuitif.

Kedua, Principal Component Analysis (PCA) mereduksi dimensi variabel bebas dengan mengekstraksi komponen utama yang saling ortogonal. Komponen utama pertama menangkap variasi terbesar dalam data, komponen kedua menangkap variasi terbesar yang ortogonal terhadap komponen pertama, dan seterusnya. Regresi kemudian dilakukan pada komponen utama terpilih, dan koefisien asli dapat direkonstruksi melalui transformasi balik. Pendekatan ini efektif ketika multikolinearitas muncul dari redundansi informasi antar-variabel, namun memerlukan interpretasi substantif yang hati-hati karena komponen utama sering kali tidak memiliki makna ekonomi yang langsung.

Ketiga, pembentukan variabel komposit atau indeks melalui averaging tertimbang atau factor analysis dapat menggabungkan variabel-variabel yang berkorelasi tinggi menjadi satu konstruk laten. Misalnya, dalam studi determinan kemiskinan, variabel pendidikan seperti rata-rata lama sekolah, angka partisipasi kasar, dan rasio murid-guru dapat dikombinasikan menjadi indeks kualitas pendidikan. Pendekatan ini mempertahankan interpretasi substantif sambil mengurangi dimensi dan kolinearitas, namun memerlukan validasi konstruk melalui reliability analysis (Cronbach’s alpha) dan validity check (convergent/discriminant validity).

4.5.6 Protokol Validasi Pasca-Remediasi dan Transisi ke Sintesis Model Terbaik

Setelah menerapkan teknik remedial, peneliti wajib melakukan validasi ulang terhadap asumsi klasik untuk memastikan bahwa koreksi telah efektif dan tidak menginduksi masalah baru. Protokol validasi pasca-remediasi meliputi: (1) pengujian ulang heteroskedastisitas menggunakan Breusch-Pagan atau White test pada residual tertransformasi atau terweighted; (2) pemeriksaan autokorelasi melalui uji Wooldridge atau Breusch-Godfrey pada residual yang telah dikoreksi; (3) evaluasi multikolinearitas melalui VIF atau Condition Number pada spesifikasi final; dan (4) sensitivity analysis dengan membandingkan hasil estimator sebelum dan sesudah remediasi untuk mengidentifikasi perubahan substantif pada koefisien kunci.

Lebih lanjut, peneliti harus mendokumentasikan secara transparan prosedur remedial yang diterapkan, termasuk justifikasi teoretis, parameter tuning (seperti nilai \(k\) dalam ridge regression atau lag truncation \(m\) dalam Newey-West), dan dampak terhadap interpretasi hasil. Dokumentasi ini tidak hanya memenuhi standar etika akademik, tetapi juga memfasilitasi replikasi dan pengembangan penelitian oleh peneliti lain.

Setelah memastikan bahwa asumsi klasik telah terpenuhi atau pelanggaran tersisa tidak lagi mengancam validitas inferensi substantif, peneliti telah menyelesaikan rangkaian validasi model dalam data panel. Bab selanjutnya akan mengupas secara mendalam sintesis prosedur pemilihan model terbaik, integrasi hasil uji Chow, Hausman, dan LM dengan diagnostik asumsi klasik, serta protokol komprehensif untuk menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous. Transisi dari remediasi asumsi ke sintesis model terbaik menandai pergeseran dari prosedur teknis ke inferensi substantif yang menjamin konsistensi, efisiensi, dan relevansi kebijakan dari hasil penelitian panel.

4.6 Validasi Akhir Model: Interpretasi R-Square, F-Statistik, dan Diagnostik Residual

4.6.1 Koefisien Determinasi dalam Data Panel: \(R^2\), Adjusted \(R^2\), dan Within/Between Decomposition

Dalam ekonometrika data panel, interpretasi koefisien determinasi (\(R^2\)) memerlukan kehati-hatian khusus karena struktur data yang menggabungkan variasi antar-individu dan variasi dalam individu sepanjang waktu. Secara formal, \(R^2\) didefinisikan sebagai proporsi variasi variabel terikat \(Y_{it}\) yang dapat dijelaskan oleh variabel bebas \(\mathbf{X}_{it}\) dalam model: \[R^2 = 1 - \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} \hat{u}_{it}^2}{\sum_{i=1}^{N} \sum_{t=1}^{T} (Y_{it} - \bar{Y})^2}\] di mana \(\hat{u}_{it}\) adalah residual dari estimasi model, dan \(\bar{Y}\) adalah grand mean dari variabel terikat. Namun, dalam konteks panel, \(R^2\) dapat didekomposisi menjadi tiga komponen yang mencerminkan sumber variasi berbeda: (1) overall \(R^2\) yang mengukur kebaikan suai model terhadap seluruh variasi pooled; (2) within \(R^2\) yang mengukur seberapa baik model menjelaskan variasi dalam individu sepanjang waktu, dihitung berdasarkan data yang telah ditransformasi demeaning; dan (3) between \(R^2\) yang mengukur seberapa baik model menjelaskan variasi rata-rata antar-individu, dihitung berdasarkan data agregat per unit \(\bar{Y}_i\) dan \(\bar{X}_i\).

Adjusted \(R^2\) merupakan modifikasi dari \(R^2\) yang mengoreksi bias akibat penambahan variabel bebas, sehingga lebih konservatif dalam menilai kebaikan suai model: \[\bar{R}^2 = 1 - \frac{(NT - 1)}{(NT - k - 1)} (1 - R^2)\] di mana \(k\) adalah jumlah variabel bebas. Dalam Fixed Effect Model, adjusted \(R^2\) within sering kali menjadi indikator utama karena model ini hanya memanfaatkan variasi within untuk estimasi koefisien. Peneliti disarankan untuk melaporkan ketiga jenis \(R^2\) secara transparan, disertai interpretasi yang sesuai dengan sumber variasi yang dimanfaatkan estimator, agar pembaca dapat menilai secara komprehensif kekuatan prediktif model dalam konteks substantif penelitian.

4.6.2 Uji F Statistik dalam Panel: Signifikansi Simultan dan Interpretasi dalam Konteks Kebijakan

Uji F statistik dalam data panel menguji hipotesis nol bahwa seluruh koefisien slope dalam model sama dengan nol secara simultan, yaitu \(H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0\), terhadap alternatif bahwa minimal satu \(\beta_j \neq 0\). Statistik F dihitung sebagai rasio antara mean square regression (MSR) dan mean square error (MSE): \[F = \frac{MSR}{MSE} = \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} (\hat{Y}_{it} - \bar{Y})^2 / k}{\sum_{i=1}^{N} \sum_{t=1}^{T} \hat{u}_{it}^2 / (NT - k - 1)}\] Di bawah \(H_0\), statistik F berdistribusi F dengan derajat kebebasan \((k, NT - k - 1)\). Jika nilai probabilitas (p-value) statistik F lebih kecil dari tingkat signifikansi \(\alpha\) (misalnya 0.05), maka \(H_0\) ditolak, yang berarti variabel bebas secara bersama-sama memiliki pengaruh signifikan terhadap variabel terikat.

Dalam konteks penelitian kebijakan, interpretasi uji F memiliki implikasi substantif yang penting. Misalnya, dalam studi determinan kemiskinan menggunakan data panel 38 provinsi, jika uji F menghasilkan p-value = 0.000, maka peneliti memiliki bukti kuat bahwa kombinasi variabel seperti IPM, pengangguran, investasi pemerintah, dan akses infrastruktur secara simultan mempengaruhi tingkat kemiskinan. Namun, signifikansi simultan tidak menjamin bahwa setiap variabel individu signifikan; oleh karena itu, hasil uji F harus dilengkapi dengan uji parsial (t-test) untuk mengidentifikasi variabel mana yang secara individual berkontribusi terhadap model. Komunikasi hasil yang transparan mengenai signifikansi simultan dan parsial akan meningkatkan utilitas penelitian bagi perumusan kebijakan yang tepat sasaran.

4.6.3 Diagnostik Residual: Pemeriksaan Normalitas, Pola, dan Outlier dalam Data Panel

Validasi akhir model panel memerlukan pemeriksaan menyeluruh terhadap residual \(\hat{u}_{it}\) untuk memastikan bahwa asumsi klasik terpenuhi dan tidak terdapat pola sistematis yang mengindikasikan misspesifikasi model. Diagnostik residual dalam panel meliputi tiga aspek utama. Pertama, uji normalitas residual untuk memvalidasi asumsi distribusi error yang diperlukan untuk inferensi statistik berbasis uji t dan F. Uji Jarque-Bera (JB) menghitung statistik berdasarkan skewness dan kurtosis residual: \[JB = \frac{NT}{6} \left( S^2 + \frac{(K - 3)^2}{4} \right)\] di mana \(S\) adalah skewness dan \(K\) adalah kurtosis. Di bawah \(H_0\) normalitas, JB berdistribusi \(\chi^2_2\). Jika p-value JB > 0.05, residual dianggap berdistribusi normal.

Kedua, pemeriksaan pola residual melalui plot residual terhadap nilai fitted (\(\hat{Y}_{it}\)) atau terhadap waktu untuk mendeteksi heteroskedastisitas, autokorelasi, atau non-linearitas yang tidak tertangkap model. Dalam data panel, plot residual per unit cross-section juga informatif untuk mengidentifikasi unit dengan pola error yang anomali. Ketiga, identifikasi outlier melalui metode seperti studentized residual atau Cook’s distance yang dimodifikasi untuk panel. Observasi dengan studentized residual \(|r_{it}| > 3\) atau Cook’s distance yang ekstrem dapat mempengaruhi estimasi koefisien secara tidak proporsional dan memerlukan investigasi substantif: apakah outlier mencerminkan fenomena ekonomi yang genuine atau kesalahan pengukuran data.

4.6.4 Validasi Konsistensi Model: Sensitivity Analysis dan Robustness Check

Setelah model final dipilih dan asumsi klasik divalidasi, peneliti wajib melakukan sensitivity analysis untuk memastikan bahwa hasil estimasi robust terhadap perubahan spesifikasi, sampel, atau asumsi metodologis. Prosedur sensitivity analysis dalam panel meliputi: (1) estimasi ulang model dengan subset sampel berbeda, misalnya mengecualikan unit dengan karakteristik ekstrem atau periode dengan guncangan makro, untuk menguji stabilitas koefisien; (2) substitusi variabel penjelas dengan proksi alternatif yang mengukur konstruk substantif yang sama, untuk menguji robustness terhadap measurement error; (3) penambahan atau pengurangan variabel kontrol untuk menguji apakah koefisien variabel kunci berubah secara substantif; dan (4) perbandingan hasil estimator alternatif, misalnya membandingkan Fixed Effect dengan Correlated Random Effects atau estimasi dengan clustered standard errors versus heteroskedasticity-robust standard errors.

Robustness check juga mencakup evaluasi terhadap asumsi pemilihan model. Misalnya, jika Random Effect Model dipilih berdasarkan uji Hausman, peneliti dapat melaporkan hasil estimasi Fixed Effect sebagai perbandingan, disertai diskusi mengenai implikasi perbedaan koefisien terhadap interpretasi substantif. Dalam konteks penelitian kebijakan, sensitivity analysis bukan sekadar prosedur teknis, melainkan prasyarat etis untuk menghasilkan rekomendasi yang tidak sensitif terhadap asumsi metodologis yang arbitrer. Dokumentasi transparan mengenai seluruh prosedur robustness check akan meningkatkan kredibilitas dan replikabilitas penelitian.

4.6.5 Interpretasi Hasil Akhir: Dari Koefisien Statistik ke Implikasi Substantif Kebijakan

Interpretasi hasil akhir model panel harus menjembatani temuan statistik dengan relevansi substantif bagi perumusan kebijakan. Koefisien \(\hat{\beta}_j\) yang signifikan secara statistik harus diinterpretasikan dalam konteks elastisitas, marginal effect, atau dampak kausal yang bermakna secara ekonomi. Misalnya, jika \(\hat{\beta}_{IPM} = -0.45\) dengan signifikansi dalam model Fixed Effect untuk determinan kemiskinan, maka interpretasi substantifnya adalah: “Setiap kenaikan satu poin IPM di dalam provinsi yang sama sepanjang waktu dikaitkan dengan penurunan 0.45 persen poin tingkat kemiskinan, setelah mengontrol karakteristik provinsi yang persisten seperti geografi dan kapasitas institusi.” Interpretasi ini menjawab pertanyaan kebijakan yang relevan: intervensi peningkatan IPM (melalui pendidikan, kesehatan, atau daya beli) memiliki potensi mengurangi kemiskinan secara kausal.

Selain interpretasi koefisien, peneliti juga harus melaporkan ukuran efek (effect size) dan interval kepercayaan untuk mengkomunikasikan presisi estimasi. Misalnya, interval kepercayaan 95% untuk \(\beta_{IPM}\) sebesar \([-0.62, -0.28]\) mengindikasikan bahwa dampak penurunan kemiskinan akibat peningkatan IPM berkisar antara 0.28 hingga 0.62 persen poin, dengan tingkat keyakinan 95%. Informasi ini krusial bagi pembuat kebijakan untuk menilai risiko dan ketidakpastian dalam perencanaan program. Lebih lanjut, peneliti disarankan untuk menyajikan simulasi kebijakan (policy simulation), misalnya memproyeksikan perubahan tingkat kemiskinan jika IPM dinaikkan sebesar 5 poin di seluruh provinsi, sehingga hasil penelitian dapat langsung dioperasionalkan dalam desain intervensi.

4.6.6 Sintesis Validasi Model dan Transisi ke Studi Kasus Empiris

Validasi akhir model dalam ekonometrika data panel bukan merupakan akhir dari proses analitis, melainkan sintesis yang mengintegrasikan seluruh prosedur diagnostik, seleksi model, dan interpretasi substantif ke dalam kerangka inferensi yang kredibel. Protokol validasi yang rigor meliputi: (1) pemilihan model terbaik melalui uji Chow, Hausman, dan LM yang konsisten dengan konfigurasi dimensi panel dan asumsi teoritis; (2) verifikasi asumsi klasik multikolinearitas, heteroskedastisitas, dan autokorelasi melalui diagnostik yang disesuaikan dengan struktur error panel; (3) koreksi pelanggaran asumsi melalui teknik remedial seperti robust standard errors, transformasi variabel, atau Feasible GLS; (4) evaluasi kebaikan suai model melalui \(R^2\), adjusted \(R^2\), dan uji F yang diinterpretasikan sesuai sumber variasi yang dimanfaatkan estimator; dan (5) sensitivity analysis untuk memastikan robustness hasil terhadap perubahan spesifikasi atau asumsi.

Sintesis ini menjadi fondasi yang kokoh sebelum peneliti melangkah ke tahap aplikasi empiris dalam konteks penelitian yang substantif. Bab selanjutnya akan mengupas secara mendalam studi kasus kemiskinan menggunakan data panel 38 provinsi Indonesia, mencakup spesifikasi model determinan kemiskinan dengan variabel IPM dan pengangguran, prosedur estimasi dan seleksi model terbaik, interpretasi hasil dalam narasi kebijakan, serta implikasi substantif bagi perencanaan pembangunan daerah. Transisi dari validasi metodologis ke aplikasi empiris menandai pergeseran dari rigor teknis ke relevansi kebijakan yang berdampak nyata, sehingga penelitian ekonometrika data panel tidak hanya memenuhi standar akademik, tetapi juga berkontribusi pada perbaikan kesejahteraan masyarakat.

BAB 5: STUDI KASUS KEMISKINAN

5.1 Kerangka Teoritis: Hubungan IPM, Pengangguran, dan Kemiskinan dalam Perspektif Pembangunan

5.1.1 Konsep Kemiskinan Multidimensi dan Pengukurannya dalam Konteks Indonesia

Kemiskinan merupakan fenomena kompleks yang tidak dapat direduksi semata-mata pada dimensi pendapatan atau konsumsi moneter. Dalam perspektif pembangunan kontemporer, kemiskinan dipahami sebagai kondisi deprivasi multidimensi yang mencakup keterbatasan akses terhadap pendidikan, kesehatan, infrastruktur dasar, partisipasi sosial, dan ketahanan terhadap guncangan ekonomi. Badan Pusat Statistik (BPS) Indonesia mengadopsi pendekatan ganda dalam pengukuran kemiskinan: (1) kemiskinan moneter yang didasarkan pada garis kemiskinan (poverty line) yang dihitung berdasarkan kebutuhan minimum pangan dan non-pangan, dan (2) kemiskinan multidimensi yang mempertimbangkan indikator-indikator non-moneter seperti lama sekolah, akses sanitasi, kualitas perumahan, dan partisipasi dalam pengambilan keputusan rumah tangga.

Dalam konteks penelitian panel menggunakan data 38 provinsi Indonesia, variabel tingkat kemiskinan (\(POV_{it}\)) umumnya dioperasionalkan sebagai persentase penduduk yang berada di bawah garis kemiskinan pada provinsi \(i\) di tahun \(t\). Pengukuran ini memiliki keunggulan komparatif dalam hal konsistensi temporal dan comparability antar-wilayah, namun juga mengandung keterbatasan substantif: garis kemiskinan yang bersifat absolut dapat mengabaikan perbedaan biaya hidup antar-provinsi, dan pendekatan moneter tidak sepenuhnya menangkap aspek kerentanan (vulnerability) atau kemiskinan kronis (chronic poverty) yang persisten sepanjang waktu. Oleh karena itu, interpretasi hasil estimasi model panel harus selalu dikontekstualisasikan dengan batasan pengukuran ini, dan rekomendasi kebijakan perlu mempertimbangkan dimensi multidimensi kemiskinan yang tidak tertangkap oleh indikator moneter semata.

5.1.2 Indeks Pembangunan Manusia (IPM) sebagai Determinan Struktural Kemiskinan

Indeks Pembangunan Manusia (IPM) atau Human Development Index (HDI) merupakan indikator komposit yang dikembangkan oleh United Nations Development Programme (UNDP) untuk mengukur pencapaian pembangunan manusia dalam tiga dimensi dasar: (1) umur panjang dan hidup sehat yang diukur melalui harapan hidup saat lahir, (2) pengetahuan yang diukur melalui rata-rata lama sekolah dan harapan lama sekolah, dan (3) standar hidup layak yang diukur melalui pendapatan nasional bruto per kapita yang disesuaikan dengan paritas daya beli. Dalam notasi matematis, IPM untuk provinsi \(i\) pada tahun \(t\) dapat dinyatakan sebagai rata-rata geometrik dari tiga indeks dimensi: \[IPM_{it} = \sqrt[3]{I_{kesehatan,it} \times I_{pendidikan,it} \times I_{pendapatan,it}}\] di mana masing-masing indeks \(I\) dinormalisasi pada skala 0 hingga 100 berdasarkan nilai minimum dan maksimum referensi global.

Secara teoretis, IPM berpengaruh negatif terhadap tingkat kemiskinan melalui beberapa mekanisme kausal. Pertama, peningkatan akses dan kualitas pendidikan meningkatkan kapasitas produktif individu, memperluas peluang kerja formal, dan meningkatkan upah yang diterima, sehingga mengurangi proporsi penduduk yang berada di bawah garis kemiskinan. Kedua, perbaikan indikator kesehatan seperti harapan hidup dan penurunan angka kematian bayi mencerminkan akses yang lebih baik terhadap layanan kesehatan dasar, yang pada gilirannya mengurangi beban pengeluaran kesehatan katastrofik yang sering menjadi pemicu kemiskinan (health-induced poverty). Ketiga, komponen pendapatan dalam IPM secara langsung berkorelasi dengan daya beli rumah tangga, sehingga peningkatan GNI per kapita cenderung menurunkan prevalensi kemiskinan moneter. Dalam spesifikasi model ekonometrika, hubungan ini dapat diformulasikan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 X_{it} + \mu_i + \nu_{it}\] dengan hipotesis teoritis \(\beta_1 < 0\), yaitu setiap kenaikan satu poin IPM dikaitkan dengan penurunan persentase penduduk miskin, setelah mengontrol variabel lain \(X_{it}\) dan efek spesifik provinsi \(\mu_i\).

5.1.3 Pengangguran dan Mekanisme Transmisi terhadap Kemiskinan Rumah Tangga

Tingkat Pengangguran Terbuka (TPT) merupakan indikator makroekonomi kunci yang merefleksikan ketidakseimbangan antara penawaran dan permintaan tenaga kerja dalam suatu wilayah. Dalam konteks panel provinsi Indonesia, TPT didefinisikan sebagai persentase angkatan kerja yang tidak bekerja namun sedang mencari pekerjaan atau mempersiapkan usaha baru terhadap total angkatan kerja. Secara teoretis, pengangguran berpengaruh positif terhadap kemiskinan melalui tiga saluran transmisi utama. Pertama, saluran pendapatan langsung: rumah tangga dengan kepala keluarga atau anggota yang menganggur kehilangan sumber pendapatan utama, sehingga meningkatkan probabilitas jatuh ke bawah garis kemiskinan, terutama ketika tidak ada mekanisme jaring pengaman sosial yang memadai.

Kedua, saluran akumulasi modal manusia: periode pengangguran yang berkepanjangan dapat menyebabkan erosi keterampilan (skill depreciation), penurunan motivasi kerja, dan stigmatisasi sosial, yang pada gilirannya mengurangi employabilitas individu dalam jangka panjang dan menciptakan kemiskinan struktural yang persisten. Ketiga, saluran multiplier ekonomi regional: tingkat pengangguran yang tinggi dalam suatu provinsi dapat menekan permintaan agregat lokal, mengurangi investasi swasta, dan memperlambat penciptaan lapangan kerja baru, sehingga menciptakan siklus negatif yang memperburuk kondisi kemiskinan secara agregat. Dalam spesifikasi model, pengaruh TPT terhadap kemiskinan dapat dimodelkan sebagai: \[POV_{it} = \alpha + \gamma_1 TPT_{it} + \gamma_2 Z_{it} + \mu_i + \nu_{it}\] dengan hipotesis \(\gamma_1 > 0\), yaitu setiap kenaikan satu persen poin TPT dikaitkan dengan peningkatan persentase penduduk miskin, setelah mengontrol variabel lain \(Z_{it}\) dan efek spesifik provinsi \(\mu_i\).

5.1.4 Interaksi IPM dan Pengangguran: Efek Moderasi dan Heterogenitas Dampak

Hubungan antara IPM, pengangguran, dan kemiskinan tidak bersifat aditif semata, melainkan dapat dimodulasi oleh interaksi antara kedua variabel penjelas tersebut. Secara konseptual, IPM yang tinggi dapat memperkuat atau melemahkan pengaruh pengangguran terhadap kemiskinan, tergantung pada konteks struktural wilayah. Dalam provinsi dengan IPM tinggi, individu yang menganggur mungkin memiliki akses yang lebih baik terhadap tabungan, jaringan sosial, program pelatihan ulang, atau kredit mikro yang memfasilitasi transisi kembali ke pekerjaan, sehingga efek marginal pengangguran terhadap kemiskinan menjadi lebih kecil. Sebaliknya, dalam provinsi dengan IPM rendah, pengangguran dapat menjadi pintu masuk yang lebih mudah ke kemiskinan kronis akibat keterbatasan modal manusia, infrastruktur, dan institusi pendukung.

Interaksi ini dapat dimodelkan secara eksplisit melalui istilah perkalian (interaction term) dalam spesifikasi regresi: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \beta_3 (IPM_{it} \times TPT_{it}) + \delta W_{it} + \mu_i + \nu_{it}\] di mana koefisien \(\beta_3\) mengukur efek moderasi: jika \(\beta_3 < 0\), maka IPM tinggi memperlemah pengaruh positif pengangguran terhadap kemiskinan; jika \(\beta_3 > 0\), maka IPM tinggi justru memperkuat pengaruh tersebut (misalnya karena ekspektasi upah yang lebih tinggi membuat individu lebih selektif dalam menerima pekerjaan). Interpretasi koefisien dalam model dengan interaksi memerlukan kehati-hatian: efek marginal TPT terhadap \(POV\) menjadi fungsi dari level IPM, yaitu \(\frac{\partial POV_{it}}{\partial TPT_{it}} = \beta_2 + \beta_3 IPM_{it}\), sehingga peneliti disarankan untuk menyajikan marginal effects plot atau menghitung efek pada nilai IPM representatif (misalnya rata-rata, persentil 25, dan persentil 75) untuk komunikasi hasil yang lebih intuitif.

5.1.5 Kontrol Variabel dan Spesifikasi Model Lengkap untuk Analisis Determinan Kemiskinan

Selain IPM dan TPT sebagai variabel penjelas utama, spesifikasi model determinan kemiskinan dalam panel provinsi Indonesia perlu memasukkan variabel kontrol yang relevan secara teoretis untuk mengurangi bias omitted variable dan meningkatkan validitas inferensi kausal. Variabel kontrol yang lazim digunakan dalam literatur meliputi: (1) inflasi daerah (\(INF_{it}\)) yang mengukur tekanan harga terhadap daya beli rumah tangga miskin; (2) rasio ketergantungan (\(DEP_{it}\)) yang merefleksikan beban ekonomi rumah tangga akibat proporsi penduduk non-produktif; (3) akses infrastruktur dasar seperti persentase rumah tangga dengan akses listrik (\(ELEC_{it}\)) atau air bersih (\(WATER_{it}\)); (4) alokasi belanja daerah untuk program sosial (\(SOCSPEND_{it}\)) sebagai proksi intensitas intervensi kebijakan; dan (5) variabel dummy wilayah (\(REGION_i\)) untuk menangkap perbedaan struktural antara Jawa dan Luar Jawa, atau antara wilayah maju dan tertinggal.

Spesifikasi model lengkap dapat dituliskan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \beta_3 (IPM_{it} \times TPT_{it}) + \sum_{j=1}^{m} \theta_j CTRL_{jit} + \mu_i + \lambda_t + \nu_{it}\] di mana \(CTRL_{jit}\) adalah vektor \(m\) variabel kontrol, \(\mu_i\) adalah efek spesifik provinsi yang konstan terhadap waktu, \(\lambda_t\) adalah efek waktu yang konstan antar-provinsi (opsional, tergantung spesifikasi), dan \(\nu_{it}\) adalah error idiosinkratik. Pemilihan antara Fixed Effect (\(\mu_i\) berkorelasi dengan regressor) dan Random Effect (\(\mu_i\) tidak berkorelasi) akan ditentukan melalui prosedur uji formal (Chow, Hausman, LM) sebagaimana diuraikan dalam Bab 3, dengan pertimbangan bahwa karakteristik provinsi seperti geografi, budaya institusi, atau kapasitas fiskal historis sangat mungkin berkorelasi dengan variabel kebijakan seperti alokasi belanja sosial.

5.1.6 Hipotesis Penelitian dan Implikasi Substantif bagi Kebijakan Pengentasan Kemiskinan

Berdasarkan kerangka teoretis yang telah diuraikan, penelitian ini menguji dua hipotesis utama yang relevan secara kebijakan. Hipotesis pertama: IPM berpengaruh negatif dan signifikan terhadap tingkat kemiskinan provinsi, setelah mengontrol variabel lain dan efek spesifik provinsi. Implikasi kebijakan dari hipotesis ini adalah bahwa investasi dalam pembangunan manusia—melalui peningkatan akses pendidikan berkualitas, layanan kesehatan universal, dan program peningkatan pendapatan—merupakan strategi struktural yang efektif untuk mengurangi kemiskinan secara berkelanjutan, bukan sekadar intervensi jangka pendek.

Hipotesis kedua: TPT berpengaruh positif dan signifikan terhadap tingkat kemiskinan, dengan elastisitas yang mungkin bervariasi antar-provinsi tergantung pada level IPM. Implikasi kebijakan dari hipotesis ini adalah bahwa program penciptaan lapangan kerja, pelatihan vokasi, dan fasilitasi kewirausahaan harus menjadi prioritas dalam strategi pengentasan kemiskinan, khususnya di provinsi dengan tingkat pengangguran tinggi dan IPM rendah yang rentan terhadap kemiskinan struktural.

Pengujian kedua hipotesis ini menggunakan data panel 38 provinsi Indonesia akan menghasilkan bukti empiris yang dapat menginformasikan desain kebijakan pengentasan kemiskinan yang diferensiatif, responsif terhadap heterogenitas provinsi, dan berbasis pada mekanisme kausal yang teridentifikasi secara rigor. Bab selanjutnya akan menguraikan deskripsi data, sumber variabel, periode observasi, dan profil statistik deskriptif dari dataset yang digunakan dalam analisis empiris.

5.2 Deskripsi Data: Profil 38 Provinsi Indonesia (Variabel, Sumber, dan Periode Observasi)

5.2.1 Cakupan Geografis dan Administratif: 38 Provinsi sebagai Unit Analisis Cross-Section

Unit analisis dalam studi kasus ini mencakup seluruh 38 provinsi di Indonesia, yang merepresentasikan entitas administratif tingkat pertama dalam struktur pemerintahan negara kesatuan Republik Indonesia. Komposisi 38 provinsi ini mencakup 34 provinsi lama ditambah empat provinsi baru di Papua yang dibentuk melalui pemekaran wilayah, yaitu Papua Selatan, Papua Tengah, Papua Pegunungan, dan Papua Barat Daya.

Karakteristik geografis 38 provinsi Indonesia menunjukkan heterogenitas yang sangat tinggi, yang menjadi alasan fundamental penggunaan pendekatan data panel. Provinsi-provinsi di Pulau Jawa memiliki profil pembangunan yang sangat berbeda dibandingkan provinsi-provinsi di Kawasan Indonesia Timur. Variasi antar-provinsi yang kaya inilah yang menjadi sumber informasi utama bagi estimator Fixed Effect Model (FEM) nantinya untuk melibas bias omitted variables.

5.2.2 Sumber Data Resmi dan Metodologi Pengumpulan Variabel Kunci

Seluruh variabel yang digunakan bersumber dari publikasi resmi Badan Pusat Statistik (BPS). Penggunaan sumber data tunggal menjamin konsistensi metodologis dan kredibilitas hasil. Berikut adalah deskripsi rinci masing-masing variabel:

Variabel Terikat: Kemiskinan (\(POV_{it}\)) Diukur sebagai persentase atau jumlah penduduk yang berada di bawah garis kemiskinan (dalam Ribu Jiwa) pada provinsi \(i\) di tahun \(t\). Garis kemiskinan BPS dihitung berdasarkan pendekatan kebutuhan dasar (basic needs approach).
Variabel Bebas Utama 1: Indeks Pembangunan Manusia (\(IPM_{it}\)) Indikator komposit yang mengukur pencapaian pembangunan manusia dalam tiga dimensi: umur panjang/sehat, pengetahuan, dan standar hidup layak.
Variabel Bebas Utama 2: Tingkat Pengangguran Terbuka (\(TPT_{it}\)) Persentase angkatan kerja yang tidak bekerja namun sedang mencari pekerjaan atau mempersiapkan usaha. Definisi ini mengacu pada standar ILO yang diadopsi oleh BPS dalam Sakernas.

5.2.3 Periode Observasi dan Persiapan Data Panel di RStudio

Periode observasi riil dalam studi ini mencakup rentang waktu 8 tahun, yaitu 2017–2024. Pemilihan periode ini sangat krusial karena merekam transisi ekonomi wilayah secara utuh sebelum, selama, dan pasca guncangan pandemi COVID-19. Total observasi dalam dataset balanced panel ini adalah \(N \times T = 38 \times 8 = 304\) observasi.

Untuk mengoperasionalkan data ke dalam analisis ekonometrika, langkah pertama yang dilakukan adalah data wrangling (merapikan data) menggunakan komputasi R. Pendekatan tidyverse digunakan untuk merestrukturisasi format tabel dari format melebar (wide format) menjadi format memanjang (long format) yang merupakan syarat mutlak struktur data panel.

Load Library

library(plm)       # untuk regresi data panel
library(lmtest)    # untuk uji asumsi
library(car)       # untuk uji multikolinearitas
library(tidyr)     # untuk merapikan data
library(dplyr)     # untuk manipulasi data
library(ggplot2)   # untuk membuat grafik
library(knitr)     # untuk membuat tabel rapi

Import dan Persiapan Data

# Import data kemiskinan
raw1 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.29.16 WITA.csv", header=FALSE)
tahun <- as.character(raw1[3, 2:9])
df_kemiskinan <- raw1[5:nrow(raw1), 1:9]
colnames(df_kemiskinan) <- c("Provinsi", tahun)
df_kemiskinan <- df_kemiskinan %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_kemiskinan[,2:9] <- lapply(df_kemiskinan[,2:9], as.numeric)

# Import data pengangguran
raw2 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.36.26 WITA.csv", header=FALSE)
tahun2 <- as.character(raw2[2, 2:9])
df_pengangguran <- raw2[4:nrow(raw2), 1:9]
colnames(df_pengangguran) <- c("Provinsi", tahun2)
df_pengangguran <- df_pengangguran %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_pengangguran[,2:9] <- lapply(df_pengangguran[,2:9], as.numeric)

# Import data IPM
raw3 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.43.37 WITA.csv", header=FALSE)
tahun3 <- as.character(raw3[2, 2:9])
df_ipm <- raw3[3:nrow(raw3), 1:9]
colnames(df_ipm) <- c("Provinsi", tahun3)
df_ipm <- df_ipm %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_ipm[,2:9] <- lapply(df_ipm[,2:9], as.numeric)

# Ubah ke long format dan gabung
long_kemiskinan <- df_kemiskinan %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "kemiskinan") %>%
  rename(provinsi = Provinsi)

long_ipm <- df_ipm %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "ipm") %>%
  rename(provinsi = Provinsi)

long_pengangguran <- df_pengangguran %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "pengangguran") %>%
  rename(provinsi = Provinsi)

df_gabungan <- long_kemiskinan %>%
  left_join(long_ipm, by = c("provinsi", "tahun")) %>%
  left_join(long_pengangguran, by = c("provinsi", "tahun")) %>%
  mutate(tahun = as.integer(tahun)) %>%
  arrange(provinsi, tahun)

cat("Jumlah provinsi:", length(unique(df_gabungan$provinsi)), "\n")

Jumlah provinsi: 38

cat("Total baris:", nrow(df_gabungan), "\n")

Total baris: 304

Tampilan Data

Data yang digunakan adalah data panel dari 38 provinsi di Indonesia selama 8 tahun (2017–2024). Total observasi = 38 x 8 = 304 baris data.

kable(df_gabungan,
      caption = "Data Gabungan: Kemiskinan, IPM, dan Pengangguran per Provinsi",
      col.names = c("Provinsi", "Tahun", "Kemiskinan (Ribu Jiwa)", "IPM", "TPT (%)"),
      align = c("l", "c", "c", "c", "c"))

Data Gabungan: Kemiskinan, IPM, dan Pengangguran per Provinsi
Provinsi	Tahun	Kemiskinan (Ribu Jiwa)	IPM	TPT (%)
ACEH	2017	872.61	70.60	6.57
ACEH	2018	839.49	71.19	6.34
ACEH	2019	819.44	71.90	6.17
ACEH	2020	814.91	71.99	6.59
ACEH	2021	834.24	72.18	6.30
ACEH	2022	806.82	72.80	6.17
ACEH	2023	806.75	73.40	6.03
ACEH	2024	804.53	74.03	5.75
BALI	2017	180.13	74.30	1.48
BALI	2018	171.76	74.77	1.40
BALI	2019	163.85	75.38	1.57
BALI	2020	165.19	75.50	5.63
BALI	2021	201.97	75.69	5.37
BALI	2022	205.68	76.44	4.80
BALI	2023	193.78	77.10	2.69
BALI	2024	184.43	77.76	1.79
BANTEN	2017	675.04	71.42	9.28
BANTEN	2018	661.36	71.95	8.47
BANTEN	2019	654.46	72.44	8.11
BANTEN	2020	775.99	72.45	10.64
BANTEN	2021	867.23	72.72	8.98
BANTEN	2022	814.02	73.32	8.09
BANTEN	2023	826.13	73.87	7.52
BANTEN	2024	791.61	74.48	6.68
BENGKULU	2017	316.98	69.95	3.74
BENGKULU	2018	301.81	70.64	3.35
BENGKULU	2019	302.30	71.21	3.26
BENGKULU	2020	302.58	71.40	4.07
BENGKULU	2021	306.00	71.64	3.65
BENGKULU	2022	297.23	72.16	3.59
BENGKULU	2023	288.46	72.78	3.42
BENGKULU	2024	281.36	73.39	3.11
DI YOGYAKARTA	2017	488.53	78.89	3.02
DI YOGYAKARTA	2018	460.10	79.53	3.37
DI YOGYAKARTA	2019	448.47	79.99	3.18
DI YOGYAKARTA	2020	475.72	79.97	4.57
DI YOGYAKARTA	2021	506.45	80.22	4.56
DI YOGYAKARTA	2022	454.76	80.64	4.06
DI YOGYAKARTA	2023	448.47	81.07	3.69
DI YOGYAKARTA	2024	445.55	81.55	3.48
DKI JAKARTA	2017	389.69	80.06	7.14
DKI JAKARTA	2018	373.12	80.47	6.65
DKI JAKARTA	2019	365.55	80.76	6.54
DKI JAKARTA	2020	480.86	80.77	10.95
DKI JAKARTA	2021	501.92	81.11	8.50
DKI JAKARTA	2022	502.04	81.65	7.18
DKI JAKARTA	2023	477.83	82.46	6.53
DKI JAKARTA	2024	464.93	83.08	6.21
GORONTALO	2017	205.37	67.01	4.28
GORONTALO	2018	198.51	67.71	3.70
GORONTALO	2019	186.03	68.49	3.76
GORONTALO	2020	185.02	68.68	4.28
GORONTALO	2021	186.29	69.00	3.01
GORONTALO	2022	185.44	69.81	2.58
GORONTALO	2023	183.71	70.45	3.06
GORONTALO	2024	177.99	71.23	3.13
JAMBI	2017	286.55	69.99	3.87
JAMBI	2018	281.69	70.65	3.73
JAMBI	2019	274.32	71.26	4.06
JAMBI	2020	277.80	71.29	5.13
JAMBI	2021	293.86	71.63	5.09
JAMBI	2022	279.37	72.14	4.59
JAMBI	2023	280.68	72.77	4.53
JAMBI	2024	265.42	73.43	4.48
JAWA BARAT	2017	4168.44	70.69	8.22
JAWA BARAT	2018	3615.79	71.30	8.23
JAWA BARAT	2019	3399.16	72.03	8.04
JAWA BARAT	2020	3920.23	72.09	10.46
JAWA BARAT	2021	4195.34	72.45	9.82
JAWA BARAT	2022	4070.98	73.12	8.31
JAWA BARAT	2023	3888.60	73.74	7.44
JAWA BARAT	2024	3848.67	74.43	6.75
JAWA TENGAH	2017	4450.72	70.52	4.57
JAWA TENGAH	2018	3897.20	71.12	4.47
JAWA TENGAH	2019	3743.23	71.73	4.44
JAWA TENGAH	2020	3980.90	71.87	6.48
JAWA TENGAH	2021	4109.75	72.16	5.95
JAWA TENGAH	2022	3831.44	72.79	5.57
JAWA TENGAH	2023	3791.50	73.39	5.13
JAWA TENGAH	2024	3704.33	73.88	4.78
JAWA TIMUR	2017	4617.01	70.27	4.00
JAWA TIMUR	2018	4332.59	70.77	3.91
JAWA TIMUR	2019	4112.25	71.50	3.82
JAWA TIMUR	2020	4419.10	71.71	5.84
JAWA TIMUR	2021	4572.73	72.14	5.74
JAWA TIMUR	2022	4181.29	72.75	5.49
JAWA TIMUR	2023	4188.81	73.38	4.88
JAWA TIMUR	2024	3982.69	74.09	4.19
KALIMANTAN BARAT	2017	387.43	66.26	4.36
KALIMANTAN BARAT	2018	387.08	66.98	4.18
KALIMANTAN BARAT	2019	378.41	67.65	4.35
KALIMANTAN BARAT	2020	366.77	67.66	5.81
KALIMANTAN BARAT	2021	367.89	67.90	5.82
KALIMANTAN BARAT	2022	350.25	68.63	5.11
KALIMANTAN BARAT	2023	353.35	69.41	5.05
KALIMANTAN BARAT	2024	336.08	70.13	4.86
KALIMANTAN SELATAN	2017	193.92	69.65	4.77
KALIMANTAN SELATAN	2018	189.03	70.17	4.35
KALIMANTAN SELATAN	2019	192.48	70.72	4.18
KALIMANTAN SELATAN	2020	187.87	70.91	4.74
KALIMANTAN SELATAN	2021	208.11	71.28	4.95
KALIMANTAN SELATAN	2022	195.70	71.84	4.74
KALIMANTAN SELATAN	2023	188.93	72.50	4.31
KALIMANTAN SELATAN	2024	183.31	73.03	4.20
KALIMANTAN TENGAH	2017	139.16	69.79	4.23
KALIMANTAN TENGAH	2018	136.93	70.42	3.91
KALIMANTAN TENGAH	2019	134.59	70.91	4.04
KALIMANTAN TENGAH	2020	132.94	71.05	4.58
KALIMANTAN TENGAH	2021	140.04	71.25	4.53
KALIMANTAN TENGAH	2022	145.10	71.63	4.26
KALIMANTAN TENGAH	2023	142.17	72.20	4.10
KALIMANTAN TENGAH	2024	145.63	72.73	4.01
KALIMANTAN TIMUR	2017	220.17	75.12	6.91
KALIMANTAN TIMUR	2018	218.90	75.83	6.41
KALIMANTAN TIMUR	2019	219.92	76.61	5.94
KALIMANTAN TIMUR	2020	230.26	76.24	6.87
KALIMANTAN TIMUR	2021	241.77	76.88	6.83
KALIMANTAN TIMUR	2022	236.25	77.44	5.71
KALIMANTAN TIMUR	2023	231.07	78.20	5.31
KALIMANTAN TIMUR	2024	221.34	78.83	5.14
KALIMANTAN UTARA	2017	49.47	69.84	5.54
KALIMANTAN UTARA	2018	50.35	70.56	5.11
KALIMANTAN UTARA	2019	48.78	71.15	4.49
KALIMANTAN UTARA	2020	51.79	70.63	4.97
KALIMANTAN UTARA	2021	52.86	71.19	4.58
KALIMANTAN UTARA	2022	49.46	71.83	4.33
KALIMANTAN UTARA	2023	47.97	72.49	4.01
KALIMANTAN UTARA	2024	47.83	73.02	3.90
KEP. BANGKA BELITUNG	2017	74.09	69.99	3.78
KEP. BANGKA BELITUNG	2018	76.26	70.67	3.61
KEP. BANGKA BELITUNG	2019	68.38	71.30	3.58
KEP. BANGKA BELITUNG	2020	68.39	71.47	5.25
KEP. BANGKA BELITUNG	2021	72.71	71.69	5.03
KEP. BANGKA BELITUNG	2022	66.78	72.24	4.77
KEP. BANGKA BELITUNG	2023	68.69	72.85	4.56
KEP. BANGKA BELITUNG	2024	69.95	73.33	4.63
KEP. RIAU	2017	125.37	74.45	7.16
KEP. RIAU	2018	131.68	74.84	8.04
KEP. RIAU	2019	128.46	75.48	7.50
KEP. RIAU	2020	131.97	75.59	10.34
KEP. RIAU	2021	144.46	75.79	9.91
KEP. RIAU	2022	151.68	76.46	8.23
KEP. RIAU	2023	142.50	77.11	6.80
KEP. RIAU	2024	138.30	77.97	6.39
LAMPUNG	2017	1131.73	68.25	4.33
LAMPUNG	2018	1097.05	69.02	4.04
LAMPUNG	2019	1063.66	69.57	4.03
LAMPUNG	2020	1049.32	69.69	4.67
LAMPUNG	2021	1083.93	69.90	4.69
LAMPUNG	2022	1002.41	70.45	4.52
LAMPUNG	2023	970.67	71.15	4.23
LAMPUNG	2024	941.23	71.81	4.19
MALUKU	2017	320.51	68.19	9.29
MALUKU	2018	320.08	68.87	6.95
MALUKU	2019	317.69	69.45	6.69
MALUKU	2020	318.18	69.49	7.57
MALUKU	2021	321.81	69.71	6.93
MALUKU	2022	290.57	70.22	6.88
MALUKU	2023	301.61	70.94	6.31
MALUKU	2024	297.68	71.57	6.11
MALUKU UTARA	2017	76.47	67.20	5.33
MALUKU UTARA	2018	81.46	67.76	4.63
MALUKU UTARA	2019	84.60	68.70	4.81
MALUKU UTARA	2020	86.37	68.49	5.15
MALUKU UTARA	2021	87.16	68.76	4.71
MALUKU UTARA	2022	79.87	69.47	3.98
MALUKU UTARA	2023	83.80	70.21	4.31
MALUKU UTARA	2024	83.09	71.03	4.03
NUSA TENGGARA BARAT	2017	793.78	66.58	3.32
NUSA TENGGARA BARAT	2018	737.46	67.30	3.58
NUSA TENGGARA BARAT	2019	735.96	68.14	3.28
NUSA TENGGARA BARAT	2020	713.89	68.25	4.22
NUSA TENGGARA BARAT	2021	746.66	68.65	3.01
NUSA TENGGARA BARAT	2022	731.94	69.46	2.89
NUSA TENGGARA BARAT	2023	751.23	70.20	2.80
NUSA TENGGARA BARAT	2024	709.01	70.93	2.73
NUSA TENGGARA TIMUR	2017	1150.79	63.73	3.27
NUSA TENGGARA TIMUR	2018	1142.17	64.39	2.85
NUSA TENGGARA TIMUR	2019	1146.32	65.23	3.14
NUSA TENGGARA TIMUR	2020	1153.76	65.19	4.28
NUSA TENGGARA TIMUR	2021	1169.31	65.28	3.77
NUSA TENGGARA TIMUR	2022	1131.62	65.90	3.54
NUSA TENGGARA TIMUR	2023	1141.11	66.68	3.14
NUSA TENGGARA TIMUR	2024	1127.57	67.39	3.02
PAPUA	2017	897.69	59.09	3.62
PAPUA	2018	917.63	60.06	3.00
PAPUA	2019	926.36	60.84	3.51
PAPUA	2020	911.37	60.44	4.28
PAPUA	2021	920.44	60.62	3.33
PAPUA	2022	922.12	71.76	2.83
PAPUA	2023	915.15	72.41	2.67
PAPUA	2024	152.91	73.00	6.48
PAPUA BARAT	2017	228.38	62.99	6.49
PAPUA BARAT	2018	214.47	63.74	6.45
PAPUA BARAT	2019	211.50	64.70	6.43
PAPUA BARAT	2020	208.58	65.09	6.80
PAPUA BARAT	2021	219.07	65.26	5.84
PAPUA BARAT	2022	218.78	65.16	5.37
PAPUA BARAT	2023	214.98	66.16	5.38
PAPUA BARAT	2024	110.16	67.02	4.13
PAPUA BARAT DAYA	2017	NA	NA	NA
PAPUA BARAT DAYA	2018	NA	NA	NA
PAPUA BARAT DAYA	2019	NA	NA	NA
PAPUA BARAT DAYA	2020	NA	NA	NA
PAPUA BARAT DAYA	2021	NA	NA	NA
PAPUA BARAT DAYA	2022	NA	67.59	NA
PAPUA BARAT DAYA	2023	NA	68.05	NA
PAPUA BARAT DAYA	2024	102.27	68.63	6.48
PAPUA PEGUNUNGAN	2017	NA	NA	NA
PAPUA PEGUNUNGAN	2018	NA	NA	NA
PAPUA PEGUNUNGAN	2019	NA	NA	NA
PAPUA PEGUNUNGAN	2020	NA	NA	NA
PAPUA PEGUNUNGAN	2021	NA	NA	NA
PAPUA PEGUNUNGAN	2022	NA	51.70	NA
PAPUA PEGUNUNGAN	2023	NA	52.45	NA
PAPUA PEGUNUNGAN	2024	365.43	53.42	1.32
PAPUA SELATAN	2017	NA	NA	NA
PAPUA SELATAN	2018	NA	NA	NA
PAPUA SELATAN	2019	NA	NA	NA
PAPUA SELATAN	2020	NA	NA	NA
PAPUA SELATAN	2021	NA	NA	NA
PAPUA SELATAN	2022	NA	65.74	NA
PAPUA SELATAN	2023	NA	67.27	NA
PAPUA SELATAN	2024	92.20	67.90	4.05
PAPUA TENGAH	2017	NA	NA	NA
PAPUA TENGAH	2018	NA	NA	NA
PAPUA TENGAH	2019	NA	NA	NA
PAPUA TENGAH	2020	NA	NA	NA
PAPUA TENGAH	2021	NA	NA	NA
PAPUA TENGAH	2022	NA	58.25	NA
PAPUA TENGAH	2023	NA	58.93	NA
PAPUA TENGAH	2024	308.48	59.75	2.75
RIAU	2017	514.62	71.79	6.22
RIAU	2018	500.44	72.44	5.98
RIAU	2019	490.72	73.00	5.76
RIAU	2020	483.39	72.71	6.32
RIAU	2021	500.81	72.94	4.42
RIAU	2022	485.03	73.52	4.37
RIAU	2023	485.66	74.04	4.23
RIAU	2024	492.25	74.79	3.70
SULAWESI BARAT	2017	149.76	64.30	3.21
SULAWESI BARAT	2018	151.78	65.10	3.01
SULAWESI BARAT	2019	151.40	65.73	2.98
SULAWESI BARAT	2020	152.02	66.11	3.32
SULAWESI BARAT	2021	157.19	66.36	3.13
SULAWESI BARAT	2022	165.72	66.92	2.34
SULAWESI BARAT	2023	164.14	67.55	2.27
SULAWESI BARAT	2024	162.19	68.20	2.68
SULAWESI SELATAN	2017	813.07	70.34	5.61
SULAWESI SELATAN	2018	792.63	70.90	4.94
SULAWESI SELATAN	2019	767.80	71.66	4.62
SULAWESI SELATAN	2020	776.83	71.93	6.31
SULAWESI SELATAN	2021	784.98	72.24	5.72
SULAWESI SELATAN	2022	777.44	72.82	4.51
SULAWESI SELATAN	2023	788.85	73.46	4.33
SULAWESI SELATAN	2024	736.48	74.05	4.19
SULAWESI TENGAH	2017	417.87	68.11	3.81
SULAWESI TENGAH	2018	420.21	68.88	3.37
SULAWESI TENGAH	2019	410.36	69.50	3.11
SULAWESI TENGAH	2020	398.73	69.55	3.77
SULAWESI TENGAH	2021	404.44	69.79	3.75
SULAWESI TENGAH	2022	388.35	70.28	3.00
SULAWESI TENGAH	2023	395.66	70.95	2.95
SULAWESI TENGAH	2024	379.76	71.56	2.94
SULAWESI TENGGARA	2017	331.71	69.86	3.30
SULAWESI TENGGARA	2018	307.10	70.61	3.19
SULAWESI TENGGARA	2019	302.58	71.20	3.52
SULAWESI TENGGARA	2020	301.82	71.45	4.58
SULAWESI TENGGARA	2021	318.70	71.66	3.92
SULAWESI TENGGARA	2022	309.79	72.23	3.36
SULAWESI TENGGARA	2023	321.53	72.79	3.15
SULAWESI TENGGARA	2024	319.71	73.48	3.09
SULAWESI UTARA	2017	198.88	71.66	7.18
SULAWESI UTARA	2018	193.31	72.20	6.61
SULAWESI UTARA	2019	191.70	72.99	6.01
SULAWESI UTARA	2020	192.37	72.93	7.37
SULAWESI UTARA	2021	196.35	73.30	7.06
SULAWESI UTARA	2022	185.14	73.81	6.61
SULAWESI UTARA	2023	189.00	74.36	6.10
SULAWESI UTARA	2024	186.85	75.03	5.85
SUMATERA BARAT	2017	364.51	71.24	5.58
SUMATERA BARAT	2018	357.13	71.73	5.66
SUMATERA BARAT	2019	348.22	72.39	5.38
SUMATERA BARAT	2020	344.23	72.38	6.88
SUMATERA BARAT	2021	370.67	72.65	6.52
SUMATERA BARAT	2022	335.21	73.26	6.28
SUMATERA BARAT	2023	340.37	73.75	5.94
SUMATERA BARAT	2024	345.73	74.49	5.75
SUMATERA SELATAN	2017	1086.92	68.86	4.39
SUMATERA SELATAN	2018	1068.27	69.39	4.27
SUMATERA SELATAN	2019	1073.74	70.02	4.53
SUMATERA SELATAN	2020	1081.58	70.01	5.51
SUMATERA SELATAN	2021	1113.76	70.24	4.98
SUMATERA SELATAN	2022	1044.69	70.90	4.63
SUMATERA SELATAN	2023	1045.68	71.62	4.11
SUMATERA SELATAN	2024	984.24	72.30	3.86
SUMATERA UTARA	2017	1453.87	70.57	5.60
SUMATERA UTARA	2018	1324.98	71.18	5.55
SUMATERA UTARA	2019	1282.04	71.74	5.39
SUMATERA UTARA	2020	1283.29	71.77	6.91
SUMATERA UTARA	2021	1343.86	72.00	6.33
SUMATERA UTARA	2022	1268.19	72.71	6.16
SUMATERA UTARA	2023	1239.71	73.37	5.89
SUMATERA UTARA	2024	1228.01	74.02	5.60

Perlu dicatat bahwa data Provinsi Papua menunjukkan perubahan drastis pada tahun 2024, di mana jumlah penduduk miskin turun dari sekitar 920 ribu jiwa menjadi 152 ribu jiwa. Penurunan ini bukan mencerminkan perbaikan kesejahteraan yang nyata, melainkan merupakan konsekuensi dari pemekaran wilayah Papua menjadi beberapa provinsi baru (Papua Selatan, Papua Tengah, Papua Pegunungan, dan Papua Barat Daya) yang menyebabkan sebagian penduduk miskin Papua induk kini tercatat di provinsi-provinsi baru tersebut. Ketidakkonsistenan ini perlu diperhatikan dalam interpretasi hasil estimasi, karena dapat memengaruhi variasi within provinsi Papua dalam model Fixed Effect.

5.2.4 Visualisasi Tren Temporal dan Sebaran Data

Sebelum melakukan analisis regresi formal, diagnostik visual sangat penting untuk memahami perilaku data baik dalam dimensi time-series maupun cross-section.

A. Dinamika Rata-rata Kemiskinan dan IPM Grafik di bawah ini memvisualisasikan pergerakan rata-rata kemiskinan dan IPM di seluruh provinsi. Visualisasi ini krusial untuk melihat efek guncangan makro (seperti pandemi) terhadap tren kesejahteraan.

df_gabungan %>%
  group_by(tahun) %>%
  summarise(rata_kemiskinan = mean(kemiskinan, na.rm = TRUE)) %>%
  ggplot(aes(x = tahun, y = rata_kemiskinan)) +
  geom_line(color = "steelblue", linewidth = 1.2) +
  geom_point(color = "steelblue", size = 3) +
  labs(x = "Tahun", y = "Rata-rata Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Tren Rata-rata Kemiskinan Nasional (2017-2024)

Tren Rata-rata IPM per Tahun

Grafik ini menunjukkan perkembangan IPM rata-rata nasional dari tahun ke tahun. IPM yang naik berarti kualitas hidup masyarakat semakin baik.

df_gabungan %>%
  group_by(tahun) %>%
  summarise(rata_ipm = mean(ipm, na.rm = TRUE)) %>%
  ggplot(aes(x = tahun, y = rata_ipm)) +
  geom_line(color = "darkgreen", linewidth = 1.2) +
  geom_point(color = "darkgreen", size = 3) +
  labs(x = "Tahun", y = "Rata-rata IPM") +
  theme_minimal()

B. Deteksi Pola Hubungan (Scatter Plot) Scatter plot memungkinkan kita mendeteksi sinyal awal mengenai arah korelasi antara variabel independen dan dependen secara bivariate sebelum dikontrol oleh variabel lain dalam model panel.

Hubungan IPM dengan Kemiskinan

Grafik ini disebut scatter plot. Setiap titik mewakili satu provinsi di satu tahun. Kita ingin melihat: apakah provinsi dengan IPM tinggi cenderung memiliki kemiskinan yang rendah?

ggplot(df_gabungan, aes(x = ipm, y = kemiskinan)) +
  geom_point(alpha = 0.4, color = "steelblue") +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(x = "IPM", y = "Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Secara konsep, kita semua setuju bahwa ketika kualitas pendidikan, kesehatan, dan ekonomi (yang disebut IPM) di suatu daerah semakin membaik, maka kemiskinan di daerah tersebut seharusnya ikut menurun. Namun, grafik ini justru menunjukkan garis yang lurus mendatar. Hal ini terjadi karena data kemiskinan digunakan dihitung berdasarkan jumlah total orangnya, bukan persentasenya.

Di Indonesia, ada beberapa provinsi yang jumlah penduduknya luar biasa banyak, khususnya Jawa Barat, Jawa Tengah, dan Jawa Timur. Karena total penduduk di sana sangat padat, maka otomatis jumlah orang miskinnya akan tetap terhitung sangat banyak secara angka kasarnya, meskipun sebenarnya provinsi-provinsi tersebut memiliki nilai IPM yang tergolong baik.

Angka kemiskinan yang sangat besar dari provinsi-provinsi di Pulau Jawa ini posisinya berada sangat tinggi di bagian atas grafik. Titik-titik yang posisinya sangat tinggi inilah yang akhirnya menarik garis tren di grafik ini. Garis yang tadinya bersiap untuk menukik turun ke bawah, akhirnya malah tertahan dan menjadi mendatar karena tertarik oleh tingginya angka kemiskinan di wilayah berpenduduk padat tersebut.

Jadi, kesimpulannya, garis mendatar pada grafik ini bukan berarti teori bahwa IPM menurunkan kemiskinan itu salah. Grafiknya menjadi mendatar murni karena jumlah penduduk antarprovinsi di Indonesia sangat timpang, sehingga provinsi yang penduduknya sedikit tidak bisa langsung dibandingkan jumlah orang miskinnya dengan provinsi yang penduduknya sangat padat.

Hubungan Pengangguran dengan Kemiskinan

Sama seperti sebelumnya, kita lihat apakah pengangguran yang tinggi berhubungan dengan kemiskinan yang tinggi.

ggplot(df_gabungan, aes(x = pengangguran, y = kemiskinan)) +
  geom_point(alpha = 0.4, color = "darkorange") +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(x = "TPT (%)", y = "Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Hubungan antara Pengangguran dan Kemiskinan

Grafik ini memperlihatkan bagaimana hubungan antara Tingkat Pengangguran Terbuka dengan angka kemiskinan. Pada visualisasi tersebut, dapat dilihat sebuah garis tren berwarna merah yang posisinya jelas mengarah ke atas. Garis yang menanjak ini secara langsung mengonfirmasi hipotesis teoritis, yaitu terdapat korelasi yang positif. Maknanya sangat lugas: ketika tingkat pengangguran di suatu wilayah semakin tinggi, kondisi tersebut akan mendorong peningkatan jumlah penduduk miskin di wilayah terkait. Meskipun data kemiskinan yang digunakan adalah angka total penduduk dan terlihat ada beberapa titik yang sangat tinggi di bagian atas akibat padatnya populasi di provinsi tertentu, garis tren ini tetap berhasil menangkap pola utama bahwa naiknya pengangguran selalu berjalan beriringan dengan naiknya angka kemiskinan.

5.3 Spesifikasi Model: Formulasi Regresi Data Panel untuk Analisis Determinan Kemiskinan

5.3.1 Landasan Teoretis Spesifikasi Model dalam Konteks Kemiskinan

Spesifikasi model ekonometrika dalam analisis determinan kemiskinan menggunakan data panel tidak dapat direduksi semata-mata sebagai prosedur teknis regresi, melainkan merupakan cerminan dari asumsi teoretis mengenai struktur ketidaksetaraan wilayah dan dinamika kebijakan pembangunan. Kemiskinan merupakan fenomena multidimensi yang dipengaruhi oleh faktor struktural yang bersifat persisten antar-wilayah (seperti kondisi geografis, warisan institusi, dan budaya lokal) serta faktor dinamis yang berfluktuasi sepanjang waktu (seperti guncangan ekonomi, perubahan kebijakan fiskal, dan fluktuasi pasar tenaga kerja).

Dalam kerangka data panel studi kasus ini, hubungan tersebut dimodelkan melalui persamaan dasar: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + u_{it}\] di mana \(POV_{it}\) merepresentasikan tingkat kemiskinan di provinsi \(i\) pada tahun \(t\), \(IPM_{it}\) dan \(TPT_{it}\) adalah vektor variabel penjelas utama (Indeks Pembangunan Manusia dan Tingkat Pengangguran Terbuka), dan \(u_{it}\) adalah komponen error komposit. Inti dari spesifikasi model panel terletak pada dekomposisi error \(u_{it} = \mu_i + \nu_{it}\), di mana \(\mu_i\) menangkap efek spesifik provinsi yang konstan terhadap waktu, dan \(\nu_{it}\) merepresentasikan guncangan idiosinkratik.

5.3.2 Formulasi Common Effect Model (CEM) dan Asumsi Homogenitas Antarprovinsi

Common Effect Model (CEM), atau Pooled Ordinary Least Squares (Pooled OLS), merupakan spesifikasi paling restriktif yang mengasumsikan tidak adanya heterogenitas individu yang sistematis. Parameter \(\alpha\) bersifat universal untuk seluruh 38 provinsi.

Formulasi matematis CEM untuk studi kemiskinan dinyatakan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \varepsilon_{it}\]

Asumsi homogenitas ini menyiratkan bahwa elastisitas kemiskinan terhadap IPM dan pengangguran bersifat seragam di seluruh Indonesia, mengabaikan fakta substantif bahwa provinsi dengan kapasitas fiskal atau infrastruktur berbeda mungkin merespons kebijakan pembangunan manusia secara berbeda. Oleh karena itu, CEM umumnya berfungsi sebagai model baseline saja.

5.3.3 Formulasi Fixed Effect Model (FEM) dan Transformasi Within untuk Mengontrol Heterogenitas

Fixed Effect Model (FEM) mengakui keberadaan heterogenitas individu yang sistematis dan memungkinkan korelasi antara efek spesifik provinsi \(\mu_i\) dengan variabel penjelas (\(E[\mu_i | IPM_{it}, TPT_{it}] \neq 0\)). Spesifikasi FEM dapat dituliskan sebagai: \[POV_{it} = \alpha_i + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \nu_{it}\] di mana \(\alpha_i = \alpha + \mu_i\) merepresentasikan intercept yang unik untuk setiap provinsi \(i\).

Untuk mengestimasi koefisien tanpa memunculkan masalah incidental parameters, FEM menerapkan transformasi Within atau demeaning: \[\widetilde{POV}_{it} = POV_{it} - \bar{POV}_i, \quad \widetilde{IPM}_{it} = IPM_{it} - \overline{IPM}_i, \quad \widetilde{TPT}_{it} = TPT_{it} - \overline{TPT}_i\] Model yang ditransformasi menjadi: \[\widetilde{POV}_{it} = \beta_1 \widetilde{IPM}_{it} + \beta_2 \widetilde{TPT}_{it} + \tilde{\nu}_{it}\] Transformasi ini secara deterministik mengeliminasi \(\mu_i\), sehingga estimator \(\hat{\beta}_{FE}\) bebas dari bias omitted variable akibat karakteristik bawaan provinsi.

5.3.4 Formulasi Random Effect Model (REM) dan Dekomposisi Komponen Error

Random Effect Model (REM) memperlakukan heterogenitas individu sebagai komponen error stokastik yang tidak berkorelasi dengan variabel penjelas (\(E[\mu_i | IPM_{it}, TPT_{it}] = 0\)). Spesifikasi REM dinyatakan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \mu_i + \nu_{it}\]

Untuk menangani struktur error di mana observasi dalam provinsi yang sama berkorelasi positif, REM menerapkan estimasi Generalized Least Squares (GLS) melalui transformasi quasi-demeaning: \[POV_{it}^* = POV_{it} - \theta \bar{POV}_i, \quad X_{it}^* = X_{it} - \theta \bar{X}_i\] di mana parameter pembobotan \(\theta\) menyeimbangkan kontribusi variasi within dan between. Keunggulan REM terletak pada efisiensi estimatornya, namun rentan menjadi bias jika asumsi ortogonalitas dilanggar.

5.3.5 Estimasi Model Panel melalui Komputasi RStudio

Setelah landasan teori matematis dari ketiga model dipahami, langkah selanjutnya adalah mengeksekusi pendugaan parameter secara empiris. Berdasarkan data 38 provinsi di Indonesia (2017–2024) yang telah disiapkan sebelumnya, pendugaan CEM, FEM, dan REM dijalankan menggunakan paket ekonometrika plm di RStudio.

1. Pembentukan Data Panel Fungsi pdata.frame digunakan untuk memberi sinyal pada R bahwa baris data memiliki struktur panel berdimensi ganda (Provinsi dan Tahun).

pdata <- pdata.frame(df_gabungan,
                     index = c("provinsi", "tahun"))

2. Estimasi Common Effect Model (CEM) Model CEM diestimasi dengan mengunci argumen model = “pooling”.

CEM = Model paling sederhana. Anggapannya bahwa semua provinsi sama saja, tidak ada perbedaan karakteristik antar provinsi. Ibarat menganggap Aceh dan DKI Jakarta punya kondisi yang sama persis.

cem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "pooling")
summary(cem)

Pooling Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "pooling")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-1228.43  -559.83  -337.85   116.80  3963.74 

Coefficients:
             Estimate Std. Error t-value Pr(>|t|)   
(Intercept)  1093.112   1124.294  0.9723 0.331779   
ipm           -13.241     16.373 -0.8087 0.419404   
pengangguran  122.645     38.807  3.1604 0.001753 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    315830000
Residual Sum of Squares: 304640000
R-Squared:      0.035445
Adj. R-Squared: 0.028378
F-statistic: 5.01601 on 2 and 273 DF, p-value: 0.0072552

3. Estimasi Fixed Effect Model (FEM) Model FEM diestimasi menggunakan transformasi within estimator dengan argumen model = “within”.

FEM = Model yang mengakui bahwa setiap provinsi punya karakteristik unik yang tidak berubah (misalnya: luas wilayah, budaya, sumber daya alam). Perbedaan antar provinsi dianggap tetap (fixed).

fem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "within")
summary(fem)

Oneway (individual) effect Within Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "within")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
      Min.    1st Qu.     Median    3rd Qu.       Max. 
-500.40311  -15.18664    0.58681   18.39397  476.29892 

Coefficients:
             Estimate Std. Error t-value  Pr(>|t|)    
ipm          -18.9592     3.6361 -5.2141 4.034e-07 ***
pengangguran  -7.0685     7.0252 -1.0062    0.3154    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    1995000
Residual Sum of Squares: 1788800
R-Squared:      0.10338
Adj. R-Squared: -0.044796
F-statistic: 13.6047 on 2 and 236 DF, p-value: 2.5589e-06

4. Estimasi Random Effect Model (REM) Model REM diestimasi menggunakan pendekatan GLS dengan argumen model = “random”.

REM = Mirip FEM, tapi perbedaan antar provinsi dianggap acak (random) dan tidak berkorelasi dengan variabel bebas.

rem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "random")
summary(rem)

Oneway (individual) effect Random Effect Model 
   (Swamy-Arora's transformation)

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "random")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Effects:
                    var   std.dev share
idiosyncratic 7.580e+03 8.706e+01 0.006
individual    1.183e+06 1.088e+03 0.994
theta:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.9202  0.9717  0.9717  0.9710  0.9717  0.9717 

Residuals:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-498.14  -24.41   -5.39    1.38   12.50  569.71 

Coefficients:
              Estimate Std. Error z-value  Pr(>|z|)    
(Intercept)  2049.3898   315.4665  6.4964 8.228e-11 ***
ipm           -18.5227     3.6022 -5.1421 2.717e-07 ***
pengangguran   -6.2455     6.9790 -0.8949    0.3708    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    2245700
Residual Sum of Squares: 2053600
R-Squared:      0.085886
Adj. R-Squared: 0.07919
Chisq: 26.4464 on 2 DF, p-value: 1.8082e-06

5.3.6 Transisi ke Pemilihan Model Terbaik

Ketiga model di atas akan menghasilkan estimasi koefisien \(\beta_1\) (untuk IPM) dan \(\beta_2\) (untuk Pengangguran) yang berbeda secara magnitudo. Pemilihan antara CEM, FEM, dan REM tidak boleh didasarkan pada besarnya nilai R-Square semata, melainkan harus tunduk pada pengujian formal statistik ekonometrika.Pada sub-bab selanjutnya, akan diuraikan hasil uji Chow, Hausman, dan Lagrange Multiplier (LM) yang dieksekusi secara empiris untuk mengunci satu model spesifikasi terbaik yang paling relevan dengan realitas dinamika kemiskinan provinsi di Indonesia.

5.4 Hasil Estimasi CEM, FEM, REM: Perbandingan Koefisien dan Pemilihan Model Terbaik

5.4.1 Landasan Teoritis Pemilihan Model: Trade-off antara Konsistensi dan Efisiensi

Pemilihan spesifikasi model dalam ekonometrika data panel tidak dapat direduksi menjadi preferensi metodologis, melainkan merupakan keputusan inferensial yang menyeimbangkan dua sifat statistik fundamental: konsistensi dan efisiensi. Common Effect Model (CEM) mengasumsikan homogenitas penuh antar-unit. Fixed Effect Model (FEM) mengeliminasi \(\mu_i\) secara deterministik melalui transformasi within, menjamin konsistensi bahkan ketika \(\mu_i\) berkorelasi dengan \(X_{it}\). Random Effect Model (REM) memperlakukan \(\mu_i\) sebagai komponen error stokastik, menghasilkan estimator Generalized Least Squares (GLS).

Prosedur seleksi model berbasis uji statistik formal menjadi keharusan epistemologis untuk memastikan bahwa spesifikasi yang dipilih tidak hanya memenuhi kriteria goodness-of-fit, tetapi juga menghasilkan inferensi kausal yang valid bagi kebijakan pengentasan kemiskinan.

5.4.2 Uji Chow (F-Test): Menguji Signifikansi Efek Individu (CEM vs FEM)

Uji Chow digunakan sebagai tahap awal dalam pemilihan model data panel untuk menentukan apakah Common Effect Model (CEM) atau Fixed Effect Model (FEM) lebih sesuai digunakan. Uji ini dilakukan dengan menguji hipotesis nol bahwa tidak terdapat perbedaan karakteristik tetap antarprovinsi, sehingga seluruh provinsi dapat diwakili oleh satu intercept yang sama seperti pada CEM. Hipotesis dalam Uji Chow adalah (\(H_0: \mu_1 = \mu_2 = \dots = \mu_{38} = 0\)). Jika p-value < 0.05, maka \(H_0\) ditolak, yang berarti FEM lebih baik dari CEM.

Berikut adalah eksekusi Uji Chow menggunakan komputasi R:

pFtest(fem, cem)


    F test for individual effects

data:  kemiskinan ~ ipm + pengangguran
F = 1079.9, df1 = 37, df2 = 236, p-value < 2.2e-16
alternative hypothesis: significant effects

(Catatan Interpretasi: Karena nilai p-value lebih kecil dari 0.05, maka hipotesis nol ditolak. Hal ini menunjukkan bahwa terdapat heterogenitas karakteristik antarprovinsi yang signifikan, sehingga model Fixed Effect Model (FEM) lebih baik digunakan dibandingkan Common Effect Model (CEM).

Dengan demikian, dapat disimpulkan bahwa setiap provinsi memiliki karakteristik khusus yang memengaruhi tingkat kemiskinan dan tidak dapat diasumsikan homogen seperti pada CEM.

5.4.3 Uji Hausman: Diagnostik Konsistensi (FEM vs REM)

Setelah Uji Chow memenangkan FEM, keputusan krusial berikutnya adalah mengadu FEM dengan REM. Uji Hausman dirancang khusus untuk menguji asumsi ortogonalitas yang menjadi fondasi REM. Hipotesis nolnya adalah efek spesifik provinsi tidak berkorelasi dengan variabel bebas (\(H_0: E[\mu_i | IPM_{it}, TPT_{it}] = 0\)). Jika p-value < 0.05, \(H_0\) ditolak, yang berarti FEM lebih tepat karena estimator REM menjadi bias.Berikut adalah eksekusi Uji Hausman di R:

phtest(fem, rem)


    Hausman Test

data:  kemiskinan ~ ipm + pengangguran
chisq = 1.2693, df = 2, p-value = 0.5301
alternative hypothesis: one model is inconsistent

Catatan Interpretasi: Nilai p-value sebesar 0.5301 > 0.05 menunjukkan bahwa hipotesis nol tidak dapat ditolak. Artinya, tidak terdapat bukti statistik yang cukup bahwa efek spesifik provinsi berkorelasi dengan variabel bebas. Dengan demikian, berdasarkan hasil Uji Hausman, Random Effect Model (REM) secara statistik lebih sesuai digunakan karena menghasilkan estimator yang efisien.

Namun demikian, mengingat karakteristik antarprovinsi di Indonesia sangat beragam—seperti perbedaan geografis, kapasitas fiskal, kualitas infrastruktur, dan budaya institusional—yang secara teoritis berpotensi berkorelasi dengan IPM dan tingkat pengangguran, maka Fixed Effect Model (FEM) tetap dapat dipertimbangkan sebagai pendekatan yang lebih konservatif dalam menjaga robustitas hasil estimasi.

Meskipun hasil Uji Hausman secara statistik mengarah pada REM, karakteristik data penelitian menunjukkan adanya heterogenitas antarprovinsi yang sangat kuat. Perbedaan tingkat pembangunan, kapasitas fiskal daerah, kualitas infrastruktur, serta kondisi geografis antarprovinsi di Indonesia cenderung bersifat tetap (time-invariant) dan sulit diukur secara langsung. Selain itu, terdapat indikasi perubahan struktural pada beberapa observasi, seperti kasus Provinsi Papua akibat pemekaran wilayah administratif pada tahun 2024, yang berpotensi memengaruhi kestabilan efek individu dalam model. Dalam kondisi data seperti ini, FEM dinilai lebih mampu mengontrol pengaruh karakteristik laten antarprovinsi melalui pendekatan within transformation, sehingga hasil estimasi dianggap lebih robust dan lebih representatif terhadap kondisi empiris penelitian.

5.4.4 Uji Lagrange Multiplier (LM) Breusch-Pagan (CEM vs REM)

Sebagai diagnostik komplementer, Uji Lagrange Multiplier (LM) Breusch-Pagan berfungsi membandingkan CEM dengan REM, menguji apakah varians komponen individu berbeda secara signifikan dari nol. Jika p-value < 0.05, maka REM lebih baik dari CEM.

Berikut adalah eksekusi Uji LM di R:

plmtest(cem, type = "bp")


    Lagrange Multiplier Test - (Breusch-Pagan)

data:  kemiskinan ~ ipm + pengangguran
chisq = 940.17, df = 1, p-value < 2.2e-16
alternative hypothesis: significant effects

Karena nilai p-value lebih kecil dari 0.05, maka hipotesis nol ditolak. Hal ini menunjukkan bahwa terdapat efek individual antarprovinsi yang signifikan, sehingga Random Effect Model (REM) lebih baik digunakan dibandingkan Common Effect Model (CEM). Dengan demikian, asumsi homogenitas penuh pada CEM tidak sesuai dengan karakteristik data penelitian.

Berikut revisi yang lebih konsisten secara metodologis, lebih akademik, dan tetap selaras dengan hasil output R yang Anda peroleh:

5.4.5 Protokol Seleksi Model Berjenjang dan Keputusan Final

Dalam praktik ekonometrika data panel, pemilihan model terbaik dilakukan melalui protokol seleksi berjenjang yang mengintegrasikan Uji Chow, Uji Hausman, dan Uji Lagrange Multiplier (LM) secara sistematis. Pendekatan ini bertujuan untuk memastikan bahwa model yang dipilih tidak hanya memiliki goodness-of-fit yang baik, tetapi juga memenuhi validitas inferensial dan konsistensi estimasi.

Berdasarkan output komputasi R yang telah diperoleh, hasil pengujian menunjukkan:

1. Hasil Uji Chow

Uji Chow menghasilkan p-value yang signifikan (< 0.05), sehingga hipotesis nol ditolak. Hal ini menunjukkan bahwa terdapat heterogenitas karakteristik antarprovinsi yang signifikan, sehingga Fixed Effect Model (FEM) lebih baik digunakan dibandingkan Common Effect Model (CEM). Dengan demikian, asumsi homogenitas penuh pada CEM tidak sesuai dengan karakteristik data penelitian.

2. Hasil Uji Hausman

Uji Hausman menghasilkan p-value sebesar 0.5301 (> 0.05), sehingga secara statistik hipotesis nol tidak dapat ditolak. Hasil ini mengindikasikan bahwa Random Effect Model (REM) secara statistik layak digunakan karena tidak terdapat bukti kuat bahwa efek spesifik provinsi berkorelasi dengan variabel independen.

Namun demikian, penelitian ini tetap mempertahankan FEM sebagai spesifikasi final dengan mempertimbangkan karakteristik substantif data panel Indonesia yang menunjukkan heterogenitas antarprovinsi sangat besar, baik dari aspek geografis, kapasitas fiskal daerah, kualitas infrastruktur, maupun tingkat pembangunan manusia. Karakteristik tersebut secara teoritis berpotensi berkorelasi dengan variabel independen, khususnya IPM dan pengangguran.

Selain itu, terdapat indikasi perubahan struktural pada beberapa observasi, seperti kasus pemekaran Provinsi Papua pada tahun 2024, yang menyebabkan perubahan administratif dan redistribusi pencatatan jumlah penduduk miskin. Kondisi ini memperkuat pertimbangan penggunaan FEM karena model ini lebih mampu mengontrol heterogenitas tak teramati (unobserved heterogeneity) yang bersifat time-invariant melalui pendekatan within transformation.

3. Hasil Uji Lagrange Multiplier (LM)

Uji LM Breusch-Pagan menghasilkan p-value yang signifikan (< 0.05), sehingga menunjukkan bahwa Random Effect Model (REM) lebih baik dibandingkan Common Effect Model (CEM). Hasil ini mengindikasikan adanya efek individual antarprovinsi yang signifikan, sehingga pendekatan pooled pada CEM dinilai terlalu sederhana untuk menggambarkan struktur data penelitian.

Berdasarkan keseluruhan hasil pengujian formal dan pertimbangan substantif terhadap karakteristik data penelitian, Fixed Effect Model (FEM) ditetapkan sebagai model spesifikasi final dalam studi determinan kemiskinan ini. Pemilihan FEM didasarkan pada pertimbangan bahwa model tersebut lebih mampu menangkap pengaruh perubahan variabel independen di dalam provinsi yang sama sepanjang waktu (within effect), sekaligus mengontrol karakteristik unik bawaan masing-masing provinsi yang tidak dapat diobservasi secara langsung.

Dengan demikian, interpretasi model FEM dalam penelitian ini berfokus pada pertanyaan empiris:

“Bagaimana perubahan IPM dan tingkat pengangguran di dalam provinsi yang sama dari waktu ke waktu memengaruhi tingkat kemiskinan, setelah mengontrol karakteristik khas provinsi tersebut?”

5.5 Interpretasi Hasil: Pengaruh Marginal IPM dan Pengangguran terhadap Tingkat Kemiskinan

5.5.1 Prinsip Validasi Model Melalui Diagnostik Asumsi Klasik

Setelah prosedur seleksi model menetapkan Fixed Effect Model (FEM) sebagai spesifikasi final dalam penelitian ini, langkah penting berikutnya adalah melakukan validasi model melalui pengujian asumsi klasik. Dalam ekonometrika data panel, pengujian asumsi klasik bertujuan untuk memastikan bahwa koefisien estimasi yang dihasilkan tidak hanya signifikan secara statistik, tetapi juga bersifat stabil, efisien, dan tidak bias, sehingga interpretasi model dapat dipercaya secara ilmiah.

Diagnostik asumsi klasik pada data panel umumnya difokuskan pada tiga permasalahan utama, yaitu multikolinearitas antarvariabel independen, heteroskedastisitas pada varians error, dan autokorelasi residual. Ketiga pengujian ini penting dilakukan untuk mengevaluasi apakah model telah memenuhi syarat dasar estimasi ekonometrika yang baik serta untuk meminimalkan potensi distorsi dalam inferensi statistik.

5.5.2 Pengujian Multikolinearitas: Jaminan Presisi Estimasi Parameter

Multikolinearitas merupakan kondisi ketika terdapat korelasi linier yang tinggi antarvariabel independen dalam model regresi. Kondisi ini dapat menyebabkan varians estimator meningkat (variance inflation), sehingga koefisien regresi menjadi tidak stabil dan interpretasi pengaruh masing-masing variabel menjadi kurang presisi.

Pengujian multikolinearitas dalam penelitian ini dilakukan menggunakan Variance Inflation Factor (VIF). Secara umum, model dikatakan mengalami multikolinearitas serius apabila nilai VIF melebihi ambang batas kritis 10.

vif(lm(kemiskinan ~ ipm + pengangguran,
       data = df_gabungan))

         ipm pengangguran 
    1.113149     1.113149

Berdasarkan hasil uji komputasi di atas, nilai VIF untuk IPM dan Pengangguran berada di angka 1.113, yang berarti jauh di bawah 10. Artinya, model bebas dari gejala multikolinearitas.

5.5.3 Pengujian Heteroskedastisitas: Robustness Standar Error dan Validitas Inferensi

Heteroskedastisitas merupakan kondisi ketika varians dari komponen error tidak konstan pada setiap observasi. Dalam model regresi, keberadaan heteroskedastisitas dapat menyebabkan standar error menjadi bias, sehingga pengujian signifikansi parameter menjadi kurang valid.

Dalam penelitian ini, pengujian heteroskedastisitas dilakukan menggunakan uji Breusch-Pagan. Hipotesis nol pada pengujian ini menyatakan bahwa model tidak mengalami heteroskedastisitas atau varians error bersifat konstan (homoskedastisitas).

bptest(fem)


    studentized Breusch-Pagan test

data:  fem
BP = 7.9438, df = 2, p-value = 0.01884

Berdasarkan hasil pengujian di atas, diperoleh nilai p-value sebesar 0.01884 yang lebih kecil dari 0.05. Dengan demikian, hipotesis nol ditolak, sehingga model terindikasi mengalami heteroskedastisitas. Hal ini menunjukkan bahwa varians residual tidak konstan antarobservasi.

Namun demikian, mengingat penelitian menggunakan data panel antarprovinsi dengan tingkat heterogenitas yang tinggi, keberadaan heteroskedastisitas merupakan fenomena yang umum ditemukan dalam data ekonomi regional. Oleh karena itu, hasil estimasi tetap diinterpretasikan secara hati-hati, khususnya pada pengujian signifikansi parameter. Penelitian ini belum menerapkan robust standard error sebagai koreksi heteroskedastisitas, sehingga hal tersebut menjadi salah satu keterbatasan penelitian dan dapat menjadi agenda penyempurnaan pada penelitian selanjutnya.

5.5.4 Pengujian Autokorelasi: Independensi Residual dan Stabilitas Temporal

Autokorelasi dalam dimensi time-series panel merujuk pada korelasi antara residual pada periode yang berbeda. Pengujian autokorelasi panel dilakukan melalui prosedur Breusch-Godfrey. Jika p-value \(\ge\) 0.05, maka tidak ada autokorelasi.

pbgtest(fem)


    Breusch-Godfrey/Wooldridge test for serial correlation in panel models

data:  kemiskinan ~ ipm + pengangguran
chisq = 1.5871, df = 1, p-value = 0.2077
alternative hypothesis: serial correlation in idiosyncratic errors

5.5.5 Hasil Estimasi Model Final (Hasil Model Terpilih)

Setelah seluruh rangkaian diagnostik spesifikasi dan asumsi klasik dilewati, berikut adalah hasil pendugaan koefisien parameter (Output Regresi) dari model yang menang (Fixed Effect Model/FEM):

summary(fem)

Oneway (individual) effect Within Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "within")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
      Min.    1st Qu.     Median    3rd Qu.       Max. 
-500.40311  -15.18664    0.58681   18.39397  476.29892 

Coefficients:
             Estimate Std. Error t-value  Pr(>|t|)    
ipm          -18.9592     3.6361 -5.2141 4.034e-07 ***
pengangguran  -7.0685     7.0252 -1.0062    0.3154    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    1995000
Residual Sum of Squares: 1788800
R-Squared:      0.10338
Adj. R-Squared: -0.044796
F-statistic: 13.6047 on 2 and 236 DF, p-value: 2.5589e-06

5.5.6 Interpretasi Marginal Koefisien IPM dan Pengangguran

Berdasarkan hasil estimasi Fixed Effect Model (FEM), pengaruh masing-masing variabel terhadap tingkat kemiskinan dapat dijelaskan sebagai berikut:

1. Pengaruh Indeks Pembangunan Manusia (IPM) Variabel IPM memiliki koefisien sebesar -18.9592 dan signifikan secara statistik pada tingkat 5%. Hal ini menunjukkan bahwa peningkatan IPM cenderung menurunkan tingkat kemiskinan di provinsi-provinsi Indonesia.

Secara sederhana, semakin baik kualitas pendidikan, kesehatan, dan daya beli masyarakat, maka tingkat kemiskinan cenderung menurun. Masyarakat yang memiliki pendidikan dan kesehatan yang lebih baik akan memiliki peluang kerja dan pendapatan yang lebih tinggi sehingga lebih mampu memenuhi kebutuhan hidupnya.

Hasil penelitian ini sejalan dengan teori pembangunan manusia yang menyatakan bahwa peningkatan kualitas sumber daya manusia merupakan salah satu strategi utama dalam mengurangi kemiskinan secara berkelanjutan.

2. Pengaruh Tingkat Pengangguran Terbuka (TPT) Variabel pengangguran memiliki koefisien sebesar -7.0685, namun tidak signifikan secara statistik. Artinya, dalam penelitian ini perubahan tingkat pengangguran belum terbukti memiliki pengaruh yang kuat terhadap tingkat kemiskinan antarprovinsi di Indonesia.

Hasil ini berbeda dengan teori ekonomi yang umumnya menyatakan bahwa peningkatan pengangguran akan meningkatkan kemiskinan. Perbedaan tersebut dapat disebabkan oleh beberapa kondisi empiris di Indonesia, seperti keberadaan sektor informal yang masih mampu menyerap tenaga kerja, bantuan sosial pemerintah, serta dukungan ekonomi keluarga. Meskipun arah koefisien menunjukkan hubungan negatif, hasil tersebut belum cukup kuat secara statistik untuk dijadikan dasar kesimpulan utama penelitian. Dengan begitu, hipotesis kedua dalam penelitian ini tidak terbukti secara empiris karena variabel pengangguran tidak menunjukkan pengaruh signifikan terhadap tingkat kemiskinan.

5.6 Implikasi Kebijakan: Narasi Rekomendasi Pembangunan Daerah Berbasis Bukti Empiris

5.6.1 Sintesis Temuan Empiris dan Validitas Inferensi Model Fixed Effect

Hasil estimasi menggunakan Fixed Effect Model (FEM) menunjukkan bahwa Indeks Pembangunan Manusia (IPM) berpengaruh negatif dan signifikan terhadap tingkat kemiskinan di Indonesia. Hal ini berarti bahwa peningkatan kualitas pembangunan manusia mampu membantu menurunkan tingkat kemiskinan pada 38 provinsi selama periode penelitian.

Sementara itu, Tingkat Pengangguran Terbuka (TPT) memiliki pengaruh yang tidak signifikan terhadap tingkat kemiskinan. Hasil ini menunjukkan bahwa perubahan tingkat pengangguran belum tentu secara langsung memengaruhi perubahan kemiskinan di setiap provinsi.

Berdasarkan hasil Uji Chow dan Uji Lagrange Multiplier (LM), Fixed Effect Model (FEM) dan Random Effect Model (REM) sama-sama unggul dibandingkan Common Effect Model (CEM). Meskipun Uji Hausman secara statistik tidak menolak REM (p-value = 0.5301), FEM ditetapkan sebagai model final dengan mempertimbangkan heterogenitas substantif antarprovinsi yang sangat besar serta adanya indikasi perubahan struktural seperti pemekaran Provinsi Papua tahun 2024.

Koefisien yang dihasilkan menunjukkan pengaruh nyata: setiap peningkatan IPM dalam suatu provinsi secara konsisten berkaitan dengan penurunan tingkat kemiskinan. Karena koefisien IPM terbukti signifikan, hasil ini dapat dijadikan dasar yang kuat untuk menyusun rekomendasi kebijakan pembangunan daerah yang tepat sasaran dan berkelanjutan.

5.6.2 Urgensi Pembangunan Manusia sebagai Strategi Struktural Pengentasan Kemiskinan

Koefisien negatif IPM menegaskan bahwa kemiskinan di Indonesia bukan semata masalah kekurangan pendapatan sesaat, melainkan cerminan dari defisit kapabilitas manusia yang bersifat struktural. Pemerintah daerah perlu memprioritaskan alokasi anggaran untuk peningkatan kualitas pendidikan dasar dan menengah, serta pemerataan akses kesehatan (seperti percepatan penurunan stunting dan perluasan cakupan JKN).

Integrasi antara program perlindungan sosial dan pengembangan keterampilan produktif akan menciptakan sinergi yang memperkuat ketahanan rumah tangga terhadap guncangan ekonomi. Provinsi yang secara konsisten meningkatkan IPM melalui kebijakan terpadu cenderung mencatat trajektori penurunan kemiskinan yang lebih stabil dan berkelanjutan.

5.6.3 Intervensi Pasar Tenaga Kerja dan Penanganan Pengangguran sebagai Penekan Kemiskinan

Meskipun koefisien TPT dalam model FEM tidak signifikan secara statistik, secara teoritis hubungan antara ketidakstabilan ketenagakerjaan dan kerentanan ekonomi rumah tangga tetap relevan sebagai landasan kebijakan. Hasil ini menunjukkan bahwa hubungan antara pengangguran dan kemiskinan di Indonesia tidak selalu sama pada setiap provinsi. Beberapa daerah masih memiliki sektor informal yang cukup besar sehingga masyarakat tetap dapat memperoleh pendapatan meskipun tidak memiliki pekerjaan formal. Secara teoritis, pengangguran berpotensi mengikis modal manusia melalui skill depreciation dan menciptakan siklus kemiskinan kronis, meskipun dalam penelitian ini pengaruh TPT tidak terbukti signifikan secara statistik. Oleh karena itu, rekomendasi kebijakan ketenagakerjaan ini bersifat preventif dan antisipatif, bukan semata-mata didasarkan pada hasil estimasi empiris.

Berdasarkan hasil penelitian, pemerintah daerah perlu meningkatkan kebijakan ketenagakerjaan yang mampu memperluas kesempatan kerja masyarakat. Program pelatihan kerja, pendidikan vokasi, dan pengembangan keterampilan perlu disesuaikan dengan kebutuhan industri di masing-masing daerah.

Selain itu, pemerintah juga perlu mendorong investasi yang mampu membuka lapangan kerja baru, khususnya pada sektor padat karya. Dengan demikian, masyarakat memiliki peluang kerja dan sumber pendapatan yang lebih baik sehingga dapat membantu mengurangi tingkat kemiskinan. Penguatan jaring pengaman sosial yang responsif terhadap dinamika ketenagakerjaan juga esensial untuk mengurangi dampak langsung kehilangan pekerjaan terhadap garis kemiskinan.

5.6.4 Desain Kebijakan Diferensiatif: Mengakomodasi Heterogenitas Antarprovinsi

Hasil penelitian menunjukkan bahwa setiap provinsi memiliki kondisi sosial dan ekonomi yang berbeda-beda, sehingga kebijakan pengentasan kemiskinan tidak bisa diterapkan dengan cara yang sama di semua daerah. Provinsi dengan IPM rendah perlu fokus pada peningkatan pendidikan, kesehatan, dan layanan dasar. Daerah dengan pengangguran tinggi perlu memperluas lapangan kerja dan memperkuat ekonomi lokal. Provinsi dengan IPM tinggi dan pengangguran rendah perlu mendorong inovasi dan pengembangan ekonomi, sementara provinsi dengan IPM rendah dan pengangguran tinggi membutuhkan perbaikan infrastruktur dan layanan publik yang mendasar. Dengan kebijakan yang disesuaikan seperti ini, setiap rupiah anggaran pembangunan bisa memberikan dampak yang lebih besar dan tepat sasaran.

5.6.5 Integrasi Data Panel dalam Siklus Perencanaan dan Evaluasi Kebijakan Daerah

Temuan penelitian ini menegaskan pentingnya penggunaan data panel secara rutin dalam proses perencanaan dan evaluasi kebijakan daerah, seperti dalam penyusunan RPJMD. Dengan memanfaatkan data panel, pemerintah daerah dapat membuat keputusan kebijakan yang lebih berbasis bukti dan terukur, sehingga data tidak hanya berfungsi sebagai arsip, tetapi benar-benar menjadi alat untuk mendorong pembangunan yang lebih merata.

5.6.6 Epilog: Penutup dan Arah Pengembangan Metodologi Ekonometrika Panel

Buku ajar ini telah membahas secara lengkap mulai dari dasar teori data panel, cara estimasi, pemilihan model, pengujian asumsi klasik, hingga penerapannya dalam studi kasus kemiskinan di Indonesia. Terpilihnya FEM dalam studi ini menegaskan bahwa perbedaan karakteristik antarprovinsi adalah sesuatu yang tidak boleh diabaikan jika ingin menghasilkan kesimpulan kebijakan yang tepat. Ke depannya, ekonometrika data panel dapat dikembangkan lebih jauh melalui pendekatan seperti Dynamic Panel untuk menangkap perubahan dari waktu ke waktu, atau Spatial Econometrics untuk melihat pengaruh antardaerah yang saling berdekatan. Pada akhirnya, ekonometrika data panel bukan sekadar alat statistik — ia adalah jembatan antara data dan kebijakan nyata yang berdampak pada kesejahteraan masyarakat.