EKONOMETRIKA DATA PANEL

Teori dan Aplikasi Kontemporer

Author

Kelompok 4

Published

May 19, 2026


BUKU AJAR

EKONOMETRIKA DATA PANEL

Tim Penulis:

Kelompok 4

Muhammad Raehan Suryam

Sahara Salsa Billa


KATA PENGANTAR

Puji dan syukur senantiasa kami panjatkan ke hadirat Allah SWT, Tuhan Yang Maha Esa, atas limpahan rahmat, taufik, serta hidayah-Nya sehingga penulisan “Buku Ajar: Ekonometrika Data Panel (Teori dan Aplikasi Kontemporer)” ini dapat diselesaikan dengan baik. Buku ini disusun sebagai wujud dedikasi kami dalam menyediakan literatur pendamping yang komprehensif, sistematis, dan aplikatif bagi mahasiswa di lingkungan Fakultas Ekonomi dan Bisnis, khususnya pada Program Studi Ekonomi Pembangunan.

Ekonometrika saat ini telah berkembang dari sekadar pelengkap statistik menjadi instrumen utama dalam analisis kebijakan dan pengambilan keputusan ekonomi berbasis bukti (evidence-based policy). Dalam konteks tersebut, pemahaman mengenai model data panel menjadi sangat krusial. Pendekatan data panel mampu menjembatani keterbatasan analisis runtun waktu (time series) dan lintas bagian (cross-section) dengan memfasilitasi pengendalian heterogenitas individu yang tidak teramati, sehingga menghasilkan estimasi parameter yang lebih efisien dan terbebas dari bias.

Buku ajar ini tidak hanya menitikberatkan pada aspek derivasi matematis dan pembuktian teorema, tetapi juga pada aspek aplikasi empiris. Penulis menyadari bahwa tantangan terbesar bagi mahasiswa dalam mempelajari ekonometrika adalah mengonversi formula matematis menjadi interpretasi ekonomi yang logis. Oleh karena itu, di dalam buku ini disajikan sintesis antara teori dasar, kriteria pemilihan model (seperti Uji Chow, Uji Hausman, dan Uji Lagrange Multiplier), validasi asumsi klasik, serta implementasi kasus nyata yang memanfaatkan data dari 38 Provinsi di Indonesia.

Penyusunan buku ajar ini tentunya tidak lepas dari bimbingan, arahan, dan dukungan dari berbagai pihak. Pada kesempatan ini, tim penulis mengucapkan terima kasih yang sebesar-besarnya kepada dosen pengampu mata kuliah Ekonometrika yang senantiasa menanamkan budaya berpikir kritis dan metodologis. Terima kasih juga kami sampaikan kepada rekan-rekan Kelompok 4 yang telah mencurahkan waktu dan pemikirannya dalam mengumpulkan data empiris, menyusun kerangka analisis di RStudio, hingga merampungkan draf buku ini.

Penulis menyadari bahwa buku ini masih jauh dari kata sempurna dan tidak luput dari kekurangan, baik dari segi kedalaman materi maupun teknik penyajian. Oleh karena itu, kritik dan saran yang konstruktif dari para pembaca, akademisi, dan praktisi sangat kami harapkan guna penyempurnaan edisi berikutnya. Akhir kata, semoga buku ajar ini dapat memberikan kontribusi nyata dalam memperkaya khazanah keilmuan ekonometrika dan membawa manfaat bagi pengembangan riset ekonomi di masa depan.

Makassar, 19 Mei 2026

Tim Penulis (Kelompok 4)


BAB 1: TEORI DATA PANEL & KAPAN DIGUNAKAN

1.1 Konsep Dasar dan Definisi Data Panel: Gabungan Cross-Section dan Time Series

1.1.1 Pengertian dan Hakikat Data Panel dalam Ekonometrika Modern

Data panel, yang dalam literatur ekonometrika juga dikenal sebagai longitudinal data atau pooled data, merupakan struktur dataset yang merepresentasikan pengamatan terhadap sejumlah unit individu (cross-section) yang diikuti secara berulang selama beberapa periode waktu (time series). Secara fundamental, data panel bukanlah sekadar penggabungan mekanis antara data silang dan data runtun waktu, melainkan sebuah kerangka observasi yang dirancang khusus untuk menangkap dinamika perubahan sekaligus heterogenitas karakteristik antar-unit yang tidak dapat diobservasi secara langsung.

Dalam konteks penelitian ekonomi dan sosial, data panel muncul sebagai respons terhadap keterbatasan metodologis yang melekat pada pendekatan tradisional. Jika data cross-section murni hanya memberikan “potret sesaat” (snapshot) yang mengabaikan evolusi temporal, dan data time series murni hanya melacak perilaku satu entitas secara historis tanpa memperhitungkan variasi antar-entitas, maka data panel hadir sebagai sintesis yang mampu mengakomodasi kedua dimensi tersebut secara simultan. Seperti yang ditekankan dalam praktik ekonometrika terapan, data panel memungkinkan peneliti untuk mengisolasi pengaruh yang bersifat spesifik individu, mengontrol variabel yang tidak teramati (unobserved variables), serta meningkatkan derajat kebebasan (degrees of freedom) dalam estimasi model. Oleh karena itu, definisi data panel tidak boleh dipandang sekadar sebagai masalah teknis pengumpulan data, melainkan sebagai landasan teoretis yang menentukan validitas inferensi kausal dalam analisis empiris.

1.1.2 Dimensi Ganda: Indeks Cross-Section (i) dan Time Series (t)

Struktur data panel secara eksplisit didefinisikan oleh dua dimensi independen yang saling beririsan. Dimensi pertama dilambangkan dengan indeks i (di mana i = 1, 2, ..., N), yang merepresentasikan unit cross-section atau entitas observasi. Unit ini dapat berupa wilayah administratif (provinsi, kabupaten/kota), sektor ekonomi, perusahaan yang tercatat di bursa efek, rumah tangga, atau bahkan individu dalam survei panel. Dimensi kedua dilambangkan dengan indeks t (di mana t = 1, 2, ..., T), yang merepresentasikan dimensi waktu. Frekuensi temporal ini dapat bersifat tahunan, kuartalan, bulanan, atau bahkan harian, tergantung pada ketersediaan data dan konteks fenomena yang diteliti.

Konvensi notasi dalam ekonometrika data panel secara konsisten menggunakan bentuk \(Y_{it}\) atau \(X_{kit}\) untuk menunjukkan bahwa nilai variabel terikat maupun bebas bersifat spesifik terhadap entitas i pada periode t. Sebagai ilustrasi, jika peneliti mengamati Tingkat Kemiskinan di 38 provinsi Indonesia selama periode 2018–2023, maka N = 38 dan T = 6. Total jumlah observasi yang tersedia untuk estimasi model adalah hasil perkalian N × T, yaitu 228 observasi. Struktur matriks ini memungkinkan setiap unit memiliki lintasan waktunya sendiri, sehingga peneliti dapat membandingkan tidak hanya perbedaan antar-provinsi pada tahun yang sama, tetapi juga perubahan internal setiap provinsi sepanjang waktu. Dimensi ganda inilah yang menjadi sumber kekayaan informasi (information gain) yang membedakan data panel dari jenis data lainnya.

1.1.3 Notasi Matematis dan Klasifikasi Struktur: Balanced vs Unbalanced Panel

Secara matematis, model regresi data panel dasar dapat dituliskan sebagai: \(Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\) di mana \(u_{it}\) merupakan komponen error yang menangkap semua faktor tidak teramati yang mempengaruhi \(Y_{it}\). Dalam perkembangan teoritis, error \(u_{it}\) ini kemudian didekomposisi menjadi dua komponen: \(\mu_i\) (efek spesifik individu yang konstan terhadap waktu) dan \(v_{it}\) (error idiosinkratik yang bervariasi terhadap waktu dan individu). Dekomposisi ini menjadi fondasi utama yang membedakan pendekatan estimasi Common Effect, Fixed Effect, dan Random Effect yang akan dibahas mendalam pada bab-bab selanjutnya.

Berdasarkan kelengkapan observasinya, data panel diklasifikasikan menjadi dua jenis: Balanced Panel dan Unbalanced Panel. Sebuah dataset disebut balanced jika setiap unit cross-section memiliki jumlah observasi time series yang identik dan tidak terputus sepanjang periode studi. Sebaliknya, dataset disebut unbalanced jika terdapat missing value, entri atau exitnya unit observasi (misalnya perusahaan yang bangkrut atau provinsi yang pemekaran wilayahnya mengubah kode administrasi), atau ketidakkonsistenan frekuensi pelaporan. Dalam praktik nyata menggunakan data sekunder seperti BPS, Susenas, atau IFLS, struktur unbalanced jauh lebih umum ditemui. Meskipun secara historis pernah dianggap sebagai kendala teknis, perkembangan metode estimasi modern telah membuktikan bahwa unbalanced panel tetap dapat diolah secara efisien asalkan missingness bersifat acak (Missing Completely at Random/MCAR atau Missing at Random/MAR), dan tidak menghilangkan konsistensi estimator selama dimensi N atau T cukup besar.

1.1.4 Contoh Kontekstual dan Sumber Data Panel di Indonesia

Penerapan data panel dalam penelitian ekonomi Indonesia sangat beragam, mencakup level makro wilayah, meso industri, hingga mikro rumah tangga. Pada level makro, data panel provinsi atau kabupaten/kota sering kali memanfaatkan publikasi resmi Badan Pusat Statistik (BPS), seperti PDRB menurut lapangan usaha, Indeks Pembangunan Manusia (IPM), tingkat pengangguran terbuka (TPT), dan data kemiskinan yang dirilis secara berkala. Contoh klasik dalam literatur adalah analisis determinan pertumbuhan ekonomi daerah atau disparitas kesejahteraan antar-wilayah, di mana N bisa mencapai 34 provinsi atau 514 kabupaten/kota, sedangkan T mencakup rentang 10–20 tahun.

Pada level mikro, data panel bersumber dari survei longitudinal berskala nasional. Indonesian Family Life Survey (IFLS) merupakan salah satu dataset panel mikro paling komprehensif di dunia berkembang yang mengikuti ribuan rumah tangga secara berkala. Demikian pula dengan Survei Sosial Ekonomi Nasional (Susenas) dan Survei Angkatan Kerja Nasional (Sakernas) yang, ketika di-merge berdasarkan kode wilayah dan karakteristik responden, membentuk struktur panel yang powerful untuk studi ketenagakerjaan, perilaku konsumsi, atau dampak kebijakan sosial. Di sektor korporasi, data panel perusahaan (firm-level panel data) yang diambil dari laporan keuangan emiten di Bursa Efek Indonesia (BEI) selama beberapa tahun (misalnya 2016–2024) menjadi standar dalam penelitian keuangan dan tata kelola perusahaan. Pemilihan sumber data ini harus mempertimbangkan konsistensi definisi variabel, metode pengumpulan, dan perubahan kebijakan statistik yang dapat memengaruhi comparability data antar-periode.

1.1.5 Keunggulan Komparatif: Mengapa Memilih Data Panel?

Keputusan untuk menggunakan data panel bukan sekadar preferensi metodologis, melainkan keharusan substantif ketika peneliti ingin menjawab pertanyaan yang melampaui kemampuan data dimensi tunggal. Beberapa keunggulan fundamental data panel meliputi:

  1. Pengendalian Heterogenitas Tidak Teramati: Banyak variabel yang mempengaruhi hasil ekonomi (seperti budaya kerja, kualitas institusi lokal, motivasi individu, atau iklim mikro) sulit diukur atau tidak tersedia dalam dataset. Data panel memungkinkan peneliti mengontrol efek spesifik individu (μ_i) yang konstan sepanjang waktu, sehingga mengurangi bias omitted variable yang sering menggerogoti validitas estimasi OLS pada data cross-section murni.
  2. Peningkatan Variasi dan Derajat Kebebasan: Dengan menggabungkan variasi antar-individu dan variasi antar-waktu, data panel secara otomatis memperbesar ukuran sampel efektif (N × T). Hal ini meningkatkan presisi estimasi, menurunkan varians koefisien, dan memperkuat daya uji statistik (statistical power), terutama ketika fenomena yang diteliti memiliki sinyal yang lemah atau noise yang tinggi.
  3. Deteksi Dinamika Penyesuaian (Dynamic Adjustment): Dalam ekonomi, respons terhadap guncangan kebijakan atau perubahan harga sering kali tidak bersifat instan. Data panel memungkinkan peneliti memasukkan lag variabel, menguji kecepatan penyesuaian, dan memodelkan proses dinamis yang tidak dapat ditangkap oleh data cross-section (yang statis) atau time series tunggal (yang rentan terhadap non-stasioneritas panjang).
  4. Reduksi Multikolinearitas dan Heteroskedastisitas: Kombinasi dimensi ruang dan waktu cenderung memutus korelasi spasial yang tinggi antar-variabel independen, sehingga masalah multikolinearitas sering kali lebih ringan dibandingkan pada data time series murni. Selain itu, struktur panel memberikan fleksibilitas dalam memodelkan error yang memungkinkan penanganan heteroskedastisitas yang lebih robust melalui pendekatan clustered standard errors atau estimasi GLS.

1.1.6 Landasan Teoritis dan Transisi ke Pemilihan Model

Secara teoritis, esensi data panel terletak pada asumsi mengenai sifat komponen error μ_i. Jika μ_i diasumsikan berkorelasi dengan variabel independen X_it, maka model yang konsisten secara asymptotic adalah Fixed Effect Model (FEM), yang mengeliminasi μ_i melalui transformasi within atau pendekatan Least Squares Dummy Variable (LSDV). Sebaliknya, jika μ_i diasumsikan tidak berkorelasi dengan X_it dan bersifat acak, maka Random Effect Model (REM) yang berbasis Generalized Least Squares (GLS) akan lebih efisien. Apabila peneliti mengabaikan struktur error ini dan memperlakukan data panel seolah-olah seluruh observasi identik dan homogen, maka pendekatan Pooled OLS atau Common Effect Model (CEM) yang digunakan akan menghasilkan estimator yang tidak efisien, dan dalam banyak kasus, bias dan tidak konsisten.

Oleh karena itu, definisi data panel tidak berhenti pada struktur matriks N × T, melainkan membentang hingga ke filosofis pemodelan yang mengakui keberagaman (heterogeneity) dan perubahan waktu (dynamics). Pemahaman mendalam tentang konsep dasar ini menjadi prasyarat mutlak sebelum peneliti melangkah ke tahap implementasi teknis, penataan data, pengujian asumsi, dan seleksi model terbaik. Bab-bab selanjutnya akan menguraikan secara operasional bagaimana karakteristik teoritis ini diterjemahkan ke dalam prosedur ekonometrika yang rigor, mulai dari diferensiasi panel makro-mikro, estimasi CEM/FEM/REM, hingga validasi asumsi klasik yang disesuaikan dengan sifat data longitudinal.


1.2 Notasi Matematis dan Struktur Data Panel (i, t, dan N×T Observasi)

1.2.1 Fondasi Notasi Ganda: Indeks Cross-Section dan Time Series

Dalam ekonometrika data panel, setiap variabel observasi secara universal direpresentasikan menggunakan notasi subskrip ganda yang mencerminkan dualitas dimensi ruang dan waktu. Indeks pertama, dilambangkan dengan \(i\), merepresentasikan unit cross-section atau entitas individu yang diamati, di mana \(i = 1, 2, \dots, N\). Entitas ini dapat berupa provinsi, kabupaten, perusahaan, rumah tangga, atau responden survei, tergantung pada konteks penelitian. Indeks kedua, dilambangkan dengan \(t\), merepresentasikan dimensi waktu atau periode observasi, di mana \(t = 1, 2, \dots, T\). Frekuensi temporal ini dapat bersifat tahunan, kuartalan, bulanan, atau bahkan harian.

Notasi \(Y_{it}\) secara eksplisit menyatakan bahwa nilai variabel terikat pada observasi ke-\(i\) di periode ke-\(t\) bersifat unik dan tidak dapat diasumsikan identik dengan observasi lain. Berbeda dengan data cross-section murni yang hanya menggunakan notasi \(Y_i\) (mengabaikan dinamika waktu) atau data time series murni yang menggunakan \(Y_t\) (mengabaikan heterogenitas antar-unit), notasi panel \(Y_{it}\) memungkinkan peneliti untuk melacak evolusi setiap entitas secara longitudinal sekaligus membandingkan performa relatif antar-entitas pada titik waktu yang sama. Presisi notasi ini bukan sekadar konvensi penulisan, melainkan fondasi struktural yang menentukan bagaimana matriks desain, vektor residual, dan estimator koefisien akan dibangun dalam prosedur regresi.

1.2.2 Persamaan Umum dan Dekomposisi Komponen Error

Secara matematis, model regresi data panel dasar dapat dituliskan sebagai berikut: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\] Di sini, \(\alpha\) adalah konstanta (intercept), \(\beta_1, \dots, \beta_k\) adalah koefisien regresi yang mengukur elastisitas atau pengaruh marginal variabel bebas \(X_{kit}\) terhadap variabel terikat \(Y_{it}\), dan \(u_{it}\) adalah komponen error komposit. Kekuatan analitis data panel terletak pada pengakuan bahwa error \(u_{it}\) tidak bersifat homogen, melainkan merupakan penjumlahan dari dua komponen struktural: \[u_{it} = \mu_i + \nu_{it}\] Komponen \(\mu_i\) merepresentasikan efek spesifik individu (individual-specific effect) yang bersifat konstan sepanjang waktu namun bervariasi antar-entitas. Komponen ini menangkap karakteristik laten yang sulit diobservasi secara langsung, seperti budaya kerja, kualitas institusi lokal, preferensi manajemen, atau kondisi geografis permanen. Komponen kedua, \(\nu_{it}\), adalah error idiosinkratik (idiosyncratic error) yang bervariasi baik terhadap waktu maupun individu, menangkap guncangan acak, kesalahan pengukuran, atau variabel tidak teramati yang bersifat sementara. Dekomposisi ini menjadi jantung dari perbedaan metodologis antara Common Effect Model (CEM), Fixed Effect Model (FEM), dan Random Effect Model (REM), yang akan dibahas secara mendalam pada bab berikutnya.

1.2.3 Representasi Matriks dan Penataan Observasi N×T

Dalam implementasi komputasi, data panel ditransformasikan dari notasi skalar menjadi representasi matriks dan vektor terstack (stacked). Jika dataset bersifat balanced, total observasi adalah \(N \times T\). Vektor variabel terikat \(\mathbf{y}\) disusun sebagai vektor kolom berdimensi \((NT \times 1)\): \[\mathbf{y} = \begin{bmatrix} Y_{11} \\ Y_{12} \\ \vdots \\ Y_{1T} \\ Y_{21} \\ \vdots \\ Y_{NT} \end{bmatrix}\] Matriks variabel bebas \(\mathbf{X}\) berdimensi \((NT \times (k+1))\) disusun dengan pola yang sama, di mana setiap baris merepresentasikan satu observasi \((i,t)\) dan setiap kolom merepresentasikan satu variabel penjelas (termasuk kolom konstanta). Vektor error \(\mathbf{u}\) juga berdimensi \((NT \times 1)\) dan mengikuti struktur dekomposisi yang telah disebutkan. Representasi matriks ini memungkinkan penggunaan aljabar linier standar dalam menurunkan estimator Ordinary Least Squares (OLS), Generalized Least Squares (GLS), atau Within Estimator. Struktur penataan data yang konsisten sangat krusial karena perangkat lunak ekonometrika seperti R, Stata, atau EViews mengandalkan identifikasi pasangan indeks \((i,t)\) untuk mengelompokkan observasi dan menerapkan transformasi yang sesuai (seperti demeaning atau quasi-demeaning).

1.2.4 Dinamika Dimensi: Implikasi Dominasi N terhadap T

Karakteristik dimensi \(N\) dan \(T\) secara fundamental memengaruhi perilaku asymptotic estimator dan kecenderungan pemilihan model. Dalam literatur dan praktik terapan, terdapat konvensi empiris yang sering dijadikan pedoman awal sebelum pengujian formal. Apabila \(N\) jauh lebih besar daripada \(T\) (contoh: \(N = 514\) kabupaten/kota, \(T = 5\) tahun), dataset dikategorikan sebagai Large-N, Small-T. Pada konfigurasi ini, variasi antar-individu mendominasi, dan asumsi bahwa \(\mu_i\) tidak berkorelasi dengan \(X_{it}\) sering kali lebih masuk akal, sehingga model cenderung mengarah pada Random Effect. Sebaliknya, apabila \(T\) lebih besar atau sebanding dengan \(N\) (contoh: \(N = 34\) provinsi, \(T = 20\) tahun), dataset disebut Large-T, Small-N atau long panel. Di sini, dinamika temporal lebih kaya, dan efek individu \(\mu_i\) cenderung memiliki korelasi sistematis dengan variabel bebas, sehingga Fixed Effect menjadi pilihan yang lebih robust untuk menghindari bias omitted variable.

Secara teoritis, konsistensi estimator FEM tetap terjaga ketika \(T \to \infty\) dengan \(N\) tetap, sementara estimator REM membutuhkan asumsi ortogonalitas yang kuat antara \(\mu_i\) dan \(X_{it}\). Perbedaan dimensi ini juga memengaruhi derajat kebebasan (degrees of freedom) dalam pengujian hipotesis dan kekuatan statistik (statistical power) untuk mendeteksi pengaruh variabel yang bersifat halus atau jangka panjang.

1.2.5 Konvensi Penulisan Parameter dan Variabel

Standarisasi notasi parameter dan variabel dalam data panel mengikuti prinsip kejelasan dan konsistensi. Variabel yang hanya bervariasi terhadap waktu namun konstan antar-individu pada periode yang sama dilambangkan dengan \(X_t\) (misalnya: tingkat suku bunga acuan nasional, inflasi agregat, atau kebijakan moneter). Variabel yang konstan terhadap waktu namun bervariasi antar-individu dilambangkan dengan \(X_i\) (misalnya: lokasi geografis, status kepulauan, atau budaya historis). Variabel yang bervariasi terhadap keduanya dilambangkan \(X_{it}\) (misalnya: PDRB per kapita, tingkat pengangguran, atau jumlah investasi).

Dalam notasi matriks, parameter \(\boldsymbol{\beta}\) dianggap sebagai vektor kolom berdimensi \((k \times 1)\) yang bersifat konstan di seluruh \(i\) dan \(t\) pada pendekatan pooling. Namun, jika model memperbolehkan heterogenitas parameter, notasi dapat dimodifikasi menjadi \(\boldsymbol{\beta}_i\) (koefisien spesifik individu) atau \(\boldsymbol{\beta}_t\) (koefisien spesifik waktu), yang mengarah pada spesifikasi model yang lebih kompleks seperti Varying Coefficient Models atau Dynamic Panel. Pemahaman terhadap konvensi ini mencegah kesalahan spesifikasi, terutama ketika peneliti secara tidak sengaja memasukkan variabel yang bersifat time-invariant ke dalam model FEM murni, di mana variabel tersebut akan tereliminasi secara aljabar dalam transformasi within dan menghasilkan estimasi yang tidak teridentifikasi (perfect multicollinearity dalam konteks demeaned data).

1.2.6 Transisi dari Notasi ke Spesifikasi Model Estimasi

Notasi matematis data panel bukanlah akhir dari proses teoretis, melainkan jembatan menuju tahap estimasi dan inferensi. Struktur \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\) dengan \(\mathbf{u} = \boldsymbol{\mu} + \boldsymbol{\nu}\) secara implisit menyatakan bahwa metode estimasi harus mampu menangani struktur kovarians error yang tidak skalar. Jika peneliti mengabaikan komponen \(\mu_i\) dan menerapkan Pooled OLS secara naif, asumsi independensi dan homoskedastisitas error akan dilanggar, menyebabkan estimator menjadi tidak efisien dan inferensi statistik menjadi bias. Sebaliknya, pengenalan terhadap notasi ganda dan dekomposisi error memungkinkan peneliti untuk memilih estimator yang sesuai: apakah dengan mengestimasi \(\mu_i\) secara eksplisit menggunakan Least Squares Dummy Variable (LSDV), mengeliminasi \(\mu_i\) melalui transformasi within (FEM), atau memperlakukan \(\mu_i\) sebagai bagian dari error term yang dimodelkan secara stokastik (REM).

Penguasaan terhadap notasi dan struktur data panel ini menjadi prasyarat mutlak sebelum melangkah ke penataan dataset aktual, pengujian asumsi klasik, dan prosedur seleksi model. Bab selanjutnya akan mengupas secara operasional bagaimana notasi teoretis ini diterjemahkan ke dalam implementasi nyata pada panel makro dan mikro, termasuk strategi penataan data dari sumber resmi seperti BPS dan Susenas, serta implikasi metodologis dari struktur Large-N/Small-T versus Large-T/Small-N.


1.3 Klasifikasi Data Panel: Balanced vs Unbalanced, Short vs Long Panel

1.3.1 Definisi Operasional Balanced dan Unbalanced Panel

Dalam ekonometrika data panel, klasifikasi fundamental pertama yang harus dipahami peneliti adalah distingsi antara Balanced Panel dan Unbalanced Panel. Sebuah dataset dikategorikan sebagai balanced panel apabila setiap unit cross-section \(i\) (dengan \(i = 1, 2, \dots, N\)) memiliki jumlah observasi time series \(T_i\) yang identik dan lengkap sepanjang periode studi, sehingga \(T_1 = T_2 = \dots = T_N = T\). Dengan kata lain, tidak ada missing value, tidak ada entri atau exit unit observasi di tengah periode, dan frekuensi pelaporan konsisten antar-entitas. Secara matematis, total observasi pada balanced panel selalu bernilai \(N \times T\).

Sebaliknya, dataset diklasifikasikan sebagai unbalanced panel apabila terdapat ketidaksamaan jumlah observasi antar-unit cross-section, yaitu \(T_i \neq T_j\) untuk setidaknya satu pasangan \(i \neq j\). Ketidakseimbangan ini dapat muncul akibat berbagai penyebab empiris: (1) attrition atau hilangnya responden dalam survei longitudinal, (2) late entry atau unit yang baru muncul di tengah periode (misalnya pemekaran daerah otonom baru), (3) early exit atau unit yang berhenti diamati (perusahaan bangkrut, provinsi merger), atau (4) inkonsistensi metodologis dalam pengumpulan data sekunder (perubahan definisi variabel, revisi basis tahun PDRB). Dalam konteks data resmi Indonesia seperti BPS, Susenas, atau IFLS, struktur unbalanced jauh lebih lazim ditemui dibandingkan balanced, sehingga pemahaman terhadap implikasi metodologisnya menjadi krusial.

1.3.2 Implikasi Metodologis terhadap Estimasi dan Inferensi

Pilihan antara memperlakukan data sebagai balanced atau unbalanced memiliki konsekuensi langsung terhadap prosedur estimasi dan validitas inferensi statistik. Pada balanced panel, matriks desain \(\mathbf{X}\) dan vektor residual \(\mathbf{u}\) memiliki struktur blok yang teratur, memungkinkan penggunaan transformasi aljabar standar seperti within transformation untuk Fixed Effect Model atau quasi-demeaning untuk Random Effect Model tanpa modifikasi khusus. Estimator seperti LSDV (Least Squares Dummy Variable) atau GLS (Generalized Least Squares) dapat diterapkan secara langsung dengan asumsi bahwa missingness bersifat deterministik dan tidak acak.

Pada unbalanced panel, struktur matriks menjadi tidak seragam, sehingga prosedur estimasi harus mengakomodasi variasi dimensi \(T_i\). Secara teoretis, konsistensi estimator tetap terjaga asalkan mekanisme missingness memenuhi asumsi Missing Completely at Random (MCAR) atau Missing at Random (MAR), yaitu probabilitas suatu observasi hilang tidak berkorelasi dengan nilai variabel terikat setelah mengontrol variabel bebas yang teramati. Jika missingness bersifat Not Missing at Random (NMAR), misalnya unit dengan kinerja ekstrem cenderung tidak melaporkan data, maka estimator konvensional dapat menghasilkan bias seleksi (selection bias) yang serius. Oleh karena itu, sebelum estimasi, peneliti wajib melakukan diagnostik terhadap pola missingness dan mempertimbangkan teknik koreksi seperti Heckman selection model atau multiple imputation jika diperlukan.

1.3.3 Dimensi Temporal: Short Panel vs Long Panel

Klasifikasi kedua didasarkan pada dominasi relatif antara dimensi cross-section \(N\) dan dimensi time series \(T\). Sebuah dataset dikategorikan sebagai short panel atau large-N, small-T apabila jumlah unit cross-section jauh lebih besar daripada panjang deret waktu, yaitu \(N \gg T\). Contoh tipikal dalam penelitian ekonomi Indonesia adalah analisis determinan kemiskinan menggunakan data 514 kabupaten/kota (\(N = 514\)) selama 5 tahun (\(T = 5\)). Pada konfigurasi ini, variasi antar-individu mendominasi informasi dalam dataset, sehingga asumsi bahwa efek spesifik individu \(\mu_i\) bersifat acak dan tidak berkorelasi dengan variabel bebas \(X_{it}\) sering kali lebih masuk akal. Secara konvensi empiris, short panel cenderung mengarah pada pemilihan Random Effect Model, meskipun keputusan final tetap harus didasarkan pada uji formal seperti Hausman test.

Sebaliknya, dataset diklasifikasikan sebagai long panel atau large-T, small-N apabila panjang deret waktu sebanding atau lebih besar daripada jumlah unit cross-section, yaitu \(T \gtrsim N\). Contoh representatif adalah studi dinamika pertumbuhan ekonomi 34 provinsi Indonesia (\(N = 34\)) selama 20 tahun (\(T = 20\)). Pada long panel, kekayaan informasi temporal memungkinkan peneliti untuk memodelkan dinamika penyesuaian (dynamic adjustment), menguji stasioneritas, dan mendeteksi struktur autokorelasi yang lebih kompleks. Secara teoretis, konsistensi Fixed Effect Model terjaga ketika \(T \to \infty\) dengan \(N\) tetap, sehingga long panel sering kali lebih robust terhadap bias omitted variable yang bersifat time-invariant. Namun, long panel juga rentan terhadap masalah non-stasioneritas dan kointegrasi panel yang memerlukan pendekatan estimasi khusus seperti Panel Unit Root Test atau Panel Cointegration.

1.3.4 Klasifikasi Berdasarkan Sumber Variasi: Within, Between, dan Overall

Selain klasifikasi struktural di atas, data panel juga dapat dikategorikan berdasarkan sumber variasi yang dominan dalam dataset. Variasi within merujuk pada perubahan nilai variabel pada unit yang sama sepanjang waktu, yaitu deviasi \(X_{it} - \bar{X}_i\) di mana \(\bar{X}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} X_{it}\) adalah rata-rata time series untuk unit \(i\). Variasi between merujuk pada perbedaan rata-rata antar-unit, yaitu deviasi \(\bar{X}_i - \bar{X}\) di mana \(\bar{X} = \frac{1}{N} \sum_{i=1}^{N} \bar{X}_i\) adalah grand mean. Variasi overall menggabungkan kedua sumber tersebut, yaitu deviasi \(X_{it} - \bar{X}\).

Pemahaman terhadap dekomposisi variasi ini krusial karena setiap pendekatan estimasi memanfaatkan sumber variasi yang berbeda: Fixed Effect Model hanya menggunakan variasi within (mengeliminasi between melalui transformasi demeaning), Random Effect Model memanfaatkan kombinasi weighted antara within dan between, sedangkan Pooled OLS menggunakan variasi overall secara naif. Dalam praktik, jika variabel bebas memiliki variasi within yang kecil (misalnya variabel kebijakan yang jarang berubah), maka estimator FEM dapat menghasilkan standar error yang besar dan daya uji yang rendah. Sebaliknya, jika variasi between mendominasi, REM mungkin lebih efisien. Oleh karena itu, sebelum estimasi, peneliti disarankan untuk menghitung rasio variasi within-to-between sebagai diagnostik awal dalam pemilihan model.

1.3.5 Strategi Penataan Data dan Pra-Pemrosesan untuk Setiap Klasifikasi

Implementasi teknis klasifikasi data panel memerlukan strategi penataan data yang spesifik. Untuk balanced panel, struktur data dapat direpresentasikan dalam format long yang teratur dengan kolom identitas \((i, t)\) dan variabel observasi \((Y_{it}, X_{kit})\), memungkinkan penggunaan perintah standar seperti xtset di Stata atau plm di R tanpa modifikasi. Untuk unbalanced panel, peneliti harus memastikan bahwa software mengenali pola missingness secara eksplisit, misalnya dengan mendeklarasikan struktur panel menggunakan xtset id year, balance di Stata atau pdim() di R untuk memvalidasi kelengkapan observasi.

Pada short panel, fokus pra-pemrosesan adalah pada penanganan heterogenitas cross-section, misalnya melalui standarisasi variabel atau transformasi logaritmik untuk mengurangi skewness antar-unit. Pada long panel, prioritas bergeser ke diagnostik temporal seperti uji stasioneritas (Panel Unit Root Test: Levin-Lin-Chu, Im-Pesaran-Shin) dan kointegrasi (Panel Cointegration Test: Pedroni, Kao), serta penanganan autokorelasi melalui koreksi Newey-West atau estimasi Dynamic Panel jika diperlukan. Untuk dataset dengan variasi within yang rendah, peneliti dapat mempertimbangkan hybrid model atau Correlated Random Effects yang memungkinkan estimasi efek variabel time-invariant tanpa mengorbankan konsistensi.

1.3.6 Transisi ke Implementasi Makro dan Mikro: Relevansi Klasifikasi dalam Konteks Empiris

Klasifikasi data panel bukan sekadar exercises teoretis, melainkan panduan praktis dalam merancang strategi analisis yang sesuai dengan konteks penelitian. Dalam studi panel makro (provinsi, negara), struktur large-N, small-T lebih umum karena ketersediaan data agregat BPS yang mencakup banyak wilayah namun dengan rentang waktu terbatas akibat perubahan metodologi statistik. Di sini, Random Effect Model sering menjadi pilihan awal, meskipun uji Hausman tetap wajib dilakukan untuk memvalidasi asumsi ortogonalitas.

Sebaliknya, dalam studi panel mikro (rumah tangga, individu), dataset seperti IFLS atau Susenas panel sering kali bersifat long panel dengan \(T\) yang cukup besar untuk melacak dinamika perilaku, namun dengan \(N\) yang lebih kecil akibat attrition survei. Pada konteks ini, Fixed Effect Model lebih disukai untuk mengontrol heterogenitas tidak teramati yang berkorelasi dengan variabel bebas, seperti preferensi risiko atau norma sosial. Pemahaman mendalam terhadap klasifikasi balanced/unbalanced dan short/long panel memungkinkan peneliti untuk tidak hanya memilih model yang secara statistik valid, tetapi juga yang secara substantif relevan dengan pertanyaan penelitian, sumber data, dan kebijakan yang ingin diinformasikan.


1.4 Keunggulan Data Panel: Menangkap Heterogenitas, Dinamika, dan Efisiensi Estimasi

1.4.1 Pengendalian Heterogenitas Tidak Teramati: Kekuatan Utama Data Panel

Salah satu keunggulan paling fundamental dari data panel dalam ekonometrika adalah kemampuannya untuk mengontrol dan mengisolasi efek heterogenitas tidak teramati (unobserved heterogeneity) yang melekat pada setiap unit cross-section. Dalam penelitian ekonomi dan sosial, banyak faktor penentu yang mempengaruhi variabel terikat sulit atau bahkan tidak mungkin untuk diobservasi secara langsung, seperti budaya kerja, kualitas institusi lokal, preferensi manajerial, norma sosial, atau kondisi geografis permanen. Ketika peneliti menggunakan data cross-section murni, variabel-variabel laten ini akan masuk ke dalam komponen error \(u_i\), dan jika berkorelasi dengan variabel bebas \(X_i\), maka estimator OLS akan menghasilkan bias omitted variable yang serius dan tidak konsisten.

Data panel mengatasi masalah ini melalui dekomposisi error menjadi dua komponen: \(u_{it} = \mu_i + \nu_{it}\), di mana \(\mu_i\) merepresentasikan efek spesifik individu yang konstan sepanjang waktu namun bervariasi antar-entitas, dan \(\nu_{it}\) adalah error idiosinkratik yang bervariasi terhadap waktu dan individu. Dengan pendekatan Fixed Effect Model (FEM), peneliti dapat mengeliminasi \(\mu_i\) melalui transformasi within atau pendekatan Least Squares Dummy Variable (LSDV), sehingga koefisien \(\beta\) yang diestimasi mencerminkan pengaruh bersih variabel bebas setelah mengontrol semua karakteristik individu yang tidak berubah sepanjang waktu. Kemampuan ini menjadikan data panel sebagai instrumen yang sangat powerful untuk inferensi kausal, terutama dalam studi evaluasi kebijakan, analisis determinan pertumbuhan, atau penelitian perilaku ekonomi yang rentan terhadap bias seleksi.

1.4.2 Peningkatan Variasi Informasi dan Derajat Kebebasan Estimasi

Keunggulan kedua data panel terletak pada peningkatan substansial dalam variasi informasi dan derajat kebebasan (degrees of freedom) yang tersedia untuk estimasi model. Dalam data cross-section murni dengan \(N\) observasi, peneliti hanya memiliki \(N\) titik data untuk mengestimasi parameter. Demikian pula, data time series murni dengan \(T\) observasi hanya menyediakan \(T\) titik data. Namun, dalam data panel balanced dengan \(N\) unit dan \(T\) periode, total observasi yang tersedia adalah \(N \times T\), yang secara otomatis memperbesar ukuran sampel efektif tanpa memerlukan pengumpulan data tambahan yang mahal atau tidak praktis.

Peningkatan ukuran sampel ini memiliki implikasi statistik yang penting. Pertama, varians dari estimator koefisien \(\hat{\beta}\) cenderung menurun seiring dengan peningkatan jumlah observasi, sehingga presisi estimasi meningkat dan interval kepercayaan menjadi lebih sempit. Kedua, daya uji statistik (statistical power) untuk mendeteksi pengaruh variabel yang bersifat halus atau marginal menjadi lebih kuat, mengurangi risiko kesalahan tipe II (gagal menolak hipotesis nol yang sebenarnya salah). Ketiga, dengan variasi yang berasal dari dua dimensi—antar-individu dan antar-waktu—data panel memungkinkan peneliti untuk mengidentifikasi efek yang mungkin tersembunyi atau terkonfusi dalam analisis dimensi tunggal. Sebagai ilustrasi, dalam studi determinan kemiskinan di 38 provinsi Indonesia selama 10 tahun, data panel menyediakan 380 observasi yang memungkinkan estimasi yang lebih robust dibandingkan hanya menggunakan data satu tahun (38 observasi) atau data satu provinsi selama 10 tahun (10 observasi).

1.4.3 Deteksi dan Pemodelan Dinamika Penyesuaian (Dynamic Adjustment)

Dalam ekonomi, respons terhadap guncangan kebijakan, perubahan harga, atau intervensi program jarang bersifat instan. Banyak fenomena ekonomi menunjukkan proses penyesuaian bertahap (gradual adjustment), di mana nilai variabel pada periode \(t\) dipengaruhi tidak hanya oleh kondisi saat ini, tetapi juga oleh nilai masa lalunya. Data panel memungkinkan peneliti untuk memodelkan dinamika ini secara eksplisit melalui spesifikasi model dinamis, seperti: \[Y_{it} = \alpha + \rho Y_{i,t-1} + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \mu_i + \nu_{it}\] di mana \(\rho\) mengukur persistensi atau kecepatan penyesuaian variabel terikat. Parameter \(\rho\) yang signifikan mengindikasikan adanya state dependence, yaitu kecenderungan variabel untuk mempertahankan nilai sebelumnya, yang memiliki implikasi penting bagi desain kebijakan. Misalnya, dalam analisis kemiskinan, nilai \(\rho\) yang tinggi menunjukkan bahwa kemiskinan bersifat persisten, sehingga intervensi kebijakan harus bersifat jangka panjang dan berkelanjutan, bukan sekadar program jangka pendek.

Selain itu, data panel memungkinkan pengujian hipotesis mengenai kecepatan konvergensi (speed of convergence) antar-unit, analisis catch-up effect dalam pertumbuhan ekonomi daerah, atau evaluasi dampak kebijakan dengan mempertimbangkan lag effect. Kemampuan untuk memodelkan dinamika temporal ini tidak dapat direplikasi oleh data cross-section murni yang bersifat statis, dan jauh lebih robust dibandingkan data time series tunggal yang rentan terhadap masalah non-stasioneritas dan spurious regression.

1.4.4 Reduksi Masalah Multikolinearitas dan Fleksibilitas Penanganan Heteroskedastisitas

Struktur data panel yang menggabungkan variasi ruang dan waktu cenderung memutus korelasi spasial yang tinggi antar-variabel independen yang sering ditemui dalam data time series murni. Dalam data time series, variabel makroekonomi seperti inflasi, suku bunga, dan nilai tukar sering bergerak secara sinkron, menghasilkan korelasi tinggi yang memicu masalah multikolinearitas dan inflasi standar error. Dalam data panel, variasi antar-individu memperkenalkan sumber variasi tambahan yang dapat mengurangi korelasi antar-variabel bebas, sehingga estimator menjadi lebih stabil dan interpretasi koefisien lebih dapat diandalkan.

Selain itu, data panel menawarkan fleksibilitas dalam penanganan heteroskedastisitas dan korelasi error. Dengan struktur error yang terdekompisisasi menjadi \(\mu_i\) dan \(\nu_{it}\), peneliti dapat menerapkan estimator yang robust terhadap heteroskedastisitas antar-individu maupun autokorelasi dalam dimensi waktu, seperti Clustered Standard Errors, Feasible Generalized Least Squares (FGLS), atau Driscoll-Kraay Standard Errors untuk panel dengan cross-sectional dependence. Fleksibilitas ini memungkinkan validasi asumsi klasik yang lebih realistis dan inferensi statistik yang lebih credible dibandingkan pendekatan OLS naif yang mengabaikan struktur error panel.

1.4.5 Efisiensi Estimasi dan Konsistensi Asimtotik dalam Berbagai Konfigurasi Dimensi

Keunggulan teoritis data panel juga tercermin dalam sifat asimtotik estimator yang digunakan. Dalam konfigurasi Large-N, Small-T (banyak individu, sedikit periode), estimator Random Effect Model (REM) berbasis Generalized Least Squares (GLS) bersifat konsisten dan efisien asalkan asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) terpenuhi. Dalam konfigurasi Large-T, Small-N (sedikit individu, banyak periode), estimator Fixed Effect Model (FEM) tetap konsisten bahkan ketika \(\mu_i\) berkorelasi dengan \(X_{it}\), karena transformasi within mengeliminasi efek individu secara deterministik.

Lebih lanjut, dalam konfigurasi Large-N, Large-T (kedua dimensi besar), estimator panel modern seperti Common Correlated Effects (CCE) atau Interactive Fixed Effects dapat menangani heterogenitas parameter dan faktor umum yang tidak teramati, menghasilkan inferensi yang robust terhadap kompleksitas struktural data. Sifat asimtotik ini memberikan landasan teoretis yang kuat bagi peneliti untuk memilih spesifikasi model yang sesuai dengan karakteristik dataset, sekaligus memastikan bahwa hasil estimasi memiliki validitas statistik yang dapat dipertanggungjawabkan dalam konteks kebijakan atau publikasi ilmiah.

1.4.6 Implikasi Substantif: Dari Keunggulan Metodologis ke Relevansi Kebijakan

Keunggulan metodologis data panel tidak berhenti pada presisi statistik, melainkan bermuara pada relevansi substantif bagi perumusan kebijakan. Dengan kemampuan mengontrol heterogenitas tidak teramati, data panel memungkinkan peneliti untuk mengisolasi efek kausal kebijakan yang lebih credible, mengurangi bias yang sering menggerogoti evaluasi program berbasis cross-section. Dengan deteksi dinamika penyesuaian, data panel memberikan wawasan mengenai kecepatan dan pola respons ekonomi terhadap intervensi, yang krusial untuk desain kebijakan yang adaptif dan berkelanjutan.

Sebagai contoh konkret, dalam studi determinan kemiskinan menggunakan data panel 38 provinsi, keunggulan data panel memungkinkan peneliti untuk: (1) mengontrol karakteristik provinsi yang tidak berubah sepanjang waktu (seperti geografi, budaya, atau sejarah institusi) melalui FEM, (2) mengestimasi elastisitas kemiskinan terhadap IPM dan pengangguran dengan presisi tinggi berkat variasi \(N \times T\), (3) mendeteksi apakah dampak kebijakan pengentasan kemiskinan bersifat persisten atau memerlukan intervensi berulang melalui spesifikasi dinamis, dan (4) menghasilkan rekomendasi kebijakan yang diferensiatif berdasarkan heterogenitas respons antar-provinsi. Dengan demikian, data panel bukan sekadar alat statistik, melainkan jembatan antara rigor metodologis dan relevansi kebijakan yang berdampak nyata.


1.5 Kriteria Pemilihan: Kapan Menggunakan Data Panel dalam Penelitian Empiris

1.5.1 Pertanyaan Penelitian sebagai Fondasi Utama Pemilihan Metode

Keputusan untuk menggunakan data panel dalam penelitian ekonometrika tidak boleh didasarkan pada tren metodologis semata, melainkan harus berakar pada substansi pertanyaan penelitian yang ingin dijawab. Data panel menjadi pilihan yang tepat ketika peneliti ingin menginvestigasi fenomena yang memiliki dimensi ganda: variasi antar-unit observasi dan dinamika perubahan sepanjang waktu. Secara operasional, terdapat tiga kategori pertanyaan penelitian yang secara inheren memerlukan pendekatan data panel. Pertama, pertanyaan yang bertujuan mengisolasi efek kausal dengan mengontrol heterogenitas tidak teramati yang bersifat time-invariant, seperti “Sejauh mana peningkatan IPM berpengaruh terhadap penurunan kemiskinan setelah mengontrol karakteristik provinsi yang konstan seperti geografi dan budaya institusi?” Kedua, pertanyaan yang mengeksplorasi dinamika penyesuaian dan persistensi, misalnya “Berapa kecepatan konvergensi tingkat pengangguran antar-provinsi setelah implementasi kebijakan desentralisasi fiskal?” Ketiga, pertanyaan yang membandingkan respons diferensial antar-unit terhadap guncangan yang sama, contohnya “Apakah dampak kenaikan harga energi terhadap inflasi daerah berbeda antara provinsi industri dan provinsi agraris?” Jika pertanyaan penelitian hanya bersifat deskriptif cross-section (“Bagaimana profil kemiskinan provinsi pada tahun 2023?”) atau murni time-series (“Bagaimana tren inflasi nasional selama 20 tahun terakhir?”), maka data panel bukan pilihan yang efisien dan justru dapat memperumit analisis tanpa menambah nilai inferensial.

1.5.2 Ketersediaan dan Kualitas Data: Prasyarat Empiris yang Non-Negosiable

Secara pragmatis, penggunaan data panel sangat bergantung pada ketersediaan dataset yang memenuhi standar kualitas dan konsistensi temporal. Dalam konteks penelitian di Indonesia, sumber data panel resmi yang dapat diandalkan meliputi publikasi Badan Pusat Statistik (BPS) untuk data makro wilayah (PDRB, IPM, TPT, kemiskinan), Survei Sosial Ekonomi Nasional (Susenas) dan Survei Angkatan Kerja Nasional (Sakernas) untuk data rumah tangga yang dapat di-panel-kan melalui matching kode wilayah dan karakteristik demografi, serta Indonesian Family Life Survey (IFLS) untuk panel mikro longitudinal yang mengikuti responden yang sama secara berkala. Kriteria kelayakan data panel mencakup: (1) konsistensi definisi variabel antar-periode, misalnya perubahan metodologi penghitungan kemiskinan atau revisi tahun dasar PDRB harus diadjust agar comparability terjaga; (2) kelengkapan observasi, di mana missing value yang sistematis (bukan acak) dapat menginduksi bias seleksi; (3) frekuensi temporal yang sesuai dengan dinamika fenomena, misalnya studi dampak kebijakan moneter memerlukan data kuartalan, sementara analisis pembangunan infrastruktur dapat menggunakan data tahunan; dan (4) ukuran dimensi \(N\) dan \(T\) yang memadai untuk estimasi yang konsisten, dengan konvensi empiris \(N \times T \geq 50\) sebagai batas minimum untuk model dasar. Peneliti wajib melakukan audit data awal untuk memvalidasi kriteria ini sebelum berkomitmen pada spesifikasi data panel.

1.5.3 Karakteristik Fenomena: Heterogenitas, Dinamika, dan Interaksi Spasio-Temporal

Pemilihan data panel juga harus mempertimbangkan sifat intrinsik fenomena yang diteliti. Fenomena ekonomi dan sosial sering kali ditandai oleh tiga karakteristik yang hanya dapat ditangkap secara adekuat melalui pendekatan panel. Pertama, heterogenitas struktural antar-unit, seperti perbedaan kapasitas fiskal, kualitas birokrasi, atau norma sosial antar-provinsi yang mempengaruhi respons terhadap kebijakan yang sama. Data panel memungkinkan peneliti mengontrol heterogenitas ini melalui Fixed Effect Model, sehingga estimasi koefisien mencerminkan efek bersih variabel kebijakan. Kedua, dinamika temporal dan persistensi, di mana nilai variabel saat ini dipengaruhi oleh nilai masa lalunya (state dependence). Spesifikasi model dinamis data panel, seperti \(Y_{it} = \rho Y_{i,t-1} + \beta X_{it} + \mu_i + \nu_{it}\), memungkinkan estimasi parameter persistensi \(\rho\) yang krusial untuk desain kebijakan berkelanjutan. Ketiga, interaksi spasio-temporal, misalnya efek spillover kebijakan dari provinsi tetangga atau konvergensi ekonomi regional. Meskipun analisis spasial ekonometrik memerlukan pendekatan khusus, data panel dasar dapat menjadi fondasi awal untuk mendeteksi pola korelasi error antar-unit yang mengindikasikan ketergantungan spasial. Jika fenomena yang diteliti bersifat homogen antar-unit dan statis terhadap waktu, maka data cross-section atau time-series murni mungkin lebih parsimonius dan efisien.

1.5.4 Pertimbangan Efisiensi Statistik dan Kekuatan Inferensi

Dari perspektif ekonometrika, data panel menawarkan keunggulan efisiensi statistik yang signifikan dibandingkan pendekatan dimensi tunggal, namun keunggulan ini hanya terealisasi jika kondisi tertentu terpenuhi. Pertama, peningkatan degrees of freedom melalui \(N \times T\) observasi hanya meningkatkan presisi estimasi jika variasi within (perubahan dalam unit sepanjang waktu) dan variasi between (perbedaan rata-rata antar-unit) keduanya informatif. Jika variabel bebas memiliki variasi within yang sangat rendah (misalnya variabel kebijakan yang jarang berubah), maka Fixed Effect Model dapat menghasilkan standar error yang besar dan daya uji yang rendah, sehingga Random Effect Model atau pendekatan hybrid mungkin lebih tepat. Kedua, kemampuan mengontrol unobserved heterogeneity melalui dekomposisi error \(u_{it} = \mu_i + \nu_{it}\) hanya valid jika asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) (untuk REM) atau konsistensi within estimator (untuk FEM) terpenuhi. Pelanggaran asumsi ini, misalnya karena korelasi antara \(\mu_i\) dan \(X_{it}\), dapat menginduksi bias yang lebih parah dibandingkan OLS pada data cross-section. Ketiga, efisiensi GLS pada Random Effect Model hanya superior jika struktur kovarians error dimodelkan dengan benar; jika tidak, estimator yang robust seperti Clustered Standard Errors atau Driscoll-Kraay mungkin lebih dapat diandalkan. Peneliti harus melakukan diagnostik awal terhadap variasi data dan uji asumsi sebelum memutuskan spesifikasi model.

1.5.5 Konteks Kebijakan dan Relevansi Substantif untuk Pengambilan Keputusan

Dalam penelitian terapan yang bertujuan menginformasikan kebijakan, penggunaan data panel sering kali menjadi keharusan substantif, bukan sekadar pilihan metodologis. Kebijakan publik, baik di level nasional maupun daerah, sering kali dirancang dengan asumsi bahwa dampaknya dapat bervariasi antar-wilayah dan berevolusi sepanjang waktu. Data panel memungkinkan evaluasi kebijakan yang lebih kredibel melalui tiga mekanisme. Pertama, desain Difference-in-Differences (DiD) yang membandingkan perubahan outcome antara kelompok treatment dan control sebelum dan setelah intervensi, memerlukan struktur panel untuk mengidentifikasi efek kausal. Kedua, analisis heterogenitas dampak kebijakan, misalnya apakah program bantuan sosial lebih efektif di daerah dengan infrastruktur digital yang baik, memerlukan interaksi antara variabel kebijakan dan karakteristik wilayah yang hanya dapat diestimasi dengan variasi panel. Ketiga, proyeksi dan simulasi kebijakan jangka panjang, seperti dampak investasi pendidikan terhadap pengurangan kemiskinan dalam 10 tahun ke depan, memerlukan estimasi parameter dinamis yang hanya stabil jika didasarkan pada data longitudinal. Jika tujuan penelitian hanya deskriptif atau eksploratif tanpa implikasi kebijakan kausal, maka kompleksitas data panel mungkin tidak sebanding dengan manfaat inferensialnya.

1.5.6 Batasan Praktis dan Strategi Mitigasi dalam Implementasi Data Panel

Meskipun secara teoretis unggul, implementasi data panel dalam penelitian empiris menghadapi sejumlah batasan praktis yang perlu diantisipasi. Pertama, kompleksitas komputasi dan kebutuhan software khusus seperti Stata, R (paket plm), atau EViews dapat menjadi hambatan bagi peneliti dengan sumber daya terbatas. Strategi mitigasi termasuk memanfaatkan software open-source, mengikuti tutorial terstruktur, dan memulai dengan dataset kecil untuk memahami alur analisis. Kedua, risiko spesifikasi model yang salah, seperti memilih Fixed Effect ketika Random Effect lebih tepat, dapat menghasilkan inferensi yang bias. Protokol seleksi model berbasis uji formal (Chow, Hausman, LM) wajib diterapkan, namun peneliti juga harus mempertimbangkan konteks substantif dan hasil diagnostik tambahan. Ketiga, tantangan interpretasi hasil, terutama ketika koefisien FEM hanya mencerminkan efek within yang mungkin berbeda secara kualitatif dari efek between yang lebih relevan bagi kebijakan makro. Strategi komunikasi hasil yang transparan, termasuk pelaporan kedua efek dan diskusi implikasinya, dapat meningkatkan utilitas penelitian. Terakhir, etika penggunaan data sekunder, termasuk penghormatan terhadap lisensi, atribusi sumber, dan penanganan data sensitif, harus menjadi pertimbangan integral dalam desain penelitian data panel.


1.6 Batasan dan Tantangan: Isu Missing Data, Attrition, dan Kompleksitas Komputasi

1.6.1 Mekanisme Missing Data: MCAR, MAR, dan MNAR dalam Konteks Panel

Dalam praktik pengumpulan data panel, kelengkapan observasi jarang tercapai secara sempurna. Fenomena missing value muncul secara sistematis maupun acak, dan mekanisme hilangnya data secara fundamental menentukan konsistensi estimator serta validitas inferensi statistik. Secara teoritis, missing data diklasifikasikan ke dalam tiga mekanisme utama. Pertama, Missing Completely at Random (MCAR), di mana probabilitas suatu observasi hilang tidak bergantung pada nilai variabel yang teramati maupun tidak teramati. Dalam kondisi ini, penghapusan observasi (listwise deletion) tidak menginduksi bias, meskipun mengurangi efisiensi karena penurunan derajat kebebasan. Kedua, Missing at Random (MAR), di mana probabilitas missingness bergantung pada variabel bebas yang teramati \(X_{it}\), namun tidak pada variabel terikat \(Y_{it}\) setelah mengontrol \(X_{it}\). Estimasi berbasis likelihood atau metode imputasi dapat menghasilkan estimator yang konsisten asalkan model missingness teridentifikasi dengan benar. Ketiga, Missing Not at Random (MNAR), di mana probabilitas missingness berkorelasi langsung dengan nilai \(Y_{it}\) yang tidak teramati, misalnya perusahaan dengan kinerja ekstrem enggan melaporkan laporan keuangan, atau rumah tangga berpenghasilan tinggi menghindari survei pendapatan. Pada kondisi MNAR, estimator konvensional menjadi bias dan tidak konsisten, sehingga memerlukan pendekatan khusus seperti model seleksi Heckman atau pattern-mixture models. Pemahaman terhadap mekanisme missingness ini menjadi prasyarat mutlak sebelum peneliti memutuskan strategi penanganan data, karena kesalahan asumsi dapat mengubah kesimpulan substantif secara dramatis.

1.6.2 Fenomena Attrition dalam Survei Longitudinal dan Dampaknya terhadap Estimasi

Attrition merupakan bentuk spesifik dari missing data yang lazim ditemui dalam panel mikro longitudinal, di mana responden atau unit observasi secara bertahap退出 dari survei sepanjang waktu. Dalam konteks Indonesia, dataset seperti Indonesian Family Life Survey (IFLS) atau Susenas yang dipanelkan menghadapi tantangan attrition akibat migrasi penduduk, perubahan status rumah tangga, penolakan responden, atau keterbatasan anggaran survei. Attrition tidak hanya mengubah struktur panel menjadi unbalanced (\(T_i \neq T_j\)), tetapi juga berpotensi menggerogoti representativitas sampel jika responden yang bertahan memiliki karakteristik sistematis yang berbeda dari yang keluar. Misalnya, dalam studi dinamika kemiskinan, rumah tangga yang berhasil keluar dari garis kemiskinan mungkin cenderung tidak lagi memenuhi kriteria sampling atau pindah wilayah, sehingga sampel yang tersisa secara tidak proporsional diisi oleh rumah tangga dengan persistensi kemiskinan tinggi. Fenomena ini menginduksi bias seleksi sampel yang menyebabkan estimator Fixed Effect atau Random Effect menangkap pola yang tidak lagi merepresentasikan populasi awal. Secara metodologis, attrition memerlukan diagnostik eksplisit melalui uji kesetaraan karakteristik awal antara panel lengkap dan panel yang mengalami drop-out, serta penerapan teknik koreksi seperti inverse probability weighting (IPW) atau multiple imputation yang mempertimbangkan mekanisme dropout. Tanpa penanganan yang rigor, inferensi kausal dalam panel mikro berisiko menghasilkan rekomendasi kebijakan yang bias dan tidak generalizable.

1.6.3 Tantangan Komputasi: Skalabilitas Matriks \(N \times T\) dan Beban Algoritmik

Seiring dengan meningkatnya dimensi \(N\) dan \(T\), beban komputasi dalam estimasi model data panel mengalami pertumbuhan non-linier yang signifikan. Prosedur estimasi standar seperti Ordinary Least Squares (OLS), Within Estimator untuk Fixed Effect, atau Generalized Least Squares (GLS) untuk Random Effect memerlukan inversi matriks kovarians berdimensi \((NT \times NT)\) atau minimal \((k \times k)\) setelah transformasi. Ketika \(N\) mencapai ratusan kabupaten/kota atau \(T\) mencakup puluhan tahun, ukuran matriks desain \(\mathbf{X}\) dan vektor residual \(\mathbf{u}\) melampaui kapasitas memori standar perangkat lunak ekonometrika konvensional. Selain itu, algoritma iteratif seperti Feasible GLS (FGLS) atau Maximum Likelihood Estimation (MLE) pada model error components memerlukan konvergensi numerik yang rentan terhadap masalah singularitas, multikolinearitas tinggi, atau initial value sensitivity. Dalam implementasi praktis, peneliti sering menghadapi trade-off antara presisi estimator dan efisiensi komputasi. Software seperti Stata, EViews, atau R (paket plm/lmtest) memiliki batasan memori dan optimasi algoritma yang berbeda, sehingga spesifikasi model yang kompleks (misalnya interactive fixed effects atau dynamic panel dengan banyak lag) dapat menyebabkan failure to converge atau eksekusi yang memakan waktu berjam-jam. Oleh karena itu, pemahaman terhadap struktur komputasi, pemilihan algoritma yang efisien, serta strategi sub-sampling atau block-wise estimation menjadi keterampilan teknis yang krusial bagi peneliti yang bekerja dengan dataset berdimensi besar.

1.6.4 Kompleksitas Penataan Data: Unbalanced Structure, Kode Wilayah, dan Konsistensi Definisi

Selain tantangan statistik dan komputasi, implementasi data panel menghadapi kompleksitas operasional dalam penataan dan manajemen dataset. Salah satu hambatan paling umum adalah inkonsistensi identifikasi unit cross-section sepanjang waktu. Dalam data makro wilayah Indonesia, pemekaran daerah otonom baru, perubahan kode administrasi BPS, atau revisi batas wilayah menyebabkan unit observasi tidak dapat di-track secara konsisten, sehingga memerlukan rekonsiliasi manual atau agregasi ke level yang lebih tinggi. Di sisi lain, data sekunder seperti PDRB, IPM, atau tingkat kemiskinan sering kali mengalami perubahan metodologi penghitungan, revisi tahun dasar, atau penyesuaian deflator yang mengancam comparability antar-periode. Jika tidak diadjust secara eksplisit, perubahan ini menginduksi structural break yang termanifestasi sebagai outlier atau shift mean yang bias estimator. Dalam data mikro, masalah penataan muncul dari format survei yang tidak secara eksplisit dirancang sebagai panel, sehingga peneliti harus melakukan matching berdasarkan karakteristik demografi, lokasi, atau ID rumah tangga yang rentan terhadap kesalahan pencocokan. Proses cleaning, merging, dan reshaping dari format wide ke long (atau sebaliknya) memerlukan protokol validasi yang ketat untuk memastikan bahwa setiap pasangan \((i,t)\) benar-benar merepresentasikan entitas yang sama pada periode yang dimaksud. Tanpa disiplin penataan data, bahkan model ekonometrika yang paling canggih pun akan menghasilkan output yang misleading.

1.6.5 Strategi Mitigasi: Imputasi, Weighting, dan Estimasi Robust

Menghadapi batasan missing data, attrition, dan kompleksitas komputasi, literatur ekonometrika panel telah mengembangkan seperangkat strategi mitigasi yang dapat diintegrasikan ke dalam alur penelitian. Untuk missing data yang bersifat MAR, multiple imputation by chained equations (MICE) atau expectation-maximization (EM) algorithm memungkinkan pengisian nilai hilang dengan mempertimbangkan distribusi bersama variabel, sehingga mempertahankan variasi within dan between tanpa mengorbankan ukuran sampel. Untuk mengatasi attrition yang berpotensi MNAR, inverse probability weighting (IPW) memberikan bobot lebih besar pada responden yang bertahan dengan karakteristik mirip responden yang dropout, sehingga mengoreksi bias seleksi secara proporsional. Dalam dimensi komputasi, penggunaan estimator yang robust terhadap heteroskedastisitas dan autokorelasi, seperti Clustered Standard Errors (Liang-Zeger) atau Driscoll-Kraay standard errors, mengurangi ketergantungan pada asumsi distribusi error yang ketat sekaligus mempercepat konvergensi numerik dibandingkan FGLS penuh. Selain itu, teknik regularisasi seperti ridge regression atau principal component analysis (PCA) pada variabel bebas dapat mereduksi dimensi \(k\) tanpa mengorbankan informasi substantif, sehingga meringankan beban inversi matriks. Penerapan strategi-strategi ini harus disesuaikan dengan mekanisme missingness, tujuan inferensi, dan kapasitas komputasi, serta selalu disertai sensitivity analysis untuk memvalidasi robustness hasil terhadap asumsi penanganan data.

1.6.6 Transisi ke Implementasi Empiris: Dari Teori ke Praktik Panel Makro dan Mikro

Pemahaman mendalam terhadap batasan teoritis dan tantangan operasional data panel bukan merupakan akhir dari diskusi metodologis, melainkan fondasi yang menyiapkan peneliti untuk tahap implementasi empiris. Karakteristik dataset yang dihadapi secara langsung menentukan konfigurasi dimensi \(N\) dan \(T\), pola missingness, serta kompleksitas penataan data. Pada level makro, panel provinsi atau kabupaten/kota yang bersumber dari publikasi resmi BPS cenderung bersifat Large-N, Small-T dengan missing data yang lebih terstruktur dan definisi variabel yang relatif stabil, namun rentan terhadap isu pemekaran wilayah dan revisi metodologi agregat. Pada level mikro, panel rumah tangga atau individu dari Susenas, Sakernas, atau IFLS sering kali berstruktur Longitudinal dengan attrition tinggi, variasi within yang kaya, dan tantangan matching yang kompleks. Perbedaan kontekstual ini menuntut penyesuaian strategi estimasi, diagnostik asumsi, dan interpretasi hasil yang spesifik. Bab berikutnya akan menguraikan secara operasional bagaimana karakteristik teoretis dan batasan praktis ini diterjemahkan ke dalam implementasi nyata, mencakup diferensiasi panel makro versus mikro, teknik penataan data dari sumber resmi, serta implikasi metodologis dari dominasi dimensi \(N\) versus \(T\) dalam pemilihan model terbaik.


BAB 2: IMPLEMENTASI PANEL MAKRO & MIKRO

2.1 Konsep Large-T/Small-N vs Large-N/Small-T: Implikasi terhadap Pemilihan Model

2.1.1 Definisi Operasional dan Landasan Teoritis Dimensi Panel

Dalam ekonometrika data panel, konfigurasi dimensi \(N\) (jumlah unit cross-section) dan \(T\) (jumlah periode waktu) bukan sekadar deskripsi administratif dataset, melainkan fondasi teoritis yang menentukan sifat asimtotik estimator, validitas inferensi, dan kecenderungan pemilihan model. Secara formal, konfigurasi Large-N, Small-T merujuk pada situasi di mana jumlah unit observasi jauh lebih besar daripada panjang deret waktu, yaitu \(N \gg T\). Contoh empiris yang lazim di Indonesia adalah analisis determinan pertumbuhan atau kemiskinan menggunakan data 514 kabupaten/kota (\(N = 514\)) selama 5–7 tahun (\(T = 5\) atau \(7\)). Sebaliknya, konfigurasi Large-T, Small-N terjadi ketika panjang deret waktu sebanding atau lebih besar daripada jumlah unit, yaitu \(T \gtrsim N\), seperti studi dinamika fiskal 34 provinsi (\(N = 34\)) selama 20 tahun (\(T = 20\)). Landasan teoritis dari distingsi ini terletak pada kerangka asimtotik yang berbeda: pada Large-N/Small-T, konsistensi estimator dievaluasi ketika \(N \to \infty\) dengan \(T\) tetap, sedangkan pada Large-T/Small-N, konsistensi dianalisis ketika \(T \to \infty\) dengan \(N\) tetap. Perbedaan kerangka ini secara fundamental mengubah cara error komponen \(\mu_i\) berinteraksi dengan regressor \(X_{it}\), sehingga memengaruhi bias, varians, dan efisiensi estimator yang digunakan. Pemahaman terhadap dimensi ini menjadi prasyarat sebelum peneliti menerapkan prosedur estimasi atau pengujian hipotesis, karena asumsi yang valid dalam satu konfigurasi dapat runtuh secara matematis dalam konfigurasi lainnya.

2.1.2 Perilaku Asimtotik Estimator dalam Konfigurasi Large-N/Small-T

Pada konfigurasi Large-N/Small-T, variasi antar-individu (between variation) mendominasi informasi dalam dataset, sementara variasi dalam individu sepanjang waktu (within variation) relatif terbatas. Kondisi ini memiliki implikasi langsung terhadap perilaku estimator Fixed Effect Model (FEM) dan Random Effect Model (REM). Karena \(T\) kecil, transformasi within pada FEM mengonsumsi derajat kebebasan secara signifikan, menyebabkan varians estimator \(\hat{\beta}_{FE}\) membesar dan daya uji statistik menurun, terutama untuk variabel yang berubah lambat sepanjang waktu. Secara asimtotik, FEM tetap konsisten asalkan \(T\) cukup untuk mengestimasi efek individu, namun dalam praktik \(T < 10\) sering kali tidak memadai untuk memisahkan sinyal temporal dari noise idiosinkratik \(\nu_{it}\). Di sisi lain, REM yang berbasis Generalized Least Squares (GLS) memanfaatkan kombinasi weighted antara variasi within dan between, sehingga lebih efisien ketika asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) terpenuhi. Dalam konfigurasi ini, konsistensi REM tidak bergantung pada \(T \to \infty\), melainkan pada ketidakkorelasian antara efek individu dan regressor. Jika asumsi ini valid, REM menghasilkan estimator yang unbiased dan efisien dengan standar error yang lebih kecil dibandingkan FEM. Namun, jika \(\mu_i\) berkorelasi dengan \(X_{it}\), REM menjadi bias dan tidak konsisten, sementara FEM tetap konsisten meski kurang efisien. Oleh karena itu, Large-N/Small-T secara teoritis cenderung mendukung REM, meskipun keputusan akhir harus divalidasi melalui uji formal seperti Hausman test yang membandingkan konsistensi versus efisiensi.

2.1.3 Perilaku Asimtotik Estimator dalam Konfigurasi Large-T/Small-N

Konfigurasi Large-T/Small-N menawarkan kekayaan informasi temporal yang memungkinkan peneliti mengestimasi dinamika penyesuaian, menguji stasioneritas, dan mendeteksi pola autokorelasi yang lebih kompleks. Dalam setting ini, variasi within mendominasi, sehingga transformasi within pada FEM tidak mengorbankan derajat kebebasan secara signifikan dan justru mengisolasi efek kausal dengan lebih presisi. Secara asimtotik, ketika \(T \to \infty\), estimator FEM konvergen ke nilai parameter yang benar bahkan jika \(\mu_i\) berkorelasi dengan \(X_{it}\), karena transformasi within secara deterministik mengeliminasi \(\mu_i\) tanpa memerlukan asumsi ortogonalitas. Sebaliknya, REM dalam konfigurasi Long Panel rentan terhadap inkonsistensi jika korelasi antara \(\mu_i\) dan \(X_{it}\) bersifat sistematis dan tidak terkontrol. Lebih lanjut, panjangnya deret waktu memperkenalkan tantangan ekonometrika tambahan seperti non-stasioneritas, structural break, dan cross-sectional dependence yang dapat menggerogoti validitas inferensi jika tidak diatasi melalui uji akar unit panel atau koreksi standar error yang robust. Dalam praktik, Large-T/Small-N secara konvensi empiris mengarah pada preferensi terhadap FEM, bukan karena REM secara matematis tidak valid, melainkan karena risiko bias omitted variable yang melekat pada karakteristik individu yang persisten sepanjang waktu jauh lebih tinggi ketika dinamika temporal diamati secara intensif. Pemilihan model dalam konfigurasi ini harus mempertimbangkan tidak hanya efisiensi statistik, tetapi juga konsistensi teoretis di hadapan heterogenitas yang berkorelasi.

2.1.4 Implikasi Langsung terhadap Prosedur Pemilihan Model (Chow, Hausman, LM)

Dimensi panel secara langsung memengaruhi kekuatan dan interpretasi uji pemodelan standar. Pada Large-N/Small-T, uji Chow (F-test) sering kali menolak hipotesis nol Common Effect Model (CEM) karena heterogenitas antar-unit yang besar, sehingga langkah selanjutnya biasanya mengarah pada perbandingan FEM vs REM. Uji Lagrange Multiplier (LM) Breusch-Pagan dalam konfigurasi ini cenderung memiliki daya uji tinggi untuk mendeteksi varians komponen \(\mu_i\), sehingga sering kali merekomendasikan REM atas CEM. Uji Hausman, yang membandingkan konsistensi FEM terhadap efisiensi REM, dalam setting Large-N/Small-T sering kali tidak menolak hipotesis nol (menerima REM) karena variasi within yang terbatas membuat perbedaan antara estimator FEM dan REM secara statistik tidak signifikan, atau karena korelasi antara \(\mu_i\) dan \(X_{it}\) memang lemah dalam data agregat makro. Sebaliknya, pada Large-T/Small-N, uji Chow hampir selalu menolak CEM karena dinamika temporal yang kaya mengungkap perbedaan struktur antar-unit. Uji Hausman dalam konfigurasi ini lebih sering menolak hipotesis nol (memilih FEM) karena panjangnya \(T\) memberikan kekuatan statistik yang cukup untuk mendeteksi korelasi sistematis antara efek individu dan regressor, yang membuat REM bias. Implikasinya, peneliti tidak boleh menerapkan protokol pengujian secara mekanis tanpa mempertimbangkan dominasi dimensi, karena kekuatan uji dan interpretasi probabilitas sangat sensitif terhadap rasio \(N/T\). Konvensi yang menyatakan bahwa \(N > T\) cenderung ke REM dan \(T > N\) cenderung ke FEM bukan aturan mutlak, melainkan pedoman awal yang harus dikonfirmasi melalui diagnostik formal dan pertimbangan substantif.

2.1.5 Tantangan Metodologis dan Batasan Praktis Masing-Masing Konfigurasi

Setiap konfigurasi dimensi membawa tantangan metodologis yang memerlukan strategi mitigasi spesifik. Pada Large-N/Small-T, masalah utama adalah incidental parameters problem (Neyman-Scott bias), di mana estimasi \(N\) efek individu dengan \(T\) kecil menyebabkan bias pada estimator koefisien slope, terutama dalam model dinamis yang menyertakan lag variabel terikat. Selain itu, keterbatasan variasi within mengurangi kemampuan model untuk mengidentifikasi efek kebijakan yang berubah lambat, sehingga peneliti sering kali harus mengandalkan pendekatan hybrid atau correlated random effects untuk mengestimasi pengaruh variabel time-invariant. Di sisi lain, Large-T/Small-N menghadapi risiko cross-sectional dependence, di mana guncangan makro atau spillover kebijakan menciptakan korelasi error antar-unit yang melanggar asumsi independensi klasik. Panjangnya deret waktu juga meningkatkan kerentanan terhadap outlier struktural, perubahan metodologi pengumpulan data, atau break parameter yang memerlukan uji stabilitas seperti Chow breakpoint test atau rolling regression. Secara komputasi, Large-N/Small-T memerlukan penanganan matriks kovarians berdimensi besar yang rentan terhadap singularitas, sementara Large-T/Small-N memerlukan koreksi standar error yang robust terhadap autokorelasi serial dan heteroskedastisitas temporal, seperti Newey-West atau Driscoll-Kraay. Tanpa penyesuaian metodologis yang tepat, kedua konfigurasi dapat menghasilkan inferensi yang misleading meskipun prosedur estimasi dijalankan secara teknis benar.

2.1.6 Transisi ke Konteks Empiris: Jembatan antara Teori Dimensi dan Implementasi Makro-Mikro

Pemahaman terhadap implikasi dimensi Large-T/Small-N dan Large-N/Small-T bukan berakhir pada abstraksi teoritis, melainkan menjadi kompas navigasi dalam menerjemahkan struktur data ke dalam desain penelitian yang relevan secara substantif. Dalam penelitian makro wilayah, dominasi Large-N/Small-T mencerminkan realitas ketersediaan data sekunder BPS yang mencakup banyak entitas administratif dengan rentang waktu terbatas akibat revisi metodologi atau pemekaran daerah. Di sini, efisiensi REM sering kali sejalan dengan tujuan kebijakan yang ingin menggeneralisasi pola antar-wilayah tanpa terjebak dalam noise temporal jangka pendek. Sebaliknya, dalam penelitian mikro longitudinal berbasis Susenas, Sakernas, atau IFLS, konfigurasi sering kali bergeser ke arah Large-T/Small-N atau balanced panel dengan \(T\) yang cukup untuk melacak evolusi perilaku rumah tangga, di mana konsistensi FEM lebih diutamakan untuk mengontrol preferensi laten atau norma sosial yang persisten. Perbedaan kontekstual ini menuntut penyesuaian tidak hanya dalam pemilihan estimator, tetapi juga dalam penataan data, handling missingness, dan interpretasi elastisitas yang dihasilkan. Bab-bab berikutnya akan menguraikan secara operasional bagaimana karakteristik dimensi ini diimplementasikan pada panel makro versus mikro, termasuk teknik penataan data dari sumber resmi, strategi matching responden, dan implikasi manajerial terhadap kualitas dataset sebelum memasuki tahap estimasi dan validasi asumsi.


2.2 Panel Makro: Studi Wilayah, Provinsi, dan Negara dengan Data Agregat BPS

2.2.1 Karakteristik Data Panel Makro dan Sumber Resmi di Indonesia

Data panel makro merujuk pada struktur dataset yang mengagregasi variabel-variabel ekonomi, sosial, dan demografis pada level wilayah administratif seperti provinsi, kabupaten/kota, atau negara, yang diamati secara berulang sepanjang periode waktu tertentu. Dalam konteks penelitian ekonomi Indonesia, sumber data panel makro yang paling otoritatif dan terpercaya adalah Badan Pusat Statistik (BPS), yang secara rutin mempublikasikan indikator-indikator pembangunan daerah melalui berbagai publikasi resmi. Dataset makro panel dari BPS umumnya mencakup variabel-variabel kunci seperti Produk Domestik Regional Bruto (PDRB) menurut lapangan usaha dan menurut pengeluaran, Indeks Pembangunan Manusia (IPM), tingkat pengangguran terbuka (TPT), jumlah penduduk miskin, inflasi daerah, realisasi APBD, investasi pemerintah dan swasta, serta indikator infrastruktur dasar. Karakteristik utama data panel makro BPS adalah sifatnya yang agregat, terstandarisasi secara metodologis, dan memiliki cakupan geografis yang komprehensif meliputi seluruh wilayah Indonesia. Namun, peneliti harus mewaspadai potensi perubahan definisi variabel, revisi tahun dasar PDRB, atau pemekaran daerah otonom baru yang dapat memengaruhi konsistensi temporal dan comparability antar-periode. Pemahaman terhadap metadata dan dokumentasi metodologis BPS menjadi prasyarat mutlak sebelum melakukan penataan dan estimasi model ekonometrika.

2.2.2 Struktur Dimensi Large-N/Small-T dalam Panel Makro Wilayah

Konfigurasi dimensi yang paling lazim ditemui dalam panel makro wilayah Indonesia adalah Large-N, Small-T, di mana jumlah unit cross-section \(N\) jauh lebih besar daripada panjang deret waktu \(T\). Sebagai ilustrasi, analisis determinan kemiskinan atau pertumbuhan ekonomi daerah sering kali menggunakan data 34 provinsi atau 514 kabupaten/kota (\(N = 34\) atau \(514\)) dengan rentang waktu 5–10 tahun (\(T = 5\) hingga \(10\)). Pada konfigurasi ini, variasi antar-wilayah (between variation) mendominasi informasi dalam dataset, sementara variasi temporal dalam setiap wilayah (within variation) relatif terbatas. Implikasi metodologis dari struktur ini adalah kecenderungan estimator Random Effect Model (REM) untuk lebih efisien dibandingkan Fixed Effect Model (FEM), asalkan asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) terpenuhi. Namun, keputusan final pemilihan model tidak boleh didasarkan pada konvensi dimensi semata, melainkan harus divalidasi melalui uji formal seperti Chow test untuk membandingkan Common Effect vs Fixed Effect, dan Hausman test untuk membandingkan Fixed Effect vs Random Effect. Peneliti juga perlu mempertimbangkan bahwa dalam konteks kebijakan daerah, heterogenitas karakteristik wilayah seperti geografi, budaya institusi, atau kapasitas fiskal sering kali berkorelasi dengan variabel penjelas, sehingga Fixed Effect Model mungkin tetap lebih robust meskipun \(T\) kecil.

2.2.3 Teknik Penataan Data Agregat: Kode Wilayah, Konsistensi Definisi, dan Handling Missing Value

Implementasi empiris panel makro memerlukan disiplin tinggi dalam penataan data untuk memastikan validitas estimasi. Tantangan pertama adalah konsistensi identifikasi unit cross-section sepanjang waktu. Dalam data BPS, pemekaran daerah otonom baru, perubahan kode wilayah administrasi, atau revisi batas administratif dapat menyebabkan unit observasi tidak dapat di-track secara konsisten. Strategi mitigasi meliputi: (1) menggunakan kode wilayah standar yang diterbitkan BPS dan melakukan rekonsiliasi manual untuk daerah yang mengalami pemekaran; (2) mengagregasi data ke level yang lebih tinggi (misalnya dari kabupaten ke provinsi) jika konsistensi temporal tidak dapat dijamin; atau (3) menerapkan teknik imputasi atau interpolasi untuk mengisi missing value akibat perubahan struktur administrasi. Tantangan kedua adalah konsistensi definisi variabel. Indikator seperti PDRB, IPM, atau garis kemiskinan sering kali mengalami revisi metodologi atau perubahan tahun dasar yang mengancam comparability antar-periode. Peneliti wajib melakukan adjustment eksplisit, misalnya dengan mendeflasikan nilai nominal menggunakan indeks harga yang sesuai, atau menstandarisasi variabel ke dalam satuan persentase atau indeks untuk memastikan interpretasi koefisien yang bermakna. Tantangan ketiga adalah penanganan missing value yang bersifat sistematis. Jika missingness berkorelasi dengan karakteristik wilayah (misalnya daerah terpencil cenderung tidak melaporkan data lengkap), maka estimator konvensional dapat menghasilkan bias seleksi. Diagnostik pola missingness dan penerapan teknik seperti multiple imputation atau inverse probability weighting menjadi langkah krusial sebelum estimasi model.

2.2.4 Spesifikasi Model Ekonometrika untuk Analisis Determinan Pembangunan Daerah

Spesifikasi model ekonometrika dalam panel makro harus mencerminkan pertanyaan penelitian substantif sekaligus mengakomodasi karakteristik struktural data. Model dasar untuk analisis determinan pembangunan daerah dapat dituliskan sebagai: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\] di mana \(Y_{it}\) adalah variabel outcome seperti tingkat kemiskinan, pertumbuhan PDRB, atau IPM di wilayah \(i\) pada tahun \(t\); \(X_{kit}\) adalah vektor variabel penjelas seperti investasi pemerintah, kualitas infrastruktur, akses pendidikan, atau kondisi pasar tenaga kerja; \(\mu_i\) adalah efek spesifik wilayah yang konstan terhadap waktu; dan \(\nu_{it}\) adalah error idiosinkratik. Pemilihan antara Fixed Effect dan Random Effect bergantung pada asumsi mengenai korelasi antara \(\mu_i\) dan \(X_{it}\). Jika peneliti menduga bahwa karakteristik laten wilayah (seperti kualitas birokrasi, norma sosial, atau kondisi geografis) berkorelasi dengan variabel kebijakan yang diamati, maka Fixed Effect Model lebih tepat untuk mengisolasi efek kausal. Sebaliknya, jika \(\mu_i\) diasumsikan acak dan tidak berkorelasi dengan \(X_{it}\), Random Effect Model akan menghasilkan estimator yang lebih efisien. Selain itu, peneliti dapat memperkaya spesifikasi dengan memasukkan interaksi antar-variabel untuk menguji heterogenitas dampak kebijakan, atau lag variabel untuk menangkap dinamika penyesuaian, meskipun interpretasi model dinamis dalam konfigurasi Large-N/Small-T memerlukan kehati-hatian akibat incidental parameters problem.

2.2.5 Interpretasi Koefisien dan Implikasi Kebijakan dari Hasil Estimasi Panel Makro

Interpretasi hasil estimasi panel makro harus mempertimbangkan sumber variasi yang dimanfaatkan oleh model. Dalam Fixed Effect Model, koefisien \(\hat{\beta}\) mencerminkan pengaruh marginal variabel bebas terhadap variabel terikat setelah mengontrol semua karakteristik wilayah yang tidak berubah sepanjang waktu. Artinya, estimasi FEM menjawab pertanyaan: “Bagaimana perubahan dalam variabel \(X\) di dalam wilayah yang sama sepanjang waktu memengaruhi perubahan outcome \(Y\), setelah mengeliminasi perbedaan permanen antar-wilayah?” Interpretasi ini sangat relevan untuk evaluasi kebijakan yang bersifat time-varying, seperti program bantuan sosial, reformasi fiskal, atau investasi infrastruktur yang implementasinya bervariasi antar-tahun. Dalam Random Effect Model, koefisien \(\hat{\beta}\) merupakan weighted average antara efek within dan efek between, sehingga interpretasinya lebih luas namun juga lebih rentan terhadap bias jika asumsi ortogonalitas dilanggar. Implikasi kebijakan dari hasil panel makro sering kali bersifat diferensiatif: rekomendasi untuk provinsi dengan kapasitas fiskal tinggi mungkin berbeda dengan provinsi yang bergantung pada transfer pusat. Peneliti disarankan untuk menyajikan hasil estimasi disertai dengan analisis heterogenitas, misalnya melalui interaksi antara variabel kebijakan dan karakteristik wilayah, atau melalui estimasi terpisah untuk sub-kelompok wilayah (Jawa vs Luar Jawa, wilayah maju vs tertinggal). Komunikasi hasil yang transparan mengenai asumsi model, keterbatasan data, dan konteks substantif akan meningkatkan utilitas penelitian bagi perumusan kebijakan pembangunan daerah.

2.2.6 Batasan Empiris dan Strategi Robustness dalam Analisis Panel Makro

Meskipun panel makro menawarkan keunggulan dalam cakupan geografis dan relevansi kebijakan, implementasinya menghadapi sejumlah batasan empiris yang memerlukan strategi mitigasi. Pertama, masalah endogenitas: variabel kebijakan seperti alokasi dana desa atau program pengentasan kemiskinan sering kali ditentukan secara endogen berdasarkan kondisi awal wilayah, sehingga korelasi antara \(X_{it}\) dan \(\mu_i\) atau \(\nu_{it}\) dapat menginduksi bias simultanitas. Strategi penanganan meliputi penggunaan instrumental variable (IV) yang valid, pendekatan difference-in-differences (DiD) dengan kelompok kontrol yang tepat, atau spesifikasi model dynamic panel jika data memungkinkan. Kedua, cross-sectional dependence: guncangan makro nasional, spillover kebijakan antar-wilayah, atau integrasi pasar regional dapat menciptakan korelasi error antar-unit yang melanggar asumsi independensi klasik. Peneliti dapat menguji keberadaan cross-sectional dependence melalui uji CD Pesaran dan, jika terdeteksi, menerapkan estimator yang robust seperti Driscoll-Kraay standard errors atau Common Correlated Effects (CCE) estimator. Ketiga, heterogenitas parameter: asumsi bahwa koefisien \(\beta\) konstan di seluruh wilayah mungkin tidak realistis jika respons terhadap kebijakan bervariasi berdasarkan karakteristik lokal. Pendekatan seperti random coefficient model atau estimasi terpisah per sub-kelompok dapat memberikan wawasan yang lebih nuanced. Terakhir, transparansi dan replikabilitas: peneliti wajib mendokumentasikan secara rinci sumber data, prosedur penataan, penanganan missing value, dan spesifikasi model agar hasil penelitian dapat diverifikasi dan dikembangkan oleh peneliti lain.


2.3 Panel Mikro: Analisis Rumah Tangga dan Individu dengan Data Susenas/IFLS

2.3.1 Karakteristik Data Panel Mikro dan Sumber Survei Longitudinal

Data panel mikro merujuk pada struktur dataset yang mengikuti unit observasi pada level individu atau rumah tangga secara berulang sepanjang beberapa periode waktu, memungkinkan peneliti untuk melacak evolusi perilaku ekonomi, dinamika kesejahteraan, dan respons terhadap guncangan atau kebijakan secara granular. Berbeda dengan panel makro yang mengagregasi variabel pada level wilayah, panel mikro menangkap heterogenitas yang jauh lebih kaya dan kompleks, seperti preferensi konsumsi, mobilitas tenaga kerja, akumulasi aset, status kesehatan, dan keputusan investasi manusia. Dalam konteks Indonesia, sumber data panel mikro yang paling representatif dan sering digunakan dalam penelitian ekonometrika terapan adalah Indonesian Family Life Survey (IFLS) dan Survei Sosial Ekonomi Nasional (Susenas) yang di-panel-kan. IFLS merupakan survei longitudinal berskala nasional yang secara eksplisit dirancang untuk melacak rumah tangga dan individu yang sama dari gelombang ke gelombang, menyediakan informasi mendalam mengenai pendapatan, pengeluaran, pendidikan, kesehatan, migrasi, dan transfer antargenerasi. Susenas, meskipun secara desain awal bersifat cross-section berulang, dapat dikonversi menjadi struktur panel melalui teknik matching berdasarkan kode wilayah sensus, karakteristik kepala rumah tangga, dan komposisi demografi. Karakteristik utama data panel mikro meliputi: (1) dimensi waktu yang seringkali pendek hingga menengah (\(T = 3\) hingga \(10\) gelombang) namun dengan kedalaman variabel yang sangat tinggi; (2) dominasi variasi within yang kaya akibat perubahan siklus hidup, guncangan idiosinkratik, atau intervensi program; dan (3) tingkat kompleksitas penataan data yang lebih tinggi akibat mobilitas responden, pemisahan rumah tangga, dan perubahan status administrasi. Pemahaman terhadap karakteristik ini menjadi fondasi sebelum peneliti merancang strategi estimasi, karena struktur mikro menuntut pendekatan yang lebih fleksibel dalam menangani missingness, attrition, dan korelasi intra-kelompok.

2.3.2 Teknik Matching dan Identifikasi Responden Berkelanjutan

Salah satu tantangan operasional paling krusial dalam membangun panel mikro adalah proses matching atau pencocokan responden antar-gelombang survei agar setiap observasi \((i,t)\) benar-benar merepresentasikan entitas yang sama. Dalam IFLS, proses ini relatif lebih terstruktur karena survei menyediakan identifier unik seperti NIB (Nomor Identitas Blok), kode rumah tangga, dan tracking number yang memfasilitasi pelacakan longitudinal. Namun, dalam Susenas atau Sakernas yang tidak dirancang khusus sebagai panel, peneliti harus mengandalkan teknik matching probabilistik atau deterministik berdasarkan kombinasi variabel: kode wilayah sensus (Provinsi-Kabupaten-Kecamatan-Desa-Blok), nama kepala rumah tangga, tahun lahir, jenis kelamin, dan status perkawinan. Algoritma matching yang rigorous umumnya menerapkan skor kemiripan (similarity score) atau jarak Mahalanobis untuk meminimalkan kesalahan pencocokan (false match) dan memaksimalkan tingkat keberhasilan tracking (match rate). Kesalahan dalam matching dapat menginduksi measurement error sistematis, di mana dua rumah tangga berbeda secara keliru dianggap sebagai entitas yang sama, atau sebaliknya, rumah tangga yang sama terfragmentasi menjadi beberapa unit pseudo-independen. Validasi matching wajib dilakukan melalui konsistensi logis: misalnya, usia individu harus meningkat secara monoton, jumlah anggota rumah tangga tidak boleh berubah drastis tanpa penjelasan migrasi atau kelahiran/kematian, dan variabel time-invariant seperti jenis kelamin atau tempat lahir harus konstan. Protokol matching yang transparan dan terdokumentasi secara rinci menjadi syarat mutlak untuk memastikan bahwa estimator yang dihasilkan mencerminkan dinamika perilaku yang genuine, bukan artefak administratif.

2.3.3 Penanganan Attrition dan Bias Seleksi dalam Panel Rumah Tangga

Fenomena attrition atau dropout responden merupakan hambatan metodologis paling serius dalam panel mikro longitudinal. Attrition terjadi ketika rumah tangga atau individu yang diamati pada gelombang awal tidak dapat dilacak atau menolak berpartisipasi pada gelombang berikutnya. Mekanisme attrition dapat bersifat Missing Completely at Random (MCAR), Missing at Random (MAR), atau Missing Not at Random (MNAR). Jika attrition bersifat MNAR, misalnya rumah tangga yang berhasil meningkatkan kesejahteraan secara permanen cenderung pindah ke wilayah yang tidak terjangkau survei, atau rumah tangga dengan kemiskinan persisten mengalami disintegrasi sosial yang menyulitkan pelacakan, maka sampel yang tersisa secara sistematis tidak lagi merepresentasikan populasi awal. Kondisi ini menginduksi bias seleksi yang menyebabkan estimator Fixed Effect atau Random Effect menangkap pola yang terdistorsi, sehingga inferensi kausal menjadi tidak valid. Strategi penanganan attrition dalam literatur ekonometrika mikro meliputi: (1) Inverse Probability Weighting (IPW), yang memberikan bobot lebih besar pada responden yang bertahan dengan karakteristik mirip responden yang dropout, sehingga mengoreksi bias seleksi secara proporsional; (2) Heckman Two-Step Selection Model, yang memodelkan probabilitas tetap berada dalam sampel (selection equation) secara eksplisit sebelum mengestimasi persamaan outcome; dan (3) Multiple Imputation by Chained Equations (MICE), yang mengisi nilai hilang dengan mempertimbangkan distribusi bersama variabel longitudinal. Diagnostik attrition wajib mencakup uji kesetaraan karakteristik awal (baseline balance test) antara panel lengkap dan panel yang mengalami dropout, serta sensitivity analysis untuk memvalidasi robustness hasil terhadap asumsi mekanisme missingness. Tanpa penanganan yang rigor, rekomendasi kebijakan yang berbasis panel mikro berisiko mengabaikan kelompok paling rentan yang justru paling terdampak oleh program intervensi.

2.3.4 Spesifikasi Model untuk Analisis Perilaku Ekonomi Mikro

Spesifikasi model ekonometrika dalam panel mikro harus mencerminkan pertanyaan substantif mengenai perilaku individu atau rumah tangga, sekaligus mengakomodasi struktur error yang khas pada level mikro. Model dasar dapat dituliskan sebagai: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\] di mana \(Y_{it}\) adalah outcome mikro seperti log konsumsi per kapita, status bekerja, tahun sekolah, atau indikator kemiskinan moneter/multidimensi; \(X_{kit}\) adalah vektor penjelas seperti upah, akses kredit, jarak ke fasilitas kesehatan, atau partisipasi program bantuan sosial; \(\mu_i\) menangkap heterogenitas tidak teramati yang konstan terhadap waktu (seperti kemampuan kognitif, norma budaya, atau preferensi risiko); dan \(\nu_{it}\) adalah shock idiosinkratik. Dalam konteks mikro, spesifikasi sering kali diperkaya dengan dinamika penyesuaian, misalnya: \[Y_{it} = \rho Y_{i,t-1} + \beta_1 X_{1it} + \mu_i + \nu_{it}\] di mana \(\rho\) mengukur persistensi atau state dependence, krusial untuk memahami apakah kemiskinan, pengangguran, atau pola konsumsi bersifat sementara atau kronis. Variabel time-invariant seperti etnis, lokasi geografis permanen, atau jenis kelamin tidak dapat diestimasi dalam Fixed Effect Model murni karena tereliminasi dalam transformasi within, sehingga peneliti sering kali mengadopsi pendekatan Hybrid Model atau Correlated Random Effects untuk mempertahankan estimasi efek variabel statis sambil tetap mengontrol \(\mu_i\). Pemilihan spesifikasi harus didasarkan pada teori perilaku mikro, ketersediaan data, dan tujuan inferensi, apakah untuk mengisolasi efek kausal kebijakan, memetakan trajektori kesejahteraan, atau mengidentifikasi faktor penentu mobilitas sosial.

2.3.5 Implikasi Metodologis: Fixed Effect vs Random Effect pada Level Individu

Pada level mikro, kecenderungan pemilihan model sering kali condong ke Fixed Effect Model (FEM) dibandingkan Random Effect Model (REM), meskipun keputusan akhir tetap harus divalidasi melalui uji formal dan pertimbangan substantif. Alasannya terletak pada sifat heterogenitas tidak teramati \(\mu_i\) pada individu atau rumah tangga, yang sangat mungkin berkorelasi dengan variabel bebas \(X_{it}\). Misalnya, kemampuan manajerial rumah tangga, motivasi kerja, atau jaringan sosial sering kali mempengaruhi baik keputusan investasi pendidikan maupun outcome pendapatan, sehingga mengabaikan korelasi ini dalam REM akan menghasilkan bias omitted variable yang serius. FEM mengeliminasi \(\mu_i\) secara deterministik melalui transformasi within, sehingga koefisien \(\hat{\beta}\) mencerminkan pengaruh bersih variabel bebas setelah mengontrol semua karakteristik individu yang persisten sepanjang waktu. Namun, FEM memiliki keterbatasan: ia hanya memanfaatkan variasi within, sehingga variabel yang berubah sangat lambat atau konstan sepanjang waktu tidak dapat diestimasi, dan presisi estimator dapat menurun jika \(T\) kecil. REM, di sisi lain, memanfaatkan kombinasi weighted antara variasi within dan between, menghasilkan standar error yang lebih kecil dan memungkinkan estimasi variabel time-invariant, asalkan asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) terpenuhi. Dalam praktik panel mikro Indonesia, uji Hausman sering kali menolak hipotesis nol (memilih FEM) karena korelasi antara \(\mu_i\) dan \(X_{it}\) cenderung kuat pada level rumah tangga. Namun, jika tujuan penelitian lebih menekankan pada generalisasi pola antar-kelompok atau estimasi efek variabel statis, pendekatan REM atau Mundlak-Chamberlain device dapat menjadi alternatif yang lebih informatif. Interpretasi hasil harus selalu disertai dengan diskusi mengenai sumber variasi yang dimanfaatkan model dan implikasinya terhadap validitas eksternal temuan.

2.3.6 Transisi ke Sumber Data Resmi dan Penataan Dataset Terstandarisasi

Pemahaman terhadap karakteristik, tantangan matching, mekanisme attrition, dan implikasi pemilihan model pada panel mikro bukan berakhir pada abstraksi metodologis, melainkan menjadi panduan operasional dalam menata dataset sebelum memasuki tahap estimasi. Data dari sumber resmi seperti IFLS, Susenas, atau Sakernas memerlukan serangkaian prosedur cleaning, reshaping, dan merging yang sistematis agar memenuhi asumsi struktural panel. Langkah-langkah krusial meliputi: (1) verifikasi konsistensi identifier dan kode wilayah antar-gelombang; (2) handling missing value melalui imputasi terarah atau weighting yang mempertimbangkan desain sampel kompleks; (3) transformasi variabel kontinu (seperti log transformasi pendapatan atau konsumsi) untuk menstabilkan varians dan mengurangi pengaruh outlier; (4) penciptaan variabel panel terstruktur dalam format long dengan pasangan \((i,t)\) yang unik dan terurut; serta (5) dokumentasi metadata yang mencakup periode observasi, cakupan geografis, metodologi pengumpulan, dan batasan representativitas. Dataset yang telah tertata dengan rigor menjadi fondasi yang kokoh untuk prosedur estimasi CEM, FEM, dan REM, pengujian asumsi klasik, serta seleksi model terbaik yang akan dibahas secara mendalam pada bab berikutnya. Transisi dari penataan data mikro ke tahap estimasi memerlukan kesiapan teknis dalam mengelola struktur matriks \(N \times T\), memahami implikasi dimensi \(N\) versus \(T\) terhadap kekuatan uji, dan menerapkan protokol diagnostik yang sesuai dengan sifat longitudinal data rumah tangga.


2.4 Sumber Data Panel Resmi Indonesia: BPS, Sakernas, Susenas, dan Sensus

2.4.1 Ekosistem Data Statistik Resmi Indonesia dan Peran Strategis BPS

Badan Pusat Statistik (BPS) merupakan lembaga pemerintah non-kementerian yang memegang mandat konstitusional sebagai penyelenggara statistik dasar di Indonesia. Dalam konteks penelitian ekonometrika data panel, BPS berperan sebagai penyedia utama dataset makro dan mikro yang terstandarisasi, konsisten secara metodologis, dan dapat diakses secara publik. Ekosistem data BPS mencakup tiga pilar utama: (1) Statistik Dasar, yang mencakup sensus penduduk, sensus ekonomi, dan survei skala nasional yang menjadi fondasi perencanaan pembangunan; (2) Statistik Sektoral, yang dikelola oleh kementerian/lembaga dengan koordinasi metodologis dari BPS; dan (3) Statistik Khusus, yang dihasilkan untuk kebutuhan penelitian atau kebijakan tertentu. Bagi peneliti data panel, pemahaman terhadap hierarki dan karakteristik masing-masing pilar ini krusial karena menentukan validitas eksternal, comparability temporal, dan generalisasi hasil estimasi. Publikasi BPS seperti Statistik Indonesia, PDRB Provinsi/Kabupaten, dan Indikator Kesejahteraan Rakyat menyediakan variabel-variabel kunci seperti pertumbuhan ekonomi, inflasi daerah, tingkat kemiskinan, dan IPM yang menjadi variabel dependen maupun independen dalam model panel. Akses terhadap data BPS kini semakin terbuka melalui portal resmi https://www.bps.go.id, yang menyediakan fitur ekstraksi data time-series dan cross-section yang dapat diunduh dalam format Excel, CSV, atau API, memudahkan peneliti untuk membangun dataset panel yang terstruktur tanpa proses manual yang rentan error.

2.4.2 Survei Sosial Ekonomi Nasional (Susenas): Karakteristik, Desain, dan Potensi Panelisasi

Susenas merupakan survei rumah tangga berskala nasional yang dilaksanakan secara rutin oleh BPS sejak tahun 1963, dengan tujuan utama memantau kondisi sosial ekonomi penduduk Indonesia. Meskipun secara desain awal Susenas bersifat repeated cross-section (bukan panel murni), dataset ini memiliki potensi besar untuk dikonversi menjadi struktur panel melalui teknik matching yang rigorous. Susenas dilaksanakan dalam dua modul: (1) Modul Korelasi, yang mengumpulkan data dasar demografi, pendidikan, kesehatan, dan ketenagakerjaan dengan sampel besar (sekitar 300.000 rumah tangga); dan (2) Modul Konsumsi, yang mengumpulkan data pengeluaran rumah tangga secara detail dengan sampel lebih kecil (sekitar 75.000 rumah tangga) untuk perhitungan garis kemiskinan dan distribusi pendapatan. Karakteristik Susenas yang relevan untuk panelisasi meliputi: (1) Kode wilayah sensus yang konsisten (Provinsi-Kabupaten-Kecamatan-Desa-Blok Sensus), memungkinkan tracking geografis antar-gelombang; (2) Variabel identifikasi rumah tangga dan kepala rumah tangga yang dapat digunakan untuk probabilistic matching; dan (3) Frekuensi pelaksanaan tahunan (dengan beberapa gelombang triwulanan), memberikan dimensi waktu \(T\) yang memadai untuk analisis dinamika. Tantangan utama dalam panelisasi Susenas adalah tingkat attrition yang tinggi akibat perubahan komposisi rumah tangga, migrasi, atau penolakan responden, sehingga peneliti wajib menerapkan teknik weighting dan imputasi untuk mengoreksi bias seleksi. Variabel kunci Susenas untuk penelitian panel meliputi konsumsi per kapita, status kemiskinan moneter/multidimensi, akses terhadap layanan dasar, partisipasi program bantuan sosial, dan indikator kesejahteraan subjektif.

2.4.3 Survei Angkatan Kerja Nasional (Sakernas): Struktur Data dan Aplikasi untuk Panel Ketenagakerjaan

Sakernas merupakan survei khusus yang dirancang untuk mengumpulkan data ketenagakerjaan penduduk Indonesia, dilaksanakan secara rutin setiap tahun dengan sampel sekitar 250.000–300.000 rumah tangga. Berbeda dengan Susenas yang fokus pada kesejahteraan multidimensi, Sakernas menyediakan variabel-variabel spesifik terkait pasar tenaga kerja seperti status pekerjaan, jam kerja, upah/gaji, sektor usaha, tingkat pendidikan terakhir, dan partisipasi program pelatihan. Karakteristik Sakernas yang mendukung analisis panel meliputi: (1) Desain stratifikasi dua tahap yang memastikan representativitas di level provinsi dan kabupaten/kota; (2) Konsistensi definisi variabel ketenagakerjaan mengacu pada standar ILO, memungkinkan comparability internasional; dan (3) Ketersediaan data longitudinal terbatas melalui matching berdasarkan kode wilayah dan karakteristik demografi kepala rumah tangga. Dalam konteks penelitian panel, Sakernas sering digunakan untuk mengestimasi determinan pengangguran, dinamika mobilitas pekerjaan, dampak kebijakan upah minimum, atau evaluasi program pelatihan kerja. Spesifikasi model yang lazim diterapkan meliputi Fixed Effect Model untuk mengontrol heterogenitas tidak teramati seperti motivasi kerja atau jaringan sosial, serta Dynamic Panel Model untuk menangkap persistensi status pengangguran atau transisi antara sektor formal dan informal. Peneliti harus mewaspadai tantangan seperti measurement error dalam pelaporan upah, definisi angkatan kerja yang berubah seiring waktu, dan missing value pada variabel pendapatan yang bersifat sensitif.

2.4.4 Sensus Penduduk dan Sensus Ekonomi: Fondasi Struktural untuk Panel Jangka Panjang

Sensus Penduduk (SP) dan Sensus Ekonomi (SE) merupakan kegiatan statistik skala penuh yang dilaksanakan setiap 10 tahun oleh BPS, menyediakan potret komprehensif karakteristik demografi dan struktur ekonomi Indonesia pada titik waktu tertentu. Meskipun frekuensinya rendah, data sensus memiliki nilai strategis sebagai fondasi struktural untuk membangun panel jangka panjang. Sensus Penduduk menyediakan variabel dasar seperti jumlah penduduk, komposisi usia, tingkat pendidikan, status perkawinan, dan migrasi internal yang dapat digunakan sebagai variabel kontrol time-invariant dalam model Fixed Effect. Sensus Ekonomi menyediakan data lengkap tentang unit usaha, nilai produksi, penyerapan tenaga kerja, dan struktur kepemilikan yang menjadi basis untuk analisis panel korporasi atau sektor usaha. Keunggulan utama data sensus adalah cakupan populasi penuh (bukan sampel), sehingga eliminasi sampling error dan representativitas sempurna untuk level agregat. Namun, tantangan utama adalah interval antar-sensus yang panjang (10 tahun), sehingga peneliti sering kali perlu menginterpolasi atau menggabungkan data sensus dengan survei tahunan untuk mengisi celah temporal. Teknik yang umum digunakan meliputi: (1) Interpolasi linier atau spline untuk variabel yang berubah secara gradual; (2) Benchmarking terhadap survei sampel untuk mengadjust tren antar-sensus; dan (3) Penggunaan data administratif (seperti registrasi penduduk atau laporan keuangan perusahaan) sebagai jembatan temporal. Dalam konteks panel provinsi/kabupaten, data sensus sering menjadi anchor untuk menstandarisasi definisi wilayah dan variabel demografi sepanjang periode studi, terutama menghadapi tantangan pemekaran daerah atau revisi batas administratif.

2.4.5 Integrasi Data Administratif dan Survei: Peluang dan Tantangan dalam Membangun Panel Hibrida

Selain data survei dan sensus, peneliti data panel di Indonesia semakin memanfaatkan data administratif dari kementerian/lembaga sebagai sumber komplementer. Contoh representatif meliputi: (1) Data realisasi APBD dari Kementerian Keuangan untuk analisis fiskal daerah; (2) Data investasi dari BKPM untuk studi determinan penanaman modal; (3) Data peserta program bantuan sosial dari Kementerian Sosial untuk evaluasi dampak kebijakan; dan (4) Data emiten Bursa Efek Indonesia untuk panel korporasi. Integrasi data administratif dengan data survei BPS membuka peluang membangun panel hibrida yang kaya variabel dan dimensi temporal, namun juga menghadirkan tantangan metodologis yang signifikan. Pertama, masalah konsistensi definisi: variabel “kemiskinan” dalam data BPS berbasis pengeluaran, sementara program bantuan sosial mungkin menggunakan kriteria berbeda, sehingga memerlukan harmonisasi eksplisit sebelum merging. Kedua, isu frekuensi dan kelengkapan: data administratif sering kali tersedia bulanan atau real-time, namun dengan cakupan geografis atau sektor yang tidak seragam, sehingga peneliti harus memutuskan antara agregasi ke level yang konsisten atau menerima struktur unbalanced panel. Ketiga, tantangan akses dan etika: data administratif sering kali memiliki restriksi penggunaan, memerlukan persetujuan institusional, atau mengandung informasi sensitif yang memerlukan anonymisasi ketat. Strategi mitigasi meliputi: (1) Dokumentasi metadata yang transparan mengenai sumber, definisi, dan prosedur merging; (2) Penerapan teknik record linkage probabilistik untuk meminimalkan kesalahan pencocokan; dan (3) Sensitivity analysis untuk memvalidasi robustness hasil terhadap asumsi integrasi data. Panel hibrida yang dibangun dengan rigor dapat menghasilkan inferensi yang lebih kaya dan relevan kebijakan dibandingkan penggunaan sumber tunggal.

2.4.6 Protokol Akses, Penataan, dan Dokumentasi Data Panel dari Sumber Resmi

Implementasi empiris data panel dari sumber resmi Indonesia memerlukan protokol sistematis untuk memastikan kualitas, replikabilitas, dan etika penelitian. Langkah pertama adalah perencanaan akses: peneliti wajib mengidentifikasi variabel yang dibutuhkan, periode observasi, dan level agregasi yang sesuai dengan pertanyaan penelitian, kemudian mengunduh data melalui portal BPS atau mengajukan permintaan resmi untuk data terbatas. Langkah kedua adalah penataan data: dataset yang diunduh sering kali dalam format wide atau terfragmentasi per tahun, sehingga perlu direshape ke format long dengan struktur \((i, t)\) yang unik, menggunakan software seperti R (paket tidyr), Stata (perintah reshape), atau Python (pandas.melt). Langkah ketiga adalah validasi konsistensi: peneliti harus memeriksa konsistensi kode wilayah, definisi variabel, dan satuan pengukuran antar-periode, serta melakukan adjustment eksplisit untuk perubahan metodologi (misalnya revisi tahun dasar PDRB atau perubahan garis kemiskinan). Langkah keempat adalah penanganan missing value: peneliti wajib mendokumentasikan pola missingness, menguji mekanisme MCAR/MAR/MNAR, dan menerapkan teknik imputasi atau weighting yang sesuai sebelum estimasi model. Langkah kelima adalah dokumentasi metadata: peneliti harus menyimpan log prosedur cleaning, merging, dan transformasi data dalam format yang dapat direplikasi (seperti script R atau do-file Stata), serta menyertakan kamus data yang menjelaskan sumber, definisi, dan batasan setiap variabel. Protokol ini tidak hanya meningkatkan kualitas penelitian, tetapi juga memenuhi standar etika akademik dan kebijakan data terbuka yang semakin diwajibkan oleh jurnal dan institusi penelitian.


2.5 Teknik Penataan dan Manajemen Data Panel: Formatting, Merging, dan Cleaning

2.5.1 Prinsip Dasar Format Data Panel: Struktur Long versus Wide

Dalam ekonometrika terapan, format penyimpanan data menentukan kelayakan dataset untuk diproses oleh perangkat lunak statistik. Terdapat dua konvensi utama: format wide dan format long. Format wide menempatkan setiap unit cross-section pada satu baris, dengan variabel waktu tersebar sebagai kolom terpisah (misalnya \(Y_{i,2018}\), \(Y_{i,2019}\), \(Y_{i,2020}\)). Format ini intuitif untuk visualisasi manusia namun tidak kompatibel dengan estimator panel modern yang memerlukan struktur observasi yang tersusun vertikal. Sebaliknya, format long menyusun dataset dalam bentuk tumpukan (stacked), di mana setiap baris merepresentasikan satu pasangan observasi \((i,t)\). Struktur ini menghasilkan matriks dengan \(N \times T\) baris (untuk balanced panel) dan kolom yang terdiri dari variabel identitas (\(id\), \(time\)), variabel terikat \(Y_{it}\), dan vektor variabel bebas \(\mathbf{X}_{it}\).

Transformasi dari wide ke long merupakan langkah wajib sebelum estimasi. Proses ini, yang dalam literatur komputasi dikenal sebagai reshaping atau melting, memerlukan presisi tinggi agar tidak terjadi duplikasi observasi atau hilangnya pasangan indeks. Dalam konteks data makro BPS, format long memungkinkan peneliti melacak evolusi PDRB atau IPM per provinsi secara longitudinal tanpa terfragmentasi oleh tahun. Pada data mikro seperti Susenas atau IFLS, format long juga memfasilitasi penggabungan gelombang survei yang berbeda ke dalam satu kerangka analisis terpadu. Kegagalan melakukan reshaping secara benar akan menyebabkan perangkat lunak mengenali dataset sebagai cross-section murni, sehingga estimator yang dihasilkan mengabaikan struktur error komponen \(\mu_i + \nu_{it}\) dan menghasilkan inferensi yang bias.

2.5.2 Penataan Identifikasi Unit dan Waktu: Variabel \(id\), \(time\), dan Deklarasi Struktur Panel

Inti dari manajemen data panel terletak pada konsistensi variabel identifikasi. Setiap dataset panel wajib memiliki setidaknya dua kolom kunci: variabel identitas unit (\(id\)) dan variabel penanda waktu (\(time\)). Variabel \(id\) harus bersifat unik dan stabil sepanjang periode studi, baik berupa kode administratif BPS, nomor registrasi perusahaan, atau ID rumah tangga terenkripsi. Variabel \(time\) harus merepresentasikan periode observasi dalam format numerik atau tanggal yang terurut kronologis (misalnya 2018, 2019, 2020 atau 1, 2, 3).

Setelah penataan identifier, langkah krusial berikutnya adalah deklarasi struktur panel ke dalam lingkungan komputasi. Deklarasi ini menginformasikan algoritma estimasi mengenai hierarki data, pola missingness, dan sifat balanced/unbalanced. Secara konseptual, deklarasi ini menentukan bagaimana matriks desain \(\mathbf{X}\) dan vektor residual \(\mathbf{u}\) akan dipartisi selama transformasi within atau quasi-demeaning. Dalam implementasi, peneliti harus memverifikasi bahwa tidak terdapat pasangan \((id, time)\) yang duplikat, karena duplikasi akan mengacaukan perhitungan derajat kebebasan dan matriks kovarians. Selain itu, deklarasi yang tepat memungkinkan perangkat lunak untuk secara otomatis menangani struktur unbalanced tanpa memerlukan imputasi paksa, asalkan mekanisme missingness bersifat acak. Ketidakkonsistenan dalam penamaan atau tipe data identifier (misalnya mencampur string dan numerik) merupakan sumber error komputasi paling umum yang sering mengabaikan peneliti pemula, sehingga validasi tipe data dan urutan kronologis menjadi prosedur standar yang tidak dapat diabaikan.

2.5.3 Teknik Merging Dataset: Horizontal, Vertical, dan Match-Merge untuk Survei Berulang

Penelitian data panel sering kali memerlukan integrasi beberapa sumber data yang memiliki cakupan variabel atau periode berbeda. Teknik merging diklasifikasikan menjadi tiga pendekatan utama berdasarkan orientasi penggabungan. Pertama, vertical merging (appending) digunakan untuk menyusun gelombang survei berulang ke dalam satu kerangka waktu, misalnya menggabungkan Susenas Modul Korelasi tahun 2018, 2019, dan 2020 menjadi satu dataset long. Teknik ini memerlukan harmonisasi nama variabel, satuan pengukuran, dan kode wilayah agar tidak terjadi misalignment. Kedua, horizontal merging (joining) bertujuan menambah kedalaman variabel dengan menggabungkan dataset yang memiliki identifier sama tetapi kolom berbeda, seperti menempelkan data realisasi APBD dari Kementerian Keuangan ke dataset BPS berdasarkan kode provinsi dan tahun. Teknik ini rentan terhadap kehilangan observasi jika cakupan geografis atau periode tidak identik, sehingga peneliti harus memilih jenis join (inner, left, right, atau full) yang sesuai dengan tujuan retensi sampel.

Ketiga, match-merge atau pencocokan probabilistik khusus diperlukan untuk survei yang tidak dirancang sebagai panel murni namun ingin dilacak secara longitudinal. Pada Susenas atau Sakernas, peneliti harus mencocokkan rumah tangga antar-gelombang menggunakan kombinasi variabel: kode wilayah sensus (Provinsi–Kabupaten–Kecamatan–Desa–Blok), nama kepala rumah tangga, tahun lahir, dan komposisi anggota. Algoritma matching yang rigor menerapkan skor kemiripan atau jarak Mahalanobis untuk meminimalkan false match. Validasi matching wajib mencakup konsistensi logis: usia harus meningkat secara monoton, status perkawinan tidak boleh berubah secara tidak wajar tanpa peristiwa migrasi atau pencatatan ulang, dan variabel time-invariant harus konstan. Protokol matching yang transparan memastikan bahwa estimator FEM atau REM menangkap dinamika perilaku yang genuine, bukan artefak administratif akibat pencocokan yang keliru.

2.5.4 Prosedur Cleaning Data Panel: Handling Missing Value, Outlier, dan Inkonsistensi Definisi

Dataset panel mentah jarang siap pakai tanpa pembersihan sistematis. Prosedur cleaning dimulai dengan diagnostik missing value yang membedakan pola acak (MCAR/MAR) dan non-acak (MNAR). Untuk missingness yang terbatas, teknik listwise deletion dapat diterapkan pada unbalanced panel asalkan proporsi data hilang tidak melebihi 5–10% dan tidak berkorelasi dengan variabel kunci. Untuk missingness yang lebih luas atau bersifat MAR, pendekatan multiple imputation atau interpolasi temporal (misalnya linear interpolation untuk variabel makro yang berubah gradual) lebih direkomendasikan agar variasi within dan between tetap terjaga.

Outlier dalam data panel memerlukan pendekatan dua lapis: outlier cross-section (nilai ekstrem antar-unit pada periode tertentu) dan outlier temporal (lonjakan tiba-tiba dalam satu unit sepanjang waktu). Deteksi outlier dapat menggunakan metode robust seperti median absolute deviation (MAD) atau boxplot conditional per unit, diikuti oleh winsorization atau transformasi logaritmik untuk menstabilkan varians tanpa menghapus informasi substantif. Tantangan cleaning yang paling kritis adalah inkonsistensi definisi variabel akibat perubahan metodologi lembaga statistik. Revisi tahun dasar PDRB, perubahan garis kemiskinan BPS, atau penyesuaian deflator inflasi harus diadjust secara eksplisit melalui standarisasi indeks atau konversi satuan sebelum merging. Tanpa rekonsiliasi metodologis ini, structural break akan termanifestasi sebagai bias estimasi yang sistematis, menggerogoti konsistensi koefisien \(\beta\) dan validitas uji hipotesis.

2.5.5 Transformasi Variabel dan Standardisasi untuk Kesiapan Estimasi

Sebelum memasuki tahap estimasi model, variabel panel harus ditransformasikan agar memenuhi asumsi struktural estimator dan meningkatkan interpretasi ekonomi. Transformasi logaritmik (\(\ln Y_{it}\), \(\ln X_{kit}\)) sering diterapkan pada variabel berskala monetary atau count data untuk mereduksi skewness, menstabilkan heteroskedastisitas, dan menginterpretasikan koefisien sebagai elastisitas. Variabel proporsi atau persentase dapat ditransformasi menggunakan logit atau arcsine square root jika mendekati batas 0 atau 1. Untuk menangkap dinamika penyesuaian, peneliti dapat menciptakan variabel lag (\(Y_{i,t-1}\)) atau moving average, meskipun spesifikasi dinamis memerlukan kehati-hatian akibat incidental parameters problem pada short panel.

Standardisasi variabel (z-score) atau normalisasi min-max berguna ketika variabel memiliki skala yang vastly berbeda, terutama dalam model yang melibatkan interaksi atau regularisasi. Penciptaan variabel interaksi (\(X_{1it} \times X_{2it}\)) atau variabel kuadrat (\(X_{it}^2\)) memungkinkan pengujian efek non-linier atau heterogenitas dampak kebijakan, namun memerlukan centering variabel terlebih dahulu untuk menghindari multikolinearitas buatan. Variabel time-invariant (seperti lokasi geografis atau etnis) harus ditangani secara khusus: pada Fixed Effect Model, variabel ini akan tereliminasi dalam transformasi within, sehingga peneliti perlu menggunakan pendekatan Hybrid Model atau Correlated Random Effects jika ingin mengestimasi efeknya. Transformasi yang terdokumentasi dengan rapi memastikan bahwa matriks \(\mathbf{X}\) yang masuk ke estimator CEM, FEM, atau REM telah memenuhi prasyarat numerik dan substantif.

2.5.6 Validasi Struktur Dataset dan Transisi ke Tahap Estimasi Model

Tahap final manajemen data panel adalah validasi komprehensif sebelum estimasi. Peneliti wajib memeriksa dimensi efektif dataset: jumlah unit \(N\), panjang deret waktu \(T\), total observasi \(N \times T\), dan rasio balanced/unbalanced. Diagnostik tambahan mencakup verifikasi tidak adanya duplikasi \((id, time)\), konsistensi urutan temporal per unit, dan distribusi missing value yang tidak terkonsentrasi pada sub-kelompok spesifik. Statistik deskriptif awal (mean, standar deviasi, min, max, korelasi pairwise) harus dihitung untuk mendeteksi anomali, kesalahan input, atau kolinearitas ekstrem yang dapat menghambat konvergensi algoritma.

Dataset yang telah divalidasi menjadi fondasi yang kokoh untuk prosedur pemilihan model terbaik. Struktur data yang tertata rapi memungkinkan uji Chow untuk membandingkan Common Effect versus Fixed Effect, uji Hausman untuk Fixed Effect versus Random Effect, dan uji Lagrange Multiplier untuk Common Effect versus Random Effect berjalan tanpa error komputasi. Transisi dari manajemen data ke estimasi model menandai pergeseran dari preparasi teknis ke inferensi ekonometrika, di mana asumsi klasik, konsistensi estimator, dan relevansi substantif akan diuji secara rigor. Bab berikutnya akan menguraikan secara mendalam prosedur estimasi CEM, FEM, dan REM, mekanisme pengujian pemilihan model, serta interpretasi koefisien dalam konteks penelitian empiris yang valid dan dapat direplikasi.


2.6 Studi Komparatif: Implementasi Panel pada Berbagai Level Unit Analisis

2.6.1 Kerangka Komparatif: Makro, Meso, dan Mikro dalam Ekonomi Panel

Dalam ekonometrika terapan, pilihan level unit analisis bukan sekadar keputusan administratif, melainkan penentu fundamental terhadap struktur data, spesifikasi model, dan validitas inferensi kebijakan. Level makro merujuk pada entitas agregat seperti negara, provinsi, atau kabupaten/kota, di mana variabel yang diamati merepresentasikan rata-rata atau total populasi wilayah tersebut. Level meso mencakup unit sektoral atau industri, seperti perusahaan tercatat di bursa efek, koperasi, atau kluster usaha, yang menjembatani dinamika agregat dengan perilaku unit individual. Level mikro berfokus pada unit dasar pengamatan seperti rumah tangga, individu, atau responden survei longitudinal, yang menangkap heterogenitas perilaku ekonomi secara granular. Studi komparatif antar-level ini mengungkap bahwa meskipun notasi matematis \(Y_{it} = \alpha + \beta X_{it} + \mu_i + \nu_{it}\) tetap konsisten secara formal, interpretasi komponen \(\mu_i\) dan \(\nu_{it}\), sumber variasi data, serta mekanisme pelanggaran asumsi klasik berbeda secara substantif. Pemahaman terhadap distingsi ini mencegah peneliti melakukan ekstrapolasi hasil yang keliru, seperti menyimpulkan perilaku individu dari koefisien agregat (ecological fallacy) atau menggeneralisasi dampak kebijakan nasional tanpa mempertimbangkan fragmentasi sektoral.

2.6.2 Karakteristik Unit dan Implikasi terhadap Struktur Data

Karakteristik intrinsik setiap level unit secara langsung mendikte arsitektur dataset panel. Pada level makro, data cenderung bersifat Large-N/Small-T dengan \(N\) mencapai 34 provinsi atau 514 kabupaten/kota dan \(T\) terbatas pada 5–15 tahun akibat revisi metodologi BPS atau pemekaran wilayah. Struktur ini menghasilkan balanced atau mildly unbalanced panel dengan missing value yang bersifat administratif而非 perilaku. Variabel makro seperti PDRB, IPM, atau TPT memiliki varians antar-wilayah yang tinggi namun varians within yang relatif rendah, sehingga transformasi within pada Fixed Effect Model dapat mengurangi presisi estimator jika tidak dikompensasi dengan teknik clustering atau robust standard errors. Pada level meso, dataset perusahaan atau industri sering kali menampilkan konfigurasi \(N \approx T\) atau Large-T/Small-N, dengan frekuensi pelaporan kuartalan atau tahunan yang konsisten. Data keuangan perusahaan rentan terhadap survivorship bias, di mana entitas yang bangkrut atau delisting menghilang dari sampel, menginduksi unbalanced structure yang tidak acak. Variabel seperti leverage, ROA, atau capex menunjukkan dinamika penyesuaian yang cepat, memerlukan spesifikasi dinamis atau kontrol sektor yang eksplisit. Pada level mikro, panel rumah tangga atau individu dari Susenas, Sakernas, atau IFLS didominasi oleh Large-T/Small-N atau balanced longitudinal design dengan \(T\) mencapai 5–10 gelombang. Karakteristik ini menghasilkan variasi within yang sangat kaya, namun disertai tingkat attrition yang tinggi, perubahan komposisi rumah tangga, dan kompleksitas desain sampel stratifikasi yang memerlukan penerapan sampling weights dalam estimasi.

2.6.3 Dinamika Heterogenitas dan Spesifikasi Model Lintas Level

Dekomposisi error \(u_{it} = \mu_i + \nu_{it}\) memanifestasikan diri secara berbeda antar-level, sehingga memandu pemilihan antara Common Effect Model (CEM), Fixed Effect Model (FEM), dan Random Effect Model (REM). Pada level makro, \(\mu_i\) sering kali menangkap karakteristik geografis, kapasitas fiskal historis, atau norma birokrasi yang berkorelasi lemah dengan variabel kebijakan time-varying, sehingga REM berbasis GLS sering kali lebih efisien asalkan uji Hausman tidak menolak hipotesis ortogonalitas. Namun, jika peneliti menduga adanya korelasi antara \(\mu_i\) dan \(X_{it}\) (misalnya alokasi dana desa yang disesuaikan dengan kondisi awal kemiskinan), FEM menjadi pilihan yang lebih konsisten meskipun mengorbankan estimasi variabel time-invariant seperti status kepulauan. Pada level meso, \(\mu_i\) merepresentasikan budaya korporasi, efisiensi manajerial, atau akses jaringan pasokan yang sangat mungkin berkorelasi dengan keputusan investasi atau struktur modal, sehingga FEM hampir selalu menjadi standar de facto dalam literatur keuangan perusahaan. Spesifikasi meso juga sering memasukkan interaksi sektor \(\times\) waktu atau kontrol industri untuk menangkap guncangan sektoral yang tidak teramati. Pada level mikro, \(\mu_i\) menangkap preferensi risiko, kemampuan kognitif, atau norma sosial yang persisten dan berkorelasi kuat dengan variabel seperti pendidikan, partisipasi tenaga kerja, atau konsumsi, sehingga FEM mendominasi spesifikasi empiris. Namun, jika tujuan penelitian mencakup estimasi efek variabel statis seperti jenis kelamin atau etnis, pendekatan Correlated Random Effects (Mundlak-Chamberlain) atau Hybrid Model diperlukan untuk mempertahankan konsistensi FEM sambil mengestimasi parameter time-invariant.

2.6.4 Tantangan Estimasi dan Penanganan Bias Spesifik Level

Setiap level unit menghadirkan tantangan estimasi yang memerlukan strategi mitigasi metodologis yang spesifik. Pada level makro, tantangan utama adalah cross-sectional dependence yang muncul dari spillover kebijakan, integrasi pasar regional, atau guncangan makro nasional yang menciptakan korelasi error antar-provinsi. Pelanggaran independensi error ini menggerogoti validitas standar error konvensional, sehingga peneliti harus menerapkan uji CD Pesaran dan, jika signifikan, beralih ke Driscoll-Kraay standard errors atau Common Correlated Effects (CCE) estimator. Pada level meso, endogenitas simultaneitas dan measurement error menjadi hambatan kritis. Variabel seperti investasi atau utang sering kali ditentukan secara simultan dengan profitabilitas, sementara laporan keuangan mengandung noise akuntansi atau window dressing. Teknik instrumental variable (IV) panel, Generalized Method of Moments (GMM) dinamis, atau penggunaan lag variabel sebagai instrumen menjadi krusial untuk mengisolasi efek kausal. Pada level mikro, attrition non-acak (MNAR) dan complex survey design merupakan tantangan dominan. Jika rumah tangga yang keluar dari panel memiliki karakteristik sistematis (misalnya migrasi akibat peningkatan kesejahteraan), estimator FEM/REM standar menjadi bias. Penerapan Inverse Probability Weighting (IPW), Heckman selection correction, atau multiple imputation yang mempertimbangkan desain stratifikasi BPS wajib dilakukan sebelum estimasi. Selain itu, autokorelasi serial dalam dimensi waktu mikro sering kali lebih kuat, memerlukan koreksi Newey-West atau clustered standard errors pada level rumah tangga untuk mempertahankan validitas inferensi.

2.6.5 Interpretasi Hasil dan Validitas Eksternal antar Level Analisis

Interpretasi koefisien panel harus selalu dikontekstualisasikan dengan level unit yang diamati, karena magnitudo, tanda, dan signifikansi statistik dapat berfluktuasi secara dramatis lintas level. Koefisien pada level makro merefleksikan efek agregat yang mungkin menyembunyikan heterogenitas respons antar-kelompok; misalnya, elasticitas kemiskinan terhadap IPM pada level provinsi dapat bersifat positif secara agregat namun negatif pada level rumah tangga miskin akibat distribusi manfaat pembangunan yang tidak merata (Simpson’s paradox dalam konteks panel). Validitas eksternal hasil makro sering kali terbatas pada wilayah dengan karakteristik struktural serupa, sehingga generalisasi ke level mikro memerlukan kehati-hatian epistemologis. Pada level meso, hasil estimasi umumnya valid untuk perusahaan formal atau sektor terorganisir, namun tidak serta-merta dapat diekstrapolasi ke UMKM atau sektor informal yang memiliki struktur biaya, akses kredit, dan dinamika penyesuaian yang berbeda. Pada level mikro, inferensi kausal memiliki validitas internal yang tinggi berkat kontrol \(\mu_i\), namun validitas eksternalnya sering kali terbatas pada populasi survei atau konteks geografis spesifik. Peneliti yang rigor selalu menyertakan diskusi mengenai boundary conditions, melakukan robustness check dengan subsample atau level agregasi alternatif, dan secara eksplisit menyatakan bahwa rekomendasi kebijakan harus disesuaikan dengan granularitas unit yang dianalisis.

2.6.6 Sintesis Metodologis dan Transisi ke Bab Estimasi Model

Studi komparatif implementasi panel lintas level mengkonfirmasi bahwa tidak ada spesifikasi model yang universal; keoptimalan estimator ditentukan oleh keselarasan antara pertanyaan penelitian, karakteristik unit, struktur data, dan mekanisme pelanggaran asumsi. Level makro menuntut penanganan cross-sectional dependence dan efisiensi GLS/REM, level meso memerlukan kontrol endogenitas dan survivorship bias melalui FEM/GMM, sedangkan level mikro mengutamakan penanganan attrition dan variasi within melalui FEM/Hybrid models. Pemahaman terhadap distingsi ini menjadi fondasi yang kokoh sebelum peneliti memasuki tahap estimasi formal, pengujian pemilihan model, dan validasi asumsi klasik. Transisi dari penataan data dan studi komparatif ke prosedur estimasi menandai pergeseran dari persiapan teknis ke inferensi ekonometrika yang rigor. Bab berikutnya akan menguraikan secara sistematis mekanisme estimasi Common Effect Model, Fixed Effect Model, dan Random Effect Model, prosedur pengujian Chow, Hausman, dan Lagrange Multiplier, serta protokol seleksi model terbaik yang menjamin konsistensi, efisiensi, dan relevansi substantif hasil penelitian.


BAB 3: ESTIMASI MODEL & PEMILIHAN TERBAIK

3.1 Common Effect Model (CEM): Estimasi Pooled OLS dan Asumsi Homogenitas

3.1.1 Hakikat Common Effect Model dan Filosofi Pooled OLS

Common Effect Model (CEM), yang dalam literatur ekonometrika sering disebut sebagai Pooled Ordinary Least Squares (Pooled OLS), merupakan pendekatan paling dasar dalam estimasi data panel. Secara filosofis, CEM mengabaikan struktur hierarkis data panel dan memperlakukan seluruh observasi \(N \times T\) seolah-olah berasal dari satu populasi homogen yang tidak memiliki karakteristik unik antar-unit maupun antar-periode. Pendekatan ini mengasumsikan bahwa hubungan struktural antara variabel terikat \(Y_{it}\) dan vektor variabel bebas \(\mathbf{X}_{it}\) bersifat identik untuk semua entitas \(i = 1, 2, \dots, N\) dan sepanjang seluruh waktu \(t = 1, 2, \dots, T\). Dengan kata lain, CEM tidak mengakui adanya heterogenitas individu (\(\mu_i\)) maupun efek waktu (\(\lambda_t\)) yang spesifik, atau setidaknya mengasumsikan bahwa variasi tersebut telah sepenuhnya tertangkap oleh konstanta global dan variabel bebas yang dimasukkan ke dalam model. Meskipun secara komputasi sederhana dan intuitif, pendekatan ini sering kali dianggap sebagai baseline atau titik tolak dalam prosedur seleksi model panel, sebelum peneliti membuktikan secara empiris apakah asumsi homogenitas tersebut dapat dipertahankan atau justru harus ditolak demi spesifikasi yang lebih realistis.

3.1.2 Formulasi Matematis dan Asumsi Homogenitas Parameter

Secara matematis, CEM dinyatakan sebagai perluasan langsung dari regresi linier berganda standar, dengan notasi panel yang tetap dipertahankan untuk kejelasan dimensi data: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + u_{it}\] Dalam spesifikasi ini, parameter \(\alpha\) merepresentasikan intercept global yang konstan untuk seluruh cross-section dan time series, sedangkan vektor koefisien \(\boldsymbol{\beta} = [\beta_1, \beta_2, \dots, \beta_k]'\) diasumsikan identik antar-entitas dan antar-periode. Komponen error \(u_{it}\) pada CEM tidak didekomposisi menjadi efek individu dan error idiosinkratik, melainkan diperlakukan sebagai gangguan acak tunggal yang memenuhi asumsi klasik Gauss-Markov: \(E[u_{it}] = 0\), \(\text{Var}(u_{it}) = \sigma^2\) (homoskedastisitas), dan \(\text{Cov}(u_{it}, u_{js}) = 0\) untuk \((i,t) \neq (j,s)\) (tidak ada autokorelasi atau korelasi silang). Asumsi homogenitas parameter ini menyiratkan bahwa respons marginal setiap variabel bebas terhadap variabel terikat bersifat universal. Misalnya, jika CEM diterapkan pada data kemiskinan provinsi, model ini mengasumsikan bahwa setiap kenaikan satu unit IPM akan menghasilkan penurunan persentase kemiskinan yang persis sama di Aceh, Jawa Barat, maupun Papua, tanpa memperhitungkan perbedaan kapasitas institusi, geografi, atau struktur ekonomi daerah yang secara substantif sangat mungkin memodifikasi elastisitas tersebut.

3.1.3 Prosedur Estimasi Pooled OLS pada Data Panel

Estimasi parameter dalam CEM dilakukan dengan menerapkan metode Ordinary Least Squares secara langsung pada dataset yang telah di-stack atau disusun secara vertikal. Fungsi tujuan yang diminimumkan adalah jumlah kuadrat residual keseluruhan: \[\min_{\alpha, \boldsymbol{\beta}} \sum_{i=1}^{N} \sum_{t=1}^{T} \left( Y_{it} - \alpha - \mathbf{X}_{it}\boldsymbol{\beta} \right)^2\] Dalam representasi matriks, dengan \(\mathbf{y}\) sebagai vektor \(NT \times 1\) dan \(\mathbf{X}\) sebagai matriks desain \(NT \times (k+1)\), estimator Pooled OLS diperoleh melalui solusi normal equation: \[\hat{\boldsymbol{\theta}}_{CEM} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}\] di mana \(\hat{\boldsymbol{\theta}}_{CEM} = [\hat{\alpha}, \hat{\beta}_1, \dots, \hat{\beta}_k]'\). Prosedur ini memanfaatkan seluruh \(NT\) observasi secara penuh, sehingga secara nominal meningkatkan derajat kebebasan dibandingkan regresi cross-section atau time-series tunggal. Dari sisi komputasi, CEM sangat efisien dan dapat diimplementasikan menggunakan perintah regresi standar di hampir semua perangkat lunak statistik tanpa memerlukan deklarasi struktur panel khusus. Namun, kemudahan komputasi ini bersifat semu jika asumsi homogenitas dilanggar, karena matriks \(\mathbf{X}'\mathbf{X}\) yang dibentuk tidak lagi merefleksikan struktur kovarians error yang sesungguhnya, berpotensi menghasilkan estimasi yang tidak efisien atau bahkan bias secara asimtotik.

3.1.4 Interpretasi Koefisien dan Elastisitas dalam CEM

Koefisien yang dihasilkan oleh CEM mencerminkan pengaruh rata-rata (average effect) variabel bebas terhadap variabel terikat di seluruh populasi panel. Interpretasi ekonomi dari estimator \(\hat{\beta}_k\) adalah perubahan rata-rata pada \(Y\) untuk setiap kenaikan satu unit pada \(X_k\), dengan mengasumsikan variabel lain konstan (ceteris paribus), yang berlaku secara agregat untuk semua unit dan periode. Jika variabel ditransformasi secara logaritmik, misalnya \(\ln Y_{it} = \alpha + \beta \ln X_{it} + u_{it}\), maka \(\hat{\beta}\) dapat diinterpretasikan sebagai elastisitas rata-rata. Kekuatan interpretasi CEM terletak pada kemampuannya memberikan gambaran makro yang stabil dan mudah dikomunikasikan, terutama ketika heterogenitas antar-unit memang minimal atau tidak relevan secara teoritis. Namun, kelemahannya terletak pada penyamarataan respons yang dapat mengaburkan mekanisme kausal yang spesifik. Dalam konteks kebijakan, rekomendasi yang berbasis pada koefisien CEM berisiko bersifat one-size-fits-all, mengabaikan fakta bahwa intervensi yang efektif di wilayah dengan infrastruktur matang mungkin tidak menghasilkan dampak yang sama di wilayah dengan keterbatasan akses dasar.

3.1.5 Kelemahan Struktural: Bias Omitted Variable dan Inefisiensi

Secara teoritis, CEM rentan terhadap dua masalah fundamental ketika diterapkan pada data yang sesungguhnya memiliki struktur panel. Pertama, masalah omitted variable bias akibat pengabaian efek individu \(\mu_i\). Jika model data yang sesungguhnya adalah \(Y_{it} = \alpha + \mathbf{X}_{it}\boldsymbol{\beta} + \mu_i + \nu_{it}\), namun peneliti mengestimasi CEM, maka komponen \(\mu_i\) akan terserap ke dalam error komposit \(u_{it} = \mu_i + \nu_{it}\). Apabila \(\mu_i\) berkorelasi dengan salah satu atau lebih variabel bebas \(X_{kit}\) (misalnya kualitas birokrasi daerah berkorelasi dengan alokasi dana pembangunan), maka asumsi eksogenitas \(E[\mathbf{X}'u] = 0\) dilanggar. Pelanggaran ini menyebabkan estimator \(\hat{\boldsymbol{\beta}}_{CEM}\) menjadi bias dan tidak konsisten, bahkan ketika \(N \to \infty\) atau \(T \to \infty\). Kedua, masalah inefisiensi. Jika error sesungguhnya mengandung struktur komponen \(\mu_i\) yang konstan terhadap waktu, maka asumsi homoskedastisitas dan independensi serial error pada CEM tidak terpenuhi. Estimator Pooled OLS tetap tidak bias hanya jika \(\mu_i\) tidak berkorelasi dengan \(\mathbf{X}_{it}\), namun varians estimator menjadi lebih besar dibandingkan estimator yang secara eksplisit memodelkan struktur error panel (seperti GLS pada Random Effect). Dalam praktik, kedua kelemahan ini sering kali muncul bersamaan, menjadikan CEM sebagai spesifikasi yang jarang dipertahankan sebagai model final dalam penelitian panel yang rigor.

3.1.6 Konteks Penggunaan dan Transisi ke Pengujian Model Alternatif

Meskipun memiliki keterbatasan teoritis, CEM tetap memiliki peran strategis dalam alur analisis data panel. Pertama, CEM berfungsi sebagai model baseline atau restricted model dalam pengujian spesifikasi, khususnya Uji Chow (F-test) yang membandingkan apakah penambahan efek individu (menuju Fixed Effect) secara statistik signifikan meningkatkan kebaikan suai model. Kedua, CEM dapat dipertahankan sebagai model final jika uji formal secara konsisten menunjukkan bahwa heterogenitas individu tidak signifikan, atau jika tujuan penelitian murni bersifat deskriptif-agregat tanpa претензии inferensi kausal yang ketat. Ketiga, dalam dataset dengan \(N\) sangat besar dan \(T\) sangat kecil, di mana variasi within nyaris tidak informatif, CEM (atau pendekatan yang mendekati pooling) kadang dipilih untuk menghindari masalah incidental parameters pada FEM. Setelah estimasi CEM dilakukan, peneliti tidak boleh berhenti pada interpretasi koefisien semata, melainkan wajib melanjutkan ke prosedur diagnostik perbandingan model. Transisi ini mengarah pada pengujian formal antara CEM dan Fixed Effect Model menggunakan Uji Chow, serta persiapan untuk membandingkan Fixed Effect dengan Random Effect melalui Uji Hausman, yang akan mengupas secara mendalam bagaimana asumsi mengenai korelasi error-regressor menentukan konsistensi estimator.


3.2 Fixed Effect Model (FEM): Pendekatan LSDV, Within Estimator, dan Interpretasi

3.2.1 Filosofi Dasar Fixed Effect Model dan Asumsi Heterogenitas Individu

Fixed Effect Model (FEM), yang dalam literatur ekonometrika juga dikenal sebagai Least Squares Dummy Variable (LSDV) atau Within Estimator, merupakan pendekatan estimasi data panel yang secara eksplisit mengakui dan mengontrol heterogenitas tidak teramati yang bersifat spesifik individu dan konstan sepanjang waktu. Filosofi inti FEM berakar pada asumsi bahwa setiap unit cross-section \(i\) (provinsi, perusahaan, rumah tangga, atau individu) memiliki karakteristik laten unik \(\mu_i\) yang mempengaruhi variabel terikat \(Y_{it}\), dan yang lebih krusial, karakteristik laten ini berkorelasi dengan satu atau lebih variabel bebas \(X_{kit}\) dalam model. Jika korelasi ini diabaikan dan peneliti menerapkan Common Effect Model (CEM) atau Random Effect Model (REM) secara naif, maka estimator koefisien \(\hat{\beta}\) akan mengalami bias omitted variable yang serius dan tidak konsisten secara asimtotik.

Dalam notasi matematis, FEM dimulai dari spesifikasi model dasar data panel: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\] di mana \(\mu_i\) merepresentasikan efek spesifik individu yang tidak berubah sepanjang waktu namun bervariasi antar-entitas, dan \(\nu_{it}\) adalah error idiosinkratik yang memenuhi asumsi klasik Gauss-Markov. Asumsi kunci FEM adalah \(E[\mu_i | X_{it}] \neq 0\), yaitu efek individu berkorelasi dengan regressor. Untuk mengeliminasi \(\mu_i\) dan menghasilkan estimator \(\beta\) yang konsisten, FEM menerapkan transformasi within atau pendekatan dummy variable yang akan diuraikan secara teknis pada sub-bab berikutnya. Dengan mengontrol \(\mu_i\), FEM memungkinkan peneliti mengisolasi pengaruh bersih variabel bebas terhadap variabel terikat setelah “membersihkan” semua karakteristik individu yang persisten, sehingga inferensi kausal menjadi lebih kredibel dalam konteks penelitian kebijakan, evaluasi program, atau analisis determinan ekonomi.

3.2.2 Pendekatan Least Squares Dummy Variable (LSDV): Formulasi dan Implementasi

Pendekatan LSDV merupakan representasi paling intuitif dari FEM, di mana efek spesifik individu \(\mu_i\) dimodelkan secara eksplisit melalui variabel dummy untuk setiap unit cross-section. Spesifikasi model LSDV dapat dituliskan sebagai: \[Y_{it} = \alpha + \sum_{i=2}^{N} \gamma_i D_i + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \nu_{it}\] di mana \(D_i\) adalah variabel dummy yang bernilai 1 jika observasi berasal dari unit \(i\) dan 0 untuk unit lainnya, dengan unit pertama (\(i=1\)) dijadikan kategori referensi untuk menghindari dummy variable trap atau multikolinearitas sempurna. Koefisien \(\gamma_i\) mengukur deviasi intercept unit \(i\) relatif terhadap unit referensi, sehingga secara efektif menangkap \(\mu_i - \mu_1\). Estimasi parameter dalam LSDV dilakukan dengan menerapkan Ordinary Least Squares (OLS) pada model yang telah diperluas dengan \(N-1\) variabel dummy, menghasilkan estimator \(\hat{\beta}_{LSDV}\) yang identik dengan estimator Within yang akan dibahas berikut.

Keunggulan pendekatan LSDV terletak pada transparansi interpretasi: setiap \(\hat{\gamma}_i\) secara langsung mencerminkan karakteristik unik unit \(i\) yang tidak teramati namun konstan terhadap waktu, seperti kualitas institusi daerah, budaya manajemen perusahaan, atau preferensi risiko rumah tangga. Namun, pendekatan ini memiliki keterbatasan praktis ketika \(N\) sangat besar (misalnya 514 kabupaten/kota), karena penambahan \(N-1\) variabel dummy mengonsumsi derajat kebebasan secara signifikan dan dapat memicu masalah komputasi akibat matriks desain \(\mathbf{X}\) yang sangat lebar. Dalam implementasi software seperti Stata, R, atau EViews, peneliti tidak perlu secara manual membuat variabel dummy; perintah seperti xtreg, fe di Stata atau plm(..., model = "within") di R secara otomatis menerapkan transformasi Within yang secara matematis ekuivalen dengan LSDV namun lebih efisien secara komputasi.

3.2.3 Transformasi Within: Mekanisme Demeaning dan Eliminasi Efek Individu

Transformasi Within, yang juga dikenal sebagai demeaning atau fixed effects transformation, merupakan pendekatan aljabar yang lebih elegan dan efisien untuk mengestimasi FEM tanpa memerlukan penambahan variabel dummy. Mekanisme ini bekerja dengan mengurangkan rata-rata time series setiap variabel untuk unit \(i\) dari nilai observasi aslinya, sehingga mengeliminasi komponen \(\mu_i\) yang konstan terhadap waktu. Secara formal, untuk setiap variabel \(Z_{it}\) (baik \(Y_{it}\) maupun \(X_{kit}\)), transformasi Within didefinisikan sebagai: \[\tilde{Z}_{it} = Z_{it} - \bar{Z}_i \quad \text{dengan} \quad \bar{Z}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} Z_{it}\] di mana \(\bar{Z}_i\) adalah rata-rata time series untuk unit \(i\). Dengan menerapkan transformasi ini pada model dasar, diperoleh: \[Y_{it} - \bar{Y}_i = \beta_1 (X_{1it} - \bar{X}_{1i}) + \beta_2 (X_{2it} - \bar{X}_{2i}) + \dots + \beta_k (X_{kit} - \bar{X}_{ki}) + (\nu_{it} - \bar{\nu}_i)\] atau dalam notasi ringkas: \[\tilde{Y}_{it} = \beta_1 \tilde{X}_{1it} + \beta_2 \tilde{X}_{2it} + \dots + \beta_k \tilde{X}_{kit} + \tilde{\nu}_{it}\] Perhatikan bahwa komponen \(\mu_i\) hilang secara deterministik karena \(\mu_i - \bar{\mu}_i = \mu_i - \mu_i = 0\). Estimasi koefisien \(\beta\) kemudian dilakukan dengan menerapkan OLS pada data yang telah ditransformasi \(\tilde{Y}_{it}\) dan \(\tilde{X}_{kit}\), menghasilkan estimator \(\hat{\beta}_{FE}\) yang konsisten dan unbiased asalkan \(E[\tilde{X}_{it}' \tilde{\nu}_{it}] = 0\).

Keunggulan transformasi Within terletak pada efisiensi komputasi: alih-alih mengestimasi \(N-1\) parameter dummy, peneliti hanya mengestimasi \(k\) koefisien slope. Selain itu, pendekatan ini secara otomatis menangani struktur unbalanced panel karena rata-rata \(\bar{Z}_i\) dihitung berdasarkan \(T_i\) observasi yang tersedia untuk setiap unit. Namun, transformasi ini juga memiliki implikasi interpretatif: karena hanya memanfaatkan variasi within (perubahan dalam unit sepanjang waktu), FEM tidak dapat mengestimasi efek variabel yang konstan terhadap waktu (\(X_i\)), seperti lokasi geografis, etnis, atau jenis kelamin, karena variabel tersebut akan tereliminasi sepenuhnya dalam proses demeaning (\(\tilde{X}_i = X_i - \bar{X}_i = 0\)). Untuk mengestimasi efek variabel time-invariant, peneliti perlu mengadopsi pendekatan Hybrid Model atau Correlated Random Effects yang akan dibahas pada bab selanjutnya.

3.2.4 Sifat Asimtotik dan Konsistensi Estimator Fixed Effect

Secara teoritis, estimator Fixed Effect \(\hat{\beta}_{FE}\) memiliki sifat asimtotik yang menjadikannya pilihan yang robust dalam banyak konteks penelitian panel. Pertama, konsistensi: \(\hat{\beta}_{FE}\) konvergen ke nilai parameter sejati \(\beta\) ketika \(T \to \infty\) dengan \(N\) tetap, atau ketika kedua dimensi \(N\) dan \(T\) menuju tak hingga. Konsistensi ini terjaga bahkan ketika \(\mu_i\) berkorelasi dengan \(X_{it}\), karena transformasi Within mengeliminasi \(\mu_i\) secara deterministik tanpa memerlukan asumsi ortogonalitas. Kedua, unbiasedness: dalam sampel terbatas, \(\hat{\beta}_{FE}\) tetap unbiased asalkan error idiosinkratik \(\nu_{it}\) memenuhi \(E[\nu_{it} | X_{i1}, \dots, X_{iT}, \mu_i] = 0\), yaitu tidak ada korelasi serial antara \(\nu_{it}\) dan regressor setelah mengontrol efek individu.

Namun, FEM juga memiliki keterbatasan asimtotik yang perlu diwaspadai. Dalam konfigurasi Large-N/Small-T (banyak individu, sedikit periode), estimator FEM dapat mengalami incidental parameters problem (Neyman-Scott bias), di mana estimasi \(N\) efek individu dengan \(T\) kecil menginduksi bias pada estimator slope \(\hat{\beta}_{FE}\), terutama dalam model dinamis yang menyertakan lag variabel terikat. Bias ini menurun seiring dengan peningkatan \(T\), sehingga FEM lebih direkomendasikan untuk Long Panel (\(T \gtrsim N\)) atau ketika \(T\) cukup besar untuk memisahkan sinyal temporal dari noise idiosinkratik. Selain itu, karena FEM hanya memanfaatkan variasi within, presisi estimator dapat menurun jika variabel bebas memiliki variasi temporal yang rendah, menghasilkan standar error yang besar dan daya uji statistik yang lemah. Peneliti disarankan untuk menghitung rasio variasi within-to-before estimasi sebagai diagnostik awal terhadap kelayakan FEM.

3.2.5 Interpretasi Koefisien dan Implikasi Substantif dalam Konteks Kebijakan

Interpretasi koefisien \(\hat{\beta}_{FE}\) dalam Fixed Effect Model harus selalu dikontekstualisasikan dengan sumber variasi yang dimanfaatkan estimator. Secara spesifik, \(\hat{\beta}_k\) mencerminkan pengaruh marginal perubahan dalam variabel \(X_k\) di dalam unit yang sama sepanjang waktu terhadap perubahan variabel terikat \(Y\), setelah mengontrol semua karakteristik individu yang tidak berubah sepanjang waktu. Interpretasi ini menjawab pertanyaan kausal yang sangat relevan bagi evaluasi kebijakan: “Bagaimana kenaikan alokasi dana desa di kabupaten yang sama dari tahun ke tahun memengaruhi penurunan tingkat kemiskinan, setelah mengeliminasi perbedaan permanen antar-kabupaten seperti geografi, budaya, atau kapasitas birokrasi?”

Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi Indonesia, interpretasi FEM memiliki implikasi kebijakan yang diferensiatif. Misalnya, jika \(\hat{\beta}_{IPM} = -0.45\) dengan signifikansi statistik, maka setiap kenaikan satu poin IPM di dalam provinsi yang sama sepanjang waktu dikaitkan dengan penurunan 0.45 persen poin tingkat kemiskinan, setelah mengontrol karakteristik provinsi yang persisten. Rekomendasi kebijakan yang berbasis pada temuan ini akan menekankan pentingnya intervensi yang bersifat time-varying dan dapat dimodifikasi, seperti program pelatihan tenaga kerja, peningkatan akses kesehatan, atau reformasi tata kelola pendidikan, daripada faktor struktural yang sulit diubah dalam jangka pendek. Namun, peneliti juga harus secara eksplisit menyatakan batasan interpretasi: karena FEM mengeliminasi variabel time-invariant, temuan tidak dapat menginformasikan mengenai efek karakteristik permanen seperti status kepulauan atau warisan historis terhadap kemiskinan. Komunikasi hasil yang transparan mengenai sumber variasi dan batasan model menjadi krusial untuk memastikan bahwa rekomendasi kebijakan berbasis bukti yang valid dan dapat ditindaklanjuti.

3.2.6 Diagnostik Model dan Transisi ke Random Effect Model

Setelah estimasi Fixed Effect Model, peneliti wajib melakukan serangkaian diagnostik untuk memvalidasi asumsi model dan mempersiapkan perbandingan dengan spesifikasi alternatif. Pertama, uji signifikansi efek individu: meskipun FEM secara default mengestimasi \(\mu_i\), peneliti dapat menguji apakah variasi antar-individu secara statistik signifikan menggunakan uji F pada koefisien dummy dalam pendekatan LSDV, atau melalui output sigma_u dan uji F dalam software panel. Jika efek individu tidak signifikan, maka Common Effect Model mungkin lebih parsimonius dan efisien. Kedua, pemeriksaan residual: residual \(\hat{\nu}_{it}\) dari FEM harus diuji terhadap heteroskedastisitas dan autokorelasi, karena pelanggaran asumsi ini dapat menggerogoti validitas standar error konvensional. Teknik seperti Clustered Standard Errors (Liang-Zeger) atau Driscoll-Kraay standard errors dapat diterapkan untuk menghasilkan inferensi yang robust terhadap heteroskedastisitas antar-individu dan autokorelasi serial.

Diagnostik paling krusial dalam alur seleksi model adalah Uji Hausman, yang membandingkan konsistensi Fixed Effect terhadap efisiensi Random Effect. Jika uji Hausman menolak hipotesis nol (asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\)), maka FEM dipilih sebagai spesifikasi final karena REM akan menghasilkan estimator yang bias. Sebaliknya, jika hipotesis nol tidak ditolak, Random Effect Model dapat dipertimbangkan untuk mengestimasi efek variabel time-invariant dan meningkatkan efisiensi. Transisi dari FEM ke REM bukan sekadar prosedur statistik, melainkan refleksi terhadap asumsi substantif mengenai hubungan antara karakteristik laten individu dan variabel kebijakan yang diamati. Bab selanjutnya akan mengupas secara mendalam spesifikasi Random Effect Model, mekanisme estimasi Generalized Least Squares, serta protokol komprehensif untuk memilih model terbaik yang menjamin konsistensi, efisiensi, dan relevansi kebijakan dari hasil penelitian.


3.3 Random Effect Model (REM): Konsep Error Component dan Estimasi GLS

3.3.1 Filosofi Dasar Random Effect Model dan Asumsi Ortogonalitas

Random Effect Model (REM), yang dalam literatur ekonometrika juga dikenal sebagai Error Component Model atau Variance Component Model, merupakan pendekatan estimasi data panel yang memperlakukan heterogenitas individu \(\mu_i\) sebagai bagian dari komponen error yang bersifat stokastik dan tidak berkorelasi dengan variabel bebas dalam model. Filosofi inti REM berakar pada asumsi bahwa karakteristik unik setiap unit cross-section \(i\)—seperti budaya institusi, preferensi manajerial, atau kondisi geografis permanen—merupakan realisasi acak dari suatu distribusi populasi yang lebih luas, bukan parameter tetap yang harus diestimasi secara deterministik seperti dalam Fixed Effect Model (FEM).

Secara matematis, REM dimulai dari spesifikasi model dasar data panel dengan dekomposisi error yang eksplisit: \[Y_{it} = \alpha + \beta_1 X_{1it} + \beta_2 X_{2it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\] di mana \(\mu_i \sim IID(0, \sigma_\mu^2)\) merepresentasikan efek spesifik individu yang bersifat acak dan tidak berkorelasi dengan regressor, serta \(\nu_{it} \sim IID(0, \sigma_\nu^2)\) adalah error idiosinkratik yang memenuhi asumsi klasik Gauss-Markov. Asumsi kunci REM adalah \(E[\mu_i | X_{it}] = 0\), yaitu efek individu tidak berkorelasi dengan variabel bebas. Jika asumsi ortogonalitas ini terpenuhi, maka estimator berbasis REM akan menghasilkan estimasi koefisien \(\beta\) yang tidak bias, konsisten, dan efisien secara asimtotik. Namun, jika \(\mu_i\) berkorelasi dengan \(X_{it}\), estimator REM menjadi bias dan tidak konsisten, sehingga Fixed Effect Model menjadi pilihan yang lebih robust meskipun mengorbankan efisiensi.

3.3.2 Struktur Kovarians Error dan Transformasi Quasi-Demeaning

Keunikan REM terletak pada pengakuan bahwa komponen error \(u_{it} = \mu_i + \nu_{it}\) memiliki struktur kovarians yang tidak skalar akibat keberadaan \(\mu_i\) yang konstan terhadap waktu namun bervariasi antar-individu. Matriks kovarians error untuk unit \(i\) dapat dituliskan sebagai: \[\Omega_i = E[u_i u_i'] = \sigma_\mu^2 \mathbf{1}_T \mathbf{1}_T' + \sigma_\nu^2 I_T\] di mana \(\mathbf{1}_T\) adalah vektor kolom berdimensi \(T \times 1\) yang seluruh elemennya bernilai 1, dan \(I_T\) adalah matriks identitas berdimensi \(T \times T\). Struktur ini mengindikasikan bahwa error untuk observasi yang berasal dari unit yang sama memiliki korelasi positif sebesar \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\), yang dikenal sebagai koefisien korelasi intra-kelas (intra-class correlation coefficient).

Untuk menangani struktur kovarians yang tidak skalar ini, REM menerapkan transformasi quasi-demeaning atau Generalized Least Squares (GLS) transformation yang mengombinasikan variasi within dan between secara optimal. Transformasi ini didefinisikan sebagai: \[Y_{it}^* = Y_{it} - \theta \bar{Y}_i \quad \text{dan} \quad X_{kit}^* = X_{kit} - \theta \bar{X}_{ki}\] di mana \(\bar{Y}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} Y_{it}\) adalah rata-rata time series untuk unit \(i\), dan parameter \(\theta\) dihitung sebagai: \[\theta = 1 - \sqrt{\frac{\sigma_\nu^2}{\sigma_\nu^2 + T \sigma_\mu^2}}\] Nilai \(\theta\) berada pada interval \([0, 1]\). Ketika \(\sigma_\mu^2 = 0\) (tidak ada heterogenitas individu), maka \(\theta = 0\) dan transformasi quasi-demeaning mereduksi menjadi Pooled OLS. Ketika \(\sigma_\nu^2 = 0\) atau \(T \to \infty\), maka \(\theta \to 1\) dan transformasi mendekati Within transformation pada FEM. Dengan menerapkan transformasi ini, estimator GLS diperoleh melalui: \[\hat{\boldsymbol{\beta}}_{RE} = (\mathbf{X}^{*'} \mathbf{X}^*)^{-1} \mathbf{X}^{*'} \mathbf{y}^*\] yang menghasilkan estimator yang efisien asalkan asumsi ortogonalitas dan struktur kovarians terpenuhi.

3.3.3 Estimasi Varians Komponen: Metode Swamy-Arora dan Wallace-Hussain

Implementasi praktis REM memerlukan estimasi konsisten terhadap parameter varians komponen \(\sigma_\mu^2\) dan \(\sigma_\nu^2\), yang menentukan nilai \(\theta\) dalam transformasi quasi-demeaning. Terdapat beberapa metode estimasi varians komponen yang lazim digunakan dalam perangkat lunak ekonometrika. Metode Swamy-Arora merupakan pendekatan yang paling umum, yang mengestimasi \(\sigma_\nu^2\) dari residual Within estimator (FEM) dan \(\sigma_\mu^2\) dari selisih antara varians Between dan Within: \[\hat{\sigma}_\nu^2 = \frac{\sum_{i=1}^{N} \sum_{t=1}^{T_i} \hat{\nu}_{it}^2}{NT - N - k} \quad \text{dan} \quad \hat{\sigma}_\mu^2 = \max\left\{0, \frac{\sum_{i=1}^{N} T_i (\bar{u}_i - \bar{u})^2}{N - 1} - \frac{\hat{\sigma}_\nu^2}{\bar{T}}\right\}\] di mana \(\bar{T}\) adalah rata-rata harmonik dari \(T_i\). Metode Wallace-Hussain merupakan alternatif yang mengestimasi varians komponen dari residual Pooled OLS, meskipun cenderung kurang efisien dibandingkan Swamy-Arora dalam sampel terbatas.

Dalam implementasi software seperti Stata, R (paket plm), atau EViews, peneliti tidak perlu menghitung manual parameter varians komponen; perintah seperti xtreg, re di Stata atau plm(..., model = "random") di R secara otomatis menerapkan estimasi Swamy-Arora atau metode Maximum Likelihood (ML) untuk memperoleh \(\hat{\theta}\) dan estimator GLS. Namun, peneliti wajib memverifikasi bahwa estimasi \(\hat{\sigma}_\mu^2\) tidak bernilai negatif (yang akan di-set ke nol oleh software), karena hal ini mengindikasikan bahwa heterogenitas individu tidak signifikan dan Common Effect Model mungkin lebih parsimonius.

3.3.4 Keunggulan Efisiensi dan Kemampuan Estimasi Variabel Time-Invariant

Keunggulan utama REM dibandingkan FEM terletak pada efisiensi estimator dan fleksibilitas dalam mengestimasi efek variabel yang konstan terhadap waktu. Pertama, karena REM memanfaatkan kombinasi weighted antara variasi within dan between, estimator \(\hat{\beta}_{RE}\) memiliki varians yang lebih kecil dibandingkan \(\hat{\beta}_{FE}\) asalkan asumsi ortogonalitas terpenuhi. Efisiensi ini khususnya berharga dalam konfigurasi Large-N/Small-T, di mana variasi within terbatas dan FEM dapat menghasilkan standar error yang besar.

Kedua, REM memungkinkan estimasi koefisien untuk variabel time-invariant seperti lokasi geografis, etnis, jenis kelamin, atau status kepulauan, yang akan tereliminasi sepenuhnya dalam transformasi Within pada FEM. Dalam konteks penelitian kemiskinan di Indonesia, variabel seperti “provinsi kepulauan” atau “jarak ke ibu kota” sering kali menjadi determinan struktural yang relevan secara kebijakan namun tidak berubah sepanjang periode studi. REM memungkinkan peneliti mengkuantifikasi pengaruh variabel-variabel ini sambil tetap mengontrol heterogenitas individu yang tidak teramati melalui komponen \(\mu_i\). Namun, interpretasi koefisien variabel time-invariant dalam REM harus dilakukan dengan hati-hati, karena estimasinya bergantung pada asumsi ortogonalitas yang sulit diverifikasi secara empiris.

3.3.5 Risiko Bias dan Diagnostik Validitas Asumsi Ortogonalitas

Meskipun efisien, REM rentan terhadap bias serius jika asumsi ortogonalitas \(E[\mu_i | X_{it}] = 0\) dilanggar. Dalam praktik penelitian ekonomi, karakteristik laten individu seperti kualitas institusi, norma sosial, atau preferensi risiko sering kali berkorelasi dengan variabel kebijakan yang diamati. Misalnya, dalam analisis determinan kemiskinan, provinsi dengan kapasitas fiskal tinggi (\(\mu_i\) positif) mungkin juga mengalokasikan dana pembangunan pendidikan lebih besar (\(X_{it}\)), sehingga mengabaikan korelasi ini dalam REM akan menghasilkan estimator \(\hat{\beta}_{RE}\) yang bias ke atas atau ke bawah tergantung arah korelasi.

Untuk memvalidasi asumsi ortogonalitas, peneliti wajib menerapkan Uji Hausman yang membandingkan konsistensi FEM terhadap efisiensi REM. Hipotesis nol uji Hausman adalah \(H_0: E[\mu_i | X_{it}] = 0\) (REM konsisten dan efisien), sedangkan hipotesis alternatif adalah \(H_1: E[\mu_i | X_{it}] \neq 0\) (hanya FEM yang konsisten). Statistik uji Hausman dihitung sebagai: \[H = (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE})' [\text{Var}(\hat{\boldsymbol{\beta}}_{FE}) - \text{Var}(\hat{\boldsymbol{\beta}}_{RE})]^{-1} (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE}) \sim \chi^2_k\] Jika nilai probabilitas uji Hausman lebih kecil dari tingkat signifikansi \(\alpha\) (misalnya 0.05), maka \(H_0\) ditolak dan FEM dipilih sebagai spesifikasi final. Sebaliknya, jika \(H_0\) tidak ditolak, REM dapat dipertahankan untuk memanfaatkan efisiensi dan kemampuan estimasi variabel time-invariant. Peneliti juga disarankan untuk melakukan sensitivity analysis dengan membandingkan hasil REM terhadap spesifikasi alternatif seperti Correlated Random Effects (Mundlak-Chamberlain) yang mengizinkan korelasi terbatas antara \(\mu_i\) dan rata-rata time series dari \(X_{it}\).

3.3.6 Transisi ke Prosedur Seleksi Model: Integrasi Uji Chow, Hausman, dan LM

Pemahaman mendalam terhadap karakteristik REM bukan berakhir pada estimasi teknis, melainkan menjadi komponen integral dalam prosedur seleksi model terbaik yang sistematis. Dalam alur analisis data panel, REM tidak berdiri sendiri melainkan diperbandingkan secara berpasangan dengan Common Effect Model (CEM) dan Fixed Effect Model (FEM) melalui tiga uji formal: Uji Chow untuk membandingkan CEM vs FEM, Uji Hausman untuk FEM vs REM, dan Uji Lagrange Multiplier (LM) Breusch-Pagan untuk CEM vs REM.

Protokol seleksi yang rigor mengharuskan peneliti untuk tidak mengandalkan satu uji semata, melainkan menjalankan ketiga pengujian secara komprehensif dan menginterpretasikan hasilnya secara konsisten. Misalnya, jika Uji Chow menolak CEM (memilih FEM) dan Uji Hausman menolak REM (memilih FEM), maka FEM menjadi spesifikasi final yang robust. Sebaliknya, jika Uji Chow menerima CEM namun Uji LM menolak CEM (memilih REM), maka REM dipilih dengan catatan bahwa asumsi ortogonalitas harus divalidasi melalui Uji Hausman tambahan. Transisi dari estimasi REM ke prosedur seleksi model menandai pergeseran dari spesifikasi teknis ke inferensi metodologis yang menjamin konsistensi, efisiensi, dan relevansi substantif hasil penelitian. Bab selanjutnya akan mengupas secara mendalam mekanisme Uji Chow, prosedural implementasi, serta interpretasi hasil dalam konteks pemilihan antara Common Effect dan Fixed Effect Model.


3.4 Uji Chow (F-Test): Prosedur Pemilihan antara CEM dan FEM

3.4.1 Landasan Teoritis Uji Chow dalam Konteks Data Panel

Uji Chow, yang dalam literatur ekonometrika panel juga dikenal sebagai Uji F untuk efek individu atau Redundant Fixed Effects Test, merupakan prosedur statistik formal yang dirancang untuk membandingkan kesesuaian antara Common Effect Model (CEM) dan Fixed Effect Model (FEM). Landasan filosofis uji ini berakar pada pertanyaan mendasar: apakah heterogenitas antar-unit cross-section (\(\mu_i\)) signifikan secara statistik sehingga memerlukan pemodelan eksplisit melalui FEM, ataukah variasi antar-unit tersebut dapat diabaikan sehingga pendekatan pooling melalui CEM sudah memadai?

Secara matematis, uji Chow menguji hipotesis nol bahwa semua efek individu identik, yaitu \(H_0: \mu_1 = \mu_2 = \dots = \mu_N = \mu\), yang secara ekuivalen berarti tidak ada perbedaan struktural antar-unit yang perlu dimodelkan secara terpisah. Hipotesis alternatifnya adalah \(H_1: \text{minimal satu } \mu_i \neq \mu_j\), yang mengindikasikan keberadaan heterogenitas individu yang signifikan sehingga FEM menjadi spesifikasi yang lebih tepat. Dalam kerangka regresi, uji ini membandingkan residual sum of squares (RSS) dari model terbatas (CEM) dengan RSS dari model tidak terbatas (FEM), kemudian menghitung statistik F yang mengukur apakah penurunan RSS akibat penambahan \(N-1\) parameter dummy individu bernilai signifikan secara statistik.

3.4.2 Formulasi Statistik Uji dan Prosedur Komputasi

Statistik uji Chow dihitung berdasarkan perbandingan dua model: model terbatas (restricted model) yaitu CEM dengan residual sum of squares \(RSS_R\), dan model tidak terbatas (unrestricted model) yaitu FEM dengan residual sum of squares \(RSS_U\). Rumus statistik F-nya adalah: \[F = \frac{(RSS_R - RSS_U) / (N - 1)}{RSS_U / (NT - N - k)}\] di mana \(N\) adalah jumlah unit cross-section, \(T\) adalah jumlah periode waktu, \(k\) adalah jumlah variabel bebas (tidak termasuk konstanta), dan derajat kebebasan pembilang adalah \((N - 1)\) yang merepresentasikan jumlah parameter tambahan dalam FEM dibandingkan CEM. Derajat kebebasan penyebut adalah \((NT - N - k)\) yang mencerminkan sisa derajat kebebasan setelah mengestimasi \(N\) efek individu dan \(k\) koefisien slope.

Dalam implementasi perangkat lunak seperti Stata, R (paket plm), atau EViews, prosedur komputasi uji Chow biasanya terintegrasi dalam output estimasi FEM. Misalnya, di Stata perintah xtreg, fe secara otomatis melaporkan uji F untuk \(\mu_i = 0\) untuk semua \(i\), sedangkan di EViews uji ini dapat diakses melalui menu View > Fixed/Random Effects Testing > Redundant Fixed Effects Likelihood Ratio. Peneliti harus memastikan bahwa model CEM dan FEM diestimasi menggunakan sampel observasi yang identik, karena perbedaan sampel akibat missing value dapat mengacaukan perbandingan RSS dan menghasilkan statistik F yang tidak valid.

3.4.3 Interpretasi Hasil Uji dan Implikasi terhadap Pemilihan Model

Interpretasi hasil uji Chow didasarkan pada perbandingan nilai probabilitas (p-value) statistik F terhadap tingkat signifikansi \(\alpha\) yang ditetapkan, umumnya 0.05 atau 5%. Jika p-value < \(\alpha\), maka hipotesis nol ditolak, yang berarti terdapat bukti statistik yang kuat bahwa efek individu berbeda secara signifikan antar-unit. Dalam kasus ini, Fixed Effect Model dipilih sebagai spesifikasi yang lebih tepat karena mampu mengontrol heterogenitas tidak teramati yang berkorelasi dengan variabel bebas. Sebaliknya, jika p-value \(\geq\) \(\alpha\), maka hipotesis nol tidak ditolak, mengindikasikan bahwa perbedaan antar-unit tidak signifikan secara statistik sehingga Common Effect Model yang lebih parsimonius dapat dipertahankan.

Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi Indonesia, interpretasi uji Chow memiliki implikasi substantif yang penting. Misalnya, jika uji Chow menghasilkan F = 12.45 dengan p-value = 0.000, maka peneliti memiliki bukti kuat bahwa karakteristik permanen setiap provinsi (seperti geografi, budaya institusi, atau kapasitas fiskal historis) secara signifikan mempengaruhi tingkat kemiskinan. Mengabaikan efek ini dengan menggunakan CEM akan menghasilkan estimator yang bias dan rekomendasi kebijakan yang tidak tepat sasaran. Sebaliknya, jika p-value = 0.23, maka perbedaan antar-provinsi tidak cukup kuat untuk membenarkan kompleksitas FEM, sehingga CEM dapat dipilih untuk efisiensi interpretasi dan komunikasi hasil.

3.4.4 Asumsi Pendukung dan Diagnostik Validitas Uji Chow

Validitas inferensi dari uji Chow bergantung pada terpenuhinya sejumlah asumsi klasik yang dimodifikasi untuk konteks panel. Pertama, error idiosinkratik \(\nu_{it}\) harus memenuhi asumsi homoskedastisitas dan tidak ada autokorelasi serial, karena pelanggaran asumsi ini dapat menggerogoti distribusi F teoritis dan menghasilkan p-value yang bias. Jika heteroskedastisitas atau autokorelasi terdeteksi, peneliti disarankan untuk menerapkan robust standard errors (seperti Clustered Standard Errors) sebelum melakukan uji Chow, atau menggunakan versi uji yang robust terhadap pelanggaran asumsi tersebut.

Kedua, spesifikasi model harus benar: baik CEM maupun FEM harus menyertakan variabel bebas yang relevan dan bentuk fungsional yang tepat (misalnya linear atau log-linear). Spesifikasi yang salah dapat menyebabkan RSS yang tidak komparabel dan statistik F yang misleading. Ketiga, sampel observasi harus identik antara kedua model; jika FEM kehilangan observasi akibat transformasi within pada data unbalanced, maka perbandingan RSS menjadi tidak valid. Peneliti disarankan untuk memeriksa konsistensi jumlah observasi dan menerapkan teknik imputasi atau weighting jika missingness bersifat sistematis. Diagnostik tambahan seperti uji normalitas residual dapat dilakukan untuk memvalidasi asumsi distribusi, meskipun uji Chow relatif robust terhadap deviasi normalitas dalam sampel besar berkat teorema limit pusat.

3.4.5 Keterbatasan Uji Chow dan Strategi Komplementer

Meskipun berguna, uji Chow memiliki sejumlah keterbatasan yang perlu diantisipasi peneliti. Pertama, uji ini hanya membandingkan CEM versus FEM dan tidak memberikan informasi mengenai Random Effect Model (REM). Jika tujuan penelitian mencakup estimasi variabel time-invariant atau efisiensi GLS, peneliti tetap perlu menjalankan uji Hausman setelah uji Chow. Kedua, dalam konfigurasi Large-N/Small-T, penambahan \(N-1\) parameter dummy dapat mengonsumsi derajat kebebasan secara signifikan, mengurangi daya uji statistik dan meningkatkan risiko kesalahan tipe II (gagal mendeteksi heterogenitas yang sebenarnya ada). Ketiga, uji Chow mengasumsikan bahwa heterogenitas individu bersifat aditif dan konstan terhadap waktu; jika efek individu berinteraksi dengan waktu atau variabel bebas, spesifikasi FEM standar mungkin tidak memadai dan memerlukan pendekatan yang lebih fleksibel seperti varying coefficient models.

Strategi komplementer untuk mengatasi keterbatasan ini meliputi: (1) menjalankan uji Lagrange Multiplier (LM) Breusch-Pagan sebagai alternatif untuk membandingkan CEM versus REM, sehingga peneliti memiliki tiga perspektif pemilihan model; (2) menerapkan sensitivity analysis dengan membandingkan hasil estimasi CEM dan FEM terhadap variabel kunci, untuk mengidentifikasi apakah perbedaan koefisien bersifat substantif meskipun uji Chow tidak signifikan; dan (3) mempertimbangkan pendekatan Hybrid Model atau Correlated Random Effects (Mundlak-Chamberlain) yang memungkinkan estimasi efek variabel time-invariant sambil tetap mengontrol heterogenitas individu, sehingga menjembatani kelebihan CEM dan FEM.

3.4.6 Transisi ke Uji Hausman: Melengkapi Protokol Seleksi Model Terbaik

Uji Chow merupakan langkah pertama dalam protokol seleksi model data panel yang sistematis, namun bukan langkah terakhir. Setelah menentukan apakah FEM lebih tepat daripada CEM, peneliti harus melanjutkan ke perbandingan antara FEM dan REM melalui Uji Hausman, yang menguji asumsi ortogonalitas antara efek individu \(\mu_i\) dan variabel bebas \(X_{it}\). Protokol lengkap seleksi model terbaik mengikuti alur berjenjang: (1) Uji Chow untuk CEM vs FEM; (2) Jika FEM dipilih, lanjutkan ke Uji Hausman untuk FEM vs REM; (3) Jika CEM dipilih dan peneliti ingin mempertimbangkan REM, jalankan Uji LM untuk CEM vs REM sebagai validasi tambahan.

Transisi dari uji Chow ke uji Hausman menandai pergeseran dari pertanyaan mengenai signifikansi heterogenitas individu menuju pertanyaan mengenai sifat korelasi antara heterogenitas tersebut dengan regressor. Pemahaman terhadap kedua dimensi ini—signifikansi dan korelasi—menjadi fondasi untuk memilih estimator yang tidak hanya statistik valid, tetapi juga substantif relevan dengan konteks penelitian. Bab selanjutnya akan mengupas secara mendalam mekanisme Uji Hausman, formulasi statistik, prosedur implementasi, serta interpretasi hasil dalam kerangka pemilihan antara Fixed Effect dan Random Effect Model yang menjamin konsistensi, efisiensi, dan kredibilitas inferensi kebijakan.


3.5 Uji Hausman: Prosedur Pemilihan antara FEM dan REM Berdasarkan Konsistensi

3.5.1 Landasan Teoritis Uji Hausman dalam Konteks Data Panel

Uji Hausman, yang dinamai dari ekonom Jerry A. Hausman yang memformulasikannya pada tahun 1978, merupakan prosedur statistik fundamental dalam ekonometrika data panel yang dirancang untuk menguji konsistensi estimator dengan membandingkan dua pendekatan estimasi: Fixed Effect Model (FEM) dan Random Effect Model (REM). Landasan filosofis uji ini berakar pada pertanyaan krusial mengenai sifat hubungan antara efek spesifik individu \(\mu_i\) dan variabel bebas \(\mathbf{X}_{it}\) dalam model: apakah \(\mu_i\) berkorelasi dengan \(\mathbf{X}_{it}\) atau tidak? Jika korelasi tersebut ada, maka estimator REM menjadi bias dan tidak konsisten, sehingga FEM—yang mengeliminasi \(\mu_i\) secara deterministik melalui transformasi within—menjadi satu-satunya pilihan yang valid secara asimtotik.

Secara formal, Uji Hausman menguji hipotesis nol \(H_0: E[\mu_i | \mathbf{X}_{it}] = 0\), yang berarti efek individu tidak berkorelasi dengan regressor, sehingga REM konsisten dan efisien. Hipotesis alternatifnya adalah \(H_1: E[\mu_i | \mathbf{X}_{it}] \neq 0\), yang mengindikasikan adanya korelasi sistematis sehingga hanya FEM yang konsisten. Dalam kerangka inferensi statistik, uji ini memanfaatkan fakta bahwa di bawah \(H_0\), kedua estimator \(\hat{\boldsymbol{\beta}}_{FE}\) dan \(\hat{\boldsymbol{\beta}}_{RE}\) konvergen ke nilai parameter sejati \(\boldsymbol{\beta}\), namun \(\hat{\boldsymbol{\beta}}_{RE}\) memiliki varians yang lebih kecil. Di bawah \(H_1\), hanya \(\hat{\boldsymbol{\beta}}_{FE}\) yang tetap konsisten, sementara \(\hat{\boldsymbol{\beta}}_{RE}\) menyimpang secara sistematis. Perbedaan antara kedua estimator ini, jika signifikan secara statistik, menjadi bukti empiris bahwa asumsi ortogonalitas REM dilanggar.

3.5.2 Formulasi Statistik Uji dan Prosedur Komputasi

Statistik uji Hausman dihitung berdasarkan selisih vektor koefisien antara estimator FEM dan REM, serta matriks kovarians perbedaan tersebut. Rumus formalnya adalah: \[H = (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE})' [\text{Var}(\hat{\boldsymbol{\beta}}_{FE}) - \text{Var}(\hat{\boldsymbol{\beta}}_{RE})]^{-1} (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE})\] di mana \(\hat{\boldsymbol{\beta}}_{FE}\) dan \(\hat{\boldsymbol{\beta}}_{RE}\) adalah vektor koefisien slope yang diestimasi dari Fixed Effect dan Random Effect Model, sedangkan \(\text{Var}(\cdot)\) merepresentasikan matriks kovarians estimator masing-masing. Di bawah hipotesis nol, statistik \(H\) berdistribusi asimtotik sebagai chi-square dengan derajat kebebasan sama dengan jumlah koefisien slope \(k\) yang diuji: \(H \sim \chi^2_k\).

Dalam implementasi perangkat lunak seperti Stata, R (paket plm), atau EViews, prosedur komputasi Uji Hausman biasanya terintegrasi dalam output estimasi panel. Di Stata, setelah estimasi FEM dan REM, perintah hausman fe re secara otomatis menghitung statistik uji dan probabilitasnya. Di R, fungsi phtest() dalam paket plm membandingkan dua objek model panel dan mengembalikan nilai statistik serta p-value. Peneliti harus memastikan bahwa kedua model diestimasi menggunakan sampel observasi yang identik, karena perbedaan sampel akibat missing value atau transformasi within dapat mengacaukan perbandingan varians dan menghasilkan statistik uji yang tidak valid. Selain itu, beberapa software menerapkan koreksi kecil (seperti penambahan konstanta numerik kecil pada diagonal matriks) untuk menghindari masalah singularitas saat menginvert matriks perbedaan varians.

3.5.3 Interpretasi Hasil Uji dan Implikasi terhadap Pemilihan Model

Interpretasi hasil Uji Hausman didasarkan pada perbandingan nilai probabilitas (p-value) statistik chi-square terhadap tingkat signifikansi \(\alpha\) yang ditetapkan, umumnya 0.05 atau 5%. Jika p-value < \(\alpha\), maka hipotesis nol ditolak, yang berarti terdapat bukti statistik yang kuat bahwa efek individu \(\mu_i\) berkorelasi dengan variabel bebas \(\mathbf{X}_{it}\). Dalam kasus ini, Random Effect Model menghasilkan estimator yang bias dan tidak konsisten, sehingga Fixed Effect Model harus dipilih sebagai spesifikasi final meskipun mengorbankan efisiensi dan kemampuan mengestimasi variabel time-invariant. Sebaliknya, jika p-value \(\geq\) \(\alpha\), maka hipotesis nol tidak ditolak, mengindikasikan bahwa asumsi ortogonalitas REM dapat dipertahankan sehingga estimator REM yang lebih efisien dan fleksibel dapat digunakan.

Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi Indonesia, interpretasi Uji Hausman memiliki implikasi kebijakan yang substantif. Misalnya, jika uji Hausman menghasilkan statistik \(H = 18.73\) dengan p-value = 0.002, maka peneliti memiliki bukti kuat bahwa karakteristik permanen setiap provinsi (seperti kualitas institusi, norma sosial, atau kapasitas fiskal historis) berkorelasi dengan variabel kebijakan seperti alokasi dana desa atau program pelatihan tenaga kerja. Mengabaikan korelasi ini dengan menggunakan REM akan menghasilkan rekomendasi kebijakan yang bias dan tidak tepat sasaran. Sebaliknya, jika p-value = 0.34, maka tidak ada bukti empiris yang cukup untuk menolak asumsi ortogonalitas, sehingga REM dapat dipilih untuk mengestimasi efek variabel time-invariant seperti status kepulauan atau jarak ke ibu kota, sambil tetap mengontrol heterogenitas individu melalui komponen error \(\mu_i\).

3.5.4 Asumsi Pendukung dan Diagnostik Validitas Uji Hausman

Validitas inferensi dari Uji Hausman bergantung pada terpenuhinya sejumlah asumsi klasik yang dimodifikasi untuk konteks panel. Pertama, kedua estimator \(\hat{\boldsymbol{\beta}}_{FE}\) dan \(\hat{\boldsymbol{\beta}}_{RE}\) harus konsisten di bawah \(H_0\), yang memerlukan bahwa error idiosinkratik \(\nu_{it}\) memenuhi \(E[\nu_{it} | \mathbf{X}_{i1}, \dots, \mathbf{X}_{iT}, \mu_i] = 0\). Jika asumsi ini dilanggar—misalnya akibat autokorelasi serial atau heteroskedastisitas yang tidak terkontrol—maka matriks kovarians yang digunakan dalam perhitungan statistik \(H\) menjadi bias, menghasilkan p-value yang misleading. Jika pelanggaran asumsi terdeteksi, peneliti disarankan untuk menerapkan robust standard errors (seperti Clustered Standard Errors atau Driscoll-Kraay) sebelum melakukan uji Hausman, atau menggunakan versi uji yang robust terhadap pelanggaran asumsi tersebut.

Kedua, spesifikasi model harus benar: baik FEM maupun REM harus menyertakan variabel bebas yang relevan dan bentuk fungsional yang tepat. Spesifikasi yang salah dapat menyebabkan perbedaan koefisien yang tidak mencerminkan korelasi \(\mu_i\)-\(\mathbf{X}_{it}\), melainkan bias spesifikasi model. Ketiga, sampel observasi harus identik antara kedua model; jika FEM kehilangan observasi akibat transformasi within pada data unbalanced, maka perbandingan varians menjadi tidak valid. Diagnostik tambahan seperti uji normalitas residual dapat dilakukan untuk memvalidasi asumsi distribusi, meskipun Uji Hausman relatif robust terhadap deviasi normalitas dalam sampel besar berkat teorema limit pusat. Peneliti juga disarankan untuk memeriksa kondisi numerik matriks perbedaan varians; jika matriks tersebut hampir singular, hasil uji dapat tidak stabil dan memerlukan koreksi atau pendekatan alternatif.

3.5.5 Keterbatasan Uji Hausman dan Strategi Komplementer

Meskipun powerful, Uji Hausman memiliki sejumlah keterbatasan yang perlu diantisipasi peneliti. Pertama, uji ini hanya valid ketika kedua estimator dibandingkan memang konsisten di bawah \(H_0\); jika FEM sendiri bias akibat spesifikasi dinamis yang salah atau endogenitas regressor, maka perbandingan dengan REM menjadi tidak bermakna. Kedua, dalam konfigurasi Large-N/Small-T, varians estimator REM dapat sangat kecil sehingga perbedaan dengan FEM menjadi signifikan secara statistik meskipun perbedaan substantifnya minimal, meningkatkan risiko kesalahan tipe I (menolak \(H_0\) yang sebenarnya benar). Ketiga, Uji Hausman mengasumsikan bahwa heterogenitas individu bersifat aditif dan konstan terhadap waktu; jika efek individu berinteraksi dengan waktu atau variabel bebas, spesifikasi standar FEM/REM mungkin tidak memadai dan memerlukan pendekatan yang lebih fleksibel seperti varying coefficient models atau interactive fixed effects.

Strategi komplementer untuk mengatasi keterbatasan ini meliputi: (1) menerapkan sensitivity analysis dengan membandingkan hasil estimasi FEM dan REM terhadap variabel kunci, untuk mengidentifikasi apakah perbedaan koefisien bersifat substantif meskipun uji Hausman tidak signifikan; (2) mempertimbangkan pendekatan Correlated Random Effects (Mundlak-Chamberlain) yang mengizinkan korelasi terbatas antara \(\mu_i\) dan rata-rata time series dari \(\mathbf{X}_{it}\), sehingga menjembatani kelebihan FEM dan REM; dan (3) menggunakan uji robust Hausman yang menerapkan clustered atau heteroskedasticity-robust standard errors dalam perhitungan matriks kovarians, mengurangi sensitivitas hasil terhadap pelanggaran asumsi klasik. Dalam konteks penelitian kebijakan, peneliti juga disarankan untuk melaporkan hasil kedua model beserta diskusi mengenai implikasi perbedaan koefisien, sehingga pembaca dapat menilai robustness temuan terhadap asumsi pemilihan model.

3.5.6 Transisi ke Uji LM: Melengkapi Protokol Seleksi Model Terbaik

Uji Hausman merupakan langkah kedua dalam protokol seleksi model data panel yang sistematis, namun bukan langkah terakhir. Setelah menentukan apakah FEM lebih tepat daripada REM, peneliti yang sebelumnya memilih Common Effect Model (CEM) melalui Uji Chow masih perlu membandingkan CEM versus REM melalui Uji Lagrange Multiplier (LM) Breusch-Pagan untuk memastikan bahwa heterogenitas individu memang signifikan secara statistik. Protokol lengkap seleksi model terbaik mengikuti alur berjenjang: (1) Uji Chow untuk CEM vs FEM; (2) Jika FEM dipilih, lanjutkan ke Uji Hausman untuk FEM vs REM; (3) Jika CEM dipilih dan peneliti ingin mempertimbangkan REM, jalankan Uji LM untuk CEM vs REM sebagai validasi tambahan.

Transisi dari uji Hausman ke uji LM menandai pergeseran dari pertanyaan mengenai korelasi error-regressor menuju pertanyaan mengenai signifikansi varians komponen individu. Pemahaman terhadap kedua dimensi ini—signifikansi dan korelasi—menjadi fondasi untuk memilih estimator yang tidak hanya statistik valid, tetapi juga substantif relevan dengan konteks penelitian. Bab selanjutnya akan mengupas secara mendalam mekanisme Uji Lagrange Multiplier Breusch-Pagan, formulasi statistik, prosedur implementasi, serta interpretasi hasil dalam kerangka pemilihan antara Common Effect dan Random Effect Model yang menjamin konsistensi, efisiensi, dan kredibilitas inferensi kebijakan.


3.6 Uji Lagrange Multiplier (LM) Breusch-Pagan: Pemilihan antara CEM dan REM

3.6.1 Landasan Teoritis Uji Lagrange Multiplier dalam Konteks Data Panel

Uji Lagrange Multiplier (LM), yang dalam literatur ekonometrika panel sering disebut sebagai Uji Breusch-Pagan LM, merupakan prosedur statistik formal yang dirancang untuk membandingkan kesesuaian antara Common Effect Model (CEM) dan Random Effect Model (REM). Landasan filosofis uji ini berakar pada pertanyaan mendasar: apakah terdapat varians komponen individu \(\sigma_\mu^2\) yang signifikan secara statistik sehingga memerlukan pemodelan efek acak melalui REM, ataukah varians tersebut dapat diabaikan sehingga pendekatan pooling melalui CEM sudah memadai?

Secara matematis, uji LM menguji hipotesis nol bahwa varians efek individu sama dengan nol, yaitu \(H_0: \sigma_\mu^2 = 0\), yang secara ekuivalen berarti tidak ada heterogenitas individu yang perlu dimodelkan secara stokastik. Hipotesis alternatifnya adalah \(H_1: \sigma_\mu^2 > 0\), yang mengindikasikan keberadaan varians komponen individu yang signifikan sehingga Random Effect Model menjadi spesifikasi yang lebih tepat. Dalam kerangka regresi, uji ini memanfaatkan residual dari estimasi Pooled OLS (CEM) untuk membangun statistik LM yang mengikuti distribusi chi-square dengan derajat kebebasan tertentu. Keunggulan utama uji LM dibandingkan uji Chow terletak pada kemampuannya mendeteksi heterogenitas individu tanpa memerlukan estimasi Fixed Effect Model terlebih dahulu, sehingga lebih efisien dalam konfigurasi Large-N/Small-T di mana variasi within terbatas.

3.6.2 Formulasi Statistik Uji Breusch-Pagan dan Prosedur Komputasi

Statistik uji LM Breusch-Pagan dihitung berdasarkan residual dari estimasi Common Effect Model. Rumus formal statistik LM untuk data panel balanced adalah: \[LM = \frac{NT}{2(T-1)} \left[ \frac{\sum_{i=1}^{N} \left( \sum_{t=1}^{T} \hat{u}_{it} \right)^2}{\sum_{i=1}^{N} \sum_{t=1}^{T} \hat{u}_{it}^2} - 1 \right]^2\] di mana \(N\) adalah jumlah unit cross-section, \(T\) adalah jumlah periode waktu, dan \(\hat{u}_{it}\) adalah residual dari estimasi Pooled OLS. Statistik LM ini berdistribusi asimtotik sebagai chi-square dengan satu derajat kebebasan: \(LM \sim \chi^2_1\).

Untuk data panel unbalanced dengan \(T_i\) yang bervariasi antar-unit, formulasi statistik LM dimodifikasi menjadi: \[LM = \frac{1}{2} \left[ \frac{\sum_{i=1}^{N} T_i \bar{\hat{u}}_i^2}{\sum_{i=1}^{N} \sum_{t=1}^{T_i} \hat{u}_{it}^2} - 1 \right]^2 \Bigg/ \left[ 1 - \frac{\sum_{i=1}^{N} T_i^2}{NT \bar{T}} \right]\] di mana \(\bar{\hat{u}}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} \hat{u}_{it}\) adalah rata-rata residual untuk unit \(i\), dan \(\bar{T}\) adalah rata-rata harmonik dari \(T_i\).

Dalam implementasi perangkat lunak seperti Stata, R (paket plm), atau EViews, prosedur komputasi uji LM biasanya terintegrasi dalam output estimasi panel. Di Stata, setelah estimasi CEM, perintah xttest0 secara otomatis menghitung statistik LM dan probabilitasnya. Di R, fungsi plmtest() dalam paket plm membandingkan model pooling terhadap random effect dan mengembalikan nilai statistik serta p-value. Peneliti harus memastikan bahwa residual yang digunakan dalam perhitungan LM berasal dari estimasi CEM yang konsisten, karena penggunaan residual dari model lain dapat mengacaukan distribusi statistik uji.

3.6.3 Interpretasi Hasil Uji dan Implikasi terhadap Pemilihan Model

Interpretasi hasil uji LM didasarkan pada perbandingan nilai probabilitas (p-value) statistik chi-square terhadap tingkat signifikansi \(\alpha\) yang ditetapkan, umumnya 0.05 atau 5%. Jika p-value < \(\alpha\), maka hipotesis nol ditolak, yang berarti terdapat bukti statistik yang kuat bahwa varians efek individu \(\sigma_\mu^2\) berbeda secara signifikan dari nol. Dalam kasus ini, Random Effect Model dipilih sebagai spesifikasi yang lebih tepat karena mampu menangkap heterogenitas individu melalui komponen error \(\mu_i \sim IID(0, \sigma_\mu^2)\). Sebaliknya, jika p-value \(\geq\) \(\alpha\), maka hipotesis nol tidak ditolak, mengindikasikan bahwa varians individu tidak signifikan secara statistik sehingga Common Effect Model yang lebih parsimonius dapat dipertahankan.

Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi Indonesia, interpretasi uji LM memiliki implikasi substantif yang penting. Misalnya, jika uji LM menghasilkan statistik \(LM = 45.32\) dengan p-value = 0.000, maka peneliti memiliki bukti kuat bahwa karakteristik permanen setiap provinsi (seperti geografi, budaya institusi, atau kapasitas fiskal historis) secara signifikan mempengaruhi tingkat kemiskinan melalui komponen error acak. Mengabaikan efek ini dengan menggunakan CEM akan menghasilkan estimator yang tidak efisien dan interval kepercayaan yang terlalu lebar. Sebaliknya, jika p-value = 0.18, maka perbedaan antar-provinsi tidak cukup kuat untuk membenarkan kompleksitas REM, sehingga CEM dapat dipilih untuk efisiensi interpretasi dan komunikasi hasil.

3.6.4 Perbandingan Uji LM dengan Uji Chow dan Uji Hausman dalam Protokol Seleksi Model

Uji LM, Uji Chow, dan Uji Hausman membentuk trilogi prosedur seleksi model dalam ekonometrika data panel, namun masing-masing memiliki fungsi dan asumsi yang berbeda. Uji Chow membandingkan CEM versus FEM dengan menguji signifikansi efek individu sebagai parameter tetap, sehingga sensitif terhadap heterogenitas yang berkorelasi dengan regressor. Uji LM membandingkan CEM versus REM dengan menguji signifikansi varians komponen individu sebagai parameter stokastik, sehingga lebih efisien dalam mendeteksi heterogenitas acak. Uji Hausman membandingkan FEM versus REM dengan menguji konsistensi estimator, sehingga menjadi penentu final ketika asumsi ortogonalitas dipertanyakan.

Protokol seleksi model yang rigor mengikuti alur berjenjang: (1) Jalankan Uji Chow untuk membandingkan CEM vs FEM; jika FEM dipilih, lanjutkan ke (2) Uji Hausman untuk membandingkan FEM vs REM; jika CEM dipilih dan peneliti ingin mempertimbangkan REM, jalankan (3) Uji LM untuk membandingkan CEM vs REM sebagai validasi tambahan. Dalam praktik, sering kali Uji Chow dan Uji LM menghasilkan kesimpulan yang konsisten (keduanya menolak CEM), namun Uji Hausman menjadi penentu apakah FEM atau REM yang lebih tepat berdasarkan asumsi korelasi error-regressor. Peneliti tidak boleh mengandalkan satu uji semata, melainkan harus menjalankan ketiga pengujian secara komprehensif dan menginterpretasikan hasilnya secara konsisten dengan konteks substantif penelitian.

3.6.5 Asumsi Pendukung dan Diagnostik Validitas Uji LM

Validitas inferensi dari uji LM bergantung pada terpenuhinya sejumlah asumsi klasik yang dimodifikasi untuk konteks panel. Pertama, residual \(\hat{u}_{it}\) dari estimasi CEM harus memenuhi asumsi homoskedastisitas dan tidak ada autokorelasi serial, karena pelanggaran asumsi ini dapat menggerogoti distribusi chi-square teoritis dan menghasilkan p-value yang bias. Jika heteroskedastisitas atau autokorelasi terdeteksi, peneliti disarankan untuk menerapkan robust standard errors sebelum melakukan estimasi CEM, atau menggunakan versi uji LM yang robust terhadap pelanggaran asumsi tersebut.

Kedua, spesifikasi model CEM harus benar: model harus menyertakan variabel bebas yang relevan dan bentuk fungsional yang tepat. Spesifikasi yang salah dapat menyebabkan residual yang tidak mencerminkan heterogenitas individu yang sesungguhnya, sehingga statistik LM menjadi misleading. Ketiga, sampel observasi harus identik antara estimasi CEM dan perhitungan LM; jika terdapat missing value yang tidak acak, maka perhitungan statistik LM dapat bias. Diagnostik tambahan seperti uji normalitas residual dapat dilakukan untuk memvalidasi asumsi distribusi, meskipun uji LM relatif robust terhadap deviasi normalitas dalam sampel besar berkat teorema limit pusat.

3.6.6 Sintesis Protokol Seleksi Model dan Transisi ke Validasi Asumsi Klasik

Uji Lagrange Multiplier merupakan komponen integral dalam protokol seleksi model data panel yang sistematis, melengkapi Uji Chow dan Uji Hausman untuk memastikan bahwa spesifikasi model akhir tidak hanya statistik valid, tetapi juga substantif relevan. Setelah peneliti menjalankan ketiga uji secara komprehensif dan memilih model terbaik (CEM, FEM, atau REM), langkah berikutnya adalah melakukan validasi asumsi klasik untuk memastikan bahwa inferensi statistik yang dihasilkan kredibel dan dapat dipertanggungjawabkan.

Transisi dari seleksi model ke validasi asumsi klasik menandai pergeseran dari pertanyaan mengenai spesifikasi model menuju pertanyaan mengenai kualitas estimator dan validitas inferensi. Dalam konteks data panel, asumsi klasik yang perlu diuji meliputi multikolinearitas, heteroskedastisitas, dan autokorelasi—dengan penyesuaian metodologis yang sesuai dengan struktur error panel. Bab selanjutnya akan mengupas secara mendalam prosedur pengujian asumsi klasik dalam data panel, teknik remedial ketika asumsi dilanggar, serta strategi untuk menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous.


BAB 4: ASUMSI KLASIK & VALIDASI MODEL

4.1 Review Asumsi Klasik OLS dalam Konteks Data Panel: Relevansi dan Modifikasi

4.1.1 Fondasi Teoritis Asumsi Gauss-Markov dan Adaptasinya pada Struktur Panel

Dalam ekonometrika klasik, estimator Ordinary Least Squares (OLS) dianggap sebagai Best Linear Unbiased Estimator (BLUE) apabila seluruh asumsi Gauss-Markov terpenuhi. Asumsi-asumsi fundamental tersebut meliputi: (1) linearitas dalam parameter, (2) random sampling, (3) tidak ada multikolinearitas sempurna, (4) eksogenitas strict \(E[u_{it} | X_{i1}, \dots, X_{iT}] = 0\), (5) homoskedastisitas \(Var(u_{it} | X_{it}) = \sigma^2\), dan (6) tidak ada autokorelasi serial \(Cov(u_{it}, u_{is} | X_{it}, X_{is}) = 0\) untuk \(t \neq s\). Namun, ketika diterapkan pada data panel dengan struktur \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), asumsi-asumsi ini memerlukan modifikasi substantif akibat dekomposisi error menjadi komponen individu \(\mu_i\) dan idiosinkratik \(\nu_{it}\).

Pertama, asumsi random sampling dalam konteks panel tidak lagi berarti observasi \((i,t)\) independen dan identik terdistribusi (i.i.d.), melainkan observasi dalam dimensi waktu untuk unit yang sama berkorelasi melalui komponen \(\mu_i\). Kedua, asumsi homoskedastisitas harus dievaluasi secara terpisah untuk variasi antar-individu dan variasi dalam individu, karena heterogenitas kapasitas fiskal atau skala usaha dapat menghasilkan varians error yang berbeda antar-unit. Ketiga, asumsi tidak ada autokorelasi serial menjadi lebih kompleks: meskipun \(\nu_{it}\) mungkin tidak berkorelasi, keberadaan \(\mu_i\) yang konstan terhadap waktu secara otomatis menciptakan korelasi positif antar-observasi dalam unit yang sama, dengan koefisien korelasi intra-kelas \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\). Oleh karena itu, validasi asumsi klasik dalam data panel tidak dapat direplikasi secara mekanis dari prosedur cross-section atau time-series murni, melainkan memerlukan pendekatan diagnostik yang disesuaikan dengan struktur error komponen.

4.1.2 Multikolinearitas dalam Data Panel: Sumber, Deteksi, dan Implikasi terhadap Estimasi

Multikolinearitas merujuk pada kondisi di mana dua atau lebih variabel bebas dalam model regresi memiliki korelasi linier yang tinggi, sehingga menyulitkan identifikasi pengaruh marginal masing-masing variabel. Dalam data panel, sumber multikolinearitas dapat berasal dari tiga mekanisme. Pertama, korelasi spasial antar-variabel pada level agregat, misalnya PDRB per kapita dan IPM yang cenderung bergerak bersama antar-provinsi akibat faktor pembangunan yang sama. Kedua, korelasi temporal dalam dimensi waktu, seperti inflasi dan suku bunga yang sering kali sinkron dalam respons terhadap kebijakan moneter. Ketiga, interaksi antara variasi within dan between, di mana variabel yang memiliki pola perubahan serupa baik antar-unit maupun dalam unit sepanjang waktu dapat menghasilkan matriks korelasi yang tinggi secara keseluruhan.

Deteksi multikolinearitas dalam panel dapat dilakukan melalui tiga pendekatan komplementer. Pendekatan pertama adalah matriks korelasi pairwise antar-variabel bebas, dihitung baik pada level pooled, within, maupun between untuk mengidentifikasi sumber korelasi dominan. Pendekatan kedua adalah Variance Inflation Factor (VIF), yang dihitung sebagai \(VIF_j = 1 / (1 - R_j^2)\) di mana \(R_j^2\) adalah koefisien determinasi dari regresi variabel \(X_j\) terhadap seluruh variabel bebas lainnya. Konvensi empiris menyatakan bahwa VIF > 10 mengindikasikan multikolinearitas problematik. Pendekatan ketiga adalah Condition Number, yaitu rasio antara nilai eigen terbesar dan terkecil dari matriks \(\mathbf{X}'\mathbf{X}\), dengan nilai > 30 menandakan ketidakstabilan numerik. Implikasi multikolinearitas terhadap estimasi panel meliputi: (1) inflasi standar error koefisien \(\hat{\beta}_j\), sehingga daya uji statistik menurun; (2) ketidakstabilan tanda dan magnitudo koefisien terhadap penambahan atau pengurangan variabel; dan (3) kesulitan interpretasi elastisitas parsial karena efek variabel saling tumpang-tindih. Namun, penting dicatat bahwa multikolinearitas tidak menggerogoti konsistensi estimator OLS, melainkan hanya mengurangi presisi inferensi.

4.1.3 Heteroskedastisitas dalam Konteks Panel: Struktur, Diagnostik, dan Konsekuensi Inferensial

Heteroskedastisitas terjadi ketika varians error \(Var(u_{it} | X_{it})\) tidak konstan melainkan bervariasi terhadap nilai variabel bebas atau karakteristik unit. Dalam data panel, heteroskedastisitas dapat muncul dalam tiga bentuk struktural. Pertama, heteroskedastisitas antar-individu, di mana unit dengan skala ekonomi lebih besar (misalnya provinsi dengan PDRB tinggi) memiliki varians error yang lebih besar akibat kompleksitas dinamika yang tidak termodelkan. Kedua, heteroskedastisitas dalam dimensi waktu, misalnya volatilitas error yang meningkat selama periode krisis ekonomi. Ketiga, heteroskedastisitas kombinasi, di mana varians error bergantung pada interaksi antara karakteristik individu dan periode waktu, seperti \(Var(u_{it}) = \sigma^2 \cdot Z_{it}^\gamma\) dengan \(Z_{it}\) sebagai variabel penjelas heteroskedastisitas.

Diagnostik heteroskedastisitas dalam panel memerlukan pendekatan yang mempertimbangkan struktur error komponen. Uji Breusch-Pagan untuk data panel menguji hipotesis nol homoskedastisitas dengan meregresikan kuadrat residual \(\hat{u}_{it}^2\) terhadap variabel penjelas yang diduga mempengaruhi varians, kemudian menghitung statistik LM yang berdistribusi \(\chi^2\) dengan derajat kebebasan sesuai jumlah variabel uji. Uji White yang dimodifikasi untuk panel memasukkan juga kuadrat dan interaksi variabel untuk mendeteksi bentuk heteroskedastisitas non-linier. Uji Glejser, yang meregresikan nilai absolut residual \(|\hat{u}_{it}|\) terhadap variabel penjelas, lebih robust terhadap deviasi normalitas. Konsekuensi heteroskedastisitas terhadap inferensi panel meliputi: (1) estimator OLS tetap tidak bias dan konsisten, namun tidak efisien; (2) matriks kovarians estimator yang konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid; dan (3) pemilihan model berdasarkan kriteria informasi seperti AIC/BIC dapat terdistorsi. Oleh karena itu, deteksi dan koreksi heteroskedastisitas menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel.

4.1.4 Autokorelasi dalam Dimensi Time-Series Panel: Mekanisme, Pengujian, dan Tantangan Spesifik

Autokorelasi serial merujuk pada korelasi antara error pada periode yang berbeda dalam unit yang sama, yaitu \(Cov(u_{it}, u_{is}) \neq 0\) untuk \(t \neq s\). Dalam data panel, autokorelasi dapat muncul melalui dua mekanisme utama. Pertama, autokorelasi dalam komponen idiosinkratik \(\nu_{it}\), misalnya akibat persistensi guncangan ekonomi atau keterlambatan penyesuaian perilaku yang tidak sepenuhnya tertangkap oleh variabel bebas. Kedua, autokorelasi semu yang dihasilkan oleh keberadaan komponen individu \(\mu_i\) yang konstan terhadap waktu: meskipun \(\nu_{it}\) tidak berkorelasi serial, observasi dalam unit yang sama akan memiliki korelasi positif sebesar \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\) akibat shared \(\mu_i\). Distingsi antara kedua mekanisme ini krusial karena implikasi metodologisnya berbeda: autokorelasi dalam \(\nu_{it}\) memerlukan koreksi standar error atau spesifikasi dinamis, sedangkan korelasi akibat \(\mu_i\) sudah tertangani oleh transformasi Within pada Fixed Effect Model.

Pengujian autokorelasi dalam panel menghadapi tantangan unik. Uji Durbin-Watson konvensional tidak valid karena dirancang untuk time-series murni dengan satu unit. Uji Wooldridge untuk autokorelasi panel menguji hipotesis nol tidak ada autokorelasi serial orde pertama dalam \(\nu_{it}\) dengan memanfaatkan residual dari estimasi First-Difference, kemudian menghitung statistik yang berdistribusi normal asimtotik. Uji Breusch-Godfrey yang dimodifikasi untuk panel memungkinkan pengujian autokorelasi hingga orde tertentu dengan meregresikan residual terhadap lag residual dan variabel bebas. Tantangan spesifik meliputi: (1) dalam konfigurasi Large-N/Small-T, daya uji autokorelasi sering kali rendah akibat keterbatasan variasi temporal; (2) autokorelasi dapat terkonfusi dengan heteroskedastisitas atau cross-sectional dependence, sehingga diagnostik harus dilakukan secara simultan; dan (3) koreksi autokorelasi melalui penambahan lag variabel terikat dalam model dinamis dapat menginduksi bias Nickell pada short panel. Oleh karena itu, interpretasi hasil uji autokorelasi dalam panel harus disertai dengan sensitivity analysis terhadap konfigurasi dimensi dan spesifikasi model.

4.1.5 Interaksi Pelanggaran Asumsi dan Pendekatan Diagnostik Terintegrasi

Dalam praktik empiris, pelanggaran asumsi klasik jarang terjadi secara terisolasi; multikolinearitas, heteroskedastisitas, dan autokorelasi sering kali muncul bersamaan dan saling berinteraksi, sehingga pendekatan diagnostik yang terpisah-pisah dapat menghasilkan kesimpulan yang misleading. Sebagai ilustrasi, multikolinearitas tinggi dapat menginflasi residual yang kemudian terdeteksi sebagai heteroskedastisitas palsu; autokorelasi yang tidak terkontrol dapat menyebabkan estimasi varians error yang bias, yang pada gilirannya mempengaruhi uji multikolinearitas; dan heteroskedastisitas yang bervariasi terhadap waktu dapat termanifestasi sebagai autokorelasi semu dalam residual. Oleh karena itu, protokol diagnostik yang rigor dalam data panel harus bersifat terintegrasi dan iteratif.

Pendekatan terintegrasi dimulai dengan estimasi model awal (CEM, FEM, atau REM) berdasarkan prosedur seleksi model Bab 3, kemudian melakukan diagnostik simultan terhadap ketiga asumsi menggunakan residual dari model terpilih. Jika terdeteksi pelanggaran, peneliti menerapkan koreksi yang sesuai (seperti robust standard errors, transformasi variabel, atau spesifikasi model alternatif), lalu mengestimasi ulang model dan mengulangi diagnostik hingga asumsi terpenuhi atau pelanggaran tersisa tidak lagi mengancam validitas inferensi substantif. Software ekonometrika modern seperti Stata, R (paket plm/lmtest), atau EViews menyediakan perintah terintegrasi untuk diagnostik panel, misalnya xttest3 untuk heteroskedastisitas, xtserial untuk autokorelasi, dan vif untuk multikolinearitas dalam konteks panel. Namun, otomatisasi software tidak menggantikan pemahaman teoritis: peneliti harus tetap mengevaluasi apakah koreksi yang diterapkan sesuai dengan mekanisme pelanggaran yang terdeteksi dan konteks substantif penelitian.

4.1.6 Transisi ke Prosedur Pengujian Formal: Dari Diagnostik ke Inferensi yang Robust

Pemahaman mendalam terhadap adaptasi asumsi klasik dalam konteks data panel bukan berakhir pada identifikasi pelanggaran, melainkan menjadi fondasi untuk menerapkan prosedur pengujian formal yang menghasilkan inferensi statistik yang robust. Setelah diagnostik awal mengidentifikasi potensi masalah multikolinearitas, heteroskedastisitas, atau autokorelasi, peneliti harus melanjutkan ke pengujian formal dengan statistik yang distribusinya telah dimodifikasi untuk struktur panel. Untuk multikolinearitas, interpretasi VIF dan Condition Number harus mempertimbangkan sumber variasi (within vs between) yang dimanfaatkan oleh model terpilih. Untuk heteroskedastisitas, uji Breusch-Pagan atau White untuk panel harus diterapkan pada residual dari estimator yang konsisten (FEM atau REM), bukan pada residual Pooled OLS yang bias. Untuk autokorelasi, uji Wooldridge atau Breusch-Godfrey panel harus memperhitungkan kemungkinan korelasi intra-kelas akibat komponen \(\mu_i\).

Lebih lanjut, ketika pelanggaran asumsi terkonfirmasi, peneliti tidak boleh berhenti pada pelaporan masalah, melainkan harus menerapkan teknik remedial yang sesuai: transformasi variabel atau ridge regression untuk multikolinearitas; robust standard errors (Clustered, Driscoll-Kraay) atau Feasible GLS untuk heteroskedastisitas; dan koreksi Newey-West atau spesifikasi dynamic panel untuk autokorelasi. Bab selanjutnya akan mengupas secara mendalam prosedur pengujian multikolinearitas dalam data panel, termasuk interpretasi VIF, matriks korelasi within-between, serta strategi mitigasi ketika kolinearitas tinggi terdeteksi, sehingga peneliti dapat menghasilkan estimasi yang presisi dan inferensi yang kredibel dalam konteks penelitian empiris yang rigorous.


4.2 Uji Multikolinearitas: VIF, Tolerance, dan Matriks Korelasi antar Variabel Bebas

4.2.1 Konsep Multikolinearitas dalam Konteks Data Panel: Definisi dan Sumber Masalah

Multikolinearitas merupakan kondisi statistika di mana terdapat korelasi linier yang kuat antara dua atau lebih variabel bebas dalam model regresi. Dalam konteks data panel, permasalahan ini menjadi lebih kompleks karena struktur data yang menggabungkan dimensi cross-section (\(i\)) dan time series (\(t\)). Secara formal, multikolinearitas terjadi ketika matriks \(\mathbf{X}'\mathbf{X}\) mendekati singular, sehingga inversinya \((\mathbf{X}'\mathbf{X})^{-1}\) menjadi tidak stabil dan menghasilkan varians estimator \(\hat{\beta}\) yang sangat besar.

Dalam data panel, sumber multikolinearitas dapat berasal dari tiga mekanisme utama. Pertama, korelasi spasial antar-variabel pada level agregat, misalnya antara PDRB per kapita dan Indeks Pembangunan Manusia (IPM) yang cenderung bergerak bersama antar-provinsi akibat faktor pembangunan yang sama. Kedua, korelasi temporal dalam dimensi waktu, seperti inflasi dan suku bunga kebijakan yang sering kali sinkron dalam respons terhadap siklus moneter. Ketiga, interaksi antara variasi within dan between, di mana variabel yang memiliki pola perubahan serupa baik antar-unit maupun dalam unit sepanjang waktu dapat menghasilkan matriks korelasi pooled yang tinggi secara keseluruhan. Penting untuk dicatat bahwa multikolinearitas tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, melainkan hanya mengurangi presisi inferensi melalui inflasi standar error, sehingga daya uji statistik menurun dan interpretasi elastisitas parsial menjadi tidak stabil.

4.2.2 Diagnostik Multikolinearitas: Matriks Korelasi Pairwise dan Interpretasinya

Langkah awal dalam mendeteksi multikolinearitas adalah melalui pemeriksaan matriks korelasi pairwise antar-variabel bebas. Dalam data panel, matriks ini dapat dihitung pada tiga level: pooled (seluruh observasi \(N \times T\)), within (setelah transformasi demeaning), dan between (berdasarkan rata-rata unit \(\bar{X}_i\)). Koefisien korelasi Pearson \(r_{jk}\) antara variabel \(X_j\) dan \(X_k\) dihitung sebagai: \[r_{jk} = \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} (X_{jit} - \bar{X}_j)(X_{kit} - \bar{X}_k)}{\sqrt{\sum_{i=1}^{N} \sum_{t=1}^{T} (X_{jit} - \bar{X}_j)^2 \sum_{i=1}^{N} \sum_{t=1}^{T} (X_{kit} - \bar{X}_k)^2}}\] Konvensi empiris menyatakan bahwa nilai \(|r_{jk}| > 0.8\) mengindikasikan potensi multikolinearitas problematik. Namun, korelasi pairwise yang rendah tidak menjamin tidak adanya multikolinearitas, karena masalah ini dapat muncul dari kombinasi linier tiga variabel atau lebih (multikolinearitas sempurna atau near-perfect). Oleh karena itu, matriks korelasi hanya berfungsi sebagai diagnostik awal, dan peneliti wajib melanjutkan ke metode yang lebih robust seperti Variance Inflation Factor (VIF).

4.2.3 Variance Inflation Factor (VIF): Formulasi, Perhitungan, dan Ambang Batas Kritis

Variance Inflation Factor (VIF) merupakan indikator kuantitatif paling umum untuk mengukur tingkat multikolinearitas. Untuk setiap variabel bebas \(X_j\), VIF dihitung dengan meregresikan \(X_j\) terhadap seluruh variabel bebas lainnya dalam model, kemudian menggunakan koefisien determinasi \(R_j^2\) dari regresi tersebut: \[VIF_j = \frac{1}{1 - R_j^2}\] Nilai VIF mengukur seberapa besar varians estimator \(\hat{\beta}_j\) terinflasi akibat korelasi dengan variabel bebas lainnya. Konvensi interpretasi VIF adalah sebagai berikut: (1) \(VIF_j < 5\) menunjukkan multikolinearitas rendah dan dapat diabaikan; (2) \(5 \leq VIF_j < 10\) mengindikasikan multikolinearitas moderat yang memerlukan perhatian; (3) \(VIF_j \geq 10\) menandakan multikolinearitas tinggi yang problematik dan memerlukan tindakan remedial. Dalam data panel, perhitungan VIF harus dilakukan pada residual dari model terpilih (FEM atau REM), bukan pada data pooled mentah, agar hasil diagnostik mencerminkan struktur error yang sesungguhnya.

4.2.4 Tolerance dan Condition Number: Pelengkap Diagnostik Multikolinearitas

Selain VIF, dua indikator tambahan yang sering digunakan adalah Tolerance dan Condition Number. Tolerance didefinisikan sebagai kebalikan dari VIF: \[\text{Tolerance}_j = 1 - R_j^2 = \frac{1}{VIF_j}\] Nilai Tolerance yang rendah (misalnya \(< 0.1\)) mengindikasikan bahwa variabel \(X_j\) hampir dapat diprediksi secara linier dari variabel bebas lainnya, sehingga kontribusinya yang unik terhadap penjelasan variabel terikat menjadi minimal. Condition Number (\(\kappa\)) dihitung sebagai rasio antara nilai eigen terbesar (\(\lambda_{\max}\)) dan terkecil (\(\lambda_{\min}\)) dari matriks \(\mathbf{X}'\mathbf{X}\): \[\kappa = \sqrt{\frac{\lambda_{\max}}{\lambda_{\min}}}\] Nilai \(\kappa > 30\) umumnya dianggap menandakan ketidakstabilan numerik akibat multikolinearitas. Dalam implementasi software seperti Stata, R (paket car), atau EViews, ketiga indikator ini (VIF, Tolerance, Condition Number) sering dilaporkan secara simultan, memungkinkan peneliti untuk melakukan triangulasi diagnostik dan mengambil keputusan yang lebih informed mengenai kebutuhan remediasi.

4.2.5 Strategi Remedial: Transformasi Variabel, Ridge Regression, dan Penghapusan Selektif

Ketika multikolinearitas terdeteksi, peneliti dapat menerapkan beberapa strategi remedial yang disesuaikan dengan konteks penelitian. Pertama, transformasi variabel, seperti pembentukan rasio atau selisih antar-variabel yang berkorelasi tinggi (misalnya \(X_1/X_2\) atau \(X_1 - X_2\)), dapat mengurangi redundansi informasi sambil mempertahankan substansi ekonomi. Kedua, ridge regression, yang menambahkan konstanta positif \(k\) pada diagonal matriks \(\mathbf{X}'\mathbf{X}\) sebelum inversi: \[\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}'\mathbf{X} + k\mathbf{I})^{-1}\mathbf{X}'\mathbf{y}\] Teknik ini mengorbankan unbiasedness untuk mendapatkan varians yang lebih kecil, sehingga sering menghasilkan prediksi yang lebih stabil meskipun interpretasi koefisien menjadi kurang intuitif. Ketiga, penghapusan selektif variabel yang memiliki VIF tertinggi, dengan pertimbangan teoritis bahwa variabel tersebut tidak esensial bagi pertanyaan penelitian. Strategi ini harus dilakukan dengan hati-hati untuk menghindari bias spesifikasi. Dalam data panel, peneliti juga dapat mempertimbangkan pendekatan Hybrid Model atau Correlated Random Effects yang memungkinkan estimasi efek variabel time-invariant sambil mengurangi ketergantungan pada variasi within yang mungkin terkolinear.

4.2.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Uji Heteroskedastisitas

Multikolinearitas yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Koefisien yang tidak stabil akibat inflasi standar error dapat menghasilkan rekomendasi yang sensitif terhadap perubahan kecil dalam spesifikasi model atau sampel data. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, multikolinearitas antara IPM dan variabel pendidikan dapat menyebabkan elastisitas kemiskinan terhadap investasi manusia terestimasi dengan presisi rendah, sehingga sulit menentukan prioritas alokasi anggaran secara optimal. Oleh karena itu, diagnostik dan remediasi multikolinearitas bukan sekadar prosedur teknis, melainkan prasyarat etis untuk menghasilkan bukti empiris yang dapat dipertanggungjawabkan dalam perumusan kebijakan publik.

Setelah memastikan bahwa multikolinearitas telah tertangani atau tidak mengancam validitas inferensi substantif, peneliti harus melanjutkan ke pengujian asumsi klasik berikutnya, yaitu heteroskedastisitas. Dalam data panel, heteroskedastisitas dapat muncul dalam bentuk yang lebih kompleks akibat struktur error komponen \(\mu_i + \nu_{it}\), sehingga memerlukan pendekatan diagnostik dan koreksi yang disesuaikan dengan karakteristik dimensi \(N\) dan \(T\). Bab selanjutnya akan mengupas secara mendalam prosedur pengujian heteroskedastisitas dalam data panel, termasuk uji Breusch-Pagan, White, dan Glejser yang dimodifikasi untuk konteks panel, serta teknik remedial seperti robust standard errors dan Feasible GLS yang menjamin inferensi yang valid meskipun asumsi homoskedastisitas dilanggar.


4.3 Uji Heteroskedastisitas: Metode Glejser, Breusch-Pagan, dan White untuk Panel

4.3.1 Konsep Heteroskedastisitas dalam Data Panel: Definisi dan Sumber Pelanggaran

Heteroskedastisitas merupakan kondisi statistika di mana varians dari komponen error \(u_{it}\) dalam model regresi tidak konstan melainkan bervariasi terhadap nilai variabel bebas atau karakteristik unit observasi. Dalam konteks data panel dengan spesifikasi \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), heteroskedastisitas dapat muncul dalam tiga bentuk struktural yang memerlukan penanganan berbeda. Pertama, heteroskedastisitas antar-individu (between-unit heteroskedasticity), di mana unit dengan skala ekonomi lebih besar (misalnya provinsi dengan PDRB tinggi atau perusahaan kapitalisasi besar) memiliki varians error \(\sigma_i^2\) yang lebih besar akibat kompleksitas dinamika yang tidak termodelkan. Kedua, heteroskedastisitas dalam dimensi waktu (within-unit heteroskedasticity), misalnya volatilitas error yang meningkat selama periode krisis ekonomi atau perubahan kebijakan struktural. Ketiga, heteroskedastisitas kombinasi, di mana varians error bergantung pada interaksi antara karakteristik individu dan periode waktu, seperti \(Var(u_{it}) = \sigma^2 \cdot Z_{it}^\gamma\) dengan \(Z_{it}\) sebagai variabel penjelas heteroskedastisitas.

Sumber heteroskedastisitas dalam penelitian panel ekonomi Indonesia sering kali bersifat substantif. Dalam studi determinan kemiskinan menggunakan data 38 provinsi, provinsi dengan kapasitas fiskal tinggi mungkin memiliki varians error lebih kecil karena stabilitas kebijakan, sementara provinsi dengan ketergantungan transfer pusat tinggi menunjukkan volatilitas residual lebih besar. Dalam panel mikro rumah tangga, heterogenitas preferensi risiko atau akses informasi dapat menghasilkan varians konsumsi yang berbeda antar-kelompok pendapatan. Pelanggaran homoskedastisitas tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, Fixed Effect, atau Random Effect, namun menyebabkan matriks kovarians estimator konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid. Oleh karena itu, deteksi dan koreksi heteroskedastisitas menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel.

4.3.2 Uji Breusch-Pagan untuk Data Panel: Formulasi dan Prosedur Implementasi

Uji Breusch-Pagan (BP) merupakan prosedur diagnostik paling umum untuk mendeteksi heteroskedastisitas dalam regresi linier, yang dapat dimodifikasi untuk konteks data panel. Prosedur ini menguji hipotesis nol homoskedastisitas \(H_0: Var(u_{it} | X_{it}) = \sigma^2\) terhadap alternatif bahwa varians error bergantung linier pada variabel penjelas. Langkah-langkah implementasi uji BP untuk panel adalah sebagai berikut:

Pertama, estimasi model panel terpilih (CEM, FEM, atau REM) dan peroleh residual \(\hat{u}_{it}\). Kedua, kuadratkan residual tersebut menjadi \(\hat{u}_{it}^2\). Ketiga, regresikan \(\hat{u}_{it}^2\) terhadap variabel bebas yang diduga mempengaruhi varians, biasanya menggunakan spesifikasi yang sama dengan model utama atau subset variabel yang relevan: \[\hat{u}_{it}^2 = \delta_0 + \delta_1 X_{1it} + \delta_2 X_{2it} + \dots + \delta_k X_{kit} + e_{it}\] Keempat, hitung statistik LM (Lagrange Multiplier) sebagai \(LM = \frac{1}{2} \cdot N \cdot T \cdot R^2\), di mana \(R^2\) adalah koefisien determinasi dari regresi auxiliar tersebut. Di bawah \(H_0\), statistik LM berdistribusi asimtotik chi-square dengan derajat kebebasan sama dengan jumlah variabel penjelas dalam regresi auxiliar: \(LM \sim \chi^2_k\).

Dalam implementasi software seperti Stata, perintah xttest3 setelah estimasi FEM atau REM secara otomatis melakukan uji Breusch-Pagan untuk heteroskedastisitas antar-individu. Di R, paket plm menyediakan fungsi bptest() yang dapat diaplikasikan pada objek model panel. Peneliti harus memastikan bahwa residual yang digunakan berasal dari estimator yang konsisten (misalnya residual Within untuk FEM), karena penggunaan residual dari model yang salah spesifikasi dapat menghasilkan statistik uji yang misleading.

4.3.3 Uji White yang Dimodifikasi untuk Panel: Deteksi Heteroskedastisitas Non-Linier

Uji White merupakan generalisasi dari uji Breusch-Pagan yang mampu mendeteksi bentuk heteroskedastisitas non-linier dengan memasukkan kuadrat dan interaksi variabel bebas ke dalam regresi auxiliar. Dalam konteks data panel, formulasi uji White dimodifikasi untuk mengakomodasi struktur error komponen. Spesifikasi regresi auxiliar menjadi: \[\hat{u}_{it}^2 = \delta_0 + \sum_{j=1}^{k} \delta_j X_{jit} + \sum_{j=1}^{k} \sum_{l=j}^{k} \delta_{jl} X_{jit} X_{lit} + e_{it}\] di mana istilah kuadrat \(X_{jit}^2\) dan interaksi \(X_{jit} X_{lit}\) memungkinkan deteksi pola heteroskedastisitas yang lebih kompleks, seperti varians yang meningkat secara kuadratik terhadap pendapatan atau berinteraksi antara investasi dan infrastruktur.

Statistik uji White untuk panel dihitung sebagai \(W = N \cdot T \cdot R^2\) dari regresi auxiliar tersebut, yang berdistribusi \(\chi^2\) dengan derajat kebebasan sama dengan jumlah parameter dalam regresi auxiliar (tidak termasuk konstanta). Keunggulan uji White terletak pada kemampuannya mendeteksi berbagai bentuk heteroskedastisitas tanpa memerlukan spesifikasi eksplisit fungsi varians. Namun, kelemahannya adalah konsumsi derajat kebebasan yang tinggi akibat penambahan banyak variabel kuadrat dan interaksi, sehingga daya uji dapat menurun dalam konfigurasi Large-N/Small-T. Peneliti disarankan untuk menerapkan uji White hanya ketika terdapat indikasi teoretis atau empiris bahwa heteroskedastisitas bersifat non-linier, atau sebagai robustness check setelah uji Breusch-Pagan.

4.3.4 Uji Glejser untuk Panel: Pendekatan Robust terhadap Deviasi Normalitas

Uji Glejser merupakan alternatif diagnostik heteroskedastisitas yang lebih robust terhadap deviasi dari asumsi normalitas error. Berbeda dengan Breusch-Pagan dan White yang menggunakan kuadrat residual, uji Glejser meregresikan nilai absolut residual \(|\hat{u}_{it}|\) terhadap variabel bebas yang diduga mempengaruhi varians: \[|\hat{u}_{it}| = \delta_0 + \delta_1 X_{1it} + \delta_2 X_{2it} + \dots + \delta_k X_{kit} + e_{it}\] Hipotesis nol homoskedastisitas diuji melalui signifikansi koefisien \(\delta_j\) dalam regresi tersebut. Jika minimal satu \(\delta_j\) signifikan secara statistik, maka \(H_0\) ditolak dan disimpulkan terdapat heteroskedastisitas.

Keunggulan uji Glejser dalam konteks panel mikro Indonesia terletak pada ketahanannya terhadap outlier dan distribusi residual yang skewed, yang sering ditemui dalam data konsumsi rumah tangga atau pendapatan individu. Dalam implementasi praktis, peneliti dapat menerapkan uji Glejser secara terpisah untuk setiap variabel bebas atau secara simultan untuk seluruh vektor \(X_{it}\). Software seperti Stata memungkinkan implementasi manual melalui perintah gen abs_res = abs(residual) diikuti regresi panel dengan variabel dependen abs_res. Interpretasi hasil uji Glejser harus mempertimbangkan bahwa signifikansi koefisien mencerminkan hubungan linier antara nilai absolut residual dan variabel bebas, sehingga pola heteroskedastisitas non-linier mungkin tidak terdeteksi.

4.3.5 Teknik Remedial: Robust Standard Errors, Feasible GLS, dan Transformasi Variabel

Ketika heteroskedastisitas terkonfirmasi, peneliti dapat menerapkan beberapa teknik remedial yang disesuaikan dengan konteks penelitian dan konfigurasi dimensi panel. Pertama, robust standard errors atau heteroskedasticity-consistent covariance matrix estimator (HCCME) merupakan pendekatan paling umum yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Untuk data panel, Clustered Standard Errors (Liang-Zeger) mengelompokkan observasi berdasarkan unit cross-section \(i\), sehingga mengizinkan heteroskedastisitas antar-individu dan autokorelasi dalam dimensi waktu: \[\widehat{Var}_{cluster}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{i=1}^{N} \mathbf{X}_i' \hat{\mathbf{u}}_i \hat{\mathbf{u}}_i' \mathbf{X}_i \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(\mathbf{X}_i\) dan \(\hat{\mathbf{u}}_i\) adalah matriks desain dan vektor residual untuk unit \(i\).

Kedua, Feasible Generalized Least Squares (FGLS) memodelkan struktur heteroskedastisitas secara eksplisit melalui estimasi fungsi varians \(\hat{\sigma}_i^2\), kemudian menerapkan transformasi weighted untuk menghasilkan estimator yang efisien. Prosedur FGLS untuk heteroskedastisitas antar-individu melibatkan: (1) estimasi model awal untuk memperoleh residual \(\hat{u}_{it}\); (2) estimasi \(\hat{\sigma}_i^2 = \frac{1}{T_i} \sum_{t=1}^{T_i} \hat{u}_{it}^2\); (3) transformasi variabel \(Y_{it}^* = Y_{it} / \hat{\sigma}_i\) dan \(X_{kit}^* = X_{kit} / \hat{\sigma}_i\); (4) estimasi model pada data tertransformasi. Ketiga, transformasi variabel seperti logaritma atau Box-Cox dapat menstabilkan varians ketika heteroskedastisitas bersifat proporsional terhadap level variabel, misalnya \(Var(u_{it}) \propto Y_{it}^2\).

4.3.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Uji Autokorelasi

Heteroskedastisitas yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Standar error yang bias dapat menyebabkan kesimpulan yang salah mengenai signifikansi variabel kebijakan, sehingga rekomendasi alokasi anggaran atau desain program menjadi tidak optimal. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, heteroskedastisitas antar-provinsi dapat menyebabkan interval kepercayaan untuk elastisitas kemiskinan terhadap IPM terlalu sempit untuk provinsi maju dan terlalu lebar untuk provinsi tertinggal, sehingga prioritas intervensi tidak tepat sasaran.

Setelah memastikan bahwa heteroskedastisitas telah tertangani melalui diagnostik dan remediasi yang sesuai, peneliti harus melanjutkan ke pengujian asumsi klasik berikutnya, yaitu autokorelasi. Dalam data panel, autokorelasi dapat muncul melalui mekanisme yang lebih kompleks akibat struktur error komponen \(\mu_i + \nu_{it}\) dan korelasi temporal dalam dimensi time series. Bab selanjutnya akan mengupas secara mendalam prosedur pengujian autokorelasi dalam data panel, termasuk uji Wooldridge, Breusch-Godfrey yang dimodifikasi, serta pertimbangan khusus mengenai korelasi intra-kelas akibat komponen efek individu, sehingga peneliti dapat menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous.


4.4 Uji Autokorelasi: Pertimbangan Khusus pada Dimensi Time-Series Data Panel

4.4.1 Konsep Autokorelasi dalam Data Panel: Definisi dan Sumber Pelanggaran

Autokorelasi serial merujuk pada kondisi statistika di mana terdapat korelasi antara komponen error pada periode waktu yang berbeda dalam unit cross-section yang sama, yaitu \(Cov(u_{it}, u_{is}) \neq 0\) untuk \(t \neq s\). Dalam konteks data panel dengan spesifikasi \(Y_{it} = \alpha + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \mu_i + \nu_{it}\), autokorelasi dapat muncul melalui dua mekanisme struktural yang memerlukan penanganan berbeda. Pertama, autokorelasi dalam komponen idiosinkratik \(\nu_{it}\), yang terjadi akibat persistensi guncangan ekonomi, keterlambatan penyesuaian perilaku, atau omitted variables yang bersifat dinamis dan tidak sepenuhnya tertangkap oleh variabel bebas dalam model. Kedua, autokorelasi semu yang dihasilkan oleh keberadaan komponen individu \(\mu_i\) yang konstan terhadap waktu: meskipun \(\nu_{it}\) tidak berkorelasi serial, observasi dalam unit yang sama akan memiliki korelasi positif sebesar \(\rho = \sigma_\mu^2 / (\sigma_\mu^2 + \sigma_\nu^2)\) akibat shared \(\mu_i\), yang dikenal sebagai koefisien korelasi intra-kelas (intra-class correlation coefficient).

Dalam penelitian ekonomi Indonesia menggunakan data panel, sumber autokorelasi sering kali bersifat substantif. Pada panel makro provinsi, kebijakan fiskal atau moneter yang bersifat persisten dapat menciptakan korelasi error antar-periode dalam wilayah yang sama. Pada panel mikro rumah tangga, preferensi konsumsi atau norma sosial yang stabil sepanjang waktu dapat menghasilkan residual yang berkorelasi serial. Pelanggaran asumsi tidak ada autokorelasi tidak menggerogoti sifat unbiased dan konsistensi estimator OLS, Fixed Effect, atau Random Effect, namun menyebabkan matriks kovarians estimator konvensional menjadi bias, sehingga standar error, interval kepercayaan, dan uji hipotesis menjadi tidak valid. Oleh karena itu, deteksi dan koreksi autokorelasi menjadi prasyarat untuk inferensi yang kredibel dalam penelitian panel, terutama ketika dimensi waktu \(T\) cukup panjang untuk memungkinkan identifikasi pola temporal yang sistematis.

4.4.2 Uji Wooldridge untuk Autokorelasi Panel: Formulasi dan Prosedur Implementasi

Uji Wooldridge merupakan prosedur diagnostik paling umum dan robust untuk mendeteksi autokorelasi serial orde pertama dalam data panel, yang dirancang khusus untuk mengakomodasi struktur error komponen. Prosedur ini menguji hipotesis nol tidak ada autokorelasi serial \(H_0: Cov(\nu_{it}, \nu_{i,t-1}) = 0\) terhadap alternatif bahwa terdapat korelasi positif atau negatif antara residual pada periode berurutan. Langkah-langkah implementasi uji Wooldridge untuk panel adalah sebagai berikut:

Pertama, estimasi model panel terpilih (CEM, FEM, atau REM) dan peroleh residual \(\hat{u}_{it}\). Kedua, lakukan transformasi first-difference pada residual untuk menghilangkan efek individu \(\mu_i\): \(\Delta \hat{u}_{it} = \hat{u}_{it} - \hat{u}_{i,t-1}\). Ketiga, regresikan \(\Delta \hat{u}_{it}\) terhadap lag pertama residual dalam level, \(\hat{u}_{i,t-1}\), dengan spesifikasi: \[\Delta \hat{u}_{it} = \delta_0 + \delta_1 \hat{u}_{i,t-1} + e_{it}\] Keempat, uji signifikansi koefisien \(\delta_1\) menggunakan statistik t atau Wald. Di bawah \(H_0\), nilai \(\delta_1\) seharusnya mendekati \(-0.5\) untuk balanced panel dengan \(T\) besar; deviasi signifikan dari nilai ini mengindikasikan keberadaan autokorelasi. Statistik uji Wooldridge berdistribusi asimtotik normal standar: \(W \sim N(0, 1)\).

Dalam implementasi software seperti Stata, perintah xtserial setelah estimasi model panel secara otomatis melakukan uji Wooldridge dan melaporkan statistik serta probabilitasnya. Di R, paket plm menyediakan fungsi pbgtest() atau pdwtest() yang dapat diaplikasikan pada objek model panel untuk mendeteksi autokorelasi. Peneliti harus memastikan bahwa residual yang digunakan berasal dari estimator yang konsisten (misalnya residual Within untuk FEM), karena penggunaan residual dari model yang salah spesifikasi dapat menghasilkan statistik uji yang misleading.

4.4.3 Uji Breusch-Godfrey yang Dimodifikasi untuk Panel: Deteksi Autokorelasi Orde Tinggi

Uji Breusch-Godfrey (BG) merupakan generalisasi dari uji Durbin-Watson yang mampu mendeteksi autokorelasi hingga orde \(p\) tertentu, yang dapat dimodifikasi untuk konteks data panel. Dalam spesifikasi panel, uji BG menguji hipotesis nol tidak ada autokorelasi serial hingga orde \(p\): \(H_0: Cov(\nu_{it}, \nu_{i,t-j}) = 0\) untuk \(j = 1, 2, \dots, p\). Prosedur implementasi uji BG untuk panel melibatkan langkah-langkah berikut:

Pertama, estimasi model panel terpilih dan peroleh residual \(\hat{u}_{it}\). Kedua, regresikan residual tersebut terhadap variabel bebas asli dalam model ditambah dengan \(p\) lag residual: \[\hat{u}_{it} = \delta_0 + \beta_1 X_{1it} + \dots + \beta_k X_{kit} + \rho_1 \hat{u}_{i,t-1} + \dots + \rho_p \hat{u}_{i,t-p} + e_{it}\] Ketiga, hitung statistik LM (Lagrange Multiplier) sebagai \(LM = (NT) \cdot R^2\), di mana \(R^2\) adalah koefisien determinasi dari regresi auxiliar tersebut. Di bawah \(H_0\), statistik LM berdistribusi asimtotik chi-square dengan derajat kebebasan sama dengan jumlah lag yang diuji: \(LM \sim \chi^2_p\).

Keunggulan uji BG terletak pada kemampuannya mendeteksi autokorelasi orde tinggi tanpa memerlukan spesifikasi eksplisit struktur korelasi temporal. Namun, kelemahannya adalah konsumsi derajat kebebasan yang tinggi akibat penambahan banyak variabel lag residual, sehingga daya uji dapat menurun dalam konfigurasi Large-N/Small-T. Peneliti disarankan untuk menerapkan uji BG hanya ketika terdapat indikasi teoretis atau empiris bahwa autokorelasi bersifat persisten melampaui orde pertama, atau sebagai robustness check setelah uji Wooldridge.

4.4.4 Pertimbangan Khusus: Korelasi Intra-Kelas Akibat Komponen Efek Individu

Salah satu tantangan unik dalam mendeteksi autokorelasi data panel adalah membedakan antara autokorelasi sejati dalam komponen idiosinkratik \(\nu_{it}\) dengan korelasi semu yang dihasilkan oleh komponen efek individu \(\mu_i\). Dalam model dengan dekomposisi error \(u_{it} = \mu_i + \nu_{it}\), keberadaan \(\mu_i\) yang konstan terhadap waktu secara otomatis menciptakan korelasi positif antar-observasi dalam unit yang sama, dengan koefisien korelasi intra-kelas: \[\rho = \frac{\sigma_\mu^2}{\sigma_\mu^2 + \sigma_\nu^2}\] Nilai \(\rho\) yang tinggi dapat termanifestasi sebagai autokorelasi semu dalam residual pooled, meskipun \(\nu_{it}\) sendiri tidak berkorelasi serial. Distingsi antara kedua mekanisme ini krusial karena implikasi metodologisnya berbeda: autokorelasi dalam \(\nu_{it}\) memerlukan koreksi standar error atau spesifikasi model dinamis, sedangkan korelasi akibat \(\mu_i\) sudah tertangani secara deterministik oleh transformasi Within pada Fixed Effect Model.

Dalam praktik diagnostik, peneliti disarankan untuk menerapkan uji autokorelasi pada residual Within (untuk FEM) atau residual GLS (untuk REM), bukan pada residual Pooled OLS, agar hasil uji mencerminkan pola korelasi dalam komponen idiosinkratik yang sesungguhnya. Selain itu, interpretasi hasil uji harus mempertimbangkan konfigurasi dimensi panel: dalam Large-N/Small-T, daya uji autokorelasi sering kali rendah akibat keterbatasan variasi temporal, sehingga peneliti perlu melengkapi diagnostik dengan pemeriksaan visual plot residual terhadap waktu atau analisis korelogram per unit.

4.4.5 Teknik Remedial: Koreksi Newey-West, Dynamic Panel, dan Clustered Standard Errors

Ketika autokorelasi terkonfirmasi, peneliti dapat menerapkan beberapa teknik remedial yang disesuaikan dengan konteks penelitian dan konfigurasi dimensi panel. Pertama, koreksi standar error Newey-West atau heteroskedasticity and autocorrelation consistent (HAC) covariance matrix estimator merupakan pendekatan paling umum yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Untuk data panel, koreksi Newey-West memungkinkan autokorelasi hingga lag tertentu dalam dimensi waktu sambil mengizinkan heteroskedastisitas antar-individu: \[\widehat{Var}_{HAC}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{t=1}^{T} \mathbf{X}_t' \hat{\mathbf{u}}_t \hat{\mathbf{u}}_t' \mathbf{X}_t + \sum_{j=1}^{m} w_j \sum_{t=j+1}^{T} (\mathbf{X}_t' \hat{\mathbf{u}}_t \hat{\mathbf{u}}_{t-j}' \mathbf{X}_{t-j} + \mathbf{X}_{t-j}' \hat{\mathbf{u}}_{t-j} \hat{\mathbf{u}}_t' \mathbf{X}_t) \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(w_j\) adalah bobot kernel (misalnya Bartlett atau Parzen) dan \(m\) adalah lag truncation parameter.

Kedua, spesifikasi Dynamic Panel Model dengan menyertakan lag variabel terikat sebagai regressor dapat secara eksplisit menangkap persistensi temporal: \(Y_{it} = \rho Y_{i,t-1} + \beta_1 X_{1it} + \dots + \mu_i + \nu_{it}\). Namun, estimator konvensional pada model dinamis short panel dapat mengalami bias Nickell, sehingga peneliti disarankan untuk menerapkan Generalized Method of Moments (GMM) seperti Arellano-Bond atau Blundell-Bond yang menggunakan instrumen lag untuk mengatasi endogenitas. Ketiga, Clustered Standard Errors pada level unit cross-section \(i\) mengelompokkan observasi berdasarkan individu, sehingga mengizinkan autokorelasi dalam dimensi waktu dan heteroskedastisitas antar-individu secara simultan, menjadi pilihan yang robust dan mudah diimplementasikan dalam software modern.

4.4.6 Implikasi terhadap Inferensi Kebijakan dan Transisi ke Sintesis Validasi Model

Autokorelasi yang tidak tertangani dapat menggerogoti validitas inferensi kebijakan yang berbasis pada hasil regresi panel. Standar error yang bias dapat menyebabkan kesimpulan yang salah mengenai signifikansi variabel kebijakan, sehingga rekomendasi alokasi anggaran atau desain program menjadi tidak optimal. Dalam konteks penelitian kemiskinan menggunakan data panel 38 provinsi, misalnya, autokorelasi dalam residual dapat menyebabkan interval kepercayaan untuk elastisitas kemiskinan terhadap IPM terlalu sempit, sehingga peneliti overconfident dalam merekomendasikan intervensi berdasarkan temuan yang sebenarnya kurang presisi.

Setelah memastikan bahwa autokorelasi telah tertangani melalui diagnostik dan remediasi yang sesuai, peneliti telah menyelesaikan rangkaian validasi asumsi klasik dalam data panel: multikolinearitas, heteroskedastisitas, dan autokorelasi. Bab selanjutnya akan mengupas secara mendalam sintesis prosedur validasi model, strategi integrasi diagnostik asumsi dengan seleksi model terbaik, serta protokol komprehensif untuk menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous. Transisi dari pengujian asumsi klasik ke sintesis validasi model menandai pergeseran dari prosedur diagnostik teknis ke inferensi substantif yang menjamin konsistensi, efisiensi, dan relevansi kebijakan dari hasil penelitian panel.


4.5 Teknik Remedial: Transformasi Variabel, Weighted Estimation, dan Robust Standard Error

4.5.1 Prinsip Umum Remediasi dalam Ekonometrika Data Panel

Ketika diagnostik asumsi klasik mengidentifikasi pelanggaran terhadap homoskedastisitas, autokorelasi, atau multikolinearitas dalam data panel, peneliti tidak boleh mengabaikan temuan tersebut atau melanjutkan estimasi dengan spesifikasi awal yang bermasalah. Prinsip umum remediasi dalam ekonometrika panel berakar pada upaya untuk menghasilkan estimator yang tetap konsisten, efisien, dan inferensi statistik yang valid meskipun asumsi klasik tidak terpenuhi secara sempurna. Pendekatan remedial dapat diklasifikasikan ke dalam tiga strategi utama: (1) transformasi variabel untuk menstabilkan varians atau mengurangi kolinearitas; (2) weighted estimation atau estimasi terbobot yang mengakomodasi struktur heteroskedastisitas atau korelasi error; dan (3) robust standard errors yang mengoreksi matriks kovarians estimator tanpa mengubah koefisien slope. Pemilihan strategi remedial harus didasarkan pada mekanisme pelanggaran yang terdeteksi, konfigurasi dimensi panel (\(N\) versus \(T\)), dan tujuan substantif penelitian. Penting untuk dicatat bahwa remediasi bukan sekadar prosedur teknis, melainkan bagian integral dari proses inferensi kausal yang bertanggung jawab, sehingga setiap koreksi harus didokumentasikan secara transparan dan divalidasi melalui sensitivity analysis.

4.5.2 Transformasi Variabel: Logaritma, Box-Cox, dan Diferensiasi untuk Menangani Heteroskedastisitas

Transformasi variabel merupakan pendekatan remedial paling intuitif untuk menangani heteroskedastisitas yang bersifat proporsional terhadap level variabel. Dalam data panel, transformasi logaritmik sering diterapkan pada variabel berskala monetary atau count data untuk menstabilkan varians dan menginterpretasikan koefisien sebagai elastisitas. Spesifikasi model setelah transformasi logaritmik dapat dituliskan sebagai: \[\ln Y_{it} = \alpha + \beta_1 \ln X_{1it} + \beta_2 \ln X_{2it} + \dots + \beta_k \ln X_{kit} + \mu_i + \nu_{it}\] di mana koefisien \(\beta_j\) mencerminkan elastisitas \(Y\) terhadap \(X_j\), yaitu persentase perubahan \(Y\) untuk setiap satu persen perubahan \(X_j\). Transformasi logaritmik juga memiliki keunggulan tambahan dalam mereduksi skewness distribusi dan meminimalkan pengaruh outlier ekstrem.

Untuk kasus heteroskedastisitas yang lebih kompleks, transformasi Box-Cox menawarkan fleksibilitas parametrik melalui keluarga transformasi: \[Y_{it}^{(\lambda)} = \begin{cases} \frac{Y_{it}^\lambda - 1}{\lambda} & \text{jika } \lambda \neq 0 \\ \ln Y_{it} & \text{jika } \lambda = 0 \end{cases}\] Parameter \(\lambda\) dapat diestimasi secara numerik melalui maximum likelihood untuk menemukan transformasi optimal yang menstabilkan varians residual. Dalam implementasi praktis, peneliti sering memulai dengan \(\lambda = 0\) (log transform) sebagai baseline, kemudian menguji robustness hasil terhadap nilai \(\lambda\) alternatif.

Transformasi diferensiasi atau first-differencing juga dapat digunakan untuk menghilangkan komponen efek individu \(\mu_i\) sekaligus mengurangi persistensi autokorelasi dalam dimensi waktu. Spesifikasi first-difference model dinyatakan sebagai: \[\Delta Y_{it} = \beta_1 \Delta X_{1it} + \beta_2 \Delta X_{2it} + \dots + \beta_k \Delta X_{kit} + \Delta \nu_{it}\] di mana \(\Delta Z_{it} = Z_{it} - Z_{i,t-1}\). Pendekatan ini efektif untuk long panel dengan \(T\) cukup besar, namun dapat mengonsumsi derajat kebebasan dan mengurangi variasi within yang informatif dalam short panel.

4.5.3 Weighted Estimation: Feasible GLS untuk Heteroskedastisitas Antar-Individu

Feasible Generalized Least Squares (FGLS) merupakan pendekatan weighted estimation yang secara eksplisit memodelkan struktur heteroskedastisitas atau korelasi error untuk menghasilkan estimator yang efisien. Dalam konteks heteroskedastisitas antar-individu, FGLS mengasumsikan bahwa varians error berbeda antar-unit namun konstan dalam dimensi waktu: \(Var(u_{it}) = \sigma_i^2\). Prosedur FGLS untuk panel melibatkan empat langkah iteratif:

Pertama, estimasi model awal menggunakan Fixed Effect atau Random Effect untuk memperoleh residual \(\hat{u}_{it}\). Kedua, estimasi varians spesifik individu melalui rata-rata kuadrat residual per unit: \[\hat{\sigma}_i^2 = \frac{1}{T_i} \sum_{t=1}^{T_i} \hat{u}_{it}^2\] Ketiga, lakukan transformasi weighted dengan membagi setiap observasi dengan estimasi standar deviasi unit: \[Y_{it}^* = \frac{Y_{it}}{\hat{\sigma}_i}, \quad X_{kit}^* = \frac{X_{kit}}{\hat{\sigma}_i}\] Keempat, estimasi model pada data tertransformasi menggunakan OLS atau Within estimator, menghasilkan koefisien \(\hat{\boldsymbol{\beta}}_{FGLS}\) yang efisien asalkan struktur heteroskedastisitas termodelkan dengan benar.

Dalam implementasi software seperti Stata, perintah xtgls atau xtpcse secara otomatis menerapkan FGLS dengan koreksi heteroskedastisitas panel. Di R, paket plm menyediakan fungsi pgls() untuk estimasi GLS panel. Peneliti harus memverifikasi konvergensi prosedur iteratif dan melakukan diagnostic check pada residual tertransformasi untuk memastikan bahwa koreksi telah efektif.

4.5.4 Robust Standard Errors: Clustered, Driscoll-Kraay, dan Newey-West untuk Inferensi yang Valid

Ketika struktur error panel melanggar asumsi homoskedastisitas atau independensi serial, robust standard errors menyediakan koreksi matriks kovarians yang memungkinkan inferensi statistik tetap valid tanpa mengubah estimator koefisien slope. Tiga pendekatan robust yang paling relevan untuk data panel adalah:

Pertama, Clustered Standard Errors (Liang-Zeger) mengelompokkan observasi berdasarkan unit cross-section \(i\), sehingga mengizinkan heteroskedastisitas antar-individu dan autokorelasi dalam dimensi waktu. Matriks kovarians clustered dihitung sebagai: \[\widehat{Var}_{cluster}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left( \sum_{i=1}^{N} \mathbf{X}_i' \hat{\mathbf{u}}_i \hat{\mathbf{u}}_i' \mathbf{X}_i \right) (\mathbf{X}'\mathbf{X})^{-1}\] di mana \(\mathbf{X}_i\) dan \(\hat{\mathbf{u}}_i\) adalah matriks desain dan vektor residual untuk unit \(i\). Pendekatan ini robust terhadap bentuk heteroskedastisitas dan autokorelasi yang tidak diketahui, asalkan korelasi error terbatas dalam unit yang sama.

Kedua, Driscoll-Kraay standard errors memperluas koreksi clustered untuk mengakomodasi cross-sectional dependence, yaitu korelasi error antar-unit yang muncul akibat spillover kebijakan atau guncangan makro bersama. Statistik ini menggunakan kernel weighting dalam dimensi waktu dan cross-section untuk menghasilkan estimasi kovarians yang konsisten bahkan ketika \(N\) dan \(T\) keduanya besar.

Ketiga, Newey-West standard errors, yang awalnya dikembangkan untuk time-series murni, dapat diadaptasi untuk panel dengan menerapkan koreksi heteroskedastisitas dan autokorelasi (HAC) pada residual within atau GLS. Parameter lag truncation \(m\) dalam koreksi Newey-West harus dipilih secara hati-hati, umumnya menggunakan aturan praktis \(m \approx \sqrt[4]{T}\) atau kriteria informasi seperti AIC.

Dalam praktik, Clustered Standard Errors menjadi pilihan default untuk sebagian besar aplikasi panel karena keseimbangan antara robustness dan kemudahan implementasi. Software modern seperti Stata (vce(cluster id)), R (vcovHC(..., type = "HC1", cluster = "group")), atau EViews (opsi Cross-section Weights) menyediakan implementasi yang terintegrasi.

4.5.5 Penanganan Multikolinearitas: Ridge Regression, Principal Component, dan Variabel Komposit

Ketika diagnostik mengidentifikasi multikolinearitas tinggi (VIF > 10) antar-variabel bebas dalam model panel, peneliti dapat menerapkan tiga strategi remedial yang disesuaikan dengan konteks penelitian. Pertama, Ridge Regression menambahkan konstanta positif \(k\) pada diagonal matriks \(\mathbf{X}'\mathbf{X}\) sebelum inversi: \[\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}'\mathbf{X} + k\mathbf{I})^{-1}\mathbf{X}'\mathbf{y}\] Parameter regularisasi \(k\) dapat dipilih melalui cross-validation atau kriteria informasi seperti Generalized Cross-Validation (GCV). Ridge regression mengorbankan unbiasedness untuk mendapatkan varians estimator yang lebih kecil, sehingga sering menghasilkan prediksi yang lebih stabil meskipun interpretasi koefisien menjadi kurang intuitif.

Kedua, Principal Component Analysis (PCA) mereduksi dimensi variabel bebas dengan mengekstraksi komponen utama yang saling ortogonal. Komponen utama pertama menangkap variasi terbesar dalam data, komponen kedua menangkap variasi terbesar yang ortogonal terhadap komponen pertama, dan seterusnya. Regresi kemudian dilakukan pada komponen utama terpilih, dan koefisien asli dapat direkonstruksi melalui transformasi balik. Pendekatan ini efektif ketika multikolinearitas muncul dari redundansi informasi antar-variabel, namun memerlukan interpretasi substantif yang hati-hati karena komponen utama sering kali tidak memiliki makna ekonomi yang langsung.

Ketiga, pembentukan variabel komposit atau indeks melalui averaging tertimbang atau factor analysis dapat menggabungkan variabel-variabel yang berkorelasi tinggi menjadi satu konstruk laten. Misalnya, dalam studi determinan kemiskinan, variabel pendidikan seperti rata-rata lama sekolah, angka partisipasi kasar, dan rasio murid-guru dapat dikombinasikan menjadi indeks kualitas pendidikan. Pendekatan ini mempertahankan interpretasi substantif sambil mengurangi dimensi dan kolinearitas, namun memerlukan validasi konstruk melalui reliability analysis (Cronbach’s alpha) dan validity check (convergent/discriminant validity).

4.5.6 Protokol Validasi Pasca-Remediasi dan Transisi ke Sintesis Model Terbaik

Setelah menerapkan teknik remedial, peneliti wajib melakukan validasi ulang terhadap asumsi klasik untuk memastikan bahwa koreksi telah efektif dan tidak menginduksi masalah baru. Protokol validasi pasca-remediasi meliputi: (1) pengujian ulang heteroskedastisitas menggunakan Breusch-Pagan atau White test pada residual tertransformasi atau terweighted; (2) pemeriksaan autokorelasi melalui uji Wooldridge atau Breusch-Godfrey pada residual yang telah dikoreksi; (3) evaluasi multikolinearitas melalui VIF atau Condition Number pada spesifikasi final; dan (4) sensitivity analysis dengan membandingkan hasil estimator sebelum dan sesudah remediasi untuk mengidentifikasi perubahan substantif pada koefisien kunci.

Lebih lanjut, peneliti harus mendokumentasikan secara transparan prosedur remedial yang diterapkan, termasuk justifikasi teoretis, parameter tuning (seperti nilai \(k\) dalam ridge regression atau lag truncation \(m\) dalam Newey-West), dan dampak terhadap interpretasi hasil. Dokumentasi ini tidak hanya memenuhi standar etika akademik, tetapi juga memfasilitasi replikasi dan pengembangan penelitian oleh peneliti lain.

Setelah memastikan bahwa asumsi klasik telah terpenuhi atau pelanggaran tersisa tidak lagi mengancam validitas inferensi substantif, peneliti telah menyelesaikan rangkaian validasi model dalam data panel. Bab selanjutnya akan mengupas secara mendalam sintesis prosedur pemilihan model terbaik, integrasi hasil uji Chow, Hausman, dan LM dengan diagnostik asumsi klasik, serta protokol komprehensif untuk menghasilkan estimator yang robust dan inferensi yang valid dalam konteks penelitian empiris yang rigorous. Transisi dari remediasi asumsi ke sintesis model terbaik menandai pergeseran dari prosedur teknis ke inferensi substantif yang menjamin konsistensi, efisiensi, dan relevansi kebijakan dari hasil penelitian panel.


4.6 Validasi Akhir Model: Interpretasi R-Square, F-Statistik, dan Diagnostik Residual

4.6.1 Koefisien Determinasi dalam Data Panel: \(R^2\), Adjusted \(R^2\), dan Within/Between Decomposition

Dalam ekonometrika data panel, interpretasi koefisien determinasi (\(R^2\)) memerlukan kehati-hatian khusus karena struktur data yang menggabungkan variasi antar-individu dan variasi dalam individu sepanjang waktu. Secara formal, \(R^2\) didefinisikan sebagai proporsi variasi variabel terikat \(Y_{it}\) yang dapat dijelaskan oleh variabel bebas \(\mathbf{X}_{it}\) dalam model: \[R^2 = 1 - \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} \hat{u}_{it}^2}{\sum_{i=1}^{N} \sum_{t=1}^{T} (Y_{it} - \bar{Y})^2}\] di mana \(\hat{u}_{it}\) adalah residual dari estimasi model, dan \(\bar{Y}\) adalah grand mean dari variabel terikat. Namun, dalam konteks panel, \(R^2\) dapat didekomposisi menjadi tiga komponen yang mencerminkan sumber variasi berbeda: (1) overall \(R^2\) yang mengukur kebaikan suai model terhadap seluruh variasi pooled; (2) within \(R^2\) yang mengukur seberapa baik model menjelaskan variasi dalam individu sepanjang waktu, dihitung berdasarkan data yang telah ditransformasi demeaning; dan (3) between \(R^2\) yang mengukur seberapa baik model menjelaskan variasi rata-rata antar-individu, dihitung berdasarkan data agregat per unit \(\bar{Y}_i\) dan \(\bar{X}_i\).

Adjusted \(R^2\) merupakan modifikasi dari \(R^2\) yang mengoreksi bias akibat penambahan variabel bebas, sehingga lebih konservatif dalam menilai kebaikan suai model: \[\bar{R}^2 = 1 - \frac{(NT - 1)}{(NT - k - 1)} (1 - R^2)\] di mana \(k\) adalah jumlah variabel bebas. Dalam Fixed Effect Model, adjusted \(R^2\) within sering kali menjadi indikator utama karena model ini hanya memanfaatkan variasi within untuk estimasi koefisien. Peneliti disarankan untuk melaporkan ketiga jenis \(R^2\) secara transparan, disertai interpretasi yang sesuai dengan sumber variasi yang dimanfaatkan estimator, agar pembaca dapat menilai secara komprehensif kekuatan prediktif model dalam konteks substantif penelitian.

4.6.2 Uji F Statistik dalam Panel: Signifikansi Simultan dan Interpretasi dalam Konteks Kebijakan

Uji F statistik dalam data panel menguji hipotesis nol bahwa seluruh koefisien slope dalam model sama dengan nol secara simultan, yaitu \(H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0\), terhadap alternatif bahwa minimal satu \(\beta_j \neq 0\). Statistik F dihitung sebagai rasio antara mean square regression (MSR) dan mean square error (MSE): \[F = \frac{MSR}{MSE} = \frac{\sum_{i=1}^{N} \sum_{t=1}^{T} (\hat{Y}_{it} - \bar{Y})^2 / k}{\sum_{i=1}^{N} \sum_{t=1}^{T} \hat{u}_{it}^2 / (NT - k - 1)}\] Di bawah \(H_0\), statistik F berdistribusi F dengan derajat kebebasan \((k, NT - k - 1)\). Jika nilai probabilitas (p-value) statistik F lebih kecil dari tingkat signifikansi \(\alpha\) (misalnya 0.05), maka \(H_0\) ditolak, yang berarti variabel bebas secara bersama-sama memiliki pengaruh signifikan terhadap variabel terikat.

Dalam konteks penelitian kebijakan, interpretasi uji F memiliki implikasi substantif yang penting. Misalnya, dalam studi determinan kemiskinan menggunakan data panel 38 provinsi, jika uji F menghasilkan p-value = 0.000, maka peneliti memiliki bukti kuat bahwa kombinasi variabel seperti IPM, pengangguran, investasi pemerintah, dan akses infrastruktur secara simultan mempengaruhi tingkat kemiskinan. Namun, signifikansi simultan tidak menjamin bahwa setiap variabel individu signifikan; oleh karena itu, hasil uji F harus dilengkapi dengan uji parsial (t-test) untuk mengidentifikasi variabel mana yang secara individual berkontribusi terhadap model. Komunikasi hasil yang transparan mengenai signifikansi simultan dan parsial akan meningkatkan utilitas penelitian bagi perumusan kebijakan yang tepat sasaran.

4.6.3 Diagnostik Residual: Pemeriksaan Normalitas, Pola, dan Outlier dalam Data Panel

Validasi akhir model panel memerlukan pemeriksaan menyeluruh terhadap residual \(\hat{u}_{it}\) untuk memastikan bahwa asumsi klasik terpenuhi dan tidak terdapat pola sistematis yang mengindikasikan misspesifikasi model. Diagnostik residual dalam panel meliputi tiga aspek utama. Pertama, uji normalitas residual untuk memvalidasi asumsi distribusi error yang diperlukan untuk inferensi statistik berbasis uji t dan F. Uji Jarque-Bera (JB) menghitung statistik berdasarkan skewness dan kurtosis residual: \[JB = \frac{NT}{6} \left( S^2 + \frac{(K - 3)^2}{4} \right)\] di mana \(S\) adalah skewness dan \(K\) adalah kurtosis. Di bawah \(H_0\) normalitas, JB berdistribusi \(\chi^2_2\). Jika p-value JB > 0.05, residual dianggap berdistribusi normal.

Kedua, pemeriksaan pola residual melalui plot residual terhadap nilai fitted (\(\hat{Y}_{it}\)) atau terhadap waktu untuk mendeteksi heteroskedastisitas, autokorelasi, atau non-linearitas yang tidak tertangkap model. Dalam data panel, plot residual per unit cross-section juga informatif untuk mengidentifikasi unit dengan pola error yang anomali. Ketiga, identifikasi outlier melalui metode seperti studentized residual atau Cook’s distance yang dimodifikasi untuk panel. Observasi dengan studentized residual \(|r_{it}| > 3\) atau Cook’s distance yang ekstrem dapat mempengaruhi estimasi koefisien secara tidak proporsional dan memerlukan investigasi substantif: apakah outlier mencerminkan fenomena ekonomi yang genuine atau kesalahan pengukuran data.

4.6.4 Validasi Konsistensi Model: Sensitivity Analysis dan Robustness Check

Setelah model final dipilih dan asumsi klasik divalidasi, peneliti wajib melakukan sensitivity analysis untuk memastikan bahwa hasil estimasi robust terhadap perubahan spesifikasi, sampel, atau asumsi metodologis. Prosedur sensitivity analysis dalam panel meliputi: (1) estimasi ulang model dengan subset sampel berbeda, misalnya mengecualikan unit dengan karakteristik ekstrem atau periode dengan guncangan makro, untuk menguji stabilitas koefisien; (2) substitusi variabel penjelas dengan proksi alternatif yang mengukur konstruk substantif yang sama, untuk menguji robustness terhadap measurement error; (3) penambahan atau pengurangan variabel kontrol untuk menguji apakah koefisien variabel kunci berubah secara substantif; dan (4) perbandingan hasil estimator alternatif, misalnya membandingkan Fixed Effect dengan Correlated Random Effects atau estimasi dengan clustered standard errors versus heteroskedasticity-robust standard errors.

Robustness check juga mencakup evaluasi terhadap asumsi pemilihan model. Misalnya, jika Random Effect Model dipilih berdasarkan uji Hausman, peneliti dapat melaporkan hasil estimasi Fixed Effect sebagai perbandingan, disertai diskusi mengenai implikasi perbedaan koefisien terhadap interpretasi substantif. Dalam konteks penelitian kebijakan, sensitivity analysis bukan sekadar prosedur teknis, melainkan prasyarat etis untuk menghasilkan rekomendasi yang tidak sensitif terhadap asumsi metodologis yang arbitrer. Dokumentasi transparan mengenai seluruh prosedur robustness check akan meningkatkan kredibilitas dan replikabilitas penelitian.

4.6.5 Interpretasi Hasil Akhir: Dari Koefisien Statistik ke Implikasi Substantif Kebijakan

Interpretasi hasil akhir model panel harus menjembatani temuan statistik dengan relevansi substantif bagi perumusan kebijakan. Koefisien \(\hat{\beta}_j\) yang signifikan secara statistik harus diinterpretasikan dalam konteks elastisitas, marginal effect, atau dampak kausal yang bermakna secara ekonomi. Misalnya, jika \(\hat{\beta}_{IPM} = -0.45\) dengan signifikansi dalam model Fixed Effect untuk determinan kemiskinan, maka interpretasi substantifnya adalah: “Setiap kenaikan satu poin IPM di dalam provinsi yang sama sepanjang waktu dikaitkan dengan penurunan 0.45 persen poin tingkat kemiskinan, setelah mengontrol karakteristik provinsi yang persisten seperti geografi dan kapasitas institusi.” Interpretasi ini menjawab pertanyaan kebijakan yang relevan: intervensi peningkatan IPM (melalui pendidikan, kesehatan, atau daya beli) memiliki potensi mengurangi kemiskinan secara kausal.

Selain interpretasi koefisien, peneliti juga harus melaporkan ukuran efek (effect size) dan interval kepercayaan untuk mengkomunikasikan presisi estimasi. Misalnya, interval kepercayaan 95% untuk \(\beta_{IPM}\) sebesar \([-0.62, -0.28]\) mengindikasikan bahwa dampak penurunan kemiskinan akibat peningkatan IPM berkisar antara 0.28 hingga 0.62 persen poin, dengan tingkat keyakinan 95%. Informasi ini krusial bagi pembuat kebijakan untuk menilai risiko dan ketidakpastian dalam perencanaan program. Lebih lanjut, peneliti disarankan untuk menyajikan simulasi kebijakan (policy simulation), misalnya memproyeksikan perubahan tingkat kemiskinan jika IPM dinaikkan sebesar 5 poin di seluruh provinsi, sehingga hasil penelitian dapat langsung dioperasionalkan dalam desain intervensi.

4.6.6 Sintesis Validasi Model dan Transisi ke Studi Kasus Empiris

Validasi akhir model dalam ekonometrika data panel bukan merupakan akhir dari proses analitis, melainkan sintesis yang mengintegrasikan seluruh prosedur diagnostik, seleksi model, dan interpretasi substantif ke dalam kerangka inferensi yang kredibel. Protokol validasi yang rigor meliputi: (1) pemilihan model terbaik melalui uji Chow, Hausman, dan LM yang konsisten dengan konfigurasi dimensi panel dan asumsi teoritis; (2) verifikasi asumsi klasik multikolinearitas, heteroskedastisitas, dan autokorelasi melalui diagnostik yang disesuaikan dengan struktur error panel; (3) koreksi pelanggaran asumsi melalui teknik remedial seperti robust standard errors, transformasi variabel, atau Feasible GLS; (4) evaluasi kebaikan suai model melalui \(R^2\), adjusted \(R^2\), dan uji F yang diinterpretasikan sesuai sumber variasi yang dimanfaatkan estimator; dan (5) sensitivity analysis untuk memastikan robustness hasil terhadap perubahan spesifikasi atau asumsi.

Sintesis ini menjadi fondasi yang kokoh sebelum peneliti melangkah ke tahap aplikasi empiris dalam konteks penelitian yang substantif. Bab selanjutnya akan mengupas secara mendalam studi kasus kemiskinan menggunakan data panel 38 provinsi Indonesia, mencakup spesifikasi model determinan kemiskinan dengan variabel IPM dan pengangguran, prosedur estimasi dan seleksi model terbaik, interpretasi hasil dalam narasi kebijakan, serta implikasi substantif bagi perencanaan pembangunan daerah. Transisi dari validasi metodologis ke aplikasi empiris menandai pergeseran dari rigor teknis ke relevansi kebijakan yang berdampak nyata, sehingga penelitian ekonometrika data panel tidak hanya memenuhi standar akademik, tetapi juga berkontribusi pada perbaikan kesejahteraan masyarakat.


BAB 5: STUDI KASUS KEMISKINAN

5.1 Kerangka Teoritis: Hubungan IPM, Pengangguran, dan Kemiskinan dalam Perspektif Pembangunan

5.1.1 Konsep Kemiskinan Multidimensi dan Pengukurannya dalam Konteks Indonesia

Kemiskinan merupakan fenomena kompleks yang tidak dapat direduksi semata-mata pada dimensi pendapatan atau konsumsi moneter. Dalam perspektif pembangunan kontemporer, kemiskinan dipahami sebagai kondisi deprivasi multidimensi yang mencakup keterbatasan akses terhadap pendidikan, kesehatan, infrastruktur dasar, partisipasi sosial, dan ketahanan terhadap guncangan ekonomi. Badan Pusat Statistik (BPS) Indonesia mengadopsi pendekatan ganda dalam pengukuran kemiskinan: (1) kemiskinan moneter yang didasarkan pada garis kemiskinan (poverty line) yang dihitung berdasarkan kebutuhan minimum pangan dan non-pangan, dan (2) kemiskinan multidimensi yang mempertimbangkan indikator-indikator non-moneter seperti lama sekolah, akses sanitasi, kualitas perumahan, dan partisipasi dalam pengambilan keputusan rumah tangga.

Dalam konteks penelitian panel menggunakan data 38 provinsi Indonesia, variabel tingkat kemiskinan (\(POV_{it}\)) umumnya dioperasionalkan sebagai persentase penduduk yang berada di bawah garis kemiskinan pada provinsi \(i\) di tahun \(t\). Pengukuran ini memiliki keunggulan komparatif dalam hal konsistensi temporal dan comparability antar-wilayah, namun juga mengandung keterbatasan substantif: garis kemiskinan yang bersifat absolut dapat mengabaikan perbedaan biaya hidup antar-provinsi, dan pendekatan moneter tidak sepenuhnya menangkap aspek kerentanan (vulnerability) atau kemiskinan kronis (chronic poverty) yang persisten sepanjang waktu. Oleh karena itu, interpretasi hasil estimasi model panel harus selalu dikontekstualisasikan dengan batasan pengukuran ini, dan rekomendasi kebijakan perlu mempertimbangkan dimensi multidimensi kemiskinan yang tidak tertangkap oleh indikator moneter semata.

5.1.2 Indeks Pembangunan Manusia (IPM) sebagai Determinan Struktural Kemiskinan

Indeks Pembangunan Manusia (IPM) atau Human Development Index (HDI) merupakan indikator komposit yang dikembangkan oleh United Nations Development Programme (UNDP) untuk mengukur pencapaian pembangunan manusia dalam tiga dimensi dasar: (1) umur panjang dan hidup sehat yang diukur melalui harapan hidup saat lahir, (2) pengetahuan yang diukur melalui rata-rata lama sekolah dan harapan lama sekolah, dan (3) standar hidup layak yang diukur melalui pendapatan nasional bruto per kapita yang disesuaikan dengan paritas daya beli. Dalam notasi matematis, IPM untuk provinsi \(i\) pada tahun \(t\) dapat dinyatakan sebagai rata-rata geometrik dari tiga indeks dimensi: \[IPM_{it} = \sqrt[3]{I_{kesehatan,it} \times I_{pendidikan,it} \times I_{pendapatan,it}}\] di mana masing-masing indeks \(I\) dinormalisasi pada skala 0 hingga 100 berdasarkan nilai minimum dan maksimum referensi global.

Secara teoretis, IPM berpengaruh negatif terhadap tingkat kemiskinan melalui beberapa mekanisme kausal. Pertama, peningkatan akses dan kualitas pendidikan meningkatkan kapasitas produktif individu, memperluas peluang kerja formal, dan meningkatkan upah yang diterima, sehingga mengurangi proporsi penduduk yang berada di bawah garis kemiskinan. Kedua, perbaikan indikator kesehatan seperti harapan hidup dan penurunan angka kematian bayi mencerminkan akses yang lebih baik terhadap layanan kesehatan dasar, yang pada gilirannya mengurangi beban pengeluaran kesehatan katastrofik yang sering menjadi pemicu kemiskinan (health-induced poverty). Ketiga, komponen pendapatan dalam IPM secara langsung berkorelasi dengan daya beli rumah tangga, sehingga peningkatan GNI per kapita cenderung menurunkan prevalensi kemiskinan moneter. Dalam spesifikasi model ekonometrika, hubungan ini dapat diformulasikan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 X_{it} + \mu_i + \nu_{it}\] dengan hipotesis teoritis \(\beta_1 < 0\), yaitu setiap kenaikan satu poin IPM dikaitkan dengan penurunan persentase penduduk miskin, setelah mengontrol variabel lain \(X_{it}\) dan efek spesifik provinsi \(\mu_i\).

5.1.3 Pengangguran dan Mekanisme Transmisi terhadap Kemiskinan Rumah Tangga

Tingkat Pengangguran Terbuka (TPT) merupakan indikator makroekonomi kunci yang merefleksikan ketidakseimbangan antara penawaran dan permintaan tenaga kerja dalam suatu wilayah. Dalam konteks panel provinsi Indonesia, TPT didefinisikan sebagai persentase angkatan kerja yang tidak bekerja namun sedang mencari pekerjaan atau mempersiapkan usaha baru terhadap total angkatan kerja. Secara teoretis, pengangguran berpengaruh positif terhadap kemiskinan melalui tiga saluran transmisi utama. Pertama, saluran pendapatan langsung: rumah tangga dengan kepala keluarga atau anggota yang menganggur kehilangan sumber pendapatan utama, sehingga meningkatkan probabilitas jatuh ke bawah garis kemiskinan, terutama ketika tidak ada mekanisme jaring pengaman sosial yang memadai.

Kedua, saluran akumulasi modal manusia: periode pengangguran yang berkepanjangan dapat menyebabkan erosi keterampilan (skill depreciation), penurunan motivasi kerja, dan stigmatisasi sosial, yang pada gilirannya mengurangi employabilitas individu dalam jangka panjang dan menciptakan kemiskinan struktural yang persisten. Ketiga, saluran multiplier ekonomi regional: tingkat pengangguran yang tinggi dalam suatu provinsi dapat menekan permintaan agregat lokal, mengurangi investasi swasta, dan memperlambat penciptaan lapangan kerja baru, sehingga menciptakan siklus negatif yang memperburuk kondisi kemiskinan secara agregat. Dalam spesifikasi model, pengaruh TPT terhadap kemiskinan dapat dimodelkan sebagai: \[POV_{it} = \alpha + \gamma_1 TPT_{it} + \gamma_2 Z_{it} + \mu_i + \nu_{it}\] dengan hipotesis \(\gamma_1 > 0\), yaitu setiap kenaikan satu persen poin TPT dikaitkan dengan peningkatan persentase penduduk miskin, setelah mengontrol variabel lain \(Z_{it}\) dan efek spesifik provinsi \(\mu_i\).

5.1.4 Interaksi IPM dan Pengangguran: Efek Moderasi dan Heterogenitas Dampak

Hubungan antara IPM, pengangguran, dan kemiskinan tidak bersifat aditif semata, melainkan dapat dimodulasi oleh interaksi antara kedua variabel penjelas tersebut. Secara konseptual, IPM yang tinggi dapat memperkuat atau melemahkan pengaruh pengangguran terhadap kemiskinan, tergantung pada konteks struktural wilayah. Dalam provinsi dengan IPM tinggi, individu yang menganggur mungkin memiliki akses yang lebih baik terhadap tabungan, jaringan sosial, program pelatihan ulang, atau kredit mikro yang memfasilitasi transisi kembali ke pekerjaan, sehingga efek marginal pengangguran terhadap kemiskinan menjadi lebih kecil. Sebaliknya, dalam provinsi dengan IPM rendah, pengangguran dapat menjadi pintu masuk yang lebih mudah ke kemiskinan kronis akibat keterbatasan modal manusia, infrastruktur, dan institusi pendukung.

Interaksi ini dapat dimodelkan secara eksplisit melalui istilah perkalian (interaction term) dalam spesifikasi regresi: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \beta_3 (IPM_{it} \times TPT_{it}) + \delta W_{it} + \mu_i + \nu_{it}\] di mana koefisien \(\beta_3\) mengukur efek moderasi: jika \(\beta_3 < 0\), maka IPM tinggi memperlemah pengaruh positif pengangguran terhadap kemiskinan; jika \(\beta_3 > 0\), maka IPM tinggi justru memperkuat pengaruh tersebut (misalnya karena ekspektasi upah yang lebih tinggi membuat individu lebih selektif dalam menerima pekerjaan). Interpretasi koefisien dalam model dengan interaksi memerlukan kehati-hatian: efek marginal TPT terhadap \(POV\) menjadi fungsi dari level IPM, yaitu \(\frac{\partial POV_{it}}{\partial TPT_{it}} = \beta_2 + \beta_3 IPM_{it}\), sehingga peneliti disarankan untuk menyajikan marginal effects plot atau menghitung efek pada nilai IPM representatif (misalnya rata-rata, persentil 25, dan persentil 75) untuk komunikasi hasil yang lebih intuitif.

5.1.5 Kontrol Variabel dan Spesifikasi Model Lengkap untuk Analisis Determinan Kemiskinan

Selain IPM dan TPT sebagai variabel penjelas utama, spesifikasi model determinan kemiskinan dalam panel provinsi Indonesia perlu memasukkan variabel kontrol yang relevan secara teoretis untuk mengurangi bias omitted variable dan meningkatkan validitas inferensi kausal. Variabel kontrol yang lazim digunakan dalam literatur meliputi: (1) inflasi daerah (\(INF_{it}\)) yang mengukur tekanan harga terhadap daya beli rumah tangga miskin; (2) rasio ketergantungan (\(DEP_{it}\)) yang merefleksikan beban ekonomi rumah tangga akibat proporsi penduduk non-produktif; (3) akses infrastruktur dasar seperti persentase rumah tangga dengan akses listrik (\(ELEC_{it}\)) atau air bersih (\(WATER_{it}\)); (4) alokasi belanja daerah untuk program sosial (\(SOCSPEND_{it}\)) sebagai proksi intensitas intervensi kebijakan; dan (5) variabel dummy wilayah (\(REGION_i\)) untuk menangkap perbedaan struktural antara Jawa dan Luar Jawa, atau antara wilayah maju dan tertinggal.

Spesifikasi model lengkap dapat dituliskan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \beta_3 (IPM_{it} \times TPT_{it}) + \sum_{j=1}^{m} \theta_j CTRL_{jit} + \mu_i + \lambda_t + \nu_{it}\] di mana \(CTRL_{jit}\) adalah vektor \(m\) variabel kontrol, \(\mu_i\) adalah efek spesifik provinsi yang konstan terhadap waktu, \(\lambda_t\) adalah efek waktu yang konstan antar-provinsi (opsional, tergantung spesifikasi), dan \(\nu_{it}\) adalah error idiosinkratik. Pemilihan antara Fixed Effect (\(\mu_i\) berkorelasi dengan regressor) dan Random Effect (\(\mu_i\) tidak berkorelasi) akan ditentukan melalui prosedur uji formal (Chow, Hausman, LM) sebagaimana diuraikan dalam Bab 3, dengan pertimbangan bahwa karakteristik provinsi seperti geografi, budaya institusi, atau kapasitas fiskal historis sangat mungkin berkorelasi dengan variabel kebijakan seperti alokasi belanja sosial.

5.1.6 Hipotesis Penelitian dan Implikasi Substantif bagi Kebijakan Pengentasan Kemiskinan

Berdasarkan kerangka teoretis yang telah diuraikan, penelitian ini menguji tiga hipotesis utama yang relevan secara kebijakan. Hipotesis pertama: IPM berpengaruh negatif dan signifikan terhadap tingkat kemiskinan provinsi, setelah mengontrol variabel lain dan efek spesifik provinsi. Implikasi kebijakan dari hipotesis ini adalah bahwa investasi dalam pembangunan manusia—melalui peningkatan akses pendidikan berkualitas, layanan kesehatan universal, dan program peningkatan pendapatan—merupakan strategi struktural yang efektif untuk mengurangi kemiskinan secara berkelanjutan, bukan sekadar intervensi jangka pendek.

Hipotesis kedua: TPT berpengaruh positif dan signifikan terhadap tingkat kemiskinan, dengan elastisitas yang mungkin bervariasi antar-provinsi tergantung pada level IPM. Implikasi kebijakan dari hipotesis ini adalah bahwa program penciptaan lapangan kerja, pelatihan vokasi, dan fasilitasi kewirausahaan harus menjadi prioritas dalam strategi pengentasan kemiskinan, khususnya di provinsi dengan tingkat pengangguran tinggi dan IPM rendah yang rentan terhadap kemiskinan struktural.

Hipotesis ketiga: Terdapat efek interaksi signifikan antara IPM dan TPT, di mana IPM tinggi memperlemah pengaruh positif pengangguran terhadap kemiskinan. Implikasi kebijakan dari hipotesis ini adalah bahwa kebijakan ketenagakerjaan dan kebijakan pembangunan manusia harus dirancang secara terintegrasi: program pelatihan kerja akan lebih efektif jika disertai dengan perbaikan akses pendidikan dasar dan kesehatan, sementara investasi dalam IPM akan menghasilkan dampak pengurangan kemiskinan yang lebih besar jika diiringi dengan penciptaan lapangan kerja yang inklusif.

Pengujian ketiga hipotesis ini menggunakan data panel 38 provinsi Indonesia akan menghasilkan bukti empiris yang dapat menginformasikan desain kebijakan pengentasan kemiskinan yang diferensiatif, responsif terhadap heterogenitas provinsi, dan berbasis pada mekanisme kausal yang teridentifikasi secara rigor. Bab selanjutnya akan menguraikan deskripsi data, sumber variabel, periode observasi, dan profil statistik deskriptif dari dataset yang digunakan dalam analisis empiris.


5.2 Deskripsi Data: Profil 38 Provinsi Indonesia (Variabel, Sumber, dan Periode Observasi)

5.2.1 Cakupan Geografis dan Administratif: 38 Provinsi sebagai Unit Analisis Cross-Section

Unit analisis dalam studi kasus ini mencakup seluruh 38 provinsi di Indonesia, yang merepresentasikan entitas administratif tingkat pertama dalam struktur pemerintahan negara kesatuan Republik Indonesia. Komposisi 38 provinsi ini mencakup 34 provinsi lama ditambah empat provinsi baru di Papua yang dibentuk melalui pemekaran wilayah, yaitu Papua Selatan, Papua Tengah, Papua Pegunungan, dan Papua Barat Daya.

Karakteristik geografis 38 provinsi Indonesia menunjukkan heterogenitas yang sangat tinggi, yang menjadi alasan fundamental penggunaan pendekatan data panel. Provinsi-provinsi di Pulau Jawa memiliki profil pembangunan yang sangat berbeda dibandingkan provinsi-provinsi di Kawasan Indonesia Timur. Variasi antar-provinsi yang kaya inilah yang menjadi sumber informasi utama bagi estimator Fixed Effect Model (FEM) nantinya untuk melibas bias omitted variables.

5.2.2 Sumber Data Resmi dan Metodologi Pengumpulan Variabel Kunci

Seluruh variabel yang digunakan bersumber dari publikasi resmi Badan Pusat Statistik (BPS). Penggunaan sumber data tunggal menjamin konsistensi metodologis dan kredibilitas hasil. Berikut adalah deskripsi rinci masing-masing variabel:

  1. Variabel Terikat: Kemiskinan (\(POV_{it}\)) Diukur sebagai persentase atau jumlah penduduk yang berada di bawah garis kemiskinan (dalam Ribu Jiwa) pada provinsi \(i\) di tahun \(t\). Garis kemiskinan BPS dihitung berdasarkan pendekatan kebutuhan dasar (basic needs approach).
  2. Variabel Bebas Utama 1: Indeks Pembangunan Manusia (\(IPM_{it}\)) Indikator komposit yang mengukur pencapaian pembangunan manusia dalam tiga dimensi: umur panjang/sehat, pengetahuan, dan standar hidup layak.
  3. Variabel Bebas Utama 2: Tingkat Pengangguran Terbuka (\(TPT_{it}\)) Persentase angkatan kerja yang tidak bekerja namun sedang mencari pekerjaan atau mempersiapkan usaha. Definisi ini mengacu pada standar ILO yang diadopsi oleh BPS dalam Sakernas.

5.2.3 Periode Observasi dan Persiapan Data Panel di RStudio

Periode observasi riil dalam studi ini mencakup rentang waktu 8 tahun, yaitu 2017–2024. Pemilihan periode ini sangat krusial karena merekam transisi ekonomi wilayah secara utuh sebelum, selama, dan pasca guncangan pandemi COVID-19. Total observasi dalam dataset balanced panel ini adalah \(N \times T = 38 \times 8 = 304\) observasi.

Untuk mengoperasionalkan data ke dalam analisis ekonometrika, langkah pertama yang dilakukan adalah data wrangling (merapikan data) menggunakan komputasi R. Pendekatan tidyverse digunakan untuk merestrukturisasi format tabel dari format melebar (wide format) menjadi format memanjang (long format) yang merupakan syarat mutlak struktur data panel.

Load Library

library(plm)       # untuk regresi data panel
library(lmtest)    # untuk uji asumsi
library(car)       # untuk uji multikolinearitas
library(tidyr)     # untuk merapikan data
library(dplyr)     # untuk manipulasi data
library(ggplot2)   # untuk membuat grafik
library(knitr)     # untuk membuat tabel rapi

Import dan Persiapan Data

# Import data kemiskinan
raw1 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.29.16 WITA.csv", header=FALSE)
tahun <- as.character(raw1[3, 2:9])
df_kemiskinan <- raw1[5:nrow(raw1), 1:9]
colnames(df_kemiskinan) <- c("Provinsi", tahun)
df_kemiskinan <- df_kemiskinan %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_kemiskinan[,2:9] <- lapply(df_kemiskinan[,2:9], as.numeric)

# Import data pengangguran
raw2 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.36.26 WITA.csv", header=FALSE)
tahun2 <- as.character(raw2[2, 2:9])
df_pengangguran <- raw2[4:nrow(raw2), 1:9]
colnames(df_pengangguran) <- c("Provinsi", tahun2)
df_pengangguran <- df_pengangguran %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_pengangguran[,2:9] <- lapply(df_pengangguran[,2:9], as.numeric)

# Import data IPM
raw3 <- read.csv("Query Builder Result - Sabtu, 16 Mei 2026 pukul 07.43.37 WITA.csv", header=FALSE)
tahun3 <- as.character(raw3[2, 2:9])
df_ipm <- raw3[3:nrow(raw3), 1:9]
colnames(df_ipm) <- c("Provinsi", tahun3)
df_ipm <- df_ipm %>%
  filter(!is.na(Provinsi), Provinsi != "",
         !grepl("^(INDONESIA|Catatan)", Provinsi, ignore.case = TRUE))
df_ipm[,2:9] <- lapply(df_ipm[,2:9], as.numeric)

# Ubah ke long format dan gabung
long_kemiskinan <- df_kemiskinan %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "kemiskinan") %>%
  rename(provinsi = Provinsi)

long_ipm <- df_ipm %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "ipm") %>%
  rename(provinsi = Provinsi)

long_pengangguran <- df_pengangguran %>%
  pivot_longer(-Provinsi, names_to = "tahun", values_to = "pengangguran") %>%
  rename(provinsi = Provinsi)

df_gabungan <- long_kemiskinan %>%
  left_join(long_ipm, by = c("provinsi", "tahun")) %>%
  left_join(long_pengangguran, by = c("provinsi", "tahun")) %>%
  mutate(tahun = as.integer(tahun)) %>%
  arrange(provinsi, tahun)

cat("Jumlah provinsi:", length(unique(df_gabungan$provinsi)), "\n")
Jumlah provinsi: 38 
cat("Total baris:", nrow(df_gabungan), "\n")
Total baris: 304 

Tampilan Data

Data yang digunakan adalah data panel dari 38 provinsi di Indonesia selama 8 tahun (2017–2024). Total observasi = 38 x 8 = 304 baris data.

kable(df_gabungan,
      caption = "Data Gabungan: Kemiskinan, IPM, dan Pengangguran per Provinsi",
      col.names = c("Provinsi", "Tahun", "Kemiskinan (Ribu Jiwa)", "IPM", "TPT (%)"),
      align = c("l", "c", "c", "c", "c"))
Data Gabungan: Kemiskinan, IPM, dan Pengangguran per Provinsi
Provinsi Tahun Kemiskinan (Ribu Jiwa) IPM TPT (%)
ACEH 2017 872.61 70.60 6.57
ACEH 2018 839.49 71.19 6.34
ACEH 2019 819.44 71.90 6.17
ACEH 2020 814.91 71.99 6.59
ACEH 2021 834.24 72.18 6.30
ACEH 2022 806.82 72.80 6.17
ACEH 2023 806.75 73.40 6.03
ACEH 2024 804.53 74.03 5.75
BALI 2017 180.13 74.30 1.48
BALI 2018 171.76 74.77 1.40
BALI 2019 163.85 75.38 1.57
BALI 2020 165.19 75.50 5.63
BALI 2021 201.97 75.69 5.37
BALI 2022 205.68 76.44 4.80
BALI 2023 193.78 77.10 2.69
BALI 2024 184.43 77.76 1.79
BANTEN 2017 675.04 71.42 9.28
BANTEN 2018 661.36 71.95 8.47
BANTEN 2019 654.46 72.44 8.11
BANTEN 2020 775.99 72.45 10.64
BANTEN 2021 867.23 72.72 8.98
BANTEN 2022 814.02 73.32 8.09
BANTEN 2023 826.13 73.87 7.52
BANTEN 2024 791.61 74.48 6.68
BENGKULU 2017 316.98 69.95 3.74
BENGKULU 2018 301.81 70.64 3.35
BENGKULU 2019 302.30 71.21 3.26
BENGKULU 2020 302.58 71.40 4.07
BENGKULU 2021 306.00 71.64 3.65
BENGKULU 2022 297.23 72.16 3.59
BENGKULU 2023 288.46 72.78 3.42
BENGKULU 2024 281.36 73.39 3.11
DI YOGYAKARTA 2017 488.53 78.89 3.02
DI YOGYAKARTA 2018 460.10 79.53 3.37
DI YOGYAKARTA 2019 448.47 79.99 3.18
DI YOGYAKARTA 2020 475.72 79.97 4.57
DI YOGYAKARTA 2021 506.45 80.22 4.56
DI YOGYAKARTA 2022 454.76 80.64 4.06
DI YOGYAKARTA 2023 448.47 81.07 3.69
DI YOGYAKARTA 2024 445.55 81.55 3.48
DKI JAKARTA 2017 389.69 80.06 7.14
DKI JAKARTA 2018 373.12 80.47 6.65
DKI JAKARTA 2019 365.55 80.76 6.54
DKI JAKARTA 2020 480.86 80.77 10.95
DKI JAKARTA 2021 501.92 81.11 8.50
DKI JAKARTA 2022 502.04 81.65 7.18
DKI JAKARTA 2023 477.83 82.46 6.53
DKI JAKARTA 2024 464.93 83.08 6.21
GORONTALO 2017 205.37 67.01 4.28
GORONTALO 2018 198.51 67.71 3.70
GORONTALO 2019 186.03 68.49 3.76
GORONTALO 2020 185.02 68.68 4.28
GORONTALO 2021 186.29 69.00 3.01
GORONTALO 2022 185.44 69.81 2.58
GORONTALO 2023 183.71 70.45 3.06
GORONTALO 2024 177.99 71.23 3.13
JAMBI 2017 286.55 69.99 3.87
JAMBI 2018 281.69 70.65 3.73
JAMBI 2019 274.32 71.26 4.06
JAMBI 2020 277.80 71.29 5.13
JAMBI 2021 293.86 71.63 5.09
JAMBI 2022 279.37 72.14 4.59
JAMBI 2023 280.68 72.77 4.53
JAMBI 2024 265.42 73.43 4.48
JAWA BARAT 2017 4168.44 70.69 8.22
JAWA BARAT 2018 3615.79 71.30 8.23
JAWA BARAT 2019 3399.16 72.03 8.04
JAWA BARAT 2020 3920.23 72.09 10.46
JAWA BARAT 2021 4195.34 72.45 9.82
JAWA BARAT 2022 4070.98 73.12 8.31
JAWA BARAT 2023 3888.60 73.74 7.44
JAWA BARAT 2024 3848.67 74.43 6.75
JAWA TENGAH 2017 4450.72 70.52 4.57
JAWA TENGAH 2018 3897.20 71.12 4.47
JAWA TENGAH 2019 3743.23 71.73 4.44
JAWA TENGAH 2020 3980.90 71.87 6.48
JAWA TENGAH 2021 4109.75 72.16 5.95
JAWA TENGAH 2022 3831.44 72.79 5.57
JAWA TENGAH 2023 3791.50 73.39 5.13
JAWA TENGAH 2024 3704.33 73.88 4.78
JAWA TIMUR 2017 4617.01 70.27 4.00
JAWA TIMUR 2018 4332.59 70.77 3.91
JAWA TIMUR 2019 4112.25 71.50 3.82
JAWA TIMUR 2020 4419.10 71.71 5.84
JAWA TIMUR 2021 4572.73 72.14 5.74
JAWA TIMUR 2022 4181.29 72.75 5.49
JAWA TIMUR 2023 4188.81 73.38 4.88
JAWA TIMUR 2024 3982.69 74.09 4.19
KALIMANTAN BARAT 2017 387.43 66.26 4.36
KALIMANTAN BARAT 2018 387.08 66.98 4.18
KALIMANTAN BARAT 2019 378.41 67.65 4.35
KALIMANTAN BARAT 2020 366.77 67.66 5.81
KALIMANTAN BARAT 2021 367.89 67.90 5.82
KALIMANTAN BARAT 2022 350.25 68.63 5.11
KALIMANTAN BARAT 2023 353.35 69.41 5.05
KALIMANTAN BARAT 2024 336.08 70.13 4.86
KALIMANTAN SELATAN 2017 193.92 69.65 4.77
KALIMANTAN SELATAN 2018 189.03 70.17 4.35
KALIMANTAN SELATAN 2019 192.48 70.72 4.18
KALIMANTAN SELATAN 2020 187.87 70.91 4.74
KALIMANTAN SELATAN 2021 208.11 71.28 4.95
KALIMANTAN SELATAN 2022 195.70 71.84 4.74
KALIMANTAN SELATAN 2023 188.93 72.50 4.31
KALIMANTAN SELATAN 2024 183.31 73.03 4.20
KALIMANTAN TENGAH 2017 139.16 69.79 4.23
KALIMANTAN TENGAH 2018 136.93 70.42 3.91
KALIMANTAN TENGAH 2019 134.59 70.91 4.04
KALIMANTAN TENGAH 2020 132.94 71.05 4.58
KALIMANTAN TENGAH 2021 140.04 71.25 4.53
KALIMANTAN TENGAH 2022 145.10 71.63 4.26
KALIMANTAN TENGAH 2023 142.17 72.20 4.10
KALIMANTAN TENGAH 2024 145.63 72.73 4.01
KALIMANTAN TIMUR 2017 220.17 75.12 6.91
KALIMANTAN TIMUR 2018 218.90 75.83 6.41
KALIMANTAN TIMUR 2019 219.92 76.61 5.94
KALIMANTAN TIMUR 2020 230.26 76.24 6.87
KALIMANTAN TIMUR 2021 241.77 76.88 6.83
KALIMANTAN TIMUR 2022 236.25 77.44 5.71
KALIMANTAN TIMUR 2023 231.07 78.20 5.31
KALIMANTAN TIMUR 2024 221.34 78.83 5.14
KALIMANTAN UTARA 2017 49.47 69.84 5.54
KALIMANTAN UTARA 2018 50.35 70.56 5.11
KALIMANTAN UTARA 2019 48.78 71.15 4.49
KALIMANTAN UTARA 2020 51.79 70.63 4.97
KALIMANTAN UTARA 2021 52.86 71.19 4.58
KALIMANTAN UTARA 2022 49.46 71.83 4.33
KALIMANTAN UTARA 2023 47.97 72.49 4.01
KALIMANTAN UTARA 2024 47.83 73.02 3.90
KEP. BANGKA BELITUNG 2017 74.09 69.99 3.78
KEP. BANGKA BELITUNG 2018 76.26 70.67 3.61
KEP. BANGKA BELITUNG 2019 68.38 71.30 3.58
KEP. BANGKA BELITUNG 2020 68.39 71.47 5.25
KEP. BANGKA BELITUNG 2021 72.71 71.69 5.03
KEP. BANGKA BELITUNG 2022 66.78 72.24 4.77
KEP. BANGKA BELITUNG 2023 68.69 72.85 4.56
KEP. BANGKA BELITUNG 2024 69.95 73.33 4.63
KEP. RIAU 2017 125.37 74.45 7.16
KEP. RIAU 2018 131.68 74.84 8.04
KEP. RIAU 2019 128.46 75.48 7.50
KEP. RIAU 2020 131.97 75.59 10.34
KEP. RIAU 2021 144.46 75.79 9.91
KEP. RIAU 2022 151.68 76.46 8.23
KEP. RIAU 2023 142.50 77.11 6.80
KEP. RIAU 2024 138.30 77.97 6.39
LAMPUNG 2017 1131.73 68.25 4.33
LAMPUNG 2018 1097.05 69.02 4.04
LAMPUNG 2019 1063.66 69.57 4.03
LAMPUNG 2020 1049.32 69.69 4.67
LAMPUNG 2021 1083.93 69.90 4.69
LAMPUNG 2022 1002.41 70.45 4.52
LAMPUNG 2023 970.67 71.15 4.23
LAMPUNG 2024 941.23 71.81 4.19
MALUKU 2017 320.51 68.19 9.29
MALUKU 2018 320.08 68.87 6.95
MALUKU 2019 317.69 69.45 6.69
MALUKU 2020 318.18 69.49 7.57
MALUKU 2021 321.81 69.71 6.93
MALUKU 2022 290.57 70.22 6.88
MALUKU 2023 301.61 70.94 6.31
MALUKU 2024 297.68 71.57 6.11
MALUKU UTARA 2017 76.47 67.20 5.33
MALUKU UTARA 2018 81.46 67.76 4.63
MALUKU UTARA 2019 84.60 68.70 4.81
MALUKU UTARA 2020 86.37 68.49 5.15
MALUKU UTARA 2021 87.16 68.76 4.71
MALUKU UTARA 2022 79.87 69.47 3.98
MALUKU UTARA 2023 83.80 70.21 4.31
MALUKU UTARA 2024 83.09 71.03 4.03
NUSA TENGGARA BARAT 2017 793.78 66.58 3.32
NUSA TENGGARA BARAT 2018 737.46 67.30 3.58
NUSA TENGGARA BARAT 2019 735.96 68.14 3.28
NUSA TENGGARA BARAT 2020 713.89 68.25 4.22
NUSA TENGGARA BARAT 2021 746.66 68.65 3.01
NUSA TENGGARA BARAT 2022 731.94 69.46 2.89
NUSA TENGGARA BARAT 2023 751.23 70.20 2.80
NUSA TENGGARA BARAT 2024 709.01 70.93 2.73
NUSA TENGGARA TIMUR 2017 1150.79 63.73 3.27
NUSA TENGGARA TIMUR 2018 1142.17 64.39 2.85
NUSA TENGGARA TIMUR 2019 1146.32 65.23 3.14
NUSA TENGGARA TIMUR 2020 1153.76 65.19 4.28
NUSA TENGGARA TIMUR 2021 1169.31 65.28 3.77
NUSA TENGGARA TIMUR 2022 1131.62 65.90 3.54
NUSA TENGGARA TIMUR 2023 1141.11 66.68 3.14
NUSA TENGGARA TIMUR 2024 1127.57 67.39 3.02
PAPUA 2017 897.69 59.09 3.62
PAPUA 2018 917.63 60.06 3.00
PAPUA 2019 926.36 60.84 3.51
PAPUA 2020 911.37 60.44 4.28
PAPUA 2021 920.44 60.62 3.33
PAPUA 2022 922.12 71.76 2.83
PAPUA 2023 915.15 72.41 2.67
PAPUA 2024 152.91 73.00 6.48
PAPUA BARAT 2017 228.38 62.99 6.49
PAPUA BARAT 2018 214.47 63.74 6.45
PAPUA BARAT 2019 211.50 64.70 6.43
PAPUA BARAT 2020 208.58 65.09 6.80
PAPUA BARAT 2021 219.07 65.26 5.84
PAPUA BARAT 2022 218.78 65.16 5.37
PAPUA BARAT 2023 214.98 66.16 5.38
PAPUA BARAT 2024 110.16 67.02 4.13
PAPUA BARAT DAYA 2017 NA NA NA
PAPUA BARAT DAYA 2018 NA NA NA
PAPUA BARAT DAYA 2019 NA NA NA
PAPUA BARAT DAYA 2020 NA NA NA
PAPUA BARAT DAYA 2021 NA NA NA
PAPUA BARAT DAYA 2022 NA 67.59 NA
PAPUA BARAT DAYA 2023 NA 68.05 NA
PAPUA BARAT DAYA 2024 102.27 68.63 6.48
PAPUA PEGUNUNGAN 2017 NA NA NA
PAPUA PEGUNUNGAN 2018 NA NA NA
PAPUA PEGUNUNGAN 2019 NA NA NA
PAPUA PEGUNUNGAN 2020 NA NA NA
PAPUA PEGUNUNGAN 2021 NA NA NA
PAPUA PEGUNUNGAN 2022 NA 51.70 NA
PAPUA PEGUNUNGAN 2023 NA 52.45 NA
PAPUA PEGUNUNGAN 2024 365.43 53.42 1.32
PAPUA SELATAN 2017 NA NA NA
PAPUA SELATAN 2018 NA NA NA
PAPUA SELATAN 2019 NA NA NA
PAPUA SELATAN 2020 NA NA NA
PAPUA SELATAN 2021 NA NA NA
PAPUA SELATAN 2022 NA 65.74 NA
PAPUA SELATAN 2023 NA 67.27 NA
PAPUA SELATAN 2024 92.20 67.90 4.05
PAPUA TENGAH 2017 NA NA NA
PAPUA TENGAH 2018 NA NA NA
PAPUA TENGAH 2019 NA NA NA
PAPUA TENGAH 2020 NA NA NA
PAPUA TENGAH 2021 NA NA NA
PAPUA TENGAH 2022 NA 58.25 NA
PAPUA TENGAH 2023 NA 58.93 NA
PAPUA TENGAH 2024 308.48 59.75 2.75
RIAU 2017 514.62 71.79 6.22
RIAU 2018 500.44 72.44 5.98
RIAU 2019 490.72 73.00 5.76
RIAU 2020 483.39 72.71 6.32
RIAU 2021 500.81 72.94 4.42
RIAU 2022 485.03 73.52 4.37
RIAU 2023 485.66 74.04 4.23
RIAU 2024 492.25 74.79 3.70
SULAWESI BARAT 2017 149.76 64.30 3.21
SULAWESI BARAT 2018 151.78 65.10 3.01
SULAWESI BARAT 2019 151.40 65.73 2.98
SULAWESI BARAT 2020 152.02 66.11 3.32
SULAWESI BARAT 2021 157.19 66.36 3.13
SULAWESI BARAT 2022 165.72 66.92 2.34
SULAWESI BARAT 2023 164.14 67.55 2.27
SULAWESI BARAT 2024 162.19 68.20 2.68
SULAWESI SELATAN 2017 813.07 70.34 5.61
SULAWESI SELATAN 2018 792.63 70.90 4.94
SULAWESI SELATAN 2019 767.80 71.66 4.62
SULAWESI SELATAN 2020 776.83 71.93 6.31
SULAWESI SELATAN 2021 784.98 72.24 5.72
SULAWESI SELATAN 2022 777.44 72.82 4.51
SULAWESI SELATAN 2023 788.85 73.46 4.33
SULAWESI SELATAN 2024 736.48 74.05 4.19
SULAWESI TENGAH 2017 417.87 68.11 3.81
SULAWESI TENGAH 2018 420.21 68.88 3.37
SULAWESI TENGAH 2019 410.36 69.50 3.11
SULAWESI TENGAH 2020 398.73 69.55 3.77
SULAWESI TENGAH 2021 404.44 69.79 3.75
SULAWESI TENGAH 2022 388.35 70.28 3.00
SULAWESI TENGAH 2023 395.66 70.95 2.95
SULAWESI TENGAH 2024 379.76 71.56 2.94
SULAWESI TENGGARA 2017 331.71 69.86 3.30
SULAWESI TENGGARA 2018 307.10 70.61 3.19
SULAWESI TENGGARA 2019 302.58 71.20 3.52
SULAWESI TENGGARA 2020 301.82 71.45 4.58
SULAWESI TENGGARA 2021 318.70 71.66 3.92
SULAWESI TENGGARA 2022 309.79 72.23 3.36
SULAWESI TENGGARA 2023 321.53 72.79 3.15
SULAWESI TENGGARA 2024 319.71 73.48 3.09
SULAWESI UTARA 2017 198.88 71.66 7.18
SULAWESI UTARA 2018 193.31 72.20 6.61
SULAWESI UTARA 2019 191.70 72.99 6.01
SULAWESI UTARA 2020 192.37 72.93 7.37
SULAWESI UTARA 2021 196.35 73.30 7.06
SULAWESI UTARA 2022 185.14 73.81 6.61
SULAWESI UTARA 2023 189.00 74.36 6.10
SULAWESI UTARA 2024 186.85 75.03 5.85
SUMATERA BARAT 2017 364.51 71.24 5.58
SUMATERA BARAT 2018 357.13 71.73 5.66
SUMATERA BARAT 2019 348.22 72.39 5.38
SUMATERA BARAT 2020 344.23 72.38 6.88
SUMATERA BARAT 2021 370.67 72.65 6.52
SUMATERA BARAT 2022 335.21 73.26 6.28
SUMATERA BARAT 2023 340.37 73.75 5.94
SUMATERA BARAT 2024 345.73 74.49 5.75
SUMATERA SELATAN 2017 1086.92 68.86 4.39
SUMATERA SELATAN 2018 1068.27 69.39 4.27
SUMATERA SELATAN 2019 1073.74 70.02 4.53
SUMATERA SELATAN 2020 1081.58 70.01 5.51
SUMATERA SELATAN 2021 1113.76 70.24 4.98
SUMATERA SELATAN 2022 1044.69 70.90 4.63
SUMATERA SELATAN 2023 1045.68 71.62 4.11
SUMATERA SELATAN 2024 984.24 72.30 3.86
SUMATERA UTARA 2017 1453.87 70.57 5.60
SUMATERA UTARA 2018 1324.98 71.18 5.55
SUMATERA UTARA 2019 1282.04 71.74 5.39
SUMATERA UTARA 2020 1283.29 71.77 6.91
SUMATERA UTARA 2021 1343.86 72.00 6.33
SUMATERA UTARA 2022 1268.19 72.71 6.16
SUMATERA UTARA 2023 1239.71 73.37 5.89
SUMATERA UTARA 2024 1228.01 74.02 5.60

Perlu dicatat bahwa data Provinsi Papua menunjukkan perubahan drastis pada tahun 2024, di mana jumlah penduduk miskin turun dari sekitar 920 ribu jiwa menjadi 152 ribu jiwa. Penurunan ini bukan mencerminkan perbaikan kesejahteraan yang nyata, melainkan merupakan konsekuensi dari pemekaran wilayah Papua menjadi beberapa provinsi baru (Papua Selatan, Papua Tengah, Papua Pegunungan, dan Papua Barat Daya) yang menyebabkan sebagian penduduk miskin Papua induk kini tercatat di provinsi-provinsi baru tersebut. Ketidakkonsistenan ini perlu diperhatikan dalam interpretasi hasil estimasi, karena dapat memengaruhi variasi within provinsi Papua dalam model Fixed Effect.


5.2.4 Visualisasi Tren Temporal dan Sebaran Data

Sebelum melakukan analisis regresi formal, diagnostik visual sangat penting untuk memahami perilaku data baik dalam dimensi time-series maupun cross-section.

A. Dinamika Rata-rata Kemiskinan dan IPM Grafik di bawah ini memvisualisasikan pergerakan rata-rata kemiskinan dan IPM di seluruh provinsi. Visualisasi ini krusial untuk melihat efek guncangan makro (seperti pandemi) terhadap tren kesejahteraan.

df_gabungan %>%
  group_by(tahun) %>%
  summarise(rata_kemiskinan = mean(kemiskinan, na.rm = TRUE)) %>%
  ggplot(aes(x = tahun, y = rata_kemiskinan)) +
  geom_line(color = "steelblue", linewidth = 1.2) +
  geom_point(color = "steelblue", size = 3) +
  labs(x = "Tahun", y = "Rata-rata Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Tren Rata-rata Kemiskinan Nasional (2017-2024)

Tren Rata-rata IPM per Tahun

Grafik ini menunjukkan perkembangan IPM rata-rata nasional dari tahun ke tahun. IPM yang naik berarti kualitas hidup masyarakat semakin baik.

df_gabungan %>%
  group_by(tahun) %>%
  summarise(rata_ipm = mean(ipm, na.rm = TRUE)) %>%
  ggplot(aes(x = tahun, y = rata_ipm)) +
  geom_line(color = "darkgreen", linewidth = 1.2) +
  geom_point(color = "darkgreen", size = 3) +
  labs(x = "Tahun", y = "Rata-rata IPM") +
  theme_minimal()

Tren Rata-rata IPM Nasional (2017-2024)

B. Deteksi Pola Hubungan (Scatter Plot) Scatter plot memungkinkan kita mendeteksi sinyal awal mengenai arah korelasi antara variabel independen dan dependen secara bivariate sebelum dikontrol oleh variabel lain dalam model panel.

Hubungan IPM dengan Kemiskinan

Grafik ini disebut scatter plot. Setiap titik mewakili satu provinsi di satu tahun. Kita ingin melihat: apakah provinsi dengan IPM tinggi cenderung memiliki kemiskinan yang rendah?

ggplot(df_gabungan, aes(x = ipm, y = kemiskinan)) +
  geom_point(alpha = 0.4, color = "steelblue") +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(x = "IPM", y = "Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Hubungan antara IPM dan Kemiskinan

Garis tren (fitted line) merah yang mengarah ke bawah mengonfirmasi hipotesis teoritis: terdapat korelasi negatif yang mengindikasikan bahwa peningkatan IPM berkontribusi pada penekanan angka kemiskinan.

Hubungan Pengangguran dengan Kemiskinan

Sama seperti sebelumnya, kita lihat apakah pengangguran yang tinggi berhubungan dengan kemiskinan yang tinggi.

ggplot(df_gabungan, aes(x = pengangguran, y = kemiskinan)) +
  geom_point(alpha = 0.4, color = "darkorange") +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(x = "TPT (%)", y = "Kemiskinan (Ribu Jiwa)") +
  theme_minimal()

Hubungan antara Pengangguran dan Kemiskinan

Sebaliknya, korelasi pengangguran terhadap kemiskinan menunjukkan arah yang positif secara visual, di mana naiknya Tingkat Pengangguran Terbuka (TPT) berpotensi mendorong peningkatan angka kemiskinan di provinsi terkait.


5.3 Spesifikasi Model: Formulasi Regresi Data Panel untuk Analisis Determinan Kemiskinan

5.3.1 Landasan Teoretis Spesifikasi Model dalam Konteks Kemiskinan

Spesifikasi model ekonometrika dalam analisis determinan kemiskinan menggunakan data panel tidak dapat direduksi semata-mata sebagai prosedur teknis regresi, melainkan merupakan cerminan dari asumsi teoretis mengenai struktur ketidaksetaraan wilayah dan dinamika kebijakan pembangunan. Kemiskinan merupakan fenomena multidimensi yang dipengaruhi oleh faktor struktural yang bersifat persisten antar-wilayah (seperti kondisi geografis, warisan institusi, dan budaya lokal) serta faktor dinamis yang berfluktuasi sepanjang waktu (seperti guncangan ekonomi, perubahan kebijakan fiskal, dan fluktuasi pasar tenaga kerja).

Dalam kerangka data panel studi kasus ini, hubungan tersebut dimodelkan melalui persamaan dasar: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + u_{it}\] di mana \(POV_{it}\) merepresentasikan tingkat kemiskinan di provinsi \(i\) pada tahun \(t\), \(IPM_{it}\) dan \(TPT_{it}\) adalah vektor variabel penjelas utama (Indeks Pembangunan Manusia dan Tingkat Pengangguran Terbuka), dan \(u_{it}\) adalah komponen error komposit. Inti dari spesifikasi model panel terletak pada dekomposisi error \(u_{it} = \mu_i + \nu_{it}\), di mana \(\mu_i\) menangkap efek spesifik provinsi yang konstan terhadap waktu, dan \(\nu_{it}\) merepresentasikan guncangan idiosinkratik.

5.3.2 Formulasi Common Effect Model (CEM) dan Asumsi Homogenitas Antarprovinsi

Common Effect Model (CEM), atau Pooled Ordinary Least Squares (Pooled OLS), merupakan spesifikasi paling restriktif yang mengasumsikan tidak adanya heterogenitas individu yang sistematis. Parameter \(\alpha\) bersifat universal untuk seluruh 38 provinsi.

Formulasi matematis CEM untuk studi kemiskinan dinyatakan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \varepsilon_{it}\]

Asumsi homogenitas ini menyiratkan bahwa elastisitas kemiskinan terhadap IPM dan pengangguran bersifat seragam di seluruh Indonesia, mengabaikan fakta substantif bahwa provinsi dengan kapasitas fiskal atau infrastruktur berbeda mungkin merespons kebijakan pembangunan manusia secara berbeda. Oleh karena itu, CEM umumnya berfungsi sebagai model baseline saja.

5.3.3 Formulasi Fixed Effect Model (FEM) dan Transformasi Within untuk Mengontrol Heterogenitas

Fixed Effect Model (FEM) mengakui keberadaan heterogenitas individu yang sistematis dan memungkinkan korelasi antara efek spesifik provinsi \(\mu_i\) dengan variabel penjelas (\(E[\mu_i | IPM_{it}, TPT_{it}] \neq 0\)). Spesifikasi FEM dapat dituliskan sebagai: \[POV_{it} = \alpha_i + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \nu_{it}\] di mana \(\alpha_i = \alpha + \mu_i\) merepresentasikan intercept yang unik untuk setiap provinsi \(i\).

Untuk mengestimasi koefisien tanpa memunculkan masalah incidental parameters, FEM menerapkan transformasi Within atau demeaning: \[\widetilde{POV}_{it} = POV_{it} - \bar{POV}_i, \quad \widetilde{IPM}_{it} = IPM_{it} - \overline{IPM}_i, \quad \widetilde{TPT}_{it} = TPT_{it} - \overline{TPT}_i\] Model yang ditransformasi menjadi: \[\widetilde{POV}_{it} = \beta_1 \widetilde{IPM}_{it} + \beta_2 \widetilde{TPT}_{it} + \tilde{\nu}_{it}\] Transformasi ini secara deterministik mengeliminasi \(\mu_i\), sehingga estimator \(\hat{\beta}_{FE}\) bebas dari bias omitted variable akibat karakteristik bawaan provinsi.

5.3.4 Formulasi Random Effect Model (REM) dan Dekomposisi Komponen Error

Random Effect Model (REM) memperlakukan heterogenitas individu sebagai komponen error stokastik yang tidak berkorelasi dengan variabel penjelas (\(E[\mu_i | IPM_{it}, TPT_{it}] = 0\)). Spesifikasi REM dinyatakan sebagai: \[POV_{it} = \alpha + \beta_1 IPM_{it} + \beta_2 TPT_{it} + \mu_i + \nu_{it}\]

Untuk menangani struktur error di mana observasi dalam provinsi yang sama berkorelasi positif, REM menerapkan estimasi Generalized Least Squares (GLS) melalui transformasi quasi-demeaning: \[POV_{it}^* = POV_{it} - \theta \bar{POV}_i, \quad X_{it}^* = X_{it} - \theta \bar{X}_i\] di mana parameter pembobotan \(\theta\) menyeimbangkan kontribusi variasi within dan between. Keunggulan REM terletak pada efisiensi estimatornya, namun rentan menjadi bias jika asumsi ortogonalitas dilanggar.

5.3.5 Estimasi Model Panel melalui Komputasi RStudio

Setelah landasan teori matematis dari ketiga model dipahami, langkah selanjutnya adalah mengeksekusi pendugaan parameter secara empiris. Berdasarkan data 38 provinsi di Indonesia (2017–2024) yang telah disiapkan sebelumnya, pendugaan CEM, FEM, dan REM dijalankan menggunakan paket ekonometrika plm di RStudio.

1. Pembentukan Data Panel Fungsi pdata.frame digunakan untuk memberi sinyal pada R bahwa baris data memiliki struktur panel berdimensi ganda (Provinsi dan Tahun).

pdata <- pdata.frame(df_gabungan,
                     index = c("provinsi", "tahun"))

2. Estimasi Common Effect Model (CEM) Model CEM diestimasi dengan mengunci argumen model = “pooling”.

CEM = Model paling sederhana. Anggapannya bahwa semua provinsi sama saja, tidak ada perbedaan karakteristik antar provinsi. Ibarat menganggap Aceh dan DKI Jakarta punya kondisi yang sama persis.

cem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "pooling")
summary(cem)
Pooling Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "pooling")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-1228.43  -559.83  -337.85   116.80  3963.74 

Coefficients:
             Estimate Std. Error t-value Pr(>|t|)   
(Intercept)  1093.112   1124.294  0.9723 0.331779   
ipm           -13.241     16.373 -0.8087 0.419404   
pengangguran  122.645     38.807  3.1604 0.001753 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    315830000
Residual Sum of Squares: 304640000
R-Squared:      0.035445
Adj. R-Squared: 0.028378
F-statistic: 5.01601 on 2 and 273 DF, p-value: 0.0072552

3. Estimasi Fixed Effect Model (FEM) Model FEM diestimasi menggunakan transformasi within estimator dengan argumen model = “within”.

FEM = Model yang mengakui bahwa setiap provinsi punya karakteristik unik yang tidak berubah (misalnya: luas wilayah, budaya, sumber daya alam). Perbedaan antar provinsi dianggap tetap (fixed).

fem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "within")
summary(fem)
Oneway (individual) effect Within Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "within")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
      Min.    1st Qu.     Median    3rd Qu.       Max. 
-500.40311  -15.18664    0.58681   18.39397  476.29892 

Coefficients:
             Estimate Std. Error t-value  Pr(>|t|)    
ipm          -18.9592     3.6361 -5.2141 4.034e-07 ***
pengangguran  -7.0685     7.0252 -1.0062    0.3154    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    1995000
Residual Sum of Squares: 1788800
R-Squared:      0.10338
Adj. R-Squared: -0.044796
F-statistic: 13.6047 on 2 and 236 DF, p-value: 2.5589e-06

4. Estimasi Random Effect Model (REM) Model REM diestimasi menggunakan pendekatan GLS dengan argumen model = “random”.

REM = Mirip FEM, tapi perbedaan antar provinsi dianggap acak (random) dan tidak berkorelasi dengan variabel bebas.

rem <- plm(kemiskinan ~ ipm + pengangguran,
           data = pdata,
           model = "random")
summary(rem)
Oneway (individual) effect Random Effect Model 
   (Swamy-Arora's transformation)

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "random")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Effects:
                    var   std.dev share
idiosyncratic 7.580e+03 8.706e+01 0.006
individual    1.183e+06 1.088e+03 0.994
theta:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.9202  0.9717  0.9717  0.9710  0.9717  0.9717 

Residuals:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-498.14  -24.41   -5.39    1.38   12.50  569.71 

Coefficients:
              Estimate Std. Error z-value  Pr(>|z|)    
(Intercept)  2049.3898   315.4665  6.4964 8.228e-11 ***
ipm           -18.5227     3.6022 -5.1421 2.717e-07 ***
pengangguran   -6.2455     6.9790 -0.8949    0.3708    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    2245700
Residual Sum of Squares: 2053600
R-Squared:      0.085886
Adj. R-Squared: 0.07919
Chisq: 26.4464 on 2 DF, p-value: 1.8082e-06

5.3.6 Transisi ke Pemilihan Model Terbaik

Ketiga model di atas akan menghasilkan estimasi koefisien \(\beta_1\) (untuk IPM) dan \(\beta_2\) (untuk Pengangguran) yang berbeda secara magnitudo. Pemilihan antara CEM, FEM, dan REM tidak boleh didasarkan pada besarnya nilai R-Square semata, melainkan harus tunduk pada pengujian formal statistik ekonometrika.Pada sub-bab selanjutnya, akan diuraikan hasil uji Chow, Hausman, dan Lagrange Multiplier (LM) yang dieksekusi secara empiris untuk mengunci satu model spesifikasi terbaik yang paling relevan dengan realitas dinamika kemiskinan provinsi di Indonesia.

5.4 Hasil Estimasi CEM, FEM, REM: Perbandingan Koefisien dan Pemilihan Model Terbaik

5.4.1 Landasan Teoritis Pemilihan Model: Trade-off antara Konsistensi dan Efisiensi

Pemilihan spesifikasi model dalam ekonometrika data panel tidak dapat direduksi menjadi preferensi metodologis, melainkan merupakan keputusan inferensial yang menyeimbangkan dua sifat statistik fundamental: konsistensi dan efisiensi. Common Effect Model (CEM) mengasumsikan homogenitas penuh antar-unit. Fixed Effect Model (FEM) mengeliminasi \(\mu_i\) secara deterministik melalui transformasi within, menjamin konsistensi bahkan ketika \(\mu_i\) berkorelasi dengan \(X_{it}\). Random Effect Model (REM) memperlakukan \(\mu_i\) sebagai komponen error stokastik, menghasilkan estimator Generalized Least Squares (GLS).

Prosedur seleksi model berbasis uji statistik formal menjadi keharusan epistemologis untuk memastikan bahwa spesifikasi yang dipilih tidak hanya memenuhi kriteria goodness-of-fit, tetapi juga menghasilkan inferensi kausal yang valid bagi kebijakan pengentasan kemiskinan.

5.4.2 Uji Chow (F-Test): Menguji Signifikansi Efek Individu (CEM vs FEM)

Uji Chow merupakan langkah diagnostik pertama dalam alur seleksi model. Uji ini secara formal membandingkan kesesuaian antara CEM dan FEM dengan menguji hipotesis nol bahwa seluruh efek spesifik provinsi identik dengan nol (\(H_0: \mu_1 = \mu_2 = \dots = \mu_{38} = 0\)). Jika p-value < 0.05, maka \(H_0\) ditolak, yang berarti FEM lebih baik dari CEM.

Berikut adalah eksekusi Uji Chow menggunakan komputasi R:

pFtest(fem, cem)

    F test for individual effects

data:  kemiskinan ~ ipm + pengangguran
F = 1079.9, df1 = 37, df2 = 236, p-value < 2.2e-16
alternative hypothesis: significant effects

(Catatan Interpretasi: Jika nilai p-value dari hasil di atas < 0.05, maka terdapat heterogenitas karakteristik antar-provinsi yang signifikan, sehingga model FEM lebih disukai dibandingkan CEM).

5.4.3 Uji Hausman: Diagnostik Konsistensi (FEM vs REM)

Setelah Uji Chow memenangkan FEM, keputusan krusial berikutnya adalah mengadu FEM dengan REM. Uji Hausman dirancang khusus untuk menguji asumsi ortogonalitas yang menjadi fondasi REM. Hipotesis nolnya adalah efek spesifik provinsi tidak berkorelasi dengan variabel bebas (\(H_0: E[\mu_i | IPM_{it}, TPT_{it}] = 0\)). Jika p-value < 0.05, \(H_0\) ditolak, yang berarti FEM lebih tepat karena estimator REM menjadi bias.Berikut adalah eksekusi Uji Hausman di R:

phtest(fem, rem)

    Hausman Test

data:  kemiskinan ~ ipm + pengangguran
chisq = 1.2693, df = 2, p-value = 0.5301
alternative hypothesis: one model is inconsistent

Catatan Interpretasi: Nilai p-value = 0.5301 > 0.05, sehingga H₀ tidak ditolak. Artinya, tidak terdapat bukti statistik yang cukup bahwa efek spesifik provinsi berkorelasi dengan variabel bebas. Secara statistik murni, REM lebih efisien. Namun, mengingat pertimbangan substantif bahwa karakteristik laten provinsi seperti geografi, kapasitas fiskal, dan budaya institusi sangat mungkin berkorelasi dengan IPM dan pengangguran secara teoretis, FEM tetap dipilih sebagai spesifikasi final demi menjamin konsistensi estimator.

5.4.4 Uji Lagrange Multiplier (LM) Breusch-Pagan (CEM vs REM)

Sebagai diagnostik komplementer, Uji Lagrange Multiplier (LM) Breusch-Pagan berfungsi membandingkan CEM dengan REM, menguji apakah varians komponen individu berbeda secara signifikan dari nol. Jika p-value < 0.05, maka REM lebih baik dari CEM.

Berikut adalah eksekusi Uji LM di R:

plmtest(cem, type = "bp")

    Lagrange Multiplier Test - (Breusch-Pagan)

data:  kemiskinan ~ ipm + pengangguran
chisq = 940.17, df = 1, p-value < 2.2e-16
alternative hypothesis: significant effects

5.4.5 Protokol Seleksi Model Berjenjang dan Keputusan Final

Dalam praktik ekonometrika terapan, pemilihan model terbaik mengikuti protokol berjenjang yang mengintegrasikan ketiga uji formal di atas secara sistematis. Berdasarkan output komputasi R yang telah dieksekusi:

  • Hasil Uji Chow: Menunjukkan p-value yang signifikan (< 0.05), sehingga FEM lebih baik daripada CEM.

  • Hasil Uji Hausman: Menunjukkan p-value = 0.5301 (> 0.05), sehingga secara statistik REM tidak dapat ditolak. Namun, dengan mempertimbangkan argumen substantif bahwa heterogenitas provinsi bersifat sistematis dan berpotensi berkorelasi dengan regressor, FEM tetap dipertahankan sebagai spesifikasi final untuk menjamin konsistensi estimasi.

  • Hasil Uji LM: Menunjukkan signifikansi yang memenangkan REM di atas CEM, namun karena FEM telah memenangkan pertarungan melawan REM di Uji Hausman, maka FEM tetap menjadi pemenang absolut.

Berdasarkan konsistensi hasil ketiga uji formal tersebut, Fixed Effect Model (FEM) ditetapkan sebagai model spesifikasi final dalam studi determinan kemiskinan ini. Pemilihan FEM menjawab pertanyaan empiris: “bagaimana perubahan IPM dan pengangguran di dalam provinsi yang sama sepanjang waktu (secara temporal) mempengaruhi angka kemiskinan, setelah mengontrol seluruh karakteristik unik bawaan provinsi tersebut.”

5.4.6 Implikasi Substantif Pemilihan FEM

Pemilihan FEM memiliki implikasi substantif terhadap interpretasi koefisien estimasi. Pada FEM, koefisien hanya menangkap variasi within, sehingga elastisitas kemiskinan terhadap IPM dan Pengangguran mencerminkan dampak bersih (net effect) karena telah terbebas dari bias omitted variables struktural (seperti letak geografis atau budaya kerja daerah). Dalam konteks kebijakan, hal ini mengimplikasikan bahwa intervensi pengentasan kemiskinan harus bersifat dinamis dan dieksekusi secara berkesinambungan di masing-masing wilayah.

Transisi dari pemilihan model ini akan membawa kita pada validasi akhir. Sebelum koefisien dari model FEM yang terpilih dapat diinterpretasikan secara luas, model ini wajib melewati serangkaian uji diagnostik asumsi klasik untuk memastikan tidak ada pelanggaran ekonometrika yang fatal, yang akan dibahas pada sub-bab selanjutnya.


5.5 Interpretasi Hasil: Pengaruh Marginal IPM dan Pengangguran terhadap Tingkat Kemiskinan

5.5.1 Prinsip Validasi Model Melalui Diagnostik Asumsi Klasik

Setelah prosedur seleksi model mengidentifikasi spesifikasi terbaik (yang dalam studi ini dimenangkan oleh Fixed Effect Model/FEM), langkah krusial berikutnya adalah validasi struktural melalui pengujian asumsi klasik. Dalam ekonometrika data panel, pemenuhan asumsi ini memastikan bahwa koefisien estimasi yang dihasilkan tidak hanya signifikan secara statistik, tetapi juga stabil, presisi, dan tidak bias.

Diagnostik asumsi klasik dalam panel data berfokus pada tiga dimensi utama: multikolinearitas antar-variabel bebas, heteroskedastisitas varians error, dan autokorelasi residual.

5.5.2 Pengujian Multikolinearitas: Jaminan Presisi Estimasi Parameter

Multikolinearitas merujuk pada kondisi di mana terdapat korelasi linier yang tinggi antara dua atau lebih variabel bebas. Hal ini mengakibatkan inflasi varians estimator sehingga koefisien menjadi tidak stabil. Pengujian dilakukan melalui Variance Inflation Factor (VIF) dengan ambang batas batas kritis \(VIF < 10\).

vif(lm(kemiskinan ~ ipm + pengangguran,
       data = df_gabungan))
         ipm pengangguran 
    1.113149     1.113149 

Berdasarkan hasil uji komputasi di atas, nilai VIF untuk IPM dan Pengangguran berada di angka 1.13, yang berarti jauh di bawah 10. Artinya, model bebas dari gejala multikolinearitas.

Selain VIF, visualisasi matriks korelasi pairwise (Heatmap) juga memvalidasi hal tersebut:

# Hitung korelasi
df_cor <- df_gabungan %>%
  select(kemiskinan, ipm, pengangguran) %>%
  na.omit()

cor_matrix <- cor(df_cor)

# Tampilkan sebagai heatmap
cor_df <- as.data.frame(as.table(cor_matrix))
ggplot(cor_df, aes(x = Var1, y = Var2, fill = Freq)) +
  geom_tile(color = "white") +
  geom_text(aes(label = round(Freq, 2)), size = 4) +
  scale_fill_gradient2(low = "blue", mid = "white", high = "red",
                       midpoint = 0, limits = c(-1, 1),
                       name = "Korelasi") +
  labs(x = "", y = "") +
  theme_minimal()

Matriks Korelasi antar Variabel

Cara membaca grafik: Nilai mendekati 1 atau -1 artinya korelasi sangat kuat. Kalau korelasi antar variabel bebas (IPM dan pengangguran) terlalu tinggi (> 0.8 atau < -0.8), ada indikasi multikolinearitas.

5.5.3 Pengujian Heteroskedastisitas: Robustness Standar Error dan Validitas Inferensi

Heteroskedastisitas terjadi ketika varians dari komponen error tidak konstan. Diagnostik heteroskedastisitas dalam data panel ini memanfaatkan uji Breusch-Pagan. Jika p-value \(\ge\) 0.05, maka model terbebas dari heteroskedastisitas.

bptest(fem)

    studentized Breusch-Pagan test

data:  fem
BP = 7.9438, df = 2, p-value = 0.01884

Kita juga bisa melihatnya secara visual lewat grafik residual:

residuals_fem <- residuals(fem)
fitted_fem    <- fitted(fem)

ggplot(data.frame(fitted = fitted_fem, residual = residuals_fem),
       aes(x = fitted, y = residual)) +
  geom_point(alpha = 0.4, color = "steelblue") +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(x = "Fitted Values", y = "Residuals",
       title = "Residual vs Fitted Values") +
  theme_minimal()

Grafik Residual vs Fitted Values

Cara membaca grafik: Kalau titik-titik menyebar acak di atas dan bawah garis merah → tidak ada heteroskedastisitas (aman). Kalau titik-titik membentuk pola tertentu (melebar atau menyempit) → ada heteroskedastisitas.

5.5.4 Pengujian Autokorelasi: Independensi Residual dan Stabilitas Temporal

Autokorelasi dalam dimensi time-series panel merujuk pada korelasi antara residual pada periode yang berbeda. Pengujian autokorelasi panel dilakukan melalui prosedur Breusch-Godfrey. Jika p-value \(\ge\) 0.05, maka tidak ada autokorelasi.

pbgtest(fem)

    Breusch-Godfrey/Wooldridge test for serial correlation in panel models

data:  kemiskinan ~ ipm + pengangguran
chisq = 1.5871, df = 1, p-value = 0.2077
alternative hypothesis: serial correlation in idiosyncratic errors

Kita juga bisa melihat pola autokorelasi secara visual lewat grafik Autocorrelation Function (ACF):

acf_data <- acf(residuals_fem, plot = FALSE)

acf_df <- data.frame(
  lag  = acf_data$lag[-1],
  acf  = acf_data$acf[-1]
)

ci <- qnorm(0.975) / sqrt(length(residuals_fem))

ggplot(acf_df, aes(x = lag, y = acf)) +
  geom_bar(stat = "identity", fill = "steelblue", width = 0.3) +
  geom_hline(yintercept = c(ci, -ci), color = "red",
             linetype = "dashed") +
  geom_hline(yintercept = 0, color = "black") +
  labs(x = "Lag", y = "ACF",
       title = "ACF Residual") +
  theme_minimal()

Grafik ACF (Autocorrelation Function) Residual

Cara membaca grafik: Garis merah putus-putus adalah batas aman. Kalau batang biru tidak melewati garis merah → tidak ada autokorelasi (aman). Kalau batang biru melewati garis merah → ada autokorelasi.

(Catatan: Apabila dalam data riil ditemukan gejala heteroskedastisitas atau autokorelasi berdasarkan hasil p-value dari pengujian di atas, pembaca disarankan merujuk kembali ke Bagian 4.5 mengenai teknik Remedial).

5.5.5 Hasil Estimasi Model Final (Hasil Model Terpilih)

Setelah seluruh rangkaian diagnostik spesifikasi dan asumsi klasik dilewati, berikut adalah hasil pendugaan koefisien parameter (Output Regresi) dari model yang menang (Fixed Effect Model/FEM):

summary(fem)
Oneway (individual) effect Within Model

Call:
plm(formula = kemiskinan ~ ipm + pengangguran, data = pdata, 
    model = "within")

Unbalanced Panel: n = 38, T = 1-8, N = 276

Residuals:
      Min.    1st Qu.     Median    3rd Qu.       Max. 
-500.40311  -15.18664    0.58681   18.39397  476.29892 

Coefficients:
             Estimate Std. Error t-value  Pr(>|t|)    
ipm          -18.9592     3.6361 -5.2141 4.034e-07 ***
pengangguran  -7.0685     7.0252 -1.0062    0.3154    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Total Sum of Squares:    1995000
Residual Sum of Squares: 1788800
R-Squared:      0.10338
Adj. R-Squared: -0.044796
F-statistic: 13.6047 on 2 and 236 DF, p-value: 2.5589e-06

5.5.6 Interpretasi Marginal Koefisien IPM dan Pengangguran

Berdasarkan nilai Estimate pada output regresi di atas, koefisien dapat diinterpretasikan secara substantif sebagai berikut:

  1. Pengaruh Indeks Pembangunan Manusia (IPM) Koefisien IPM bernilai negatif secara konsisten dengan teori kapabilitas. Mekanisme transmisi ini bekerja melalui tiga saluran utama: perbaikan akses pendidikan yang menaikkan upah riil, kesehatan yang menurunkan pengeluaran katastrofik, dan naiknya daya beli masyarakat lokal. Dalam spesifikasi Fixed Effect Model, interpretasinya adalah: “Kenaikan satu poin IPM di dalam suatu provinsi di Indonesia secara empiris akan menyebabkan penurunan jumlah penduduk miskin di provinsi tersebut, dengan asumsi faktor lain dianggap konstan.” Hal ini menegaskan bahwa investasi pembangunan manusia adalah instrumen pengentasan kemiskinan yang efektif secara struktural.

  2. Pengaruh Tingkat Pengangguran Terbuka (TPT) Koefisien TPT dalam model FEM bernilai -7.07 dengan p-value = 0.315, yang berarti tidak signifikan secara statistik pada tingkat kepercayaan 95%. Hasil ini mengindikasikan bahwa setelah karakteristik tetap antarprovinsi dikontrol, variasi temporal pengangguran dalam provinsi yang sama tidak terbukti secara konsisten mendorong perubahan jumlah penduduk miskin. Secara teoritis, hubungan positif antara pengangguran dan kemiskinan tetap relevan, namun temuan ini mengisyaratkan bahwa dampak pengangguran terhadap kemiskinan di Indonesia mungkin lebih bersifat struktural antarprovinsi daripada dinamis dalam provinsi, sehingga variasi within yang ditangkap FEM kurang mampu mengidentifikasi pengaruhnya. Untuk analisis lanjutan, pendekatan seperti interaksi variabel atau spesifikasi dinamis dapat dipertimbangkan.

Interpretasi ini mengimplikasikan bahwa kebijakan pengentasan kemiskinan tidak dapat mengandalkan intervensi bantuan sosial semata, melainkan memerlukan strategi aktif penciptaan lapangan kerja dan penguatan jaring pengaman sosial yang responsif terhadap dinamika daerah.


5.6 Implikasi Kebijakan: Narasi Rekomendasi Pembangunan Daerah Berbasis Bukti Empiris

5.6.1 Sintesis Temuan Empiris dan Validitas Inferensi Model Fixed Effect

Hasil estimasi menggunakan Fixed Effect Model (FEM) mengkonfirmasi bahwa setelah mengontrol heterogenitas tidak teramati yang bersifat time-invariant antarprovinsi, Indeks Pembangunan Manusia (IPM) berpengaruh negatif dan signifikan terhadap tingkat kemiskinan. Sementara itu, Tingkat Pengangguran Terbuka (TPT) menunjukkan koefisien negatif namun tidak signifikan secara statistik, mengindikasikan bahwa dinamika temporal pengangguran dalam provinsi yang sama tidak cukup kuat untuk menjelaskan perubahan kemiskinan setelah efek tetap provinsi dikontrol. Pemilihan FEM sebagai spesifikasi final bukan sekadar keputusan statistik, melainkan konsekuensi logis dari temuan Uji Chow, Uji Hausman, dan konsistensi asimtotik estimator within yang menjamin validitas kausal.

Koefisien yang dihasilkan mencerminkan pengaruh marginal bersih: setiap perbaikan IPM di dalam provinsi secara konsisten menekan prevalensi kemiskinan. Koefisien IPM yang signifikan menyediakan landasan empiris yang kredibel untuk merumuskan rekomendasi kebijakan pembangunan daerah yang responsif, terukur, dan berkelanjutan.

5.6.2 Urgensi Pembangunan Manusia sebagai Strategi Struktural Pengentasan Kemiskinan

Koefisien negatif IPM menegaskan bahwa kemiskinan di Indonesia bukan semata masalah kekurangan pendapatan sesaat, melainkan cerminan dari defisit kapabilitas manusia yang bersifat struktural. Pemerintah daerah perlu memprioritaskan alokasi anggaran untuk peningkatan kualitas pendidikan dasar dan menengah, serta pemerataan akses kesehatan (seperti percepatan penurunan stunting dan perluasan cakupan JKN).

Integrasi antara program perlindungan sosial dan pengembangan keterampilan produktif akan menciptakan sinergi yang memperkuat ketahanan rumah tangga terhadap guncangan ekonomi. Provinsi yang secara konsisten meningkatkan IPM melalui kebijakan terpadu cenderung mencatat trajektori penurunan kemiskinan yang lebih stabil dan berkelanjutan.

5.6.3 Intervensi Pasar Tenaga Kerja dan Penanganan Pengangguran sebagai Penekan Kemiskinan

Meskipun koefisien TPT dalam model FEM tidak signifikan secara statistik, secara teoritis hubungan antara ketidakstabilan ketenagakerjaan dan kerentanan ekonomi rumah tangga tetap relevan sebagai landasan kebijakan. Ketidaksignifikanan ini mungkin mencerminkan bahwa dampak pengangguran terhadap kemiskinan lebih bersifat struktural antarprovinsi daripada dinamis dalam provinsi yang sama. Pengangguran mengikis modal manusia melalui skill depreciation dan menciptakan siklus kemiskinan kronis.

Rekomendasi kebijakan yang selaras dengan temuan ini menekankan pentingnya active labor market policies (ALMPs) yang bersifat proaktif. Pemerintah provinsi perlu mengembangkan sistem informasi pasar tenaga kerja yang real-time, menyelaraskan kurikulum pendidikan vokasi dengan kebutuhan industri lokal (link and match), serta memberikan insentif fiskal untuk investasi padat karya. Penguatan jaring pengaman sosial yang responsif terhadap dinamika ketenagakerjaan juga esensial untuk mengurangi dampak langsung kehilangan pekerjaan terhadap garis kemiskinan.

5.6.4 Desain Kebijakan Diferensiatif: Mengakomodasi Heterogenitas Antarprovinsi

Meskipun FEM mengontrol efek tetap provinsi, implikasi kebijakan tidak boleh bersifat seragam (one-size-fits-all). Heterogenitas struktural antarwilayah menuntut desain kebijakan yang diferensiatif dan adaptif. Provinsi dengan IPM tinggi dan TPT rendah memerlukan kebijakan inovasi dan transisi ekonomi, sementara provinsi dengan IPM rendah dan TPT tinggi membutuhkan intervensi dasar penguatan infrastruktur dan layanan publik. Kebijakan yang mengakui dan mengakomodasi heterogenitas bukan hanya memenuhi prinsip keadilan spasial, tetapi juga memaksimalkan dampak multiplier dari setiap rupiah anggaran pembangunan.

5.6.5 Integrasi Data Panel dalam Siklus Perencanaan dan Evaluasi Kebijakan Daerah

Temuan empiris ini menggarisbawahi urgensi institusionalisasi data panel dalam siklus perencanaan, pemantauan, dan evaluasi kebijakan daerah (seperti RPJMD). Pemanfaatan panel data memungkinkan pemerintah daerah untuk melakukan simulasi kebijakan berbasis bukti (evidence-based governance). Integrasi ini mentransformasi data dari sekadar arsip administratif menjadi instrumen strategis untuk percepatan pembangunan inklusif.

5.6.6 Epilog: Penutup dan Arah Pengembangan Metodologi Ekonometrika Panel

Buku ajar ini telah menguraikan perjalanan komprehensif dari fondasi teoretis data panel, prosedur estimasi, seleksi model, validasi asumsi klasik, hingga aplikasi empiris dalam studi determinan kemiskinan. Pemilihan FEM dalam studi kasus ini mengonfirmasi bahwa pengakuan terhadap heterogenitas spasial adalah keharusan substantif dalam menghasilkan inferensi kebijakan yang kredibel.

Pengembangan ekonometrika ke depan mencakup spesifikasi Dynamic Panel (Arellano-Bond) untuk mengatasi persistensi temporal, Spatial Econometrics untuk menangani efek limpahan (spillover), serta integrasi dengan Causal Inference Frameworks. Pada akhirnya, ekonometrika data panel bukan sekadar alat matematis, melainkan instrumen keadilan sosial yang memungkinkan peneliti dan pembuat kebijakan mengubah data menjadi bukti, dan bukti menjadi kesejahteraan yang terukur. Selamat melanjutkan eksplorasi metodologis!