PETUNJUK
Jelaskan perbedaan utama antara regresi klasik (OLS) dan regresi Bayesian.
Regresi Klasik (OLS)
OLS dapat digunakan saat data besar, asumsi terpenuhi, dan dibutuhkan saat analisis harus cepat. Dalam OLS, parameter π½ merupakan nilai tetap tetapi tidak diketahui (fixed but unknown parameter). Estimasi OLS digunakan dengan cara meminimalkan jumlah kuadrat residu dengan formula berikut: \[ \hat{\beta}_{OLS} = \arg\min_{\beta} \|y - X\beta\|^2 = (X^{\top}X)^{-1}X^{\top}y \] Hasil estimasi ini berupa titik tunggal π½ (point estimate) tanpa mempertimbangkan informasi luar selain data.
Regresi Bayesian
Regresi Bayesian dapat digunakan saat data terbatas, ada prior knowledge, atau butuh probabilitas langsung dari parameter. Dalam Bayesian, parameter π½ diperlakukan sebagai variabel acak (random variable). Estimasi dilakukan menggunakan Teorema Bayes dengan formula berikut: \[ p(\beta \mid y) \propto p(y \mid \beta) \ p(\beta) \] dengan:
Hasil estimasi ini ialah distribusi parameter dan bukan berupa titik tunggal (bisa berupa mean, median, atau modus dari distribusi posterior).
Prior merupakan distribusi awal yang mencerminkan keyakinan tentang parameter sebelum melihat data. Dalam regresi Bayesian, parameter π½ merupakan variabel acak sehingga sebelum melihat data, sudah terdapat keyakinan awal mengenai nilai yang mungkin dimiliki parameter itu. Keyakinan awal inilah yang dinyatakan oleh prior. Peran prior dalam regresi bayesian ialah:
Jenis prior sendiri terdiri dari 4 macam, yaitu informative prior (saat mengandung informasi yang kuat), non-informative prior (saat terjadi minim informasi yang mengakibatkan posterior didominasi oleh data), vague (diffuse) prior (saat prior proper atau terintegrasi 1 tetapi sangat lebar atau varians besar sehingga mendekati non-informative), dan weakly informative prior (saat prior lemat tetapi bermakna untuk regulasi).
Gunakan model: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2). \]
Diberikan 5 observasi:
| x | y |
|---|---|
| 0 | 1.2 |
| 1 | 2.3 |
| 2 | 2.8 |
| 3 | 4.1 |
| 4 | 5.3 |
Dengan \(n = 5\) maka didapatkan: \[ \bar{x} = \frac{\sum x_i}{n} = \frac{0+1+2+3+4}{5} = 2 \]
\[ \bar{y} = \frac{\sum y_i}{n} = \frac{1,2+2,3+2,8+4,1+5,3}{5} = 3,14 \]
\[ \hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{(0 - 2)(1,2 - 3,14)+...+(4 - 2)(5,3 - 3,14)}{(0 - 2)^2+...+(4 - 2)^2} = \frac{10}{10} = 1 \]
atau jika menggunakan R dapat dilihat sebagai berikut:
# Data kecil untuk hitung OLS
x <- c(0,1,2,3,4)
y <- c(1.2,2.3,2.8,4.1,5.3)
coef(lm(y ~ x))
## (Intercept) x
## 1.14 1.00
Terlihat bahwa nilai estimasi \(\hat{\beta}_1\) didapatkan sebesar 1. Artinya setiap kenaikan variabel x sebesar 1 unit maka terjadi penambahan sebesar 1 unit terhadap variabel y. Adapun model regresi yang didapatkan ialah sebagai berikut: \[ \hat{y} = 1.14 + x \]
Bentuk prior dari \(\beta_1\) berdistribusi normal dengan rata-rata 0 dan varians 100 (\(\sigma = 10\)). Artinya diketahui keyakinan awal ialah slope cenderung mendekati 0 (\(\mu = 0\)) dan prior cukup lebar (\(\sigma^2 = 10^2 = 100\)). Dengan kata lain, prior cenderung lemah dan data yang akan lebih menentukan posterior. Oleh karena itu, jenis prior yang sesuai ialah Weakly Informative Prior.
Dengan model pada Soal 2, misalkan prior:
Bentuk prior dari \(\beta_1\) berdistribusi normal dengan rata-rata 2 dan varians 0,25 (\(\sigma = 0,5\)). Artinya diketahui keyakinan awal ialah slope cenderung mendekati 2 (\(\mu = 2\)) dan prior cukup sempit (\(\sigma^2 = 0,5^2 = 0,25\)) yang mengakibatkan prior kuat. Oleh karena itu, jenis prior yang sesuai ialah Informative Prior. Selain itu, dapat disimpulkan juga bahwa keyakinan awal ialah nilai \(\beta_1\) berada di sekitar 2 dengan prior akan βmenarikβ nilai posterior ke sekitar 2 jika data tidak terlalu meyakinkan (semakin kecil varians maka pengaruh prior akan semakin kuat). Artinya setiap kenaikan variabel x sebesar 1 unit maka terjadi penambahan sekitar 2 unit terhadap variabel y.
Sebutkan satu kelebihan dan satu kelemahan regresi Bayesian dibanding OLS. Berikan alasan singkat.
Kelebihan:
Bukan hanya titik estimasi, tapi dapat memberikan distribusi penuh (posterior) atas parameter. Regresi Bayesian akan memberikan informasi lebih mendetail dibandingkan OLS. Di saat OLS hanya dapat memberikan informasi menenaik nilai estimasi, regresi bayesian dapat memberikan informasi menenai besaran probabilitas mengenai parameternya.
Kekurangan:
Komputasi lebih kompleks dan sensitif terhadap prior. Dikarenakan model yang besar ataupun data yang digunakan terlalu banyak maka akan dibutuhkan algoritma sampling dengan komputasi yang mahal. Selain itu, dari sisi prior pun jika pemilihan awal prior salah maka hasil akan menjadi bias.