Jelaskan perbedaan utama antara regresi klasik
(OLS) dan regresi Bayesian.
Sertakan: 1) Cara estimasi parameter pada masing-masing pendekatan,
dan
2) Peran prior dalam regresi
Bayesian.
Ruang jawaban:
Pada regresi klasik OLS, parameter regresi (\(\beta\)) dianggap tetap tetapi tidak diketahui dan nilai parameter dicari dengan cara meminimalkan jumlah kuadrat selisih (residual) antara data aktual dengan prediksi model.
Secara matematis:
\[ \hat{\beta} = (X^{T}X)^{-1}X^{T}y \]
Hasil dari OLS adalah satu angka estimasi untuk setiap parameter, beserta ukuran ketidakpastiannya (misalnya standard error atau interval kepercayaan).
Dalam regresi Bayesian, parameter (\(\beta\)) dianggap sebagai variabel acak yang memiliki distribusi probabilitas. Sebelum melihat data, kita menentukan prior \(p(\beta)\), yaitu dugaan awal mengenai nilai parameter.
Setelah data diamati, informasi dari data digabungkan dengan prior menggunakan Teorema Bayes untuk mendapatkan posterior:
\[ p(\beta \mid y) \propto p(y \mid \beta) \, p(\beta) \]
Jadi, Bayesian tidak hanya memberikan satu angka, tapi sebuah distribusi yang menunjukkan semua kemungkinan nilai parameter beserta seberapa besar peluangnya. Dari distribusi ini, dapat diambil ringkasan, misalnya rata-rata posterior, median, atau interval kredibel (semacam “confidence interval versi Bayesian”).
Gunakan model: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2). \]
Diberikan 5 observasi:
x | y |
---|---|
0 | 1.2 |
1 | 2.3 |
2 | 2.8 |
3 | 4.1 |
4 | 5.3 |
Ruang jawaban:
Model regresi sederhana: \[ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i,\quad \varepsilon_i \sim N(0,\sigma^2). \]
Estimator OLS untuk slope: \[ \hat\beta_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}. \]
Langkah perhitungan manual:
\[ \bar{x} = \frac{0+1+2+3+4}{5} = \frac{10}{5} = 2. \]
\[ \bar{y} = \frac{1.2 + 2.3 + 2.8 + 4.1 + 5.3}{5} = \frac{15.7}{5} = 3.14. \]
Untuk \(i=1\) (x = 0, y =
1.2):
\(x_1 - \bar{x} = 0 - 2 = -2.\)
\(y_1 - \bar{y} = 1.2 - 3.14 =
-1.94.\)
\((x_1-\bar{x})(y_1-\bar{y}) =
(-2)\times(-1.94) = 3.88.\)
\((x_1-\bar{x})^2 = (-2)^2 =
4.\)
Untuk \(i=2\) (x = 1, y =
2.3):
\(x_2 - \bar{x} = 1 - 2 = -1.\)
\(y_2 - \bar{y} = 2.3 - 3.14 =
-0.84.\)
\((x_2-\bar{x})(y_2-\bar{y}) =
(-1)\times(-0.84) = 0.84.\)
\((x_2-\bar{x})^2 = (-1)^2 =
1.\)
Untuk \(i=3\) (x = 2, y =
2.8):
\(x_3 - \bar{x} = 2 - 2 = 0.\)
\(y_3 - \bar{y} = 2.8 - 3.14 =
-0.34.\)
\((x_3-\bar{x})(y_3-\bar{y}) = 0\times(-0.34)
= 0.00.\)
\((x_3-\bar{x})^2 = 0^2 = 0.\)
Untuk \(i=4\) (x = 3, y =
4.1):
\(x_4 - \bar{x} = 3 - 2 = 1.\)
\(y_4 - \bar{y} = 4.1 - 3.14 =
0.96.\)
\((x_4-\bar{x})(y_4-\bar{y}) = 1\times0.96 =
0.96.\)
\((x_4-\bar{x})^2 = 1^2 = 1.\)
Untuk \(i=5\) (x = 4, y =
5.3):
\(x_5 - \bar{x} = 4 - 2 = 2.\)
\(y_5 - \bar{y} = 5.3 - 3.14 =
2.16.\)
\((x_5-\bar{x})(y_5-\bar{y}) = 2\times2.16 =
4.32.\)
\((x_5-\bar{x})^2 = 2^2 = 4.\)
\[ \sum (x_i-\bar{x})(y_i-\bar{y}) = 3.88 + 0.84 + 0 + 0.96 + 4.32 = 10.00. \]
\[ \sum (x_i-\bar{x})^2 = 4 + 1 + 0 + 1 + 4 = 10. \]
\[ \hat\beta_1 = \frac{10.00}{10} = 1.00. \]
Intercept:
\[ \hat\beta_0 = \bar{y} - \hat\beta_1 \bar{x} = 3.14 - 1.00\times 2 = 1.14. \]
Jadi estimasi OLS: \(\boxed{\hat\beta_1 = 1.00}\) dan \(\boxed{\hat\beta_0 = 1.14}.\)
Ruang perhitungan (opsional):
# Data kecil untuk hitung OLS
x <- c(0,1,2,3,4)
y <- c(1.2,2.3,2.8,4.1,5.3)
coef(lm(y ~ x)) # gunakan untuk memeriksa perhitungan manual Anda
## (Intercept) x
## 1.14 1.00
Dengan model pada Soal 2, misalkan prior:
Ruang jawaban:
Dalam regresi Bayesian, posterior diperoleh melalui:
\[ p(\beta \mid y) \propto p(y \mid \beta)\,p(\beta) \]
Jika ukuran sampel sangat kecil:
Sebaliknya, jika ukuran sampel besar:
Sebutkan satu kelebihan dan satu kelemahan regresi Bayesian dibanding OLS. Berikan alasan singkat.
Ruang jawaban:
Salah satu kelebihan utama dari regresi Bayesian adalah kemampuannya memasukkan informasi awal melalui prior. Hal ini sangat berguna dalam beberapa kondisi, misalnya:
Dengan demikian, Bayesian lebih fleksibel, terutama ketika data terbatas atau pengetahuan awal sangat relevan.
Salah satu kelemahan utama dari regresi Bayesian adalah sensitivitas terhadap pemilihan prior dan kebutuhan komputasi yang lebih besar.