Petunjuk


Soal 1 — Perbandingan Pendekatan

Jelaskan perbedaan utama antara regresi klasik (OLS) dan regresi Bayesian. Sertakan: 1) Cara estimasi parameter pada masing-masing pendekatan, dan
2) Peran prior dalam regresi Bayesian.

Ruang jawaban:

a. Pendekatan OLS (Ordinary Least Squares)

Pada regresi klasik OLS, parameter regresi (\(\beta\)) dianggap tetap tetapi tidak diketahui dan nilai parameter dicari dengan cara meminimalkan jumlah kuadrat selisih (residual) antara data aktual dengan prediksi model.

Secara matematis:

\[ \hat{\beta} = (X^{T}X)^{-1}X^{T}y \]

Hasil dari OLS adalah satu angka estimasi untuk setiap parameter, beserta ukuran ketidakpastiannya (misalnya standard error atau interval kepercayaan).

b. Pendekatan Bayesian

Dalam regresi Bayesian, parameter (\(\beta\)) dianggap sebagai variabel acak yang memiliki distribusi probabilitas. Sebelum melihat data, kita menentukan prior \(p(\beta)\), yaitu dugaan awal mengenai nilai parameter.

Setelah data diamati, informasi dari data digabungkan dengan prior menggunakan Teorema Bayes untuk mendapatkan posterior:

\[ p(\beta \mid y) \propto p(y \mid \beta) \, p(\beta) \]

  • \(p(y \mid \beta)\): likelihood (informasi dari data)
  • \(p(\beta)\): prior (informasi awal)
  • \(p(\beta \mid y)\): posterior (informasi akhir setelah melihat data)

Jadi, Bayesian tidak hanya memberikan satu angka, tapi sebuah distribusi yang menunjukkan semua kemungkinan nilai parameter beserta seberapa besar peluangnya. Dari distribusi ini, dapat diambil ringkasan, misalnya rata-rata posterior, median, atau interval kredibel (semacam “confidence interval versi Bayesian”).

c. Peran Prior dalam Regresi Bayesian

  • Prior berfungsi sebagai “pengetahuan awal” atau “keyakinan awal” sebelum data diamati.
  • Jika prior informatif (varians kecil), maka hasil posterior akan cenderung mendekati nilai prior, terutama jika jumlah data sedikit.
  • Jika prior lemah atau vague (varians besar), maka data akan lebih dominan, sehingga hasil Bayesian akan mendekati hasil OLS.
  • Jadi, prior berperan seperti “titik awal” yang kemudian dikoreksi oleh bukti dari data.

d. Perbedaan Inti OLS dan Bayesian

  • OLS: Memberikan satu angka estimasi parameter.
  • Bayesian: Memberikan distribusi penuh dari parameter (posterior).
  • Peran prior: Memengaruhi hasil posterior sesuai dengan tingkat keyakinan awal.

e. Kesimpulan

  • OLS fokus pada mencari estimasi terbaik berdasarkan data saja.
  • Bayesian menggabungkan pengetahuan awal (prior) dengan data untuk membentuk keyakinan baru (posterior), sehingga hasilnya lebih fleksibel dan mencerminkan ketidakpastian secara menyeluruh.

Soal 2 — OLS Slope dan Interpretasi Prior

Gunakan model: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2). \]

Diberikan 5 observasi:

x y
0 1.2
1 2.3
2 2.8
3 4.1
4 5.3
  1. Hitung estimasi \(\hat{\beta}_1\) menggunakan OLS.
  2. Jika prior \(\beta_1 \sim N(0, 10^2)\), jelaskan interpretasi prior ini.

Ruang jawaban:

a. Perhitungan Estimasi \(\hat\beta_1\)

Model regresi sederhana: \[ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i,\quad \varepsilon_i \sim N(0,\sigma^2). \]

Estimator OLS untuk slope: \[ \hat\beta_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}. \]

Langkah perhitungan manual:

  1. Hitung rata-rata \(x\) dan \(y\):

\[ \bar{x} = \frac{0+1+2+3+4}{5} = \frac{10}{5} = 2. \]

\[ \bar{y} = \frac{1.2 + 2.3 + 2.8 + 4.1 + 5.3}{5} = \frac{15.7}{5} = 3.14. \]

  1. Hitung setiap komponen \((x_i-\bar{x})(y_i-\bar{y})\) dan \((x_i-\bar{x})^2\):
  • Untuk \(i=1\) (x = 0, y = 1.2):
    \(x_1 - \bar{x} = 0 - 2 = -2.\)
    \(y_1 - \bar{y} = 1.2 - 3.14 = -1.94.\)
    \((x_1-\bar{x})(y_1-\bar{y}) = (-2)\times(-1.94) = 3.88.\)
    \((x_1-\bar{x})^2 = (-2)^2 = 4.\)

  • Untuk \(i=2\) (x = 1, y = 2.3):
    \(x_2 - \bar{x} = 1 - 2 = -1.\)
    \(y_2 - \bar{y} = 2.3 - 3.14 = -0.84.\)
    \((x_2-\bar{x})(y_2-\bar{y}) = (-1)\times(-0.84) = 0.84.\)
    \((x_2-\bar{x})^2 = (-1)^2 = 1.\)

  • Untuk \(i=3\) (x = 2, y = 2.8):
    \(x_3 - \bar{x} = 2 - 2 = 0.\)
    \(y_3 - \bar{y} = 2.8 - 3.14 = -0.34.\)
    \((x_3-\bar{x})(y_3-\bar{y}) = 0\times(-0.34) = 0.00.\)
    \((x_3-\bar{x})^2 = 0^2 = 0.\)

  • Untuk \(i=4\) (x = 3, y = 4.1):
    \(x_4 - \bar{x} = 3 - 2 = 1.\)
    \(y_4 - \bar{y} = 4.1 - 3.14 = 0.96.\)
    \((x_4-\bar{x})(y_4-\bar{y}) = 1\times0.96 = 0.96.\)
    \((x_4-\bar{x})^2 = 1^2 = 1.\)

  • Untuk \(i=5\) (x = 4, y = 5.3):
    \(x_5 - \bar{x} = 4 - 2 = 2.\)
    \(y_5 - \bar{y} = 5.3 - 3.14 = 2.16.\)
    \((x_5-\bar{x})(y_5-\bar{y}) = 2\times2.16 = 4.32.\)
    \((x_5-\bar{x})^2 = 2^2 = 4.\)

  1. Jumlahkan:

\[ \sum (x_i-\bar{x})(y_i-\bar{y}) = 3.88 + 0.84 + 0 + 0.96 + 4.32 = 10.00. \]

\[ \sum (x_i-\bar{x})^2 = 4 + 1 + 0 + 1 + 4 = 10. \]

  1. Maka:

\[ \hat\beta_1 = \frac{10.00}{10} = 1.00. \]

Intercept:

\[ \hat\beta_0 = \bar{y} - \hat\beta_1 \bar{x} = 3.14 - 1.00\times 2 = 1.14. \]

Jadi estimasi OLS: \(\boxed{\hat\beta_1 = 1.00}\) dan \(\boxed{\hat\beta_0 = 1.14}.\)

Ruang perhitungan (opsional):

# Data kecil untuk hitung OLS
x <- c(0,1,2,3,4)
y <- c(1.2,2.3,2.8,4.1,5.3)
coef(lm(y ~ x))  # gunakan untuk memeriksa perhitungan manual Anda
## (Intercept)           x 
##        1.14        1.00

b. Interpretasi Prior \(\beta_1 \sim N(0, 10^2)\).

  • Notasi \(\beta_1 \sim N(0,10^2)\) berarti prior untuk koefisien slope \(\beta_1\) berbentuk distribusi Normal dengan rata-rata = 0 dan varians = 100 (sehingga standar deviasi = 10).
  • Rata-rata = 0 menunjukkan titik tengah keyakinan awal bahwa tidak ada efek linear (slope = 0). Tetapi varians besar (100) menunjukkan ketidakpastian yang sangat tinggi terhadap nilai itu, artinya kita tidak yakin sama sekali dan membiarkan data yang “berbicara”.
  • Prior ini bersifat lemah (weakly informative) karena standar deviasi = 10 jauh lebih besar daripada skala slope yang tampak di data (contoh: \(\hat\beta_1 = 1.00\)). Dengan demikian prior hanya memberi sedikit informasi dengan memusatkan distribusi pada 0, tetapi data tetap menjadi penentu utama hasil posterior.
  • Dampak Terhadap Posterior:
    • Jika jumlah data memadai (sample besar), likelihood (data) dominan sehingga posterior akan mendekati hasil OLS dan prior hampir tidak berpengaruh.
    • Jika sampel sangat kecil atau data sangat noisy, prior masih memiliki sedikit pengaruh, tetapi karena prior ini lemah pengaruhnya relatif kecil dibanding prior yang informatif (varians kecil).

Soal 3 — Prior Informasi pada Slope

Dengan model pada Soal 2, misalkan prior:

  1. Apa arti prior \(\beta_1 \sim N(2, 0.5^2)\) terhadap hubungan \(x\)\(y\)?
  2. Jika ukuran sampel sangat kecil, menurut Anda posterior lebih dipengaruhi oleh prior atau data? Jelaskan alasannya.

Ruang jawaban:

a. Arti Prior Slope \(\beta_1 \sim N(2, 0.5^2)\)

  • Distribusi prior slope memiliki rata-rata = 2 dan varians = 0.25 (standar deviasi = 0.5).
  • Artinya, sebelum melihat data kita percaya bahwa setiap kenaikan 1 unit pada \(x\) akan meningkatkan \(y\) sekitar +2 unit.
  • Karena varian kecil, prior ini cukup informatif: Kita relatif yakin bahwa slope berada dekat 2.
  • Implikasi terhadap hubungan \(x\)\(y\): Model diyakini memiliki hubungan positif yang cukup kuat.
  • Dalam praktiknya, jika data memberikan estimasi slope yang berbeda (misalnya 1.0 dari OLS), posterior akan tetap ditarik ke arah 2 oleh prior ini.

b. Ukuran Sampel Sangat Kecil

Dalam regresi Bayesian, posterior diperoleh melalui:

\[ p(\beta \mid y) \propto p(y \mid \beta)\,p(\beta) \]

  • Likelihood: Berasal dari data.
  • Prior: Berasal dari keyakinan awal.

Jika ukuran sampel sangat kecil:

  • Informasi dari data (likelihood) lemah.
  • Akibatnya, prior akan lebih dominan dalam membentuk posterior.
  • Karena prior slope \(N(2, 0.5^2)\) sangat informatif, maka posterior slope akan cenderung mendekati 2, meskipun data terbatas mendukung nilai lain.

Sebaliknya, jika ukuran sampel besar:

  • Informasi dari data menjadi sangat kuat.
  • Posterior hampir sama dengan hasil OLS (prior hanya punya pengaruh kecil).

c. Kesimpulan

  • Prior slope \(N(2, 0.5^2)\) berarti keyakinan awal bahwa slope ≈ 2, dengan ketidakpastian kecil. Ini mencerminkan asumsi bahwa hubungan \(x\)\(y\) adalah positif dan cukup besar.
  • Jika jumlah sampel sangat kecil, posterior lebih dipengaruhi oleh prior karena data belum cukup kuat. Dengan prior yang informatif, posterior slope akan condong ke nilai prior (≈ 2).

Soal 4 — Kelebihan & Kelemahan

Sebutkan satu kelebihan dan satu kelemahan regresi Bayesian dibanding OLS. Berikan alasan singkat.

Ruang jawaban:

a. Kelebihan Regresi Bayesian

Salah satu kelebihan utama dari regresi Bayesian adalah kemampuannya memasukkan informasi awal melalui prior. Hal ini sangat berguna dalam beberapa kondisi, misalnya:

  1. Ukuran Sampel Kecil
    • Dalam OLS, estimasi parameter sangat bergantung pada data.
    • Jika jumlah data sedikit, estimasi OLS bisa tidak stabil dan interval kepercayaannya sangat lebar.
    • Dengan Bayesian, prior dapat membantu “menstabilkan” estimasi dengan memberikan informasi tambahan di luar data.
  2. Pengetahuan Domain
    • Dalam penelitian di lapangan, sering kali kita memiliki pengetahuan awal (misalnya hasil penelitian terdahulu).
    • Informasi ini bisa dimasukkan sebagai prior, sehingga model lebih realistis dan sesuai konteks.
  3. Hasil Lebih Informatif
    • Bayesian memberikan distribusi posterior, bukan hanya satu angka.
    • Dari distribusi posterior, kita bisa menghitung rata-rata, median, serta interval kredibel yang lebih mudah diinterpretasikan:
      • Contoh: “Ada 95% probabilitas bahwa parameter \(\beta\) berada dalam interval [a, b].”
    • Berbeda dengan interval kepercayaan OLS, yang sering kali disalahpahami.

Dengan demikian, Bayesian lebih fleksibel, terutama ketika data terbatas atau pengetahuan awal sangat relevan.

b. Kelemahan Regresi Bayesian

Salah satu kelemahan utama dari regresi Bayesian adalah sensitivitas terhadap pemilihan prior dan kebutuhan komputasi yang lebih besar.

  1. Sensitivitas Terhadap Prior
    • Jika prior dipilih terlalu informatif (misalnya varian terlalu kecil), maka posterior bisa “dipaksa” mengikuti prior meskipun data menunjukkan hal berbeda.
    • Ini bisa menyebabkan hasil analisis menjadi bias jika prior yang digunakan salah.
    • Oleh karena itu, pemilihan prior harus hati-hati dan sering kali memerlukan uji sensitivitas (mencoba beberapa prior berbeda).
  2. Kompleksitas Komputasi
    • Pada kasus sederhana (prior dan likelihood konjugat), hasil posterior bisa dihitung secara analitik.
    • Namun, pada model yang lebih kompleks, bentuk posterior tidak memiliki solusi tertutup.
    • Untuk itu diperlukan metode numerik seperti MCMC (Markov Chain Monte Carlo), yang memerlukan waktu komputasi lebih lama serta keahlian tambahan untuk memastikan konvergensi rantai.
  3. Interpretasi dan Penggunaan Praktis
    • OLS relatif mudah dipahami oleh banyak orang karena hanya menghasilkan estimasi titik dan standard error.
    • Bayesian membutuhkan pemahaman konsep distribusi posterior dan interpretasi probabilistik, sehingga kadang dianggap lebih rumit.

c. Kesimpulan

  • Kelebihan: Regresi Bayesian lebih fleksibel karena dapat menggabungkan informasi awal (prior) dengan data, serta menghasilkan distribusi posterior yang memberikan gambaran ketidakpastian parameter secara lebih jelas.
  • Kelemahan: Regresi Bayesian bisa sensitif terhadap pilihan prior dan sering kali memerlukan metode komputasi yang lebih rumit (seperti MCMC), sehingga lebih sulit diterapkan dibandingkan OLS.