Distribusi Cauchy

Distribusi Cauchy adalah distribusi probabilitas kontinu yang memiliki heavy tails, sehingga sering menghasilkan nilai ekstrem. Distribusi ini tidak memiliki nilai rata-rata dan variansi yang terdefinisi.

Sifat Fundamental dan Signifikansi Teoretis

Fungsi Kepadatan Probabilitas (PDF)

\[ f(x; \theta, \gamma) = \frac{1}{\pi \gamma \left[1 + \left( \frac{x - \theta}{\gamma} \right)^2 \right]} \]

Untuk standard Cauchy (dengan \(\theta = 0\) dan \(\gamma = 1\)):

\[ f(x) = \frac{1}{\pi (1 + x^2)} \]

Fungsi Distribusi Kumulatif (CDF)

\[ F(x; \theta, \gamma) = \frac{1}{\pi} \arctan\left( \frac{x - \theta}{\gamma} \right) + \frac{1}{2} \]

Karakteristik

  • Tidak memiliki mean dan variansi yang terdefinisi.
  • Median dan modus berada di \(\theta\).
  • Sangat sensitif terhadap outlier.
  • Memiliki tail yang lebih berat dibandingkan distribusi normal.

Perbandingan dengan Distribusi Normal

Karakteristik Cauchy Normal
Mean Tidak ada (undefined) Ada
Variansi Tidak ada (undefined) Ada
Bentuk PDF Puncak tajam, tail berat Puncak lebar, tail ringan
Sensitivitas Outlier Tinggi Rendah

Aplikasi

  • Model kesalahan dengan outlier besar.
  • Distribusi Lorentzian dalam fisika.
  • Dapat muncul sebagai rasio dua variabel normal standar: \[ Z = \frac{X}{Y}, \quad X, Y \sim \mathcal{N}(0, 1), \quad X \perp Y \] Maka \(Z\) mengikuti distribusi Cauchy standar.

Metode Newton-Raphson dan Fisher Scoring

Metode yang digunakan untuk mencari estimasi parameter maksimum likelihood (MLE) melalui metode iteratif.

Newton-Raphson

Metode Newton-Raphson menggunakan turunan pertama dan kedua dari log-likelihood untuk memperbarui estimasi parameter.

\[ \theta^{(t+1)} = \theta^{(t)} - \frac{\ell'(\theta^{(t)})}{\ell''(\theta^{(t)})} \]

  • \(\ell'(\theta)\): turunan pertama (gradient)
  • \(\ell''(\theta)\): turunan kedua (Hessian)

Langkah-langkah: 1. Tentukan log-likelihood \(\ell(\theta)\) 2. Hitung \(\ell'(\theta)\) dan \(\ell''(\theta)\) 3. Lakukan iterasi: - Perbarui \(\theta\) dengan rumus di atas - Ulangi hingga konvergen

Fisher Scoring

Merupakan variasi dari Newton-Raphson yang menggunakan ekspektasi dari informasi Fisher menggantikan turunan kedua log-likelihood.

\[ \theta^{(t+1)} = \theta^{(t)} + \mathcal{I}^{-1}(\theta^{(t)}) \cdot \ell'(\theta^{(t)}) \]

  • \(\mathcal{I}(\theta)\): informasi Fisher, yaitu: \[ \mathcal{I}(\theta) = -\mathbb{E}[\ell''(\theta)] \]

Pilihan awal \(\theta^{(0)}\) sangat mempengaruhi konvergensi. Iterasi pun dihentikan saat selisih nilai \(\theta\) antar iterasi cukup kecil, atau ketika turunan pertama mendekati nol.

Latihan 1: Dimisalkan sebuah variabel acak X berdistribusi Cauchy dengan parameter θ,dengan kata lain X memiliki fungsi densitas

\[ f(x; \theta) = \frac{1}{\pi} \cdot \frac{1}{1 + (x - \theta)^2} \]

Simulasikan sebuah sampel acak berukuran n = 100 dari distribusi Cauchy dengan parameter θ = 2. Gunakan metode Newton-Raphson dan Fisher’s scoring untuk memperoleh MLE untuk parameter θ. Gunakan beberapa initial value θ antara 1.6 dan 2.4 dan hentikan prosedur iteratif jika \[ \frac{|\theta^{(i+1)} - \theta^{(i)}|}{|\theta^{(i+1)}|} < 10^{-1} \]

### Simulasi data Cauchy
set.seed(33)
n <- 100
theta <- 2
data <- rcauchy(n, location = theta, scale = 1)

### Fungsi turunan pertama log-likelihood
score_function <- function(theta, x) {sum(2 * (x - theta) / (1 + (x - theta)^2))
}
### Fungsi turunan kedua log-likelihood
info_function <- function(theta, x) {
  sum((2 * ((x - theta)^2 - 1)) / (1 + (x - theta)^2)^2)
  }
### Fisher Information
fisher_info <- function(n) {
n * (1 / 2)
}

### Estimasi menggunakan Newthon-Raphson
newton_raphson <- function(x, theta0, tol = 1e-1, max_iter = 100) {
  theta <- theta0
  for (i in 1:max_iter) {
    u <- sum(2 * (x - theta) / (1 + (x - theta)^2))
    h <- sum(2 * ((x - theta)^2 - 1) / (1 + (x - theta)^2)^2)
    theta_new <- theta - u / h
    if (abs((theta_new - theta) / theta_new) < tol) break
    theta <- theta_new
  }
  return(theta_new)
}

### Estimasi menggunakan Fisher's Scoring
fishers_scoring <- function(x, theta0, tol = 1e-1, max_iter = 100) {
  theta <- theta0
  fisher_info <- length(x) / 2
  for (i in 1:max_iter) {
    u <- sum(2 * (x - theta) / (1 + (x - theta)^2))
    theta_new <- theta + u / fisher_info
    if (abs((theta_new - theta) / theta_new) < tol) break
    theta <- theta_new
  }
  return(theta_new)
}

### Simulasi Sampel Acak
set.seed(33)
n <- 100
theta_true <- 2
x <- rcauchy(n, location = theta_true)

### Uji Nilai untuk Beberapa Nilai Teta (1.6-2.4)
theta_init_vals <- seq(1.6, 2.4, by = 0.2)
sapply(theta_init_vals, function(t0) newton_raphson(x, t0))
## [1] 2.053326 2.053402 2.052864 2.046671 2.052908
sapply(theta_init_vals, function(t0) fishers_scoring(x, t0))
## [1] 2.052932 2.053173 2.051160 2.066370 2.056693

Hasil Estimasi Parameter \(\theta\)

Inisialisasi \(\theta^{(0)}\) Newton-Raphson Fisher Scoring
1 2.053326 2.052932
2 2.053402 2.053173
3 2.052864 2.051160
4 2.046671 2.066370
5 2.052908 2.056693

Interpretasi

  1. Konvergensi Parameter: Dapat diamati bahwa baik metode Newton-Raphson maupun Fisher Scoring berhasil konvergen pada nilai parameter yang sangat mirip. Nilai-nilai yang dicapai oleh kedua metode umumnya berada dalam rentang 2.04 hingga 2.06. Ini menunjukkan bahwa kedua algoritma optimasi berhasil menemukan solusi yang stabil untuk masalah yang mereka coba pecahkan.

  2. Variasi Hasil Berdasarkan Inisialisasi: Meskipun nilai konvergensinya secara umum dekat, ada sedikit perbedaan tergantung pada nilai inisiasi awal (\(\beta^{(0)}\)).

    • Untuk Newton-Raphson, nilai-nilai konvergensi berkisar dari sekitar 2.046671 (untuk inisialisasi 4) hingga 2.053402 (untuk inisialisasi 2).
    • Untuk Fisher Scoring, nilai-nilai konvergensi berkisar dari sekitar 2.051160 (untuk inisialisasi 3) hingga 2.066370 (untuk inisialisasi 4).
  3. Karakteristik Metode:

    • Nilai-nilai yang dihasilkan oleh Newton-Raphson menunjukkan konsistensi yang cukup tinggi di antara berbagai inisialisasi, dengan rentang hasil yang relatif sempit.
    • Fisher Scoring juga menunjukkan konvergensi, namun ada sedikit variasi yang lebih besar di antara hasil akhirnya untuk inisialisasi yang berbeda. Misalnya, inisialisasi ke-4 untuk Fisher Scoring menghasilkan 2.066370, yang merupakan nilai tertinggi di antara semua hasil yang ditampilkan.

Ulangi (a) 100 kali untuk memperoleh 100 aproksimasi dari θ menggunakan Newton-Raphson dan Fisher’s scoring. Buat boxplots, hitung mean dan variance untuk membandingkan kedua metode dan melihat pengaruh dari perbedaan nilai inisialnya.

Menggunakan software R studio diperoleh :

Ringkasan Statistik Estimasi \(\theta\)

Statistik Newton-Raphson Fisher’s Scoring
Mean 2.007 2.001
Varians 0.016 0.02
Minimum 1.757 1.606
Maksimum 2.312 2.306
Kuartil 1 (Q1) 1.915 1.895
Kuartil 3 (Q3) 2.093 2.105
simulate_estimations <- function(method, init_val = 2, iter = 100) {
  replicate(iter, {
    x <- rcauchy(n, location = theta_true)
    if (method == "nr") newton_raphson(x, init_val)
    else fishers_scoring(x, init_val)
  })
}

set.seed(33)
est_nr <- simulate_estimations("nr", init_val = 2)
summary (est_nr)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.757   1.915   1.995   2.007   2.093   2.312
est_fs <- simulate_estimations("fs", init_val = 2)
summary (est_fs)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.606   1.895   2.009   2.001   2.105   2.306
boxplot(est_nr, est_fs, names = c("Newton-Raphson", "Fisher's Scoring"),
        main = "Boxplot dari Estimasi θ", ylab = "θ", col = c("purple", "pink"))

### Statistik Ringkasan
mean(est_nr); var(est_nr)
## [1] 2.007433
## [1] 0.01619573
mean(est_fs); var(est_fs)
## [1] 2.000953
## [1] 0.0200991

Interpretasi

Interpretasi Data:

  1. Mean (Rata-rata):
    • Newton-Raphson: 2.007
    • Fisher’s Scoring: 2.001 Kedua metode menghasilkan rata-rata yang sangat dekat, menunjukkan bahwa, secara keseluruhan, nilai parameter yang diestimasi oleh kedua metode berpusat di sekitar angka 2.00. Perbedaan yang minimal (0.006) menunjukkan konsistensi yang tinggi dalam estimasi pusat.
  2. Varians:
    • Newton-Raphson: 0.016
    • Fisher’s Scoring: 0.02 Varians adalah ukuran seberapa tersebar data. Nilai varians yang relatif kecil untuk kedua metode (kurang dari 0.02) menunjukkan bahwa hasil estimasi parameter dari kedua metode cukup konsisten dan tidak terlalu tersebar. Fisher’s Scoring menunjukkan sedikit varians yang lebih besar, mengindikasikan sedikit penyebaran hasil yang lebih luas dibandingkan Newton-Raphson, meskipun perbedaannya tidak signifikan.
  3. Minimum:
    • Newton-Raphson: 1.757
    • Fisher’s Scoring: 1.606 Nilai minimum menunjukkan estimasi parameter terendah yang dicapai. Fisher’s Scoring memiliki nilai minimum yang sedikit lebih rendah, menunjukkan bahwa dalam beberapa kasus, ia mungkin konvergen ke nilai yang lebih jauh dari rata-rata dibandingkan Newton-Raphson.
  4. Maksimum:
    • Newton-Raphson: 2.312
    • Fisher’s Scoring: 2.306 Nilai maksimum menunjukkan estimasi parameter tertinggi yang dicapai. Nilai maksimum kedua metode sangat mirip, menunjukkan batas atas yang serupa untuk rentang estimasi.
  5. Kuartil 1 (Q1):
    • Newton-Raphson: 1.915
    • Fisher’s Scoring: 1.895 Q1 adalah nilai di mana 25% data berada di bawahnya. Nilai Q1 yang berdekatan menunjukkan bahwa distribusi bagian bawah dari estimasi kedua metode juga sangat mirip.
  6. Kuartil 3 (Q3):
    • Newton-Raphson: 2.093
    • Fisher’s Scoring: 2.105 Q3 adalah nilai di mana 75% data berada di bawahnya. Nilai Q3 yang berdekatan juga menunjukkan kesamaan dalam distribusi bagian atas dari estimasi kedua metode.

Interpretasi Boxplot dari Estimasi \(\theta\):

Grafik ini membandingkan distribusi estimasi parameter \(\theta\) yang diperoleh dari dua metode optimasi: Newton-Raphson (kiri, kotak ungu) dan Fisher Scoring (kanan, kotak merah muda).

  • Sumbu Y (\(\theta\)): Menunjukkan nilai estimasi parameter \(\theta\).
  1. Estimasi Median (Garis Tengah dalam Kotak):
    • Kedua metode menghasilkan median estimasi yang sangat dekat, keduanya sedikit di bawah 2.0, mengindikasikan pusat estimasi yang konsisten.
  2. Sebaran Data (Panjang Kotak - Interquartile Range):
    • Kotak Newton-Raphson tampak sedikit lebih pendek atau setidaknya sebanding, menunjukkan estimasi 50% tengah yang lebih terkonsentrasi.
    • Kotak Fisher Scoring terlihat sedikit lebih panjang, mengindikasikan sebaran 50% estimasi tengah yang sedikit lebih lebar.
  3. Rentang Data (Whisker):
    • Panjang whisker kedua metode relatif serupa. Whisker bawah Fisher Scoring sedikit lebih panjang.
    • Tidak ada outlier ekstrem yang terdeteksi.
  4. Simetri Distribusi:
    • Kedua distribusi estimasi terlihat relatif simetris.

Kesimpulan BoxPlot :

Boxplot ini secara visual menegaskan bahwa kedua metode optimasi menghasilkan estimasi parameter \(\theta\) yang stabil dan terpusat di sekitar nilai yang sama. Newton-Raphson menunjukkan sebaran estimasi yang sedikit lebih rapat dibandingkan Fisher Scoring, namun keduanya adalah metode yang efektif dan dapat diandalkan.