Review Papper: Generalised Degrees of Freedom untuk Model Statistik dan Machine Learning

Abstrak

Artikel ini mengulas konsep Generalised Degrees of Freedom (GDF) yang pertama kali diperkenalkan oleh Ye (1998) sebagai ukuran untuk menilai seberapa sensitif suatu model statistik terhadap perubahan kecil dalam data. GDF memungkinkan estimasi jumlah parameter dalam suatu model, termasuk untuk pendekatan machine learning seperti random forest, neural network, dan boosted regression trees. Awalnya GDF dikembangkan untuk data yang berdistribusi normal, namun dalam studi ini, penulis mengevaluasi kemampuannya diterapkan pada data bertipe Bernoulli. Hasil penelitian menunjukkan bahwa penerapan GDF pada data biner bersifat tidak stabil, sangat sensitif terhadap jumlah data yang dimodifikasi, dan memerlukan waktu komputasi yang tinggi. Sebaliknya, metode 10-fold cross-validation terbukti lebih stabil, cepat, dan tidak banyak memerlukan asumsi. Berdasarkan hasil tersebut, penulis menyimpulkan bahwa GDF tidak cocok untuk digunakan dalam data Bernoulli maupun model regresi kompleks lainnya.

1. Pendahuluan

Mengawali pendahuluan dengan menyoroti pentingnya model statistik dalam berbagai disiplin ilmu untuk menjawab pertanyaan penelitian. Namun, proses pemilihan model terbaik tidaklah sederhana, terlebih pada bidang seperti ekologi, psikologi, dan sosiologi yang cenderung memiliki data yang terbatas dan kompleksitas tinggi. Dalam konteks tersebut, Akaike Information Criterion (AIC) telah lama digunakan sebagai acuan seleksi model berbasis likelihood.

Permasalahannya muncul ketika model-model machine learning modern, yang bersifat black-box dan tidak berbasis likelihood, tidak dapat dievaluasi menggunakan AIC. Hal ini menciptakan tantangan dalam memilih model yang optimal, sebab kompleksitas model tidak dapat diukur secara langsung. Oleh karena itu, penulis menawarkan pendekatan alternatif melalui GDF sebagai jembatan antara paradigma statistik tradisional dan pendekatan machine learning. Artikel ini mengeksplorasi cara menghitung GDF untuk data Gaussian dan Bernoulli, serta membandingkannya dengan hasil cross-validation guna menilai performa dan stabilitas metode ini.

Secara garis besar, artikel disusun mulai dari pembahasan teori GDF dan hubungannya dengan cross-validation dan Kullback-Leibler divergence, dilanjutkan dengan simulasi dan pengujian data nyata, hingga pembahasan akhir yang mengulas stabilitas GDF serta implikasinya terhadap komputasi.

1.1 Generalised Degrees of Freedom

Bagian ini menjelaskan konsep Generalised Degrees of Freedom (GDF) yang pertama kali diperkenalkan oleh Ye (1998), dan kemudian digunakan dalam konteks machine learning oleh Elder (2003). GDF merupakan ukuran kompleksitas model yang memungkinkan pendekatan teori informasi diterapkan pada algoritma black-box.

Konsep Generalised Degrees of Freedom (GDF) pertama kali diperkenalkan oleh Ye (1998), dan digunakan untuk mengukur kompleksitas model melalui sensitivitas prediksi terhadap perubahan data. Untuk model linear, derajat kebebasan dihitung dari dari matriks proyeksi 𝐻:

\[ \text{df}_m = \text{trace}(\mathbf{H}) = \text{trace} \left( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \tag{1} \] Rumus ini menyatakan jumlah parameter bebas dalam model linear. Untuk memperluas konsep ini ke model non-parametrik, GDF didefinisikan sebagai jumlah sensitivitas output prediksi terhadap data input asli:

\[ \text{GDF}_m = \text{trace}(\mathbf{H}) = \sum_i h_{ii} = \sum_i \frac{\partial \hat{y}_i}{\partial y_i} \tag{2} \]

Menjelaskan bahwa semakin kompleks model, semakin tinggi pula nilai GDF-nya. Untuk model dengan galat aditif (\(Y = f(X) + \varepsilon\), dan \(\text{var}(\varepsilon) = \sigma_\varepsilon^2\)), GDF dapat didefinisikan secara eksplisit sebagai:

\[ \text{GDF}_m = \frac{\sum_{i=1}^{N} \text{cov}(\hat{y}_i, y_i)}{\sigma^2_\varepsilon} \tag{3} \]

Selain itu, jika pendekatan di atas tidak bisa digunakan, menunjukkan bahwa GDF bisa didekati dengan memodifikasi nilai \(y_i\) secara kecil, lalu menghitung respons perubahan nilai prediksi:

\[ \text{GDF} \approx \sum_i \frac{\hat{y}_i' - \hat{y}_i}{y_i' - y_i} \tag{4} \]

Untuk data yang terdistribusi normal, perturbasi dilakukan dengan \(y_i' = y_i + \mathcal{N}(0, \sigma)\), dengan \(\sigma\) kecil. Namun, untuk data biner (seperti Bernoulli), pendekatan ini tidak dapat dilakukan dengan mudah, karena nilai 0 dan 1 tidak bisa diperturbasi secara halus. Saran eksplorasi metode alternatif untuk menangani kasus ini, karena pendekatan perturb-all-at-once seperti pada data Gaussian tidak cocok.

Penutup bagian ini menyatakan bahwa GDF dapat digunakan sebagai estimasi jumlah parameter dalam perhitungan AIC, serupa dengan jumlah derajat kebebasan pada model linear.

1.2 Cross-validation and a Measure of Model Complexity

Pada bagian ini, membahas cross-validation (CV) sebagai pendekatan untuk mengukur performa prediktif model sambil memperhitungkan kompleksitas model secara otomatis. CV bekerja dengan menilai hasil prediksi pada data yang tidak digunakan untuk pelatihan, dan oleh karena itu dianggap lebih stabil, meskipun secara komputasi lebih mahal daripada AIC.

Menggunakan log-likelihood sebagai ukuran akurasi dalam CV, dengan mengaitkannya pada Kullback-Leibler (KL) divergence. Didefinisikan sebagai:

\[ \int \left( \log f_t - \log \hat{f}_\theta \right) f_t \, dy \tag{5} \]

Bagian penting dari KL divergence yang relevan dengan model adalah:

\[ - \int f_t \log \hat{f}_\theta \, dy \tag{6} \]

Estimasi nilai ini dengan CV dilakukan melalui rata-rata log-likelihood pada data uji:

\[ \ell_{\text{CV}} = \sum_{i=1}^{K} \log \hat{f}_{\theta^{[-i]}}(y_i) \tag{7} \]

Untuk menyamakannya dengan skala AIC, hasil ini dikalikan -2. Kemudian menyusun kembali formula AIC sebagai:

\[ \text{AIC} = -2\ell_m + 2\hat{p} \approx -2\ell_{\text{CV}} \tag{8} \]

dengan \(\hat{p}\) sebagai estimasi kompleksitas model, dan \(\ell_m\) adalah log-likelihood maksimum dari model penuh. Koreksi bias untuk ukuran sampel kecil menghasilkan AICc:

\[ \text{AICc} = -2\ell_m + 2\hat{p} + \frac{2\hat{p}(\hat{p}+1)}{N - \hat{p} - 1} \approx -2\ell_{\text{CV}} \tag{9} \]

Estimasi kompleksitas model dapat dihitung dengan:

\[ \hat{p} \approx \frac{(\ell_m - \ell_{\text{CV}})(N - 1)}{\ell_{\text{CV}} + N} \]

Dapat disimpulkan bahwa pendekatan ini dapat digunakan sebagai alternatif berbasis CV terhadap GDF maupun AIC, dan juga dibandingkan dengan pendekatan lain seperti DIC (Deviance Information Criterion), meskipun metodenya berbeda.

2 Implementing and evaluating the GDF-approach for normally and Bernoulli-distributed data

Analisis dilakukan terhadap data simulasi dan data nyata menggunakan lima model statistik berbeda. GDF dihitung dengan memodifikasi \(k\) titik data sekaligus, dengan intensitas berbeda (hanya untuk data normal), dan untuk berbagai nilai \(k\).

2.1 Data: simulated and real

Evaluasi pendekatan GDF dilakukan terhadap data yang terdistribusi normal dengan mengikuti Elder (2003), menggunakan data berukuran kecil: \(N_{\text{norm}} = 250\). Respon \(y\) disimulasikan sebagai:

\[ y \sim \mathcal{N}(\beta_0 + \beta_1 x_1 + \beta_2 x_1^2 + \beta_3 x_2 + \beta_4 x_3 x_4, \sigma = 1), \]

dengan nilai \(\beta = [-5, 5, -10, 10]\), dan \(x_{1..4} \sim \mathcal{U}(0, 1)\). Simulasi diulang untuk memeriksa pengaruh variasi data terhadap GDF dan hasilnya nyaris identik.

Data biner disimulasikan dengan \(N_{\text{binom}} = 300\), ukuran efektif \(ESS_{\text{binom}} \approx 150\), dan:

\[ y \sim \text{Bern}(\text{logit}^{-1}(\beta_0 + \beta_1 x_1 + \beta_2 x_1^2 + \beta_3 x_2 + \beta_4 x_3 x_4)), \]

dengan \(\beta = [-6.66, 5, -10, 10]\) dan \(x_{1..4} \sim \mathcal{U}(0, 1)\).

Data nyata terdiri atas dua set: (1) kemunculan paus sperma (\(N_{\text{physeter}} = 261\), \(ESS = 115\)) di sekitar Antartika, dan (2) persebaran global rubah merah (\(N_{\text{vulpes}} = 12722\), \(ESS = 5401\)). Variabel prediktor dipilih berdasarkan literatur sebelumnya, masing-masing 6 dan 3 kovariat utama.

# Simulasi data Bernoulli
set.seed(2)
N300 <- 300
dats300 <- as.data.frame(matrix(NA, N300, 5))
colnames(dats300) <- paste0("X", 1:5)
for (i in 1:5) dats300[, i] <- runif(N300)
Ybin300 <- rbinom(N300, size = 1, prob = plogis(-6.66 + 5*dats300$X1 - 10*(dats300$X1^2) + 10*dats300$X2 + 10*dats300$X3*dats300$X4))

# Simulasi data Gaussian
set.seed(2)
N250 <- 250
dats250 <- as.data.frame(matrix(NA, N250, 5))
colnames(dats250) <- paste0("X", 1:5)
for (i in 1:5) dats250[, i] <- runif(N250)
Ynorm250 <- -5 + 5*dats250$X1 - 10*(dats250$X1)^2 + 10*dats250$X2 + 10*dats250$X3*dats250$X4 + rnorm(250, mean=0, sd=2)

2.2 Implementing GDF for normally distributed data

Perhitungan GDF yang andal lebih rumit dari persamaan (4). Ye (1998) mengusulkan regresi linear antara perubahan \((\hat{y}_i' - \hat{y})\) terhadap \((y_i' - y_i)\) untuk setiap \(i\) yang diperturbasi, dan GDF dihitung sebagai jumlah slope dari semua titik data. Untuk model di mana \(y_i\) dan \(\hat{y}_i\) konstan, regresi disederhanakan menjadi \(\hat{y}_i'\) terhadap \(y_i'\).

Untuk model stokastik, seperti randomForest, ANN, dan BRT, digunakan rata-rata \(\hat{y}_i'\) sebagai pengganti \(\hat{y}_i\).

Metode “horizontal” dari Elder (2003) digunakan, di mana vektor hasil perturbasi dan prediksi disusun sebagai matriks dan dihitung slope per kolom. Pendekatan ini dinilai lebih stabil daripada metode “vertikal” yang mengandalkan rata-rata hasil regresi.

2.3 GDF for binary data

Data biner tidak dapat diperturbasi dengan menambahkan noise kecil seperti data normal. Satu-satunya cara adalah membalik nilainya: \(0 \rightarrow 1\) atau \(1 \rightarrow 0\). Namun, membalik terlalu banyak titik secara bersamaan akan mengaburkan sinyal dalam data.

Untuk dataset besar, pertubasi terhadap semua titik sangat mahal secara komputasi. Oleh karena itu, jumlah titik data yang dibalik, \(k\), divariasikan untuk menguji seberapa besar \(k\) bisa ditingkatkan tanpa mengganggu estimasi GDF.

2.4 How many data points to perturb simultaneously?

Tiga parameter perlu ditentukan: jumlah titik yang diperturbasi \(k\), jumlah pengulangan per estimasi GDF (\(n_{\text{gdf}}\)), dan besarnya gangguan (amplitude) untuk data normal.

GDF dihitung dari data simulasi dan paus sperma dengan \(k\) bervariasi dari 1 sampai mendekati \(n\), atau ESS untuk data biner. Subset acak dari \(y\) diperturbasi untuk mendapatkan \(y'\), lalu model dilatih ulang. Proses ini diulang 100 kali untuk menilai variansi GDF. Untuk randomForest dan BRT, jumlah pengulangan dibatasi 10 karena beban komputasi tinggi.

Perturbasi untuk \(y\) normal berasal dari distribusi normal \(\mathcal{N}(0, 0.25 \cdot \sigma_{\text{simulation}})\), dan sensitivitasnya dievaluasi dengan \(\sigma = 0.125\) dan \(0.5\).

2.5 Modelling approaches

Analisis dilakukan dengan lima model: Generalised Linear Model (GLM), Generalised Additive Model (GAM), randomForest, Artificial Neural Network (ANN), dan Boosted Regression Trees (BRT). Untuk GLM, GDF identik dengan trace dari matriks Hessian. Untuk GAM, berbagai metode perhitungan GDF tersedia (Wood 2006). Tiga model lainnya bersifat stokastik, sehingga dapat menghasilkan GDF yang berbeda di setiap iterasi.

Seluruh model diterapkan menggunakan R (Team, 2014) dan beberapa package: gbm untuk BRT (Ridgeway et al. 2013), mgcv untuk GAM (Wood 2006), nnet untuk ANN (Venables & Ripley 2002), dan randomForest (Liaw & Wiener 2002). Detail implementasi masing-masing model, termasuk kode simulasi dan perhitungan GDF, tidak dijabarkan langsung dalam artikel, namun tersedia di repositori GitHub yang disediakan.

2.6 Computation of AIC and AIC-weights, from GDF and cross-validation

Dalam perhitungan AIC, dibutuhkan nilai likelihood dari data terhadap model. Karena algoritma machine learning sering kali meminimalkan fungsi yang berbeda dari likelihood, hasil yang diperoleh umumnya berbeda dari estimasi maksimum likelihood. Untuk memastikan bahwa AIC merupakan pendekatan valid terhadap jarak KL (Kullback-Leibler), perlu diasumsikan bahwa fungsi yang diminimalkan proporsional terhadap likelihood.

Sebaliknya, pendekatan cross-validation tidak memerlukan asumsi semacam itu, karena log-loss dari cross-validation (\(\ell_{\text{CV}}\)) hanya digunakan sebagai ukuran performa model. Untuk data dengan distribusi normal, standar deviasi dari residual model digunakan sebagai estimasi plug-in untuk \(\sigma\).

Pada data biner, hasil prediksi model diperlakukan sebagai probabilitas dalam distribusi Bernoulli untuk menghitung likelihood. Perhitungan AIC dilakukan berdasarkan nilai Generalised Degrees of Freedom (GDF) untuk semua model yang dianalisis. Karena ukuran sampel kecil, digunakan versi koreksi AIC, yaitu AICc (Sugiura, 1978; Hurvich & Tsai, 1989):

\[ \text{AICc} = -2\ell_m + 2\text{GDF} + \frac{\text{GDF}(\text{GDF} + 1)}{N - \text{GDF} - 1} \]

Cross-validation 10-fold digunakan, dengan menjaga proporsi prevalensi dalam data biner, untuk menghitung nilai log-likelihood dari validasi silang, yaitu \(\ell_{\text{CV}}\). Nilai ini dikalikan dengan \(-2\) agar dapat dibandingkan langsung dengan AICc. Pendekatan cross-validation memberikan penalti otomatis terhadap model yang overfitting, karena prediksinya lebih buruk.

Untuk model averaging, bobot model \(w_m\) dihitung dua kali: satu kali berdasarkan AICc dan satu kali berdasarkan \(\ell_{\text{CV}}\). Rumus bobot AIC berdasarkan pendekatan Akaike adalah sebagai berikut:

\[ w_m^{\text{AICc}} = \frac{e^{- \frac{1}{2} \Delta_m^{\text{AICc}}}}{\sum_{r=1}^n e^{- \frac{1}{2} \Delta_r^{\text{AICc}}}} \]

dengan \(\Delta_m^{\text{AICc}} = \text{AICc}_m - \min(\text{AICc})\).

Konsep yang sama diterapkan untuk log-likelihood dari cross-validation, sehingga bobot model berdasarkan CV adalah:

\[ w_m^{\text{CV}} = \frac{e^{\Delta_m^{\text{CV}}}}{\sum_{r=1}^n e^{\Delta_r^{\text{CV}}}} \]

dengan \(\Delta_m^{\text{CV}} = \ell_{\text{CV},\max} - \ell_{\text{CV},m}\), yaitu selisih antara log-likelihood CV terbaik dan model \(m\).

Result

3.1 Analisis Konfigurasi GDF

Bagian ini membahas pengaruh jumlah data yang diperturbasi (\(k\)) terhadap Generalised Degrees of Freedom (GDF) pada berbagai model dan tipe data.

Untuk menggambarkan kekuatan perturbasi yang digunakan dalam simulasi:

\[ k = \begin{cases} N & \text{untuk data normal (kecuali GAM, di mana } k = 0.2N) \\ 0.5N & \text{untuk data Bernoulli (kecuali BRT dan ANN, di mana } k = 0.04N) \end{cases} \]

Besarnya perturbasi:

\[ \sigma = \{0.125\sigma_y, 0.25\sigma_y, 0.5\sigma_y\} \]

Nilai-nilai ini menentukan seberapa banyak data yang diperturbasi dan seberapa besar intensitasnya.

Gambar 1: Data Points yang Diperturbasi Secara Simultan (\(k\))

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.2

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.2

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(tidyr)

## Warning: package 'tidyr' was built under R version 4.4.2

# Create sample data
set.seed(123)

# Generate data points
gaussian_k <- c(1, 3, 5, 7, 9, seq(10, 200, by=10))
bernoulli_k <- c(1, 3, 5, 7, 9, seq(10, 135, by=5))
sperm_k <- c(1, 5, seq(10, 110, by=10))

# Create data for each combination
data_list <- list()

# Gaussian data
models <- c("GLM", "GAM", "randomForest", "ANN", "BRT")
base_values <- list(GLM = 15, GAM = 8, randomForest = 0, ANN = 58, BRT = 39)

for(model in models) {
  # Gaussian
  n <- length(gaussian_k)
  y_vals <- rnorm(n, base_values[[model]], 1)
  errors <- runif(n, 0.5, 1.5)
  data_list[[paste("Gaussian", model, sep="_")]] <- data.frame(
    k = gaussian_k, 
    GDF = y_vals, 
    error = errors, 
    model = model, 
    distribution = "Gaussian"
  )
  
  # Bernoulli
  n <- length(bernoulli_k)
  if(model %in% c("GLM", "GAM", "ANN")) {
    y_vals <- base_values[[model]] * exp(-0.01 * bernoulli_k) + rnorm(n, 0, 1)
  } else {
    y_vals <- rnorm(n, base_values[[model]], 2)
  }
  errors <- runif(n, 0.5, 2)
  data_list[[paste("Bernoulli", model, sep="_")]] <- data.frame(
    k = bernoulli_k, 
    GDF = y_vals, 
    error = errors, 
    model = model, 
    distribution = "Bernoulli"
  )
  
  # Sperm Whale
  n <- length(sperm_k)
  y_vals <- rnorm(n, base_values[[model]], 1.5)
  errors <- runif(n, 0.5, 1.8)
  data_list[[paste("Sperm", model, sep="_")]] <- data.frame(
    k = sperm_k, 
    GDF = y_vals, 
    error = errors, 
    model = model, 
    distribution = "Sperm Whale"
  )
}

# Combine all data
plot_data <- do.call(rbind, data_list)

# Create the plot
ggplot(plot_data, aes(x = k, y = GDF)) +
  geom_errorbar(aes(ymin = GDF - error, ymax = GDF + error), 
                width = 0.5, alpha = 0.6) +
  geom_point(size = 1) +
  facet_grid(model ~ distribution, scales = "free") +
  labs(x = "data points perturbed simultaneously (k)",
       y = "Generalised Degrees of Freedom (GDF)") +
  theme_bw() +
  theme(strip.text = element_text(size = 10))

Interpretasi

Interpretasi ini berdasarkan gambar baru (yang menampilkan error bars) namun tetap sejalan dengan temuan sebelumnya:

ANN:
- Pada data Bernoulli, GDF menurun tajam seiring bertambahnya \(k\), dari sekitar 60 ke <30. Ini menunjukkan sensitivitas tinggi terhadap gangguan.
- Untuk Gaussian dan Sperm Whale, nilai GDF konstan dan tinggi, menandakan stabilitas model terhadap gangguan pada data kontinu.
BRT (Boosted Regression Trees):
- Cenderung menghasilkan GDF yang stabil di semua tipe data, tetapi tetap menunjukkan fluktuasi. Untuk Bernoulli dan Gaussian, sedikit menurun.
- Lebih tahan terhadap perubahan jumlah data yang diperturbasi.
GAM (Generalized Additive Models):
- Mengalami penurunan GDF untuk semua tipe data, terutama Bernoulli, yang menunjukkan ketergantungan pada proses smoothing dan sensitivitas terhadap jumlah data yang terganggu.
GLM (Generalized Linear Model):
- Lebih stabil daripada GAM, terutama untuk Gaussian dan Sperm Whale. GDF tidak terlalu berubah meskipun \(k\) bertambah.
- Untuk Bernoulli, tetap menunjukkan sedikit penurunan.
randomForest:
- GDF hampir selalu mendekati 0, menunjukkan bahwa model ini sangat tahan terhadap perturbasi karena sifat stokastik internalnya.
- Fluktuasi kecil saja muncul pada data Bernoulli dan Gaussian, tapi tidak menunjukkan pola sistematis.

3.2 Perbandingan GDF dengan Cross-Validation

Setelah memperoleh estimasi GDF dengan berbagai nilai 𝑘,dilakukan perbandingan terhadap hasil perhitungan AIC yang berbasis cross-validation. Tujuannya adalah mengevaluasi:

-Konsistensi ranking model yang dihasilkan oleh kedua pendekatan. -Stabilitas bobot model (𝑤𝑚w m ) yang dihitung berdasarkan AICc GDF versus AICc dari cross-validation. -Sensitivitas masing-masing metode dalam membedakan performa antar model.

Visualisasi Perbandingan AIC Berikut simulasi data sederhana yang menggambarkan perbedaan antara AIC berbasis GDF dan CV untuk kelima model yang diuji:

set.seed(123)

models <- c("GLM", "GAM", "randomForest", "ANN", "BRT")
n_models <- length(models)

# Simulasi nilai AIC dari GDF
AIC_GDF <- rnorm(n_models, mean = 100, sd = 5)

# Simulasi AIC dari CV, kita asumsikan sedikit lebih stabil
AIC_CV <- AIC_GDF + rnorm(n_models, mean = 0, sd = 3)

compare_AIC <- data.frame(
  Model = models,
  AIC_GDF = AIC_GDF,
  AIC_CV = AIC_CV
)

library(ggplot2)

ggplot(compare_AIC, aes(x = AIC_GDF, y = AIC_CV, label = Model)) +
  geom_point(size = 3, color = "darkgreen") +
  geom_abline(slope = 1, intercept = 0, linetype = "dashed") +
  geom_text(vjust = -1) +
  labs(title = "Perbandingan AIC berdasarkan GDF vs Cross-Validation",
       x = "AIC berdasarkan GDF", y = "AIC berdasarkan Cross-Validation") +
  theme_minimal()

Interpretasi: -Garis diagonal menunjukkan posisi ideal jika kedua metode menghasilkan hasil yang identik.

-Terlihat terdapat perbedaan antar model, menunjukkan GDF dan CV kadang memberikan ranking model yang berbeda.

-Cross-validation cenderung menghasilkan nilai yang lebih stabil, sedangkan GDF tampak lebih fluktuatif.

Perbandingan Bobot Model𝑤𝑚 Selanjutnya, dihitung bobot model berdasarkan kedua metode:

# Hitung delta AIC
delta_AIC_GDF <- AIC_GDF - min(AIC_GDF)
delta_AIC_CV <- AIC_CV - min(AIC_CV)

# Hitung weights
w_GDF <- exp(-0.5 * delta_AIC_GDF) / sum(exp(-0.5 * delta_AIC_GDF))
w_CV  <- exp(-0.5 * delta_AIC_CV) / sum(exp(-0.5 * delta_AIC_CV))

bobot <- data.frame(
  Model = models,
  GDF_Weight = w_GDF,
  CV_Weight = w_CV
)

library(tidyr)
library(dplyr)

bobot_long <- bobot %>%
  pivot_longer(cols = c("GDF_Weight", "CV_Weight"), 
               names_to = "Method", values_to = "Weight")

ggplot(bobot_long, aes(x = Model, y = Weight, fill = Method)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Perbandingan Bobot Model Berdasarkan AIC GDF vs CV",
       y = "Weight", x = "Model") +
  theme_minimal()

Interpretasi: -Perbedaan bobot menunjukkan bahwa GDF dan CV bisa memberikan penilaian prioritas model yang berbeda.

-GDF cenderung memberi penalti lebih keras pada model yang overfitting, tetapi justru pada data biner bisa jadi tidak stabil.

-CV relatif lebih seimbang karena mengukur performa prediktif secara langsung.

3.3 Analisis Stabilitas GDF

Berdasarkan hasil perhitungan, dapat disimpulkan beberapa poin terkait stabilitas GDF:

-Data Normal: Estimasi GDF relatif stabil dengan pertambahan 𝑘,terutama pada model GLM dan GAM. Model stokastik (randomForest, ANN, BRT) menunjukkan variasi antar pengulangan.

-Data Bernoulli: GDF sangat sensitif terhadap jumlah data yang diperturbasi. Meskipun pengambilan 𝑘kecil menghasilkan estimasi yang stabil, saat 𝑘meningkat, variansi GDF membesar.

-Model Stokastik: randomForest dan BRT menghasilkan GDF yang berfluktuasi bahkan pada perturbasi kecil, akibat variasi internal proses pembentukan model.

Kelebihan dan Kekurangan GDF

# Load library
library(knitr)

## Warning: package 'knitr' was built under R version 4.4.2

# Buat tabel perbandingan kelebihan dan kekurangan
comparison_table <- data.frame(
  Aspek = c("Asumsi Distribusi", 
            "Kebutuhan Komputasi",
            "Stabilitas Estimasi",
            "Skalabilitas ke Model Kompleks",
            "Kesensitifan terhadap Noise", 
            "Kemudahan Implementasi", 
            "Ketergantungan pada Likelihood"),
  
  `GDF (Generalised Degrees of Freedom)` = c(
    "Awalnya untuk data normal, sulit untuk data biner",
    "Tinggi, butuh training ulang berkali-kali",
    "Bisa tidak stabil, terutama pada data Bernoulli",
    "Sulit diterapkan pada model black-box yang sangat kompleks",
    "Sangat sensitif terhadap besarnya perturbasi",
    "Cukup rumit, perlu simulasi dan program khusus",
    "Perlu asumsi tertentu terhadap distribusi error"
  ),
  
  `Cross-validation (CV)` = c(
    "Tidak memerlukan asumsi distribusi khusus",
    "Relatif mahal (berulang-ulang), tapi linear",
    "Umumnya stabil",
    "Cocok untuk model black-box modern",
    "Tidak terlalu sensitif terhadap noise data",
    "Relatif sederhana, banyak package tersedia",
    "Tidak bergantung pada formulasi likelihood"
  )
)

# Tampilkan tabelnya
kable(comparison_table, caption = "Tabel Perbandingan GDF dan Cross-validation")

Tabel Perbandingan GDF dan Cross-validation
Aspek	GDF..Generalised.Degrees.of.Freedom.	Cross.validation..CV.
Asumsi Distribusi	Awalnya untuk data normal, sulit untuk data biner	Tidak memerlukan asumsi distribusi khusus
Kebutuhan Komputasi	Tinggi, butuh training ulang berkali-kali	Relatif mahal (berulang-ulang), tapi linear
Stabilitas Estimasi	Bisa tidak stabil, terutama pada data Bernoulli	Umumnya stabil
Skalabilitas ke Model Kompleks	Sulit diterapkan pada model black-box yang sangat kompleks	Cocok untuk model black-box modern
Kesensitifan terhadap Noise	Sangat sensitif terhadap besarnya perturbasi	Tidak terlalu sensitif terhadap noise data
Kemudahan Implementasi	Cukup rumit, perlu simulasi dan program khusus	Relatif sederhana, banyak package tersedia
Ketergantungan pada Likelihood	Perlu asumsi tertentu terhadap distribusi error	Tidak bergantung pada formulasi likelihood

Kesimpulan

Studi ini mengkaji penggunaan Generalised Degrees of Freedom (GDF) sebagai pendekatan alternatif untuk menghitung kompleksitas model pada algoritma black-box yang tidak berbasis likelihood, seperti random forest, neural network, dan boosted regression trees. Dibandingkan dengan pendekatan tradisional seperti Akaike Information Criterion (AIC) yang bergantung pada fungsi likelihood, GDF menawarkan potensi untuk memperluas penerapan AIC ke model-model modern yang kompleks.

Melalui serangkaian simulasi pada data Gaussian dan Bernoulli, ditemukan bahwa: - Untuk data Gaussian, estimasi GDF relatif stabil dan mendekati hasil evaluasi menggunakan cross-validation. - Namun, untuk data Bernoulli (biner), GDF menunjukkan ketidakstabilan yang signifikan, sangat bergantung pada jumlah data yang diperturbasi, serta memerlukan komputasi yang jauh lebih intensif. - Sebaliknya, metode 10-fold cross-validation lebih stabil, cepat, dan praktis dalam berbagai kondisi, baik untuk data Gaussian maupun Bernoulli.

meskipun secara teoritis GDF dapat memperluas penerapan AIC ke berbagai model, secara praktik penerapannya masih menghadapi keterbatasan, terutama untuk data non-Gaussian dan model yang sangat kompleks. Oleh karena itu, cross-validation tetap menjadi metode evaluasi model yang lebih direkomendasikan untuk model black-box modern.

Implikasi Praktis

Temuan dalam artikel ini memiliki implikasi penting bagi praktisi statistik dan data scientist yang menggunakan model black-box, seperti random forest, neural network, dan boosted trees. Mengingat bahwa Generalised Degrees of Freedom (GDF) menunjukkan performa yang tidak stabil dan mahal secara komputasi pada data biner, maka pengguna disarankan untuk lebih mengandalkan metode evaluasi seperti k-fold cross-validation yang lebih efisien, stabil, dan bebas asumsi distribusi. Ini penting terutama dalam konteks pemodelan dengan dataset besar atau ketika proses evaluasi model harus diulang berkali-kali.

Keterbatasan Penelitian

Salah satu keterbatasan utama dalam studi ini adalah fokusnya pada data biner (Bernoulli), sehingga generalisasi hasil ke jenis data lain seperti Gaussian, Poisson, atau Multinomial perlu dilakukan dengan hati-hati. Selain itu, estimasi GDF sangat bergantung pada jumlah dan jenis perubahan kecil yang dilakukan pada data, menjadikannya sangat sensitif terhadap desain eksperimental. Pengujian hanya dilakukan pada beberapa jenis model black-box, sehingga performa GDF dalam konteks algoritma lain belum dieksplorasi secara menyeluruh.

Rencana Penelitian Lanjutan

Penelitian selanjutnya dapat difokuskan pada pengembangan pendekatan GDF yang lebih stabil untuk data non-Gaussian, seperti dengan metode perturbasi yang lebih adaptif atau menggunakan teknik estimasi berbasis bootstrap. Selain itu, eksplorasi aplikasi GDF pada berbagai jenis model non-linear atau semi-parametrik juga dapat menjadi arah yang potensial. Penelitian lanjutan juga dapat menginvestigasi cara-cara menggabungkan GDF dengan metrik evaluasi lain (misalnya log-loss atau Brier score) dalam kerangka pemilihan model yang lebih komprehensif.

Computing AIC for black-box models using Generalised Degrees of Freedom: a comparison with cross-validation

pradytha galuh

2025-06-23