Optimisasi Statistika - Penggunaan OLS dan MLE

Video Pembelajaran - P1

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materiopstat

Ordinary Least Squares (OLS)

Konsep Dasar

OLS adalah metode estimasi parameter dalam regresi linear yang bertujuan meminimalkan Residual Sum of Squares (RSS): \[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] dimana:

  • \(y_i\): nilai aktual/observasi,

  • \(\hat{y}_i = \beta_0 + \beta_1 x_i\): nilai prediksi berdasarkan model regresi linear sederhana.

Turunan OLS

  1. Fungsi Obyektif: \[ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \]
  2. Syarat Perlu: Turunan parsial terhadap \(\beta_0\) dan \(\beta_1\) harus nol: \[ \frac{\partial S}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0 \] \[ \frac{\partial S}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \]
  3. Penyelesaian Sistem Persamaan Linier: Dengan menyelesaikan sistem persamaan ini, diperoleh: \[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \] \[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

Kelebihan dan Kekurangan OLS

  • Kelebihan:
    1. Solusi langsung (tidak iteratif) untuk masalah regresi linear.
    2. Efisien jika asumsi regresi dipenuhi (homoskedastisitas, linearitas, dll.).
  • Kekurangan:
    1. Rentan terhadap outlier.
    2. Tidak cocok untuk data dengan multikolinearitas tinggi.

Sintaks R untuk Regresi Linear

# Data simulasi
set.seed(123)
x <- 1:10
y <- 2.5 + 0.8 * x + rnorm(10, mean = 0, sd = 1)

# Model regresi linear
model <- lm(y ~ x)

# Ringkasan model
summary(model)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.1348 -0.5624 -0.1393  0.3854  1.6814 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.0255     0.6673   4.534 0.001914 ** 
## x             0.7180     0.1075   6.677 0.000156 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9768 on 8 degrees of freedom
## Multiple R-squared:  0.8478, Adjusted R-squared:  0.8288 
## F-statistic: 44.58 on 1 and 8 DF,  p-value: 0.0001564
# Visualisasi data dan regresi
plot(x, y, main = "Scatterplot dengan Regresi Linear", pch = 16)
abline(model, col = "blue", lwd = 2)

Visualisasi dan Interpretasi

  • Plot: Memvisualisasikan hubungan antara \(x\) (variabel independen) dan \(y\) (variabel dependen).
  • Output Regresi: Menyediakan koefisien estimasi (\(\hat{\beta}_0, \hat{\beta}_1\)), \(R^2\), dan uji signifikansi.

Maximum Likelihood Estimation (MLE)

Konsep Dasar

MLE mencari parameter (\(\theta\)) yang memaksimalkan Likelihood Function: \[ L(\theta) = f(x_1, x_2, \dots, x_n | \theta) \] Fungsi likelihood merepresentasikan peluang data (\(x_1, x_2, \dots, x_n\)) terjadi dengan parameter tertentu.

Fungsi Log-Likelihood

Sering digunakan log-likelihood karena lebih mudah dimaksimalkan: \[ \ell(\theta) = \log L(\theta) \]

Distribusi Poisson (Contoh Aplikasi MLE)

  1. Likelihood Function: \[ L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} \]
  2. Log-Likelihood: \[ \ell(\lambda) = \sum_{i=1}^{n} \left( x_i \log \lambda - \lambda - \log(x_i!) \right) \]
  3. Turunan: \[ \frac{\partial \ell}{\partial \lambda} = \frac{\sum_{i=1}^{n} x_i}{\lambda} - n \]
  4. Solusi: \[ \hat{\lambda} = \frac{\sum_{i=1}^{n} x_i}{n} = \bar{x} \]

Sintaks R untuk MLE

# Data simulasi
set.seed(123)
data <- rpois(100, lambda = 4)

# Fungsi log-likelihood
log_likelihood <- function(lambda, data) {
  n <- length(data)
  ll <- sum(data) * log(lambda) - n * lambda
  return(-ll) # Negasi karena fungsi optim() meminimalkan
}

# Estimasi parameter menggunakan optim
result <- optim(par = 1, fn = log_likelihood, data = data, method = "BFGS")
lambda_hat <- result$par

# Hasil
cat("Estimasi lambda:", lambda_hat, "\n")
## Estimasi lambda: 4.089997

Perbandingan OLS dan MLE

Aspek OLS MLE
Fokus Meminimalkan kuadrat residual (RSS). Memaksimalkan fungsi likelihood.
Asumsi Distribusi Normalitas error (untuk inferensi). Tergantung distribusi yang dipilih (misalnya Poisson).
Kelebihan Mudah diterapkan pada regresi linear. Fleksibel untuk berbagai jenis distribusi.
Kekurangan Kurang robust terhadap outlier. Iteratif dan lebih kompleks secara komputasi.

Kesimpulan

  • OLS cocok untuk regresi linear sederhana dan multiple, terutama jika asumsi data terpenuhi.
  • MLE lebih fleksibel untuk berbagai kasus distribusi probabilitas, namun memerlukan proses iteratif.
  • Dalam praktik, kedua metode ini sering digunakan secara bersamaan atau saling melengkapi, misalnya dalam model regresi generalisasi (Generalized Linear Models).