Optimisasi Statistika - Penggunaan OLS dan MLE
Video Pembelajaran - P1
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materiopstat
Ordinary Least Squares (OLS)
Konsep Dasar
OLS adalah metode estimasi parameter dalam regresi linear yang bertujuan meminimalkan Residual Sum of Squares (RSS): \[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] dimana:
\(y_i\): nilai aktual/observasi,
\(\hat{y}_i = \beta_0 + \beta_1 x_i\): nilai prediksi berdasarkan model regresi linear sederhana.
Turunan OLS
- Fungsi Obyektif: \[ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \]
- Syarat Perlu: Turunan parsial terhadap \(\beta_0\) dan \(\beta_1\) harus nol: \[ \frac{\partial S}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0 \] \[ \frac{\partial S}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \]
- Penyelesaian Sistem Persamaan Linier: Dengan menyelesaikan sistem persamaan ini, diperoleh: \[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \] \[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]
Kelebihan dan Kekurangan OLS
- Kelebihan:
- Solusi langsung (tidak iteratif) untuk masalah regresi linear.
- Efisien jika asumsi regresi dipenuhi (homoskedastisitas, linearitas, dll.).
- Kekurangan:
- Rentan terhadap outlier.
- Tidak cocok untuk data dengan multikolinearitas tinggi.
Sintaks R untuk Regresi Linear
# Data simulasi
set.seed(123)
x <- 1:10
y <- 2.5 + 0.8 * x + rnorm(10, mean = 0, sd = 1)
# Model regresi linear
model <- lm(y ~ x)
# Ringkasan model
summary(model)##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.1348 -0.5624 -0.1393 0.3854 1.6814
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0255 0.6673 4.534 0.001914 **
## x 0.7180 0.1075 6.677 0.000156 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9768 on 8 degrees of freedom
## Multiple R-squared: 0.8478, Adjusted R-squared: 0.8288
## F-statistic: 44.58 on 1 and 8 DF, p-value: 0.0001564
# Visualisasi data dan regresi
plot(x, y, main = "Scatterplot dengan Regresi Linear", pch = 16)
abline(model, col = "blue", lwd = 2)Visualisasi dan Interpretasi
- Plot: Memvisualisasikan hubungan antara \(x\) (variabel independen) dan \(y\) (variabel dependen).
- Output Regresi: Menyediakan koefisien estimasi (\(\hat{\beta}_0, \hat{\beta}_1\)), \(R^2\), dan uji signifikansi.
Maximum Likelihood Estimation (MLE)
Konsep Dasar
MLE mencari parameter (\(\theta\)) yang memaksimalkan Likelihood Function: \[ L(\theta) = f(x_1, x_2, \dots, x_n | \theta) \] Fungsi likelihood merepresentasikan peluang data (\(x_1, x_2, \dots, x_n\)) terjadi dengan parameter tertentu.
Fungsi Log-Likelihood
Sering digunakan log-likelihood karena lebih mudah dimaksimalkan: \[ \ell(\theta) = \log L(\theta) \]
Distribusi Poisson (Contoh Aplikasi MLE)
- Likelihood Function: \[ L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} \]
- Log-Likelihood: \[ \ell(\lambda) = \sum_{i=1}^{n} \left( x_i \log \lambda - \lambda - \log(x_i!) \right) \]
- Turunan: \[ \frac{\partial \ell}{\partial \lambda} = \frac{\sum_{i=1}^{n} x_i}{\lambda} - n \]
- Solusi: \[ \hat{\lambda} = \frac{\sum_{i=1}^{n} x_i}{n} = \bar{x} \]
Sintaks R untuk MLE
# Data simulasi
set.seed(123)
data <- rpois(100, lambda = 4)
# Fungsi log-likelihood
log_likelihood <- function(lambda, data) {
n <- length(data)
ll <- sum(data) * log(lambda) - n * lambda
return(-ll) # Negasi karena fungsi optim() meminimalkan
}
# Estimasi parameter menggunakan optim
result <- optim(par = 1, fn = log_likelihood, data = data, method = "BFGS")
lambda_hat <- result$par
# Hasil
cat("Estimasi lambda:", lambda_hat, "\n")## Estimasi lambda: 4.089997
Perbandingan OLS dan MLE
| Aspek | OLS | MLE |
|---|---|---|
| Fokus | Meminimalkan kuadrat residual (RSS). | Memaksimalkan fungsi likelihood. |
| Asumsi Distribusi | Normalitas error (untuk inferensi). | Tergantung distribusi yang dipilih (misalnya Poisson). |
| Kelebihan | Mudah diterapkan pada regresi linear. | Fleksibel untuk berbagai jenis distribusi. |
| Kekurangan | Kurang robust terhadap outlier. | Iteratif dan lebih kompleks secara komputasi. |
Kesimpulan
- OLS cocok untuk regresi linear sederhana dan multiple, terutama jika asumsi data terpenuhi.
- MLE lebih fleksibel untuk berbagai kasus distribusi probabilitas, namun memerlukan proses iteratif.
- Dalam praktik, kedua metode ini sering digunakan secara bersamaan atau saling melengkapi, misalnya dalam model regresi generalisasi (Generalized Linear Models).