Ordinary Least Square

OLS merupakan estimasi parameter dalam model regresi linear dengan meminimalkan Jumlah Kuadrat Galat (JKG)/Residual Sum of Squares (RSS).

\[ JKG = \sum_{i=1}^n (y_i -\hat{y_i})^2 \]

nilai observasi/aktual \(y_i\) dan nilai prediksi \(\hat{y_i} = \beta_0+\beta_1X\). Jadi OLS merupakan metode untuk menghitung estimasi untuk mencari garis linear dari model Regresi Linear:

\[ Y = \beta_0+\beta_1X \]

Kelebihan dan kekurangan OLS

Kelebihan:

  1. solusi langsung (tidak iteratif) untuk masalah regresi linear.
  2. Efisien ketika asumsi regresi terpenuhi (homoskedastistias, linearitas, normalitas, multikolinearitas, dan independensi residual).

Kekurangan:

  1. Rentan terhadap outlier.
  2. tidak cocok untuk data dengan multikolinearitas yang tinggi.
# Regresi Linear: Data Simulasi
set.seed(123) 
x = 1:10
y = 2.5 + 0.8*x + rnorm(10, mean = 0, sd = 1)

# Model Regresi Linear 
model_lm = lm(y ~ x)
summary(model_lm) 
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.1348 -0.5624 -0.1393  0.3854  1.6814 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.0255     0.6673   4.534 0.001914 ** 
## x             0.7180     0.1075   6.677 0.000156 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9768 on 8 degrees of freedom
## Multiple R-squared:  0.8478, Adjusted R-squared:  0.8288 
## F-statistic: 44.58 on 1 and 8 DF,  p-value: 0.0001564

Output yang ditampilkan dari hasil regresi linear data simulasi tersebut menunjukkan bahwa

Residual standard error: 0.9768
Multiple R-squared:  0.8478
Adjusted R-squared:  0.8288 
F-statistic: 44.58
p-value: 0.0001564
# Visualisasi data dan regresi 
plot(x,y, main ="Scatterplot dengan Regresi Linear", pch = 16)
abline(model_lm, col = "red", lwd = 2)

Maximum Likelihood Estimation (MLE)

MLE mencari parameter \(\theta\) yang memaksimalkan fungsi likelihoodnya:

\[ L(\theta) = f(x_1,x_2,..,x_n|\theta) \]

fungsi ini merepresentasikan peluang terjadinya data \(x_1,x_2,...,x_n\) dengan parameter tertentu

Kemudian fungsi tersebut di-log-kan untuk memaksimalkan nilainya”

\[ ℓ(θ)=logL(θ) \]

# Data Simulasi dengan distribusi poisson
set.seed(123)
data = rpois(100, lambda = 4)

# Fungsi log-likelihood
log_likelihood = function(lambda, data){
  n = length(data)
  ll = sum(data)*log(lambda) - n*lambda
  return(-ll) # negasi karena fungsi optim() meminimalkan
}

# Estimasi parameter dengan gunakan optim 
result = optim(par = 1,
               fn = log_likelihood,
               data = data,
               method = "BFGS")
lambda_hat = result$par
# Hasil 
cat("Estimasi Lambda:", lambda_hat, "\n")
## Estimasi Lambda: 4.089997

Perbandingan OLS dan MLE

Aspek OLS MLE
Fokus Meminimalkan kuadrat residual (RSS). Memaksimalkan fungsi likelihood.
Asumsi Distribusi Normalitas error (untuk inferensi). Tergantung distribusi yang dipilih (misalnya Poisson).
Kelebihan Mudah diterapkan pada regresi linear. Fleksibel untuk berbagai jenis distribusi.
Kekurangan Kurang robust terhadap outlier. Iteratif dan lebih kompleks secara komputasi.

OLS cocok untuk model regresi linear sederhana dan linear berganda, terutama ketika asumsi data terpenuhi.

MLE lebih fleksibel untuk berbagai distribusi peluang, namun perlu proses iteratif

Kedua metode ini sering digunakan untuk saling melengkapi, misalnya dalam model regresi generalisasi (Generalized Linear Models/GLM)