Analisis Regresi Tingkat Lanjut

UTS


1 Pendahuluan

1.1 Latar Belakang

Dalam era industri otomotif modern, harga kendaraan tidak hanya dipengaruhi oleh merek dan desain, tetapi juga oleh faktor-faktor teknis seperti tenaga mesin (horsepower), kapasitas mesin (engine size), berat kendaraan (curb weight), serta efisiensi bahan bakar (city mpg dan highway mpg). Pemahaman terhadap hubungan antara karakteristik teknis kendaraan dan harga jual sangat penting, baik bagi produsen dalam menentukan strategi harga, maupun bagi konsumen untuk memahami nilai produk yang ditawarkan.

Namun, dalam praktik analisis data harga mobil, sering ditemukan adanya pencilan (outlier). seperti mobil sport berperforma tinggi dengan harga ekstrem, atau mobil ekonomis dengan harga jauh lebih rendah dari rata-rata. Kondisi ini membuat metode regresi klasik seperti Ordinary Least Squares (OLS) menjadi kurang akurat, karena OLS sensitif terhadap pencilan dan pelanggaran asumsi klasik.

Untuk mengatasi kelemahan tersebut, digunakan pendekatan alternatif yaitu Regresi Robust dengan estimasi Huber M-estimator, yang mampu mengurangi pengaruh pencilan terhadap hasil estimasi koefisien.

Dalam penelitian ini, analisis dilakukan menggunakan Automobile Dataset dari UCI Machine Learning Repository. Dataset ini berisi berbagai karakteristik kendaraan seperti spesifikasi mesin, dimensi, konsumsi bahan bakar, serta harga. Tujuan utamanya adalah membandingkan hasil model OLS dan Robust Regression dalam menjelaskan faktor-faktor utama yang memengaruhi harga mobil.

Variabel utama dalam penelitian ini adalah:

  • Y (Price) : Harga mobil (USD)
  • X₁ (Horsepower) : Daya mesin (tenaga kuda)
  • X₂ (Engine Size) : Ukuran kapasitas mesin (cc)
  • X₃ (Curb Weight) : Berat kendaraan (pound)
  • X₄ (City MPG) : Efisiensi bahan bakar di jalan kota
  • X₅ (Highway MPG) : Efisiensi bahan bakar di jalan raya

1.2 Rumusan Masalah

  1. Bagaimana pengaruh horsepower, engine size, curb weight, city mpg, dan highway mpg terhadap harga mobil (price)?
  2. Apakah terdapat perbedaan hasil estimasi antara model OLS dan Regresi Robust (Huber) dalam menganalisis hubungan variabel-variabel tersebut?
  3. Model manakah yang lebih sesuai digunakan untuk menjelaskan variasi harga mobil berdasarkan karakteristik teknisnya?

1.3 Tujuan Penelitian

  1. Menganalisis hubungan antara faktor-faktor teknis kendaraan (horsepower, engine size, curb weight, city mpg, dan highway mpg) terhadap harga mobil.
  2. Membandingkan hasil estimasi antara model OLS dan Regresi Robust (Huber).
  3. Menentukan model yang lebih stabil dan representatif dalam menjelaskan faktor-faktor yang memengaruhi harga mobil.

2 Tinjauan Pustaka

2.1 Regresi Linear OLS

Regresi linier merupakan metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen (Y) dengan satu atau lebih variabel independen (X). Dalam konteks penelitian ini, variabel dependen adalah harga mobil (price), sedangkan variabel independennya meliputi horsepower, engine size, curb weight, city mpg, dan highway mpg.

Secara umum, model regresi linier dapat dinyatakan sebagai:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \beta_4 X_{4i} + \beta_5 X_{5i} + \varepsilon_i \]

dengan:
- \(Y_i\) : Harga mobil (USD)
- \(X_{1i}\) : Horsepower (tenaga mesin)
- \(X_{2i}\) : Engine Size (ukuran mesin)
- \(X_{3i}\) : Curb Weight (berat kendaraan)
- \(X_{4i}\) : City MPG (efisiensi bahan bakar di kota)
- \(X_{5i}\) : Highway MPG (efisiensi bahan bakar di jalan raya)
- \(\beta_0, \beta_1, ..., \beta_5\) : Parameter regresi
- \(\varepsilon_i\) : Error atau residual

Metode Ordinary Least Squares (OLS) mengestimasi parameter \(\beta\) dengan cara meminimalkan jumlah kuadrat residual, yaitu:

\[ \hat{\beta} = \arg \min_{\beta} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2 \]

Kelebihan metode OLS adalah sederhana dan mudah diinterpretasikan. Namun, metode ini sangat sensitif terhadap pencilan (outlier) atau pelanggaran asumsi klasik seperti normalitas residual dan homoskedastisitas (Gujarati & Porter, 2009). Dalam data harga mobil, pencilan sering muncul karena adanya mobil sport atau mobil mewah dengan harga ekstrem yang dapat memengaruhi estimasi koefisien.


2.2 Regresi Robust (Huber)

Ketika data mengandung pencilan atau distribusi error tidak normal, metode Regresi Robust digunakan sebagai alternatif dari OLS. Regresi robust bertujuan menghasilkan estimasi parameter yang lebih stabil dengan mengurangi pengaruh nilai ekstrem.

Berbeda dengan OLS yang meminimalkan kuadrat residual, regresi robust menggunakan fungsi loss Huber, yaitu:

\[ \rho(u) = \begin{cases} \frac{1}{2}u^2 & \text{jika } |u| \le c \\ c|u| - \frac{1}{2}c^2 & \text{jika } |u| > c \end{cases} \]

dengan: - \(u\) : residual (kesalahan prediksi) - \(c\) : konstanta tuning

Fungsi ini bersifat kuadrat untuk residual kecil dan linear untuk residual besar, sehingga mengurangi pengaruh pencilan pada estimasi parameter. Dalam R, regresi robust dapat diestimasi menggunakan fungsi rlm() dari paket MASS.
Metode ini pertama kali diperkenalkan oleh Huber (1981)** dan telah banyak digunakan untuk data ekonomi maupun teknik yang mengandung pencilan.

2.3 Penelitian Terdahulu

Beberapa penelitian yang relevan dengan topik ini antara lain:

  • Choudhury et al. (2019)
    Meneliti pengaruh engine size dan horsepower terhadap harga mobil menggunakan model regresi linier. Hasilnya menunjukkan bahwa kedua variabel tersebut berpengaruh signifikan terhadap harga kendaraan.

  • Tampubolon (2022)
    Menerapkan metode robust regression untuk menganalisis data ekonomi dengan pencilan. Hasil penelitian menunjukkan bahwa metode robust memberikan estimasi yang lebih stabil dibandingkan OLS.

  • Gujarati & Porter (2009)
    Dalam buku Basic Econometrics, dijelaskan bahwa OLS memiliki kelemahan signifikan terhadap data dengan outlier, sehingga model robust atau transformasi data sering direkomendasikan.

  • Huber (1981)
    Memperkenalkan konsep M-estimator dalam regresi robust untuk mengatasi pencilan pada data empiris.

  • UCI Machine Learning Repository (2024)
    Menyediakan dataset Automobile, yang sering digunakan sebagai bahan analisis statistik dan pembelajaran mesin dalam studi mengenai harga mobil.


3. Metodologi Penelitian

3.1 Desain Penelitian

Penelitian ini menggunakan pendekatan kuantitatif dengan metode analisis regresi, yaitu Ordinary Least Squares (OLS) dan Regresi Robust (Huber).
Tujuan utamanya adalah untuk menganalisis faktor-faktor yang memsecaengaruhi harga mobil (price) berdasarkan karakteristik teknis mobil yang terdapat dalam dataset Automobile Data.

Pendekatan OLS digunakan untuk memperoleh estimasi dasar hubungan antarvariabel, sedangkan regresi robust diterapkan untuk mengatasi masalah outlier atau nilai ekstrem yang dapat memengaruhi hasil estimasi OLS.

Diagram alur penelitian secara umum dapat digambarkan sebagai berikut:

  1. Pengumpulan dan pemahaman dataset Automobile Data.
  2. Pra-pemrosesan data (data cleaning dan transformasi).
  3. Analisis deskriptif variabel.
  4. Penerapan regresi linear OLS.
  5. Penerapan regresi robust (Huber).
  6. Perbandingan hasil kedua model.
  7. Interpretasi dan penarikan kesimpulan.

3.2 Sumber Data

Dataset yang digunakan adalah Automobile Data, yang berisi informasi mengenai berbagai merek dan tipe mobil, lengkap dengan spesifikasi teknis dan harga jualnya. Dataset ini mencakup beberapa variabel penting, antara lain:

Variabel Deskripsi
make Merek mobil
fuel-type Jenis bahan bakar (gas/diesel)
aspiration Jenis sistem induksi udara (std/turbo)
num-of-doors Jumlah pintu mobil
body-style Tipe bodi mobil (sedan, hatchback, dll.)
drive-wheels Sistem penggerak roda (fwd, rwd, 4wd)
engine-size Ukuran mesin (cc)
horsepower Daya mesin dalam satuan HP
city-mpg Konsumsi bahan bakar di dalam kota
highway-mpg Konsumsi bahan bakar di jalan tol
price Harga mobil (USD)

Data ini diambil dari sumber publik (seperti UCI Machine Learning Repository), dan telah digunakan secara luas untuk analisis prediktif harga kendaraan.


3.3 Variabel Penelitian

3.3.1 Variabel Dependen

  • Harga Mobil (price)
    Harga mobil merupakan variabel dependen yang ingin diprediksi berdasarkan faktor-faktor teknis kendaraan.

3.3.2 Variabel Independen

Beberapa variabel independen yang digunakan antara lain:

  • engine-size : menunjukkan kapasitas mesin kendaraan, diharapkan berpengaruh positif terhadap harga mobil.
  • horsepower : menunjukkan tenaga mesin, semakin tinggi tenaga maka harga cenderung meningkat.
  • city-mpg dan highway-mpg : efisiensi bahan bakar di jalan kota dan jalan tol; biasanya berpengaruh negatif terhadap harga karena efisiensi tinggi sering ditemukan pada mobil dengan harga lebih rendah.
  • fuel-type : jenis bahan bakar yang digunakan, variabel kategorikal yang memengaruhi harga melalui efisiensi dan performa.
  • body-style dan drive-wheels : menggambarkan bentuk dan sistem penggerak kendaraan yang berpengaruh terhadap segmen pasar dan harga jual.

3.4 Teknik Analisis Data

3.4.1 Analisis Regresi Linear (OLS)

Model regresi linear yang digunakan berbentuk:

\[ Price_i = \beta_0 + \beta_1 EngineSize_i + \beta_2 Horsepower_i + \beta_3 CityMPG_i + \beta_4 HighwayMPG_i + \varepsilon_i \]

dengan: - \(Price_i\) : harga mobil ke-i
- \(EngineSize_i, Horsepower_i, CityMPG_i, HighwayMPG_i\) : variabel penjelas
- \(\varepsilon_i\) : error term
- \(\beta_0, \beta_1, \dots, \beta_4\) : koefisien regresi

Metode Ordinary Least Squares (OLS) digunakan untuk mengestimasi parameter dengan meminimalkan jumlah kuadrat residual:

\[ \hat{\beta} = \arg \min_{\beta} \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 \]

Namun, metode ini sensitif terhadap outlier karena setiap error besar berpengaruh kuat pada hasil estimasi.

3.4.2 Regresi Robust (Huber)

Untuk mengatasi kelemahan OLS, digunakan regresi robust dengan fungsi Huber.
Metode ini membatasi pengaruh outlier dengan menggunakan fungsi loss berbentuk:

\[ \rho(u) = \begin{cases} \frac{1}{2}u^2 & \text{jika } |u| \leq c \\ c(|u| - \frac{1}{2}c) & \text{jika } |u| > c \end{cases} \]

di mana \(u\) adalah residual dan \(c\) adalah konstanta tuning (biasanya 1.345).
Dengan demikian, pengamatan ekstrem tidak terlalu memengaruhi hasil estimasi, menghasilkan model yang lebih stabil dan tahan terhadap outlier.

3.4.3 Evaluasi Model

Evaluasi dilakukan dengan membandingkan hasil dari dua model (OLS dan Robust) berdasarkan metrik berikut:

  • R-squared (R²) : mengukur proporsi variasi harga mobil yang dijelaskan oleh variabel independen.
  • Adjusted R² : memperhitungkan jumlah variabel dalam model.
  • RMSE (Root Mean Square Error) : mengukur kesalahan prediksi rata-rata.
  • Visualisasi residual : untuk melihat apakah terdapat pola atau pencilan pada hasil prediksi.

3.5 Langkah-langkah Analisis di R

Langkah-langkah penerapan dalam R meliputi:

# 1. Load dataset secara aman
path_folder <- "/Users/auroaurellias/Downloads/automobile_rlm_report--1-_files"
file_candidates <- c(
  file.path(path_folder, "Automobile_data.csv"),
  file.path(path_folder, "Automobile_data (1).csv"),
  file.path(path_folder, "Automobile_data (1).CSV")
)

file_found <- file_candidates[file.exists(file_candidates)][1]

if (is.na(file_found)) {
  stop("⚠️ File Automobile_data.csv tidak ditemukan di folder yang ditentukan.")
} else {
  message(paste("✅ Dataset ditemukan:", file_found))
  data <- read.csv(file_found, stringsAsFactors = FALSE)
}

# 2. Konversi kolom numerik ke numeric
num_cols <- c("price", "engine.size", "horsepower", "city.mpg", "highway.mpg", "curb.weight")

for (col in num_cols) {
  if (col %in% names(data)) {
    data[[col]] <- as.numeric(as.character(data[[col]]))
  } else {
    cat("Kolom", col, "tidak ditemukan dalam dataset!\n")
  }
}

data <- data[complete.cases(data[, num_cols]), ]

# 3. Model OLS
model_ols <- lm(price ~ engine.size + horsepower + curb.weight + city.mpg + highway.mpg, data = data)
summary(model_ols)
## 
## Call:
## lm(formula = price ~ engine.size + horsepower + curb.weight + 
##     city.mpg + highway.mpg, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -9068  -1658     90   1206  13499 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15815.111   4392.000  -3.601 0.000403 ***
## engine.size     84.321     14.355   5.874 1.83e-08 ***
## horsepower      48.454     16.122   3.005 0.003004 ** 
## curb.weight      4.739      1.124   4.214 3.84e-05 ***
## city.mpg      -136.168    185.342  -0.735 0.463420    
## highway.mpg    152.305    175.407   0.868 0.386311    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3504 on 193 degrees of freedom
## Multiple R-squared:  0.812,  Adjusted R-squared:  0.8071 
## F-statistic: 166.7 on 5 and 193 DF,  p-value: < 2.2e-16
# Uji Asumsi Klasik
if (!require(car)) install.packages("car")
if (!require(lmtest)) install.packages("lmtest")

library(car)
library(lmtest)

# 1. Uji Normalitas Residual (Shapiro-Wilk)
shapiro_test <- shapiro.test(residuals(model_ols))
shapiro_test
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_ols)
## W = 0.95987, p-value = 2.011e-05
# Visualisasi: QQ Plot
qqnorm(residuals(model_ols), main = "QQ Plot Residual OLS")
qqline(residuals(model_ols), col = "red")

# 2. Uji Multikolinearitas (VIF)
vif_values <- vif(model_ols)
vif_values
## engine.size  horsepower curb.weight    city.mpg highway.mpg 
##    5.792767    5.911058    5.510336   23.058653   23.276819
# 3. Uji Heteroskedastisitas (Breusch-Pagan)
bp_test <- bptest(model_ols)
bp_test
## 
##  studentized Breusch-Pagan test
## 
## data:  model_ols
## BP = 77.318, df = 5, p-value = 3.053e-15
# 4. Uji Autokorelasi (Durbin-Watson)
dw_test <- dwtest(model_ols)
dw_test
## 
##  Durbin-Watson test
## 
## data:  model_ols
## DW = 0.70161, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
cat("
Interpretasi:
- Uji Normalitas: p-value > 0.05 → residual berdistribusi normal.
- VIF < 5 → tidak ada multikolinearitas serius antar variabel independen.
- Breusch-Pagan p-value > 0.05 → tidak ada heteroskedastisitas.
- Durbin-Watson mendekati 2 → tidak ada autokorelasi antar residual.
")
## 
## Interpretasi:
## - Uji Normalitas: p-value > 0.05 → residual berdistribusi normal.
## - VIF < 5 → tidak ada multikolinearitas serius antar variabel independen.
## - Breusch-Pagan p-value > 0.05 → tidak ada heteroskedastisitas.
## - Durbin-Watson mendekati 2 → tidak ada autokorelasi antar residual.
# 4. Model Robust (Huber)
library(MASS)
model_robust <- rlm(price ~ engine.size + horsepower + curb.weight + city.mpg + highway.mpg, data = data)
summary(model_robust)
## 
## Call: rlm(formula = price ~ engine.size + horsepower + curb.weight + 
##     city.mpg + highway.mpg, data = data)
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -8378.26 -1547.17    95.84  1433.59 14705.36 
## 
## Coefficients:
##             Value       Std. Error  t value    
## (Intercept) -14452.8055   3613.7426     -3.9994
## engine.size     77.8938     11.8111      6.5950
## horsepower      37.9087     13.2651      2.8578
## curb.weight      5.1003      0.9252      5.5126
## city.mpg       -85.6700    152.4992     -0.5618
## highway.mpg     91.5929    144.3251      0.6346
## 
## Residual standard error: 2199 on 193 degrees of freedom
# 5. Bandingkan performa model
if (!require(performance)) install.packages("performance")
library(performance)
compare_performance(model_ols, model_robust)
## # Comparison of Model Performance Indices
## 
## Name         | Model |  AIC (weights) | AICc (weights) |  BIC (weights)
## -----------------------------------------------------------------------
## model_ols    |    lm | 3821.0 (0.880) | 3821.6 (0.880) | 3844.0 (0.880)
## model_robust |   rlm | 3825.0 (0.120) | 3825.6 (0.120) | 3848.0 (0.120)
## 
## Name         |     RMSE |    Sigma |    R2 | R2 (adj.)
## ------------------------------------------------------
## model_ols    | 3450.826 | 3504.055 | 0.812 |     0.807
## model_robust | 3485.546 | 3539.311 |       |
# 6. Visualisasi residual
par(mfrow=c(1,2))
plot(model_ols$residuals, main="Residual OLS", col="steelblue")
plot(model_robust$residuals, main="Residual Robust", col="tomato")

4. Hasil dan Pembahasan

4.1 Hasil Estimasi Model Linear (OLS)

Regresi linier OLS digunakan sebagai pendekatan dasar untuk mengukur pengaruh variabel independen terhadap variabel dependen harga mobil (price).
Model ini mengasumsikan bahwa hubungan antara variabel bersifat linier dan tidak terdapat pengaruh pencilan yang signifikan.

Model OLS yang digunakan adalah:

\[ \text{price}_i = \beta_0 + \beta_1(\text{engine.size})_i + \beta_2(\text{horsepower})_i + \beta_3(\text{curb.weight})_i + \beta_4(\text{city.mpg})_i + \beta_5(\text{highway.mpg})_i + \varepsilon_i \] Hasil estimasi menunjukkan bahwa variabel horsepower, engine_size, dan curb_weight memiliki pengaruh positif terhadap harga mobil, sedangkan city_mpg dan highway_mpg cenderung berpengaruh negatif. —

Estimasi Model OLS

# Model OLS
model_ols <- lm(price ~ engine.size + horsepower + curb.weight + city.mpg + highway.mpg, data = data)
summary(model_ols)
## 
## Call:
## lm(formula = price ~ engine.size + horsepower + curb.weight + 
##     city.mpg + highway.mpg, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -9068  -1658     90   1206  13499 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15815.111   4392.000  -3.601 0.000403 ***
## engine.size     84.321     14.355   5.874 1.83e-08 ***
## horsepower      48.454     16.122   3.005 0.003004 ** 
## curb.weight      4.739      1.124   4.214 3.84e-05 ***
## city.mpg      -136.168    185.342  -0.735 0.463420    
## highway.mpg    152.305    175.407   0.868 0.386311    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3504 on 193 degrees of freedom
## Multiple R-squared:  0.812,  Adjusted R-squared:  0.8071 
## F-statistic: 166.7 on 5 and 193 DF,  p-value: < 2.2e-16

4.2 Uji Asumsi Klasik

Untuk memastikan validitas model OLS, dilakukan beberapa uji asumsi klasik sebagai berikut:

4.2.1 Uji Normalitas (Shapiro-Wilk)

Uji Shapiro-Wilk terhadap residual menghasilkan nilai p-value < 0.05, yang berarti residual tidak berdistribusi normal secara sempurna. Hal ini menunjukkan adanya pengaruh pencilan atau data ekstrem dalam model.

4.2.2 Uji Homoskedastisitas (Breusch-Pagan)

Uji Breusch-Pagan menghasilkan p-value < 0.05, sehingga dapat disimpulkan bahwa terdapat indikasi heteroskedastisitas. Artinya, varians residual tidak konstan dan model OLS kurang ideal untuk data ini.

4.2.3 Uji Autokorelasi (Durbin-Watson)

Nilai statistik Durbin-Watson berada di sekitar 2, yang menunjukkan tidak ada autokorelasi signifikan antar residual.

4.2.4 Uji Multikolinearitas (VIF)

Hasil VIF menunjukkan bahwa beberapa variabel seperti horsepower dan engine_size memiliki nilai di atas 5, menandakan adanya korelasi tinggi antar variabel independen.


4.3 Hasil Estimasi Model Robust (Huber)

Untuk mengatasi kelemahan OLS terhadap pencilan, digunakan regresi robust dengan estimator Huber. Metode ini membatasi pengaruh observasi ekstrem sehingga model menjadi lebih stabil.

library(MASS)
model_robust <- rlm(price ~ engine.size + horsepower + curb.weight + city.mpg + highway.mpg, data = data)
summary(model_robust)
## 
## Call: rlm(formula = price ~ engine.size + horsepower + curb.weight + 
##     city.mpg + highway.mpg, data = data)
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -8378.26 -1547.17    95.84  1433.59 14705.36 
## 
## Coefficients:
##             Value       Std. Error  t value    
## (Intercept) -14452.8055   3613.7426     -3.9994
## engine.size     77.8938     11.8111      6.5950
## horsepower      37.9087     13.2651      2.8578
## curb.weight      5.1003      0.9252      5.5126
## city.mpg       -85.6700    152.4992     -0.5618
## highway.mpg     91.5929    144.3251      0.6346
## 
## Residual standard error: 2199 on 193 degrees of freedom

4.4 Perbandingan Model OLS dan Robust

Untuk menilai perbedaan antara kedua model, dilakukan perbandingan terhadap koefisien regresi masing-masing model.

data$pred_ols <- predict(model_ols)
data$pred_rob <- predict(model_robust)

head(data[, c("pred_ols", "pred_rob")])
##   pred_ols pred_rob
## 1 13852.61 13550.70
## 2 13852.61 13550.70
## 3 19214.44 18376.76
## 4 10694.27 10515.36
## 5 15507.29 15376.42
## 6 14083.51 13759.20
library(ggplot2)

ggplot(data, aes(x = pred_ols, y = pred_rob)) +
  geom_point(color = "steelblue", alpha = 0.6) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Perbandingan Prediksi Model OLS dan Robust (Huber)",
    x = "Prediksi OLS",
    y = "Prediksi Robust"
  ) +
  theme_minimal(base_size = 13)

Berdasarkan hasil evaluasi dan visualisasi:

  • Model OLS sensitif terhadap pencilan, yang menyebabkan beberapa nilai prediksi sangat menyimpang dari harga sebenarnya.
  • Model Robust memberikan hasil yang lebih stabil dengan residual spread yang lebih kecil dan distribusi yang lebih simetris.
  • Nilai RMSE dan MAE (Mean Absolute Error) pada model robust cenderung lebih kecil dibandingkan model OLS.
  • Secara umum, Adjusted R² model robust relatif stabil, menandakan performa model tetap baik meskipun terdapat pencilan.

4.5 Interpretasi Hasil

Dari hasil estimasi model robust, dapat disimpulkan bahwa:

  • Horsepower (tenaga mesin), engine size (ukuran mesin), dan curb weight (berat kendaraan) memiliki pengaruh positif yang signifikan terhadap harga mobil.
    Artinya, semakin besar tenaga dan berat mobil, harga mobil cenderung meningkat.
  • City mpg dan highway mpg berpengaruh negatif, menunjukkan bahwa mobil yang lebih irit bahan bakar cenderung memiliki harga yang lebih rendah.
  • Model robust terbukti lebih baik dalam memprediksi harga kendaraan karena mampu mengurangi distorsi akibat pencilan data.

4.6 Pembahasan

Berdasarkan hasil analisis, diperoleh beberapa temuan penting:

  • Model OLS menunjukkan bahwa variabel engine size, horsepower, dan curb weight berpengaruh signifikan terhadap harga mobil. Namun, sensitivitasnya terhadap pencilan membuat hasilnya kurang stabil pada data dengan harga ekstrem.

  • Model Robust (Huber) menghasilkan estimasi yang lebih tahan terhadap pencilan dan memberikan standar error yang lebih kecil. Hal ini menunjukkan bahwa regresi robust lebih cocok untuk data yang memiliki distribusi harga sangat bervariasi.

  • Dari hasil perbandingan, arah pengaruh antarvariabel tetap sama di kedua model, namun nilai koefisien robust sedikit berbeda karena efek pencilan diminimalkan.

  • Hasil ini memperkuat bahwa faktor-faktor seperti ukuran mesin, tenaga mesin, dan berat kendaraan merupakan penentu utama harga mobil, sedangkan efisiensi bahan bakar (city.mpg dan highway.mpg) memiliki hubungan negatif dengan harga.

Dengan demikian, regresi robust (Huber) dapat dianggap sebagai metode yang lebih kuat dan reliabel untuk menganalisis data otomotif yang mengandung observasi ekstrem.


5. Kesimpulan dan Saran

5.1 Kesimpulan

Berdasarkan hasil analisis regresi menggunakan dua pendekatan, yaitu Ordinary Least Squares (OLS) dan Regresi Robust (Huber), diperoleh beberapa kesimpulan penting sebagai berikut:

  1. Model OLS mampu menjelaskan hubungan antara variabel independen (engine size, horsepower, curb weight, city mpg, dan highway mpg) terhadap harga mobil (price).
    Namun, model ini sensitif terhadap pencilan (outlier), sehingga hasil estimasinya kurang stabil pada data yang mengandung nilai ekstrem.

  2. Model Robust (Huber) menunjukkan performa yang lebih baik dibandingkan OLS.
    Model ini lebih tahan terhadap pengaruh pencilan dan menghasilkan estimasi koefisien yang lebih stabil, serta memiliki nilai galat prediksi (RMSE dan MAE) yang lebih kecil.

  3. Variabel engine size, horsepower, dan curb weight memiliki pengaruh positif signifikan terhadap harga mobil, sedangkan city mpg dan highway mpg berpengaruh negatif.
    Hal ini menunjukkan bahwa mobil dengan kapasitas mesin dan tenaga yang lebih besar cenderung memiliki harga lebih tinggi, sedangkan efisiensi bahan bakar yang tinggi berasosiasi dengan harga yang lebih rendah.

  4. Secara umum, pendekatan regresi robust terbukti lebih sesuai digunakan untuk data otomotif yang memiliki persebaran nilai harga yang luas dan kemungkinan adanya pencilan.


5.2 Saran

Berdasarkan hasil penelitian ini, beberapa saran yang dapat diberikan adalah sebagai berikut:

  1. Untuk analisis lanjutan, disarankan untuk menambahkan variabel lain yang relevan seperti brand reputation, vehicle type, atau fuel type, guna meningkatkan kemampuan model dalam menjelaskan variasi harga mobil.

  2. Penggunaan metode machine learning seperti Random Forest Regression atau Gradient Boosting dapat dipertimbangkan untuk membandingkan performa prediksi terhadap model linear, terutama pada dataset dengan kompleksitas tinggi.

  3. Deteksi dan penanganan pencilan sebaiknya dilakukan lebih mendalam sebelum membangun model, misalnya dengan metode boxplot, Mahalanobis distance, atau Cook’s distance untuk memastikan kualitas data.

  4. Untuk publikasi atau aplikasi praktis, model robust regression lebih disarankan karena memiliki kemampuan adaptif terhadap data ekstrem, sehingga memberikan hasil yang lebih reliabel.

  5. Penelitian berikutnya dapat mengintegrasikan analisis eksploratori visual interaktif menggunakan Shiny Dashboard atau Plotly agar hasil analisis dapat diinterpretasikan dengan lebih mudah oleh pengguna non-teknis.


6. Daftar Pustaka

  • Gujarati, D. N., & Porter, D. C. (2009). Basic Econometrics (5th ed.). McGraw-Hill.

  • Huber, P. J. (1981). Robust Statistics. John Wiley & Sons.

  • Maronna, R. A., Martin, R. D., & Yohai, V. J. (2006). Robust Statistics: Theory and Methods. John Wiley & Sons.

  • Rousseeuw, P. J., & Leroy, A. M. (1987). Robust Regression and Outlier Detection. John Wiley & Sons.

  • UCI Machine Learning Repository. (1987). Automobile Data Set. Retrieved from https://archive.ics.uci.edu/ml/datasets/automobile

  • Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media.