Dataset yang digunakan bersumber dari Kaggle (Car Price Assignment). Dari dataset tersebut diambil 50 observasi pertama dengan variabel sebagai berikut:
| Variabel | Keterangan | Satuan | Peran |
|---|---|---|---|
price |
Harga mobil | USD | Dependen (Y) |
horsepower |
Tenaga mesin | HP | Independen (X₁) |
carheight |
Tinggi bodi mobil | inci | Independen (X₂) |
citympg |
Efisiensi BBM kota | MPG | Independen (X₃) |
Analisis dilakukan menggunakan Software R meliputi:
Regresi linier berganda merupakan metode statistika yang digunakan untuk mengetahui hubungan antara satu variabel dependen (Y) dengan dua atau lebih variabel independen (X). Model ini merupakan perluasan dari regresi linier sederhana yang hanya melibatkan satu variabel prediktor. Secara umum, model regresi linier berganda dinyatakan sebagai berikut:
\[\hat{Y} = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k + \varepsilon\]
Keterangan:
Koefisien regresi diestimasi menggunakan metode Ordinary Least Squares (OLS), yaitu dengan meminimalkan jumlah kuadrat residual antara nilai observasi dan nilai prediksi (Gujarati & Porter, 2009).
Uji signifikansi dilakukan untuk mengetahui apakah variabel independen berpengaruh nyata terhadap variabel dependen. Terdapat dua jenis uji yang umum digunakan:
a. Uji F (Simultan)
Uji F digunakan untuk menguji apakah seluruh variabel independen secara
bersama-sama berpengaruh signifikan terhadap variabel dependen.
Hipotesis: \(H_0: \beta_1 = \beta_2 = \cdots =
\beta_k = 0\). Apabila \(p\text{-value}
< \alpha\) (0,05), maka \(H_0\) ditolak, artinya model secara
keseluruhan signifikan (Montgomery et al., 2021).
b. Uji t (Parsial)
Uji t digunakan untuk menguji pengaruh masing-masing variabel independen
secara individual. Hipotesis: \(H_0: \beta_j =
0\). Apabila \(p\text{-value} <
\alpha\) (0,05), maka variabel tersebut berpengaruh signifikan
secara parsial (Montgomery et al., 2021).
Agar model regresi linier berganda dapat digunakan secara valid, beberapa asumsi klasik harus dipenuhi (Gujarati & Porter, 2009):
a. Normalitas — Residual diasumsikan berdistribusi normal. Pengujian menggunakan uji Shapiro-Wilk. Apabila \(p\text{-value} > 0{,}05\), residual dinyatakan berdistribusi normal (Razali & Wah, 2011).
b. Homoskedastisitas — Varians residual bersifat konstan di seluruh pengamatan. Pelanggaran disebut heteroskedastisitas. Pengujian menggunakan uji Breusch-Pagan.
c. Nonautokorelasi — Tidak terdapat korelasi antar residual. Pengujian menggunakan uji Durbin-Watson. Nilai DW yang mendekati 2 mengindikasikan tidak adanya autokorelasi (Montgomery et al., 2021).
d. Nonmultikolinearitas — Tidak terdapat hubungan linear kuat antar variabel independen. Deteksi menggunakan nilai Variance Inflation Factor (VIF). Apabila VIF < 10, model bebas dari multikolinearitas (Hair et al., 2019).
Berikut merupakan source code beserta penjelasan mengenai coding pada R.
| Source Code | Penjelasan |
|---|---|
read.csv(file.choose()) |
Membuka jendela penjelajah berkas (file explorer) pada komputer secara otomatis |
car_price[1:50, c(...)] |
Memotong atau mengambil sebagian data dari dataset utama |
summary(data_mobil) |
Menampilkan ringkasan statistik deskriptif secara cepat dari keempat variabel |
plot(x, y, ...) |
Melihat tren hubungan kekuatan antar variabel X dan Y |
main, xlab, ylab |
Memberikan judul dan label sumbu pada grafik |
col |
Mengatur warna titik-titik data pada grafik |
pch = 19 |
Mengubah bentuk simbol titik data menjadi lingkaran padat/berisi |
lm(price ~ ...) |
Memerintahkan R membuat model hubungan linear antara variabel secara matematis |
price ~ horsepower + carheight + citympg |
Menentukan struktur hubungan antarvariabel di dalam model |
data = data_mobil |
Memberi tahu R bahwa variabel diambil dari dataframe
data_mobil |
summary(model_regresi) |
Menampilkan ringkasan lengkap hasil estimasi model regresi |
residuals(model_regresi) |
Mengekstrak nilai sisaan (residual) dari model regresi |
shapiro.test(...) |
Melakukan uji normalitas Shapiro-Wilk terhadap residual |
library(lmtest) |
Mengaktifkan paket lmtest ke R |
bptest(...) |
Melakukan uji Breusch-Pagan untuk homoskedastisitas |
dwtest(...) |
Menjalankan uji Durbin-Watson untuk autokorelasi |
library(car) |
Mengaktifkan paket car |
vif(...) |
Menghitung nilai Variance Inflation Factor (VIF) tiap variabel independen |
# Import data
car_price <- read.csv(file.choose(),
fileEncoding = "latin1")
# Mengambil 50 baris dan 4 kolom data
data_mobil <- car_price[1:50, c("price", "horsepower", "carheight", "citympg")]
# Tampilkan data
data_mobil price horsepower carheight citympg
Min. : 5151 Min. : 48.0 Min. :47.80 Min. :13.00
1st Qu.: 7170 1st Qu.: 76.0 1st Qu.:50.85 1st Qu.:19.00
Median :10320 Median :100.5 Median :52.80 Median :24.00
Mean :14305 Mean :105.3 Mean :52.92 Mean :25.70
3rd Qu.:17645 3rd Qu.:119.5 3rd Qu.:54.30 3rd Qu.:30.75
Max. :41315 Max. :262.0 Max. :59.80 Max. :49.00
plot(data_mobil$horsepower, data_mobil$price,
main = "Horsepower vs Price",
xlab = "Horsepower", ylab = "Price",
col = "darkblue", pch = 19)Gambar 1. Scatter Plot Horsepower vs Price
plot(data_mobil$carheight, data_mobil$price,
main = "Car Height vs Price",
xlab = "Car Height", ylab = "Price",
col = "darkred", pch = 19)Gambar 2. Scatter Plot Car Height vs Price
plot(data_mobil$citympg, data_mobil$price,
main = "City MPG vs Price",
xlab = "City MPG", ylab = "Price",
col = "darkgreen", pch = 19)Gambar 3. Scatter Plot City MPG vs Price
Berdasarkan hasil eksplorasi visual menggunakan scatter plot, ditemukan indikasi hubungan awal antar variabel prediktor terhadap variabel dependen:
Horsepower menunjukkan hubungan linear positif yang kuat dengan harga mobil (price), sementara City MPG memperlihatkan hubungan linear negatif yang cukup jelas. Di sisi lain, variabel Car Height tampak menyebar secara acak, menandakan hubungan awal yang lemah terhadap harga mobil (price).
Call:
lm(formula = price ~ horsepower + carheight + citympg, data = data_mobil)
Coefficients:
(Intercept) horsepower carheight citympg
-51922.13 214.87 785.07 80.14
Bentuk umum model regresi linier berganda:
\[\hat{Y} = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3\]
Dimana:
Persamaan model yang diperoleh:
\[\hat{Y} = -51922{,}13 + 214{,}87\,X_1 + 785{,}07\,X_2 + 80{,}14\,X_3\]
| Koefisien | Nilai | Interpretasi |
|---|---|---|
| \(\beta_0\) | −51.922,13 | Jika horsepower, carheight, dan citympg = 0, estimasi price = −$51.922,13 |
| \(\beta_1\) (horsepower) | +214,87 | Setiap kenaikan 1 HP, price naik $214,87 (ceteris paribus) |
| \(\beta_2\) (carheight) | +785,07 | Setiap kenaikan 1 inci, price naik $785,07 (ceteris paribus) |
| \(\beta_3\) (citympg) | +80,14 | Setiap kenaikan 1 MPG, price naik $80,14 (ceteris paribus) |
Call:
lm(formula = price ~ horsepower + carheight + citympg, data = data_mobil)
Residuals:
Min 1Q Median 3Q Max
-7327.8 -1550.5 208.1 1949.1 10690.7
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51922.13 15219.81 -3.411 0.00136 **
horsepower 214.87 22.60 9.506 1.99e-12 ***
carheight 785.07 240.98 3.258 0.00211 **
citympg 80.14 117.37 0.683 0.49820
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3728 on 46 degrees of freedom
Multiple R-squared: 0.8548, Adjusted R-squared: 0.8453
F-statistic: 90.23 on 3 and 46 DF, p-value: < 2.2e-16
\[H_0: \beta_1 = \beta_2 = \beta_3 = 0 \quad \text{vs} \quad H_1: \text{minimal satu } \beta_j \neq 0\]
| Statistik | Nilai |
|---|---|
| F-statistic | 90,23 |
| df | 3 dan 46 |
| p-value | < 2,2 × 10⁻¹⁶ |
| Keputusan | Tolak H₀ |
✅ Dengan tingkat kepercayaan 95%, variabel horsepower, carheight, dan citympg secara bersama-sama berpengaruh signifikan terhadap harga mobil (price).
\[H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0\]
| Variabel | Estimasi | p-value | Keputusan | Status |
|---|---|---|---|---|
| Intercept | −51.922,13 | 0,00136 | Tolak H₀ | Signifikan |
| Horsepower (X₁) | 214,87 | 1,99 × 10⁻¹² | Tolak H₀ | Signifikan ✓ |
| Car Height (X₂) | 785,07 | 0,00211 | Tolak H₀ | Signifikan ✓ |
| City MPG (X₃) | 80,14 | 0,49820 | Terima H₀ | Tidak Signifikan ✗ |
❌ Citympg tidak berpengaruh signifikan secara parsial ketika variabel horsepower dan carheight sudah ada di dalam model.
| Ukuran | Nilai | Interpretasi |
|---|---|---|
| Multiple R² | 0,8548 | 85,48% variasi price dijelaskan model |
| Adjusted R² | 0,8453 | Setelah penyesuaian jumlah prediktor |
| Residual Std. Error | 3.728 | Rata-rata penyimpangan prediksi |
Model mampu menjelaskan 84,53% variasi harga mobil. Sisanya 15,47% dijelaskan faktor lain di luar model.
Shapiro-Wilk normality test
data: residuals(model_regresi)
W = 0.95939, p-value = 0.08383
\[H_0: \text{Residual berdistribusi normal} \quad \text{vs} \quad H_1: \text{Residual tidak berdistribusi normal}\]
| Statistik | Nilai |
|---|---|
| W | 0,95939 |
| p-value | 0,08383 |
| Keputusan | Terima H₀ (p > 0,05) |
✅ Asumsi normalitas terpenuhi. Dengan tingkat kepercayaan 95%, data residual berdistribusi normal.
studentized Breusch-Pagan test
data: model_regresi
BP = 18.505, df = 3, p-value = 0.0003459
\[H_0: \text{Varians residual konstan (homoskedastisitas)} \quad \text{vs} \quad H_1: \text{Varians residual tidak konstan}\]
| Statistik | Nilai |
|---|---|
| BP | 18,505 |
| df | 3 |
| p-value | 0,0003459 |
| Keputusan | Tolak H₀ (p < 0,05) |
❌ Asumsi homoskedastisitas tidak terpenuhi. Dengan tingkat kepercayaan 95%, terjadi heteroskedastisitas pada model.
Durbin-Watson test
data: model_regresi
DW = 1.612, p-value = 0.052
alternative hypothesis: true autocorrelation is greater than 0
\[H_0: \text{Tidak terjadi autokorelasi} \quad \text{vs} \quad H_1: \text{Terjadi autokorelasi}\]
| Statistik | Nilai |
|---|---|
| DW | 1,612 |
| p-value | 0,052 |
| Keputusan | Terima H₀ (p > 0,05) |
✅ Asumsi nonautokorelasi terpenuhi. Dengan tingkat kepercayaan 95%, data tidak terjadi autokorelasi.
horsepower carheight citympg
3.234877 1.125351 3.374615
| Variabel | Nilai VIF | Status |
|---|---|---|
| Horsepower | 3,234877 | VIF < 10 ✓ |
| Car Height | 1,125351 | VIF < 10 ✓ |
| City MPG | 3,374615 | VIF < 10 ✓ |
✅ Asumsi nonmultikolinearitas terpenuhi. Seluruh variabel independen memiliki nilai VIF jauh di bawah 10, sehingga model terbebas dari masalah multikolinearitas.
| Asumsi | Uji | Statistik | p-value | Hasil |
|---|---|---|---|---|
| Normalitas | Shapiro-Wilk | W = 0,959 | 0,084 | ✅ Terpenuhi |
| Homoskedastisitas | Breusch-Pagan | BP = 18,505 | 0,0003 | ❌ Tidak Terpenuhi |
| Nonautokorelasi | Durbin-Watson | DW = 1,612 | 0,052 | ✅ Terpenuhi |
| Nonmultikolinearitas | VIF | Maks = 3,37 | — | ✅ Terpenuhi |
Berdasarkan analisis regresi linier berganda yang dilakukan terhadap 50 data mobil dengan variabel dependen harga mobil (price) dan variabel independen horsepower (X₁), carheight (X₂), dan citympg (X₃), diperoleh kesimpulan sebagai berikut:
Eksplorasi Data menunjukkan bahwa horsepower memiliki hubungan linear positif yang kuat dengan harga mobil, citympg memiliki hubungan linear negatif yang cukup jelas, sedangkan carheight menunjukkan hubungan yang lemah terhadap harga mobil.
Model regresi linier berganda yang terbentuk adalah: \[\hat{Y} = -51922{,}13 + 214{,}87X_1 + 785{,}07X_2 + 80{,}14X_3\] Model ini menunjukkan bahwa horsepower dan carheight memberikan pengaruh positif terhadap harga mobil.
Uji Signifikansi Serentak (Uji F) menghasilkan p-value < 2,2×10⁻¹⁶ sehingga secara bersama-sama ketiga variabel prediktor berpengaruh signifikan terhadap harga mobil. Secara parsial (Uji t), hanya horsepower (p-value = 1,99×10⁻¹²) dan carheight (p-value = 0,00211) yang berpengaruh signifikan, sedangkan citympg (p-value = 0,498) tidak berpengaruh signifikan. Model mampu menjelaskan 84,53% variasi harga mobil berdasarkan nilai Adjusted R² = 0,8453.
Uji Asumsi Regresi menghasilkan: Normalitas ✅ terpenuhi, Nonautokorelasi ✅ terpenuhi, Nonmultikolinearitas ✅ terpenuhi, namun Homoskedastisitas ❌ tidak terpenuhi — terdapat indikasi heteroskedastisitas.
Secara keseluruhan, model regresi yang dibangun cukup baik dalam menjelaskan harga mobil, namun perlu dilakukan penanganan terhadap pelanggaran asumsi heteroskedastisitas, misalnya melalui transformasi variabel atau penggunaan metode Weighted Least Squares (WLS), agar model menjadi lebih andal.
Gujarati, D. N., & Porter, D. C. (2009). Basic Econometrics (5th ed.). McGraw-Hill.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis (6th ed.). John Wiley & Sons.
Razali, N. M., & Wah, Y. B. (2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics, 2(1), 21–33.
Laporan Praktikum 2 — Komputasi Statistika B | Universitas Brawijaya | 2026