install.packages(“markdown”) install.packages(“knitr”)
Analisis regresi linear berganda merupakan metode statistik yang digunakan untuk mengetahui hubungan antara satu variabel respon dengan beberapa variabel prediktor. Model ini digunakan untuk melihat pengaruh beberapa faktor secara simultan terhadap variabel respon.
Pada penelitian ini akan dianalisis faktor yang mempengaruhi median harga rumah di kota Boston menggunakan data Boston Housing Dataset yang tersedia pada R.
Dataset yang digunakan adalah Boston Housing Data
dari package MASS.
library(MASS)
data <- Boston[, c("medv", "rm", "crim")]
head(data)
## medv rm crim
## 1 24.0 6.575 0.00632
## 2 21.6 6.421 0.02731
## 3 34.7 7.185 0.02729
## 4 33.4 6.998 0.03237
## 5 36.2 7.147 0.06905
## 6 28.7 6.430 0.02985
Dataset ini terdiri dari 506 observasi dan 14 variabel.
Variabel yang digunakan pada penelitian ini adalah:
Variabel Keterangan medv Median harga rumah rm Rata-rata jumlah kamar crim Tingkat kriminalitas
summary(data)
## medv rm crim
## Min. : 5.00 Min. :3.561 Min. : 0.00632
## 1st Qu.:17.02 1st Qu.:5.886 1st Qu.: 0.08205
## Median :21.20 Median :6.208 Median : 0.25651
## Mean :22.53 Mean :6.285 Mean : 3.61352
## 3rd Qu.:25.00 3rd Qu.:6.623 3rd Qu.: 3.67708
## Max. :50.00 Max. :8.780 Max. :88.97620
Bentuk umum persamaan regresi linier: \[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]
Visualisasi hubungan antar variabel dapat dilihat melalui scatterplot berikut.
pairs(data, pch=19, col="steelblue")
Plot tersebut menunjukkan adanya hubungan antara jumlah kamar dan tingkat kriminalitas terhadap harga rumah.
Uji F digunakan untuk mengetahui apakah variabel independen secara bersama-sama berpengaruh terhadap variabel dependen. Hipotesis:
H0 : β1 = β2 = 0 (tidak ada pengaruh) H1 : minimal ada satu β ≠ 0
Uji t digunakan untuk mengetahui apakah masing-masing variabel independen berpengaruh terhadap variabel dependen.
Hipotesis:
Untuk setiap variabel:
H0 : βi = 0 H1 : βi ≠ 0
model = lm(medv ~ rm + crim, data = data)
summary(model)
##
## Call:
## lm(formula = medv ~ rm + crim, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.608 -2.835 -0.380 2.592 38.839
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -29.24472 2.58809 -11.300 <2e-16 ***
## rm 8.39107 0.40485 20.726 <2e-16 ***
## crim -0.26491 0.03307 -8.011 8e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.237 on 503 degrees of freedom
## Multiple R-squared: 0.542, Adjusted R-squared: 0.5401
## F-statistic: 297.6 on 2 and 503 DF, p-value: < 2.2e-16
\[ \beta_0 = -29.2447 \] \[ \beta_1 = 8.3911 \] \[ \beta_2 = -0.2649 \] Artinya setiap kenaikan jumlah kamar (rm) sebesar 1 satuan maka median harga rumah (medv) diperkirakan meningkat sebesar 8.39 satuan, dengan asumsi variabel lain konstan.
Sedangkan setiap kenaikan tingkat kriminalitas (crim) sebesar 1 satuan maka median harga rumah (medv) diperkirakan menurun sebesar 0.26 satuan, dengan asumsi variabel lain tetap.
p-value < 0.05, maka H0 ditolak, artinya variabel rm dan crim secara simultan berpengaruh signifikan terhadap medv.
\[ Jarak = -29.2447 + 8.3911 Kecepatan \]
Hipotesis:
H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal
error = model$residuals
ks.test(error,"pnorm",mean(error),sqrt(var(error)))
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: error
## D = 0.1005, p-value = 7.278e-05
## alternative hypothesis: two-sided
H₀ ditolak, .Hal ini menunjukkan bahwa residual pada model regresi tidak berdistribusi normal, sehingga asumsi normalitas pada model regresi linear berganda tidak terpenuhi.
library(MASS)
# Model awal
model <- lm(medv ~ rm + crim, data = data)
# Box-Cox
bc <- boxcox(model)
# Lambda optimal
lambda <- bc$x[which.max(bc$y)]
lambda
## [1] 0.1818182
# Transformasi Box-Cox
data$medv_bc <- (data$medv^lambda - 1) / lambda
# Model baru
model_bc <- lm(medv_bc ~ rm + crim, data = data)
# Residual
error_bc <- residuals(model_bc)
# Uji normalitas lagi
ks.test(error_bc, "pnorm", mean(error_bc), sd(error_bc))
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: error_bc
## D = 0.095881, p-value = 0.0001822
## alternative hypothesis: two-sided
qqnorm(error_bc)
qqline(error_bc, col="red")
Berdasarkan uji Kolmogorov–Smirnov terhadap residual model regresi setelah transformasi Box-Cox diperoleh p-value = 0,0001822 (< 0,05) sehingga secara statistik H₀ ditolak, yang menunjukkan bahwa residual belum sepenuhnya berdistribusi normal. Namun demikian, berdasarkan pemeriksaan grafik Normal Q-Q Plot, titik-titik residual cenderung mengikuti garis diagonal sehingga secara visual distribusi residual masih mendekati normal. Oleh karena itu, model regresi masih dapat digunakan untuk analisis lebih lanjut.
Hipotesis:
H0 : Tidak terdapat autokorelasi H1 : Terdapat autokorelasi
library(lmtest)
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 0.80703, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Karena nilai DW = 0,80703 (< 2) dan p-value < 0,05, maka H₀ ditolak. Hal ini menunjukkan bahwa terdapat autokorelasi positif pada residual model regresi.
Dalam konteks analisis harga rumah di Kota Boston, hal ini menunjukkan bahwa nilai residual pada suatu observasi berkorelasi dengan residual pada observasi lainnya, sehingga asumsi independensi residual pada model regresi linear berganda belum terpenuhi.
hubungan yang kuat antar variabel independen dalam model regresi.
Kriteria umum VIF adalah: VIF = 1 → tidak ada multikolinearitas 1 < VIF < 5 → multikolinearitas rendah (masih dapat diterima) VIF ≥ 10 → terjadi multikolinearitas tinggi
library(car)
vif(model)
## rm crim
## 1.050496 1.050496
Berdasarkan nilai Variance Inflation Factor (VIF), dapat disimpulkan bahwa model regresi tidak mengalami masalah multikolinearitas, sehingga asumsi regresi terkait hubungan antar variabel independen telah terpenuhi.
Scatterplot hubungan antar variabel dengan garis regresi.
par(mfrow=c(1,2))
plot(data$rm, data$medv,
main="Hubungan rm dan medv",
xlab="Jumlah Kamar",
ylab="Median Harga Rumah",
pch=19,
col="steelblue")
abline(lm(medv~rm,data=data),col="red",lwd=2)
plot(data$crim, data$medv,
main="Hubungan crim dan medv",
xlab="Tingkat Kriminalitas",
ylab="Median Harga Rumah",
pch=19,
col="steelblue")
abline(lm(medv~crim,data=data),col="red",lwd=2)
Variabel jumlah kamar (rm) memiliki hubungan positif dengan harga rumah
(medv), sehingga dapat menjadi salah satu variabel yang berpengaruh
dalam model regresi harga rumah di Kota Boston.
Plot diagnostik digunakan untuk memeriksa asumsi model regresi seperti normalitas residual, homoskedastisitas, dan linearitas hubungan antar variabel.
par(mfrow=c(2,2))
plot(model)
a. Residuals vs Fitted Plot ini digunakan untuk melihat linearitas dan
heteroskedastisitas. Model regresi cukup memenuhi asumsi linearitas, dan
tidak terlihat indikasi heteroskedastisitas yang kuat.
Berdasarkan hasil analisis regresi linear berganda yang dilakukan terhadap data Boston Housing, dengan variabel medv sebagai variabel dependen serta variabel rm dan crim sebagai variabel independen, diperoleh model regresi sebagai berikut:
\[ \hat{medv} = -29.2447 + 8.3911 rm + -0.2649 crim \]
Model regresi tersebut dapat diinterpretasikan sebagai berikut:
Nilai intersep sebesar -29.24472 menunjukkan bahwa apabila variabel jumlah kamar (rm) dan tingkat kriminalitas (crim) bernilai nol, maka nilai median harga rumah yang diprediksi oleh model adalah sebesar -29.24472. Meskipun nilai ini tidak memiliki makna praktis secara langsung, intersep tetap diperlukan dalam model regresi sebagai titik awal pembentukan garis regresi.
Koefisien regresi untuk variabel rm sebesar 8.39107 menunjukkan bahwa setiap peningkatan 1 unit rata-rata jumlah kamar pada rumah akan meningkatkan nilai median harga rumah sebesar 8.39107, dengan asumsi variabel lainnya tetap (ceteris paribus). Hal ini menunjukkan bahwa semakin banyak jumlah kamar dalam suatu rumah, maka harga rumah tersebut cenderung semakin tinggi.
Koefisien regresi untuk variabel crim sebesar -0.26491 menunjukkan bahwa setiap peningkatan 1 unit tingkat kriminalitas akan menurunkan nilai median harga rumah sebesar 0.26491, dengan asumsi variabel lainnya konstan. Hal ini mengindikasikan bahwa daerah dengan tingkat kriminalitas yang lebih tinggi cenderung memiliki harga rumah yang lebih rendah.
Berdasarkan hasil uji signifikansi parameter, variabel rm dan crim memiliki nilai p-value < 0.05, sehingga dapat disimpulkan bahwa kedua variabel tersebut berpengaruh signifikan terhadap nilai median harga rumah di kota Boston.
Secara keseluruhan, model regresi yang diperoleh mampu menjelaskan hubungan antara karakteristik lingkungan tempat tinggal dengan harga rumah. Variabel jumlah kamar memberikan pengaruh positif yang cukup kuat terhadap harga rumah, sedangkan tingkat kriminalitas memberikan pengaruh negatif terhadap harga rumah. Dengan demikian, faktor kondisi lingkungan dan karakteristik bangunan rumah merupakan faktor penting dalam menentukan nilai properti pada wilayah tersebut.