install.packages(“markdown”) install.packages(“knitr”)

Pendahuluan

Analisis regresi linear berganda merupakan metode statistik yang digunakan untuk mengetahui hubungan antara satu variabel respon dengan beberapa variabel prediktor. Model ini digunakan untuk melihat pengaruh beberapa faktor secara simultan terhadap variabel respon.

Pada penelitian ini akan dianalisis faktor yang mempengaruhi median harga rumah di kota Boston menggunakan data Boston Housing Dataset yang tersedia pada R.


Data dan Spesifikasi Variabel

Dataset yang digunakan adalah Boston Housing Data dari package MASS.

library(MASS)
data <- Boston[, c("medv", "rm", "crim")]
head(data)
##   medv    rm    crim
## 1 24.0 6.575 0.00632
## 2 21.6 6.421 0.02731
## 3 34.7 7.185 0.02729
## 4 33.4 6.998 0.03237
## 5 36.2 7.147 0.06905
## 6 28.7 6.430 0.02985

Dataset ini terdiri dari 506 observasi dan 14 variabel.

Variabel yang digunakan pada penelitian ini adalah:

Variabel Keterangan medv Median harga rumah rm Rata-rata jumlah kamar crim Tingkat kriminalitas

Deskripsi Data

summary(data)
##       medv             rm             crim         
##  Min.   : 5.00   Min.   :3.561   Min.   : 0.00632  
##  1st Qu.:17.02   1st Qu.:5.886   1st Qu.: 0.08205  
##  Median :21.20   Median :6.208   Median : 0.25651  
##  Mean   :22.53   Mean   :6.285   Mean   : 3.61352  
##  3rd Qu.:25.00   3rd Qu.:6.623   3rd Qu.: 3.67708  
##  Max.   :50.00   Max.   :8.780   Max.   :88.97620

Model Regresi Linear Berganda

Bentuk umum persamaan regresi linier: \[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]

Eksplorasi Data

Visualisasi hubungan antar variabel dapat dilihat melalui scatterplot berikut.

pairs(data, pch=19, col="steelblue")

Plot tersebut menunjukkan adanya hubungan antara jumlah kamar dan tingkat kriminalitas terhadap harga rumah.

Estimasi Parameter (Uji Signifikansi Model)

Uji F (Signifikansi Simultan)

Uji F digunakan untuk mengetahui apakah variabel independen secara bersama-sama berpengaruh terhadap variabel dependen. Hipotesis:

H0 : β1 = β2 = 0 (tidak ada pengaruh) H1 : minimal ada satu β ≠ 0

Uji t (Parsial)

Uji t digunakan untuk mengetahui apakah masing-masing variabel independen berpengaruh terhadap variabel dependen.

Hipotesis:

Untuk setiap variabel:

H0 : βi = 0 H1 : βi ≠ 0

model = lm(medv ~ rm + crim, data = data)
summary(model)
## 
## Call:
## lm(formula = medv ~ rm + crim, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.608  -2.835  -0.380   2.592  38.839 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -29.24472    2.58809 -11.300   <2e-16 ***
## rm            8.39107    0.40485  20.726   <2e-16 ***
## crim         -0.26491    0.03307  -8.011    8e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.237 on 503 degrees of freedom
## Multiple R-squared:  0.542,  Adjusted R-squared:  0.5401 
## F-statistic: 297.6 on 2 and 503 DF,  p-value: < 2.2e-16

Dari Output diperoleh :

\[ \beta_0 = -29.2447 \] \[ \beta_1 = 8.3911 \] \[ \beta_2 = -0.2649 \] Artinya setiap kenaikan jumlah kamar (rm) sebesar 1 satuan maka median harga rumah (medv) diperkirakan meningkat sebesar 8.39 satuan, dengan asumsi variabel lain konstan.

Sedangkan setiap kenaikan tingkat kriminalitas (crim) sebesar 1 satuan maka median harga rumah (medv) diperkirakan menurun sebesar 0.26 satuan, dengan asumsi variabel lain tetap.

p-value < 0.05, maka H0 ditolak, artinya variabel rm dan crim secara simultan berpengaruh signifikan terhadap medv.

Model Akhir:

\[ Jarak = -29.2447 + 8.3911 Kecepatan \]

Pengujian Hipotesis

Uji Normalitas Residual

Hipotesis:

H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal

error = model$residuals
ks.test(error,"pnorm",mean(error),sqrt(var(error)))
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  error
## D = 0.1005, p-value = 7.278e-05
## alternative hypothesis: two-sided

H₀ ditolak, .Hal ini menunjukkan bahwa residual pada model regresi tidak berdistribusi normal, sehingga asumsi normalitas pada model regresi linear berganda tidak terpenuhi.

penanganan

library(MASS)

# Model awal
model <- lm(medv ~ rm + crim, data = data)

# Box-Cox
bc <- boxcox(model)

# Lambda optimal
lambda <- bc$x[which.max(bc$y)]
lambda
## [1] 0.1818182
# Transformasi Box-Cox
data$medv_bc <- (data$medv^lambda - 1) / lambda

# Model baru
model_bc <- lm(medv_bc ~ rm + crim, data = data)

# Residual
error_bc <- residuals(model_bc)

# Uji normalitas lagi
ks.test(error_bc, "pnorm", mean(error_bc), sd(error_bc))
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  error_bc
## D = 0.095881, p-value = 0.0001822
## alternative hypothesis: two-sided
qqnorm(error_bc)
qqline(error_bc, col="red")

Berdasarkan uji Kolmogorov–Smirnov terhadap residual model regresi setelah transformasi Box-Cox diperoleh p-value = 0,0001822 (< 0,05) sehingga secara statistik H₀ ditolak, yang menunjukkan bahwa residual belum sepenuhnya berdistribusi normal. Namun demikian, berdasarkan pemeriksaan grafik Normal Q-Q Plot, titik-titik residual cenderung mengikuti garis diagonal sehingga secara visual distribusi residual masih mendekati normal. Oleh karena itu, model regresi masih dapat digunakan untuk analisis lebih lanjut.

Uji Autokorelasi

Hipotesis:

H0 : Tidak terdapat autokorelasi H1 : Terdapat autokorelasi

library(lmtest)
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 0.80703, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Karena nilai DW = 0,80703 (< 2) dan p-value < 0,05, maka H₀ ditolak. Hal ini menunjukkan bahwa terdapat autokorelasi positif pada residual model regresi.

Dalam konteks analisis harga rumah di Kota Boston, hal ini menunjukkan bahwa nilai residual pada suatu observasi berkorelasi dengan residual pada observasi lainnya, sehingga asumsi independensi residual pada model regresi linear berganda belum terpenuhi.

Uji Multikolinearitas

hubungan yang kuat antar variabel independen dalam model regresi.

Kriteria umum VIF adalah: VIF = 1 → tidak ada multikolinearitas 1 < VIF < 5 → multikolinearitas rendah (masih dapat diterima) VIF ≥ 10 → terjadi multikolinearitas tinggi

library(car)
vif(model)
##       rm     crim 
## 1.050496 1.050496

Berdasarkan nilai Variance Inflation Factor (VIF), dapat disimpulkan bahwa model regresi tidak mengalami masalah multikolinearitas, sehingga asumsi regresi terkait hubungan antar variabel independen telah terpenuhi.

Visualisasi Model

Scatterplot hubungan antar variabel dengan garis regresi.

par(mfrow=c(1,2))

plot(data$rm, data$medv,
     main="Hubungan rm dan medv",
     xlab="Jumlah Kamar",
     ylab="Median Harga Rumah",
     pch=19,
     col="steelblue")

abline(lm(medv~rm,data=data),col="red",lwd=2)

plot(data$crim, data$medv,
     main="Hubungan crim dan medv",
     xlab="Tingkat Kriminalitas",
     ylab="Median Harga Rumah",
     pch=19,
     col="steelblue")

abline(lm(medv~crim,data=data),col="red",lwd=2)

Variabel jumlah kamar (rm) memiliki hubungan positif dengan harga rumah (medv), sehingga dapat menjadi salah satu variabel yang berpengaruh dalam model regresi harga rumah di Kota Boston.

Diagnostik Model

Plot diagnostik digunakan untuk memeriksa asumsi model regresi seperti normalitas residual, homoskedastisitas, dan linearitas hubungan antar variabel.

par(mfrow=c(2,2))
plot(model)

a. Residuals vs Fitted Plot ini digunakan untuk melihat linearitas dan heteroskedastisitas. Model regresi cukup memenuhi asumsi linearitas, dan tidak terlihat indikasi heteroskedastisitas yang kuat.

  1. Normal Q-Q Plot Plot ini digunakan untuk melihat normalitas residual. Residual mendekati distribusi normal, meskipun terdapat sedikit deviasi pada bagian ekstrem.

Kesimpulan

Berdasarkan hasil analisis regresi linear berganda yang dilakukan terhadap data Boston Housing, dengan variabel medv sebagai variabel dependen serta variabel rm dan crim sebagai variabel independen, diperoleh model regresi sebagai berikut:

\[ \hat{medv} = -29.2447 + 8.3911 rm + -0.2649 crim \]

Model regresi tersebut dapat diinterpretasikan sebagai berikut:

  1. Nilai intersep sebesar -29.24472 menunjukkan bahwa apabila variabel jumlah kamar (rm) dan tingkat kriminalitas (crim) bernilai nol, maka nilai median harga rumah yang diprediksi oleh model adalah sebesar -29.24472. Meskipun nilai ini tidak memiliki makna praktis secara langsung, intersep tetap diperlukan dalam model regresi sebagai titik awal pembentukan garis regresi.

  2. Koefisien regresi untuk variabel rm sebesar 8.39107 menunjukkan bahwa setiap peningkatan 1 unit rata-rata jumlah kamar pada rumah akan meningkatkan nilai median harga rumah sebesar 8.39107, dengan asumsi variabel lainnya tetap (ceteris paribus). Hal ini menunjukkan bahwa semakin banyak jumlah kamar dalam suatu rumah, maka harga rumah tersebut cenderung semakin tinggi.

  3. Koefisien regresi untuk variabel crim sebesar -0.26491 menunjukkan bahwa setiap peningkatan 1 unit tingkat kriminalitas akan menurunkan nilai median harga rumah sebesar 0.26491, dengan asumsi variabel lainnya konstan. Hal ini mengindikasikan bahwa daerah dengan tingkat kriminalitas yang lebih tinggi cenderung memiliki harga rumah yang lebih rendah.

Berdasarkan hasil uji signifikansi parameter, variabel rm dan crim memiliki nilai p-value < 0.05, sehingga dapat disimpulkan bahwa kedua variabel tersebut berpengaruh signifikan terhadap nilai median harga rumah di kota Boston.

Secara keseluruhan, model regresi yang diperoleh mampu menjelaskan hubungan antara karakteristik lingkungan tempat tinggal dengan harga rumah. Variabel jumlah kamar memberikan pengaruh positif yang cukup kuat terhadap harga rumah, sedangkan tingkat kriminalitas memberikan pengaruh negatif terhadap harga rumah. Dengan demikian, faktor kondisi lingkungan dan karakteristik bangunan rumah merupakan faktor penting dalam menentukan nilai properti pada wilayah tersebut.