Harga rumah merupakan salah satu aspek penting dalam sektor properti yang dipengaruhi oleh berbagai karakteristik yang dimiliki oleh rumah tersebut. Beberapa faktor seperti luas area rumah, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai dapat memengaruhi nilai jual sebuah rumah. Oleh karena itu, diperlukan suatu metode analisis yang dapat digunakan untuk mengetahui hubungan antara karakteristik rumah dengan harga rumah.
Untuk menganalisis hubungan antara karakteristik rumah dengan harga rumah digunakan metode regresi linear berganda. Analisis regresi merupakan teknik analisis data yang digunakan untuk mengkaji hubungan antara beberapa variabel dan meramal suatu variabel. Teknik ini biasa dikenal dalam ilmu statistika dan dikemukakan oleh Sir Francis Galton (1822-1911). Analisis regresi terbagi menjadi dua jenis yaitu regresi linear sederhana dan regresi linear berganda. Regresi linear sederhana digunakan untuk menganalisis hubungan antara satu variabel independen dengan satu variabel dependen, sedangkan regresi linear berganda digunakan untuk menganalisis hubungan antara lebih dari satu variabel independen terhadap satu variabel dependen.
Dalam penelitian ini, analisis regresi linear berganda digunakan untuk mengkaji hubungan antara harga rumah sebagai variabel respon dengan beberapa karakteristik rumah, yaitu luas area bangunan, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai sebagai variabel prediktor. Melalui analisis ini diharapkan dapat diperoleh model regresi yang mampu menjelaskan pengaruh karakteristik rumah terhadap harga rumah serta memberikan gambaran mengenai faktor-faktor yang berkontribusi dalam menentukan harga suatu rumah.
Bentuk umum model regresi linear berganda adalah \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_n X_n + \varepsilon \] dengan \(Y\) adalah variabel dependen, \(X_1, X_2, \ldots, X_n\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error), dan \(\beta_0, \beta_1, \ldots, \beta_n\) adalah parameter-parameter populasi yang nilainya tidak diketahui.
Uji asumsi klasik pada dasarnya adalah salah satu uji yang digunakan sebagai syarat statistik. Uji asumsi haruslah dipenuhi pada analisis regresi linear berganda serta tidak pada analisis regresi linear sederhana. Agar koefisien regresi tidak bias, maka diperlukan uji asumsi klasik supaya pengambilan keputusan mendekati keadaan yang sebenarnya. Uji asumsi klasik terdiri dari uji linearitas, uji normalitas, uji heterokedastisitas, uji autokorelasi, dan uji multikolinearitas.
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari dataset Houses Pricing. Dataset tersebut berisi informasi mengenai beberapa karakteristik rumah yang diduga memengaruhi harga rumah. Data ini terdiri dari beberapa variabel yang menggambarkan kondisi fisik rumah, seperti luas area bangunan, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai.
Variabel harga rumah digunakan sebagai variabel dependen (variabel respon), sedangkan karakteristik rumah lainnya digunakan sebagai variabel independen (variabel prediktor).| Variabel | Deskripsi |
|---|---|
| price | Harga rumah |
| area | Luas area rumah |
| bedrooms | Jumlah kamar tidur |
| bathrooms | Jumlah kamar mandi |
| stories | Jumlah lantai rumah |
Tahapan penelitian ini adalah sebagai berikut:
Import Data
Deskripsi Data & Pre-Processing
Analisis Korelasi
Pemodelan Regresi Linear Berganda
Pengujian Asumsi Klasik
Pengujian Hipotesis
Interpretasi Model Regresi
## # A tibble: 150 Γ 5
## price area bedrooms bathrooms stories
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 13300000 7420 4 2 3
## 2 12250000 8960 4 4 4
## 3 12250000 9960 3 2 2
## 4 12215000 7500 4 2 2
## 5 11410000 7420 4 1 2
## 6 10850000 7500 3 3 1
## 7 10150000 8580 4 3 4
## 8 10150000 16200 5 3 2
## 9 9870000 8100 4 1 2
## 10 9800000 5750 3 2 4
## # βΉ 140 more rows
## price area bedrooms bathrooms
## Min. : 5600000 Min. : 3240 Min. :2.000 Min. :1.00
## 1st Qu.: 6084750 1st Qu.: 5712 1st Qu.:3.000 1st Qu.:1.00
## Median : 6650000 Median : 6420 Median :3.000 Median :2.00
## Mean : 7207290 Mean : 6785 Mean :3.327 Mean :1.64
## 3rd Qu.: 7975625 3rd Qu.: 7440 3rd Qu.:4.000 3rd Qu.:2.00
## Max. :13300000 Max. :16200 Max. :6.000 Max. :4.00
## stories
## Min. :1.000
## 1st Qu.:2.000
## Median :2.000
## Mean :2.413
## 3rd Qu.:3.000
## Max. :4.000
## tibble [150 Γ 5] (S3: tbl_df/tbl/data.frame)
## $ price : num [1:150] 13300000 12250000 12250000 12215000 11410000 ...
## $ area : num [1:150] 7420 8960 9960 7500 7420 7500 8580 16200 8100 5750 ...
## $ bedrooms : num [1:150] 4 4 3 4 4 3 4 5 4 3 ...
## $ bathrooms: num [1:150] 2 4 2 2 1 3 3 3 1 2 ...
## $ stories : num [1:150] 3 4 2 2 2 1 4 2 2 4 ...
## price area bedrooms bathrooms stories
## 0 0 0 0 0
## price area bedrooms bathrooms stories
## price 1.0000000 0.21309535 0.19050213 0.38477631 0.10504948
## area 0.2130953 1.00000000 -0.02488297 0.05110764 -0.19478791
## bedrooms 0.1905021 -0.02488297 1.00000000 0.32921305 0.09191066
## bathrooms 0.3847763 0.05110764 0.32921305 1.00000000 0.24705113
## stories 0.1050495 -0.19478791 0.09191066 0.24705113 1.00000000
Melakukan Analisis Regresi variabel π (Harga Rumah) dengan variabel independen yaitu Luas Bangunan (\(X_1\)), Jumlah kamar tidur (\(X_2\)), Jumlah kamar mandi (\(X_3\)), Jumlah lantai (\(X_4\)).
##
## Call:
## lm(formula = price ~ area + bedrooms + bathrooms + stories, data = Data)
##
## Coefficients:
## (Intercept) area bedrooms bathrooms stories
## 3946336.6 151.2 192809.4 858951.2 76795.5
Berdasarkan hasil analisis regresi diatas didapatkan persamaan regresi: \[ Y=3946336.6+151.2π1+192809.4π2+858951.2X3+76795.5X4 \] Selanjutnya melakukan Summary dari hasil analisis sebelumnya. Dengan syntax sebagai berikut:
##
## Call:
## lm(formula = price ~ area + bedrooms + bathrooms + stories, data = Data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2576178 -838305 -250600 499667 5512579
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.946e+06 7.645e+05 5.162 7.92e-07 ***
## area 1.512e+02 5.534e+01 2.731 0.00709 **
## bedrooms 1.928e+05 1.888e+05 1.021 0.30888
## bathrooms 8.590e+05 2.102e+05 4.087 7.20e-05 ***
## stories 7.680e+04 1.082e+05 0.710 0.47915
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1391000 on 145 degrees of freedom
## Multiple R-squared: 0.1942, Adjusted R-squared: 0.1719
## F-statistic: 8.735 on 4 and 145 DF, p-value: 2.403e-06
Perintah diatas menghasilkan nilai terkeci (min), kuartil bawah (π1), median, kuartil atas (π3), nilai terbesar (max) pada residual data, juga Tabel ANOVA, nilai F statistik sampai nilai R-squared (\(R^2\))
Model Awal \(e_i = y_i - \hat{y}_i\)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.92112, p-value = 2.51e-07
\(π»_0\): Galat menyebar normal
\(π»_1\): Galat tidak menyebar normal
Berdasarkan Uji Shapiro-Wilk Test diatas, diperoleh nilai p-value = 0.000000251 < πΌ = 0.05 sehingga π»0 ditolak. Dapat disimpulkan bahwa galat tidak menyebar secara normal, yang artinya residual model regresi tidak berdistribusi normal.
##
## Durbin-Watson test
##
## data: model
## DW = 0.42802, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
\(π»_0\) : Tidak terjadi autokorelasi
\(π»_1\): Terjadi autokorelasi
Berdasarkan hasil uji DurbinβWatson, diperoleh nilai DW = 0.42802 dengan p-value < 2.2 Γ \(10^β»ΒΉβΆ\). Karena nilai p-value lebih kecil dari tingkat signifikansi 0.05, maka \(π»_0\) Ditolak. Dapat disimpulkan bahwa terdapat autokorelasi pada residual model regresi.
## area bedrooms bathrooms stories
## 1.052818 1.123759 1.199711 1.116285
Berdasarkan Uji Multikolinearitas diatas, diperoleh nilai Variance Inflation Factor (VIF) pada \(π_1\), \(π_2\), \(π_3\) dan \(π_4\) berada di bawah 10 maka tidak terjadi multikolinearitas, yang berarti asumsi multikolinearitas pada keempat variabel terpenuhi.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 11.535, df = 4, p-value = 0.02117
\(π»_0\) : Tidak terjadi heteroskedastisitas
\(π»_1\): Terjadi heteroskedastisitas
Berdasarkan Breusch-Pagan test, diperoleh nilai p-value = 0.02117 < πΌ = 0.05 sehingga \(π»_0\) ditolak. Dapat disimpulkan bahwa terjadi heterokedastisitas yang artinya asumsi homogenitas tidak terpenuhi.
## value numdf dendf
## 8.735001 4.000000 145.000000
pf(summary(model)$fstatistic[1],
summary(model)$fstatistic[2],
summary(model)$fstatistic[3],
lower.tail = FALSE)## value
## 2.403015e-06
\(π»_0\) : Seluruh variabel prediktor secara bersama-sama tidak berpengaruh terhadap harga rumah.
\(π»_1\): Seluruh variabel prediktor secara bersama-sama berpengaruh terhadap harga rumah.
Berdasarkan hasil uji F diperoleh nilai F hitung sebesar 8.735 dan p-value = 2.403 Γ 10β»βΆ. Karena nilai p-value lebih kecil dari 0.05, maka \(π»_0\) ditolak. Dapat disimpulkan bahwa seluruh variabel prediktor secara bersama-sama berpengaruh terhadap harga rumah.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3946336.5595 764529.36936 5.1617854 7.921326e-07
## area 151.1534 55.33808 2.7314532 7.088944e-03
## bedrooms 192809.4111 188815.77533 1.0211510 3.088836e-01
## bathrooms 858951.1824 210161.72150 4.0870962 7.204814e-05
## stories 76795.4873 108238.41417 0.7095031 4.791517e-01
\(H_0 : \beta_i = 0\) -> variabel independen tidak berpengaruh terhadap variabel dependen
\(H_1 : \beta_i \neq 0\) -> variabel independen berpengaruh terhadap variabel dependen
Berdasarkan uji t diperoleh bahwa:
Variabel area memiliki p-value 0.007, sehingga berpengaruh signifikan terhadap harga rumah.
Variabel bedrooms memiliki p-value 0.309, sehingga tidak berpengaruh signifikan terhadap harga rumah.
Variabel bathrooms memiliki p-value 7.20 Γ 10β»β΅, sehingga berpengaruh signifikan terhadap harga rumah.
Variabel stories memiliki p-value 0.479, sehingga tidak berpengaruh signifikan terhadap harga rumah.
Berdasarkan hasil analisis regresi linear berganda diperoleh model sebagai berikut: \[ price=3,946,336.56+151.15(area)+192,809.41(bedrooms)+858,951.18(bathrooms)+76,795.49(stories) \]
Koefisien regresi menunjukkan bahwa variabel area, bedrooms, bathrooms, dan stories memiliki hubungan positif terhadap harga rumah. Artinya, peningkatan pada variabel-variabel tersebut cenderung meningkatkan harga rumah dengan asumsi variabel lain konstan.
Berdasarkan nilai p-value, variabel area (0,007) dan bathrooms (<0,001) berpengaruh signifikan terhadap harga rumah, sedangkan variabel bedrooms (0,308) dan stories (0,479) tidak berpengaruh signifikan pada tingkat signifikansi 5%.
Nilai koefisien determinasi (RΒ² = 0,194) menunjukkan bahwa model mampu menjelaskan sekitar 19,4% variasi harga rumah, sedangkan sisanya 80,6% dipengaruhi oleh faktor lain di luar model. Secara umum, faktor luas area dan jumlah kamar mandi merupakan variabel yang paling berpengaruh dalam menentukan harga rumah pada model yang digunakan.
Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, dapat disimpulkan bahwa variabel luas area rumah (area) dan jumlah kamar mandi (bathrooms) berpengaruh signifikan terhadap harga rumah. Sementara itu, variabel jumlah kamar tidur (bedrooms) dan jumlah lantai rumah (stories) tidak menunjukkan pengaruh yang signifikan terhadap harga rumah pada tingkat signifikansi 5%.
Model regresi yang diperoleh memiliki nilai koefisien determinasi RΒ² sebesar 0,194, yang menunjukkan bahwa model mampu menjelaskan sekitar 19,4% variasi harga rumah, sedangkan sisanya dipengaruhi oleh faktor lain yang tidak dimasukkan dalam model. Oleh karena itu, penelitian selanjutnya dapat mempertimbangkan penambahan variabel lain yang berpotensi memengaruhi harga rumah agar model yang dihasilkan menjadi lebih baik.
Kaggle. (2023). House Pricing Dataset. Diakses dari https://www.kaggle.com/datasets/nahiankhanshwapno/house-pricing
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). John Wiley & Sons.