I. PENDAHULUAN

Harga rumah merupakan salah satu aspek penting dalam sektor properti yang dipengaruhi oleh berbagai karakteristik yang dimiliki oleh rumah tersebut. Beberapa faktor seperti luas area rumah, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai dapat memengaruhi nilai jual sebuah rumah. Oleh karena itu, diperlukan suatu metode analisis yang dapat digunakan untuk mengetahui hubungan antara karakteristik rumah dengan harga rumah.

Untuk menganalisis hubungan antara karakteristik rumah dengan harga rumah digunakan metode regresi linear berganda. Analisis regresi merupakan teknik analisis data yang digunakan untuk mengkaji hubungan antara beberapa variabel dan meramal suatu variabel. Teknik ini biasa dikenal dalam ilmu statistika dan dikemukakan oleh Sir Francis Galton (1822-1911). Analisis regresi terbagi menjadi dua jenis yaitu regresi linear sederhana dan regresi linear berganda. Regresi linear sederhana digunakan untuk menganalisis hubungan antara satu variabel independen dengan satu variabel dependen, sedangkan regresi linear berganda digunakan untuk menganalisis hubungan antara lebih dari satu variabel independen terhadap satu variabel dependen.

Dalam penelitian ini, analisis regresi linear berganda digunakan untuk mengkaji hubungan antara harga rumah sebagai variabel respon dengan beberapa karakteristik rumah, yaitu luas area bangunan, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai sebagai variabel prediktor. Melalui analisis ini diharapkan dapat diperoleh model regresi yang mampu menjelaskan pengaruh karakteristik rumah terhadap harga rumah serta memberikan gambaran mengenai faktor-faktor yang berkontribusi dalam menentukan harga suatu rumah.

II. LANDASAN TEORI

2.1. Regresi Linear Berganda

Bentuk umum model regresi linear berganda adalah \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_n X_n + \varepsilon \] dengan \(Y\) adalah variabel dependen, \(X_1, X_2, \ldots, X_n\) adalah variabel-variabel independen, \(\varepsilon\) adalah galat acak (random error), dan \(\beta_0, \beta_1, \ldots, \beta_n\) adalah parameter-parameter populasi yang nilainya tidak diketahui.

2.2. Uji Asumsi Klasik

Uji asumsi klasik pada dasarnya adalah salah satu uji yang digunakan sebagai syarat statistik. Uji asumsi haruslah dipenuhi pada analisis regresi linear berganda serta tidak pada analisis regresi linear sederhana. Agar koefisien regresi tidak bias, maka diperlukan uji asumsi klasik supaya pengambilan keputusan mendekati keadaan yang sebenarnya. Uji asumsi klasik terdiri dari uji linearitas, uji normalitas, uji heterokedastisitas, uji autokorelasi, dan uji multikolinearitas.

III. METODOLOGI

3.1. Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari dataset Houses Pricing. Dataset tersebut berisi informasi mengenai beberapa karakteristik rumah yang diduga memengaruhi harga rumah. Data ini terdiri dari beberapa variabel yang menggambarkan kondisi fisik rumah, seperti luas area bangunan, jumlah kamar tidur, jumlah kamar mandi, dan jumlah lantai.

Variabel harga rumah digunakan sebagai variabel dependen (variabel respon), sedangkan karakteristik rumah lainnya digunakan sebagai variabel independen (variabel prediktor).
Variabel Deskripsi
price Harga rumah
area Luas area rumah
bedrooms Jumlah kamar tidur
bathrooms Jumlah kamar mandi
stories Jumlah lantai rumah

3.2. Teknik Analisis Data

Tahapan penelitian ini adalah sebagai berikut:

  1. Import Data

  2. Deskripsi Data & Pre-Processing

  3. Analisis Korelasi

  4. Pemodelan Regresi Linear Berganda

  5. Pengujian Asumsi Klasik

  6. Pengujian Hipotesis

  7. Interpretasi Model Regresi

IV. HASIL DAN PEMBAHASAN

4.1. Import Data

library(readxl)
Data <- read_excel("~/Downloads/Houses Pricing.xlsx")
Data
## # A tibble: 150 Γ— 5
##       price  area bedrooms bathrooms stories
##       <dbl> <dbl>    <dbl>     <dbl>   <dbl>
##  1 13300000  7420        4         2       3
##  2 12250000  8960        4         4       4
##  3 12250000  9960        3         2       2
##  4 12215000  7500        4         2       2
##  5 11410000  7420        4         1       2
##  6 10850000  7500        3         3       1
##  7 10150000  8580        4         3       4
##  8 10150000 16200        5         3       2
##  9  9870000  8100        4         1       2
## 10  9800000  5750        3         2       4
## # β„Ή 140 more rows

4.2. Deskripsi Data & Pre-Processing

summary(Data)
##      price               area          bedrooms       bathrooms   
##  Min.   : 5600000   Min.   : 3240   Min.   :2.000   Min.   :1.00  
##  1st Qu.: 6084750   1st Qu.: 5712   1st Qu.:3.000   1st Qu.:1.00  
##  Median : 6650000   Median : 6420   Median :3.000   Median :2.00  
##  Mean   : 7207290   Mean   : 6785   Mean   :3.327   Mean   :1.64  
##  3rd Qu.: 7975625   3rd Qu.: 7440   3rd Qu.:4.000   3rd Qu.:2.00  
##  Max.   :13300000   Max.   :16200   Max.   :6.000   Max.   :4.00  
##     stories     
##  Min.   :1.000  
##  1st Qu.:2.000  
##  Median :2.000  
##  Mean   :2.413  
##  3rd Qu.:3.000  
##  Max.   :4.000
str(Data)
## tibble [150 Γ— 5] (S3: tbl_df/tbl/data.frame)
##  $ price    : num [1:150] 13300000 12250000 12250000 12215000 11410000 ...
##  $ area     : num [1:150] 7420 8960 9960 7500 7420 7500 8580 16200 8100 5750 ...
##  $ bedrooms : num [1:150] 4 4 3 4 4 3 4 5 4 3 ...
##  $ bathrooms: num [1:150] 2 4 2 2 1 3 3 3 1 2 ...
##  $ stories  : num [1:150] 3 4 2 2 2 1 4 2 2 4 ...
colSums(is.na(Data))
##     price      area  bedrooms bathrooms   stories 
##         0         0         0         0         0

4.3. Analisis Korelasi

cor(Data)
##               price        area    bedrooms  bathrooms     stories
## price     1.0000000  0.21309535  0.19050213 0.38477631  0.10504948
## area      0.2130953  1.00000000 -0.02488297 0.05110764 -0.19478791
## bedrooms  0.1905021 -0.02488297  1.00000000 0.32921305  0.09191066
## bathrooms 0.3847763  0.05110764  0.32921305 1.00000000  0.24705113
## stories   0.1050495 -0.19478791  0.09191066 0.24705113  1.00000000

4.4. Pemodelan Regresi Linear Berganda

Melakukan Analisis Regresi variabel π‘Œ (Harga Rumah) dengan variabel independen yaitu Luas Bangunan (\(X_1\)), Jumlah kamar tidur (\(X_2\)), Jumlah kamar mandi (\(X_3\)), Jumlah lantai (\(X_4\)).

model <- lm(price ~ area + bedrooms + bathrooms + stories, data = Data)
model
## 
## Call:
## lm(formula = price ~ area + bedrooms + bathrooms + stories, data = Data)
## 
## Coefficients:
## (Intercept)         area     bedrooms    bathrooms      stories  
##   3946336.6        151.2     192809.4     858951.2      76795.5

Berdasarkan hasil analisis regresi diatas didapatkan persamaan regresi: \[ Y=3946336.6+151.2𝑋1+192809.4𝑋2+858951.2X3+76795.5X4 \] Selanjutnya melakukan Summary dari hasil analisis sebelumnya. Dengan syntax sebagai berikut:

summary(model)
## 
## Call:
## lm(formula = price ~ area + bedrooms + bathrooms + stories, data = Data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2576178  -838305  -250600   499667  5512579 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.946e+06  7.645e+05   5.162 7.92e-07 ***
## area        1.512e+02  5.534e+01   2.731  0.00709 ** 
## bedrooms    1.928e+05  1.888e+05   1.021  0.30888    
## bathrooms   8.590e+05  2.102e+05   4.087 7.20e-05 ***
## stories     7.680e+04  1.082e+05   0.710  0.47915    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1391000 on 145 degrees of freedom
## Multiple R-squared:  0.1942, Adjusted R-squared:  0.1719 
## F-statistic: 8.735 on 4 and 145 DF,  p-value: 2.403e-06

Perintah diatas menghasilkan nilai terkeci (min), kuartil bawah (𝑄1), median, kuartil atas (𝑄3), nilai terbesar (max) pada residual data, juga Tabel ANOVA, nilai F statistik sampai nilai R-squared (\(R^2\))

4.5. Pengujian Asumsi Klasik

Uji Normalitas Residual

Model Awal \(e_i = y_i - \hat{y}_i\)

shapiro.test(model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.92112, p-value = 2.51e-07

\(𝐻_0\): Galat menyebar normal

\(𝐻_1\): Galat tidak menyebar normal

Berdasarkan Uji Shapiro-Wilk Test diatas, diperoleh nilai p-value = 0.000000251 < 𝛼 = 0.05 sehingga 𝐻0 ditolak. Dapat disimpulkan bahwa galat tidak menyebar secara normal, yang artinya residual model regresi tidak berdistribusi normal.

Uji Autokorelasi (Durbin Watson)

library(lmtest)
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 0.42802, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

\(𝐻_0\) : Tidak terjadi autokorelasi

\(𝐻_1\): Terjadi autokorelasi

Berdasarkan hasil uji Durbin–Watson, diperoleh nilai DW = 0.42802 dengan p-value < 2.2 Γ— \(10^⁻¹⁢\). Karena nilai p-value lebih kecil dari tingkat signifikansi 0.05, maka \(𝐻_0\) Ditolak. Dapat disimpulkan bahwa terdapat autokorelasi pada residual model regresi.

Uji Multikolinearitas (VIF)

library(car)
vif(model)
##      area  bedrooms bathrooms   stories 
##  1.052818  1.123759  1.199711  1.116285

Berdasarkan Uji Multikolinearitas diatas, diperoleh nilai Variance Inflation Factor (VIF) pada \(𝑋_1\), \(𝑋_2\), \(𝑋_3\) dan \(𝑋_4\) berada di bawah 10 maka tidak terjadi multikolinearitas, yang berarti asumsi multikolinearitas pada keempat variabel terpenuhi.

Uji Heteroskedastisitas

bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 11.535, df = 4, p-value = 0.02117

\(𝐻_0\) : Tidak terjadi heteroskedastisitas

\(𝐻_1\): Terjadi heteroskedastisitas

Berdasarkan Breusch-Pagan test, diperoleh nilai p-value = 0.02117 < 𝛼 = 0.05 sehingga \(𝐻_0\) ditolak. Dapat disimpulkan bahwa terjadi heterokedastisitas yang artinya asumsi homogenitas tidak terpenuhi.

4.6. Pengujian Hipotesis

Uji Simultan (Uji F)

summary(model)$fstatistic
##      value      numdf      dendf 
##   8.735001   4.000000 145.000000
pf(summary(model)$fstatistic[1],
   summary(model)$fstatistic[2],
   summary(model)$fstatistic[3],
   lower.tail = FALSE)
##        value 
## 2.403015e-06

\(𝐻_0\) : Seluruh variabel prediktor secara bersama-sama tidak berpengaruh terhadap harga rumah.

\(𝐻_1\): Seluruh variabel prediktor secara bersama-sama berpengaruh terhadap harga rumah.

Berdasarkan hasil uji F diperoleh nilai F hitung sebesar 8.735 dan p-value = 2.403 Γ— 10⁻⁢. Karena nilai p-value lebih kecil dari 0.05, maka \(𝐻_0\) ditolak. Dapat disimpulkan bahwa seluruh variabel prediktor secara bersama-sama berpengaruh terhadap harga rumah.

Uji Parsial (Uji t)

summary(model)$coefficients
##                 Estimate   Std. Error   t value     Pr(>|t|)
## (Intercept) 3946336.5595 764529.36936 5.1617854 7.921326e-07
## area            151.1534     55.33808 2.7314532 7.088944e-03
## bedrooms     192809.4111 188815.77533 1.0211510 3.088836e-01
## bathrooms    858951.1824 210161.72150 4.0870962 7.204814e-05
## stories       76795.4873 108238.41417 0.7095031 4.791517e-01

\(H_0 : \beta_i = 0\) -> variabel independen tidak berpengaruh terhadap variabel dependen

\(H_1 : \beta_i \neq 0\) -> variabel independen berpengaruh terhadap variabel dependen

Berdasarkan uji t diperoleh bahwa:

  1. Variabel area memiliki p-value 0.007, sehingga berpengaruh signifikan terhadap harga rumah.

  2. Variabel bedrooms memiliki p-value 0.309, sehingga tidak berpengaruh signifikan terhadap harga rumah.

  3. Variabel bathrooms memiliki p-value 7.20 Γ— 10⁻⁡, sehingga berpengaruh signifikan terhadap harga rumah.

  4. Variabel stories memiliki p-value 0.479, sehingga tidak berpengaruh signifikan terhadap harga rumah.

Koefisien Determinasi

summary(model)$r.squared
## [1] 0.1941759

Nilai R-squared adalah 0.194. Hal ini menunjukkan bahwa 19.4% variasi harga rumah dapat dijelaskan oleh variabel area, bedrooms, bathrooms, dan stories, sedangkan 80.6% sisanya dipengaruhi oleh faktor lain di luar model penelitian ini.

4.7. Interpretasi Model Regresi

Berdasarkan hasil analisis regresi linear berganda diperoleh model sebagai berikut: \[ price=3,946,336.56+151.15(area)+192,809.41(bedrooms)+858,951.18(bathrooms)+76,795.49(stories) \]

Koefisien regresi menunjukkan bahwa variabel area, bedrooms, bathrooms, dan stories memiliki hubungan positif terhadap harga rumah. Artinya, peningkatan pada variabel-variabel tersebut cenderung meningkatkan harga rumah dengan asumsi variabel lain konstan.

Berdasarkan nilai p-value, variabel area (0,007) dan bathrooms (<0,001) berpengaruh signifikan terhadap harga rumah, sedangkan variabel bedrooms (0,308) dan stories (0,479) tidak berpengaruh signifikan pada tingkat signifikansi 5%.

Nilai koefisien determinasi (RΒ² = 0,194) menunjukkan bahwa model mampu menjelaskan sekitar 19,4% variasi harga rumah, sedangkan sisanya 80,6% dipengaruhi oleh faktor lain di luar model. Secara umum, faktor luas area dan jumlah kamar mandi merupakan variabel yang paling berpengaruh dalam menentukan harga rumah pada model yang digunakan.

V. KESIMPULAN

Berdasarkan hasil analisis regresi linear berganda yang telah dilakukan, dapat disimpulkan bahwa variabel luas area rumah (area) dan jumlah kamar mandi (bathrooms) berpengaruh signifikan terhadap harga rumah. Sementara itu, variabel jumlah kamar tidur (bedrooms) dan jumlah lantai rumah (stories) tidak menunjukkan pengaruh yang signifikan terhadap harga rumah pada tingkat signifikansi 5%.

Model regresi yang diperoleh memiliki nilai koefisien determinasi RΒ² sebesar 0,194, yang menunjukkan bahwa model mampu menjelaskan sekitar 19,4% variasi harga rumah, sedangkan sisanya dipengaruhi oleh faktor lain yang tidak dimasukkan dalam model. Oleh karena itu, penelitian selanjutnya dapat mempertimbangkan penambahan variabel lain yang berpotensi memengaruhi harga rumah agar model yang dihasilkan menjadi lebih baik.

REFERENSI

Kaggle. (2023). House Pricing Dataset. Diakses dari https://www.kaggle.com/datasets/nahiankhanshwapno/house-pricing

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). John Wiley & Sons.