Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 PENDAHULUAN
1.1 Latar Belakang
*Dalam konteks pembangunan, banyak negara sejak lama telah mencanangkan program pembangunan rumah bagi rakyat dan rumah yang ditawarkan bisa bervariasi, dari rumah tapak hingga rumah susun atau yang biasa kita kenal juga dengan apartemen. Pembangunan ini adalah kegiatan yang berlangsung terusmenerus dan berkesinambungan yang bertujuan untuk meningkatkan kesejahteraan rakyat baik yang bersifat material maupun non material seperti rasa bangga akan rumah dan modern. Bisnis apartemen merupakan bisnis yang cukup menjanjikan, terutama di era saat ini dimana rumah petak sudah menjadi sangat mahal dan susah didapatkan sehingga rumah susun dan apartemen adalah solusi terbaik saat ini. namun meninjau dari segi luas tanah dan harga masih diperlukan analisis lebih lanjut apakah sesungguhnya terdapat hubungan antara luas tanah yang tersedia terhadap harga bangunan apartment yang ditawarkan, dan ingin mengetahui jenis analisis apa yang tepat digunakan untuk menjawab persoalan ini.
1.2 Analisis Regresi Sederhana
Istilah regresi dikemukakan untuk pertama kali oleh seorang antropolog dan ahli meteorology Francis Galton dalam artikelnya “Family Likeness in Stature” pada tahun 1886. Ada juga sumber lain yang menyatakan istilah regresi pertama kali muncul dalam pidato Francis Galton didepan Section H of The British Association di Aberdeen, 1855, yang dimuat di majalah Nature September 1855 dan dalam sebuah makalah “Regression towards mediocrity in hereditary stature”, yang dimuat dalam Journal of The Antrhopological Institute (Draper and Smith, 1992). Model regresi merupakan suatu cara formal untuk mengekspresikan dua unsur penting suatu hubungan statistik : 1. Suatu kecenderungan berubahnya peubah tidak bebas Y secara sistematis sejalan dengan berubahnya peubah besar X. 2. Perpencaran titik-titik di sekitar kurva hubungan statistik itu Kedua ciri ini disatukan dalam suatu model regresi dengan cara mempostulatkan bahwa : 1. Ada suatu rencana peluang peubah Y untuk setiap taraf (level) peubah X. 2. Rataan sebaran-sebaran peluang berubah secara sistematis sejalan dengan berubahnya nilai peubah X Dua model regresi mungkin saja berbeda dalam hal bentuk fungsi regresinya, dalam hal bentuk sebaran peluang bagi peubah X, atau dalam hal lainnya lagi. Apapun perbedaannya, konsep sebaran peluang bagi X untuk Y yang diketahui merupakan pasangan formal bagi diagram pencar dalam suatu relasi statistik. Begitu pula, kurva regresi, yang menjelaskan hubungan antara rataan sebaran-sebaran peluang bagi X dengan Y, merupakan pasangan formal bagi kecenderungan umum bervariasinya X secara sistematis terhadap Y dalam suatu hubungan statistik. Analisis regresi setidak-tidaknya memiliki tiga kegunaan, yaitu :
- untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, regresi mampu mendeskripsikan fenomena data melalui terbentuknya suatu model hubungan yang bersifat numerik
- untuk tujuan control, regresi juga dapat digunakan untuk melakukan pengendalian (kontrol) terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh.
- sebagai prediksi. model regresi juga dapat dimanfaatkan untuk melakukan prediksi variabel terikat
Pada umumnya, persamaan regresi dapat dilambangkan sebagai \[ Y = a + bX + \epsilon \] Dalam hal ini : Yi adalah nilai perubahan respons dalam amatan ke-i a dan b adalah parameter Xi adalah konstanta yang diketahui, yaitu nilai peubah bebas dari amatan ke-i adalah suku galat yang bersifat acak.
##Asumsi Normalitas Error menyebar normal dengan rata-rata nol dan suatu ragam (variance) tertentu. Penulisan matematis dari asumsi kedua ini adalah: \[ \epsilon \~ N(0,\sigma^2) \] \[ \epsilon \]
merupakan lambang untuk error. Sedangkan ~ adalah lambang matematis untuk kalimat “menyebar mengikuti distribusi” dan notasi \[ N(0,\sigma^2) \] menyatakan distribusi/sebaran normaldengan rata-rata nol dan ragam ^2. Statistik uji yang paling sering digunakan untuk menguji asumsi kenormalan error dengan menggunakan data residual adalah Kolmogorov-Smirnov normality test. Kolmogorov-Smirnov test bekerja dengan cara membandingkan 2 buah distribusi/sebaran data, yaitu distribusi yang dihipotesiskan dan distribusi yang teramati. Distribusi yang dihipotesiskan dalam kasus ini adalah distribusi normal. Sedangkan distribusi yang teramati adalah distribusi yang dimiliki oleh data yang sedang kita uji. Apabila distribusi yang teramati mirip dengan distribusi yang dihipotesiskan (distribusi normal), maka kita bisa menyimpulkan bahwa data yang kita amati memiliki distribusi/sebaran normal.
Hipotesis dalam uji normalitas adalah: \[ H_{0} : Data menyebar normal; H_{1} : Data tidak menyebar normal. \] Selain dengan statistik uji, pemeriksaan kenormalan residual dapat pula dilakukan dengan QQ-Plot. Ciri-ciri dari data yang menyebar normal bila diplotkan dengan QQ-Plot adalah bahwa titik-titik data tersebut tersebar di sekitar garis lurus. Pembaca sebaiknya tidak perlu terkejut bila suatu saat menemukan bahwa ujung-ujung dari titik-titik data tersebut agak menjauh dari garis lurus. Hal ini adalah hal yang wajar dan tidak perlu dianggap serius. Fokus perhatian kita sebenarnya adalah pada daerah tengah dari kumpulan titik data tersebut. Bila dapat didekati atau digambarkan dengan garis lurus, maka data tersebut dapat dikatakan menyebar normal.
##Asumsi Homogenitas Ragam Galat (Homosekdastisitas) Maksud dari ragam bersifat homogen adalah bahwa error memiliki nilai ragam yang sama antara error ke-i dan error ke-j. Secara matematis ditulis \[ \sigma^2_{e{i}}=\sigma^2_{e{j}}=\sigma^2_{e} \]
dimana i, j = 1, …., n; dan n = banyaknya pengamatan. Bagaimanapun juga, error sebenarnya berupa data. Hanya saja, sangat sulit atau bahkan tidak mungkin untuk mengetahui nilainya secara pasti. Oleh karena itu, diperlukan suatu penduga dari data error. Data penduga yang paling tepat adalah data residual. Setiap nilai dari data residual diharapkan memiliki nilai ragam yang mirip. Apabila error memiliki ragam yang homogen, demikian juga seharusnya dengan residualnya.
Dengan demikian, apabila kita temukan bahwa residual memiliki ragam yang homogen, maka kita dapat mengatakan bahwa error juga memiliki ragam yang homogen. Statistik uji yang sering digunakan adalah Breusch-Pagan test.
Hipotesis yang berlaku dalam uji homoskedatisitas ragam error adalah: \[ H_{0} : \sigma^2_{ei}=\sigma^2_{ej}=..=\sigma^2_{en}=\sigma^2_{e}; H_{1} : Setidak-tidaknya ada satu pasang ragam error yang tidak sama \] Kita juga dapat menggunakan kalimat biasa dalam menyusun hipotesis: H0 : Ragam error bersifat homoskedastik H0 : Ragam error bersifat heteroskedastik.
##Asumsi non autokorelasi Adanya autokorelasi pada error mengindikasikan bahwa ada satu atau beberapa faktor (variabel) penting yang mempengaruhi variabel terikat Y yang tidak dimasukkan ke dalam model regresi. Autokorelasi sering pula muncul pada kasus dimana data yang digunakan memasukkan unsur waktu (data time-series). Statistik uji yang sering dipakai adalah Durbin-Watson statistics. (DW-statistics). Hipotesis untuk uji asumsi autokorelasi yang sering dipakai adalah: \[ H_{0}: \rho = 0; H_{1}: \rho \neq 0 \] ##Asumsi non multikolinearitas Asumsi ini hanya tepat untuk kasus regresi linier berganda. Multikolinieritas berarti bahwa terjadi korelasi linier yang erat antar variabel bebas. Tentu saja, cara mengujinya bukan dengan meng-korelasi-kan variabel bebas yang satu dengan variabel bebas yang lain, walaupun cara ini mungkin saja dilakukan, namun dirasa kurang “powerful”. Hal ini disebabkan karena walaupun terdapat variabel yang mengalami multikolinieritas, kadang-kadang teknik korelasi tersebut tidak dapat mendeteksinya. Statistik uji yang tepat adalah dengan Variance Inflation Factor (VIF). Nilai VIF yang lebih besar dari 10 mengindikasikan adanya multikolinieritas yang serius.
Apabila asumsi-asumsi di atas terpenuhi, maka model regresi linier yang diperoleh bersifat BLUE (Best Linear Unbiased Estimator).
1.3 Data
Data yang digunakan adalah data Apartment-Prices Dataset yang diambil dari Kaggle.
2 SOURCE CODE
2.1 Library yang Dibutuhkan
> #Library(readxl) #untuk membaca data pada file excel
> #Library(agricolae) #untuk pemeriksaan asumsi
> #Library(lmtest) #untuk pengecekan asumsi
> #Library(car) #untuk pengecekan asumsi
> #Library(tseries) #unutk pengecekan asumsi
> #Library(ggplot2) #untuk visuaslisasi data
> #Library(corrplot) #untuk visualisasi matriks korelasi
> 2.2 Membangkitkan Data
> library(readxl)
> data1 <- read_excel("C:/Users/yehez/Downloads/Apartment-Prices (No Outliers).xlsx")
> View(data1)2.3 Plot…
> smoothScatter(data1$Squaremeter, data1$Price, xlab = "Squaremeter", ylab = "Price", main = "Gambar 1. Smooth Scatter Plot Squaremeter-Price")3 HASIL DAN PEMBAHASAN
3.1 Statistika Deskriptif
Berdasarkan Data yang digunakan, diperoleh nilai rataan sebesar….
> summary(data1)
Squaremeter Price
Min. : 25.00 Min. :101.0
1st Qu.: 50.50 1st Qu.:259.5
Median : 61.00 Median :317.0
Mean : 63.04 Mean :322.5
3rd Qu.: 73.00 3rd Qu.:388.0
Max. :109.00 Max. :576.0
> var(data1$Squaremeter)
[1] 330.0851
> var(data1$Price)
[1] 8718.254
> sd(data1$Squaremeter)
[1] 18.16824
> sd(data1$Price)
[1] 93.37159Pada variabel Squaremeter(x), dapat dilihat bahwa nilai terkecil sebesar 25 m^2 dan nilai terbesar sebesar 109 m^2 dengan nilai rata-rata sebesar 63.4 m^2 dan median (nilai tengah) berada pada 61 m^2 . Kemudian, pada variabel Price(y), dapat dilihat bahwa nilai terkecil sebesar 101 dollar dan nilai terbesar sebesar 576 dollar dengan rata-rata 322.5 dollar dan median (nilai tengah) berada pada 317 dollar. Kemudian untuk varian data pada variabel Squaremeter sebesar 330.08.47 lalu untuk Price sebesar 8718.254. Kemudian untuk standar deviasi dari Squaremeter sebesar 18.16 dan standar deviasi dari Price sebesar 93.37.
##Pemenuhan Asumsi Regresi
> reg<-lm(data1$Squaremeter~data1$Price, data=data1)
> print(reg)
Call:
lm(formula = data1$Squaremeter ~ data1$Price, data = data1)
Coefficients:
(Intercept) data1$Price
2.9094 0.1865 Pada penggunaan fungsi lm, kita abaikan terlebih dahulu model yang terbentuk untuk pemeriksaan sisa.
> par(mfrow = c(2,2))
> plot(reg) Pada plot pertama (Residuals vs Fitted), terbentuk pola yang dimana garis merah juga masih membentuk pola horizontal sehingga untuk model yang dihasilkan sudah tepat. Pada plot 2 (Normal QQ), terlihat bahwa tidak adanya pelanggaran asumsi normalitas dimana data terlihat berkumpul di sekitar garis 45 derajat sebagai tanda terpenuhinya asumsi normalitas. Pada plot 3 (Scale Location), terdapat sedikit belokan atau lengkungan, tetapi garis lurus mendominasi sehingga tidak terdapat masalah heteroskedastisitas atau terpenuhinya asumsi homogenitas ragam galat. Pada plot 4 (Residuals vs Leverage) tidak terdapat warning akibat adanya data yang melebihi batas cook, atau dengan kata lain data masih berada dalam garis wajar.
###Asumsi Normalitas Sebelumnya, dengan melihat Normal QQ dan Smooth Scatter Plot, dapat dilihat bahwa asumsi normalitas telah terpenuhi. Lalu, kita lihat dengan penggunaan uji
> sisa<-residuals(reg)
> library(tseries)
> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 0.47582, df = 2, p-value = 0.7883
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.98352, p-value = 0.7403Pada hasil uji normalitas, dengan melihat p-Value pada kedua uji, didapatkan bahwa kedua p-Value diatas alpha dengan taraf 5% sehingga didapat bahwa terima H0 pada taraf 5%. Disimpulkan bahwa tidak terdapat pelanggaran pada asumsi normalitas galat pada model Squaremeter dengan Price.
3.1.1 Asumsi Homoskedastisitas
> library(lmtest)
> bptest(reg)
studentized Breusch-Pagan test
data: reg
BP = 0.20633, df = 1, p-value = 0.6497Dengan menggunakan Breusch-Pagan test, didapatkan p-Value sebesar 0.6497 dan lebih besar dibandingkan dengan taraf nyata (alpha) 5% sehingga terima H0. Dapat disimpulkan bahwa tidak terbukti ada pelanggaran asumsi homogenitas ragam galat pada model.
3.1.2 Asumsi Non Autokorelasi
> library(lmtest)
> dwtest(reg)
Durbin-Watson test
data: reg
DW = 1.9013, p-value = 0.3676
alternative hypothesis: true autocorrelation is greater than 0Pada pemeriksaan didapatkan melalui p-Value 0.3676 dan ketika dibandingkan dengan taraf nyata 5%, p-Value masih lebih besar sehingga terima H0. Dapat disimpulkan bahwa non autokorelasi pada ragam galat terpenuhi
3.1.3 Asumsi Multikolinieritas
Multikolinieritas berlaku apabila variabel x lebih dari 1 karena dalam multikolinieritas menunjukkan hubungan beberapa variabel bebas (x).
3.2 ANOVA
> ANOVA<-aov(data1$Squaremeter~data1$Price, data=data1)
> summary(ANOVA)
Df Sum Sq Mean Sq F value Pr(>F)
data1$Price 1 13946 13946 506.9 <2e-16 ***
Residuals 45 1238 28
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Pada ANOVA diatas, terlihat pada p-Value sangat kecil maka terdapat bukti bahwa paling sedikit 1 squaremeter atau luas tanah yang secara signifikan memiliki rata-rata Price atau Harga yang berbeda.
3.3 Pembentukan Model Regresi
Dengan melihat summary pada reg, didapatkan
> summary(reg)
Call:
lm(formula = data1$Squaremeter ~ data1$Price, data = data1)
Residuals:
Min 1Q Median 3Q Max
-14.8178 -3.6373 0.6554 3.3043 11.0447
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.909364 2.778423 1.047 0.301
data1$Price 0.186478 0.008283 22.513 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.245 on 45 degrees of freedom
Multiple R-squared: 0.9185, Adjusted R-squared: 0.9166
F-statistic: 506.9 on 1 and 45 DF, p-value: < 2.2e-16\[ Price = 2.909364 + 0.1864Squaremeter \]
4 DAFTAR PUSTAKA
- Sari A.Q, Sukestiyarno Y.L., & Agoestanto A. (2017). Batasan Prasyarat Uji Normalitas dan Uji Homogenitas pada Model Regresi Linear. Unnes Journal of Mathematics, 6(2): 168-177.
- Kurniawan, D. (2008). REGRESI LINIER. -, 1-13.
- Lawendatu, J. R., Kekenusa, J. S., & Hatidja, D. (2014). Regresi Linier Berganda Untuk Menganalisis Pendapatan Petani Pala. JdC, 67-72.
- Sutawijaya, A. (2009). Analisis Faktor-Faktor yang Mempengaruhi Nilai Tanah sebagai Dasar Penilaian Niali Jual Obyek Pajak (NJOP) PBB di Kota Semarang. Economic Journal of Emerging Markets, 9(1). https://doi.org/10.20885/vol9iss1aa625