Regresi linier berganda merupakan model persamaan yang menjelaskan hubungan dua variabel bebas/prediktor (X) atau lebih terhadap satu variabel tak bebas/respons (Y). Tujuan analisis regresi linier berganda yaitu untuk membuktikan ada atau tidak hubungan anatara dua variabel atau lebih dari variabel bebas/prediktor \((X_1, X_2, X_3, …,X_i)\) terhadap satu variabel tak bebas/respons Y. Bentuk umum dari Regresi linier berganda, ditulis sebagai berikut (Fitriyah dkk, 2021): \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \epsilon \] Keterangan:
Y = Variabel terikat atau variabel response.
X = Variabel bebas atau variabel predictor.
α = Konstanta.
β = Slope atau Koefisien estimate.
Data yang digunakan dalam analisis ini adalah dataset
Columbus yang tersedia pada package spData
di bahasa pemrograman R. Dataset ini berisi informasi sosial ekonomi
dari beberapa wilayah di kota Columbus, Ohio, Amerika Serikat. Data
tersebut sering digunakan sebagai contoh dalam analisis statistik dan
analisis spasial untuk mempelajari hubungan antara kondisi sosial
ekonomi dan tingkat kriminalitas pada suatu wilayah.
Dataset Columbus terdiri dari 49 observasi yang merepresentasikan wilayah atau lingkungan di kota Columbus serta memiliki beberapa variabel yang menggambarkan karakteristik wilayah tersebut. Beberapa variabel utama yang digunakan dalam analisis ini antara lain CRIME yang menunjukkan tingkat kriminalitas, INC yang merepresentasikan rata-rata pendapatan masyarakat, dan HOVAL yang menunjukkan nilai rata-rata rumah pada masing-masing wilayah.
Dalam analisis ini, variabel CRIME digunakan sebagai variabel dependen, sedangkan variabel INC dan HOVAL digunakan sebagai variabel independen. Analisis dilakukan menggunakan metode regresi linier berganda untuk mengetahui bagaimana faktor ekonomi seperti pendapatan dan nilai rumah dapat mempengaruhi tingkat kriminalitas pada wilayah tersebut.
## To access larger datasets in this package, install the spDataLarge
## package with: `install.packages('spDataLarge',
## repos='https://nowosad.github.io/drat/', type='source')`
## AREA PERIMETER COLUMBUS. COLUMBUS.I POLYID NEIG HOVAL INC CRIME
## 1005 0.309441 2.440629 2 5 1 5 80.467 19.531 15.72598
## 1001 0.259329 2.236939 3 1 2 1 44.567 21.232 18.80175
## 1006 0.192468 2.187547 4 6 3 6 26.350 15.956 30.62678
## 1002 0.083841 1.427635 5 2 4 2 33.200 4.477 32.38776
## 1007 0.488888 2.997133 6 7 5 7 23.225 11.252 50.73151
## 1008 0.283079 2.335634 7 8 6 8 28.750 16.029 26.06666
## OPEN PLUMB DISCBD X Y AREA NSA NSB EW CP THOUS NEIGNO
## 1005 2.850747 0.217155 5.03 38.80 44.07 10.391 1 1 1 0 1000 1005
## 1001 5.296720 0.320581 4.27 35.62 42.38 8.621 1 1 0 0 1000 1001
## 1006 4.534649 0.374404 3.89 39.82 41.18 6.981 1 1 1 0 1000 1006
## 1002 0.394427 1.186944 3.70 36.50 40.52 2.908 1 1 0 0 1000 1002
## 1007 0.405664 0.624596 2.83 40.01 38.00 16.827 1 1 1 0 1000 1007
## 1008 0.563075 0.254130 3.78 43.75 39.28 8.929 1 1 1 0 1000 1008
## PERIM
## 1005 2.440629
## 1001 2.236939
## 1006 2.187547
## 1002 1.427635
## 1007 2.997133
## 1008 2.335634
## AREA PERIMETER COLUMBUS. COLUMBUS.I POLYID
## Min. :0.03438 Min. :0.9021 Min. : 2 Min. : 1 Min. : 1
## 1st Qu.:0.09315 1st Qu.:1.4023 1st Qu.:14 1st Qu.:13 1st Qu.:13
## Median :0.17477 Median :1.8410 Median :26 Median :25 Median :25
## Mean :0.18649 Mean :1.8887 Mean :26 Mean :25 Mean :25
## 3rd Qu.:0.24669 3rd Qu.:2.1992 3rd Qu.:38 3rd Qu.:37 3rd Qu.:37
## Max. :0.69926 Max. :5.0775 Max. :50 Max. :49 Max. :49
## NEIG HOVAL INC CRIME
## Min. : 1 Min. :17.90 Min. : 4.477 Min. : 0.1783
## 1st Qu.:13 1st Qu.:25.70 1st Qu.: 9.963 1st Qu.:20.0485
## Median :25 Median :33.50 Median :13.380 Median :34.0008
## Mean :25 Mean :38.44 Mean :14.375 Mean :35.1288
## 3rd Qu.:37 3rd Qu.:43.30 3rd Qu.:18.324 3rd Qu.:48.5855
## Max. :49 Max. :96.40 Max. :31.070 Max. :68.8920
## OPEN PLUMB DISCBD X
## Min. : 0.0000 Min. : 0.1327 Min. :0.370 Min. :24.25
## 1st Qu.: 0.2598 1st Qu.: 0.3323 1st Qu.:1.700 1st Qu.:36.15
## Median : 1.0061 Median : 1.0239 Median :2.670 Median :39.61
## Mean : 2.7709 Mean : 2.3639 Mean :2.852 Mean :39.46
## 3rd Qu.: 3.9364 3rd Qu.: 2.5343 3rd Qu.:3.890 3rd Qu.:43.44
## Max. :24.9981 Max. :18.8111 Max. :5.570 Max. :51.24
## Y AREA NSA NSB
## Min. :24.96 Min. : 1.093 Min. :0.0000 Min. :0.0000
## 1st Qu.:28.26 1st Qu.: 3.193 1st Qu.:0.0000 1st Qu.:0.0000
## Median :31.91 Median : 6.029 Median :0.0000 Median :1.0000
## Mean :32.37 Mean : 6.372 Mean :0.4898 Mean :0.5102
## 3rd Qu.:35.92 3rd Qu.: 7.989 3rd Qu.:1.0000 3rd Qu.:1.0000
## Max. :44.07 Max. :21.282 Max. :1.0000 Max. :1.0000
## EW CP THOUS NEIGNO
## Min. :0.0000 Min. :0.0000 Min. :1000 Min. :1001
## 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:1000 1st Qu.:1013
## Median :1.0000 Median :0.0000 Median :1000 Median :1025
## Mean :0.5918 Mean :0.4898 Mean :1000 Mean :1025
## 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1000 3rd Qu.:1037
## Max. :1.0000 Max. :1.0000 Max. :1000 Max. :1049
## PERIM
## Min. :0.9021
## 1st Qu.:1.4023
## Median :1.8410
## Mean :1.8887
## 3rd Qu.:2.1992
## Max. :5.0775
Statistik deskriptif menunjukkan nilai minimum, maksimum, mean, dan median yang memberikan gambaran awal karakteristik data.
Uji normalitas residual dilakukan untuk mengetahui apakah residual dari model regresi berdistribusi normal atau tidak. Normalitas residual merupakan salah satu asumsi penting dalam analisis regresi linier. Pada analisis ini digunakan uji Shapiro-Wilk untuk menguji normalitas residual.
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.97708, p-value = 0.4497
Hipotesis:
\(H_0\): residual mengikuti distribusi normal
\(H_1\): residual tidak mengikuti distribusi normal
Berdasarkan hasil pengujian diatas, pada taraf signifikansi α, dengan menggunakan shapiro-wilk test diperoleh nilai p-value (0.4497) > α (0.05), maka tidak cukup bukti untuk menolak \(H_0\). Sehingga dapat disimpulkan bahwa asumsi normalitas terpenuhi.
Uji linearitas dilakukan untuk mengetahui apakah hubungan antara variabel independen dan variabel dependen bersifat linear. Hubungan yang linear merupakan salah satu asumsi dalam model regresi linier. Uji ini dapat dilihat melalui scatter plot antara variabel independen dan variabel dependen.
plot(columbus$INC, columbus$CRIME,
xlab="Income",
ylab="Crime",
main="Hubungan Pendapatan dan Kriminalitas")
abline(lm(CRIME ~ INC, data=columbus))Berdasarkan scatter plot antara variabel INC dan CRIME, terlihat bahwa titik-titik data cenderung mengikuti pola yang mendekati garis lurus yang menurun. Garis regresi yang ditampilkan pada grafik menunjukkan kecenderungan hubungan linear antara kedua variabel tersebut.
Pola sebaran data menunjukkan bahwa ketika nilai pendapatan (Income) meningkat, nilai tingkat kriminalitas (Crime) cenderung menurun. Hal ini mengindikasikan adanya hubungan linear negatif antara kedua variabel.
Karena titik-titik observasi mengikuti pola garis lurus dan tidak membentuk pola melengkung tertentu, maka dapat disimpulkan bahwa asumsi linearitas pada model regresi terpenuhi. Dengan demikian, variabel pendapatan dapat digunakan dalam model regresi linier untuk menjelaskan variasi tingkat kriminalitas.
Uji heterokedastisitas dilakukan untuk mengetahui apakah terjadi ketidaksamaan varians pada residual model regresi. Model regresi yang baik seharusnya memiliki varians residual yang konstan atau disebut dengan homoskedastisitas.
plot(model$fitted.values, residuals(model),
xlab="Nilai Prediksi",
ylab="Residual",
main="Plot Residual")
abline(h=0)Secara visual, dapat terlihat bahwa titik residual menyebar secara acak di sekitar garis nol tanpa pola tertentu maka tidak terjadi heterokedastisitas.
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 7.2166, df = 2, p-value = 0.0271
Hipotesis:
\(H_0\) : tidak terjadi heterokedastisitas
\(H_1\) : terjadi heterokedastisitas
Berdasarkan hasil pengujian diatas, pada taraf signifikansi α, dengan menggunakan studentized Breusch-Pagan test diperoleh p-value (0.0271) < (α) 0.05, maka \(H_0\) ditolak sehingga terjadi heterokedastisitas.
Uji multikolinearitas dilakukan untuk mengetahui apakah terdapat hubungan yang kuat antar variabel independen dalam model regresi. Hubungan yang terlalu kuat antar variabel independen dapat menyebabkan ketidakstabilan dalam estimasi koefisien regresi.
## Loading required package: carData
## INC HOVAL
## 1.333117 1.333117
Karena nilai VIF pada \(X_1\) dan \(X_2\) berada di bawah 10, maka tidak terjadi multikolinieritas. Artinya, asumsi multikolinieritas terpenuhi.
##
## Call:
## lm(formula = CRIME ~ INC + HOVAL, data = columbus)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.418 -6.388 -1.580 9.052 28.649
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 68.6190 4.7355 14.490 < 2e-16 ***
## INC -1.5973 0.3341 -4.780 1.83e-05 ***
## HOVAL -0.2739 0.1032 -2.654 0.0109 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.43 on 46 degrees of freedom
## Multiple R-squared: 0.5524, Adjusted R-squared: 0.5329
## F-statistic: 28.39 on 2 and 46 DF, p-value: 9.341e-09
Model regresi yang diperoleh adalah:
\[ Y = 68.6190 - 1.5973\;(INC) - 0.2739\;(HOVAL) \]
Koefisien regresi menunjukkan hubungan antara variabel independen dan variabel dependen. Koefisien negatif pada variabel INC dan HOVAL menunjukkan bahwa peningkatan nilai variabel tersebut cenderung menurunkan tingkat kriminalitas.
Uji parsial (uji t) digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen secara individual.
Hipotesis:
Berdasarkan output regresi yang diperoleh dari fungsi
summary(model) pada R, didapatkan hasil
sebagai berikut:
Variabel INC memiliki nilai p-value sebesar 1.83e-05 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel pendapatan rata-rata (INC) berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).
Variabel HOVAL memiliki nilai p-value sebesar 0.0109 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel nilai rumah (HOVAL) berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).
Dengan demikian, secara parsial kedua variabel independen memiliki pengaruh yang signifikan terhadap variabel dependen.
Uji simultan (uji F) digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama berpengaruh terhadap variabel dependen.
Hipotesis:
Berdasarkan hasil output regresi diperoleh nilai F-statistic sebesar 28.39 dengan p-value sebesar 9.341e-09 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak.
Hal ini menunjukkan bahwa variabel pendapatan rata-rata (INC) dan nilai rumah (HOVAL) secara bersama-sama berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).
Interpretasi persamaan model regresi linear berganda
\[ Y = 68.6190 - 1.5973\;(INC) - 0.2739\;(HOVAL) \]
Koefisien \(\beta_1 = -1.5973\) menunjukkan perubahan pada CRIME untuk setiap peningkatan satu satuan pada INC jika variabel lainnya tetap. Jadi, setiap peningkatan pendapatan rata-rata sebesar satu satuan dengan asumsi nilai rumah tetap, maka tingkat kriminalitas akan menurun sebesar 1.5973.
Koefisien \(\beta_2 = -0.2739\) menunjukkan perubahan pada CRIME untuk setiap peningkatan satu satuan pada HOVAL jika variabel lainnya tetap. Jadi, setiap peningkatan nilai rumah sebesar satu satuan dengan asumsi pendapatan rata-rata tetap, maka tingkat kriminalitas akan menurun sebesar 0.2739.
Dari output sebelumnya pada summary(model) diperoleh
nilai Multiple R-squared = 0.5478 (54.78%) sehingga
dapat dikatakan bahwa: Sebesar 54.78% variabilitas tingkat
kriminalitas (CRIME) dapat dijelaskan oleh variabel
pendapatan rata-rata (INC) dan nilai rumah
(HOVAL). Sedangkan sisanya yaitu sekitar
45.22% variasi tingkat kriminalitas tidak dijelaskan
oleh model, yang kemungkinan disebabkan oleh faktor-faktor lain yang
tidak dimasukkan dalam model atau oleh unsur kesalahan (noise).