Regresi Linear Berganda

Regresi linier berganda merupakan model persamaan yang menjelaskan hubungan dua variabel bebas/prediktor (X) atau lebih terhadap satu variabel tak bebas/respons (Y). Tujuan analisis regresi linier berganda yaitu untuk membuktikan ada atau tidak hubungan anatara dua variabel atau lebih dari variabel bebas/prediktor \((X_1, X_2, X_3, …,X_i)\) terhadap satu variabel tak bebas/respons Y. Bentuk umum dari Regresi linier berganda, ditulis sebagai berikut (Fitriyah dkk, 2021): \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \epsilon \] Keterangan:

Y = Variabel terikat atau variabel response.

X = Variabel bebas atau variabel predictor.

α = Konstanta.

β = Slope atau Koefisien estimate.

Data

Data yang digunakan dalam analisis ini adalah dataset Columbus yang tersedia pada package spData di bahasa pemrograman R. Dataset ini berisi informasi sosial ekonomi dari beberapa wilayah di kota Columbus, Ohio, Amerika Serikat. Data tersebut sering digunakan sebagai contoh dalam analisis statistik dan analisis spasial untuk mempelajari hubungan antara kondisi sosial ekonomi dan tingkat kriminalitas pada suatu wilayah.

Dataset Columbus terdiri dari 49 observasi yang merepresentasikan wilayah atau lingkungan di kota Columbus serta memiliki beberapa variabel yang menggambarkan karakteristik wilayah tersebut. Beberapa variabel utama yang digunakan dalam analisis ini antara lain CRIME yang menunjukkan tingkat kriminalitas, INC yang merepresentasikan rata-rata pendapatan masyarakat, dan HOVAL yang menunjukkan nilai rata-rata rumah pada masing-masing wilayah.

Dalam analisis ini, variabel CRIME digunakan sebagai variabel dependen, sedangkan variabel INC dan HOVAL digunakan sebagai variabel independen. Analisis dilakukan menggunakan metode regresi linier berganda untuk mengetahui bagaimana faktor ekonomi seperti pendapatan dan nilai rumah dapat mempengaruhi tingkat kriminalitas pada wilayah tersebut.

library(spData)
## To access larger datasets in this package, install the spDataLarge
## package with: `install.packages('spDataLarge',
## repos='https://nowosad.github.io/drat/', type='source')`
data(columbus)

head(columbus)
##          AREA PERIMETER COLUMBUS. COLUMBUS.I POLYID NEIG  HOVAL    INC    CRIME
## 1005 0.309441  2.440629         2          5      1    5 80.467 19.531 15.72598
## 1001 0.259329  2.236939         3          1      2    1 44.567 21.232 18.80175
## 1006 0.192468  2.187547         4          6      3    6 26.350 15.956 30.62678
## 1002 0.083841  1.427635         5          2      4    2 33.200  4.477 32.38776
## 1007 0.488888  2.997133         6          7      5    7 23.225 11.252 50.73151
## 1008 0.283079  2.335634         7          8      6    8 28.750 16.029 26.06666
##          OPEN    PLUMB DISCBD     X     Y   AREA NSA NSB EW CP THOUS NEIGNO
## 1005 2.850747 0.217155   5.03 38.80 44.07 10.391   1   1  1  0  1000   1005
## 1001 5.296720 0.320581   4.27 35.62 42.38  8.621   1   1  0  0  1000   1001
## 1006 4.534649 0.374404   3.89 39.82 41.18  6.981   1   1  1  0  1000   1006
## 1002 0.394427 1.186944   3.70 36.50 40.52  2.908   1   1  0  0  1000   1002
## 1007 0.405664 0.624596   2.83 40.01 38.00 16.827   1   1  1  0  1000   1007
## 1008 0.563075 0.254130   3.78 43.75 39.28  8.929   1   1  1  0  1000   1008
##         PERIM
## 1005 2.440629
## 1001 2.236939
## 1006 2.187547
## 1002 1.427635
## 1007 2.997133
## 1008 2.335634
summary(columbus)
##       AREA           PERIMETER        COLUMBUS.    COLUMBUS.I     POLYID  
##  Min.   :0.03438   Min.   :0.9021   Min.   : 2   Min.   : 1   Min.   : 1  
##  1st Qu.:0.09315   1st Qu.:1.4023   1st Qu.:14   1st Qu.:13   1st Qu.:13  
##  Median :0.17477   Median :1.8410   Median :26   Median :25   Median :25  
##  Mean   :0.18649   Mean   :1.8887   Mean   :26   Mean   :25   Mean   :25  
##  3rd Qu.:0.24669   3rd Qu.:2.1992   3rd Qu.:38   3rd Qu.:37   3rd Qu.:37  
##  Max.   :0.69926   Max.   :5.0775   Max.   :50   Max.   :49   Max.   :49  
##       NEIG        HOVAL            INC             CRIME        
##  Min.   : 1   Min.   :17.90   Min.   : 4.477   Min.   : 0.1783  
##  1st Qu.:13   1st Qu.:25.70   1st Qu.: 9.963   1st Qu.:20.0485  
##  Median :25   Median :33.50   Median :13.380   Median :34.0008  
##  Mean   :25   Mean   :38.44   Mean   :14.375   Mean   :35.1288  
##  3rd Qu.:37   3rd Qu.:43.30   3rd Qu.:18.324   3rd Qu.:48.5855  
##  Max.   :49   Max.   :96.40   Max.   :31.070   Max.   :68.8920  
##       OPEN             PLUMB             DISCBD            X        
##  Min.   : 0.0000   Min.   : 0.1327   Min.   :0.370   Min.   :24.25  
##  1st Qu.: 0.2598   1st Qu.: 0.3323   1st Qu.:1.700   1st Qu.:36.15  
##  Median : 1.0061   Median : 1.0239   Median :2.670   Median :39.61  
##  Mean   : 2.7709   Mean   : 2.3639   Mean   :2.852   Mean   :39.46  
##  3rd Qu.: 3.9364   3rd Qu.: 2.5343   3rd Qu.:3.890   3rd Qu.:43.44  
##  Max.   :24.9981   Max.   :18.8111   Max.   :5.570   Max.   :51.24  
##        Y              AREA             NSA              NSB        
##  Min.   :24.96   Min.   : 1.093   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:28.26   1st Qu.: 3.193   1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :31.91   Median : 6.029   Median :0.0000   Median :1.0000  
##  Mean   :32.37   Mean   : 6.372   Mean   :0.4898   Mean   :0.5102  
##  3rd Qu.:35.92   3rd Qu.: 7.989   3rd Qu.:1.0000   3rd Qu.:1.0000  
##  Max.   :44.07   Max.   :21.282   Max.   :1.0000   Max.   :1.0000  
##        EW               CP             THOUS          NEIGNO    
##  Min.   :0.0000   Min.   :0.0000   Min.   :1000   Min.   :1001  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:1000   1st Qu.:1013  
##  Median :1.0000   Median :0.0000   Median :1000   Median :1025  
##  Mean   :0.5918   Mean   :0.4898   Mean   :1000   Mean   :1025  
##  3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1000   3rd Qu.:1037  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1000   Max.   :1049  
##      PERIM       
##  Min.   :0.9021  
##  1st Qu.:1.4023  
##  Median :1.8410  
##  Mean   :1.8887  
##  3rd Qu.:2.1992  
##  Max.   :5.0775

Statistik deskriptif menunjukkan nilai minimum, maksimum, mean, dan median yang memberikan gambaran awal karakteristik data.

Uji Asumsi

Uji Normalitas Residual

Uji normalitas residual dilakukan untuk mengetahui apakah residual dari model regresi berdistribusi normal atau tidak. Normalitas residual merupakan salah satu asumsi penting dalam analisis regresi linier. Pada analisis ini digunakan uji Shapiro-Wilk untuk menguji normalitas residual.

model <- lm(CRIME ~ INC + HOVAL, data = columbus)

shapiro.test(residuals(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model)
## W = 0.97708, p-value = 0.4497

Hipotesis:

\(H_0\): residual mengikuti distribusi normal

\(H_1\): residual tidak mengikuti distribusi normal

Berdasarkan hasil pengujian diatas, pada taraf signifikansi α, dengan menggunakan shapiro-wilk test diperoleh nilai p-value (0.4497) > α (0.05), maka tidak cukup bukti untuk menolak \(H_0\). Sehingga dapat disimpulkan bahwa asumsi normalitas terpenuhi.

Uji Linearitas

Uji linearitas dilakukan untuk mengetahui apakah hubungan antara variabel independen dan variabel dependen bersifat linear. Hubungan yang linear merupakan salah satu asumsi dalam model regresi linier. Uji ini dapat dilihat melalui scatter plot antara variabel independen dan variabel dependen.

plot(columbus$INC, columbus$CRIME,
     xlab="Income",
     ylab="Crime",
     main="Hubungan Pendapatan dan Kriminalitas")

abline(lm(CRIME ~ INC, data=columbus))

Berdasarkan scatter plot antara variabel INC dan CRIME, terlihat bahwa titik-titik data cenderung mengikuti pola yang mendekati garis lurus yang menurun. Garis regresi yang ditampilkan pada grafik menunjukkan kecenderungan hubungan linear antara kedua variabel tersebut.

Pola sebaran data menunjukkan bahwa ketika nilai pendapatan (Income) meningkat, nilai tingkat kriminalitas (Crime) cenderung menurun. Hal ini mengindikasikan adanya hubungan linear negatif antara kedua variabel.

Karena titik-titik observasi mengikuti pola garis lurus dan tidak membentuk pola melengkung tertentu, maka dapat disimpulkan bahwa asumsi linearitas pada model regresi terpenuhi. Dengan demikian, variabel pendapatan dapat digunakan dalam model regresi linier untuk menjelaskan variasi tingkat kriminalitas.

Uji Heterokedastisitas

Uji heterokedastisitas dilakukan untuk mengetahui apakah terjadi ketidaksamaan varians pada residual model regresi. Model regresi yang baik seharusnya memiliki varians residual yang konstan atau disebut dengan homoskedastisitas.

plot(model$fitted.values, residuals(model),
     xlab="Nilai Prediksi",
     ylab="Residual",
     main="Plot Residual")

abline(h=0)

Secara visual, dapat terlihat bahwa titik residual menyebar secara acak di sekitar garis nol tanpa pola tertentu maka tidak terjadi heterokedastisitas.

library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 7.2166, df = 2, p-value = 0.0271

Hipotesis:

\(H_0\) : tidak terjadi heterokedastisitas

\(H_1\) : terjadi heterokedastisitas

Berdasarkan hasil pengujian diatas, pada taraf signifikansi α, dengan menggunakan studentized Breusch-Pagan test diperoleh p-value (0.0271) < (α) 0.05, maka \(H_0\) ditolak sehingga terjadi heterokedastisitas.

Uji Multikolinearitas

Uji multikolinearitas dilakukan untuk mengetahui apakah terdapat hubungan yang kuat antar variabel independen dalam model regresi. Hubungan yang terlalu kuat antar variabel independen dapat menyebabkan ketidakstabilan dalam estimasi koefisien regresi.

library(car)
## Loading required package: carData
vif(model)
##      INC    HOVAL 
## 1.333117 1.333117

Karena nilai VIF pada \(X_1\) dan \(X_2\) berada di bawah 10, maka tidak terjadi multikolinieritas. Artinya, asumsi multikolinieritas terpenuhi.

Model Regresi

summary(model)
## 
## Call:
## lm(formula = CRIME ~ INC + HOVAL, data = columbus)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -34.418  -6.388  -1.580   9.052  28.649 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  68.6190     4.7355  14.490  < 2e-16 ***
## INC          -1.5973     0.3341  -4.780 1.83e-05 ***
## HOVAL        -0.2739     0.1032  -2.654   0.0109 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.43 on 46 degrees of freedom
## Multiple R-squared:  0.5524, Adjusted R-squared:  0.5329 
## F-statistic: 28.39 on 2 and 46 DF,  p-value: 9.341e-09

Model regresi yang diperoleh adalah:

\[ Y = 68.6190 - 1.5973\;(INC) - 0.2739\;(HOVAL) \]

Koefisien regresi menunjukkan hubungan antara variabel independen dan variabel dependen. Koefisien negatif pada variabel INC dan HOVAL menunjukkan bahwa peningkatan nilai variabel tersebut cenderung menurunkan tingkat kriminalitas.

Uji Signifikansi Parameter

Uji Parsial (Uji t)

Uji parsial (uji t) digunakan untuk mengetahui pengaruh masing-masing variabel independen terhadap variabel dependen secara individual.

Hipotesis:

  • \(H_0\): Variabel independen tidak berpengaruh signifikan terhadap variabel dependen
  • \(H_1\): Variabel independen berpengaruh signifikan terhadap variabel dependen

Berdasarkan output regresi yang diperoleh dari fungsi summary(model) pada R, didapatkan hasil sebagai berikut:

  • Variabel INC memiliki nilai p-value sebesar 1.83e-05 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel pendapatan rata-rata (INC) berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).

  • Variabel HOVAL memiliki nilai p-value sebesar 0.0109 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak. Hal ini menunjukkan bahwa variabel nilai rumah (HOVAL) berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).

Dengan demikian, secara parsial kedua variabel independen memiliki pengaruh yang signifikan terhadap variabel dependen.

Uji Simultan (Uji F)

Uji simultan (uji F) digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama berpengaruh terhadap variabel dependen.

Hipotesis:

  • \(H_0\): Variabel independen secara simultan tidak berpengaruh terhadap variabel dependen
  • \(H_1\): Variabel independen secara simultan berpengaruh terhadap variabel dependen

Berdasarkan hasil output regresi diperoleh nilai F-statistic sebesar 28.39 dengan p-value sebesar 9.341e-09 yang lebih kecil dari 0.05, sehingga \(H_0\) ditolak.

Hal ini menunjukkan bahwa variabel pendapatan rata-rata (INC) dan nilai rumah (HOVAL) secara bersama-sama berpengaruh signifikan terhadap tingkat kriminalitas (CRIME).

Kesimpulan

Interpretasi

Interpretasi persamaan model regresi linear berganda

\[ Y = 68.6190 - 1.5973\;(INC) - 0.2739\;(HOVAL) \]

  • Koefisien \(\beta_1 = -1.5973\) menunjukkan perubahan pada CRIME untuk setiap peningkatan satu satuan pada INC jika variabel lainnya tetap. Jadi, setiap peningkatan pendapatan rata-rata sebesar satu satuan dengan asumsi nilai rumah tetap, maka tingkat kriminalitas akan menurun sebesar 1.5973.

  • Koefisien \(\beta_2 = -0.2739\) menunjukkan perubahan pada CRIME untuk setiap peningkatan satu satuan pada HOVAL jika variabel lainnya tetap. Jadi, setiap peningkatan nilai rumah sebesar satu satuan dengan asumsi pendapatan rata-rata tetap, maka tingkat kriminalitas akan menurun sebesar 0.2739.

  • Dari output sebelumnya pada summary(model) diperoleh nilai Multiple R-squared = 0.5478 (54.78%) sehingga dapat dikatakan bahwa: Sebesar 54.78% variabilitas tingkat kriminalitas (CRIME) dapat dijelaskan oleh variabel pendapatan rata-rata (INC) dan nilai rumah (HOVAL). Sedangkan sisanya yaitu sekitar 45.22% variasi tingkat kriminalitas tidak dijelaskan oleh model, yang kemungkinan disebabkan oleh faktor-faktor lain yang tidak dimasukkan dalam model atau oleh unsur kesalahan (noise).