Regresi Linear Berganda Data Recovery COVID-19 & Google Mobility Index pada Bulan Oktober 2020

1. Pengertian Regresi Linear

Regresi linier merupakan metode yang digunakan dalam memperoleh hubungan antara 1 variable dependen dengan 1 atau lebih variabel independen. Apabila variable idependen yang digunakan hanya satu maka disebut regresi linear sederhana sedangkan apabila lebih dari satu maka disebut regresi linear berganda. Berikut contoh regresi linear berganda pada data Sembuh COVID-19 & Google Mobility Index pada bulan Oktober 2020.

2. Data Riwayat COVID-19 dan Google Mobility Index di Jakarta pada Bulan Oktober 2020

library(readxl)

## Warning: package 'readxl' was built under R version 4.1.3

Data<- read_excel(path = "C:/Users/nofal/Documents/Data Riwayat Sembuh Covid-19 & Google Mobility Index Oktober 2020.xlsx")
Data

## # A tibble: 31 x 8
##    Tanggal             Sembuh retail_and_recr~ grocery_and_pha~ parks_percent_c~
##    <dttm>               <dbl>            <dbl>            <dbl>            <dbl>
##  1 2020-10-01 00:00:00  61444              -40               -6              -58
##  2 2020-10-02 00:00:00  62279              -38               -7              -53
##  3 2020-10-03 00:00:00  63286              -41               -7              -60
##  4 2020-10-04 00:00:00  64319              -45              -14              -66
##  5 2020-10-05 00:00:00  65295              -38               -8              -58
##  6 2020-10-06 00:00:00  66315              -40              -13              -61
##  7 2020-10-07 00:00:00  67310              -40              -14              -61
##  8 2020-10-08 00:00:00  68352              -41              -16              -40
##  9 2020-10-09 00:00:00  69203              -40              -15              -57
## 10 2020-10-10 00:00:00  70487              -44              -17              -63
## # ... with 21 more rows, and 3 more variables:
## #   transit_stations_percent_change_from_baseline <dbl>,
## #   workplaces_percent_change_from_baseline <dbl>,
## #   residential_percent_change_from_baseline <dbl>

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.1.3

library(reshape2)

## Warning: package 'reshape2' was built under R version 4.1.3

x <- Data$Sembuh
retail <- Data$retail_and_recreation_percent_change_from_baseline
grocery <- Data$grocery_and_pharmacy_percent_change_from_baseline
park <- Data$parks_percent_change_from_baseline
station <- Data$transit_stations_percent_change_from_baseline
workplace <- Data$workplaces_percent_change_from_baseline
residential <- Data$residential_percent_change_from_baseline
df <- data.frame(x, retail, grocery, park, station, workplace, residential)

# melt the data to a long format
df2 <- melt(data = df, id.vars = "x")

# plot, using the aesthetics argument 'colour'
ggplot(data = df2, aes(x = x, y = value, colour = variable))+
  geom_point() +
  geom_line() +
  theme(legend.justification = "top") +
  labs(title = "Google Mobility Index",
       subtitle = "Provinsi DKI Jakarta Indonesia Bulan Oktober 2020",
       y = "Mobility", x = "Data Sembuh") +
theme(axis.text.x = element_text(angle = -90))

3. Regresi Linear Berganda

model <- lm(Data$Sembuh~Data$retail_and_recreation_percent_change_from_baseline+Data$grocery_and_pharmacy_percent_change_from_baseline+Data$parks_percent_change_from_baseline+Data$transit_stations_percent_change_from_baseline+Data$workplaces_percent_change_from_baseline+Data$residential_percent_change_from_baseline)
model

## 
## Call:
## lm(formula = Data$Sembuh ~ Data$retail_and_recreation_percent_change_from_baseline + 
##     Data$grocery_and_pharmacy_percent_change_from_baseline + 
##     Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline + 
##     Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
## 
## Coefficients:
##                                             (Intercept)  
##                                               166117.21  
## Data$retail_and_recreation_percent_change_from_baseline  
##                                                 2098.16  
##  Data$grocery_and_pharmacy_percent_change_from_baseline  
##                                                -1605.30  
##                 Data$parks_percent_change_from_baseline  
##                                                  150.88  
##      Data$transit_stations_percent_change_from_baseline  
##                                                   31.97  
##            Data$workplaces_percent_change_from_baseline  
##                                                 -282.53  
##           Data$residential_percent_change_from_baseline  
##                                                -2197.07

4. Uji Asumsi Klasik

4.1 Uji Normalitas

Uji normalitas dalam contoh regresi dipakai untuk menguji apakah nilai residual yang didapatkan menurut regresi terdistribusi secara normal atau tidak. Model regresi yang baik mempunyai nilai residual yang terdistribusi secara normal. Pada contoh berikut akan dilakukakan uji normalitas menggunakan metode One-sample Kolmogorov-Smirnov.

ks.test(model$residuals, ecdf(model$residuals))

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  model$residuals
## D = 0.032258, p-value = 1
## alternative hypothesis: two-sided

Berdasarkan dasar teori atau syarat dari uji normalitas adalah jika nilai p-value > 0.05 maka data berdistribusi normal. Namun apabila sebaliknya maka data tidak berdstribusi normal. Sehingga dapat disimpulkan bahwa model regresi diatas berdistribusi normal dikarenakan nilai p-value sama dengan 1 dimana > 0.05.

4.2 Uji Multikolinearitas

Uji multikolinearitas merupakan pengujian untuk memastikan apakah pada sebuah model regresi terdapat interkorelasi atau kolinearitas antar variabel bebas. Interkorelasi merupakan hubungan yang linear antara satu variabel bebas atau variabel prediktor dengan variabel prediktor lainnya di dalam sebuah model regresi. Interkorelasi itu dapat dilihat dengan nilai koefisien korelasi antara variabel bebas, nilai VIF dan Tolerance, nilai Eigenvalue dan Condition Index, serta nilai standar error koefisien beta atau koefisien regresi parsial. Pada contoh berikut akan dilakukakan uji multikolinearitas dengan menggunakan tolerance dimana pada bahasa program R kita membutuhkan package olsrr.

library(olsrr)

## Warning: package 'olsrr' was built under R version 4.1.3

## 
## Attaching package: 'olsrr'

## The following object is masked from 'package:datasets':
## 
##     rivers

ols_vif_tol(model)

##                                                 Variables Tolerance      VIF
## 1 Data$retail_and_recreation_percent_change_from_baseline 0.2954396 3.384787
## 2  Data$grocery_and_pharmacy_percent_change_from_baseline 0.6260015 1.597440
## 3                 Data$parks_percent_change_from_baseline 0.3616711 2.764943
## 4      Data$transit_stations_percent_change_from_baseline 0.1325096 7.546621
## 5            Data$workplaces_percent_change_from_baseline 0.1315328 7.602665
## 6           Data$residential_percent_change_from_baseline 0.2435716 4.105569

Berdasarkan dasar teori uji multikolinearitas jika nilai tolerance > 0.1 dan nilai VIF < 10 maka tidak terjadi gejala multikolinearitas. Sehingga dapat disimpulkan pada regresi diatas tidak terjadi gejala multikolinearitas dikarenakan dari semua variabel independent memiliki nilai tolerance > 0.1 dan nilai VIF < 10.

4.3 Uji Autokorelasi

Uji Autokorelasi merupakan pengujian yang dilakukan untuk mengetahui adakah korelasi variabel yang ada di dalam model prediksi dengan perubahan waktu. Oleh karena itu, apabila asumsi autokorelasi terjadi pada sebuah model prediksi, maka nilai disturbance tidak lagi berpasangan secara bebas, melainkan berpasangan secara autokorelasi. Pada contoh berikut akan dilakukakan uji normalitas menggunakan metode Durbin-Watson .

library(lmtest)

## Warning: package 'lmtest' was built under R version 4.1.3

## Loading required package: zoo

## Warning: package 'zoo' was built under R version 4.1.3

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(car)

## Warning: package 'car' was built under R version 4.1.3

## Loading required package: carData

## Warning: package 'carData' was built under R version 4.1.3

dwtest(model)

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.8713, p-value = 0.169
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan dasar teori atau syarat dari uji autokorelasi adalah jika nilai p-value > 0.05 maka tidak terjadi autokorelasi. Namun apabila sebaliknya maka terjadi autokorelasi. Sehingga dapat disimpulkan pada model diatas terdapat gejala autokorelasi.

4.4 Uji Homogenitas

Uji homogenitas dimaksudkan untuk memperlihatkan bahwa dua atau lebih kelompok data sampel berasal dari populasi yang memiliki variansi yang sama. Pada contoh berikut akan dilakukakan uji homogenitas menggunakan metode studentized Breusch-Pagan.

bptest(model)

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 3.7388, df = 6, p-value = 0.712

Berdasarkan dasar teori atau syarat dari uji homogenitas jika nilai p-value > 0.05 maka variansi setiap sampel sama (homogen). Namun apabila sebaliknya nilai p-value< 0.05, maka variansi setiap sampel tidak sama (tidak homogen). Sehingga dapat disimpulkan bahwa data tersebut homogen.

5. Interpretasi Hasil Regresi Berganda

Dalam menampilkan hasil regresi kita dapat menggunakan fungsi summary.

summary(model)

## 
## Call:
## lm(formula = Data$Sembuh ~ Data$retail_and_recreation_percent_change_from_baseline + 
##     Data$grocery_and_pharmacy_percent_change_from_baseline + 
##     Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline + 
##     Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5292.9 -2138.0   -42.5  1685.3  6308.6 
## 
## Coefficients:
##                                                          Estimate Std. Error
## (Intercept)                                             166117.21    8757.09
## Data$retail_and_recreation_percent_change_from_baseline   2098.16     279.53
## Data$grocery_and_pharmacy_percent_change_from_baseline   -1605.30     174.79
## Data$parks_percent_change_from_baseline                    150.88     156.73
## Data$transit_stations_percent_change_from_baseline          31.97     356.12
## Data$workplaces_percent_change_from_baseline              -282.53     165.82
## Data$residential_percent_change_from_baseline            -2197.07     434.68
##                                                         t value Pr(>|t|)    
## (Intercept)                                              18.969 5.93e-16 ***
## Data$retail_and_recreation_percent_change_from_baseline   7.506 9.57e-08 ***
## Data$grocery_and_pharmacy_percent_change_from_baseline   -9.184 2.52e-09 ***
## Data$parks_percent_change_from_baseline                   0.963    0.345    
## Data$transit_stations_percent_change_from_baseline        0.090    0.929    
## Data$workplaces_percent_change_from_baseline             -1.704    0.101    
## Data$residential_percent_change_from_baseline            -5.054 3.62e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3544 on 24 degrees of freedom
## Multiple R-squared:  0.8961, Adjusted R-squared:  0.8701 
## F-statistic: 34.48 on 6 and 24 DF,  p-value: 1.183e-10

Nilai Minimum adalah -5292.9 Nilai Quartal ke-1 adalah -2138.0 Nilai Tengah adalah -42.5 Nilai Quartal ke-3 adalah 1685.3 Nilai Maksimum adalah 6308.6

Dasar teori yang digunakan dalam interpretasi hasil regresi adalah apabila nilai signifikansi (Pr(>|t|)) < 0.05 maka variabel independent (variabel x) secara parsial berpengaruh terhadap variable dependent (variable y). Sehingga dapat disimpulkan :

Variable retail_and_recreation_percent_change_from_baseline Tidak signifikan berpengaruh terhadap variable Sembuh.
Variable grocery_and_pharmacy_percent_change_from_baseline Tidak signifikan berpengaruh terhadap variable Sembuh.
Variable parks_percent_change_from_baseline Tidak signifikan berpengaruh terhadap variable Sembuh.
Variable transit_stations_percent_change_from_baseline Tidak signifikan berpengaruh terhadap variable Sembuh.
Variable workplaces_percent_change_from_baseline Tidak signifikan berpengaruh terhadap variable Sembuh.
Variable residential_percent_change_from_baseline signifikan berpengaruh terhadap variable Sembuh.

Selain itu kita dapat disimpulkan apakah seluruh variable independent berpengaruh secara simultan terhadap variable dependent dimana dasar dari penentuan tersebut yaitu apabila nilai p-value dari F-statistic < 0.05 maka keseluruhan variable independent signifikan berpengaruh secara simultan (bersama-sama) terhadap variable dependent (variable Sembuh). Besar pengaruh tersebut dapat dilihat dari nilai R-squared dimana pada model diatas bernilai 0.8961. Sehingga dapat disimpulkan variable independent signifikan berpengaruh terhadap variable dependent sebesar 89.61 %.

6. Plot Hasil Regresi Berganda

6.1 Plot Pengaruh Variable Retail dan Recreation Percent Change From Baseline terhadap Variable Sembuh

plot(Data$retail_and_recreation_percent_change_from_baseline, Data$Sembuh, col = "blue")

6.2 Plot Pengaruh Variable Grocery and Pharmacy Percent Change From Baseline terhadap Variable Sembuh

plot(Data$grocery_and_pharmacy_percent_change_from_baseline, Data$Sembuh, col = "red")

6.3 Plot Pengaruh Variable Parks Percent Change From Baseline terhadap Variable Sembuh

plot(Data$parks_percent_change_from_baseline, Data$Sembuh, col = "orange")

6.4 Plot Pengaruh Variable Stations Percent Change From Baseline terhadap Variable Sembuh

plot(Data$transit_stations_percent_change_from_baseline, Data$Sembuh, col = "green")

6.5 Plot Pengaruh Variable Workplaces Percent Change From Baseline terhadap Variable Sembuh

plot(Data$workplaces_percent_change_from_baseline, Data$Sembuh, col = "blueviolet")

6.6 Plot Pengaruh Variable Residential Percent Change From Baseline terhadap Variable Sembuh

plot(Data$residential_percent_change_from_baseline, Data$Sembuh, col = "darkcyan")

6.7 Plot Hasil Regresi Linear Berganda

plot(model)

7. Referensi

https://rpubs.com/suhartono-uinmaliki/861286

https://bookdown.org/moh_rosidi2610/Metode_Numerik/datamod.html#reglin

https://duwiconsultant.blogspot.com/2011/11/uji-normalitas-regresi.html

https://www.statistikian.com/2016/11/uji-multikolinearitas.html

https://www.statistikian.com/2017/01/uji-autokorelasi-durbin-watson-spss.html

https://belalangtue.wordpress.com/2010/08/05/uji-homogenitas-dengan-spss/