Lembaga : UIN Maulana Malik Ibrahim Malang
Jurusan : Teknik Informatika

1. Pengertian Regresi Linear

Regresi linier adalah model paling sederhana yang paling sering dijelaskan dalam statistik. Modelnya sangat sederhana dimana kita dapat mencoba membangun model dengan pendekatan linier menggunakan prinsip meminimalkan jumlah sisa kuadrat dalam data. Secara artian regresi merupakan suatu metode yang menentukan sebab-akibat antara variabel satu dengan lainnya.

2. Data Riwayat Covid-19 dan Google Mobility Index di Jakarta pada Bulan Juli 2020

library(readxl)
Data<- read_excel(path = "DataMobility1-7.xlsx")
Data
library(ggplot2)
library(reshape2)
x <- Data$Positif
retail <- Data$retail_and_recreation_percent_change_from_baseline
grocery <- Data$grocery_and_pharmacy_percent_change_from_baseline
park <- Data$parks_percent_change_from_baseline
station <- Data$transit_stations_percent_change_from_baseline
workplace <- Data$workplaces_percent_change_from_baseline
residental <- Data$residential_percent_change_from_baseline
df <- data.frame(x, retail, grocery, park, station, workplace,residental  )

# melt the data to a long format
df2 <- melt(data = df, id.vars = "x")

# plot, using the aesthetics argument 'colour'
ggplot(data = df2, aes(x = x, y = value, colour = variable))+
  geom_point() +
  geom_line() + 
  theme(legend.justification = "top") +
  labs(title = "GOOGLE MOBILITY INDEX", 
         subtitle = "Provinsi DKI Jakarta Indonesia Bulan April 2020", 
         y = "Mobility Index", x = "Data Positif") +
theme(axis.text.x = element_text(angle = -90))

3. Regresi Linear Berganda

model <- lm(Data$Positif~Data$retail_and_recreation_percent_change_from_baseline+Data$grocery_and_pharmacy_percent_change_from_baseline+Data$parks_percent_change_from_baseline+Data$transit_stations_percent_change_from_baseline+Data$workplaces_percent_change_from_baseline+Data$residential_percent_change_from_baseline)
model
## 
## Call:
## lm(formula = Data$Positif ~ Data$retail_and_recreation_percent_change_from_baseline + 
##     Data$grocery_and_pharmacy_percent_change_from_baseline + 
##     Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline + 
##     Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
## 
## Coefficients:
##                                             (Intercept)  
##                                               65388.141  
## Data$retail_and_recreation_percent_change_from_baseline  
##                                                 614.426  
##  Data$grocery_and_pharmacy_percent_change_from_baseline  
##                                                -824.072  
##                 Data$parks_percent_change_from_baseline  
##                                                 228.212  
##      Data$transit_stations_percent_change_from_baseline  
##                                                 560.848  
##            Data$workplaces_percent_change_from_baseline  
##                                                  -4.857  
##           Data$residential_percent_change_from_baseline  
##                                                 -14.304

4. Uji Asumsi Klasik

4.1 Uji Normalitas

Uji normalitas dalam contoh regresi dipakai untuk menguji apakah nilai residual yang didapatkan menurut regresi terdistribusi secara normal atau tidak. Model regresi yang baik mempunyai nilai residual yang terdistribusi secara normal. Pada contoh berikut akan dilakukakan uji normalitas menggunakan metode One-sample Kolmogorov-Smirnov

ks.test(model$residuals, ecdf(model$residuals))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  model$residuals
## D = 0.032258, p-value = 1
## alternative hypothesis: two-sided
  • Berdasarkan dasar teori atau syarat dari uji normalitas adalah jika nilai p-value > 0.05 maka data berdistribusi normal. Namun apabila sebaliknya maka data tidak berdstribusi normal. Sehingga dapat disimpulkan bahwa model regresi diatas berdistribusi normal dikarenakan nilai p-value sama dengan 1 dimana > 0.05.

4.2 Uji Multikolinearitas

library(olsrr)
ols_vif_tol(model)
  • Berdasarkan dasar teori uji multikolinearitas jika nilai tolerance > 0.1 dan nilai VIF < 10 maka tidak terjadi gejala multikolinearitas. Sehingga dapat disimpulkan pada regresi diatas terjadi gejala multikolinearitas dikarenakan dari semua variabel independent memiliki nilai tolerance < 0.1 dan nilai VIF > 10.

4.3 Uji Autokorelasi

library(lmtest)
library(car)
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.296, p-value = 0.006835
## alternative hypothesis: true autocorrelation is greater than 0
  • Berdasarkan dasar teori atau syarat dari uji autokorelasi adalah jika nilai p-value > 0.05 maka tidak terjadi autokorelasi. Namun apabila sebaliknya maka terjadi autokorelasi. Sehingga dapat disimpulkan pada model diatas terdapat gejala autokorelasi.

4.4 Uji Homogenitas

Uji homogenitas dimaksudkan untuk memperlihatkan bahwa dua atau lebih kelompok data sampel berasal dari populasi yang memiliki variansi yang sama. Pada contoh berikut akan dilakukakan uji homogenitas menggunakan metode studentized Breusch-Pagan.

bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 3.9082, df = 6, p-value = 0.6891
  • Berdasarkan dasar teori atau syarat dari uji homogenitas jika nilai p-value > 0.05 maka variansi setiap sampel sama (homogen). Namun apabila sebaliknya nilai p-value< 0.05, maka variansi setiap sampel tidak sama (tidak homogen). Sehingga dapat disimpulkan bahwa data tersebut homogen.

5. Interpretasi Hasil Regresi Berganda

Dalam menampilkan hasil regresi kita dapat menggunakan fungsi summary.

summary(model)
## 
## Call:
## lm(formula = Data$Positif ~ Data$retail_and_recreation_percent_change_from_baseline + 
##     Data$grocery_and_pharmacy_percent_change_from_baseline + 
##     Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline + 
##     Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1640.9  -817.2  -119.0   727.1  2219.8 
## 
## Coefficients:
##                                                          Estimate Std. Error
## (Intercept)                                             65388.141   9069.669
## Data$retail_and_recreation_percent_change_from_baseline   614.426    160.529
## Data$grocery_and_pharmacy_percent_change_from_baseline   -824.072    142.651
## Data$parks_percent_change_from_baseline                   228.212     48.801
## Data$transit_stations_percent_change_from_baseline        560.848    115.464
## Data$workplaces_percent_change_from_baseline               -4.857     45.437
## Data$residential_percent_change_from_baseline             -14.304     27.245
##                                                         t value    Pr(>|t|)    
## (Intercept)                                               7.210 0.000000189 ***
## Data$retail_and_recreation_percent_change_from_baseline   3.828    0.000814 ***
## Data$grocery_and_pharmacy_percent_change_from_baseline   -5.777 0.000005913 ***
## Data$parks_percent_change_from_baseline                   4.676 0.000094561 ***
## Data$transit_stations_percent_change_from_baseline        4.857 0.000059695 ***
## Data$workplaces_percent_change_from_baseline             -0.107    0.915758    
## Data$residential_percent_change_from_baseline            -0.525    0.604386    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1260 on 24 degrees of freedom
##   (1048520 observations deleted due to missingness)
## Multiple R-squared:  0.8562, Adjusted R-squared:  0.8203 
## F-statistic: 23.82 on 6 and 24 DF,  p-value: 0.000000005338
  • Nilai Minimum adalah -599.8

  • Nilai Quartal ke-1 adalah -317.0

  • Nilai Tengah adalah -114.2

  • Nilai Quartal ke-3 adalah 263.8

  • Nilai Maksimum adalah 1020.3

  • Dasar teori yang digunakan dalam interpretasi hasilregre adalah apabila nilai signifikansi (Pr(>|t|)) < 0.05 maka variabel independent (variabel x) secara parsial berpengaruh terhadap variable dependent (variable y). Sehingga dapat disimpulkan :

    • Variable retail_and_recreation_percent_change_from_baseline signifikan berpengaruh terhadap variable positif.
    • Variable grocery_and_pharmacy_percent_change_from_baseline tidak signifikan berpengaruh terhadap variable positif.
    • Variable parks_percent_change_from_baseline signifikan berpengaruh terhadap variable positif.
    • Variable transit_stations_percent_change_from_baselineidak signifikan berpengaruh terhadap variable positif.
    • Variable workplaces_percent_change_from_baseline signifikan berpengaruh terhadap variable positif.
    • Variable residential_percent_change_from_baseline signifikan berpengaruh terhadap variable positif.

*Selain itu kita dapat disimpulkan apakah seluruh variable independent berpengaruh secara simultan terhadap variable dependent dimana dasar dari penentuan tersebut yaitu apabila nilai p-value dari F-statistic < 0.05 maka keseluruahan variable independent signifikan berpengaruh secara simultan (bersama-sama) terhadap variable dependent (variable positif). Besar pengaruh tersebut dapat dilihat dari nilai R-squared dimana pada model diatas bernilai 0.7864. Sehingga dapat disimpulkan variable independent signifikan berpengaruh terhadap variable dependent sebesar 78.64 %.

6. Plot Hasil Regresi Berganda

6.1 Plot Pengaruh Variable Retail and Recreation Percent Change From Baseline terhadap Variable Positif

plot(Data$retail_and_recreation_percent_change_from_baseline, Data$Positif, col = "dodgerblue")

6.2 Plot Pengaruh Variable Grocery and Pharmacy Percent Change From Baseline terhadap Variable Positif

plot(Data$grocery_and_pharmacy_percent_change_from_baseline, Data$Positif, col = "red")

6.3 Plot Pengaruh Variable Parks Percent Change From Baseline terhadap Variable Positif

plot(Data$parks_percent_change_from_baseline, Data$Positif, col = "darkorange")

6.4 Plot Pengaruh Variable Stations Percent Change From Baseline terhadap Variable Positif

plot(Data$transit_stations_percent_change_from_baseline, Data$Positif, col = "darkgreen")

6.5 Plot Pengaruh Variable Workplaces Percent Change From Baseline terhadap Variable Positif

plot(Data$workplaces_percent_change_from_baseline, Data$Positif, col = "blueviolet")

6.6 Plot Pengaruh Variable Residential Percent Change From Baseline terhadap Variable Positif

plot(Data$residential_percent_change_from_baseline, Data$Positif, col = "darkcyan")

6.7 Plot Hasil Regresi Linear Berganda

plot(model)