Lembaga : UIN Maulana Malik Ibrahim Malang
Jurusan : Teknik Informatika
Regresi linier adalah model paling sederhana yang paling sering dijelaskan dalam statistik. Modelnya sangat sederhana dimana kita dapat mencoba membangun model dengan pendekatan linier menggunakan prinsip meminimalkan jumlah sisa kuadrat dalam data. Secara artian regresi merupakan suatu metode yang menentukan sebab-akibat antara variabel satu dengan lainnya.
library(readxl)
Data<- read_excel(path = "DataMobility1-7.xlsx")
Data
library(ggplot2)
library(reshape2)
x <- Data$Meninggal
retail <- Data$retail_and_recreation_percent_change_from_baseline
grocery <- Data$grocery_and_pharmacy_percent_change_from_baseline
park <- Data$parks_percent_change_from_baseline
station <- Data$transit_stations_percent_change_from_baseline
workplace <- Data$workplaces_percent_change_from_baseline
residental <- Data$residential_percent_change_from_baseline
df <- data.frame(x, retail, grocery, park, station, workplace,residental )
# melt the data to a long format
df2 <- melt(data = df, id.vars = "x")
# plot, using the aesthetics argument 'colour'
ggplot(data = df2, aes(x = x, y = value, colour = variable))+
geom_point() +
geom_line() +
theme(legend.justification = "top") +
labs(title = "GOOGLE MOBILITY INDEX",
subtitle = "Provinsi DKI Jakarta Indonesia Bulan April 2020",
y = "Mobility Index", x = "Data Meninggal") +
theme(axis.text.x = element_text(angle = -90))
model <- lm(Data$Meninggal~Data$retail_and_recreation_percent_change_from_baseline+Data$grocery_and_pharmacy_percent_change_from_baseline+Data$parks_percent_change_from_baseline+Data$transit_stations_percent_change_from_baseline+Data$workplaces_percent_change_from_baseline+Data$residential_percent_change_from_baseline)
model
##
## Call:
## lm(formula = Data$Meninggal ~ Data$retail_and_recreation_percent_change_from_baseline +
## Data$grocery_and_pharmacy_percent_change_from_baseline +
## Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline +
## Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
##
## Coefficients:
## (Intercept)
## 1708.4186
## Data$retail_and_recreation_percent_change_from_baseline
## 11.3836
## Data$grocery_and_pharmacy_percent_change_from_baseline
## -16.8611
## Data$parks_percent_change_from_baseline
## 4.4519
## Data$transit_stations_percent_change_from_baseline
## 12.1658
## Data$workplaces_percent_change_from_baseline
## -0.5654
## Data$residential_percent_change_from_baseline
## -0.1557
Uji normalitas dalam contoh regresi dipakai untuk menguji apakah nilai residual yang didapatkan menurut regresi terdistribusi secara normal atau tidak. Model regresi yang baik mempunyai nilai residual yang terdistribusi secara normal. Pada contoh berikut akan dilakukakan uji normalitas menggunakan metode One-sample Kolmogorov-Smirnov
ks.test(model$residuals, ecdf(model$residuals))
##
## One-sample Kolmogorov-Smirnov test
##
## data: model$residuals
## D = 0.032258, p-value = 1
## alternative hypothesis: two-sided
library(olsrr)
ols_vif_tol(model)
library(lmtest)
library(car)
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 1.1796, p-value = 0.002389
## alternative hypothesis: true autocorrelation is greater than 0
Uji homogenitas dimaksudkan untuk memperlihatkan bahwa dua atau lebih kelompok data sampel berasal dari populasi yang memiliki variansi yang sama. Pada contoh berikut akan dilakukakan uji homogenitas menggunakan metode studentized Breusch-Pagan.
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 5.8392, df = 6, p-value = 0.4414
Dalam menampilkan hasil regresi kita dapat menggunakan fungsi summary.
summary(model)
##
## Call:
## lm(formula = Data$Meninggal ~ Data$retail_and_recreation_percent_change_from_baseline +
## Data$grocery_and_pharmacy_percent_change_from_baseline +
## Data$parks_percent_change_from_baseline + Data$transit_stations_percent_change_from_baseline +
## Data$workplaces_percent_change_from_baseline + Data$residential_percent_change_from_baseline)
##
## Residuals:
## Min 1Q Median 3Q Max
## -40.248 -18.209 1.911 18.859 39.181
##
## Coefficients:
## Estimate Std. Error
## (Intercept) 1708.4186 177.0458
## Data$retail_and_recreation_percent_change_from_baseline 11.3836 3.1336
## Data$grocery_and_pharmacy_percent_change_from_baseline -16.8611 2.7846
## Data$parks_percent_change_from_baseline 4.4519 0.9526
## Data$transit_stations_percent_change_from_baseline 12.1658 2.2539
## Data$workplaces_percent_change_from_baseline -0.5654 0.8870
## Data$residential_percent_change_from_baseline -0.1557 0.5318
## t value Pr(>|t|)
## (Intercept) 9.650 0.000000000982
## Data$retail_and_recreation_percent_change_from_baseline 3.633 0.00133
## Data$grocery_and_pharmacy_percent_change_from_baseline -6.055 0.000002976404
## Data$parks_percent_change_from_baseline 4.673 0.000095298066
## Data$transit_stations_percent_change_from_baseline 5.398 0.000015239078
## Data$workplaces_percent_change_from_baseline -0.638 0.52983
## Data$residential_percent_change_from_baseline -0.293 0.77229
##
## (Intercept) ***
## Data$retail_and_recreation_percent_change_from_baseline **
## Data$grocery_and_pharmacy_percent_change_from_baseline ***
## Data$parks_percent_change_from_baseline ***
## Data$transit_stations_percent_change_from_baseline ***
## Data$workplaces_percent_change_from_baseline
## Data$residential_percent_change_from_baseline
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 24.59 on 24 degrees of freedom
## (1048520 observations deleted due to missingness)
## Multiple R-squared: 0.8517, Adjusted R-squared: 0.8146
## F-statistic: 22.97 on 6 and 24 DF, p-value: 0.000000007693
Nilai Minimum adalah -40.248
Nilai Quartal ke-1 adalah -18.209
Nilai Tengah adalah 1.911
Nilai Quartal ke-3 adalah 263.8
Nilai Maksimum adalah 39.181
Dasar teori yang digunakan dalam interpretasi hasilregre adalah apabila nilai signifikansi (Pr(>|t|)) < 0.05 maka variabel independent (variabel x) secara parsial berpengaruh terhadap variable dependent (variable y). Sehingga dapat disimpulkan :
*Selain itu kita dapat disimpulkan apakah seluruh variable independent berpengaruh secara simultan terhadap variable dependent dimana dasar dari penentuan tersebut yaitu apabila nilai p-value dari F-statistic < 0.05 maka keseluruahan variable independent signifikan berpengaruh secara simultan (bersama-sama) terhadap variable dependent (variable positif). Besar pengaruh tersebut dapat dilihat dari nilai R-squared dimana pada model diatas bernilai 0.7864. Sehingga dapat disimpulkan variable independent signifikan berpengaruh terhadap variable dependent sebesar 78.64 %.
plot(Data$retail_and_recreation_percent_change_from_baseline, Data$Meninggal, col = "dodgerblue")
plot(Data$grocery_and_pharmacy_percent_change_from_baseline, Data$Meninggal, col = "red")
plot(Data$parks_percent_change_from_baseline, Data$Meninggal, col = "darkorange")
plot(Data$transit_stations_percent_change_from_baseline, Data$Meninggal, col = "darkgreen")
plot(Data$workplaces_percent_change_from_baseline, Data$Meninggal, col = "blueviolet")
plot(Data$residential_percent_change_from_baseline, Data$Meninggal, col = "darkcyan")
plot(model)
https://bookdown.org/moh_rosidi2610/Metode_Numerik/datamod.html#reglin
https://rpubs.com/suhartono-uinmaliki/861286
https://duwiconsultant.blogspot.com/2011/11/uji-normalitas-regresi.html
https://www.statistikian.com/2016/11/uji-multikolinearitas.html
https://www.statistikian.com/2017/01/uji-autokorelasi-durbin-watson-spss.html
https://belalangtue.wordpress.com/2010/08/05/uji-homogenitas-dengan-spss/