1 PENDAHULUAN
1.1 Latar Belakang Data
Tidur merupakan kebutuhan bagi setiap manusia. Tidur dapat berpengaruh terhadap kondisi tubuh, seperti kesehatan dan tingkat stress. Tingkat stress dipengaruhi oleh beberapa faktor, yaitu durasi tidur, kualitas tidur, dan aktivitas. Jika seseorang memiliki durasi tidur normal, kualitas tidur yang baik, dan aktivitas yang normal, maka tingkat stress seseorang akan rendah.
1.2 Sumber Data
https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset/data
data_sleep <- read.csv("C:/Users/prami/OneDrive/Documents/Data_laprak.csv", sep = ";")
data_sleep
## Y X1 X2 X3
## 1 6 6.1 6 42
## 2 8 6.2 6 60
## 3 8 6.2 6 60
## 4 8 5.9 4 30
## 5 8 5.9 4 30
## 6 8 5.9 4 30
## 7 7 6.3 6 40
## 8 6 7.8 7 75
## 9 6 7.8 7 75
## 10 6 7.8 7 75
## 11 8 6.1 6 30
## 12 6 7.8 7 75
## 13 8 6.1 6 30
## 14 8 6.0 6 30
## 15 8 6.0 6 30
## 16 8 6.0 6 30
## 17 7 6.5 5 40
## 18 8 6.0 6 30
## 19 7 6.5 5 40
## 20 6 7.6 7 75
## 21 6 7.7 7 75
## 22 6 7.7 7 75
## 23 6 7.7 7 75
## 24 6 7.7 7 75
## 25 6 7.8 7 75
## 26 6 7.9 7 75
## 27 6 7.8 7 75
## 28 6 7.9 7 75
## 29 6 7.9 7 75
## 30 6 7.9 7 75
1.3 Latar Belakang Metode
Analisis regresi adalah metode statistik yang berfungsi untuk mengetahui hubungan antara satu variabel respons dan satu atau lebih variabel prediktor serta apakah variabel prediktor mempengaruhi variabel respons. Dengan menggunakan regresi ini kita dapat mengetahui apakah durasi tidur, kualitas tidur, dan aktivitas berpengaruh terhadap tingkat stress. Dalam regresi terdapat beberapa asumsi, yaitu autokorelasi, homoskedastisitas, multikoliniearitas, dan normalitas.
1.4 Tinjauan Pustaka
Asumsi regresi terdiri dari:
Asumsi autokorelasi menyatakan bahwa antara residual pengamatan yang satu dengan yang lain terdapat hubungan atau saling berkorelasi. Dengan kata lain, kesalahan pada satu observasi mempengaruhi kesalahan pada observasi berikutnya. Jika asumsi autokorelasi dilanggar, dapat berpengaruh terhadap hasil analisis dan kesalahan dalam pengambilan keputusan.
Pada asumsi ini, besarnya varians dari residual tidak berubah seiring dengan perubahan nilai variabel independen.
Asumsi multikoliniearitas adalah keadaan dimana antar variabel bebas berkorelasi sangat kuat. Hal tersebut dapat berpengaruh terhadap hasil analisis regresi dan interpretasinya.
Pada asumsi normalitas, residual dari model regresi berdistribusi normal. Jika residual data tidak berdistribusi normal maka kesimpulannya menjadi bias atau tidak valid.
2 SOURCE CODE
Berikut merupakan sekumpulan instruksi dan plot yang digunakan:
2.1 Library
library(lmtest) #untuk memuat paket "lmtest" yang berisi banyak fungsi untuk uji statistik.
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(ggplot2) #untuk membuat visualisasi data, seperti grafik.
library(dplyr) #untuk mempersiapkan dan memproses data.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(reshape2) #untuk merubah bentuk data
## Warning: package 'reshape2' was built under R version 4.3.3
library(car) #untuk manupulasi data frame
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
library(tseries)
## Warning: package 'tseries' was built under R version 4.3.3
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
2.2 Impor Data
Untuk menginput data ke dalam Rstudio kita dapat menggunakan syntax berikut:
data_sleep <- read.csv("C:/Users/prami/OneDrive/Documents/Data_laprak.csv", sep = ";")
data_sleep
## Y X1 X2 X3
## 1 6 6.1 6 42
## 2 8 6.2 6 60
## 3 8 6.2 6 60
## 4 8 5.9 4 30
## 5 8 5.9 4 30
## 6 8 5.9 4 30
## 7 7 6.3 6 40
## 8 6 7.8 7 75
## 9 6 7.8 7 75
## 10 6 7.8 7 75
## 11 8 6.1 6 30
## 12 6 7.8 7 75
## 13 8 6.1 6 30
## 14 8 6.0 6 30
## 15 8 6.0 6 30
## 16 8 6.0 6 30
## 17 7 6.5 5 40
## 18 8 6.0 6 30
## 19 7 6.5 5 40
## 20 6 7.6 7 75
## 21 6 7.7 7 75
## 22 6 7.7 7 75
## 23 6 7.7 7 75
## 24 6 7.7 7 75
## 25 6 7.8 7 75
## 26 6 7.9 7 75
## 27 6 7.8 7 75
## 28 6 7.9 7 75
## 29 6 7.9 7 75
## 30 6 7.9 7 75
2.3 Analisis Regresi
x <- lm(Y~X1+X2+X3, data = data_sleep )
summary(x)
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data_sleep)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.69919 -0.07859 0.07195 0.18608 0.39217
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.9141911 1.3353912 10.420 8.95e-11 ***
## X1 -1.0317151 0.2807681 -3.675 0.00109 **
## X2 0.0084822 0.1332790 0.064 0.94974
## X3 0.0006563 0.0116553 0.056 0.95552
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.398 on 26 degrees of freedom
## Multiple R-squared: 0.8426, Adjusted R-squared: 0.8244
## F-statistic: 46.4 on 3 and 26 DF, p-value: 1.406e-10
2.4 Asumsi Autokorelasi
#Uji Durbin-Watson
dwtest (x) #untuk mengetahui apakah terdapat autokorelasi
##
## Durbin-Watson test
##
## data: x
## DW = 1.4812, p-value = 0.03243
## alternative hypothesis: true autocorrelation is greater than 0
2.5 Asumsi Homoskedastisitas
#Uji Breusch-Pagan
bptest(x) #untuk menguji keberadaan heteroskedastisitas
##
## studentized Breusch-Pagan test
##
## data: x
## BP = 3.812, df = 3, p-value = 0.2825
2.6 Asumsi Multikoliniearitas
vif(x)
## X1 X2 X3
## 10.776877 3.068914 10.715438
#menghitung matriks korelasi
cor_matrix <- cor(data_sleep)
#plot matriks korelasi
ggplot(melt(cor_matrix), aes(x = Var1, y = Var2, fill = value)) + geom_tile() + scale_fill_gradient2() + labs(title = "Matriks Korelasi")
2.7 Asumsi Normalitas
jarque.bera.test(x$residuals)
##
## Jarque Bera Test
##
## data: x$residuals
## X-squared = 230.51, df = 2, p-value < 2.2e-16
shapiro.test(x$residuals)
##
## Shapiro-Wilk normality test
##
## data: x$residuals
## W = 0.66538, p-value = 5.078e-07
#Plot residual, untuk melihat plot dari residual
ggplot(data_sleep, aes(sample = resid(x))) + stat_qq() + geom_abline(color = "blue") + labs(title = "Normal Q-Q Plot")
3 HASIL DAN PEMBAHASAN
3.1 Analisis Regresi
Hipotesis:
H0: Tidak terdapat hubungan antara durasi tidur, kualitas tidur, dan aktivitas dengan tingkat stress.
H1: Terdapat hubungan antara durasi tidur, kualitas tidur, dan aktivitas dengan tingkat stress.
Keputusan: p-value(1.406e-10) < alpha(0.05), maka Tolak H0
Interpretasi: Dengan tingkat kepercayaan 95% dapat disimpulkan bahwa terdapat hubungan antara durasi tidur, kualitas tidur, dan aktivitas dengan tingkat stress.
Variabel prediktor X1 memiliki koefisien regresi sebesar -1.0317, artinya X1 berpengaruh secara tidak linear terhadap variabel respons(Y).
Variabel prediktor X2 memiliki koefisien regresi sebesar 0.00848, artinya X2 berpengaruh secara linear terhadap variabel respons(Y).
Variabel prediktor X3 memiliki koefisien regresi sebesar 0.0006563, artinya X3 berpengaruh secara linear terhadap variabel respons(Y).
3.2 Asumsi Autokorelasi
Hipotesis:
H0: Tidak terdapat autokorelasi
H1: Terdapat autokorelasi
Keputusan: p-value(0.03243) < alpha(0.05), maka Tolak H0
Interpretasi: Dengan tingkat kepercayaan 95% dapat disimpulkan bahwa terdapat autokorelasi.
3.3 Asumsi Homoskedastisitas
Hipotesis:
H0: Tidak terdapat heteroskedastisitas
H1: Terdapat heteroskedastisitas
Keputusan: p-value(0.2825) > alpha(0.05), maka Terima H0
Interpretasi:Dengan tingkat kepercayaan 95% dapat disimpulkan bahwa tidak terdapat heteroskedastisitas.
3.4 Asumsi Multikoliniearitas
Hubungan antar variabel dapat dilihat dari warna dalam plot matriks korelasi. Warna yang terang menunjukkan bahwa hubungan yang kuat, sedangkann warna yang gelap menunjukkan bahwa hubungan yang lemah. Multikolinearitas terjadi ketika terdapat korelasi yang kuat antara dua atau lebih variabel prediktor. Pada data tersebut, X1, X2, dan X3 memiliki hubungan yang kuat. Maka dapat disimpulkan bahwa terdapat multikolineritas.
3.5 Asumsi Normalitas
Hipotesis:
H0: Residual berdistribusi normal
H1: Residual tidak berdistribusi normal
Keputusan: p-value(5.078e-07) < alpha(0.05), maka Tolak H0
Interpretasi: Dengan tingkat kepercayaan 95% dapat disimpulkan bahwa residual tidak berdistribusi normal.
Plot: Sebaran data yang mendekati garis lurus menunjukkan bahwa data berdistribusi normal. Dari hasil plot tersebut, sebaran data tidak mendekati garis lurus, sehingga dapat disimpulkan bahwa data tidak berdistribusi normal.
3.6 Interpretasi hasil
Karena terdapat beberapa asumsi yang belum terpenuhi, maka diperlukan uji lebih lanjut untuk memperbaiki data atau bisa melakukan olah data kembali. Hal tersebut dilakukan agar asumsi yang diperlukan sudah terpenuhi. Jika asumsi sudah terpenuhi, maka analisis regresi baru dapat dikerjakan.
4 Penutup
4.1 KESIMPULAN
Analisis regresi pada data ini masih terdapat kesalahan karena masih terdapat asumsi yang belum terpenuhi. Asumsi yang belum terpenuhi dapat mempengaruhi interpretasi, sehingga diperlukan uji lebih lanjut, mengolah data kembali, dan melakukan teknik pemilihan variabel.
4.2 Saran
Asumsi pada analisis regresi tersebut belum terpenuhi. Hal yang dapat dilakukan adalah tranformasi data, menentukan variabel kembali, dan melakukan uji lebih lanjut.
4.3 DAFTAR PUSTAKA
Agresti, A., & Finlay, B. (2009). Statistical Methods for the Social Sciences (4th ed.). Pearson.
Amstrong, B. (2012). Regresi Linear. Dalam Statistik Dasar untuk Penelitian. Edisi ke-3. Jakarta: Erlangga.