Analisis Regresi Linier Sederhana Menggunakan Data Set Kaggle Red Wine Quality

Dian Fatica

Mei, 2022


Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar BelakanG

Masa remaja merupakan masa transisi dari kanak-kanak menuju masa dewasa yang dimulai dari usia belasan tahun sampai dua puluhan tahun (Hurlock, 2010). Pemakaian alkohol di Indonesia juga menunjukkan potensi peningkatan penggunaan alkohol yang cukup besar. Berdasarkan data Riset Kesehatan Dasar (Riskesdas) tahun 2007, prevalensi konsumsi alkohol di Indonesia dari 258.366 sampel rumah tangga pada 1 tahun terakhir adalah 8,8% laki-laki dan 0,7%perempuan. Prevalensi peminum alkohol mulai tinggi pada umur antara 15-24 tahun yaitu sebesar 5,5% meningkat menjadi 6,7% pada umur 25-34 tahun (Kemenkes. RI, 2007).
Indonesia merupakan negara tropis yang kaya akan produksi buah-buahan. Salah satu buah yang berlimpah di Indonesia adalah buah anggur. Rata-rata produksi panen anggur di Idonesia menghasilkan 30 ton anggur dalam tiga kali panen. Dalam permasalahannya, petani anggur mengalami kesulitan karena buah anggur merupakan komoditas pangan yang mudah rusak. Hal tersebut membuat petani mencari cara agar buah anggur yang di panen tidak cepat rusak. Salah satu caranya adlah dengan proses fermentasi menjadi alkohol.

1.2 Analisis Regresi Linier

Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat (dependen; respon; Y) dengan satu atau lebih variabel bebas (independen, prediktor, X). Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai regresi linier sederhana, sedangkan apabila terdapat lebih dari 1 variabel bebas, disebut sebagai regresi linier berganda. (Kurniawan, 2008).
Di dalam model regresi akan ditemukan koefisien-koefisien. Koefisien model regresi adalah nilai duga parameter di dalam model regresi untuk kondisi yang sebenarnya (true condition). Koefisien regresi ada 2 macam, yaitu:

  1. Intersep (intercept)
  2. Slope

Pada umumnya, persamaan regresi dapat dilambangkan sebagai: \[ Y = a + bX + \epsilon \] Di mana a merupakan suatu konstanta, Y merupakan kriterium (variabel yang dipengaruhi), dan X adalah variabel bebas, serta epsilon aadalah galat dari suatu model. Model sederhana tersebut dapat digunakan untuk memprediksi suatu untuk mendapatkan keputusan apakah naik turunnya suatu variabel dapat dilakukan dengan peningkatan atau penurunan variabel lain. Dalam regresi, adapun pendugaan parameter dimana parameternya berupa beta0 dan beta1. beta0 dan beta1 diduga sebagai b0 dan b1 pada model.

1.3 Data

Data yang digunakan adalah data set Red Wine Quality yang diambil dari Kaggle.

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> #Library(readxl) #untuk membaca data pada file excel
> #Library(agricolae) #untuk pemeriksaan asumsi
> #Library(lmtest) #untuk pengecekan asumsi
> #Library(car) #untuk pengecekan asumsi
> #Library(tseries) #unutk pengecekan asumsi
> #Library(ggplot2) #untuk visuaslisasi data
> #Library(corrplot) #untuk visualisasi matriks korelasi
> 

2.2 Membangkitkan Data

> library(readxl)
> ph <- read_excel("C:/Users/LENOVO/Downloads/ph.xlsx")
> View(ph)

Penggunaan syntax tersebut bertujuan untuk memanggil data ph yang telah di import dari excel.

2.3 Plot

> smoothScatter(ph$pH, ph$quality, xlab = "pH", ylab = "quality", main = "Gambar 1. Smooth Scatter Plot")  

Pada plot yang terbentuk, dapat dilihat bahwa pada plot Smooth Scatter Plot, cenderung membentuk garis linier sehingga terdapat hubungan linier antar kedua variabel.

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

> summary(ph$pH)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.040   3.215   3.350   3.330   3.425   3.580 
> summary(ph$quality)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  4.000   5.000   5.000   5.385   6.000   7.000 

Dilihat dari summary data set ph tersebut memiliki dua variabel, yaitu pH dan quality. Variabel pH memiliki nilai minimum 3.040 , kuartil pertama 3.215, median 3.350 , mean 3.330 , kuartil ketiga 3.425 , dan nilai maksimum 3.580.

Sedangkan variabel quality memiliki nilai minimum 4.000 , kuartil pertama 5.000 , median 5.000 , mean 5.385 , kuartil ketiga 6.000 , dan nilai maksimum 7.000.

> hist(ph$pH,breaks=5, main= "Histogram pH", xlab= "pH", col="cyan")

> hist(ph$quality,breaks=4, main= "Histogram quality", xlab= "quality", col="cyan")

Berdasarkan plot di atas menunjukkan bahwa data kedua variabel pH dan quality mengikuti sebaran normal jika dilihat dari bentuk histogramnya.

3.2 Pemeriksaan Asumsi

> reg<-lm(ph$pH~ph$quality, data=ph)
> print(reg)

Call:
lm(formula = ph$pH ~ ph$quality, data = ph)

Coefficients:
(Intercept)   ph$quality  
   3.364275    -0.006413  

artinya pada penggunaan fungsi lm, kita abaikan terlebih dahulu model yang terbentuk untuk pemeriksaan sisa.

> par(mfrow = c(2,2))
> plot(reg)

Pada plot pertama (Residuals vs Fitted), terbentuk pola di mana bisa dipertimbangkan untuk mengubah skala x karena sebaran data cenderung tidak mengikuti garis lurus pada plot. Pada plot 2 (Normal Q-Q), terlihat bahwa sebaran data mengikuti garis lurus, yang artinya data tersebut mengikuti distribusi normal. Pada plot 3 (Scale Location), terdapat sedikit belokan atau lengkungan, tetapi garis lurus mendominasi sehingga tidak terdapat masalah heteroskedastisitas. Pada plot 4 (Residuals vs Leverage) tidak terdapat warning akibat diatas Jarak Cook.

3.2.1 Asumsi Normalitas

Sebelumnya, dengan melihat Normal QQ dan Smooth Scatter Plot, dapat dilihat bahwa asumsi normalitas telah terpenuhi. Lalu, kita bisa menguji normalitas dengan uji Shapiro-Wilk

> sisa<-residuals(reg)
> library(tseries)
> jarque.bera.test(sisa)

    Jarque Bera Test

data:  sisa
X-squared = 1.5528, df = 2, p-value = 0.4601
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.96575, p-value = 0.2758

Hipotesis
H0 : Data berdistribusi normal
H1 : Data berdistribusi tidak normal
Keputusan : p-value (0.2758) > alpha (0.05), maka terima H0
Kesimpulan : Dengan taraf nyata 5% dapat disimpulkan bahwa data berdistribusi normal

3.2.2 Asumsi Homoskedastisitas

> library(lmtest)
> bptest(reg)

    studentized Breusch-Pagan test

data:  reg
BP = 0.98776, df = 1, p-value = 0.3203

Hipotesis
H0 : variansi data bersifat homogen
H1: variansi data bersifat tidak homogen
Keputusan : p-value (0.3203) > alpha (0.05), maka terima H0
Kesimpulan : Dengan taraf nyata 5% dapat disimpulkan bahwa variansi data bersifat homogen

3.2.3 Asumsi Non Autokorelasi

> library(lmtest)
> dwtest(reg)

    Durbin-Watson test

data:  reg
DW = 2.125, p-value = 0.6525
alternative hypothesis: true autocorrelation is greater than 0

Pada pemeriksaan didapatkan melalui p-Value 0.6525 dan ketika dibandingkan dengan taraf nyata 5%, p-Value masih lebih besar sehingga terima H0. Dapat disimpulkan bahwa non autokorelasi pada ragam galat terpenuhi.

3.2.4 Asumsi Multikolinieritas

Multikolinieritas berlaku apabila variabel x lebih dari 1 karena dalam multikolinieritas menunjukkan hubungan beberapa variabel bebas (x).

3.3 ANOVA

> ANOVA<-aov(ph$pH~ph$quality, data=ph)
> summary(ANOVA)
            Df Sum Sq  Mean Sq F value Pr(>F)
ph$quality   1 0.0009 0.000873   0.048  0.828
Residuals   37 0.6764 0.018282               

Pada ANOVA diatas, terlihat pada p-Value < alpha (0.05) maka terdapat bukti bahwa paling sedikit 1 pH yang secara signifikan memiliki rata-rata quality yang berbeda.

3.4 Pembentukan Model Regresi

Dengan melihat summary pada reg, didapatkan:

> summary(reg)

Call:
lm(formula = ph$pH ~ ph$quality, data = ph)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.28580 -0.11080  0.01779  0.09920  0.24779 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.364275   0.159485  21.095   <2e-16 ***
ph$quality  -0.006413   0.029344  -0.219    0.828    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1352 on 37 degrees of freedom
Multiple R-squared:  0.001289,  Adjusted R-squared:  -0.0257 
F-statistic: 0.04776 on 1 and 37 DF,  p-value: 0.8282

\[ Quality = 3.364275 - 0.006413pH \] Maksud dari model yang terbentuk adalah ketika tidak terdapat pengaruh dari pH, estimasi rata-rata quality sebesar 3.364275 satuan. Apabila pH bernilai 1 satuan , maka quality akan bertambah sebesar 0.006413 satuan.

4 DAFTAR PUSTAKA

Hurlock, E.B. (2010). Psikologi Perkembangan Edisi kelima. Jakarta:Erlangga. Kemenkes, RI, (2007). Riskesdas Laporan Nasional 2007:Perilaku Minum Minuman Beralkohol. Badan Penelitian dan Pengembangan Kesehatan. Kurniawan, D. (2008). Regresi linier. R-Foundation for Statistical Computing. Vienna, Austria, 17.