Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")Masa remaja merupakan masa transisi dari kanak-kanak menuju masa
dewasa yang dimulai dari usia belasan tahun sampai dua puluhan tahun
(Hurlock, 2010). Pemakaian alkohol di Indonesia juga menunjukkan potensi
peningkatan penggunaan alkohol yang cukup besar. Berdasarkan data Riset
Kesehatan Dasar (Riskesdas) tahun 2007, prevalensi konsumsi alkohol di
Indonesia dari 258.366 sampel rumah tangga pada 1 tahun terakhir adalah
8,8% laki-laki dan 0,7%perempuan. Prevalensi peminum alkohol mulai
tinggi pada umur antara 15-24 tahun yaitu sebesar 5,5% meningkat menjadi
6,7% pada umur 25-34 tahun (Kemenkes. RI, 2007).
Indonesia merupakan negara tropis yang kaya akan produksi buah-buahan.
Salah satu buah yang berlimpah di Indonesia adalah buah anggur.
Rata-rata produksi panen anggur di Idonesia menghasilkan 30 ton anggur
dalam tiga kali panen. Dalam permasalahannya, petani anggur mengalami
kesulitan karena buah anggur merupakan komoditas pangan yang mudah
rusak. Hal tersebut membuat petani mencari cara agar buah anggur yang di
panen tidak cepat rusak. Salah satu caranya adlah dengan proses
fermentasi menjadi alkohol.
Regresi linier adalah metode statistika yang digunakan untuk
membentuk model hubungan antara variabel terikat (dependen; respon; Y)
dengan satu atau lebih variabel bebas (independen, prediktor, X).
Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai regresi
linier sederhana, sedangkan apabila terdapat lebih dari 1 variabel
bebas, disebut sebagai regresi linier berganda. (Kurniawan, 2008).
Di dalam model regresi akan ditemukan koefisien-koefisien. Koefisien
model regresi adalah nilai duga parameter di dalam model regresi untuk
kondisi yang sebenarnya (true condition). Koefisien regresi ada
2 macam, yaitu:
Pada umumnya, persamaan regresi dapat dilambangkan sebagai: \[ Y = a + bX + \epsilon \] Di mana a merupakan suatu konstanta, Y merupakan kriterium (variabel yang dipengaruhi), dan X adalah variabel bebas, serta epsilon aadalah galat dari suatu model. Model sederhana tersebut dapat digunakan untuk memprediksi suatu untuk mendapatkan keputusan apakah naik turunnya suatu variabel dapat dilakukan dengan peningkatan atau penurunan variabel lain. Dalam regresi, adapun pendugaan parameter dimana parameternya berupa beta0 dan beta1. beta0 dan beta1 diduga sebagai b0 dan b1 pada model.
Data yang digunakan adalah data set Red Wine Quality yang diambil dari Kaggle.
> #Library(readxl) #untuk membaca data pada file excel
> #Library(agricolae) #untuk pemeriksaan asumsi
> #Library(lmtest) #untuk pengecekan asumsi
> #Library(car) #untuk pengecekan asumsi
> #Library(tseries) #unutk pengecekan asumsi
> #Library(ggplot2) #untuk visuaslisasi data
> #Library(corrplot) #untuk visualisasi matriks korelasi
> > library(readxl)
> ph <- read_excel("C:/Users/LENOVO/Downloads/ph.xlsx")
> View(ph)Penggunaan syntax tersebut bertujuan untuk memanggil data ph yang telah di import dari excel.
> smoothScatter(ph$pH, ph$quality, xlab = "pH", ylab = "quality", main = "Gambar 1. Smooth Scatter Plot")
Pada plot yang terbentuk, dapat dilihat bahwa pada plot Smooth
Scatter Plot, cenderung membentuk garis linier sehingga terdapat
hubungan linier antar kedua variabel.
> summary(ph$pH)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.040 3.215 3.350 3.330 3.425 3.580
> summary(ph$quality)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.000 5.000 5.000 5.385 6.000 7.000 Dilihat dari summary data set ph tersebut memiliki dua variabel, yaitu pH dan quality. Variabel pH memiliki nilai minimum 3.040 , kuartil pertama 3.215, median 3.350 , mean 3.330 , kuartil ketiga 3.425 , dan nilai maksimum 3.580.
Sedangkan variabel quality memiliki nilai minimum 4.000 , kuartil pertama 5.000 , median 5.000 , mean 5.385 , kuartil ketiga 6.000 , dan nilai maksimum 7.000.
> hist(ph$pH,breaks=5, main= "Histogram pH", xlab= "pH", col="cyan")> hist(ph$quality,breaks=4, main= "Histogram quality", xlab= "quality", col="cyan")
Berdasarkan plot di atas menunjukkan bahwa data kedua variabel pH dan
quality mengikuti sebaran normal jika dilihat dari bentuk
histogramnya.
> reg<-lm(ph$pH~ph$quality, data=ph)
> print(reg)
Call:
lm(formula = ph$pH ~ ph$quality, data = ph)
Coefficients:
(Intercept) ph$quality
3.364275 -0.006413 artinya pada penggunaan fungsi lm, kita abaikan terlebih dahulu model yang terbentuk untuk pemeriksaan sisa.
> par(mfrow = c(2,2))
> plot(reg)
Pada plot pertama (Residuals vs Fitted), terbentuk pola di mana
bisa dipertimbangkan untuk mengubah skala x karena sebaran data
cenderung tidak mengikuti garis lurus pada plot. Pada plot 2 (Normal
Q-Q), terlihat bahwa sebaran data mengikuti garis lurus, yang artinya
data tersebut mengikuti distribusi normal. Pada plot 3 (Scale
Location), terdapat sedikit belokan atau lengkungan, tetapi garis
lurus mendominasi sehingga tidak terdapat masalah heteroskedastisitas.
Pada plot 4 (Residuals vs Leverage) tidak terdapat
warning akibat diatas Jarak Cook.
Sebelumnya, dengan melihat Normal QQ dan Smooth Scatter Plot, dapat dilihat bahwa asumsi normalitas telah terpenuhi. Lalu, kita bisa menguji normalitas dengan uji Shapiro-Wilk
> sisa<-residuals(reg)
> library(tseries)
> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 1.5528, df = 2, p-value = 0.4601
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.96575, p-value = 0.2758Hipotesis
H0 : Data berdistribusi normal
H1 : Data berdistribusi tidak normal
Keputusan : p-value (0.2758) > alpha (0.05), maka terima
H0
Kesimpulan : Dengan taraf nyata 5% dapat disimpulkan bahwa data
berdistribusi normal
> library(lmtest)
> bptest(reg)
studentized Breusch-Pagan test
data: reg
BP = 0.98776, df = 1, p-value = 0.3203Hipotesis
H0 : variansi data bersifat homogen
H1: variansi data bersifat tidak homogen
Keputusan : p-value (0.3203) > alpha (0.05), maka terima
H0
Kesimpulan : Dengan taraf nyata 5% dapat disimpulkan bahwa variansi data
bersifat homogen
> library(lmtest)
> dwtest(reg)
Durbin-Watson test
data: reg
DW = 2.125, p-value = 0.6525
alternative hypothesis: true autocorrelation is greater than 0Pada pemeriksaan didapatkan melalui p-Value 0.6525 dan ketika dibandingkan dengan taraf nyata 5%, p-Value masih lebih besar sehingga terima H0. Dapat disimpulkan bahwa non autokorelasi pada ragam galat terpenuhi.
Multikolinieritas berlaku apabila variabel x lebih dari 1 karena dalam multikolinieritas menunjukkan hubungan beberapa variabel bebas (x).
> ANOVA<-aov(ph$pH~ph$quality, data=ph)
> summary(ANOVA)
Df Sum Sq Mean Sq F value Pr(>F)
ph$quality 1 0.0009 0.000873 0.048 0.828
Residuals 37 0.6764 0.018282 Pada ANOVA diatas, terlihat pada p-Value < alpha (0.05) maka terdapat bukti bahwa paling sedikit 1 pH yang secara signifikan memiliki rata-rata quality yang berbeda.
Dengan melihat summary pada reg, didapatkan:
> summary(reg)
Call:
lm(formula = ph$pH ~ ph$quality, data = ph)
Residuals:
Min 1Q Median 3Q Max
-0.28580 -0.11080 0.01779 0.09920 0.24779
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.364275 0.159485 21.095 <2e-16 ***
ph$quality -0.006413 0.029344 -0.219 0.828
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1352 on 37 degrees of freedom
Multiple R-squared: 0.001289, Adjusted R-squared: -0.0257
F-statistic: 0.04776 on 1 and 37 DF, p-value: 0.8282\[ Quality = 3.364275 - 0.006413pH \] Maksud dari model yang terbentuk adalah ketika tidak terdapat pengaruh dari pH, estimasi rata-rata quality sebesar 3.364275 satuan. Apabila pH bernilai 1 satuan , maka quality akan bertambah sebesar 0.006413 satuan.
Hurlock, E.B. (2010). Psikologi Perkembangan Edisi kelima. Jakarta:Erlangga. Kemenkes, RI, (2007). Riskesdas Laporan Nasional 2007:Perilaku Minum Minuman Beralkohol. Badan Penelitian dan Pengembangan Kesehatan. Kurniawan, D. (2008). Regresi linier. R-Foundation for Statistical Computing. Vienna, Austria, 17.