Industri minuman fermentasi, khususnya wine, merupakan salah satu sektor yang sangat bergantung pada standar kualitas yang ketat. Kualitas wine umumnya ditentukan melalui evaluasi sensorik oleh para ahli (wine tasters) yang memberikan skor berdasarkan rasa, aroma, dan warna. Namun, proses evaluasi manusia ini bersifat subjektif, memakan waktu, dan membutuhkan biaya yang besar. Oleh karena itu, industri mulai beralih pada pendekatan objektif dengan memanfaatkan data fisikokimia hasil uji laboratorium untuk memprediksi kualitas wine secara akurat dan konsisten.
Dataset “Vinho Verde” dari Portugal memberikan gambaran mendalam mengenai varian red wine melalui parameter-parameter kimia seperti tingkat alkohol, keasaman, dan kandungan mineral. Dalam konteks produksi, keseimbangan antara komponen-komponen ini sangat krusial; misalnya, kadar alkohol yang terlalu rendah atau keasaman volatil yang terlalu tinggi dapat merusak profil rasa wine secara keseluruhan. Dengan menggunakan teknik statistika, produsen dapat mengidentifikasi variabel mana yang paling berpengaruh terhadap nilai sensorik yang diberikan oleh penguji.
Penelitian ini memfokuskan analisis pada enam variabel utama, yaitu alkohol, volatile acidity, sulphates, citric acid, total sulfur dioxide, dan density. Pemilihan variabel ini didasarkan pada signifikansi korelasinya terhadap kualitas wine. Melalui pendekatan Multiple Linear Regression (Regresi Linier Berganda), penelitian ini tidak hanya bertujuan untuk membuat model prediksi, tetapi juga memastikan bahwa model tersebut valid secara statistika melalui serangkaian uji asumsi klasik seperti uji normalitas, multikolinieritas, dan heteroskedastisitas.
Berdasarkan latar belakang di atas, maka rumusan masalah dalam penelitian ini adalah: - Bagaimana pengaruh variabel fisikokimia secara simultan dan parsial terhadap skor kualitas red wine?
Manakah di antara variabel alkohol, keasaman volatil, sulfat, asam sitrat, total sulfur dioksida, dan densitas yang paling signifikan memengaruhi kualitas wine?
Apakah model regresi yang dibangun memenuhi kriteria uji asumsi klasik (normalitas, multikolinieritas, autokorelasi, dan heteroskedastisitas)?
Tujuan dari penelitian ini adalah:
Membangun model Regresi Linier Berganda untuk memprediksi kualitas red wine berdasarkan variabel fisikokimia yang dipilih.
Menganalisis tingkat signifikansi pengaruh masing-masing variabel independen terhadap variabel dependen (kualitas).
Melakukan validasi model melalui serangkaian uji statistik formal guna memastikan estimasi yang dihasilkan bersifat Best Linear Unbiased Estimator (BLUE).
Penelitian ini diharapkan dapat memberikan manfaat sebagai berikut:
Bagi Industri Wine: Memberikan panduan objektif bagi produsen dalam mengontrol proses produksi wine agar mencapai standar kualitas “excellent” tanpa hanya bergantung pada uji rasa manual.
Bagi Akademisi: Menjadi referensi dalam penerapan model regresi linier pada data riil serta bagaimana cara menangani masalah asumsi klasik dalam pemodelan statistika.
Bagi Peneliti Selanjutnya: Sebagai dasar untuk pengembangan model klasifikasi atau penggunaan algoritma machine learning yang lebih kompleks dalam memprediksi kualitas produk pangan.
Kualitas red wine ditentukan oleh interaksi kompleks antara berbagai komponen kimia yang dihasilkan selama proses fermentasi dan pematangan. Berikut adalah penjelasan mengenai enam variabel fisikokimia utama yang digunakan dalam penelitian ini:
Model regresi linier berganda merupakan suatu persamaan yang menggambarkan hubungan antara dua atau lebih variabel bebas/predictor (\(X1, X2, …, Xn\)) dan satu variabel tak bebas/response (\(Y\)). Tujuan dari analisis regresi linier sederhana adalah untuk memprediksi nilai variabel terikat (\(Y\)) jika nilai variabel-variabel bebas (\(X1, X2, …, Xn\)) diketahui, serta mengetahui arah hubungan antara variabel tak bebas dengan variabel-variabel bebas. Model matematisnya adalah sebagai berikut:
\[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon_i\]
Dimana:
\(Y\) = Kualitas Wine (Variabel Dependen)
\(\beta_0\) = Konstanta (Intersep)
\(\beta_1, ..., \beta_k\) = Koefisien Regresi
\(X_1, ..., X_k\) = Variabel Fisikokimia (Variabel Independen)
\(\epsilon_i\) = Error atau residu
Asumsi-asumsi yang harus dipenuhi agar model dapat dinyatakan valid:
\(\beta_0\) dan \(\beta_i\) adalah parameter yang belum diketahui.
\(X\) adalah variabel bebas (independen) yang diatur tanpa error.
\(Y\) adalah variabel respon (dependen) yang digunakan sebagai prediksi berdasarkan nilai variabel \(X\).
\(\epsilon\) adalah komponen error random yang saling bebas dan mempunyai distribusi normal dengan rata – rata dan varian (\(\sigma^2\)) yang ditentukan berdasarkan nilai data variabel tak bebas.
Hubungan variabel \(X\) dan \(Y\) adalah linier.
Berdasarkan asumsi model di atas, parameter \(\beta_0\) dan \(\beta_i\) adalah variabel tak bebas bersifat non-random sehingga error random \(\epsilon\) yang memiliki distribusinormal dengan rata – rata (\(\mu= 0\)) dan varian (\(\sigma^2\)) indentik dengan observasi variabel \(Y\).
Untuk memastikan bahwa model regresi menghasilkan estimasi yang valid (BLUE - Best Linear Unbiased Estimator), maka model harus memenuhi beberapa uji asumsi:
Uji normalitas bertujuan untuk menguji apakah dalam model regresi variabel dependen dan variabel independen keduanya mempunyai distribusi normal. Model regresi yang baik memiliki distribusi data yang normal. Ada dua cara untuk mendeteksi apakah residual berdistribusi normal atau tidak normal yaitu dengan analisis grafik (histogram dan probability plot) dan uji Kolmogorov-Smirnov. Dasar pengambilan keputusan uji Kolmogorov-Smirnov adalah sebagai berikut :
Jika nilai signifikansi > 0,05 maka nilai residual berdistribusi normal.
Jika nilai signifikansi < 0,05 maka nilai residual tidak berdistribusi normal.
Uji multikolinearitas bertujuan untuk menguji apakah pada model regresi ditemukan adanya korelasi antar variabel independen. Pada model regresi yang baik seharusnya antar variabel independen tidak terjadi kolerasi. Untuk mendeteksi ada tidaknya multikoliniearitas dalam model regresi dapat dilihat dari Tolerance value atau Variance Inflation Factor (VIF). Sebagai dasar acuannya dapat disimpulkan:
Jika nilai tolerance > 10 persen dan nilai VIF < 10, maka dapat disimpulkan bahwa tidak ada multikolinearitas antar variabel independen dalam model regresi.
Jika nilai tolerance < 10 persen dan nilai VIF > 10, maka dapat disimpulkan bahwa ada multikolinearitas antar variabel independen dalam model regresi.
Uji autokorelasi bertujuan menguji apakah dalam model regresi linear ada korelasi antara kesalahan pengganggu pada periode t dengan kesalahan pengganggu pada periode t-1 (sebelumnya). Uji autokorelasi dalam penelitian ini menggunakan uji Durbin–Watson (DW test). Oleh karena itu, apabila asumsi autokorelasi terjadi pada sebuah model prediksi, maka nilai disturbance tidak lagi berpasangan secara bebas, melainkan berpasangan secara autokorelasi.
\(d = \frac{\Sigma(e_i - e_{i-1})^2}{\Sigma e_i^2}\)
Heteroskedastisitas terjadi apabila varians dari residu tidak konstan (tidak homogen). Model yang baik mensyaratkan adanya homoskedastisitas. Uji Breusch-Pagan sering digunakan untuk mendeteksi gejala ini.
Uji F ini bertujuan untuk menguji apakah variabel independen secara bersama–sama (simultan) mempengaruhi variabel dependen. Uji F dilakukan untuk melihat pengaruh dari seluruh variabel bebas secara bersama-sama terhadap variabel terikat
\(F_{hitung} = \frac{RKR}{RKS}\)
Uji t berguna untuk mengetahui apakah model regresi yang terbentuk variable-variabel bebasnya (X) secara parsial berpengaruh signifikan terhadap variable terikat Y.
\(t_0 = \frac{b_0 - \beta_{00}}{s_{b_0}}; s_{b_0} = s_e \sqrt{(\frac{1}{n}+\frac{X^2}{S_{xx}})}\) \(t_1 = \frac{b_1 - \beta_{10}}{s_{b_1}}; s_{b_1} = \frac{s_e}{\sqrt{S_{xx}}}\)
Koefisien determinasi digunakan untuk mengukur seberapa jauh kemampuan variabel independen dalam menerangkan variasi perubahan variabel dependen. Nilai koefisien determinasi adalah 0 dan 1.
\(0 ≤ R^2 ≤ 1\)
Persamaan tersebut menyatakan jumlah variabilitas dalam data dalam model dan kontribusi variabel bebas x terhadap variabel respon y. Nilai ketepatan model regresi dengan koefisien determinasi :
\(R^2 = \frac{JKR}{JKT}\)
Jika nilai koefisien determinasi mendekati satu berarti variabel-variabel independen memberikan hampir semua informasi yang dibutuhkan untuk untuk memprediksi variasi variabel dependen.
Jika nilai koefisien determinasi mendekati nol berarti variabel independen memberikan sedikit informasi yang dibutuhkan untuk memprediksi variasi variabel dependen.
Penelitian ini menggunakan pendekatan kuantitatif dengan metode analisis deskriptif dan inferensial. Data yang digunakan adalah dataset sekunder Red Wine Quality yang bersumber dari UCI Machine Learning Repository. Dataset ini mencakup 1.599 observasi varian wine merah “Vinho Verde” dari Portugal.
Penelitian ini membatasi analisis pada 6 variabel independen untuk menjaga relevansi dan efisiensi model.
\(X_1\): Alcohol (Alkohol)
\(X_2\): Volatile Acidity (Keasaman Volatil)
\(X_3\): Sulphates (Sulfat)
\(X_4\): Citric Acid (Asam Sitrat)
\(X_5\): Total Sulfur Dioxide (Total Sulfur Dioksida)
\(X_6\): Density (Massa Jenis)
Analisis data dilakukan menggunakan perangkat lunak R dengan langkah-langkah sebagai berikut:
Persiapan Data: Mengimpor dataset dan memilih variabel yang relevan.
Estimasi Model: Membentuk model Regresi Linier Berganda.
Uji Asumsi Klasik: Melakukan serangkaian uji validitas model (Normalitas, Multikolinieritas, Autokorelasi, Heteroskedastisitas).
Uji Hipotesis: Melakukan Uji F (Simultan) dan Uji t (Parsial).
Evaluasi Model: Menghitung Koefisien Determinasi (\(R^2\)).
Berdasarkan hasil pengolahan data menggunakan Multiple Linear Regression pada 1.599 observasi red wine, berikut adalah rincian temuan penelitian:
model <- lm(quality ~ alcohol + volatile.acidity + sulphates +
citric.acid + total.sulfur.dioxide + density, data = selected_data)
summary_model <- summary(model)
print(summary_model)
##
## Call:
## lm(formula = quality ~ alcohol + volatile.acidity + sulphates +
## citric.acid + total.sulfur.dioxide + density, data = selected_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7278 -0.3899 -0.0635 0.4392 2.1517
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.0092797 11.9723670 -0.585 0.558
## alcohol 0.3045866 0.0195810 15.555 < 2e-16 ***
## volatile.acidity -1.2468515 0.1163736 -10.714 < 2e-16 ***
## sulphates 0.7099695 0.1035519 6.856 1.01e-11 ***
## citric.acid -0.0927891 0.1201302 -0.772 0.440
## total.sulfur.dioxide -0.0021736 0.0005155 -4.217 2.62e-05 ***
## density 9.8195438 11.9307065 0.823 0.411
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6552 on 1592 degrees of freedom
## Multiple R-squared: 0.3441, Adjusted R-squared: 0.3417
## F-statistic: 139.2 on 6 and 1592 DF, p-value: < 2.2e-16
Berdasarkan output koefisien, model regresi yang terbentuk adalah:
\[Y = -7.009 + 0.304(Alcohol) - 1.246(Volatile.Acidity) + 0.709(Sulphates) - 0.092(Citric.Acid) - 0.002(Total.Sulfur.Dioxide) + 9.819(Density)\]
Interpretasi Koefisien:
Alcohol (0.304): Setiap kenaikan 1 unit alkohol akan meningkatkan skor kualitas sebesar 0.304 poin, asumsi variabel lain konstan.
Volatile Acidity(-1.246): Setiap kenaikan 1 unit keasaman volatil akan menurunkan kualitas secara drastis sebesar 1.246 poin. Hal ini sesuai dengan teori bahwa asam asetat yang tinggi merusak rasa wine.
Sulphates(0.709): Kandungan sulfat berpengaruh positif terhadap kualitas, di mana sulfat berperan sebagai pengawet dan penjaga stabilitas rasa.
model <- lm(quality ~ alcohol + volatile.acidity + sulphates +
citric.acid + total.sulfur.dioxide + density, data = selected_data)
summary_model <- summary(model)
print(summary_model)
##
## Call:
## lm(formula = quality ~ alcohol + volatile.acidity + sulphates +
## citric.acid + total.sulfur.dioxide + density, data = selected_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7278 -0.3899 -0.0635 0.4392 2.1517
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.0092797 11.9723670 -0.585 0.558
## alcohol 0.3045866 0.0195810 15.555 < 2e-16 ***
## volatile.acidity -1.2468515 0.1163736 -10.714 < 2e-16 ***
## sulphates 0.7099695 0.1035519 6.856 1.01e-11 ***
## citric.acid -0.0927891 0.1201302 -0.772 0.440
## total.sulfur.dioxide -0.0021736 0.0005155 -4.217 2.62e-05 ***
## density 9.8195438 11.9307065 0.823 0.411
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6552 on 1592 degrees of freedom
## Multiple R-squared: 0.3441, Adjusted R-squared: 0.3417
## F-statistic: 139.2 on 6 and 1592 DF, p-value: < 2.2e-16
Berdasarkan hasil analisis, diperoleh nilai F-statistic sebesar 139.2 dengan p-value< 2.2e-16.
Keputusan: Karena p-value < 0.05, maka \(H_0\) ditolak.
Kesimpulan: Secara simultan (bersama-sama), keenam variabel fisikokimia berpengaruh signifikan terhadap kualitas red wine.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.009279721 11.972366967 -0.5854548 5.583249e-01
## alcohol 0.304586577 0.019580992 15.5552167 6.704978e-51
## volatile.acidity -1.246851460 0.116373556 -10.7142164 6.512683e-26
## sulphates 0.709969505 0.103551912 6.8561699 1.008481e-11
## citric.acid -0.092789122 0.120130222 -0.7724045 4.399896e-01
## total.sulfur.dioxide -0.002173644 0.000515508 -4.2165100 2.620664e-05
## density 9.819543831 11.930706467 0.8230480 4.106040e-01
Berdasarkan output koefisien, tingkat signifikansi masing-masing variabel adalah:
Alcohol (\(p < 2e-16\)): Signifikan.
Volatile Acidity (\(p < 2e-16\)): Signifikan.
Sulphates (\(p = 1.01e-11\)): Signifikan.
Total Sulfur Dioxide (\(p = 2.62e-05\)): Signifikan.
Citric Acid (\(p = 0.440\)): Tidak Signifikan.
Density (\(p = 0.411\)): Tidak Signifikan.
Variabel Citric Acid dan Density tidak memberikan kontribusi signifikan secara individu terhadap model ini pada tingkat kepercayaan 95%.
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.99056, p-value = 1.196e-08
Hasil uji Shapiro-Wilk menunjukkan nilai W = 0.99056 dengan p-value= 1.196e-08.
Analisis: Karena p-value < 0.05, residu model tidak berdistribusi normal secara sempurna. Namun, mengingat jumlah sampel yang besar (N=1599), berdasarkan Central Limit Theorem, penyimpangan ini sering terjadi pada data riil.
## alcohol volatile.acidity sulphates
## 1.620614 1.616110 1.146722
## citric.acid total.sulfur.dioxide density
## 2.038234 1.070300 1.887107
Nilai VIF untuk semua variabel berada di kisaran 1.07 hingga 2.03.
Analisis: Semua nilai VIF < 10. Artinya, tidak ditemukan masalah multikolinieritas yang serius antar variabel independen; masing-masing variabel berdiri cukup independen.
##
## Durbin-Watson test
##
## data: model
## DW = 1.7522, p-value = 2.959e-07
## alternative hypothesis: true autocorrelation is greater than 0
Nilai DW= 1.7522 dengan p-value= 2.959e-07.
Analisis: Nilai DW mendekati 2, namun p-value yang kecil menunjukkan adanya sedikit gejala autokorelasi positif dalam data.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 59.887, df = 6, p-value = 4.745e-11
Nilai BP = 59.887 dengan p-value= 4.745e-11.
Analisis: Karena p-value < 0.05, model terdeteksi mengandung gejala heteroskedastisitas. Hal ini mengindikasikan bahwa varians error tidak konstan di seluruh rentang data, yang umum ditemukan pada data sensorik manusia.
## R-squared: 0.3441316
## Adjusted R-squared: 0.3416597
Nilai Multiple R-squaredadalah0.3441, sedangkan Adjusted R-squaredadalah 0.3417.
Artinya: Sebesar 34.17% variasi dalam kualitas red wine dapat dijelaskan oleh keenam variabel fisikokimia dalam model. Sisanya sebesar 65.83% dipengaruhi oleh faktor lain di luar model, seperti jenis anggur, proses penuaan (aging), atau variabel subjektif lainnya.
Hasil penelitian menunjukkan bahwa kualitas red wine sangat sensitif terhadap kadar alkohol dan keasaman volatil. Meskipun model ini secara statistik sangat signifikan (Uji F), nilai \(R^2\) yang berada di kisaran 34% menunjukkan bahwa kualitas wine adalah fenomena yang kompleks yang tidak hanya bergantung pada parameter kimia dasar.
Adanya masalah pada asumsi heteroskedastisitas dan normalitas menunjukkan bahwa hubungan antara parameter kimia dan penilaian manusia mungkin tidak sepenuhnya linier, atau terdapat pencilan (outliers) pada wine dengan skor kualitas yang sangat ekstrim (sangat rendah atau sangat tinggi).
Berdasarkan hasil analisis regresi linier berganda dan serangkaian uji statistik yang telah dilakukan terhadap dataset Red Wine Quality dengan model matematis:
\[Y = -7.009 + 0.304(Alcohol) - 1.246(Volatile.Acidity) + 0.709(Sulphates) - 0.092(Citric.Acid) - 0.002(Total.Sulfur.Dioxide) + 9.819(Density)\]
kemudian dapat ditarik kesimpulan sebagai berikut:
Berdasarkan keterbatasan yang ditemukan dalam penelitian ini, berikut adalah beberapa saran untuk pengembangan selanjutnya:
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.
Yuliara, I Made. (2016). Regresi Linier Berganda. Diakses pada 09 Maret 2026 melalui https://siak.stiemp.ac.id/_el/upload/9900987415/materi_regresi_linier_berganda.pdf.