1. Deskripsi Data

1.1 Latar Belakang

Industri wine memanfaatkan berbagai pengujian fisikokimia untuk memastikan kualitas dan sertifikasi produk. Uji laboratorium seperti pengukuran densitas, kadar alkohol, dan pH merupakan bagian penting dalam proses tersebut.

Data yang digunakan dalam analisis ini berasal dari:

Cortez, P., Cerdeira, A., Almeida, F., Matos, T., & Reis, J. (2009). Modeling wine preferences by data mining from physicochemical properties. Decision Support Systems, 47(4), 547–553.

Fokus analisis adalah mengidentifikasi variabel-variabel fisikokimia yang berhubungan dengan density (g/mL) pada white vinho verde dari Portugal.

1.2 Variabel yang Digunakan

Variabel yang dianalisis:

density : densitas wine (g/mL)
citric_acid : kadar asam sitrat (g/L)
residual_sugar : kadar gula residual (g/L)
chlorides : kadar sodium chloride (g/L)
total_sulfur_dioxide : total sulfur dioksida (mg/L)
alcohol : persentase alkohol (% vol)

wine <- read_xlsx("wine.xlsx")

varkeep <- names(wine)[c(3,4,5,7,11,8)]
wine <- wine %>% select(varkeep)

dim(wine)

## [1] 4898    6

Dataset terdiri dari 4898 observasi dan 6 variabel.

2. Eksplorasi Data

2.1 Pair Plot

Pair plot digunakan untuk melihat pola hubungan antar variabel secara visual.

ggpairs(wine %>%
          select(citric_acid,
                 residual_sugar,
                 chlorides,
                 total_sulfur_dioxide,
                 alcohol,
                 density)) +
  theme_bw()

Pair

Berdasarkan visualisasi pair plot, beberapa pola hubungan antar variabel dapat diidentifikasi sebagai berikut:

Hubungan residual_sugar dengan density

Terlihat hubungan positif yang cukup kuat antara residual_sugar dan density dengan nilai korelasi sekitar 0.839. Hal ini menunjukkan bahwa semakin tinggi kadar gula residual pada wine, maka densitas wine cenderung meningkat. Pola titik pada scatter plot juga menunjukkan kecenderungan garis naik yang cukup jelas.
Hubungan alcohol dengan density

Variabel alcohol memiliki hubungan negatif yang kuat dengan density dengan nilai korelasi sekitar -0.780. Artinya, semakin tinggi kadar alkohol pada wine, maka densitas cenderung menurun. Hal ini konsisten dengan sifat fisik alkohol yang memiliki densitas lebih rendah dibandingkan air.
Hubungan total_sulfur_dioxide dengan density

Variabel total_sulfur_dioxide menunjukkan hubungan positif sedang terhadap density dengan korelasi sekitar 0.530. Hal ini menunjukkan bahwa peningkatan kandungan sulfur dioksida cenderung diikuti dengan peningkatan densitas wine.
Hubungan chlorides dengan density

Variabel chlorides memiliki hubungan positif yang relatif lemah dengan density dengan nilai korelasi sekitar 0.257. Pola scatter menunjukkan kecenderungan naik namun dengan sebaran titik yang cukup besar.
Hubungan citric_acid dengan density

Variabel citric_acid memiliki hubungan positif yang sangat lemah terhadap density dengan korelasi sekitar 0.150, sehingga pengaruhnya terhadap densitas relatif kecil dibandingkan variabel lainnya.

Selain hubungan dengan density, pair plot juga menunjukkan beberapa hubungan antar variabel independen, misalnya:

residual_sugar dan alcohol memiliki korelasi negatif cukup kuat (-0.451)
total_sulfur_dioxide dan alcohol juga menunjukkan hubungan negatif (-0.449)

Hubungan antar variabel independen ini perlu diperhatikan karena dapat mengindikasikan potensi multikolinearitas dalam model regresi yang akan dianalisis pada tahap berikutnya.

2.2 Scatter Plot terhadap Density

p1 <- ggplot(wine, aes(x = citric_acid, y = density)) +
  geom_point() + theme_bw()

p2 <- ggplot(wine, aes(x = residual_sugar, y = density)) +
  geom_point() + theme_bw()

p3 <- ggplot(wine, aes(x = chlorides, y = density)) +
  geom_point() + theme_bw()

p4 <- ggplot(wine, aes(x = total_sulfur_dioxide, y = density)) +
  geom_point() + theme_bw()

p5 <- ggplot(wine, aes(x = alcohol, y = density)) +
  geom_point() + theme_bw()

grid.arrange(p1, p2, p3, p4, p5, ncol = 3)

Scatter Plot Variabel terhadap Density

Scatter plot digunakan untuk melihat hubungan antara masing-masing variabel independen dengan variabel respon yaitu density.

citric_acid terhadap density

Scatter plot menunjukkan pola hubungan yang relatif lemah antara citric_acid dan density. Titik-titik data tersebar cukup luas tanpa pola linear yang sangat jelas, meskipun terdapat sedikit kecenderungan peningkatan density ketika citric_acid meningkat.
residual_sugar terhadap density

Scatter plot menunjukkan hubungan positif yang cukup kuat. Ketika residual_sugar meningkat, nilai density juga cenderung meningkat. Pola ini terlihat cukup jelas dengan sebaran titik yang membentuk kecenderungan linear naik.
chlorides terhadap density

Hubungan antara chlorides dan density terlihat positif tetapi relatif lemah. Sebaran titik masih cukup luas sehingga pengaruh variabel ini terhadap density kemungkinan tidak sebesar variabel lain seperti residual_sugar atau alcohol.
total_sulfur_dioxide terhadap density

Scatter plot menunjukkan hubungan positif sedang antara total_sulfur_dioxide dan density. Nilai density cenderung meningkat seiring meningkatnya total sulfur dioksida, meskipun pola linear tidak sekuat pada residual_sugar.
alcohol terhadap density

Variabel alcohol menunjukkan hubungan negatif yang jelas dengan density. Semakin tinggi kadar alkohol, nilai density cenderung menurun. Pola penurunan ini terlihat cukup konsisten pada scatter plot.

Secara umum, dari hasil eksplorasi visual ini dapat disimpulkan bahwa residual_sugar dan alcohol merupakan variabel yang memiliki hubungan paling kuat dengan density, sehingga keduanya diperkirakan akan memberikan kontribusi besar dalam model regresi linear berganda yang akan dibangun pada tahap berikutnya.

3. Model Regresi

3.1 Spesifikasi Model

Model regresi linear berganda yang digunakan adalah:

\[ Y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i} + \beta_4 x_{4i} + \beta_5 x_{5i} + \varepsilon_i \]

dengan:

\(Y_i\) = density
\(x_{1i}\) = citric_acid
\(x_{2i}\) = residual_sugar
\(x_{3i}\) = chlorides
\(x_{4i}\) = total_sulfur_dioxide
\(x_{5i}\) = alcohol
\(\varepsilon_i \sim N(0, \sigma^2)\)

Model ini digunakan untuk menganalisis pengaruh simultan variabel fisikokimia terhadap nilai density wine.

3.2 Estimasi Parameter

model_fit <- lm(density ~ citric_acid +
                              residual_sugar +
                              chlorides +
                              total_sulfur_dioxide +
                              alcohol, wine)

summary(model_fit)

## 
## Call:
## lm(formula = density ~ citric_acid + residual_sugar + chlorides + 
##     total_sulfur_dioxide + alcohol, data = wine)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -0.0021263 -0.0005689 -0.0001093  0.0004314  0.0251132 
## 
## Coefficients:
##                        Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)           1.003e+00  1.719e-04 5832.375  < 2e-16 ***
## citric_acid           1.177e-03  1.052e-04   11.191  < 2e-16 ***
## residual_sugar        3.488e-04  2.884e-06  120.939  < 2e-16 ***
## chlorides             2.038e-03  6.229e-04    3.271  0.00108 ** 
## total_sulfur_dioxide  5.040e-06  3.434e-07   14.676  < 2e-16 ***
## alcohol              -1.148e-03  1.280e-05  -89.742  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0008789 on 4892 degrees of freedom
## Multiple R-squared:  0.9137, Adjusted R-squared:  0.9137 
## F-statistic: 1.036e+04 on 5 and 4892 DF,  p-value: < 2.2e-16

Model taksiran yang diperoleh adalah:

\[ \hat{Y} = 1.002688 + 0.001177x_1 + 3.49\times 10^{-4}x_2 + 0.002038x_3 + 5\times 10^{-6}x_4 + -0.001148x_5 \]

Koefisien pada model diestimasi menggunakan metode Ordinary Least Squares (OLS) yang meminimalkan jumlah kuadrat residual antara nilai pengamatan dan nilai prediksi model.

3.3 Interpretasi Koefisien

Interpretasi koefisien regresi dilakukan dengan asumsi bahwa variabel independen lainnya berada dalam kondisi konstan.

Koefisien citric_acid sebesar 0.001177 menunjukkan bahwa peningkatan 1 g/L kadar asam sitrat akan meningkatkan nilai density rata-rata sebesar nilai tersebut.
Koefisien residual_sugar sebesar 3.49^{-4} menunjukkan bahwa setiap kenaikan 1 g/L residual sugar akan meningkatkan density wine rata-rata sebesar nilai tersebut.
Koefisien chlorides sebesar 0.002038 menunjukkan perubahan rata-rata density akibat peningkatan kadar sodium chloride sebesar 1 g/L.
Koefisien total_sulfur_dioxide sebesar 5^{-6} menunjukkan perubahan density akibat peningkatan kadar sulfur dioksida total.
Koefisien alcohol sebesar -0.001148 menunjukkan bahwa peningkatan kadar alkohol cenderung menurunkan density wine.

Interpretasi ini memberikan gambaran bagaimana karakteristik kimia wine memengaruhi nilai densitas produk.

3.4 Goodness of Fit Model

Kualitas model regresi dapat dievaluasi menggunakan koefisien determinasi \(R^2\).

Nilai \(R^2\) dari model adalah:

\[ R^2 = 0.9137 \]

Nilai ini menunjukkan bahwa sekitar 91.37% variasi pada density wine dapat dijelaskan oleh variabel citric_acid, residual_sugar, chlorides, total_sulfur_dioxide, dan alcohol.

Sementara itu, sisanya dipengaruhi oleh faktor lain yang tidak dimasukkan dalam model.

Nilai Adjusted \(R^2\) sebesar:

\[ Adj R^2 = 0.9137 \]

Adjusted \(R^2\) memberikan ukuran goodness of fit yang telah disesuaikan dengan jumlah variabel dalam model sehingga lebih stabil dalam evaluasi model regresi berganda.

4. Pengujian Asumsi Klasik

Model regresi linear berganda memiliki beberapa asumsi penting yang harus dipenuhi agar estimasi parameter yang diperoleh bersifat BLUE (Best Linear Unbiased Estimator). Oleh karena itu dilakukan beberapa pengujian asumsi klasik yang meliputi:

Uji normalitas residual
Uji autokorelasi
Uji multikolinearitas
Uji heteroskedastisitas

4.1 Uji Normalitas Residual

Uji normalitas dilakukan untuk mengetahui apakah residual dari model regresi berdistribusi normal. Residual yang berdistribusi normal merupakan salah satu asumsi penting dalam analisis regresi, khususnya untuk validitas pengujian hipotesis terhadap parameter model.

Pada analisis ini digunakan uji Kolmogorov–Smirnov.

error <- model_fit$residuals

ks.test(error, "pnorm", mean(error), sd(error))

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  error
## D = 0.075963, p-value < 2.2e-16
## alternative hypothesis: two-sided

Hipotesis yang diuji adalah:

\[ H_0 : \text{Residual berdistribusi normal} \]

\[ H_1 : \text{Residual tidak berdistribusi normal} \]

Kriteria pengujian:

Jika p-value > 0.05, maka gagal menolak \(H_0\) sehingga residual dapat dianggap berdistribusi normal.
Jika p-value ≤ 0.05, maka \(H_0\) ditolak sehingga residual tidak berdistribusi normal.

Berdasarkan uji Kolmogorov–Smirnov diperoleh p-value < 0.05 sehingga residual tidak berdistribusi normal. Namun demikian, mengingat jumlah observasi pada dataset cukup besar, pelanggaran normalitas residual tidak terlalu mempengaruhi konsistensi estimasi parameter model regresi.

4.2 Uji Autokorelasi

Uji autokorelasi digunakan untuk mengetahui apakah terdapat korelasi antara residual pada suatu observasi dengan residual pada observasi lainnya. Autokorelasi biasanya menjadi masalah pada data runtun waktu (time series), namun pengujian tetap dapat dilakukan untuk memastikan independensi residual.

Pada analisis ini digunakan uji Durbin–Watson.

library(lmtest)

dwtest(model_fit)

## 
##  Durbin-Watson test
## 
## data:  model_fit
## DW = 1.4538, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Hipotesis yang diuji adalah:

\[ H_0 : \text{Tidak terdapat autokorelasi pada residual} \]

\[ H_1 : \text{Terdapat autokorelasi pada residual} \]

Kriteria pengujian:

Jika p-value > 0.05, maka gagal menolak \(H_0\) sehingga tidak terdapat autokorelasi pada model.
Jika p-value ≤ 0.05, maka terdapat autokorelasi pada residual.

Berdasarkan hasil pengujian, diperoleh nilai p-value yang lebih kecil dari 0.05, sehingga dapat disimpulkan bahwa terdapat indikasi autokorelasi positif pada residual model..

Catatan: Hasil uji Durbin–Watson menunjukkan adanya autokorelasi pada residual model. Namun karena data yang digunakan bersifat cross-sectional, autokorelasi ini kemungkinan disebabkan oleh struktur data antar observasi dan tidak berkaitan dengan ketergantungan waktu.

4.3 Uji Multikolinearitas

Uji multikolinearitas dilakukan untuk mengetahui apakah terdapat hubungan yang kuat antar variabel independen dalam model regresi. Multikolinearitas yang tinggi dapat menyebabkan estimasi parameter menjadi tidak stabil dan sulit diinterpretasikan.

Pengujian dilakukan menggunakan Variance Inflation Factor (VIF).

library(car)

vif(model_fit)

##          citric_acid       residual_sugar            chlorides 
##             1.026775             1.356572             1.174291 
## total_sulfur_dioxide              alcohol 
##             1.350116             1.571960

Interpretasi nilai VIF adalah sebagai berikut:

VIF < 10 : tidak terdapat masalah multikolinearitas
VIF ≥ 10 : terdapat indikasi multikolinearitas tinggi

Berdasarkan hasil perhitungan VIF, seluruh variabel independen memiliki nilai VIF yang lebih kecil dari 10. Hal ini menunjukkan bahwa tidak terdapat masalah multikolinearitas yang serius antar variabel independen dalam model regresi.

4.4 Uji Heteroskedastisitas

Uji heteroskedastisitas digunakan untuk mengetahui apakah variansi residual bersifat konstan pada seluruh tingkat variabel independen. Jika variansi residual tidak konstan, maka terjadi heteroskedastisitas yang dapat mempengaruhi efisiensi estimasi parameter.

Pengujian dilakukan menggunakan Breusch–Pagan Test.

bptest(model_fit)

## 
##  studentized Breusch-Pagan test
## 
## data:  model_fit
## BP = 196.02, df = 5, p-value < 2.2e-16

Hipotesis yang diuji adalah:

\[ H_0 : \text{Variansi residual konstan (homoskedastisitas)} \]

\[ H_1 : \text{Variansi residual tidak konstan (heteroskedastisitas)} \]

Kriteria pengujian:

Jika p-value > 0.05, maka gagal menolak \(H_0\) sehingga tidak terdapat heteroskedastisitas.
Jika p-value ≤ 0.05, maka terdapat heteroskedastisitas pada model.

Berdasarkan hasil pengujian, nilai p-value lebih kecil dari 0.05, sehingga dapat disimpulkan bahwa model regresi mengalami masalah heteroskedastisitas dan variansi residual tidak konstan pada seluruh tingkat variabel independen.

4.5 Diagnostik Visual Residual

Diagnostik visual residual dilakukan untuk melengkapi pengujian asumsi klasik yang telah dilakukan sebelumnya dengan menggunakan grafik diagnostik model regresi. Grafik ini membantu mengevaluasi pola residual, normalitas, serta pengaruh pengamatan ekstrem terhadap model.

par(mfrow=c(2,2))
plot(model_fit)

Residuals vs Fitted Plot ini digunakan untuk melihat apakah terdapat pola tertentu pada residual terhadap nilai prediksi. Pada grafik terlihat bahwa sebagian besar titik tersebar di sekitar garis nol, namun terdapat beberapa pengamatan dengan residual yang cukup besar. Hal ini menunjukkan adanya indikasi ketidakkonstanan varians pada beberapa titik pengamatan.

Normal Q-Q Plot Grafik Q-Q digunakan untuk mengevaluasi apakah residual mengikuti distribusi normal. Dari grafik terlihat bahwa sebagian besar titik berada di sekitar garis diagonal, namun terdapat penyimpangan pada bagian ekor distribusi. Hal ini mengindikasikan bahwa residual tidak sepenuhnya berdistribusi normal, yang sejalan dengan hasil uji normalitas sebelumnya.

Scale-Location Plot Plot ini digunakan untuk melihat kestabilan variansi residual. Pada grafik terlihat bahwa sebagian besar titik tersebar relatif merata, namun terdapat sedikit peningkatan variasi pada beberapa nilai fitted tertentu. Hal ini menunjukkan adanya indikasi heteroskedastisitas pada model.

Residuals vs Leverage Plot ini digunakan untuk mengidentifikasi pengamatan yang memiliki pengaruh besar terhadap model. Terlihat beberapa titik dengan nilai leverage yang relatif lebih tinggi dibandingkan pengamatan lainnya, namun sebagian besar masih berada dalam batas Cook’s Distance sehingga tidak menunjukkan pengaruh yang sangat ekstrem terhadap model.

Secara keseluruhan, grafik diagnostik ini mendukung hasil pengujian asumsi klasik sebelumnya yang menunjukkan adanya beberapa penyimpangan terhadap asumsi model, terutama terkait normalitas residual dan heteroskedastisitas. Namun demikian, model regresi masih dapat memberikan gambaran hubungan antar variabel yang cukup baik.

5. Representasi Matriks Model

Model regresi linear berganda juga dapat dinyatakan dalam bentuk representasi matriks. Bentuk matriks ini mempermudah penulisan model ketika jumlah observasi cukup besar serta menjadi dasar dalam proses estimasi parameter menggunakan metode Ordinary Least Squares (OLS).

Model dalam bentuk matriks dinyatakan sebagai:

\[ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \]

dengan:

\(\mathbf{Y}\) adalah vektor variabel dependen yang berisi nilai density untuk setiap observasi.
\(\mathbf{X}\) adalah matriks variabel independen yang terdiri dari kolom konstanta (intercept) serta variabel penjelas yang digunakan dalam model.
\(\boldsymbol{\beta}\) adalah vektor parameter regresi yang berisi koefisien untuk setiap variabel independen.
\(\boldsymbol{\varepsilon}\) adalah vektor error atau residual yang merepresentasikan selisih antara nilai pengamatan dan nilai yang diprediksi oleh model.

Dimensi dari masing-masing komponen matriks pada data yang digunakan adalah:

\(\mathbf{Y}\) berukuran 4898 × 1
\(\mathbf{X}\) berukuran 4898 × 6
\(\boldsymbol{\beta}\) berukuran 6 × 1
\(\boldsymbol{\varepsilon}\) berukuran 4898 × 1

Matriks \(\mathbf{X}\) terdiri dari satu kolom konstanta (intercept) dan lima variabel independen, yaitu citric_acid, residual_sugar, chlorides, total_sulfur_dioxide, dan alcohol. Dengan demikian, setiap baris pada matriks \(\mathbf{X}\) merepresentasikan satu observasi wine dengan nilai dari masing-masing variabel penjelas.

Representasi matriks ini menjadi dasar dalam perhitungan estimasi parameter regresi menggunakan metode OLS, yang secara umum diperoleh melalui persamaan:

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y} \]

Persamaan tersebut digunakan untuk memperoleh nilai koefisien regresi yang meminimalkan jumlah kuadrat residual pada model.

6. Perhitungan Manual Estimator

Estimator parameter pada model regresi linear berganda dapat dihitung secara manual menggunakan pendekatan matriks melalui metode Ordinary Least Squares (OLS). Metode ini bertujuan untuk memperoleh nilai parameter yang meminimalkan jumlah kuadrat residual antara nilai pengamatan dan nilai prediksi model.

Secara matematis, estimator parameter dinyatakan sebagai:

\[ \hat{\boldsymbol{\beta}} = (X'X)^{-1} X'Y \]

dengan:

\(X\) merupakan matriks variabel independen yang telah mencakup kolom konstanta (intercept),
\(Y\) merupakan vektor variabel dependen,
\((X'X)^{-1}\) merupakan invers dari hasil perkalian matriks \(X'X\).

Implementasi perhitungan estimator tersebut dalam perangkat lunak R dilakukan sebagai berikut:

X <- model.matrix(model_fit)
y <- matrix(wine$density)

beta_hat <- solve(t(X) %*% X) %*% t(X) %*% y
beta_hat

##                               [,1]
## (Intercept)           1.002688e+00
## citric_acid           1.176889e-03
## residual_sugar        3.487977e-04
## chlorides             2.037504e-03
## total_sulfur_dioxide  5.039731e-06
## alcohol              -1.148310e-03

Hasil perhitungan tersebut menghasilkan vektor koefisien regresi \(\hat{\boldsymbol{\beta}}\) yang berisi nilai parameter untuk intercept dan masing-masing variabel independen dalam model.

Hasil estimasi parameter yang diperoleh melalui perhitungan matriks \((X'X)^{-1}X'Y\) identik dengan koefisien yang dihasilkan oleh fungsi lm() pada R. Hal ini menunjukkan bahwa metode Ordinary Least Squares telah diterapkan dengan benar serta memverifikasi bahwa prosedur estimasi parameter pada model regresi yang digunakan telah sesuai dengan teori yang mendasarinya.

6.1 Plot Residual vs Fitted (Manual)

Plot Residual vs Fitted digunakan untuk mengevaluasi apakah model regresi telah memenuhi asumsi linearitas dan homoskedastisitas. Pada grafik tersebut, residual diharapkan menyebar secara acak di sekitar garis nol tanpa membentuk pola tertentu.

wine <- wine %>%
  mutate(
    yhat = X %*% beta_hat,
    residual_manual = density - yhat
  )

ggplot(wine, aes(x = yhat, y = residual_manual)) +
  geom_point() +
  ylab("Residual") +
  xlab("Fitted Value") +
  theme_bw()

Residual vs Fitted Berdasarkan Perhitungan Manual

Berdasarkan grafik yang diperoleh, sebagian besar residual tersebar di sekitar nilai nol dengan pola yang relatif acak. Hal ini menunjukkan bahwa model regresi yang digunakan secara umum telah mampu menangkap hubungan linear antara variabel independen dan variabel respon.

Namun demikian, terdapat beberapa titik pengamatan yang berada cukup jauh dari kumpulan titik utama sehingga dapat dianggap sebagai observasi yang berpotensi outlier. Selain itu, penyebaran residual yang sedikit melebar pada beberapa nilai fitted mengindikasikan adanya kemungkinan ketidakstabilan variansi residual, yang konsisten dengan hasil uji heteroskedastisitas sebelumnya.

Secara keseluruhan, plot ini menunjukkan bahwa meskipun model mampu menangkap pola utama data, masih terdapat beberapa penyimpangan yang perlu diperhatikan dalam interpretasi hasil regresi.

7. Uji Hipotesis Simultan

Uji hipotesis simultan dilakukan untuk mengetahui apakah variabel independen secara bersama-sama memiliki pengaruh yang signifikan terhadap variabel dependen dalam model regresi.

Hipotesis yang diuji adalah:

\[ H_0 : \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0 \]

\[ H_1 : \text{Minimal satu } \beta_j \neq 0 \]

Hipotesis nol menyatakan bahwa seluruh variabel independen tidak memiliki pengaruh terhadap variabel density, sedangkan hipotesis alternatif menyatakan bahwa minimal terdapat satu variabel independen yang berpengaruh terhadap density.

Pengujian dilakukan menggunakan uji F dengan membandingkan model penuh dengan model tanpa variabel independen (model intercept saja).

m2_fit <- lm(density ~ 1, wine)
anova(m2_fit, model_fit)

## Analysis of Variance Table
## 
## Model 1: density ~ 1
## Model 2: density ~ citric_acid + residual_sugar + chlorides + total_sulfur_dioxide + 
##     alcohol
##   Res.Df      RSS Df Sum of Sq     F    Pr(>F)    
## 1   4897 0.043806                                 
## 2   4892 0.003779  5  0.040027 10364 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hasil uji ANOVA menghasilkan nilai statistik F yang sangat besar dengan p-value yang sangat kecil (lebih kecil dari 0.05).

Berdasarkan hasil tersebut, keputusan yang diambil adalah menolak hipotesis nol (\(H_0\)).

Hal ini menunjukkan bahwa secara simultan variabel citric_acid, residual_sugar, chlorides, total_sulfur_dioxide, dan alcohol memiliki pengaruh yang signifikan terhadap variabel density.

Dengan demikian, model regresi linear berganda yang digunakan dalam penelitian ini secara keseluruhan layak digunakan untuk menjelaskan variasi nilai density wine berdasarkan variabel fisikokimia yang diamati.

8. Uji Hipotesis Parsial

Uji hipotesis parsial dilakukan untuk mengetahui apakah masing-masing variabel independen memiliki pengaruh yang signifikan terhadap variabel dependen secara individual dengan mengendalikan variabel lain dalam model. Pengujian ini dilakukan menggunakan uji t pada setiap koefisien regresi.

Hipotesis yang diuji untuk setiap variabel adalah:

\[ H_0 : \beta_j = 0 \]

yang berarti bahwa variabel independen ke-\(j\) tidak berpengaruh terhadap density.

\[ H_1 : \beta_j \neq 0 \]

yang berarti bahwa variabel independen ke-\(j\) berpengaruh terhadap density.

8.1 Uji Dua Variabel

Pada bagian ini dilakukan pengujian tambahan dengan membandingkan model yang lebih sederhana dengan model penuh. Model pertama hanya memuat sebagian variabel independen, sedangkan model kedua memuat seluruh variabel dalam model regresi.

m3_fit <- lm(density ~ citric_acid + residual_sugar + alcohol, wine)
anova(m3_fit, model_fit)

## Analysis of Variance Table
## 
## Model 1: density ~ citric_acid + residual_sugar + alcohol
## Model 2: density ~ citric_acid + residual_sugar + chlorides + total_sulfur_dioxide + 
##     alcohol
##   Res.Df       RSS Df  Sum of Sq      F    Pr(>F)    
## 1   4894 0.0039587                                   
## 2   4892 0.0037788  2 0.00017987 116.43 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Berdasarkan hasil analisis variansi, diperoleh nilai F sebesar 116.43 dengan p-value < 2.2e-16. Nilai p-value yang sangat kecil (lebih kecil dari 0.05) menunjukkan bahwa penambahan variabel chlorides dan total_sulfur_dioxide secara simultan memberikan peningkatan yang signifikan terhadap kemampuan model dalam menjelaskan variasi density.

Dengan demikian dapat disimpulkan bahwa kedua variabel tersebut memberikan kontribusi yang signifikan dalam model regresi.

8.2 Uji Satu Variabel

Pengujian parsial untuk masing-masing variabel dilakukan menggunakan hasil estimasi dari fungsi summary() pada model regresi.

summary(model_fit)

## 
## Call:
## lm(formula = density ~ citric_acid + residual_sugar + chlorides + 
##     total_sulfur_dioxide + alcohol, data = wine)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -0.0021263 -0.0005689 -0.0001093  0.0004314  0.0251132 
## 
## Coefficients:
##                        Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)           1.003e+00  1.719e-04 5832.375  < 2e-16 ***
## citric_acid           1.177e-03  1.052e-04   11.191  < 2e-16 ***
## residual_sugar        3.488e-04  2.884e-06  120.939  < 2e-16 ***
## chlorides             2.038e-03  6.229e-04    3.271  0.00108 ** 
## total_sulfur_dioxide  5.040e-06  3.434e-07   14.676  < 2e-16 ***
## alcohol              -1.148e-03  1.280e-05  -89.742  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0008789 on 4892 degrees of freedom
## Multiple R-squared:  0.9137, Adjusted R-squared:  0.9137 
## F-statistic: 1.036e+04 on 5 and 4892 DF,  p-value: < 2.2e-16

Nilai statistik t untuk variabel chlorides adalah 3.271 dengan p-value sebesar 0.00108.

Nilai p-value yang sangat kecil (lebih kecil dari 0.05) menunjukkan bahwa variabel chlorides berpengaruh secara signifikan terhadap density wine dengan asumsi variabel lain dalam model konstan.

Secara umum, hasil uji parsial menunjukkan bahwa beberapa variabel seperti residual_sugar dan alcohol memiliki nilai p-value yang sangat kecil sehingga memberikan pengaruh yang signifikan terhadap density. Variabel residual_sugar cenderung meningkatkan nilai density, sedangkan alcohol menunjukkan hubungan yang berlawanan arah terhadap density.

Sementara itu, variabel lain seperti citric_acid, chlorides, dan total_sulfur_dioxide juga memberikan kontribusi terhadap model, namun besarnya pengaruh relatif berbeda tergantung pada nilai koefisien dan tingkat signifikansi yang diperoleh dari uji statistik.

Hasil ini menunjukkan bahwa karakteristik fisikokimia wine memiliki peran penting dalam menentukan nilai density, dengan beberapa variabel memberikan pengaruh yang lebih dominan dibandingkan variabel lainnya.

9. Kesimpulan

Model regresi linear berganda digunakan untuk menganalisis hubungan antara beberapa variabel fisikokimia wine dengan variabel respon density. Variabel independen yang digunakan dalam model meliputi citric_acid, residual_sugar, chlorides, total_sulfur_dioxide, dan alcohol.

Model akhir yang diperoleh adalah:

\[ \hat{Y} = 1.002688 + 0.001177x_1 + 3.49\times 10^{-4}x_2 + 0.002038x_3 + 5\times 10^{-6}x_4 + -0.001148x_5 \]

Hasil analisis menunjukkan bahwa variabel residual_sugar dan alcohol merupakan faktor yang paling kuat memengaruhi nilai density wine. Variabel residual_sugar memiliki hubungan positif dengan density, yang berarti semakin tinggi kadar gula residual maka densitas wine cenderung meningkat. Sebaliknya, variabel alcohol menunjukkan hubungan negatif terhadap density, sehingga peningkatan kadar alkohol cenderung menurunkan nilai densitas wine.

Kualitas model regresi yang diperoleh tergolong sangat baik. Hal ini ditunjukkan oleh nilai koefisien determinasi sebesar sekitar 0.91, yang berarti sekitar 91% variasi pada density wine dapat dijelaskan oleh variabel-variabel fisikokimia dalam model, sedangkan sisanya dipengaruhi oleh faktor lain yang tidak dimasukkan dalam analisis.

Hasil pengujian asumsi klasik menunjukkan adanya beberapa penyimpangan seperti ketidaknormalan residual dan indikasi heteroskedastisitas. Namun demikian, mengingat jumlah observasi dalam dataset yang sangat besar, pelanggaran tersebut tidak secara signifikan mempengaruhi konsistensi estimasi parameter model. Oleh karena itu, model regresi yang diperoleh masih dapat dianggap cukup layak digunakan untuk menjelaskan hubungan antara karakteristik fisikokimia wine dengan nilai density.

Tugas Komputasi Statistika Lanjut

Analisis Regresi Linear Berganda pada Data Wine

Ridho Akbar Fadhilah (24050123130116)

2026-03-07

1. Deskripsi Data

1.1 Latar Belakang

1.2 Variabel yang Digunakan

2. Eksplorasi Data

2.1 Pair Plot

2.2 Scatter Plot terhadap Density

3. Model Regresi

3.1 Spesifikasi Model

3.2 Estimasi Parameter

3.3 Interpretasi Koefisien

3.4 Goodness of Fit Model

4. Pengujian Asumsi Klasik

4.1 Uji Normalitas Residual

4.2 Uji Autokorelasi

4.3 Uji Multikolinearitas

4.4 Uji Heteroskedastisitas

4.5 Diagnostik Visual Residual

5. Representasi Matriks Model

6. Perhitungan Manual Estimator

6.1 Plot Residual vs Fitted (Manual)

7. Uji Hipotesis Simultan

8. Uji Hipotesis Parsial

8.1 Uji Dua Variabel

8.2 Uji Satu Variabel

9. Kesimpulan