1.1 Sumber Dataset
Dataset yang digunakan dalam analisis ini adalah Wine Quality Dataset yang diunduh dari platform Kaggle. Data ini merupakan kumpulan data publik yang awalnya dikumpulkan untuk menguji sifat fisikokimia sampel varian Red Wine “Vinho Verde” dari wilayah Portugal Utara (https://www.kaggle.com/datasets/yasserh/wine-quality-dataset?resource=download).
1.2 Ukuran Data (Observasi dan Variabel)
Berdasarkan informasi resmi dari halaman dataset, data ini memiliki jumlah bbservasi 1143 baris data dan jumlah variabel 12 kolom variabel.
1.3 Struktur dan Karakteristik Variabel
Dataset ini terdiri dari 11 variabel prediktor bertipe numerik (kondisi fisikokimia wine) dan 1 variabel target kualitas:
fixed acidity (num): Kadar asam utama bawaan dari buah anggur (seperti asam tartarat).
volatile acidity (num): Jumlah asam asetat yang jika terlalu tinggi dapat memicu rasa masam seperti cuka.
citric acid (num): Kandungan asam sitrat dalam jumlah kecil yang memberikan sensasi segar.
residual sugar (num): Sisa kadar gula yang tertinggal setelah proses fermentasi selesai.
chlorides (num): Jumlah kandungan garam di dalam cairan wine.
free sulfur dioxide (num): Bentuk bebas dari SO2 yang berfungsi sebagai antimikroba dan mencegah oksidasi.
total sulfur dioxide (num): Jumlah total unsur SO2; kadar yang terlalu tinggi dapat merusak aroma minuman.
density (num): Massa jenis atau kepadatan air wine (dipengaruhi oleh persentase alkohol dan sisa gula).
pH (num): Tingkat keasaman cairan wine dalam skala pH logaritmik.
sulphates (num): Kadar zat aditif larutan sulfat yang berperan sebagai katalis antimikroba.
alcohol (num): Persentase kadar alkohol berdasarkan volume minuman.
quality (int): Variabel target berupa skor kualitas sensorik wine (rentang 0–10) berdasarkan penilaian panel ahli.
1.4 Tujuan Analisis
Melalui tugas case project ini, dilakukan eksplorasi dan reduksi dimensi data untuk menyederhanakan kompleksitas hubungan multivariat di dalam karakteristik kimia wine. Tujuan khususnya meliputi:
Mengidentifikasi dan mengatasi masalah multikolinearitas karena indikator kimiawi pada wine umumnya saling memengaruhi.
Merancang rekayasa fitur (Feature Engineering) untuk menghasilkan indikator baru yang lebih informatif.
Menerapkan metode seleksi (Feature Selection) dan ekstraksi (Feature Extraction menggunakan PCA) guna meringkas dimensi prediktor tanpa kehilangan informasi penting.
Menemukan kombinasi karakteristik fisikokimia terpenting yang paling menentukan tingkat kualitas dari wine.
2.1 Import Library
library(readxl)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.2
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
library(psych)
## Warning: package 'psych' was built under R version 4.4.3
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
library(car)
## Warning: package 'car' was built under R version 4.4.2
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.4.2
##
## Attaching package: 'car'
## The following object is masked from 'package:psych':
##
## logit
## The following object is masked from 'package:dplyr':
##
## recode
library(knitr)
## Warning: package 'knitr' was built under R version 4.4.2
library(GGally)
## Warning: package 'GGally' was built under R version 4.4.3
2.2 Import Dataset
wine <- read_xls("C:/Users/CLIENT/Downloads/WineQT (1).xls")
head(wine)
## # A tibble: 6 × 13
## `fixed acidity` `volatile acidity` `citric acid` `residual sugar` chlorides
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7.4 0.7 0 1.9 0.076
## 2 7.8 0.88 0 2.6 0.098
## 3 7.8 0.76 0.04 2.3 0.092
## 4 11.2 0.28 0.56 1.9 0.075
## 5 7.4 0.7 0 1.9 0.076
## 6 7.4 0.66 0 1.8 0.075
## # ℹ 8 more variables: `free sulfur dioxide` <dbl>,
## # `total sulfur dioxide` <dbl>, density <dbl>, pH <dbl>, sulphates <dbl>,
## # alcohol <dbl>, quality <dbl>, Id <dbl>
2.3 Dimensi dan Struktur Dataset
dim(wine)
## [1] 1143 13
str(wine)
## tibble [1,143 × 13] (S3: tbl_df/tbl/data.frame)
## $ fixed acidity : num [1:1143] 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 6.7 ...
## $ volatile acidity : num [1:1143] 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.58 ...
## $ citric acid : num [1:1143] 0 0 0.04 0.56 0 0 0.06 0 0.02 0.08 ...
## $ residual sugar : num [1:1143] 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 1.8 ...
## $ chlorides : num [1:1143] 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.097 ...
## $ free sulfur dioxide : num [1:1143] 11 25 15 17 11 13 15 15 9 15 ...
## $ total sulfur dioxide: num [1:1143] 34 67 54 60 34 40 59 21 18 65 ...
## $ density : num [1:1143] 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num [1:1143] 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.28 ...
## $ sulphates : num [1:1143] 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.54 ...
## $ alcohol : num [1:1143] 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 9.2 ...
## $ quality : num [1:1143] 5 5 5 6 5 5 5 7 7 5 ...
## $ Id : num [1:1143] 0 1 2 3 4 5 6 7 8 10 ...
Interpretasi
Dataset WineQT terdiri atas 1.143 observasi dan 13 variabel yang merepresentasikan karakteristik fisikokimia wine merah. Variabel yang diamati meliputi tingkat keasaman, kandungan gula, kandungan sulfur, densitas, pH, kadar alkohol, dan skor kualitas (quality). Keberadaan variabel-variabel tersebut memungkinkan dilakukan analisis komprehensif terhadap faktor-faktor yang berpengaruh terhadap kualitas wine. Seluruh variabel pada dataset bersifat numerik sehingga dapat langsung digunakan dalam analisis statistik tanpa memerlukan transformasi kategorikal.
2.4 Statistik Deskriptif
describe(wine)
## vars n mean sd median trimmed mad min max
## fixed acidity 1 1143 8.31 1.75 7.90 8.13 1.33 4.60 15.90
## volatile acidity 2 1143 0.53 0.18 0.52 0.52 0.18 0.12 1.58
## citric acid 3 1143 0.27 0.20 0.25 0.26 0.25 0.00 1.00
## residual sugar 4 1143 2.53 1.36 2.20 2.26 0.44 0.90 15.50
## chlorides 5 1143 0.09 0.05 0.08 0.08 0.01 0.01 0.61
## free sulfur dioxide 6 1143 15.62 10.25 13.00 14.34 8.90 1.00 68.00
## total sulfur dioxide 7 1143 45.91 32.78 37.00 41.20 26.69 6.00 289.00
## density 8 1143 1.00 0.00 1.00 1.00 0.00 0.99 1.00
## pH 9 1143 3.31 0.16 3.31 3.31 0.15 2.74 4.01
## sulphates 10 1143 0.66 0.17 0.62 0.64 0.12 0.33 2.00
## alcohol 11 1143 10.44 1.08 10.20 10.33 1.04 8.40 14.90
## quality 12 1143 5.66 0.81 6.00 5.60 1.48 3.00 8.00
## Id 13 1143 804.97 464.00 794.00 805.90 596.01 0.00 1597.00
## range skew kurtosis se
## fixed acidity 11.30 1.04 1.37 0.05
## volatile acidity 1.46 0.68 1.36 0.01
## citric acid 1.00 0.37 -0.72 0.01
## residual sugar 14.60 4.35 27.50 0.04
## chlorides 0.60 6.01 46.78 0.00
## free sulfur dioxide 67.00 1.23 1.91 0.30
## total sulfur dioxide 283.00 1.66 5.06 0.97
## density 0.01 0.10 0.87 0.00
## pH 1.27 0.22 0.91 0.00
## sulphates 1.67 2.49 11.93 0.01
## alcohol 6.50 0.86 0.21 0.03
## quality 5.00 0.29 0.30 0.02
## Id 1597.00 -0.01 -1.22 13.72
Interpretasi Statistik Deskriptif
Berdasarkan hasil statistik deskriptif, rata-rata kualitas wine sebesar 5,66 dengan standar deviasi sebesar 0,81. Nilai tersebut menunjukkan bahwa sebagian besar sampel wine berada pada kategori kualitas menengah. Variabel alcohol memiliki rata-rata sebesar 10,44% dengan rentang nilai antara 8,40% hingga 14,90%. Rentang yang cukup lebar menunjukkan adanya variasi kandungan alkohol yang signifikan antar sampel wine.
Beberapa variabel seperti residual sugar, chlorides, sulphates, free sulfur dioxide, dan total sulfur dioxide menunjukkan rentang nilai yang cukup besar serta distribusi yang tidak simetris. Kondisi tersebut mengindikasikan adanya kemungkinan observasi ekstrem atau outlier yang perlu dianalisis lebih lanjut. Secara umum, statistik deskriptif menunjukkan bahwa dataset memiliki variasi yang cukup tinggi sehingga sesuai digunakan untuk proses eksplorasi dan pemodelan statistik.
2.5 Pemeriksaan Missing Value
missing_value <- colSums(is.na(wine))
data.frame(
Variabel = names(missing_value),
Missing_Value = missing_value
)
## Variabel Missing_Value
## fixed acidity fixed acidity 0
## volatile acidity volatile acidity 0
## citric acid citric acid 0
## residual sugar residual sugar 0
## chlorides chlorides 0
## free sulfur dioxide free sulfur dioxide 0
## total sulfur dioxide total sulfur dioxide 0
## density density 0
## pH pH 0
## sulphates sulphates 0
## alcohol alcohol 0
## quality quality 0
## Id Id 0
Interpretasi Missing Value
Hasil pemeriksaan menunjukkan bahwa seluruh variabel memiliki jumlah missing value sebesar nol. Dengan demikian, tidak diperlukan proses imputasi maupun penghapusan observasi sebelum dilakukan analisis lanjutan. Ketiadaan missing value menunjukkan bahwa kualitas dataset sangat baik dan seluruh informasi yang tersedia dapat dimanfaatkan secara optimal dalam proses analisis.
2.6 Distribusi Variabel Alcohol
ggplot(wine, aes(x = alcohol)) +
geom_histogram(bins = 30, fill = "#8B0000", color = "white") +
labs(
title = "Distribusi Kandungan Alcohol",
x = "Alcohol (%)",
y = "Frekuensi"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
Interpretasi
Distribusi kandungan alkohol menunjukkan pola yang relatif mendekati distribusi normal dengan konsentrasi terbesar berada pada rentang 9% hingga 11%. Tidak ditemukan penyimpangan distribusi yang sangat ekstrem sehingga variabel alcohol dapat dianggap memiliki sebaran yang cukup representatif untuk digunakan dalam analisis lanjutan.
2.7 Distribusi Variabel Quality
ggplot(wine, aes(x = factor(quality))) +
geom_bar(fill = "#1F4E79") +
labs(
title = "Distribusi Kategori Quality Wine",
x = "Skor Quality",
y = "Jumlah Observasi"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
Interpretasi
Distribusi kualitas wine menunjukkan bahwa sebagian besar observasi terkonsentrasi pada skor kualitas 5 dan 6. Temuan ini menunjukkan bahwa mayoritas sampel dalam dataset termasuk ke dalam kategori kualitas menengah. Kategori kualitas ekstrem seperti skor 3 dan 8 memiliki jumlah observasi yang relatif sedikit. Pola distribusi ini mengindikasikan adanya ketidakseimbangan kelas ringan (mild class imbalance), namun masih berada dalam batas yang dapat diterima untuk analisis statistik.
2.8 Identifikasi Outlier
wine_numeric <- wine %>% select(-Id)
boxplot(wine_numeric, las = 2, main = "Boxplot Seluruh Variabel")
Interpretasi
Visualisasi boxplot menunjukkan adanya sejumlah observasi yang berada di luar batas whisker pada beberapa variabel, khususnya chlorides, residual sugar, sulphates, free sulfur dioxide, dan total sulfur dioxide. Keberadaan outlier mengindikasikan adanya sampel wine yang memiliki karakteristik kimia berbeda secara signifikan dibandingkan mayoritas sampel lainnya. Dalam tahap exploratory data analysis, observasi tersebut tidak dihapus karena masih berpotensi merepresentasikan kondisi nyata yang terjadi pada populasi wine.
2.9 Hubungan Alcohol dan Quality
ggplot(wine, aes(x = alcohol, y = quality)) +
geom_jitter(width = 0.1, height = 0.1, alpha = 0.4, color = "#8B0000") +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(
title = "Hubungan Alcohol dan Quality Wine",
x = "Alcohol (%)",
y = "Quality Score"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
## `geom_smooth()` using formula = 'y ~ x'
Interpretasi
Visualisasi menunjukkan adanya kecenderungan hubungan linier positif antara kadar alkohol dan kualitas wine. Semakin tinggi kandungan alkohol, kualitas wine cenderung meningkat. Hubungan tersebut menunjukkan bahwa alcohol merupakan salah satu variabel yang berpotensi memiliki kontribusi besar dalam menjelaskan variasi kualitas wine.
2.10 Analisis Korelasi
wine_corr <- wine %>% select(-Id)
cor_matrix <- cor(wine_corr)
corrplot(cor_matrix, method = "color", type = "upper", tl.cex = 0.7, number.cex = 0.6)
# Korelasi terhadap Quality
quality_cor <- cor_matrix[, "quality"]
quality_cor <- sort(quality_cor, decreasing = TRUE)
round(quality_cor, 3)
## quality alcohol sulphates
## 1.000 0.485 0.258
## citric acid fixed acidity residual sugar
## 0.241 0.122 0.022
## pH free sulfur dioxide chlorides
## -0.052 -0.063 -0.124
## density total sulfur dioxide volatile acidity
## -0.175 -0.183 -0.407
Interpretasi Korelasi
Hasil analisis korelasi menunjukkan bahwa alcohol memiliki korelasi positif terbesar terhadap quality sebesar 0,485. Temuan ini menunjukkan bahwa peningkatan kandungan alkohol cenderung diikuti oleh peningkatan kualitas wine. Selain alcohol, variabel sulphates dan citric acid juga menunjukkan hubungan positif terhadap kualitas wine.
Sebaliknya, volatile acidity memiliki korelasi negatif terbesar terhadap quality sebesar -0,407. Hal ini menunjukkan bahwa peningkatan kadar asam volatil cenderung menurunkan kualitas wine. Secara keseluruhan, hasil korelasi menunjukkan bahwa kualitas wine dipengaruhi oleh kombinasi beberapa karakteristik fisikokimia yang saling berinteraksi.
2.11 Identifikasi Multikolinearitas
model_vif <- lm(quality ~ . - Id, data = wine)
vif(model_vif)
## `fixed acidity` `volatile acidity` `citric acid`
## 7.780540 1.778704 3.222840
## `residual sugar` chlorides `free sulfur dioxide`
## 1.743237 1.538470 1.906045
## `total sulfur dioxide` density pH
## 2.103748 6.595115 3.393307
## sulphates alcohol
## 1.440741 3.184642
Interpretasi Multikolinearitas
Hasil pengujian menggunakan Variance Inflation Factor (VIF) menunjukkan bahwa sebagian besar variabel memiliki nilai VIF di bawah 5 sehingga tidak menunjukkan adanya multikolinearitas yang serius. Namun demikian, variabel fixed acidity dan density memiliki nilai VIF yang relatif lebih tinggi dibandingkan variabel lainnya. Kondisi tersebut menunjukkan adanya hubungan yang cukup kuat dengan variabel independen lain sehingga berpotensi menghasilkan redundansi informasi. Meskipun demikian, tingkat multikolinearitas yang teridentifikasi masih berada dalam batas yang dapat diterima dan tidak mengganggu proses analisis secara signifikan.
2.12 Kesimpulan EDA
Berdasarkan hasil exploratory data analysis, dataset WineQT memiliki kualitas data yang sangat baik karena tidak ditemukan missing value pada seluruh variabel. Analisis distribusi menunjukkan bahwa sebagian besar sampel wine berada pada kategori kualitas menengah dengan skor kualitas 5 dan 6. Variabel alcohol memiliki hubungan positif paling kuat terhadap kualitas wine, sedangkan volatile acidity memiliki hubungan negatif paling kuat.
Selain itu, ditemukan sejumlah outlier pada beberapa variabel kimia yang menunjukkan adanya heterogenitas karakteristik wine. Hasil pengujian multikolinearitas menunjukkan bahwa sebagian besar variabel tidak mengalami masalah multikolinearitas yang serius. Secara keseluruhan, hasil exploratory data analysis memberikan gambaran yang komprehensif mengenai karakteristik dataset dan menjadi dasar yang kuat untuk melanjutkan analisis pada tahap feature selection.
3.Feature Engineering
3.1 Pengertian
Feature Engineering merupakan proses pembuatan, transformasi, atau modifikasi variabel baru dari variabel yang telah ada dengan tujuan meningkatkan kualitas informasi yang terkandung dalam data. Tahap ini merupakan bagian penting dalam proses analisis data karena dapat membantu mengungkap pola yang tidak terlihat secara langsung pada variabel asli. Selain itu, feature engineering juga dapat meningkatkan interpretabilitas data dan membantu proses seleksi maupun ekstraksi fitur pada tahap selanjutnya.
Pada dataset Wine Quality, sebagian besar variabel menggambarkan karakteristik fisikokimia wine, seperti tingkat keasaman, kandungan sulfur, kadar gula, dan kadar alkohol. Oleh karena itu, dilakukan pembentukan tiga fitur baru yang diharapkan mampu merepresentasikan karakteristik wine secara lebih komprehensif, yaitu Total Acidity Index, Sulfur Effectiveness Ratio, dan Fermentation Efficiency Index.
3.2 Feature 1: Total Acidity Index
Total Acidity Index merupakan fitur yang dibentuk untuk menggambarkan tingkat keasaman total wine dengan menggabungkan beberapa komponen asam yang terdapat dalam dataset.
# Feature 1 : Total Acidity Index
Total_Acidity_Index <-
wine[["fixed acidity"]] +
wine[["volatile acidity"]] +
wine[["citric acid"]]
Total_Acidity_Index
## [1] 8.100 8.680 8.600 12.040 8.100 8.060 8.560 7.950 8.400 7.360
## [11] 6.215 8.700 9.340 8.730 8.300 8.540 9.100 7.440 6.850 8.250
## [21] 7.810 8.445 7.445 9.075 5.770 8.445 8.540 8.760 8.110 9.710
## [31] 8.190 8.980 5.270 9.065 9.720 7.160 7.140 9.340 8.260 11.190
## [41] 8.570 8.000 9.600 8.880 7.785 7.975 7.975 7.375 8.755 8.610
## [51] 9.235 9.850 7.585 7.570 9.125 6.850 8.370 7.080 7.600 9.370
## [61] 8.450 10.130 7.700 8.680 9.370 8.450 6.060 7.575 8.560 8.825
## [71] 9.210 8.825 8.895 7.930 8.895 8.890 7.140 8.550 9.110 10.850
## [81] 8.550 10.110 9.120 8.460 9.390 7.995 8.470 9.530 9.430 8.750
## [91] 9.305 6.190 8.990 9.255 7.975 9.255 5.540 6.770 5.540 9.320
## [101] 6.500 7.490 8.100 10.720 8.130 8.130 7.950 7.950 7.950 7.780
## [111] 7.580 8.580 8.300 8.370 8.260 8.150 8.910 7.540 7.880 7.500
## [121] 8.815 8.590 8.070 7.440 7.890 8.440 7.805 9.550 9.550 10.000
## [131] 7.950 7.610 7.530 9.780 8.270 8.730 9.050 7.020 8.360 8.360
## [141] 8.180 12.400 8.050 10.390 7.790 13.840 13.840 8.520 10.830 8.965
## [151] 9.030 8.615 7.980 9.485 9.045 8.180 8.510 8.190 7.450 9.495
## [161] 8.380 9.990 5.720 8.440 9.070 9.290 7.830 9.905 12.940 8.380
## [171] 15.650 15.650 7.960 7.850 7.960 11.560 7.700 11.930 8.895 8.800
## [181] 10.110 7.295 8.870 10.780 8.460 8.015 8.550 8.500 13.550 8.970
## [191] 8.710 7.480 12.190 8.505 8.505 7.480 12.190 11.070 9.620 12.100
## [201] 8.650 9.620 10.560 10.560 13.000 8.020 9.310 12.550 9.310 11.180
## [211] 7.510 14.160 11.760 11.800 7.790 7.870 8.090 11.760 9.125 9.650
## [221] 8.540 11.130 11.170 8.670 9.770 9.370 8.050 10.850 10.490 10.170
## [231] 10.690 10.690 12.790 11.240 14.290 9.040 8.560 13.125 9.780 8.550
## [241] 13.320 11.760 11.760 12.970 14.960 10.470 9.895 8.365 14.820 6.710
## [251] 7.460 12.430 11.580 12.990 13.640 9.130 9.360 13.140 13.590 14.075
## [261] 14.075 11.585 10.200 8.540 9.860 12.450 10.200 12.685 8.980 8.490
## [271] 8.520 6.500 14.795 10.390 13.130 7.355 12.680 9.685 7.355 13.220
## [281] 12.490 8.440 10.710 13.050 13.450 9.770 7.995 10.830 9.660 9.565
## [291] 11.720 7.700 12.790 7.570 7.470 8.860 11.210 7.470 7.150 10.500
## [301] 9.950 14.270 11.210 8.700 13.320 11.360 13.320 8.970 12.280 7.800
## [311] 13.630 17.045 5.880 13.480 10.070 9.350 12.980 12.980 7.390 11.360
## [321] 7.630 12.590 9.880 10.040 12.840 10.150 9.135 12.355 11.220 9.710
## [331] 12.450 9.540 13.970 10.560 13.420 10.520 9.980 11.130 10.195 11.270
## [341] 10.260 11.560 11.260 11.205 10.090 10.110 9.810 9.700 7.120 11.580
## [351] 8.570 7.860 11.580 9.700 8.570 11.570 11.570 11.160 11.320 11.100
## [361] 12.420 14.340 10.900 11.580 11.650 11.650 9.645 13.590 11.500 10.540
## [371] 10.190 10.120 7.870 10.770 9.560 12.770 12.770 10.810 10.720 9.560
## [381] 10.770 9.165 13.740 12.440 10.030 10.450 10.255 12.100 15.350 10.060
## [391] 8.290 11.400 13.240 7.320 10.070 10.200 6.280 16.635 11.920 16.735
## [401] 13.960 13.790 10.030 8.380 13.960 13.790 9.640 10.790 6.800 12.340
## [411] 10.930 10.640 9.730 9.760 11.400 13.290 13.290 12.770 8.270 5.660
## [421] 9.940 7.480 9.940 10.970 9.905 13.310 9.265 8.535 9.010 9.690
## [431] 11.120 6.850 9.580 14.130 8.140 10.700 12.320 12.080 9.080 8.990
## [441] 10.800 7.490 9.690 9.690 9.500 8.515 9.500 11.220 8.150 11.255
## [451] 8.460 9.540 10.760 10.655 9.540 10.890 10.890 10.890 9.155 9.480
## [461] 7.390 11.520 16.910 10.320 9.540 10.420 11.520 13.090 7.790 7.790
## [471] 8.230 7.830 10.130 9.150 12.090 12.090 9.140 9.140 11.610 9.510
## [481] 9.180 11.510 8.680 9.270 9.110 11.100 9.110 8.400 8.960 10.360
## [491] 9.600 9.800 9.780 5.590 7.670 10.295 12.730 12.050 7.670 7.660
## [501] 8.360 9.905 9.585 7.860 8.080 8.465 12.055 9.805 10.920 8.170
## [511] 9.000 7.760 9.000 9.620 7.710 9.830 8.910 6.990 6.990 7.295
## [521] 10.710 9.905 8.165 7.790 8.460 8.765 8.790 9.690 9.350 9.970
## [531] 12.030 7.990 8.920 7.880 7.990 9.050 8.270 9.050 8.960 8.780
## [541] 7.290 8.970 8.970 9.430 9.830 10.215 9.500 9.890 9.970 9.570
## [551] 7.710 8.630 7.710 10.345 10.340 8.590 8.200 7.705 9.030 7.650
## [561] 7.570 7.100 7.700 10.660 10.800 10.800 9.400 8.200 9.610 7.730
## [571] 8.300 10.910 11.990 9.470 10.110 10.240 9.240 5.685 8.340 9.140
## [581] 9.040 8.050 8.390 7.890 13.950 7.530 13.550 9.910 7.685 5.320
## [591] 7.370 7.860 8.110 7.700 8.255 6.590 12.510 7.260 7.260 10.760
## [601] 7.260 11.550 8.135 7.250 8.240 7.250 10.170 10.170 10.050 10.050
## [611] 10.050 8.800 12.450 7.880 8.240 7.880 7.905 7.490 7.890 9.510
## [621] 8.425 8.315 9.000 9.600 9.790 9.920 7.370 11.940 7.890 10.780
## [631] 7.890 7.860 7.700 9.000 7.700 9.000 9.570 8.135 8.135 7.450
## [641] 8.010 6.660 8.050 10.160 9.840 10.900 9.315 6.205 7.520 9.080
## [651] 9.140 10.380 9.140 9.340 9.180 9.970 9.260 9.340 9.410 8.020
## [661] 8.290 7.220 9.480 6.830 10.660 10.930 9.090 11.220 9.060 9.470
## [671] 9.470 9.060 8.910 11.020 9.230 9.880 7.090 9.240 7.800 7.190
## [681] 9.240 9.360 9.830 11.140 9.540 7.910 9.280 7.720 9.900 10.620
## [691] 8.140 9.900 7.980 7.760 8.210 10.395 8.210 7.720 7.720 8.360
## [701] 10.080 7.090 8.230 8.920 7.480 9.720 9.740 9.650 9.630 9.530
## [711] 8.855 8.210 8.740 9.680 8.550 7.640 12.320 12.320 7.600 8.940
## [721] 8.290 9.430 8.530 7.195 8.290 8.920 9.825 10.810 8.250 9.520
## [731] 9.610 7.580 7.120 7.340 8.380 7.700 10.150 10.160 9.550 6.255
## [741] 9.050 9.110 9.910 8.270 11.000 9.910 12.400 10.000 8.820 11.140
## [751] 9.030 8.490 7.200 11.940 8.970 10.080 8.470 8.950 10.780 9.620
## [761] 8.880 8.880 7.880 9.570 7.360 9.240 8.510 12.550 12.550 10.800
## [771] 8.660 7.630 9.870 7.415 7.415 9.500 9.160 8.160 8.160 8.820
## [781] 7.150 9.810 8.980 11.700 8.830 6.090 8.640 5.900 7.760 7.760
## [791] 7.760 7.610 6.260 8.780 6.770 9.390 7.060 10.760 9.700 8.100
## [801] 7.750 9.130 8.680 11.370 8.060 8.950 8.000 8.900 7.460 7.520
## [811] 7.850 8.830 8.420 10.860 8.610 10.820 6.910 9.150 10.370 9.150
## [821] 9.190 5.790 9.240 10.025 8.920 7.110 8.390 9.900 10.580 8.270
## [831] 8.270 7.110 7.410 6.515 8.880 10.620 7.530 7.570 7.570 9.805
## [841] 10.070 7.385 7.820 7.865 6.850 8.480 8.220 8.710 8.480 8.600
## [851] 9.410 10.830 8.020 8.020 11.170 8.020 7.020 7.470 7.470 10.990
## [861] 8.780 9.790 11.740 11.740 13.480 9.890 8.110 9.830 5.520 8.320
## [871] 8.220 8.625 8.320 7.860 8.350 7.860 8.830 7.170 8.310 9.080
## [881] 8.140 8.210 7.710 8.220 7.820 8.560 8.560 8.310 7.860 7.440
## [891] 9.915 7.320 10.630 9.190 7.820 7.820 11.330 7.620 5.390 7.940
## [901] 6.360 8.280 8.510 8.935 9.300 7.690 8.935 10.490 7.760 7.760
## [911] 8.665 9.610 7.610 12.170 7.900 7.900 8.340 8.935 6.425 7.230
## [921] 7.870 6.300 9.180 5.845 7.630 9.790 8.600 8.370 10.710 7.720
## [931] 7.160 9.390 8.400 6.140 10.540 5.740 9.860 7.400 7.400 7.400
## [941] 7.400 7.130 8.260 8.260 8.930 8.890 10.095 8.035 7.200 6.500
## [951] 6.500 6.500 8.030 8.030 8.030 8.030 12.400 8.880 6.700 7.885
## [961] 7.830 8.275 6.670 6.690 7.970 8.210 12.475 9.290 12.475 7.825
## [971] 8.120 7.740 9.090 9.990 8.640 9.990 9.285 7.800 8.090 8.090
## [981] 8.820 8.820 8.005 9.060 8.110 7.550 6.490 8.860 7.780 8.770
## [991] 9.385 9.475 8.150 7.870 8.800 8.320 7.860 8.890 8.780 6.510
## [1001] 8.750 6.510 7.560 7.270 8.780 10.720 10.910 6.780 10.910 7.970
## [1011] 8.340 8.550 8.340 8.080 7.540 7.020 8.340 8.440 8.480 8.050
## [1021] 8.340 6.660 11.110 10.760 8.005 7.590 7.990 7.680 8.375 7.470
## [1031] 7.890 7.890 8.560 7.200 12.780 7.400 8.420 9.090 8.450 6.910
## [1041] 6.985 7.540 7.490 8.100 7.820 8.100 8.330 10.800 7.480 8.550
## [1051] 6.780 10.900 5.880 10.900 5.880 8.025 9.080 6.250 9.080 8.870
## [1061] 7.815 7.690 6.690 6.180 7.810 6.910 8.500 6.800 7.450 7.670
## [1071] 7.670 8.910 7.030 8.450 7.480 7.660 8.450 7.970 8.480 6.970
## [1081] 7.830 7.950 7.950 7.090 8.330 7.380 6.670 7.530 7.260 7.350
## [1091] 8.680 7.870 7.130 6.905 7.860 8.690 7.300 7.680 6.930 6.800
## [1101] 9.200 7.460 7.590 12.100 8.060 7.770 6.990 8.035 7.730 7.520
## [1111] 7.475 7.860 8.660 8.660 8.660 8.025 8.025 7.390 7.500 8.025
## [1121] 7.690 6.850 7.290 6.920 8.310 6.780 8.420 8.930 7.050 7.620
## [1131] 8.080 6.915 6.950 7.460 8.220 6.520 7.000 6.230 6.940 7.500
## [1141] 6.880 6.550 6.665
Total Acidity Index = fixed acidity + volatile acidity + citric acid
• Fixed Acidity • Volatile Acidity • Citric Acid
Ketiga variabel tersebut sama-sama menggambarkan karakteristik keasaman wine. Fixed acidity menunjukkan kandungan asam utama yang relatif stabil, volatile acidity menunjukkan kandungan asam yang mudah menguap dan dapat memengaruhi aroma, sedangkan citric acid memberikan rasa segar pada wine. Apabila ketiga variabel tersebut dianalisis secara terpisah, informasi mengenai tingkat keasaman total menjadi kurang praktis untuk diinterpretasikan. Oleh karena itu, ketiganya digabungkan menjadi satu indikator yang mampu memberikan gambaran umum mengenai tingkat keasaman wine secara keseluruhan.
Nilai Total Acidity Index yang tinggi menunjukkan bahwa wine memiliki tingkat keasaman yang tinggi. Keasaman merupakan salah satu faktor penting yang memengaruhi kesegaran, stabilitas, dan cita rasa wine. Wine dengan tingkat keasaman yang seimbang umumnya memiliki rasa yang lebih segar dan lebih disukai oleh konsumen. Sebaliknya, nilai yang terlalu tinggi dapat menyebabkan rasa yang terlalu tajam atau asam.
3.3 Feature 2: Sulfur Effectiveness Ratio
Sulfur Effectiveness Ratio merupakan rasio yang menggambarkan efektivitas sulfur dioksida dalam melindungi wine dari kerusakan akibat oksidasi dan aktivitas mikroorganisme.
# Feature 2 : Sulfur Effectiveness Ratio
Sulfur_Effectiveness_Ratio <-
wine[["free sulfur dioxide"]] /
wine[["total sulfur dioxide"]]
Sulfur_Effectiveness_Ratio
## [1] 0.32352941 0.37313433 0.27777778 0.28333333 0.32352941 0.32500000
## [7] 0.25423729 0.71428571 0.50000000 0.23076923 0.27118644 0.31034483
## [13] 0.33980583 0.30357143 0.32394366 0.27027027 0.13432836 0.52500000
## [19] 0.47826087 0.36363636 0.40000000 0.50000000 0.20731707 0.13274336
## [25] 0.26000000 0.27777778 0.20000000 0.43333333 0.13793103 0.36956522
## [31] 0.57142857 0.39130435 0.12307692 0.19298246 0.17391304 0.53333333
## [37] 0.42857143 0.25210084 0.45205479 0.40000000 0.31481481 0.19565217
## [43] 0.36538462 0.17857143 0.24074074 0.36363636 0.36363636 0.40000000
## [49] 0.42105263 0.19148936 0.25581395 0.21428571 0.46666667 0.15000000
## [55] 0.22689076 0.20000000 0.28767123 0.29508197 0.47500000 0.14705882
## [61] 0.29032258 0.27200000 0.33333333 0.30000000 0.14705882 0.29032258
## [67] 0.48235294 0.34782609 0.50000000 0.37142857 0.22000000 0.37142857
## [73] 0.18461538 0.13888889 0.18461538 0.26086957 0.23437500 0.25531915
## [79] 0.10185185 0.47826087 0.25531915 0.20967742 0.27500000 0.11235955
## [85] 0.25000000 0.23076923 0.20588235 0.25000000 0.25000000 0.18750000
## [91] 0.22388060 0.17171717 0.44827586 0.25396825 0.28888889 0.25396825
## [97] 0.42857143 0.15000000 0.42857143 0.22695035 0.22340426 0.40000000
## [103] 0.45454545 0.46376812 0.25252525 0.25252525 0.21875000 0.22480620
## [109] 0.21875000 0.54545455 0.20930233 0.35000000 0.45000000 0.54838710
## [115] 0.29752066 0.28925620 0.14583333 0.17821782 0.40476190 0.25000000
## [121] 0.50000000 0.33333333 0.57142857 0.38775510 0.20000000 0.21052632
## [127] 0.35000000 0.23809524 0.23809524 0.20909091 0.38095238 0.16923077
## [133] 0.12903226 0.30588235 0.20895522 0.10489510 0.16535433 0.42857143
## [139] 0.25000000 0.25000000 0.27272727 0.44444444 0.38709677 0.37500000
## [145] 0.37837838 0.32142857 0.32142857 0.18947368 0.26315789 0.16129032
## [151] 0.43076923 0.24390244 0.21487603 0.26530612 0.26829268 0.22727273
## [157] 0.41379310 0.22222222 0.50000000 0.28571429 0.46031746 0.33333333
## [163] 0.17924528 0.24489796 0.31034483 0.18918919 0.36842105 0.08064516
## [169] 0.25000000 0.25688073 0.41666667 0.41666667 0.26086957 0.31372549
## [175] 0.26086957 0.43243243 0.47058824 0.23809524 0.09302326 0.14285714
## [181] 0.38461538 0.21428571 0.17777778 0.42424242 0.40000000 0.17910448
## [187] 0.28571429 0.46938776 0.18518519 0.42622951 0.40540541 0.25925926
## [193] 0.17391304 0.44262295 0.44262295 0.25925926 0.17391304 0.38461538
## [199] 0.21276596 0.31578947 0.50000000 0.21276596 0.45070423 0.45070423
## [205] 0.51020408 0.54716981 0.40816327 0.33673469 0.40816327 0.37500000
## [211] 0.31250000 0.32075472 0.18518519 0.37142857 0.27586207 0.16129032
## [217] 0.45454545 0.46666667 0.42857143 0.13333333 0.12962963 0.42857143
## [223] 0.41666667 0.14285714 0.19387755 0.22222222 0.36111111 0.35593220
## [229] 0.40540541 0.28735632 0.26000000 0.26000000 0.42857143 0.38461538
## [235] 0.28571429 0.36363636 0.44736842 0.33333333 0.37500000 0.50000000
## [241] 0.41379310 0.42857143 0.42857143 0.18750000 0.40000000 0.32608696
## [247] 0.42307692 0.42105263 0.29870130 0.24545455 0.53125000 0.52727273
## [253] 0.41379310 0.43478261 0.24390244 0.17283951 0.42000000 0.16216216
## [259] 0.40000000 0.16666667 0.16666667 0.45833333 0.33333333 0.44000000
## [265] 0.56521739 0.40425532 0.33333333 0.25000000 0.40740741 0.42592593
## [271] 0.43396226 0.13636364 0.39534884 0.23076923 0.18421053 0.54838710
## [277] 0.26530612 0.21428571 0.54838710 0.29687500 0.24390244 0.55555556
## [283] 0.32142857 0.40000000 0.53061224 0.30232558 0.19480519 0.31578947
## [289] 0.19672131 0.23134328 0.30000000 0.27419355 0.35000000 0.65384615
## [295] 0.66666667 0.25000000 0.25000000 0.66666667 0.39583333 0.18750000
## [301] 0.30000000 0.37142857 0.25000000 0.31818182 0.33333333 0.40740741
## [307] 0.33333333 0.61290323 0.27272727 0.14000000 0.20689655 0.13953488
## [313] 0.18518519 0.43055556 0.37500000 0.25925926 0.48571429 0.48571429
## [319] 0.51428571 0.22727273 0.31343284 0.31578947 0.22727273 0.44615385
## [325] 0.21276596 0.60869565 0.31578947 0.33333333 0.41176471 0.38888889
## [331] 0.28571429 0.75000000 0.31914894 0.48076923 0.36764706 0.17857143
## [337] 0.37500000 0.30000000 0.19354839 0.26086957 0.35294118 0.38888889
## [343] 0.35294118 0.35714286 0.38461538 0.48000000 0.48148148 0.28395062
## [349] 0.30769231 0.31250000 0.36842105 0.38053097 0.31250000 0.28395062
## [355] 0.36842105 0.50000000 0.50000000 0.27272727 0.38461538 0.28571429
## [361] 0.46153846 0.53488372 0.41935484 0.30612245 0.40000000 0.40000000
## [367] 0.22516556 0.35714286 0.31250000 0.45454545 0.26760563 0.19827586
## [373] 0.38823529 0.18181818 0.03571429 0.28571429 0.28571429 0.45454545
## [379] 0.40625000 0.03571429 0.18181818 0.38461538 0.14285714 0.29411765
## [385] 0.42553191 0.29411765 0.25000000 0.30188679 0.40000000 0.35849057
## [391] 0.35714286 0.28571429 0.39130435 0.36000000 0.31111111 0.31818182
## [397] 0.33333333 0.43478261 0.58823529 0.43478261 0.12765957 0.26315789
## [403] 0.37272727 0.41666667 0.12765957 0.26315789 0.33333333 0.25000000
## [409] 0.45238095 0.27027027 0.35714286 0.42857143 0.16216216 0.15454545
## [415] 0.45000000 0.35714286 0.35714286 0.47619048 0.17647059 0.38000000
## [421] 0.28000000 0.15436242 0.28000000 0.20930233 0.27522936 0.25000000
## [427] 0.16666667 0.42857143 0.22222222 0.50000000 0.16923077 0.38461538
## [433] 0.43859649 0.31250000 0.62068966 0.39436620 0.50000000 0.37500000
## [439] 0.14285714 0.13461538 0.28125000 0.36206897 0.33333333 0.33333333
## [445] 0.22580645 0.23809524 0.22580645 0.26315789 0.48837209 0.12790698
## [451] 0.45098039 0.72727273 0.20408163 0.21379310 0.43859649 0.40000000
## [457] 0.40000000 0.40000000 0.35714286 0.35714286 0.16216216 0.25000000
## [463] 0.30985915 0.30000000 0.24137931 0.37735849 0.25000000 0.54761905
## [469] 0.25000000 0.25000000 0.35714286 0.33333333 0.52083333 0.37500000
## [475] 0.40000000 0.40000000 0.38461538 0.38461538 0.41176471 0.38709677
## [481] 0.51724138 0.40816327 0.55172414 0.55172414 0.33333333 0.23026316
## [487] 0.33333333 0.44444444 0.29411765 0.12903226 0.25806452 0.17213115
## [493] 0.19200000 0.40909091 0.32000000 0.25000000 0.26315789 0.29545455
## [499] 0.32000000 0.39130435 0.26190476 0.28571429 0.20370370 0.52631579
## [505] 0.43243243 0.31428571 0.25000000 0.14285714 0.27272727 0.24489796
## [511] 0.45454545 0.37777778 0.45454545 0.33018868 0.28346457 0.38461538
## [517] 0.36734694 0.36363636 0.36363636 0.46551724 0.32432432 0.28571429
## [523] 0.52631579 0.22222222 0.23076923 0.50000000 0.32758621 0.50000000
## [529] 0.75000000 0.20143885 0.20792079 0.42857143 0.21052632 0.38709677
## [535] 0.42857143 0.42500000 0.36363636 0.42500000 0.43750000 0.46808511
## [541] 0.45454545 0.32258065 0.32258065 0.37500000 0.08653846 0.14285714
## [547] 0.42105263 0.25000000 0.25000000 0.16216216 0.25531915 0.21875000
## [553] 0.25531915 0.16083916 0.15972222 0.02272727 0.43750000 0.33333333
## [559] 0.20588235 0.22826087 0.26666667 0.24324324 0.23529412 0.18032787
## [565] 0.32758621 0.32758621 0.17647059 0.21951220 0.19230769 0.19540230
## [571] 0.53846154 0.26923077 0.11666667 0.37500000 0.50000000 0.35714286
## [577] 0.47058824 0.16279070 0.30434783 0.22222222 0.40000000 0.33333333
## [583] 0.26666667 0.28571429 0.29166667 0.57142857 0.46341463 0.15254237
## [589] 0.40909091 0.38095238 0.41666667 0.37500000 0.50000000 0.40540541
## [595] 0.55555556 0.66666667 0.70588235 0.36000000 0.36000000 0.32142857
## [601] 0.67741935 0.50000000 0.09782609 0.45161290 0.30769231 0.45161290
## [607] 0.40909091 0.40909091 0.74545455 0.74545455 0.74545455 0.34042553
## [613] 0.53125000 0.17647059 0.28000000 0.20238095 0.18604651 0.78260870
## [619] 0.58333333 0.43750000 0.72093023 0.85714286 0.53846154 0.43478261
## [625] 0.30000000 0.28571429 0.50000000 0.23232323 0.18604651 0.55555556
## [631] 0.18604651 0.19318182 0.62790698 0.39534884 0.62790698 0.39534884
## [637] 0.25641026 0.48484848 0.48484848 0.61111111 0.15384615 0.66666667
## [643] 0.55737705 0.27272727 0.33333333 0.50000000 0.50000000 0.11290323
## [649] 0.57777778 0.40506329 0.82608696 0.43478261 0.82608696 0.50000000
## [655] 0.68831169 0.71232877 0.14666667 0.50000000 0.52631579 0.34210526
## [661] 0.43939394 0.32000000 0.26388889 0.63636364 0.52941176 0.25000000
## [667] 0.45833333 0.45833333 0.50000000 0.47619048 0.47619048 0.50000000
## [673] 0.60000000 0.55555556 0.39130435 0.50000000 0.69444444 0.47368421
## [679] 0.38888889 0.37500000 0.47368421 0.20353982 0.63043478 0.60000000
## [685] 0.53846154 0.48611111 0.26050420 0.31034483 0.47058824 0.46428571
## [691] 0.72857143 0.47058824 0.63636364 0.50000000 0.70370370 0.66666667
## [697] 0.70370370 0.45588235 0.45588235 0.46341463 0.40000000 0.58333333
## [703] 0.50000000 0.60000000 0.50000000 0.48148148 0.48000000 0.50000000
## [709] 0.58333333 0.63157895 0.34375000 0.70967742 0.42857143 0.42857143
## [715] 0.33027523 0.43478261 0.37500000 0.37500000 0.44444444 0.33333333
## [721] 0.66666667 0.39534884 0.38888889 0.53846154 0.66666667 0.35714286
## [727] 0.31250000 0.29411765 0.74285714 0.59523810 0.53846154 0.50000000
## [733] 0.22641509 0.84210526 0.73333333 0.52941176 0.21428571 0.35294118
## [739] 0.35555556 0.76000000 0.45000000 0.06493506 0.30000000 0.31111111
## [745] 0.57692308 0.30000000 0.37500000 0.43750000 0.40000000 0.35294118
## [751] 0.50000000 0.30000000 0.50000000 0.30000000 0.53846154 0.51351351
## [757] 0.32608696 0.43243243 0.37500000 0.37500000 0.13489209 0.12975779
## [763] 0.44285714 0.54237288 0.62500000 0.33333333 0.60000000 0.53658537
## [769] 0.53658537 0.56756757 0.42105263 0.62500000 0.35483871 0.52941176
## [775] 0.52941176 0.27777778 0.63888889 0.56000000 0.56000000 0.64000000
## [781] 0.26530612 0.41666667 0.30769231 0.40909091 0.42857143 0.41818182
## [787] 0.17142857 0.36250000 0.71428571 0.71428571 0.71428571 0.58333333
## [793] 0.46666667 0.47058824 0.81818182 0.48148148 0.50000000 0.31460674
## [799] 0.50000000 0.47368421 0.55555556 0.40000000 0.44000000 0.46153846
## [805] 0.30851064 0.18604651 0.41772152 0.33802817 0.50000000 0.80000000
## [811] 0.50000000 0.60784314 0.28571429 0.42857143 0.42857143 0.54545455
## [817] 0.22857143 0.23684211 0.44736842 0.23684211 0.51136364 0.15841584
## [823] 0.63157895 0.47619048 0.60416667 0.18181818 0.35714286 0.41666667
## [829] 0.31250000 0.40000000 0.40000000 0.81355932 0.48936170 0.21794872
## [835] 0.23404255 0.45454545 0.26229508 0.09243697 0.09243697 0.26315789
## [841] 0.30000000 0.50000000 0.26829268 0.23437500 0.37500000 0.44444444
## [847] 0.24675325 0.24468085 0.44444444 0.50000000 0.50000000 0.43421053
## [853] 0.54545455 0.54545455 0.46153846 0.54545455 0.58333333 0.53333333
## [859] 0.53333333 0.66666667 0.12658228 0.50000000 0.38636364 0.38636364
## [865] 0.40000000 0.23376623 0.58695652 0.38095238 0.20454545 0.28787879
## [871] 0.25862069 0.53333333 0.28787879 0.61111111 0.41176471 0.61111111
## [877] 0.50000000 0.55000000 0.60000000 0.11627907 0.44117647 0.31250000
## [883] 0.64864865 0.45000000 0.42857143 0.46153846 0.57142857 0.71666667
## [889] 0.17391304 0.45454545 0.33928571 0.70833333 0.51515152 0.50980392
## [895] 0.44444444 0.44444444 0.68421053 0.41176471 0.43333333 0.37500000
## [901] 0.56818182 0.77272727 0.47222222 0.16049383 0.30000000 0.30000000
## [907] 0.16049383 0.33333333 0.51851852 0.51851852 0.40909091 0.24637681
## [913] 0.50000000 0.42553191 0.18181818 0.18181818 0.50000000 0.41666667
## [919] 0.50000000 0.65806452 0.51724138 0.61111111 0.55555556 0.53571429
## [925] 0.35087719 0.26666667 0.30882353 0.27272727 0.24175824 0.42857143
## [931] 0.44444444 0.34146341 0.18681319 0.34782609 0.28125000 0.34782609
## [937] 0.50000000 0.52941176 0.52941176 0.52941176 0.52941176 0.34210526
## [943] 0.18681319 0.18681319 0.46268657 0.24000000 0.25000000 0.36363636
## [949] 0.47500000 0.57692308 0.57692308 0.57692308 0.41935484 0.41935484
## [955] 0.41935484 0.41935484 0.40000000 0.35714286 0.38461538 0.58333333
## [961] 0.17391304 0.24561404 0.15625000 0.14285714 0.40298507 0.53061224
## [967] 0.21428571 0.24074074 0.21428571 0.32258065 0.22222222 0.08571429
## [973] 0.21621622 0.18181818 0.35714286 0.18181818 0.22580645 0.35714286
## [979] 0.31428571 0.31428571 0.23809524 0.23809524 0.23809524 0.40000000
## [985] 0.34782609 0.14285714 0.45454545 0.15151515 0.41666667 0.32203390
## [991] 0.25000000 0.36363636 0.16346154 0.41666667 0.23404255 0.25000000
## [997] 0.23076923 0.26086957 0.36363636 0.74074074 0.66037736 0.74074074
## [1003] 0.31250000 0.42105263 0.36363636 0.13483146 0.20000000 0.44444444
## [1009] 0.20000000 0.56756757 0.15789474 0.24060150 0.15789474 0.41379310
## [1015] 0.70909091 0.45161290 0.26086957 0.49090909 0.56716418 0.38297872
## [1021] 0.17567568 0.44000000 0.57894737 0.30000000 0.38461538 0.37500000
## [1027] 0.33695652 0.36363636 0.19387755 0.56410256 0.51724138 0.53571429
## [1033] 0.47058824 0.69811321 0.30434783 0.52941176 0.31764706 0.40000000
## [1039] 0.46666667 0.53125000 0.46153846 0.35897436 0.64150943 0.57407407
## [1045] 0.59375000 0.57407407 0.40816327 0.33333333 0.50000000 0.52272727
## [1051] 0.31111111 0.58536585 0.17977528 0.58536585 0.17977528 0.21428571
## [1057] 0.45454545 0.46153846 0.45454545 0.50000000 0.32000000 0.39130435
## [1063] 0.52941176 0.38461538 0.44444444 0.33333333 0.15646259 0.53571429
## [1069] 0.53571429 0.43750000 0.43750000 0.32812500 0.42857143 0.41666667
## [1075] 0.50000000 0.42857143 0.41666667 0.68000000 0.35000000 0.54166667
## [1081] 0.70370370 0.24615385 0.24615385 0.65909091 0.35000000 0.51851852
## [1087] 0.39655172 0.47540984 0.52941176 0.47368421 0.35593220 0.80769231
## [1093] 0.50000000 0.46428571 0.81818182 0.38095238 0.44827586 0.42857143
## [1099] 0.57692308 0.34375000 0.63157895 0.57142857 0.65384615 0.38000000
## [1105] 0.70833333 0.66666667 0.59259259 0.64285714 0.62500000 0.60000000
## [1111] 0.65217391 0.57391304 0.23664122 0.23664122 0.23664122 0.60000000
## [1117] 0.60000000 0.61904762 0.46153846 0.60000000 0.59523810 0.44117647
## [1123] 0.54285714 0.60000000 0.33653846 0.30000000 0.60000000 0.55172414
## [1129] 0.48148148 0.65000000 0.34615385 0.48148148 0.32653061 0.70588235
## [1135] 0.56666667 0.64285714 0.74285714 0.61538462 0.72500000 0.73684211
## [1141] 0.72727273 0.76470588 0.72727273
\(Sulfur Effectiveness Ratio = free sulfur dioxide/total sulfur dioxide\)
• Free Sulfur Dioxide • Total Sulfur Dioxide
Sulfur dioksida merupakan zat yang banyak digunakan dalam industri wine sebagai antioksidan dan antimikroba. Namun, tidak seluruh sulfur yang terdapat dalam wine berada dalam bentuk aktif. Free sulfur dioxide merupakan bagian sulfur yang masih aktif dan dapat berfungsi melindungi wine, sedangkan total sulfur dioxide mencakup sulfur aktif maupun sulfur yang telah berikatan dengan senyawa lain. Dengan membuat rasio antara free sulfur dioxide dan total sulfur dioxide, dapat diketahui proporsi sulfur aktif yang masih tersedia dalam wine.
Nilai Sulfur Effectiveness Ratio yang tinggi menunjukkan bahwa sebagian besar sulfur masih berada dalam bentuk aktif sehingga kemampuan wine dalam mencegah oksidasi dan pertumbuhan mikroorganisme menjadi lebih baik. Sebaliknya, nilai rasio yang rendah menunjukkan bahwa sebagian besar sulfur telah berikatan dengan senyawa lain sehingga efektivitas perlindungannya berkurang.
3.4 Feature 3: Fermentation Efficiency Index
Fermentation Efficiency Index merupakan fitur yang digunakan untuk menggambarkan tingkat keberhasilan proses fermentasi pada wine.
# Feature 3 : Fermentation Efficiency Index
Fermentation_Efficiency_Index <-
wine$alcohol /
(wine[["residual sugar"]] + 1)
Fermentation_Efficiency_Index
## [1] 3.2413793 2.7222222 2.9696970 3.3793103 3.2413793 3.3571429 3.6153846
## [8] 4.5454545 3.1666667 3.2857143 3.8076923 3.5000000 3.7500000 3.2857143
## [15] 2.9393939 3.6538462 2.8484848 2.8529412 3.8750000 3.3928571 3.2413793
## [22] 3.2666667 2.9705882 2.9696970 3.2857143 1.4769231 3.1764706 3.1290323
## [29] 1.5217391 2.4473684 2.9166667 3.2187500 4.2258065 2.8750000 3.4074074
## [36] 2.9375000 3.0322581 2.3500000 2.6842105 2.1818182 3.0303030 2.7647059
## [43] 2.8750000 3.3214286 3.2666667 1.9292035 1.9292035 4.1153846 3.6206897
## [50] 3.2758621 2.9677419 3.2812500 3.1470588 3.3666667 3.6400000 3.5384615
## [57] 3.0333333 3.6785714 3.1562500 3.4137931 3.3103448 3.0645161 3.2142857
## [64] 3.2758621 3.4137931 3.3103448 4.3750000 2.6750000 2.8000000 3.1034483
## [71] 3.2903226 3.1034483 2.9677419 2.9375000 2.9677419 3.4444444 3.4444444
## [78] 3.3928571 3.0625000 2.9393939 3.3928571 3.2812500 3.4482759 3.3333333
## [85] 3.4062500 2.6285714 3.6538462 4.0370370 3.8928571 3.7500000 3.1333333
## [92] 3.9393939 3.0937500 3.3103448 3.0666667 3.3103448 5.0000000 3.4814815
## [99] 5.0000000 3.3571429 3.5714286 3.0909091 3.3225806 2.1363636 3.6071429
## [106] 3.6071429 1.6153846 1.6153846 1.6153846 2.9062500 3.2068966 3.2000000
## [113] 4.0000000 3.7037037 1.1325301 1.1463415 3.5185185 3.2903226 3.4615385
## [120] 3.3548387 3.2500000 3.0666667 3.9655172 3.8000000 3.1666667 3.1818182
## [127] 2.7428571 2.7941176 2.7941176 3.1000000 2.6571429 3.3214286 3.2068966
## [134] 3.2333333 3.0666667 3.1666667 2.4102564 3.3793103 3.0312500 3.0312500
## [141] 3.0000000 3.3666667 3.6774194 4.2916667 3.5384615 3.0000000 3.0000000
## [148] 2.5405405 4.1333333 2.6315789 3.1562500 2.8823529 1.5909091 3.6666667
## [155] 2.8437500 3.3448276 3.1333333 3.1333333 3.8000000 3.3333333 2.9166667
## [162] 3.1666667 4.6923077 3.5357143 2.5263158 2.7272727 3.1034483 3.4444444
## [169] 3.5161290 3.5000000 2.8750000 2.8750000 3.3000000 3.2758621 3.3000000
## [176] 3.8461538 3.5357143 2.5609756 3.2758621 2.2142857 2.8750000 2.9677419
## [183] 3.3571429 2.9166667 3.4444444 3.1333333 3.7037037 3.3214286 3.2058824
## [190] 2.2790698 2.7826087 2.3500000 2.0200000 2.1400000 2.1400000 2.3500000
## [197] 2.0200000 1.7027027 1.5909091 2.0217391 2.2000000 1.5909091 2.2272727
## [204] 2.2272727 3.4333333 2.5750000 3.0285714 2.1395349 3.0285714 2.7837838
## [211] 2.9705882 2.2619048 2.7142857 2.7500000 3.2000000 2.9393939 2.9722222
## [218] 4.0400000 2.7777778 2.9677419 2.9375000 2.7941176 2.7941176 3.1333333
## [225] 2.5000000 2.3500000 3.0555556 2.7380952 2.6666667 2.2045455 0.7666667
## [232] 0.7666667 2.4731183 2.0909091 2.6944444 3.5483871 3.3428571 2.7727273
## [239] 4.3103448 2.7105263 2.9696970 3.5000000 3.5000000 2.9722222 3.0000000
## [246] 2.6315789 2.6111111 2.7352941 2.2413793 4.9583333 3.7647059 2.7500000
## [253] 2.9620253 2.5365854 2.7222222 3.1333333 2.7500000 2.8571429 3.4000000
## [260] 1.4705882 1.4705882 2.5000000 3.5294118 3.3461538 3.7857143 2.7500000
## [267] 3.5294118 1.8472222 3.1333333 2.9677419 3.1724138 5.3750000 2.5641026
## [274] 3.1666667 2.5000000 1.1123596 3.0555556 2.8484848 1.1123596 2.9166667
## [281] 2.8378378 2.4594595 3.0857143 2.7000000 1.7454545 2.7142857 3.2068966
## [288] 1.5194805 2.5675676 1.2236842 3.6562500 3.6206897 3.4666667 3.5357143
## [295] 3.7272727 3.6333333 3.5483871 3.7272727 3.6774194 3.6551724 4.0434783
## [302] 3.0588235 3.5483871 2.8750000 2.8787879 2.3571429 2.8787879 3.4000000
## [309] 2.6666667 3.7200000 3.0625000 2.3829787 4.6296296 2.9166667 3.6129032
## [316] 3.4000000 2.8421053 2.8421053 3.7037037 2.9473684 4.2692308 2.1612903
## [323] 3.1212121 2.5945946 2.8125000 3.4242424 2.5833333 2.9677419 3.8333333
## [330] 3.8888889 2.9677419 4.4545455 2.9444444 3.3529412 2.8888889 3.1875000
## [337] 3.2333333 3.9285714 2.7297297 0.5575758 3.0789474 2.9375000 3.4482759
## [344] 3.5714286 2.8333333 3.8000000 3.7222222 2.9000000 1.3010753 3.0555556
## [351] 3.1034483 3.1714286 3.0555556 2.9000000 3.1034483 1.5894040 1.5894040
## [358] 3.8571429 3.2051282 3.8571429 2.8787879 3.0000000 3.1875000 3.1290323
## [365] 3.4705882 3.4705882 1.3098592 2.2452830 2.7096774 2.7027027 2.6857143
## [372] 2.7941176 3.2571429 2.7647059 3.3225806 2.7837838 2.7837838 4.1290323
## [379] 2.7027027 3.3225806 2.7647059 3.4516129 1.7647059 1.8211382 2.2325581
## [386] 1.5068493 3.1935484 3.1428571 3.0000000 2.5277778 3.1666667 3.0571429
## [393] 2.8888889 3.0645161 2.6315789 2.7027027 4.4230769 2.1346154 2.0892857
## [400] 2.1346154 2.3962264 3.0000000 2.3589744 2.7297297 2.3962264 3.0000000
## [407] 2.5714286 2.9722222 3.6562500 2.5581395 3.0588235 3.0303030 2.5000000
## [414] 2.5128205 3.0625000 3.0000000 3.0000000 3.4137931 3.2068966 4.6666667
## [421] 2.6944444 4.2592593 2.6944444 2.0000000 1.0449438 3.1000000 3.1612903
## [428] 2.5833333 2.3333333 2.4418605 1.7049180 3.0238095 2.6285714 2.5405405
## [435] 2.9411765 2.9393939 3.0625000 2.8181818 2.1363636 2.1363636 3.2758621
## [442] 1.5454545 2.8437500 2.8437500 2.6571429 2.8181818 2.6571429 2.5675676
## [449] 2.6250000 2.5681818 3.2758621 4.0416667 2.7647059 2.8484848 3.5517241
## [456] 2.8484848 2.8484848 2.8484848 3.4375000 2.9473684 1.1770833 3.0000000
## [463] 1.7529412 3.1578947 2.7941176 2.4102564 3.0000000 4.3750000 4.0000000
## [470] 4.0000000 3.4615385 3.6923077 3.2333333 3.3928571 3.0666667 3.0666667
## [477] 3.5185185 3.5185185 2.9062500 3.0000000 2.7777778 2.2325581 3.1875000
## [484] 3.0153846 3.1388889 2.8484848 3.1388889 3.6153846 3.3571429 2.7222222
## [491] 3.0000000 2.4736842 2.5405405 5.5652174 3.0645161 2.3095238 3.4838710
## [498] 2.5897436 3.0645161 3.0322581 2.6666667 3.7307692 1.4142857 3.3333333
## [505] 2.6250000 3.3142857 2.6578947 2.3750000 2.7222222 2.7777778 3.2000000
## [512] 1.9387755 3.2000000 2.3896104 2.9687500 2.6000000 2.9210526 3.3928571
## [519] 3.3928571 3.0238095 2.9090909 2.5842697 3.0967742 2.5675676 3.1000000
## [526] 3.0645161 2.6571429 2.7352941 2.2115385 2.6388889 2.5675676 3.0645161
## [533] 2.5714286 3.0967742 3.0645161 2.4358974 2.6857143 2.4358974 3.3703704
## [540] 3.6896552 3.7333333 3.0625000 3.0625000 2.6285714 2.5526316 3.2000000
## [547] 3.7037037 2.5000000 2.3750000 2.4102564 2.9393939 3.3103448 2.9393939
## [554] 2.7647059 2.8484848 3.3928571 2.5000000 3.0294118 2.3863636 2.7222222
## [561] 3.1333333 2.8823529 2.8000000 2.8787879 3.1562500 3.1562500 2.3846154
## [568] 2.6944444 2.4615385 2.7714286 3.0000000 3.7878788 2.8333333 2.7428571
## [575] 4.1538462 2.3260870 2.3255814 4.7777778 2.7428571 2.6756757 4.1666667
## [582] 3.1724138 2.7105263 2.9166667 2.8684211 3.6774194 2.9736842 2.2857143
## [589] 3.3448276 4.5161290 3.2666667 2.7105263 3.3333333 2.8157895 3.1142857
## [596] 3.5806452 3.8076923 3.4411765 3.4411765 4.3076923 2.5750000 3.0277778
## [603] 3.1333333 3.5000000 3.5357143 3.5000000 3.2758621 3.2758621 4.3600000
## [610] 4.3600000 4.3600000 3.2285714 3.9259259 2.5675676 2.8108108 2.7714286
## [617] 2.6944444 4.2400000 3.3333333 3.1052632 3.8064516 3.6774194 2.9268293
## [624] 2.0000000 3.0000000 3.0588235 3.2000000 1.2236842 2.9393939 3.2068966
## [631] 2.9393939 3.0625000 3.2424242 3.6764706 3.2424242 3.6764706 3.2777778
## [638] 3.1764706 3.1764706 1.5428571 3.0555556 3.5937500 3.1764706 2.7500000
## [645] 1.0900000 3.1282051 3.7187500 4.4000000 1.0306122 3.4375000 4.2142857
## [652] 3.1818182 4.2142857 3.3939394 3.7931034 3.0909091 2.8750000 3.3939394
## [659] 2.7906977 3.2666667 3.2758621 3.6206897 3.5757576 4.3846154 2.0833333
## [666] 2.7777778 2.5208333 2.3529412 4.0000000 4.2500000 4.2500000 4.0000000
## [673] 3.5000000 3.9032258 3.5862069 3.6451613 3.4242424 3.8275862 3.5769231
## [680] 3.0645161 3.8275862 2.9677419 3.5882353 3.7586207 1.7536232 3.0322581
## [687] 2.5277778 2.4565217 3.6206897 3.4482759 4.1612903 3.6206897 3.7666667
## [694] 3.6153846 3.4814815 4.3600000 3.4814815 3.1333333 3.1333333 3.3666667
## [701] 3.7916667 4.8679245 3.5937500 3.9615385 4.5714286 3.8360656 3.9000000
## [708] 2.6086957 4.5555556 3.4666667 3.2258065 3.8461538 3.7333333 3.9375000
## [715] 6.6842105 3.7142857 3.5000000 3.5000000 3.3870968 3.7272727 3.7500000
## [722] 2.7368421 4.3448276 3.6250000 3.7500000 1.8823529 2.7714286 3.1176471
## [729] 3.5714286 1.7500000 3.4687500 3.6296296 2.8372093 4.7500000 3.9629630
## [736] 3.7142857 4.0370370 3.8571429 3.8333333 3.7941176 3.8484848 3.0333333
## [743] 2.4200000 1.8571429 3.4117647 2.4200000 3.5357143 4.4642857 3.9310345
## [750] 3.4705882 3.9333333 3.0000000 3.6764706 3.4062500 2.8421053 4.4400000
## [757] 1.0109890 2.8918919 3.8000000 1.4864865 1.3225806 1.3225806 3.3928571
## [764] 3.5294118 3.4285714 2.0350877 4.3076923 3.9600000 3.9600000 4.0689655
## [771] 3.8000000 3.8333333 3.7500000 1.6615385 1.6615385 3.7600000 4.0000000
## [778] 3.8709677 3.8709677 3.8750000 4.1290323 3.9000000 2.2093023 3.4838710
## [785] 4.1666667 4.1000000 4.4000000 2.5660377 3.2285714 3.2285714 3.2285714
## [792] 4.2903226 3.6857143 3.7428571 5.1250000 4.1851852 2.9487179 2.7027027
## [799] 3.5862069 4.8571429 1.7230769 4.3703704 4.4074074 3.8000000 1.9361702
## [806] 3.1666667 3.5185185 3.1428571 3.3529412 3.5714286 3.0606061 2.9714286
## [813] 3.5000000 1.6388889 3.8666667 4.0000000 3.5714286 3.0625000 3.5806452
## [820] 3.0625000 4.2909091 4.1612903 3.5757576 3.7037037 3.5428571 3.1578947
## [827] 3.4848485 4.0384615 3.9677419 3.5185185 3.5185185 3.5937500 1.6969697
## [834] 3.6774194 3.2352941 4.3018868 3.5769231 3.5161290 3.5161290 3.4285714
## [841] 2.2321429 3.2727273 3.5428571 3.3928571 3.3928571 3.9200000 3.6333333
## [848] 2.8787879 3.9200000 3.8620690 4.1785714 1.3823529 3.5483871 3.5483871
## [855] 3.7037037 3.5483871 3.7333333 3.3548387 3.3548387 3.5862069 3.1666667
## [862] 4.7391304 4.1071429 4.1071429 2.9428571 2.6111111 1.8039216 3.2000000
## [869] 4.8571429 3.0645161 3.1891892 3.0000000 3.0645161 4.0000000 3.4814815
## [876] 4.0000000 2.7428571 2.2264151 3.4444444 2.7941176 3.7500000 3.7037037
## [883] 3.3030303 3.0625000 3.5000000 3.9583333 3.7586207 3.2857143 1.8965517
## [890] 3.0540541 3.3214286 3.7333333 2.8000000 4.2142857 3.1212121 3.1212121
## [897] 3.4545455 3.1666667 5.3846154 4.5000000 3.8620690 3.1000000 3.6129032
## [904] 2.8787879 1.6438356 3.3448276 2.8787879 4.2592593 3.5862069 3.5862069
## [911] 3.6333333 2.7567568 3.3030303 3.7500000 1.8545455 1.8545455 3.7931034
## [918] 3.5161290 3.6470588 1.7924528 3.9032258 5.0833333 3.5161290 3.9682540
## [925] 3.9000000 3.6129032 2.7878788 3.3793103 2.8857143 3.8333333 3.2000000
## [932] 3.6206897 3.2666667 5.6818182 3.3703704 5.6818182 4.0714286 3.9259259
## [939] 3.9259259 3.9259259 3.9259259 3.3214286 3.1612903 3.1612903 1.9166667
## [946] 3.5925926 3.0000000 3.3333333 3.7058824 3.9583333 3.9583333 3.9583333
## [953] 3.8888889 3.8888889 3.8888889 3.8888889 3.0555556 3.0909091 3.6774194
## [960] 3.3928571 3.5757576 3.5517241 3.6071429 3.6071429 3.1714286 1.4843750
## [967] 4.1805556 2.8857143 4.1805556 4.0689655 3.6296296 3.2812500 3.1612903
## [974] 3.4074074 2.8292683 3.4074074 4.1666667 3.3000000 3.0000000 3.0000000
## [981] 3.1935484 3.1935484 3.3928571 2.0909091 3.4285714 1.4507042 3.7878788
## [988] 3.2352941 4.2608696 3.4000000 3.6730769 3.6730769 3.3000000 3.4687500
## [995] 3.1935484 3.9666667 3.7037037 2.9722222 1.7868852 3.4516129 3.8750000
## [1002] 3.4516129 4.2500000 3.1176471 1.7868852 3.3666667 3.0000000 3.6153846
## [1009] 3.0000000 3.4571429 3.7692308 3.0937500 3.7692308 3.6153846 3.6774194
## [1016] 2.2448980 3.2000000 3.7931034 3.5312500 3.7142857 3.1935484 3.6071429
## [1023] 0.5487805 3.2692308 1.9137931 3.8148148 3.4583333 4.2545455 1.5483871
## [1030] 3.3448276 3.7666667 3.7666667 2.9729730 3.8666667 3.4062500 4.1923077
## [1037] 3.1034483 3.8888889 4.4074074 3.1515152 3.2258065 3.1764706 3.5925926
## [1044] 3.2258065 3.3333333 3.2258065 3.1290323 4.0416667 2.6526316 3.0833333
## [1051] 3.9285714 0.5945946 4.2395833 0.5945946 4.2500000 1.5223881 2.6500000
## [1058] 4.0400000 2.6500000 4.2800000 3.1290323 3.3225806 3.6551724 4.2222222
## [1065] 4.4285714 4.5961538 3.3448276 4.1666667 3.6551724 3.4848485 3.4848485
## [1072] 1.7735849 3.1428571 3.4545455 3.5535714 3.6000000 3.4545455 3.4193548
## [1079] 3.9642857 3.0312500 3.1612903 1.8104575 1.8137255 3.4333333 3.2812500
## [1086] 2.8333333 3.2121212 3.4666667 3.1290323 3.0000000 3.1562500 3.2903226
## [1093] 3.5312500 2.6842105 3.3000000 3.1034483 3.4411765 3.0312500 3.4285714
## [1100] 2.1481481 3.3939394 3.6071429 3.4000000 3.4666667 4.0714286 2.8484848
## [1107] 2.4042553 2.9375000 3.9074074 3.0937500 3.2352941 1.2337662 3.3000000
## [1114] 3.3000000 3.3000000 3.3666667 3.3666667 3.7586207 3.6129032 3.3666667
## [1121] 3.5384615 3.9655172 3.8750000 3.4687500 2.9687500 3.6764706 3.6875000
## [1128] 4.1538462 1.9508197 4.0357143 3.5000000 3.3055556 3.1612903 3.4117647
## [1135] 3.3529412 3.8928571 4.1428571 4.2962963 3.3333333 3.2758621 3.5000000
## [1142] 3.5000000 3.4000000
\(Fermentation Efficiency Index = alcohol/residual sugar+1\)
Variabel Penyusun • Alcohol • Residual Sugar
Alasan Pembuatan Fitur
Selama proses fermentasi, gula akan diubah menjadi alkohol oleh aktivitas ragi. Oleh karena itu, hubungan antara kadar alkohol dan sisa gula dapat digunakan untuk menggambarkan efisiensi fermentasi. Apabila kadar alkohol tinggi dan sisa gula rendah, maka fermentasi dapat dikatakan berlangsung dengan baik. Sebaliknya, apabila kadar gula masih tinggi sementara kadar alkohol rendah, maka fermentasi relatif kurang optimal. Penambahan angka 1 pada penyebut dilakukan untuk menghindari kemungkinan pembagian dengan nol.
Nilai Fermentation Efficiency Index yang tinggi menunjukkan bahwa sebagian besar gula telah berhasil dikonversi menjadi alkohol sehingga proses fermentasi berjalan lebih efektif. Sebaliknya, nilai yang rendah menunjukkan masih terdapat banyak gula yang tersisa sehingga proses fermentasi belum berlangsung secara optimal.
3.5 Kesimpulan Feature Engineering
Pada tahap Feature Engineering berhasil dibentuk tiga fitur baru yang berasal dari kombinasi variabel fisikokimia wine, yaitu Total Acidity Index, Sulfur Effectiveness Ratio, dan Fermentation Efficiency Index. Ketiga fitur tersebut dirancang untuk merepresentasikan aspek penting dalam karakteristik wine, yaitu tingkat keasaman, efektivitas sulfur sebagai bahan pengawet, dan efisiensi proses fermentasi. Fitur-fitur baru ini mampu menyederhanakan informasi yang tersebar pada beberapa variabel asli menjadi indikator yang lebih mudah dipahami dan diinterpretasikan. Selain itu, fitur yang dihasilkan dapat digunakan sebagai masukan pada tahap Feature Selection dan Principal Component Analysis (PCA) sehingga proses eksplorasi dan reduksi data menjadi lebih efektif.
4.Feature Selection
4.1 Pendahuluan
Feature Selection merupakan proses pemilihan variabel yang paling relevan terhadap variabel target dengan tujuan meningkatkan efisiensi model, mengurangi kompleksitas analisis, serta meminimalkan redundansi informasi antar variabel. Pada penelitian ini digunakan dua pendekatan feature selection, yaitu Filter Method berbasis korelasi dan Wrapper Method menggunakan Stepwise Regression. Penggunaan lebih dari satu metode bertujuan untuk memperoleh hasil seleksi yang lebih robust sehingga variabel yang dipilih benar-benar memiliki kontribusi terhadap kualitas wine.
4.2 Metode 1: Correlation-Based Feature Selection
# Korelasi terhadap Variabel Target
wine_filter <- wine %>% select(-Id)
cor_target <- cor(wine_filter)[, "quality"]
cor_target <- sort(abs(cor_target), decreasing = TRUE)
round(cor_target, 3)
## quality alcohol volatile acidity
## 1.000 0.485 0.407
## sulphates citric acid total sulfur dioxide
## 0.258 0.241 0.183
## density chlorides fixed acidity
## 0.175 0.124 0.122
## free sulfur dioxide pH residual sugar
## 0.063 0.052 0.022
# Visualisasi Korelasi
cor_df <- data.frame(Variable = names(cor_target), Correlation = cor_target)
ggplot(cor_df[-1, ], aes(x = reorder(Variable, Correlation), y = Correlation)) +
geom_col(fill = "#1F4E79") +
coord_flip() +
labs(
title = "Korelasi Absolut Variabel terhadap Quality",
x = "Variabel",
y = "Nilai Korelasi"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
# Pemilihan Variabel
selected_filter <- names(cor_target[cor_target > 0.20])
selected_filter
## [1] "quality" "alcohol" "volatile acidity" "sulphates"
## [5] "citric acid"
Interpretasi Correlation-Based Feature Selection
Metode filter melakukan seleksi variabel berdasarkan kekuatan hubungan statistik terhadap variabel target, yaitu quality. Semakin besar nilai korelasi absolut suatu variabel terhadap quality, maka semakin besar pula informasi yang diberikan variabel tersebut dalam menjelaskan variasi kualitas wine.
Hasil analisis menunjukkan bahwa alcohol merupakan variabel dengan korelasi tertinggi terhadap quality sebesar 0,485. Selain itu, volatile acidity, sulphates, dan citric acid juga menunjukkan korelasi yang relatif kuat terhadap kualitas wine. Sebaliknya, beberapa variabel seperti residual sugar, pH, free sulfur dioxide, dan Id memiliki nilai korelasi yang relatif rendah sehingga kontribusinya terhadap kualitas wine dianggap terbatas.
Berdasarkan pendekatan filter method, variabel yang dipertahankan adalah:
alcohol
volatile acidity
sulphates
citric acid
Sedangkan variabel dengan kontribusi relatif rendah dapat dipertimbangkan untuk dieliminasi pada tahap pemodelan.
4.3 Metode 2: Stepwise Regression
# Model Regresi Lengkap
full_model <- lm(quality ~ . - Id, data = wine)
summary(full_model)
##
## Call:
## lm(formula = quality ~ . - Id, data = wine)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.49977 -0.36903 -0.04658 0.43956 2.00117
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.155e+01 2.477e+01 0.870 0.384551
## `fixed acidity` 2.297e-02 3.025e-02 0.759 0.447770
## `volatile acidity` -1.129e+00 1.407e-01 -8.023 2.56e-15 ***
## `citric acid` -1.319e-01 1.730e-01 -0.762 0.446105
## `residual sugar` 1.351e-02 1.846e-02 0.732 0.464278
## chlorides -1.708e+00 4.974e-01 -3.434 0.000616 ***
## `free sulfur dioxide` 2.369e-03 2.553e-03 0.928 0.353547
## `total sulfur dioxide` -2.785e-03 8.386e-04 -3.321 0.000926 ***
## density -1.745e+01 2.529e+01 -0.690 0.490284
## pH -4.082e-01 2.229e-01 -1.832 0.067280 .
## sulphates 8.752e-01 1.335e-01 6.555 8.44e-11 ***
## alcohol 2.801e-01 3.126e-02 8.963 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6405 on 1131 degrees of freedom
## Multiple R-squared: 0.3742, Adjusted R-squared: 0.3682
## F-statistic: 61.49 on 11 and 1131 DF, p-value: < 2.2e-16
# Backward Elimination
step_model <- step(full_model, direction = "backward", trace = FALSE)
summary(step_model)
##
## Call:
## lm(formula = quality ~ `volatile acidity` + chlorides + `total sulfur dioxide` +
## pH + sulphates + alcohol, data = wine)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.39129 -0.36418 -0.04493 0.44053 1.96637
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.3956338 0.4576069 9.606 < 2e-16 ***
## `volatile acidity` -1.0946197 0.1170859 -9.349 < 2e-16 ***
## chlorides -1.8180779 0.4656545 -3.904 0.00010 ***
## `total sulfur dioxide` -0.0023307 0.0005899 -3.951 8.27e-05 ***
## pH -0.4614237 0.1337199 -3.451 0.00058 ***
## sulphates 0.8456648 0.1283469 6.589 6.76e-11 ***
## alcohol 0.2949277 0.0193572 15.236 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6398 on 1136 degrees of freedom
## Multiple R-squared: 0.3729, Adjusted R-squared: 0.3695
## F-statistic: 112.6 on 6 and 1136 DF, p-value: < 2.2e-16
# Variabel Terpilih
formula(step_model)
## quality ~ `volatile acidity` + chlorides + `total sulfur dioxide` +
## pH + sulphates + alcohol
# Koefisien Model Akhir
coef(summary(step_model))
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.395633809 0.4576068639 9.605699 4.653647e-21
## `volatile acidity` -1.094619685 0.1170859345 -9.348857 4.551186e-20
## chlorides -1.818077881 0.4656545205 -3.904349 1.000419e-04
## `total sulfur dioxide` -0.002330712 0.0005899333 -3.950806 8.268925e-05
## pH -0.461423730 0.1337199115 -3.450673 5.797283e-04
## sulphates 0.845664808 0.1283468894 6.588900 6.764497e-11
## alcohol 0.294927659 0.0193571922 15.236076 7.773219e-48
Interpretasi Stepwise Regression
Metode Stepwise Regression merupakan pendekatan wrapper yang melakukan proses seleksi berdasarkan performa model regresi. Variabel yang tidak memberikan kontribusi signifikan terhadap model akan dieliminasi secara bertahap hingga diperoleh kombinasi variabel yang paling optimal.
Berdasarkan hasil seleksi, model akhir mempertahankan enam variabel yaitu:
volatile acidity
chlorides
total sulfur dioxide
pH
sulphates
alcohol
Keenam variabel tersebut memiliki kontribusi yang signifikan terhadap kualitas wine berdasarkan hasil pengujian statistik pada model regresi. Variabel alcohol memiliki koefisien positif terbesar sehingga menunjukkan bahwa peningkatan kadar alkohol berasosiasi dengan peningkatan kualitas wine. Sebaliknya, volatile acidity memiliki koefisien negatif yang cukup besar sehingga peningkatan kadar asam volatil cenderung menurunkan kualitas wine. Model akhir menghasilkan nilai Adjusted R-Squared sekitar 0,37 yang menunjukkan bahwa sekitar 37% variasi kualitas wine dapat dijelaskan oleh kombinasi variabel yang dipertahankan dalam model.
4.4 Perbandingan Hasil Feature Selection
# Ringkasan Variabel Terpilih
comparison <- data.frame(
Method = c("Correlation-Based", "Stepwise Regression"),
Selected_Variables = c(
"alcohol, volatile acidity, sulphates, citric acid",
"volatile acidity, chlorides, total sulfur dioxide, pH, sulphates, alcohol"
)
)
comparison
## Method
## 1 Correlation-Based
## 2 Stepwise Regression
## Selected_Variables
## 1 alcohol, volatile acidity, sulphates, citric acid
## 2 volatile acidity, chlorides, total sulfur dioxide, pH, sulphates, alcohol
Interpretasi Perbandingan
Hasil seleksi menunjukkan bahwa alcohol, volatile acidity, dan sulphates dipilih oleh kedua metode. Temuan tersebut mengindikasikan bahwa ketiga variabel tersebut merupakan faktor yang paling konsisten dalam menjelaskan kualitas wine.
Perbedaan hasil seleksi muncul karena kedua metode memiliki mekanisme yang berbeda. Correlation-Based Feature Selection hanya mempertimbangkan hubungan langsung antara masing-masing variabel dengan quality, sedangkan Stepwise Regression mempertimbangkan kontribusi variabel dalam konteks model secara keseluruhan. Oleh karena itu, hasil Stepwise Regression cenderung lebih representatif dalam menggambarkan kombinasi variabel yang optimal untuk pemodelan statistik.
4.5 Kesimpulan Feature Selection
Berdasarkan dua metode feature selection yang digunakan, diperoleh sejumlah variabel yang secara konsisten menunjukkan kontribusi terhadap kualitas wine. Variabel alcohol, volatile acidity, dan sulphates dipilih oleh kedua metode sehingga dapat dianggap sebagai variabel paling penting dalam menjelaskan variasi kualitas wine.
Metode Correlation-Based Feature Selection menghasilkan empat variabel utama yaitu alcohol, volatile acidity, sulphates, dan citric acid. Sementara itu, Stepwise Regression menghasilkan enam variabel yaitu volatile acidity, chlorides, total sulfur dioxide, pH, sulphates, dan alcohol.
Secara keseluruhan, hasil feature selection menunjukkan bahwa karakteristik kimia tertentu memiliki pengaruh yang lebih dominan terhadap kualitas wine dibandingkan variabel lainnya. Oleh karena itu, variabel yang terpilih dapat digunakan sebagai dasar dalam pembangunan model prediktif pada tahap analisis selanjutnya.
# 1. Load Library yang Dibutuhkan
library(readxl)
library(dplyr)
library(ggplot2)
library(factoextra) # Library utama untuk visualisasi plot PCA (Scree Plot & Biplot)
## Warning: package 'factoextra' was built under R version 4.4.3
## Welcome to factoextra!
## Want to learn more? See two factoextra-related books at https://www.datanovia.com/en/product/practical-guide-to-principal-component-methods-in-r/
# 2. Import Dataset Asli
wine <- read_xls("C:/Users/CLIENT/Downloads/WineQT (1).xls")
# INTEGRASI PROSES NOMOR 3: FEATURE ENGINEERING
wine$Total_Acidity_Index <- wine[["fixed acidity"]] + wine[["volatile acidity"]] + wine[["citric acid"]]
wine$Sulfur_Effectiveness_Ratio <- wine[["free sulfur dioxide"]] / wine[["total sulfur dioxide"]]
wine$Fermentation_Efficiency_Index <- wine$alcohol / (wine[["residual sugar"]] + 1)
# FEATURE EXTRACTION USING PCA (Data Seluruh Variabel)
# A. Menyiapkan Data untuk PCA Global
data_pca_all <- wine %>% select(-Id, -quality)
# B. Eksekusi PCA menggunakan prcomp
# Variabel scale = TRUE wajib diaktifkan karena karakteristik fisikokimia memiliki satuan & skala yang berbeda.
pca_all_result <- prcomp(data_pca_all, center = TRUE, scale = TRUE)
# C. Menampilkan Ringkasan Hasil PCA (Varians Komponen)
print("--- RINGKASAN VARIANS KOMPONEN UTAMA (ALL VARIABLES) ---")
## [1] "--- RINGKASAN VARIANS KOMPONEN UTAMA (ALL VARIABLES) ---"
summary(pca_all_result)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.0661 1.5172 1.2917 1.17003 1.06278 1.02410 0.84138
## Proportion of Variance 0.3049 0.1644 0.1192 0.09778 0.08068 0.07491 0.05057
## Cumulative Proportion 0.3049 0.4693 0.5885 0.68631 0.76699 0.84190 0.89246
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.78959 0.65886 0.45118 0.33765 0.26394 0.24637
## Proportion of Variance 0.04453 0.03101 0.01454 0.00814 0.00498 0.00434
## Cumulative Proportion 0.93700 0.96800 0.98254 0.99069 0.99566 1.00000
## PC14
## Standard deviation 2.894e-15
## Proportion of Variance 0.000e+00
## Cumulative Proportion 1.000e+00
# D. Menampilkan Loading Factor (Rotasi Variabel Asli ke Komponen Utama)
print("--- LOADING FACTOR KOMPONEN (ALL VARIABLES) ---")
## [1] "--- LOADING FACTOR KOMPONEN (ALL VARIABLES) ---"
print(round(pca_all_result$rotation, 3))
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## fixed acidity 0.430 0.177 0.072 0.105 -0.149 -0.182 0.160
## volatile acidity -0.131 -0.333 0.358 -0.085 0.124 -0.200 0.676
## citric acid 0.363 0.237 -0.240 0.000 -0.087 0.141 -0.018
## residual sugar 0.193 -0.324 -0.159 0.484 0.302 0.242 0.072
## chlorides 0.159 -0.062 -0.089 -0.499 0.533 -0.025 0.206
## free sulfur dioxide -0.051 -0.297 -0.577 -0.001 -0.155 -0.400 0.041
## total sulfur dioxide 0.036 -0.418 -0.396 -0.217 -0.423 0.138 0.154
## density 0.386 -0.198 0.184 0.049 0.081 -0.142 -0.211
## pH -0.359 -0.101 0.022 0.154 0.152 0.166 -0.189
## sulphates 0.145 0.161 -0.329 -0.340 0.411 0.188 -0.060
## alcohol -0.129 0.336 -0.278 0.372 0.062 0.316 0.538
## Total_Acidity_Index 0.433 0.161 0.078 0.092 -0.139 -0.178 0.216
## Sulfur_Effectiveness_Ratio -0.161 0.183 -0.242 0.282 0.324 -0.664 -0.070
## Fermentation_Efficiency_Index -0.266 0.428 -0.032 -0.288 -0.224 -0.116 0.139
## PC8 PC9 PC10 PC11 PC12 PC13 PC14
## fixed acidity 0.160 -0.051 0.244 0.003 0.324 -0.159 0.685
## volatile acidity 0.225 0.047 -0.399 0.069 -0.052 -0.027 0.070
## citric acid -0.140 -0.369 -0.738 0.101 -0.103 0.003 0.077
## residual sugar -0.150 0.141 0.084 0.623 0.078 0.023 0.000
## chlorides -0.386 -0.398 0.273 -0.036 0.061 0.010 0.000
## free sulfur dioxide 0.089 -0.097 0.088 0.033 -0.331 -0.505 0.000
## total sulfur dioxide 0.063 -0.025 0.029 -0.072 0.345 0.519 0.000
## density 0.383 -0.242 0.160 0.004 -0.536 0.431 0.000
## pH 0.456 -0.633 -0.010 0.045 0.344 -0.147 0.000
## sulphates 0.566 0.425 -0.110 0.003 0.069 -0.059 0.000
## alcohol 0.083 -0.113 0.212 -0.315 -0.278 0.143 0.000
## Total_Acidity_Index 0.159 -0.083 0.114 0.020 0.291 -0.153 -0.721
## Sulfur_Effectiveness_Ratio -0.051 0.041 -0.157 -0.072 0.234 0.404 0.000
## Fermentation_Efficiency_Index 0.108 -0.100 0.160 0.695 -0.126 0.179 0.000
# VISUALISASI PCA (Scree Plot & Biplot - Seluruh Variabel)
# 1. Scree Plot: Menentukan berapa banyak PC yang optimal disimpan berdasarkan persentase varians
fviz_eig(pca_all_result, addlabels = TRUE, barfill = "#1F4E79",
title = "Scree Plot: Persentase Varians (Semua Variabel)") +
geom_hline(yintercept = (100 / length(pca_all_result$sdev)),
col = "red", linetype = "dashed", size = 1)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
# 2. Biplot PCA: Melihat sebaran proyeksi data dan arah kontribusi variabel asli pada PC1 & PC2
fviz_pca_var(pca_all_result,
col.var = "contrib", # Gradasi warna ditentukan berdasarkan tingkat kontribusi variabel
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE, # Menghindari teks tumpang tindih pada plot
title = "PCA Biplot - Kontribusi Karakteristik Fisikokimia Wine")
# FEATURE EXTRACTION USING PCA (Data Variabel Terpilih)
# INTEGRASI PROSES NOMOR 4: PCA BERDASARKAN VARIABEL HASIL SELEKSI (REKOMENDASI)
# Menggabungkan variabel konsisten terpenting dari nomor 4 (alcohol, volatile acidity, sulphates, chlorides, total sulfur dioxide, pH, citric acid) serta menyertakan fitur baru yang telah Anda buat di nomor 3.
data_pca_selected <- wine %>%
select(
`alcohol`,
`volatile acidity`,
`sulphates`,
`citric acid`,
`chlorides`,
`total sulfur dioxide`,
`pH`,
Total_Acidity_Index,
Fermentation_Efficiency_Index
)
# Eksekusi PCA untuk Variabel Terpilih
pca_selected_result <- prcomp(data_pca_selected, center = TRUE, scale = TRUE)
print("--- RINGKASAN VARIANS KOMPONEN UTAMA (VARIABEL TERPILIH TAHAP 4) ---")
## [1] "--- RINGKASAN VARIANS KOMPONEN UTAMA (VARIABEL TERPILIH TAHAP 4) ---"
summary(pca_selected_result)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.6775 1.3232 1.0823 0.9921 0.81924 0.79958 0.70846
## Proportion of Variance 0.3126 0.1945 0.1301 0.1094 0.07457 0.07104 0.05577
## Cumulative Proportion 0.3126 0.5072 0.6373 0.7467 0.82129 0.89232 0.94809
## PC8 PC9
## Standard deviation 0.56809 0.38005
## Proportion of Variance 0.03586 0.01605
## Cumulative Proportion 0.98395 1.00000
print("--- LOADING FACTOR KOMPONEN (VARIABEL TERPILIH TAHAP 4) ---")
## [1] "--- LOADING FACTOR KOMPONEN (VARIABEL TERPILIH TAHAP 4) ---"
print(round(pca_selected_result$rotation, 3))
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## alcohol 0.080 0.574 0.002 0.150 0.646 0.270 0.215
## volatile acidity 0.279 -0.440 -0.039 -0.343 0.429 0.492 -0.199
## sulphates -0.278 0.182 -0.638 0.056 0.132 -0.109 -0.668
## citric acid -0.514 0.191 0.086 0.145 0.075 0.015 0.253
## chlorides -0.256 -0.221 -0.618 -0.310 0.048 0.038 0.596
## total sulfur dioxide -0.035 -0.346 -0.153 0.809 -0.054 0.411 0.043
## pH 0.478 0.117 -0.176 0.138 0.230 -0.356 0.088
## Total_Acidity_Index -0.487 -0.007 0.340 -0.190 0.174 0.216 -0.197
## Fermentation_Efficiency_Index 0.206 0.474 -0.178 -0.172 -0.536 0.574 -0.006
## PC8 PC9
## alcohol -0.314 0.081
## volatile acidity 0.186 -0.330
## sulphates -0.009 -0.055
## citric acid 0.472 -0.615
## chlorides -0.025 0.218
## total sulfur dioxide 0.056 0.156
## pH 0.685 0.227
## Total_Acidity_Index 0.342 0.616
## Fermentation_Efficiency_Index 0.232 0.034
# Scree Plot untuk PCA Variabel Terpilih
fviz_eig(pca_selected_result, addlabels = TRUE, barfill = "#8B0000",
title = "Scree Plot: Varians PC (Variabel Terpilih)") +
geom_hline(yintercept = (100 / length(pca_selected_result$sdev)),
col = "darkgreen", linetype = "longdash", size = 1)
# Biplot untuk PCA Variabel Terpilih
fviz_pca_var(pca_selected_result, col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE,
title = "PCA Biplot - Proyeksi Variabel Hasil Seleksi & Rekayasa")
5.1 Analisis PCA Global (Semua Variabel)
A. Interpretasi Variasi Komponen (Scree Plot)
Berdasarkan tabel ringkasan varians (summary(pca_all_result)) dan gambar Scree Plot pertama, PC1 merangkum 30,5% varians data, sedangkan PC2 merangkum 16,4% varians. Secara kumulatif, kombinasi PC1 dan PC2 mampu menjelaskan 46,93% dari total variabilitas data fisikokimia wine.
Kriteria Penentuan PC (Kaiser Criterion): Garis putus-putus merah pada Scree Plot menunjukkan batas eigenvalue > 1 (setara dengan rata-rata varians \(\frac{100\%}{14} \approx 7,14\%\)). Komponen yang berada di atas garis ini adalah PC1 hingga PC6. Keenam komponen ini secara kumulatif mampu menjelaskan 84,19% varians data, sehingga optimal untuk disimpan jika ingin mereduksi dimensi tanpa kehilangan banyak informasi.
B. Interpretasi Loading Factor & Biplot (PC1 & PC2)
Melihat nilai rotasi komponen dan sebaran grafik PCA Biplot, arah PC1 (Dim1 - Horisontal), didominasi kuat secara positif oleh Total_Acidity_Index (0,433), fixed acidity (0,430), density (0,386), dan citric acid (0,363). Sementara itu, pH (-0,359) berkontribusi kuat ke arah negatif. Hal ini logis secara kimiawi, semakin tinggi indeks keasaman (acidity), nilai pH justru semakin rendah. Arah PC2 (Dim2 - Vertikal), didominasi oleh fitur rekayasa baru Fermentation_Efficiency_Index (0,428) dan alcohol (0,336) di area positif, serta total sulfur dioxide (-0,418) dan volatile acidity (-0,333) di area negatif. Gradasi warna oranye/merah pada Biplot menunjukkan bahwa variabel keasaman (fixed acidity, citric acid, Total Acidity Index) serta komponen fermentasi (alcohol, Fermentation Efficiency Index) memiliki kontribusi terbesar dalam membedakan karakteristik antar sampel wine.
5.2 Analisis PCA Berdasarkan Variabel Hasil Seleksi & Rekayasa (Rekomendasi Tahap 4)
Untuk meningkatkan efisiensi model, analisis kedua dilakukan hanya menggunakan 9 variabel pilihan yang paling relevan (termasuk fitur baru dari nomor 3).
A. Interpretasi Variasi Komponen (Scree Plot Terpilih)
Berdasarkan tabel ringkasan varians (summary(pca_selected_result)) dan Scree Plot kedua, PC1 menjelaskan 31,3% varians, dan PC2 menjelaskan 19,5% varians. Proporsi kumulatif lebih baik, karena hanya dengan menggunakan PC1 dan PC2, kita sudah bisa menangkap 50,72% varians data (meningkat dari model global yang hanya 46,93%).
Kriteria Penentuan PC: Batas eigenvalue > 1 pada model ini adalah \(\frac{100\%}{9} \approx 11,1\%\) (garis putus-putus hijau). Berdasarkan infografis, hanya PC1, PC2, dan PC3 yang berada di atas garis atau mendekati batas tersebut. Ketiga komponen ini secara kumulatif sudah mencakup 63,73% informasi.
B. Interpretasi Loading Factor & Biplot Terpilih
Karakteristik PC1 (Dim1) masih merepresentasikan kluster keasaman vs kebasaan. Variabel pH berkorelasi positif kuat (0,478), sedangkan citric acid (-0,514) dan Total_Acidity_Index (-0,487) mengarah kuat ke sisi negatif. Sampel wine di sebelah kiri grafik memiliki karakteristik asam yang pekat, sedangkan di sebelah kanan memiliki pH lebih tinggi. Karakteristik PC2 (Dim2) menyoroti aspek alkohol dan sulfur. Variabel alcohol (0,574) dan Fermentation_Efficiency_Index (0,474) menjulang kuat ke atas (positif), berbanding terbalik dengan volatile acidity (-0,440) dan total sulfur dioxide (-0,346) yang mengarah ke bawah. Dari visualisasi warna biplot, fitur baru seperti Fermentation_Efficiency_Index dan Total_Acidity_Index terbukti menjadi pembeda (extractor) yang kuat karena garis panahnya panjang dan mendekati lingkaran luar (korelasi tinggi dengan komponen utama).
Kesimpulan Akhir Analisis PCA
Metode PCA berhasil mengekstraksi informasi kompleks dari data fisikokimia wine. Dibandingkan dengan menggunakan seluruh variabel (14 dimensi), PCA dengan 9 variabel terpilih jauh lebih direkomendasikan karena struktur data menjadi lebih bersih dan tidak redundan, dua dimensi utama (PC1 & PC2) mampu menangkap informasi di atas 50%, serta fitur baru (Total_Acidity_Index dan Fermentation_Efficiency_Index) terbukti memiliki kontribusi yang tinggi dan dominan dalam membentuk komponen utama.
Berdasarkan hasil Exploratory Data Analysis (EDA), Feature Engineering, Feature Selection, dan Principal Component Analysis (PCA) pada dataset Wine Quality, diperoleh beberapa temuan penting sebagai berikut.
6.1 Variabel yang Paling Penting
Berdasarkan analisis korelasi, feature selection, dan PCA, variabel yang paling berpengaruh terhadap kualitas wine adalah:
Memiliki korelasi positif terbesar terhadap kualitas wine sebesar 0,485.
Dipilih oleh metode Correlation-Based Selection dan Stepwise Regression.
Memiliki loading tinggi pada komponen utama PCA.
Menunjukkan bahwa semakin tinggi kadar alkohol, kualitas wine cenderung semakin baik.
Memiliki korelasi negatif terbesar terhadap kualitas wine sebesar -0,407.
Dipilih oleh kedua metode feature selection.
Menjadi variabel penting pada PC2.
Menunjukkan bahwa peningkatan kadar asam volatil cenderung menurunkan kualitas wine karena dapat menghasilkan aroma menyerupai cuka.
Dipilih secara konsisten oleh kedua metode seleksi fitur.
Berkontribusi dalam pembentukan komponen utama PCA.
Berperan dalam meningkatkan stabilitas dan kualitas wine.
Total Acidity Index
Fermentation Efficiency Index
Kedua fitur baru memiliki loading yang tinggi pada PCA dan terbukti mampu menjelaskan karakteristik wine dengan lebih baik dibandingkan penggunaan variabel asli secara terpisah.
6.2 Apakah Reduksi Dimensi Berhasil?
Ya, reduksi dimensi berhasil dilakukan.
Hasil PCA menunjukkan bahwa:
PC1 menjelaskan 30,49% variasi data.
PC2 menjelaskan 16,44% variasi data.
PC1 dan PC2 secara kumulatif menjelaskan 46,93% informasi data.
Enam komponen utama pertama mampu menjelaskan 84,19% variasi data.
PC1 menjelaskan 31,26% variasi data.
PC2 menjelaskan 19,45% variasi data.
PC1 dan PC2 mampu menjelaskan 50,72% variasi data.
Tiga komponen utama pertama sudah menjelaskan 63,73% informasi data.
Dengan demikian, jumlah variabel berhasil dikurangi dari banyak variabel fisikokimia menjadi beberapa komponen utama tanpa kehilangan sebagian besar informasi penting. Model PCA pada variabel hasil seleksi bahkan memberikan representasi yang lebih efisien dibandingkan PCA global.
6.3 Makna Substantif dari Principal Components
Komponen Utama 1 (PC1): Dimensi Keasaman Wine
PC1 didominasi oleh:
Total Acidity Index
Fixed Acidity
Citric Acid
pH (berlawanan arah)
PC1 menggambarkan tingkat keasaman wine.
Interpretasinya:
Nilai PC1 rendah, artinya wine lebih asam.
Nilai PC1 tinggi, artinya wine memiliki pH lebih tinggi dan tingkat keasaman lebih rendah.
Komponen ini merepresentasikan karakteristik kimia dasar yang membedakan struktur keasaman antar sampel wine.
Komponen Utama 2 (PC2): Dimensi Fermentasi dan Kandungan Alkohol
PC2 didominasi oleh:
Alcohol
Fermentation Efficiency Index
Volatile Acidity
Total Sulfur Dioxide
PC2 menggambarkan efisiensi fermentasi dan kualitas proses produksi wine.
Interpretasi:
Nilai PC2 tinggi menunjukkan kadar alkohol tinggi dan fermentasi yang lebih efektif.
Nilai PC2 rendah menunjukkan kadar sulfur dan volatile acidity yang lebih tinggi. Komponen ini berkaitan erat dengan kualitas sensorik wine yang dihasilkan.
6.4 Insight yang Diperoleh dari Data
Berdasarkan seluruh tahapan analisis, diperoleh beberapa insight utama:
Kualitas wine lebih banyak dipengaruhi oleh kadar alkohol dibandingkan variabel lainnya. Wine dengan kandungan alkohol lebih tinggi cenderung memperoleh skor kualitas yang lebih baik.
Volatile acidity merupakan faktor penghambat kualitas wine. Semakin tinggi kandungan asam volatil, semakin rendah kualitas wine karena dapat menimbulkan aroma dan rasa yang kurang baik.
Karakteristik keasaman merupakan sumber variasi terbesar dalam data. Hal ini terlihat dari dominasi variabel keasaman pada PC1 seperti Total Acidity Index, fixed acidity, citric acid, dan pH.
Efisiensi fermentasi menjadi faktor penting dalam membedakan kualitas wine. Fitur Fermentation Efficiency Index memiliki kontribusi tinggi pada PCA sehingga dapat digunakan sebagai indikator baru yang representatif untuk mengevaluasi proses fermentasi.
Feature engineering berhasil meningkatkan kualitas representasi data. Fitur Total Acidity Index dan Fermentation Efficiency Index terbukti memiliki kontribusi dominan pada komponen utama PCA dan membantu menyederhanakan interpretasi karakteristik wine.
PCA berhasil menyederhanakan struktur data yang kompleks menjadi dua dimensi utama, yaitu dimensi Keasaman (PC1) dan dimensi Fermentasi dan Alkohol (PC2). Kedua dimensi tersebut sudah mampu merepresentasikan sebagian besar informasi penting dalam dataset.
Kesimpulan Akhir
Secara keseluruhan, analisis menunjukkan bahwa alcohol, volatile acidity, sulphates, Total Acidity Index, dan Fermentation Efficiency Index merupakan faktor-faktor yang paling penting dalam menjelaskan karakteristik dan kualitas wine. Reduksi dimensi menggunakan PCA berhasil menyederhanakan data multivariat menjadi dua dimensi utama yang merepresentasikan keasaman wine dan efisiensi fermentasi, dengan kemampuan menjelaskan lebih dari 50% variasi data pada model variabel terpilih. Hasil ini menunjukkan bahwa kombinasi Feature Engineering, Feature Selection, dan PCA efektif digunakan untuk mengekstraksi informasi penting dari data fisikokimia wine sehingga analisis menjadi lebih ringkas, informatif, dan mudah diinterpretasikan.