#Στο παρόν case study εξετάζεται το πρόβλημα της πρόβλεψης της ποιότητας λευκού κρασιού με βάση φυσικοχημικά χαρακτηριστικά του προϊόντος. Η ποιότητα αποτελεί κρίσιμο δείκτη για τα οινοποιεία, καθώς επηρεάζει την εμπορική αξία, την αποδοχή από τους καταναλωτές και τη στρατηγική τιμολόγησης.
#Το dataset προέρχεται από το UCI Machine Learning Repository και περιλαμβάνει μετρήσεις φυσικοχημικών ιδιοτήτων λευκών κρασιών, καθώς και μια βαθμολογία ποιότητας (quality) που αποδίδεται από ειδικούς.
wine <- read.csv(“winequality-white.csv”, sep = “;”) str(wine) summary(wine)
#Όλες οι μεταβλητές είναι αριθμητικές. Οι ανεξάρτητες μεταβλητές περιγράφουν χημικά χαρακτηριστικά του κρασιού (π.χ. αλκοόλη, οξύτητα, πυκνότητα), ενώ η μεταβλητή quality αποτελεί την εξαρτημένη μεταβλητή και εκφράζει την αντιλαμβανόμενη ποιότητα του προϊόντος.
#Scatterplot: Alcohol vs Quality
plot(wine\(alcohol, wine\)quality, xlab = “Alcohol (%)”, ylab = “Wine Quality”, main = “Alcohol vs Wine Quality”)
#Παρατηρείται θετική σχέση μεταξύ της περιεκτικότητας σε αλκοόλη και της ποιότητας, γεγονός που υποδηλώνει ότι η αλκοόλη αποτελεί σημαντικό παράγοντα αξιολόγησης.
#Boxplot Ποιότητας
boxplot(wine$quality, main = “Boxplot of Wine Quality”, ylab = “Quality Score”)
#Οι περισσότερες παρατηρήσεις συγκεντρώνονται σε μεσαίες τιμές ποιότητας, με περιορισμένο αριθμό ακραίων τιμών.
cor(wine)
#Η μεταβλητή alcohol εμφανίζει τη μεγαλύτερη θετική συσχέτιση με την ποιότητα, ενώ οι υπόλοιπες μεταβλητές παρουσιάζουν ασθενέστερες γραμμικές σχέσεις.
#ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΜΙΑ ΜΕΤΑΒΛΗΤΗ
#Μοντέλο: Quality ~ Alcohol
model_1 <- lm(quality ~ alcohol, data = wine) summary(model_1)
SSE_1 <- sum(resid(model_1)^2) R2_1 <- summary(model_1)$r.squared
SSE_1 R2_1
#ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΠΟΛΛΑΠΛΕΣ ΜΕΤΑΒΛΗΤΕΣ
#Μοντέλο: Quality ~ Alcohol + Density + pH + Volatile Acidity
model_2 <- lm(quality ~ alcohol + density + pH + volatile.acidity, data = wine) summary(model_2)
SSE_2 <- sum(resid(model_2)^2) R2_2 <- summary(model_2)$r.squared
SSE_2 R2_2
#Σύγκριση Μοντέλων (SSE & R-squared)
comparison <- data.frame( Model = c(“Simple Regression (Alcohol)”, “Multiple Regression (Alcohol, Density, pH, Volatile Acidity)”),
SSE = c(SSE_1, SSE_2), R_squared = c(R2_1, R2_2) )
comparison
#Η προσθήκη περισσότερων ανεξάρτητων μεταβλητών μειώνει το SSE και αυξάνει το R-squared, γεγονός που δείχνει βελτίωση της προσαρμογής του μοντέλου στα δεδομένα.
#ΣΥΜΠΕΡΑΣΜΑΤΑ
#Το case study έδειξε ότι η ποιότητα του λευκού κρασιού σχετίζεται με συγκεκριμένα χημικά χαρακτηριστικά, με την αλκοόλη να αποτελεί τον σημαντικότερο μεμονωμένο παράγοντα.
#Η χρήση πολυμεταβλητών μοντέλων βελτιώνει την επεξηγηματική ικανότητα, ωστόσο παραμένει σημαντικό ποσοστό ανεξήγητης διακύμανσης, γεγονός που υποδηλώνει ότι η ποιότητα επηρεάζεται και από παράγοντες που δεν περιλαμβάνονται στο dataset.