#Στο παρόν case study εξετάζεται το πρόβλημα της πρόβλεψης της ποιότητας λευκού κρασιού με βάση φυσικοχημικά χαρακτηριστικά του προϊόντος. Η ποιότητα αποτελεί κρίσιμο δείκτη για τα οινοποιεία, καθώς επηρεάζει την εμπορική αξία, την αποδοχή από τους καταναλωτές και τη στρατηγική τιμολόγησης.

#Το dataset προέρχεται από το UCI Machine Learning Repository και περιλαμβάνει μετρήσεις φυσικοχημικών ιδιοτήτων λευκών κρασιών, καθώς και μια βαθμολογία ποιότητας (quality) που αποδίδεται από ειδικούς.

wine <- read.csv(“winequality-white.csv”, sep = “;”) str(wine) summary(wine)

#Όλες οι μεταβλητές είναι αριθμητικές. Οι ανεξάρτητες μεταβλητές περιγράφουν χημικά χαρακτηριστικά του κρασιού (π.χ. αλκοόλη, οξύτητα, πυκνότητα), ενώ η μεταβλητή quality αποτελεί την εξαρτημένη μεταβλητή και εκφράζει την αντιλαμβανόμενη ποιότητα του προϊόντος.

#Scatterplot: Alcohol vs Quality

plot(wine\(alcohol, wine\)quality, xlab = “Alcohol (%)”, ylab = “Wine Quality”, main = “Alcohol vs Wine Quality”)

#Παρατηρείται θετική σχέση μεταξύ της περιεκτικότητας σε αλκοόλη και της ποιότητας, γεγονός που υποδηλώνει ότι η αλκοόλη αποτελεί σημαντικό παράγοντα αξιολόγησης.

#Boxplot Ποιότητας

boxplot(wine$quality, main = “Boxplot of Wine Quality”, ylab = “Quality Score”)

#Οι περισσότερες παρατηρήσεις συγκεντρώνονται σε μεσαίες τιμές ποιότητας, με περιορισμένο αριθμό ακραίων τιμών.

cor(wine)

#Η μεταβλητή alcohol εμφανίζει τη μεγαλύτερη θετική συσχέτιση με την ποιότητα, ενώ οι υπόλοιπες μεταβλητές παρουσιάζουν ασθενέστερες γραμμικές σχέσεις.

#ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΜΙΑ ΜΕΤΑΒΛΗΤΗ

#Μοντέλο: Quality ~ Alcohol

model_1 <- lm(quality ~ alcohol, data = wine) summary(model_1)

SSE_1 <- sum(resid(model_1)^2) R2_1 <- summary(model_1)$r.squared

SSE_1 R2_1

#ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΠΟΛΛΑΠΛΕΣ ΜΕΤΑΒΛΗΤΕΣ

#Μοντέλο: Quality ~ Alcohol + Density + pH + Volatile Acidity

model_2 <- lm(quality ~ alcohol + density + pH + volatile.acidity, data = wine) summary(model_2)

SSE_2 <- sum(resid(model_2)^2) R2_2 <- summary(model_2)$r.squared

SSE_2 R2_2

#Σύγκριση Μοντέλων (SSE & R-squared)

comparison <- data.frame( Model = c(“Simple Regression (Alcohol)”, “Multiple Regression (Alcohol, Density, pH, Volatile Acidity)”),

SSE = c(SSE_1, SSE_2), R_squared = c(R2_1, R2_2) )

comparison

#Η προσθήκη περισσότερων ανεξάρτητων μεταβλητών μειώνει το SSE και αυξάνει το R-squared, γεγονός που δείχνει βελτίωση της προσαρμογής του μοντέλου στα δεδομένα.

#ΣΥΜΠΕΡΑΣΜΑΤΑ

#Το case study έδειξε ότι η ποιότητα του λευκού κρασιού σχετίζεται με συγκεκριμένα χημικά χαρακτηριστικά, με την αλκοόλη να αποτελεί τον σημαντικότερο μεμονωμένο παράγοντα.

#Η χρήση πολυμεταβλητών μοντέλων βελτιώνει την επεξηγηματική ικανότητα, ωστόσο παραμένει σημαντικό ποσοστό ανεξήγητης διακύμανσης, γεγονός που υποδηλώνει ότι η ποιότητα επηρεάζεται και από παράγοντες που δεν περιλαμβάνονται στο dataset.