Το dataset wines_SPA.csv περιέχει πληροφορίες για κρασιά από την Ισπανία, συμπεριλαμβανομένων μεταβλητών όπως οι παραγωγοί, οι περιοχές, οι βαθμολογίες, οι τιμές και οι τεχνικές παράμετροι (π.χ. σώμα, οξύτητα). Το dataset καλύπτει μια ευρεία γκάμα ισπανικών κρασιών, από διάσημες ετικέτες (π.χ. Vega Sicilia) έως λιγότερο γνωστές.
Η ΠΗΓΗ του dataset είναι διαθέσιμα στο Kaggle.https://www.kaggle.com/datasets/fedesoriano/spanish-wine-quality-dataset
Αυτό το dataset είναι ιδανικό για επιχειρηματική αναλυτική στον τομέα της οινοπαραγωγής και της διανομής κρασιών, καθώς:
Περιλαμβάνει οικονομικές πληροφορίες (τιμές, βαθμολογίες) που μπορούν να χρησιμοποιηθούν για ανάλυση αξίας και ανταγωνιστικότητας. Καλύπτει μια συγκεκριμένη γεωγραφική περιοχή για μια ενδελεχός έρευνα Περιγράφει τεχνικές παραμέτρους (σώμα, οξύτητα) που επηρεάζουν την ποιότητα και την αγοραστική συμπεριφορά.
Ποια κρασιά έχουν τις υψηλότερες βαθμολογίες και τιμές; Πώς συσχετίζονται η βαθμολογία και η τιμή με τον τύπο ή την περιοχή; (Ανάλυση αξίας ανά κατηγορία) Υπάρχει συσχέτιση μεταξύ σώματος, οξύτητας και βαθμολογίας; (Ποιότητα και προτιμήσεις καταναλωτών) Ποιοι οινοπαραγωγοί έχουν τα περισσότερα κρασιά με υψηλή αξιολόγηση; (Ανάλυση ανταγωνιστών)
##Διάβασμα dataset
wine_data <- read.csv("/Users/mariakommata/Downloads/wines_SPA.csv")
##Περιγραφή των μεταβλητών (τύπος, εύρος τιμών, μονάδες μέτρησης)
| Μεταβλητή | Τύπος |
|---|---|
| winery | Χαρακτήρας (οινοποιείο) |
| wine | Κατηγορική |
| year | Αριθμητικό |
| rating | Αριθμητικό |
| num_reviews | Αριθμητικό |
| country | Χαρακτήρας |
| region | Χαρακτήρας |
| price | Αριθμητικό (Τιμή) |
| type | Κατηγορική |
| body | Αριθμητικό |
| acidity | Αριθμητικό |
summary(wine_data)
## winery wine year rating
## Length:7500 Length:7500 Length:7500 Min. :4.200
## Class :character Class :character Class :character 1st Qu.:4.200
## Mode :character Mode :character Mode :character Median :4.200
## Mean :4.255
## 3rd Qu.:4.200
## Max. :4.900
##
## num_reviews country region price
## Min. : 25.0 Length:7500 Length:7500 Min. : 4.99
## 1st Qu.: 389.0 Class :character Class :character 1st Qu.: 18.90
## Median : 404.0 Mode :character Mode :character Median : 28.53
## Mean : 451.1 Mean : 60.10
## 3rd Qu.: 415.0 3rd Qu.: 51.35
## Max. :32624.0 Max. :3119.08
##
## type body acidity
## Length:7500 Min. :2.000 Min. :1.000
## Class :character 1st Qu.:4.000 1st Qu.:3.000
## Mode :character Median :4.000 Median :3.000
## Mean :4.158 Mean :2.947
## 3rd Qu.:5.000 3rd Qu.:3.000
## Max. :5.000 Max. :3.000
## NA's :1169 NA's :1169
##Scaterrplot
# Φιλτράρουμε τα κρασιά με έτος (αφαιρούμε NA και "N.V.")
filtered_wines <- wine_data %>%
filter(!is.na(year) & year != "N.V.") %>%
mutate(year = as.numeric(year))
# Δημιουργία scatterplot
scatter_year_price <- ggplot(filtered_wines, aes(x = year, y = price)) +
geom_point(alpha = 0.6, color = "purple") +
geom_smooth(method = "lm", color = "red", se = FALSE) + # Προσθήκη γραμμής τάσης
labs(
title = "Σχέση Έτους Παραγωγής και Τιμής Κρασιών",
x = "Έτος Παραγωγής",
y = "Τιμή (€)",
caption = "Πηγή: wines_SPA.csv"
) +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(scatter_year_price)
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).
##Το scatterplot δείχνει τη σχέση μεταξύ έτους παραγωγής και τιμής. Τα
παλαιότερα κρασιά (πριν το 1980) τείνουν να έχουν υψηλότερες τιμές,
πιθανώς λόγω σπανιότητας ή συλλεκτικής αξίας. Η κόκκινη γραμμή τάσης
δείχνει μια ελαφρά αρνητική συσχέτιση, υποδηλώνοντας ότι, σε γενικές
γραμμές, τα νεότερα κρασιά τείνουν να είναι φθηνότερα.
##Boxplot
top_regions <- wine_data %>%
count(region) %>%
top_n(5, n) %>%
pull(region)
filtered_data <- wine_data %>% filter(region %in% top_regions)
box_plot <- ggplot(filtered_data, aes(x = region, y = price, fill = region)) +
geom_boxplot() +
labs(
title = "Κατανομή Τιμών ανά Περιοχή",
x = "Περιοχή",
y = "Τιμή (€)"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
print(box_plot)
##Το boxplot δείχνει τη κατανομή των τιμών στις 5 πιο δημοφιλείς
περιοχές. Η Ribera del Duero έχει τα υψηλότερα φιλτραρισμένα κρασιά
(outliers >1000€), ενώ η Rioja εμφανίζει μεγαλύτερη διακύμανση. Τα
κρασιά από την Toro έχουν υψηλό μέσο όρο τιμών, αλλά λιγότερες ακραίες
τιμές.
##Histogram
hist_plot <- ggplot(wine_data, aes(x = rating)) +
geom_histogram(binwidth = 0.05, fill = "steelblue", color = "white") +
labs(
title = "Κατανομή Βαθμολογιών Κρασιών",
x = "Βαθμολογία (1-5)",
y = "Συχνότητα"
) +
theme_minimal()
print(hist_plot)
##Το histogram δείχνει ότι οι βαθμολογίες κυμαίνονται κυρίως μεταξύ 4.4 και 4.9.. Η κορυφή βρίσκεται γύρω στο 4.7, γεγονός που υποδηλώνει γενικά υψηλή ποιότητα στο dataset.
##barchart
bar_plot <- wine_data %>%
count(type) %>%
top_n(10, n) %>%
ggplot(aes(x = reorder(type, n), y = n)) +
geom_bar(stat = "identity", fill = "darkgreen") +
coord_flip() +
labs(
title = "Πιο Συχνά Τύποι Κρασιών",
x = "Τύπος Κρασιού",
y = "Αριθμός Κρασιών"
) +
theme_minimal()
print(bar_plot)
##Το bar chart δείχνει τους 10 πιο συχνά εμφανιζόμενους τύπους κρασιών.
Οι Ribera Del Duero Red και Rioja Red κυριαρχούν, ακολουθούμενες από
Toro Red και Priorat Red. Αυτό αντανακλά τη δημοφιλία των κόκκινων
κρασιών από συγκεκριμένες ισπανικές περιοχές.
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.