Περιγραφή του Dataset και Πηγή

Το dataset wines_SPA.csv περιέχει πληροφορίες για κρασιά από την Ισπανία, συμπεριλαμβανομένων μεταβλητών όπως οι παραγωγοί, οι περιοχές, οι βαθμολογίες, οι τιμές και οι τεχνικές παράμετροι (π.χ. σώμα, οξύτητα). Το dataset καλύπτει μια ευρεία γκάμα ισπανικών κρασιών, από διάσημες ετικέτες (π.χ. Vega Sicilia) έως λιγότερο γνωστές.

Η ΠΗΓΗ του dataset είναι διαθέσιμα στο Kaggle.https://www.kaggle.com/datasets/fedesoriano/spanish-wine-quality-dataset

Επιχειρηματική Αναλυτική και Αιτιολόγηση Επιλογής

Αυτό το dataset είναι ιδανικό για επιχειρηματική αναλυτική στον τομέα της οινοπαραγωγής και της διανομής κρασιών, καθώς:

Περιλαμβάνει οικονομικές πληροφορίες (τιμές, βαθμολογίες) που μπορούν να χρησιμοποιηθούν για ανάλυση αξίας και ανταγωνιστικότητας. Καλύπτει μια συγκεκριμένη γεωγραφική περιοχή για μια ενδελεχός έρευνα Περιγράφει τεχνικές παραμέτρους (σώμα, οξύτητα) που επηρεάζουν την ποιότητα και την αγοραστική συμπεριφορά.

Πιθανά Επιχειρηματικά Ερωτήματα που Μπορούν να Απαντηθούν

Ποια κρασιά έχουν τις υψηλότερες βαθμολογίες και τιμές; Πώς συσχετίζονται η βαθμολογία και η τιμή με τον τύπο ή την περιοχή; (Ανάλυση αξίας ανά κατηγορία) Υπάρχει συσχέτιση μεταξύ σώματος, οξύτητας και βαθμολογίας; (Ποιότητα και προτιμήσεις καταναλωτών) Ποιοι οινοπαραγωγοί έχουν τα περισσότερα κρασιά με υψηλή αξιολόγηση; (Ανάλυση ανταγωνιστών)

##Διάβασμα dataset 
wine_data <- read.csv("/Users/mariakommata/Downloads/wines_SPA.csv")

##Περιγραφή των μεταβλητών (τύπος, εύρος τιμών, μονάδες μέτρησης)

Πίνακας Περιγραφής Μεταβλητών για το wine Spanish Dataset
Μεταβλητή Τύπος
winery Χαρακτήρας (οινοποιείο)
wine Κατηγορική
year Αριθμητικό
rating Αριθμητικό
num_reviews Αριθμητικό
country Χαρακτήρας
region Χαρακτήρας
price Αριθμητικό (Τιμή)
type Κατηγορική
body Αριθμητικό
acidity Αριθμητικό

Περιγραφικά Στατιστικά

summary(wine_data)
##     winery              wine               year               rating     
##  Length:7500        Length:7500        Length:7500        Min.   :4.200  
##  Class :character   Class :character   Class :character   1st Qu.:4.200  
##  Mode  :character   Mode  :character   Mode  :character   Median :4.200  
##                                                           Mean   :4.255  
##                                                           3rd Qu.:4.200  
##                                                           Max.   :4.900  
##                                                                          
##   num_reviews        country             region              price        
##  Min.   :   25.0   Length:7500        Length:7500        Min.   :   4.99  
##  1st Qu.:  389.0   Class :character   Class :character   1st Qu.:  18.90  
##  Median :  404.0   Mode  :character   Mode  :character   Median :  28.53  
##  Mean   :  451.1                                         Mean   :  60.10  
##  3rd Qu.:  415.0                                         3rd Qu.:  51.35  
##  Max.   :32624.0                                         Max.   :3119.08  
##                                                                           
##      type                body          acidity     
##  Length:7500        Min.   :2.000   Min.   :1.000  
##  Class :character   1st Qu.:4.000   1st Qu.:3.000  
##  Mode  :character   Median :4.000   Median :3.000  
##                     Mean   :4.158   Mean   :2.947  
##                     3rd Qu.:5.000   3rd Qu.:3.000  
##                     Max.   :5.000   Max.   :3.000  
##                     NA's   :1169    NA's   :1169

Διαγράμματα

##Scaterrplot

# Φιλτράρουμε τα κρασιά με έτος (αφαιρούμε NA και "N.V.")
filtered_wines <- wine_data %>% 
  filter(!is.na(year) & year != "N.V.") %>%
  mutate(year = as.numeric(year))

# Δημιουργία scatterplot
scatter_year_price <- ggplot(filtered_wines, aes(x = year, y = price)) +
  geom_point(alpha = 0.6, color = "purple") +
  geom_smooth(method = "lm", color = "red", se = FALSE) +  # Προσθήκη γραμμής τάσης
  labs(
    title = "Σχέση Έτους Παραγωγής και Τιμής Κρασιών",
    x = "Έτος Παραγωγής",
    y = "Τιμή (€)",
    caption = "Πηγή: wines_SPA.csv"
  ) +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(scatter_year_price)
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).

##Το scatterplot δείχνει τη σχέση μεταξύ έτους παραγωγής και τιμής. Τα παλαιότερα κρασιά (πριν το 1980) τείνουν να έχουν υψηλότερες τιμές, πιθανώς λόγω σπανιότητας ή συλλεκτικής αξίας. Η κόκκινη γραμμή τάσης δείχνει μια ελαφρά αρνητική συσχέτιση, υποδηλώνοντας ότι, σε γενικές γραμμές, τα νεότερα κρασιά τείνουν να είναι φθηνότερα.

##Boxplot

top_regions <- wine_data %>%
  count(region) %>%
  top_n(5, n) %>%
  pull(region)

filtered_data <- wine_data %>% filter(region %in% top_regions)

box_plot <- ggplot(filtered_data, aes(x = region, y = price, fill = region)) +
  geom_boxplot() +
  labs(
    title = "Κατανομή Τιμών ανά Περιοχή",
    x = "Περιοχή",
    y = "Τιμή (€)"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

print(box_plot)

##Το boxplot δείχνει τη κατανομή των τιμών στις 5 πιο δημοφιλείς περιοχές. Η Ribera del Duero έχει τα υψηλότερα φιλτραρισμένα κρασιά (outliers >1000€), ενώ η Rioja εμφανίζει μεγαλύτερη διακύμανση. Τα κρασιά από την Toro έχουν υψηλό μέσο όρο τιμών, αλλά λιγότερες ακραίες τιμές.

##Histogram

hist_plot <- ggplot(wine_data, aes(x = rating)) +
  geom_histogram(binwidth = 0.05, fill = "steelblue", color = "white") +
  labs(
    title = "Κατανομή Βαθμολογιών Κρασιών",
    x = "Βαθμολογία (1-5)",
    y = "Συχνότητα"
  ) +
  theme_minimal()

print(hist_plot)

##Το histogram δείχνει ότι οι βαθμολογίες κυμαίνονται κυρίως μεταξύ 4.4 και 4.9.. Η κορυφή βρίσκεται γύρω στο 4.7, γεγονός που υποδηλώνει γενικά υψηλή ποιότητα στο dataset.

##barchart

bar_plot <- wine_data %>%
  count(type) %>%
  top_n(10, n) %>%
  ggplot(aes(x = reorder(type, n), y = n)) +
  geom_bar(stat = "identity", fill = "darkgreen") +
  coord_flip() +
  labs(
    title = "Πιο Συχνά Τύποι Κρασιών",
    x = "Τύπος Κρασιού",
    y = "Αριθμός Κρασιών"
  ) +
  theme_minimal()

print(bar_plot)

##Το bar chart δείχνει τους 10 πιο συχνά εμφανιζόμενους τύπους κρασιών. Οι Ribera Del Duero Red και Rioja Red κυριαρχούν, ακολουθούμενες από Toro Red και Priorat Red. Αυτό αντανακλά τη δημοφιλία των κόκκινων κρασιών από συγκεκριμένες ισπανικές περιοχές.

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.