Superstore Marketing Campaign Dataset

Το Superstore προετοιμάζει μια προσφορά Gold Membership για την ετήσια εκπτωτική περίοδο.

Η προσφορά:

🔹 Παρέχει 20% έκπτωση σε όλες τις αγορές.

🔹 Κοστίζει $499 αντί για $999 μόνο για υπάρχοντες πελάτες.

🔹 Η προώθηση θα γίνει μέσω τηλεφωνικών κλήσεων.

Το τμήμα marketing θέλει να μειώσει το κόστος της καμπάνιας δημιουργώντας ένα μοντέλο πρόβλεψης, το οποίο θα ταξινομεί τους πελάτες που είναι πιθανό να αποδεχτούν την προσφορά.

Το superstore θέλει να:

🔹 Προβλέψει ποιοι πελάτες θα αποδεχτούν την προσφορά.

🔹 Αναγνωρίσει ποιοι παράγοντες (δημογραφικοί, αγοραστικοί, προηγούμενες καμπάνιες) επηρεάζουν την απόφαση των πελατών.

🔹 Δημιουργήσει ένα predictive model που θα προβλέπει την πιθανότητα θετικής απόκρισης.

Περιγραφή του Dataset & Πηγή

Το dataset περιέχει πληροφορίες για υπάρχοντες πελάτες ενός superstore, οι οποίοι αποτελούν τον στόχο μιας τηλεφωνικής καμπάνιας για το Gold Membership.

🔹 Πηγή δεδομένων:https://www.kaggle.com/datasets/ahsan81/superstore-marketing-campaign-dataset

🔹 Περιλαμβάνει μεταβλητές όπως:

✅ Δημογραφικά στοιχεία (ηλικία, εισόδημα, οικογενειακή κατάσταση).

✅ Ιστορικό αγορών (συνολικά έξοδα, αριθμός αγορών από το web).

✅ Ανταπόκριση σε προηγούμενες καμπάνιες.

Αιτιολόγηση της επιλογής σε σχέση με την Επιχειρηματική Αναλυτική

Η επιλογή αυτού του dataset αποτελεί στρατηγική, καθώς:

📌 Υποστηρίζει Predictive Analytics: Δίνει τη δυνατότητα δημιουργίας ενός μοντέλου πρόβλεψης για να εντοπιστούν οι πιο πιθανοί αγοραστές της προσφοράς.

📌 Βελτιστοποιεί την Καμπάνια Marketing: Αντί να επικοινωνήσει με όλους τους πελάτες, το superstore θα επικεντρωθεί σε αυτούς που έχουν υψηλή πιθανότητα να αγοράσουν το Gold Membership.

📌 Προσφέρει insights για τη στρατηγική πωλήσεων: Εντοπίζοντας ποιοι παράγοντες επηρεάζουν τις αγοραστικές αποφάσεις, η επιχείρηση μπορεί να σχεδιάσει μελλοντικές καμπάνιες πιο αποτελεσματικά.

📌 Αυξάνει το ROI (Return on Investment): Η στόχευση των “σωστών” πελατών μειώνει το κόστος κλήσεων και αυξάνει το ποσοστό επιτυχίας της καμπάνιας.

Πιθανά Επιχειρηματικά Ερωτήματα που θα μπορούσαν να απαντηθούν

🔹 Ποιοι είναι οι βασικοί παράγοντες που επηρεάζουν την αγορά του Gold Membership;

🔹 Πώς σχετίζεται η αγοραστική συμπεριφορά (online vs in-store) με την ανταπόκριση στην προσφορά;

🔹 Ποια δημογραφικά χαρακτηριστικά έχουν μεγαλύτερη πιθανότητα να αποδεχτούν την προσφορά;

🔹 Είναι η απόκριση διαφορετική για πελάτες με υψηλό ή χαμηλό εισόδημα;

🔹 Πόσο επηρεάζει η συμμετοχή σε προηγούμενες καμπάνιες την πιθανότητα αποδοχής της νέας προσφοράς;

Περιγραφή των Μεταβλητών

Το dataset περιέχει 22 στήλες και περιλαμβάνει δημογραφικά στοιχεία, αγοραστική συμπεριφορά και ανταπόκριση των πελατών στην προσφορά.

Variable Description Type Range
Id Μοναδικό ID πελάτη int -
Year_Birth Έτος γέννησης int 1920 - 2000
Education Εκπαιδευτικό επίπεδο str Graduation, PhD κ.λπ.
Marital_Status Οικογενειακή κατάσταση str Single, Married κ.λπ
Income Ετήσιο εισόδημα float 2,000 - 120,000 (USD)
Kidhome, Teenhome Παιδιά στο σπίτι int 0 - 2
Dt_Customer Ημερομηνία εγγραφής str MM/DD/YYYY
Recency Ημέρες από την τελευταία αγορά int 0 - 100
MntWines, MntFruits, MntMeatProducts, MntFishProducts, MntSweetProducts, MntGoldProds Έξοδα σε κάθε κατηγορία προϊόντων int 0 - 1000 (USD)
NumDealsPurchases, NumWebPurchases, NumCatalogPurchases, NumStorePurchases Αριθμός αγορών μέσω διαφορετικών καναλιών int 0 - 15
NumWebVisitsMonth Επισκέψεις στον ιστότοπο ανά μήνα int 0 - 15
Response Αν ο πελάτης αγόρασε το Gold Membership boolean 0 ή 1
Complain Αν ο πελάτης υπέβαλε παράπονο boolean 0 ή 1

Αρχική Διερεύνηση του dataset

Προβλήματα Δεδομένων

Ελλείπουσες Τιμές

🔹 Υπάρχουν 24 ελλείπουσες τιμές στη μεταβλητή “Income” (εισόδημα).

Επιλέγω να αφαιρέσω τις εγγραφές που περιέχουν κενά στην μεταβλητή εισόδημα.

Ακραίες Τιμές (Outliers)

🔹 Βάσει των περιγραφικών στατιστικών παρατηρείται η εξής ακραία τιμή: Το εισόδημα (Income) έχει μέγιστη τιμή 666,666 USD, ενώ ένα μεγάλο ποσοστό των τιμών είναι κάτω από περίπου 70,000 USD → Επομένως ενδέχεται να υπάρχουν ακραίες τιμές.

Επιλέγω να αφαιρέσω την ακραία τιμή 666,666 για να μην επηρεάσει σε μεγάλο βαθμό την επιχειρηματική απόφαση.

Διπλότυπες Εγγραφές

🔹 Δεν υπάρχουν διπλότυπες εγγραφές.

Υπολογισμός και παρουσίαση περιγραφικών στατιστικών

summary(superstore)
##        Id          Year_Birth    Education         Marital_Status    
##  Min.   :    0   Min.   :1893   Length:2211        Length:2211       
##  1st Qu.: 2814   1st Qu.:1959   Class :character   Class :character  
##  Median : 5455   Median :1970   Mode  :character   Mode  :character  
##  Mean   : 5586   Mean   :1969                                        
##  3rd Qu.: 8419   3rd Qu.:1977                                        
##  Max.   :11191   Max.   :1996                                        
##      Income          Kidhome          Teenhome      TotalChildren  
##  Min.   :  1730   Min.   :0.0000   Min.   :0.0000   Min.   :0.000  
##  1st Qu.: 35221   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.000  
##  Median : 51373   Median :0.0000   Median :0.0000   Median :1.000  
##  Mean   : 51955   Mean   :0.4423   Mean   :0.5057   Mean   :0.948  
##  3rd Qu.: 68487   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.000  
##  Max.   :162397   Max.   :2.0000   Max.   :2.0000   Max.   :3.000  
##  Dt_Customer           Recency         MntWines        MntFruits     
##  Length:2211        Min.   : 0.00   Min.   :   0.0   Min.   :  0.00  
##  Class :character   1st Qu.:24.00   1st Qu.:  24.0   1st Qu.:  1.50  
##  Mode  :character   Median :49.00   Median : 174.0   Median :  8.00  
##                     Mean   :49.06   Mean   : 305.2   Mean   : 26.33  
##                     3rd Qu.:74.00   3rd Qu.: 506.0   3rd Qu.: 33.00  
##                     Max.   :99.00   Max.   :1493.0   Max.   :199.00  
##  MntMeatProducts  MntFishProducts  MntSweetProducts  MntGoldProds   
##  Min.   :   0.0   Min.   :  0.00   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:  16.0   1st Qu.:  3.00   1st Qu.:  1.00   1st Qu.:  9.00  
##  Median :  68.0   Median : 12.00   Median :  8.00   Median : 24.00  
##  Mean   : 167.0   Mean   : 37.53   Mean   : 27.06   Mean   : 43.84  
##  3rd Qu.: 232.5   3rd Qu.: 50.00   3rd Qu.: 33.00   3rd Qu.: 56.00  
##  Max.   :1725.0   Max.   :259.00   Max.   :262.00   Max.   :321.00  
##  TotalSpending  NumDealsPurchases NumWebPurchases  NumCatalogPurchases
##  Min.   :   5   Min.   : 0.000    Min.   : 0.000   Min.   : 0.000     
##  1st Qu.:  69   1st Qu.: 1.000    1st Qu.: 2.000   1st Qu.: 0.000     
##  Median : 396   Median : 2.000    Median : 4.000   Median : 2.000     
##  Mean   : 607   Mean   : 2.321    Mean   : 4.084   Mean   : 2.669     
##  3rd Qu.:1048   3rd Qu.: 3.000    3rd Qu.: 6.000   3rd Qu.: 4.000     
##  Max.   :2525   Max.   :15.000    Max.   :27.000   Max.   :28.000     
##  NumStorePurchases NumWebVisitsMonth    Response         Complain       
##  Min.   : 0.000    Min.   : 0.00     Min.   :0.0000   Min.   :0.000000  
##  1st Qu.: 3.000    1st Qu.: 3.00     1st Qu.:0.0000   1st Qu.:0.000000  
##  Median : 5.000    Median : 6.00     Median :0.0000   Median :0.000000  
##  Mean   : 5.801    Mean   : 5.32     Mean   :0.1497   Mean   :0.009498  
##  3rd Qu.: 8.000    3rd Qu.: 7.00     3rd Qu.:0.0000   3rd Qu.:0.000000  
##  Max.   :13.000    Max.   :20.00     Max.   :1.0000   Max.   :1.000000
Μέτρα κεντρικής τάσης
Μέσος Όρος
mean(superstore$Income)
## [1] 51954.61
Διάμεσος
median(superstore$Income)
## [1] 51373
Επικρατούσα Τιμή
Mode <- function(superstore) {
      ux <- unique(superstore)
      freq <- tabulate(match(superstore, ux))
      ux[freq == max(freq)]
 }
Mode(superstore$Income)
## [1] 7500
Μέτρα διασποράς
Τυπική Απόκλιση
sd(superstore$Income)
## [1] 21535.79
Διακύμανση
var(superstore$Income)
## [1] 463790326
Εύρος με max-min
max_income<-max(superstore$Income)
min_income<-min(superstore$Income)
max_income-min_income
## [1] 160667
Εύρος με την συνάρτηση range
range(superstore$Income)
## [1]   1730 162397
Σχόλια σχετικά με τα αποτελέσματα των μέτρων διασποράς

Income (21,535.79) → Υψηλή τυπική απόκλιση σημαίνει ότι τα εισοδήματα των πελατών ποικίλλουν σημαντικά.

Income (463,790,326) → Πολύ μεγάλη διακύμανση, κάτι που επιβεβαιώνει ότι υπάρχουν μεγάλες διαφορές μεταξύ των εισοδημάτων των πελατών.

Income (160,667) → Υπάρχει τεράστια διαφορά μεταξύ των πελατών με το χαμηλότερο και το υψηλότερο εισόδημα.

Διερεύνηση συσχετίσεων

Υπολογισμός συντελεστών συσχέτισης μεταξύ αριθμητικών μεταβλητών
Συσχέτιση: Income - TotalSpending
cor(superstore$Income,superstore$TotalSpending)
## [1] 0.7925015

Η θετική συσχέτιση μεταξύ του εισοδήματος (Income) και των συνολικών δαπανών (TotalSpending), σημαίνει ότι:

Όσο υψηλότερο είναι το εισόδημα ενός πελάτη, τόσο περισσότερα χρήματα ξοδεύει στην επιχείρηση. Οι πελάτες με χαμηλότερο εισόδημα τείνουν να ξοδεύουν λιγότερο.

Πιθανή Επιχειρηματική Αξιοποίηση

📌 Επιχειρηματική σημασία:

🔹 Οι πελάτες με υψηλό εισόδημα ίσως ενδιαφέρονται για premium προϊόντα ή εξατομικευμένες προσφορές.

🔹 Αν οι υψηλοεισοδηματίες ξοδεύουν περισσότερο, ίσως αξίζει να τους προσφέρουμε προγράμματα επιβράβευσης.

🔹 Μπορούμε να διαφημίσουμε πολυτελή προϊόντα σε πελάτες με υψηλότερο εισόδημα.

Συσχέτιση: TotalChildren - NumDealsPurchases
cor(superstore$TotalChildren,superstore$NumDealsPurchases)
## [1] 0.4366017

Η θετική συσχέτιση μεταξύ του αριθμού των παιδιών (TotalChildren = Kidhome + Teenhome) και του αριθμού αγορών με έκπτωση (NumDealsPurchases), σημαίνει ότι:

Οι οικογένειες με περισσότερα παιδιά τείνουν να αγοράζουν συχνότερα προϊόντα σε προσφορά. Οι πελάτες με λιγότερα ή καθόλου παιδιά ίσως δεν ενδιαφέρονται το ίδιο για εκπτώσεις.

Πιθανή Επιχειρηματική Αξιοποίηση

📌 Επιχειρηματική σημασία:

🔹 Αν οι γονείς προτιμούν εκπτώσεις, η επιχείρηση μπορεί να δημιουργήσει οικογενειακά πακέτα ή loyalty προγράμματα.

🔹 Οι πελάτες με παιδιά ίσως ενδιαφέρονται περισσότερο για παιδικά προϊόντα, τρόφιμα και είδη πρώτης ανάγκης.

Διαγράμματα

Scatterplot

Το παρακάτω διάγραμμα δείχνει ότι καθώς αυξάνεται το εισόδημα , αυξάνεται και η συνολική δαπάνη. Η πληροφορία που μπορούμε να αξιοποιήσουμε στην επιχειρηματική απόφαση είναι να εστιάσουμε στους πελάτες με υψηλότερο εισόδημα διότι είναι περισσότερο πιθανό να ανταποκριθούν θετικά στην αγορά του Gold Membership.

library(ggplot2)
ggplot(superstore, aes(Income, TotalSpending)) +
  geom_point(color = "red", size = 1 , alpha = 0.7) +
  labs(title = "Σχέση Εισοδήματος και Συνολικής Δαπάνης",
       x = "Εισόδημα",
       y = "Συνολική Δαπάνη")+theme_minimal()+theme_light()

Boxplot

Το παρακάτω διάγραμμα δείχνει ότι οι πελάτες με οικογενειακή κατάσταση “Married”, “Single”, “Widow”, “Together”, “Divorced” έχουν παρόμοια καταναλωτική συμπεριφορά, κάτι που σημαίνει ότι η οικογενειακή κατάσταση ίσως δεν είναι ο κύριος παράγοντας που καθορίζει την συνολική δαπάνη. Οι πελάτες με κατάσταση “Alone” ίσως να μην ενδιαφέρονται πολύ για τις αγορές και ίσως χρειάζονται διαφορετικές στρατηγικές marketing.

library(ggplot2)
ggplot(superstore, aes(Marital_Status, TotalSpending)) +
  geom_boxplot(fill = "lightblue" , color = "black") +
  labs(title = "Marital Status - Total Spending",
       x = "Marital Status",
       y = "Total Spending")+theme_minimal()+theme_light()

Histogram

Το παρακάτω διάγραμμα δείχνει ότι οι πελάτες δεν ακολουθούν ένα σταθερό μοτίβο αγορών. Υπάρχουν αιχμές αγορών σε συγκεκριμένα διαστήματα (π.χ. 10, 25, 50, 75 ημέρες), κάτι που μπορεί να σημαίνει ότι κάποιοι πελάτες κάνουν επαναλαμβανόμενες αγορές κάθε Χ ημέρες. Οι πελάτες που βρίσκονται προς το δεξί άκρο του γραφήματος κινδυνεύουν να χαθούν ως πελάτες. Επομένως, θα ήταν χρήσιμο να υπάρξει μια καμπάνια π.χ μέσω email για να τους επαναφέρουμε. Για πελάτες που αγοράζουν συχνά, θα μπορούσαν να δοθούν επιβραβεύσεις ή loyalty προγράμματα για να διατηρηθεί η αγοραστική τους συμπεριφορά. Πιθανότατα, θα είναι αυτοί που θα ανταποκριθούν θετικά στην καμπάνια.

library(ggplot2)
ggplot(superstore, aes(Recency)) +
  geom_histogram(fill = "lightgreen" , color = "black", bins = 30) +
  labs(title = "Histogram - Recency",
       x = "Recency",
       y = "Count")+theme_minimal()+theme_light()

Bar Chart

Το παρακάτω διάγραμμα δείχνει ότι η πλειοψηφία των πελατών έχει ολοκληρώσει πανεπιστημιακή εκπαίδευση (Graduation) – Αυτή η κατηγορία έχει τον υψηλότερο αριθμό ατόμων, ξεπερνώντας τις 900 περιπτώσεις.

library(ggplot2)
ggplot(superstore, aes(Education)) +
  geom_bar(fill = "purple" , color = "black") +
  labs(title = "Bar Chart - Education",
       x = "Education",
       y = "Count")+theme_minimal()+theme_light()