Το Superstore προετοιμάζει μια προσφορά Gold Membership για την ετήσια εκπτωτική περίοδο.
Η προσφορά:
🔹 Παρέχει 20% έκπτωση σε όλες τις αγορές.
🔹 Κοστίζει $499 αντί για $999 μόνο για υπάρχοντες πελάτες.
🔹 Η προώθηση θα γίνει μέσω τηλεφωνικών κλήσεων.
Το τμήμα marketing θέλει να μειώσει το κόστος της καμπάνιας δημιουργώντας ένα μοντέλο πρόβλεψης, το οποίο θα ταξινομεί τους πελάτες που είναι πιθανό να αποδεχτούν την προσφορά.
Το superstore θέλει να:
🔹 Προβλέψει ποιοι πελάτες θα αποδεχτούν την προσφορά.
🔹 Αναγνωρίσει ποιοι παράγοντες (δημογραφικοί, αγοραστικοί, προηγούμενες καμπάνιες) επηρεάζουν την απόφαση των πελατών.
🔹 Δημιουργήσει ένα predictive model που θα προβλέπει την πιθανότητα θετικής απόκρισης.
Το dataset περιέχει πληροφορίες για υπάρχοντες πελάτες ενός superstore, οι οποίοι αποτελούν τον στόχο μιας τηλεφωνικής καμπάνιας για το Gold Membership.
🔹 Πηγή δεδομένων:https://www.kaggle.com/datasets/ahsan81/superstore-marketing-campaign-dataset
🔹 Περιλαμβάνει μεταβλητές όπως:
✅ Δημογραφικά στοιχεία (ηλικία, εισόδημα, οικογενειακή κατάσταση).
✅ Ιστορικό αγορών (συνολικά έξοδα, αριθμός αγορών από το web).
✅ Ανταπόκριση σε προηγούμενες καμπάνιες.
Η επιλογή αυτού του dataset αποτελεί στρατηγική, καθώς:
📌 Υποστηρίζει Predictive Analytics: Δίνει τη δυνατότητα δημιουργίας ενός μοντέλου πρόβλεψης για να εντοπιστούν οι πιο πιθανοί αγοραστές της προσφοράς.
📌 Βελτιστοποιεί την Καμπάνια Marketing: Αντί να επικοινωνήσει με όλους τους πελάτες, το superstore θα επικεντρωθεί σε αυτούς που έχουν υψηλή πιθανότητα να αγοράσουν το Gold Membership.
📌 Προσφέρει insights για τη στρατηγική πωλήσεων: Εντοπίζοντας ποιοι παράγοντες επηρεάζουν τις αγοραστικές αποφάσεις, η επιχείρηση μπορεί να σχεδιάσει μελλοντικές καμπάνιες πιο αποτελεσματικά.
📌 Αυξάνει το ROI (Return on Investment): Η στόχευση των “σωστών” πελατών μειώνει το κόστος κλήσεων και αυξάνει το ποσοστό επιτυχίας της καμπάνιας.
🔹 Ποιοι είναι οι βασικοί παράγοντες που επηρεάζουν την αγορά του Gold Membership;
🔹 Πώς σχετίζεται η αγοραστική συμπεριφορά (online vs in-store) με την ανταπόκριση στην προσφορά;
🔹 Ποια δημογραφικά χαρακτηριστικά έχουν μεγαλύτερη πιθανότητα να αποδεχτούν την προσφορά;
🔹 Είναι η απόκριση διαφορετική για πελάτες με υψηλό ή χαμηλό εισόδημα;
🔹 Πόσο επηρεάζει η συμμετοχή σε προηγούμενες καμπάνιες την πιθανότητα αποδοχής της νέας προσφοράς;
Το dataset περιέχει 22 στήλες και περιλαμβάνει δημογραφικά στοιχεία, αγοραστική συμπεριφορά και ανταπόκριση των πελατών στην προσφορά.
| Variable | Description | Type | Range |
|---|---|---|---|
| Id | Μοναδικό ID πελάτη | int | - |
| Year_Birth | Έτος γέννησης | int | 1920 - 2000 |
| Education | Εκπαιδευτικό επίπεδο | str | Graduation, PhD κ.λπ. |
| Marital_Status | Οικογενειακή κατάσταση | str | Single, Married κ.λπ |
| Income | Ετήσιο εισόδημα | float | 2,000 - 120,000 (USD) |
| Kidhome, Teenhome | Παιδιά στο σπίτι | int | 0 - 2 |
| Dt_Customer | Ημερομηνία εγγραφής | str | MM/DD/YYYY |
| Recency | Ημέρες από την τελευταία αγορά | int | 0 - 100 |
| MntWines, MntFruits, MntMeatProducts, MntFishProducts, MntSweetProducts, MntGoldProds | Έξοδα σε κάθε κατηγορία προϊόντων | int | 0 - 1000 (USD) |
| NumDealsPurchases, NumWebPurchases, NumCatalogPurchases, NumStorePurchases | Αριθμός αγορών μέσω διαφορετικών καναλιών | int | 0 - 15 |
| NumWebVisitsMonth | Επισκέψεις στον ιστότοπο ανά μήνα | int | 0 - 15 |
| Response | Αν ο πελάτης αγόρασε το Gold Membership | boolean | 0 ή 1 |
| Complain | Αν ο πελάτης υπέβαλε παράπονο | boolean | 0 ή 1 |
Ελλείπουσες Τιμές
🔹 Υπάρχουν 24 ελλείπουσες τιμές στη μεταβλητή “Income” (εισόδημα).
Επιλέγω να αφαιρέσω τις εγγραφές που περιέχουν κενά στην μεταβλητή εισόδημα.
Ακραίες Τιμές (Outliers)
🔹 Βάσει των περιγραφικών στατιστικών παρατηρείται η εξής ακραία τιμή: Το εισόδημα (Income) έχει μέγιστη τιμή 666,666 USD, ενώ ένα μεγάλο ποσοστό των τιμών είναι κάτω από περίπου 70,000 USD → Επομένως ενδέχεται να υπάρχουν ακραίες τιμές.
Επιλέγω να αφαιρέσω την ακραία τιμή 666,666 για να μην επηρεάσει σε μεγάλο βαθμό την επιχειρηματική απόφαση.
Διπλότυπες Εγγραφές
🔹 Δεν υπάρχουν διπλότυπες εγγραφές.
summary(superstore)
## Id Year_Birth Education Marital_Status
## Min. : 0 Min. :1893 Length:2211 Length:2211
## 1st Qu.: 2814 1st Qu.:1959 Class :character Class :character
## Median : 5455 Median :1970 Mode :character Mode :character
## Mean : 5586 Mean :1969
## 3rd Qu.: 8419 3rd Qu.:1977
## Max. :11191 Max. :1996
## Income Kidhome Teenhome TotalChildren
## Min. : 1730 Min. :0.0000 Min. :0.0000 Min. :0.000
## 1st Qu.: 35221 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.000
## Median : 51373 Median :0.0000 Median :0.0000 Median :1.000
## Mean : 51955 Mean :0.4423 Mean :0.5057 Mean :0.948
## 3rd Qu.: 68487 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.000
## Max. :162397 Max. :2.0000 Max. :2.0000 Max. :3.000
## Dt_Customer Recency MntWines MntFruits
## Length:2211 Min. : 0.00 Min. : 0.0 Min. : 0.00
## Class :character 1st Qu.:24.00 1st Qu.: 24.0 1st Qu.: 1.50
## Mode :character Median :49.00 Median : 174.0 Median : 8.00
## Mean :49.06 Mean : 305.2 Mean : 26.33
## 3rd Qu.:74.00 3rd Qu.: 506.0 3rd Qu.: 33.00
## Max. :99.00 Max. :1493.0 Max. :199.00
## MntMeatProducts MntFishProducts MntSweetProducts MntGoldProds
## Min. : 0.0 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 16.0 1st Qu.: 3.00 1st Qu.: 1.00 1st Qu.: 9.00
## Median : 68.0 Median : 12.00 Median : 8.00 Median : 24.00
## Mean : 167.0 Mean : 37.53 Mean : 27.06 Mean : 43.84
## 3rd Qu.: 232.5 3rd Qu.: 50.00 3rd Qu.: 33.00 3rd Qu.: 56.00
## Max. :1725.0 Max. :259.00 Max. :262.00 Max. :321.00
## TotalSpending NumDealsPurchases NumWebPurchases NumCatalogPurchases
## Min. : 5 Min. : 0.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 69 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 0.000
## Median : 396 Median : 2.000 Median : 4.000 Median : 2.000
## Mean : 607 Mean : 2.321 Mean : 4.084 Mean : 2.669
## 3rd Qu.:1048 3rd Qu.: 3.000 3rd Qu.: 6.000 3rd Qu.: 4.000
## Max. :2525 Max. :15.000 Max. :27.000 Max. :28.000
## NumStorePurchases NumWebVisitsMonth Response Complain
## Min. : 0.000 Min. : 0.00 Min. :0.0000 Min. :0.000000
## 1st Qu.: 3.000 1st Qu.: 3.00 1st Qu.:0.0000 1st Qu.:0.000000
## Median : 5.000 Median : 6.00 Median :0.0000 Median :0.000000
## Mean : 5.801 Mean : 5.32 Mean :0.1497 Mean :0.009498
## 3rd Qu.: 8.000 3rd Qu.: 7.00 3rd Qu.:0.0000 3rd Qu.:0.000000
## Max. :13.000 Max. :20.00 Max. :1.0000 Max. :1.000000
mean(superstore$Income)
## [1] 51954.61
median(superstore$Income)
## [1] 51373
Mode <- function(superstore) {
ux <- unique(superstore)
freq <- tabulate(match(superstore, ux))
ux[freq == max(freq)]
}
Mode(superstore$Income)
## [1] 7500
sd(superstore$Income)
## [1] 21535.79
var(superstore$Income)
## [1] 463790326
max_income<-max(superstore$Income)
min_income<-min(superstore$Income)
max_income-min_income
## [1] 160667
range(superstore$Income)
## [1] 1730 162397
Income (21,535.79) → Υψηλή τυπική απόκλιση σημαίνει ότι τα εισοδήματα των πελατών ποικίλλουν σημαντικά.
Income (463,790,326) → Πολύ μεγάλη διακύμανση, κάτι που επιβεβαιώνει ότι υπάρχουν μεγάλες διαφορές μεταξύ των εισοδημάτων των πελατών.
Income (160,667) → Υπάρχει τεράστια διαφορά μεταξύ των πελατών με το χαμηλότερο και το υψηλότερο εισόδημα.
cor(superstore$Income,superstore$TotalSpending)
## [1] 0.7925015
Η θετική συσχέτιση μεταξύ του εισοδήματος (Income) και των συνολικών δαπανών (TotalSpending), σημαίνει ότι:
Όσο υψηλότερο είναι το εισόδημα ενός πελάτη, τόσο περισσότερα χρήματα ξοδεύει στην επιχείρηση. Οι πελάτες με χαμηλότερο εισόδημα τείνουν να ξοδεύουν λιγότερο.
Πιθανή Επιχειρηματική Αξιοποίηση
📌 Επιχειρηματική σημασία:
🔹 Οι πελάτες με υψηλό εισόδημα ίσως ενδιαφέρονται για premium προϊόντα ή εξατομικευμένες προσφορές.
🔹 Αν οι υψηλοεισοδηματίες ξοδεύουν περισσότερο, ίσως αξίζει να τους προσφέρουμε προγράμματα επιβράβευσης.
🔹 Μπορούμε να διαφημίσουμε πολυτελή προϊόντα σε πελάτες με υψηλότερο εισόδημα.
cor(superstore$TotalChildren,superstore$NumDealsPurchases)
## [1] 0.4366017
Η θετική συσχέτιση μεταξύ του αριθμού των παιδιών (TotalChildren = Kidhome + Teenhome) και του αριθμού αγορών με έκπτωση (NumDealsPurchases), σημαίνει ότι:
Οι οικογένειες με περισσότερα παιδιά τείνουν να αγοράζουν συχνότερα προϊόντα σε προσφορά. Οι πελάτες με λιγότερα ή καθόλου παιδιά ίσως δεν ενδιαφέρονται το ίδιο για εκπτώσεις.
Πιθανή Επιχειρηματική Αξιοποίηση
📌 Επιχειρηματική σημασία:
🔹 Αν οι γονείς προτιμούν εκπτώσεις, η επιχείρηση μπορεί να δημιουργήσει οικογενειακά πακέτα ή loyalty προγράμματα.
🔹 Οι πελάτες με παιδιά ίσως ενδιαφέρονται περισσότερο για παιδικά προϊόντα, τρόφιμα και είδη πρώτης ανάγκης.
Το παρακάτω διάγραμμα δείχνει ότι καθώς αυξάνεται το εισόδημα , αυξάνεται και η συνολική δαπάνη. Η πληροφορία που μπορούμε να αξιοποιήσουμε στην επιχειρηματική απόφαση είναι να εστιάσουμε στους πελάτες με υψηλότερο εισόδημα διότι είναι περισσότερο πιθανό να ανταποκριθούν θετικά στην αγορά του Gold Membership.
library(ggplot2)
ggplot(superstore, aes(Income, TotalSpending)) +
geom_point(color = "red", size = 1 , alpha = 0.7) +
labs(title = "Σχέση Εισοδήματος και Συνολικής Δαπάνης",
x = "Εισόδημα",
y = "Συνολική Δαπάνη")+theme_minimal()+theme_light()
Το παρακάτω διάγραμμα δείχνει ότι οι πελάτες με οικογενειακή κατάσταση “Married”, “Single”, “Widow”, “Together”, “Divorced” έχουν παρόμοια καταναλωτική συμπεριφορά, κάτι που σημαίνει ότι η οικογενειακή κατάσταση ίσως δεν είναι ο κύριος παράγοντας που καθορίζει την συνολική δαπάνη. Οι πελάτες με κατάσταση “Alone” ίσως να μην ενδιαφέρονται πολύ για τις αγορές και ίσως χρειάζονται διαφορετικές στρατηγικές marketing.
library(ggplot2)
ggplot(superstore, aes(Marital_Status, TotalSpending)) +
geom_boxplot(fill = "lightblue" , color = "black") +
labs(title = "Marital Status - Total Spending",
x = "Marital Status",
y = "Total Spending")+theme_minimal()+theme_light()
Το παρακάτω διάγραμμα δείχνει ότι οι πελάτες δεν ακολουθούν ένα σταθερό μοτίβο αγορών. Υπάρχουν αιχμές αγορών σε συγκεκριμένα διαστήματα (π.χ. 10, 25, 50, 75 ημέρες), κάτι που μπορεί να σημαίνει ότι κάποιοι πελάτες κάνουν επαναλαμβανόμενες αγορές κάθε Χ ημέρες. Οι πελάτες που βρίσκονται προς το δεξί άκρο του γραφήματος κινδυνεύουν να χαθούν ως πελάτες. Επομένως, θα ήταν χρήσιμο να υπάρξει μια καμπάνια π.χ μέσω email για να τους επαναφέρουμε. Για πελάτες που αγοράζουν συχνά, θα μπορούσαν να δοθούν επιβραβεύσεις ή loyalty προγράμματα για να διατηρηθεί η αγοραστική τους συμπεριφορά. Πιθανότατα, θα είναι αυτοί που θα ανταποκριθούν θετικά στην καμπάνια.
library(ggplot2)
ggplot(superstore, aes(Recency)) +
geom_histogram(fill = "lightgreen" , color = "black", bins = 30) +
labs(title = "Histogram - Recency",
x = "Recency",
y = "Count")+theme_minimal()+theme_light()
Το παρακάτω διάγραμμα δείχνει ότι η πλειοψηφία των πελατών έχει ολοκληρώσει πανεπιστημιακή εκπαίδευση (Graduation) – Αυτή η κατηγορία έχει τον υψηλότερο αριθμό ατόμων, ξεπερνώντας τις 900 περιπτώσεις.
library(ggplot2)
ggplot(superstore, aes(Education)) +
geom_bar(fill = "purple" , color = "black") +
labs(title = "Bar Chart - Education",
x = "Education",
y = "Count")+theme_minimal()+theme_light()