ΠΕΡΙΓΡΑΦΗ DATASET & ΠΗΓΗΣ
Το dataset Bank Marketing προέρχεται από το UCI Machine Learning
Repository και αφορά καμπάνιες άμεσου marketing πορτογαλικής
τράπεζας.
#Κάθε παρατήρηση αντιστοιχεί σε έναν πελάτη που επικοινωνήθηκε
τηλεφωνικά, με στόχο τη σύναψη προθεσμιακής κατάθεσης.
#Πηγή: UCI Machine Learning Repository – Bank Marketing Dataset
ΑΙΤΙΟΛΟΓΗΣΗ ΕΠΙΛΟΓΗΣ (Επιχειρηματική Αναλυτική)
Το dataset είναι ιδανικό για επιχειρηματική αναλυτική διότι:
1. αφορά λήψη αποφάσεων marketing
2.περιλαμβάνει δημογραφικά, οικονομικά και συμπεριφορικά
δεδομένα
3.επιτρέπει ανάλυση αποδοτικότητας καμπανιών και τμηματοποίηση
πελατών
Τυπική χρήση: βελτιστοποίηση καμπανιών, targeting, churn &
conversion analysis.
ΠΙΘΑΝΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΑ ΕΡΩΤΗΜΑΤΑ
-Ποια χαρακτηριστικά πελατών συνδέονται με υψηλότερη πιθανότητα
αποδοχής;
-Υπάρχει σχέση διάρκειας κλήσης και επιτυχίας καμπάνιας;
-Ποιοι επαγγελματικοί κλάδοι ανταποκρίνονται περισσότερο;
-Πόσες επαναληπτικές επαφές είναι αποδοτικές;
Φόρτωση & Δομή Δεδομένων
bank <- read.csv(“bank-full.csv”, sep = “;”, stringsAsFactors =
FALSE)
str(bank) summary(bank)
ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΛΗΤΩΝ
-age: αριθμητική, έτη
-job: κατηγορική, επαγγελματικός κλάδος
-marital: κατηγορική, οικογενειακή κατάσταση
-balance: αριθμητική, μέσο ετήσιο υπόλοιπο (€)
-duration: αριθμητική, διάρκεια κλήσης (sec)
-campaign: αριθμητική, αριθμός επαφών
-y: κατηγορική, αποδοχή κατάθεσης (yes/no)
Κεντρική Τάση
mean(bank\(age)
median(bank\)age)
mean(bank\(balance)
median(bank\)balance)
sort(table(bank$job), decreasing = TRUE)
Διασπορά
sd(bank\(age)
var(bank\)age) range(bank$age)
sd(bank\(balance)
var(bank\)balance) range(bank$balance)
Διερεύνηση Συσχετίσεων
numeric_vars <- bank[, sapply(bank, is.numeric)]
cor(numeric_vars)
ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ
Scatterplot
plot(bank\(age, bank\)duration, xlab
= “Age”, ylab = “Call Duration”, main = “Age vs Call Duration”)
Boxplot
boxplot(bank$age)
Histogram
hist(bank$duration, breaks = 40)
Bar Chart
barplot(table(bank$job), las = 2)