ΠΕΡΙΓΡΑΦΗ DATASET & ΠΗΓΗΣ

Το dataset Bank Marketing προέρχεται από το UCI Machine Learning Repository και αφορά καμπάνιες άμεσου marketing πορτογαλικής τράπεζας.

#Κάθε παρατήρηση αντιστοιχεί σε έναν πελάτη που επικοινωνήθηκε τηλεφωνικά, με στόχο τη σύναψη προθεσμιακής κατάθεσης.

#Πηγή: UCI Machine Learning Repository – Bank Marketing Dataset

ΑΙΤΙΟΛΟΓΗΣΗ ΕΠΙΛΟΓΗΣ (Επιχειρηματική Αναλυτική)

Το dataset είναι ιδανικό για επιχειρηματική αναλυτική διότι:

1. αφορά λήψη αποφάσεων marketing

2.περιλαμβάνει δημογραφικά, οικονομικά και συμπεριφορικά δεδομένα

3.επιτρέπει ανάλυση αποδοτικότητας καμπανιών και τμηματοποίηση πελατών

Τυπική χρήση: βελτιστοποίηση καμπανιών, targeting, churn & conversion analysis.

ΠΙΘΑΝΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΑ ΕΡΩΤΗΜΑΤΑ

-Ποια χαρακτηριστικά πελατών συνδέονται με υψηλότερη πιθανότητα αποδοχής;

-Υπάρχει σχέση διάρκειας κλήσης και επιτυχίας καμπάνιας;

-Ποιοι επαγγελματικοί κλάδοι ανταποκρίνονται περισσότερο;

-Πόσες επαναληπτικές επαφές είναι αποδοτικές;

Φόρτωση & Δομή Δεδομένων

bank <- read.csv(“bank-full.csv”, sep = “;”, stringsAsFactors = FALSE)

str(bank) summary(bank)

ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΛΗΤΩΝ

-age: αριθμητική, έτη

-job: κατηγορική, επαγγελματικός κλάδος

-marital: κατηγορική, οικογενειακή κατάσταση

-balance: αριθμητική, μέσο ετήσιο υπόλοιπο (€)

-duration: αριθμητική, διάρκεια κλήσης (sec)

-campaign: αριθμητική, αριθμός επαφών

-y: κατηγορική, αποδοχή κατάθεσης (yes/no)

Κεντρική Τάση

mean(bank\(age) median(bank\)age)

mean(bank\(balance) median(bank\)balance)

sort(table(bank$job), decreasing = TRUE)

Διασπορά

sd(bank\(age) var(bank\)age) range(bank$age)

sd(bank\(balance) var(bank\)balance) range(bank$balance)

Διερεύνηση Συσχετίσεων

numeric_vars <- bank[, sapply(bank, is.numeric)] cor(numeric_vars)

ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ

Scatterplot

plot(bank\(age, bank\)duration, xlab = “Age”, ylab = “Call Duration”, main = “Age vs Call Duration”)

Boxplot

boxplot(bank$age)

Histogram

hist(bank$duration, breaks = 40)

Bar Chart

barplot(table(bank$job), las = 2)