目錄

前言:從交易記錄到顧客價值

善用商業數據分析的工具和技巧,光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位),我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃,包括:

圖一、顧客價值管理的層次

圖一、顧客價值管理的層次


從這一些分析我們可以看到公司主要的營收和獲利的重要來源,我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢;據此我們可以設定行銷的重點,決定行銷的策略,和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外,我們還可以利用這些簡單的交易紀錄:


利用這一些預測我們就可以進行全面客製化的:

圖二、顧客價值管理流程

圖二、顧客價值管理流程


現在行銷重視客製化不同客戶的廣告,來達到精準行銷。主要有兩個階段:


回到目錄



Setup
Sys.setlocale("LC_ALL","C")
[1] "C"
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
Library
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
package 'caTools' was built under R version 3.5.1
library(ROCR)
package 'ROCR' was built under R version 3.5.1Loading required package: gplots
package 'gplots' was built under R version 3.5.1
Attaching package: 'gplots'

The following object is masked from 'package:stats':

    lowess
library(googleVis)
library(chorddiag)


1. 資料整理

1.1 交易資料 (X)
  • 使用read.table()讀入資料,並設定欄位名稱
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)        # 交易次數 51243  # x: transaction 
      cid             amount          date           
 Min.   :    10   Min.   :   5   Min.   :2005-01-02  
 1st Qu.: 57720   1st Qu.:  25   1st Qu.:2009-01-17  
 Median :102440   Median :  30   Median :2011-11-23  
 Mean   :108935   Mean   :  62   Mean   :2011-07-14  
 3rd Qu.:160525   3rd Qu.:  60   3rd Qu.:2013-12-29  
 Max.   :264200   Max.   :4500   Max.   :2015-12-31  
  • 長條圖顯示出交易數目逐年上升
  • 產生直方圖查看資料統計數量
par(cex=0.7)
hist(X$date, "years", las=1, freq=T, xlab="", main="No. Transaction by Year")

  • n_distinct即number of distinct,查看有幾個不一樣的值(多少個顧客)
n_distinct(X$cid) # 18417
[1] 18417
1.2 顧客資料 (A)
  • 將截止日期(2016-01-01)距離交易日期的天數做為變數days,用來計算最近/最遠日購買,以及單一顧客總購買次數、平均購買金額
  • A: 顧客資料
  • 將「交易筆數」匯集成「顧客」
  • mutate: 長出一個新欄位
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame
1.4 顧客資料摘要
summary(A)
      cid             recent          freq      
 Min.   :    10   Min.   :   1   Min.   : 1.00  
 1st Qu.: 81990   1st Qu.: 244   1st Qu.: 1.00  
 Median :136430   Median :1070   Median : 2.00  
 Mean   :137574   Mean   :1253   Mean   : 2.78  
 3rd Qu.:195100   3rd Qu.:2130   3rd Qu.: 3.00  
 Max.   :264200   Max.   :4014   Max.   :45.00  
     money          senior         since           
 Min.   :   5   Min.   :   1   Min.   :2005-01-02  
 1st Qu.:  22   1st Qu.: 988   1st Qu.:2007-10-23  
 Median :  30   Median :2087   Median :2010-04-15  
 Mean   :  58   Mean   :1984   Mean   :2010-07-26  
 3rd Qu.:  50   3rd Qu.:2992   3rd Qu.:2013-04-18  
 Max.   :4500   Max.   :4016   Max.   :2015-12-31  
1.5 變數的分布狀況
  • recency:愈小表示顧客最近有來消費;愈大則代表很久沒來光顧
    • 左比右高,代表一直有顧客來消費
  • seniority:愈小是新進顧客;愈大則是老顧客
    • 第一次消費到截止日的時間會受到第一次日期影響,越短的消費日期不一定代表是一次性消費的顧客,可能會包含持續消費的顧客
    • 若要分析是否為忠誠顧客,必須考慮到消費頻率
  • frequency: 愈大表示顧客很常光顧(頻率高)
    • 消費次數多落在1次左右,而消費過10次的人也有,表示有忠實顧客群
  • money:一般做分析時,金錢相關的變數都需取log
    • 取10筆來進行log處理,x軸值再乘以10轉換成原始消費數字,消費金額多落在30元左右(1:10元, 1.5:30元, 2:100元, 2.5:300元, 3:1000元, 3.5:3000元)
  • 圖形上越長的條狀,是指該期間吸收很多新顧客
  • pmin()主要用途是設一個上限,並明確做出一個範圍
p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),main="log(money)",ylab="",xlab="")


回到目錄



2. 層級式集群分析(靜態分群)

2.1 RFM顧客分群
  • 依照統計方式分群
  • 1-10代表分10群,數字為族群大小
  • 資料量大,故做k-mean會比較保險
  • 集群分析,需要做距離矩陣
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster   
table(A$grp)

   1    2    3    4    5    6    7    8    9   10 
1073 2266 1296 2237 3207 1942 1781 2392 2096  127 
2.2 顧客群組屬性
  • 泡泡圖 同時顯示4種屬性:x軸、y軸、大小(反映族群對店家的營收貢獻)、顏色
    • 除了能視覺化之外,泡泡隨時間的動態變化更重要
    • 藉由動態資料的方式(不要把全部的資料做aggration),能夠看到屬性隨著時間的變換
    • 以10年為例,可以依照不同年份年底做一次統計,這樣泡泡就會動(但可能每一年的分群規則都不一樣)
    • 泡泡圖圓圈裡的數字代表該族群有多少人
  • 我們最希望看到圈圈是紅色且出現在右上角
    • 頻率高
    • 客單價高
    • 最近有消費
  • 主力顧客群為:圓圈127
    • 重點放在保留這一族群的顧客
    • 希望提高他的購買頻率(往右拉)
    • 可採用促銷打折的行銷方案
  • 愈紅代表沉睡顧客,即將流失的顧客
  • X軸與Y軸分別放最重要的變數,並表示出各族群的貢獻
  • 選擇重要的變數來表達目前各族群顧客的活動狀況:
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")  


回到目錄



3. 規則分群(動態趨勢)

3.1 顧客分群規則
  • 設定顧客族群名稱
  • 依照該年度整體表現區分顧客群
STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}

圖三、顧客分群規則

  • N1:新顧客
  • N2:新潛力顧客
  • R1:主力顧客
  • R2:核心顧客
  • S1:瞌睡顧客
  • S2:半睡顧客
  • S3:沉睡顧客

補充:鯨魚圖

補充:鯨魚圖

  • 藍線是公司的累積獲利,依據顧客對公司獲利的貢獻度由大到小:
    • 淺藍色(頭):讓公司獲利增加的顧客
      • 最理想的組合
      • 人數很少
      • 容易被搶走
      • 選擇性保留
    • 水藍色(背):讓公司獲利打平的顧客
      • 幫助不大
      • 人數最多,產生規模經濟
      • 選擇性吸收
    • 深藍色(尾):讓公司虧錢的顧客
      • 選擇性發展


3.2 平均購買週期
  • 找「有購買過2次以上的購買顧客」的平均購買週期
  • 回購顧客的平均購買週期 K = 521 days,意思是平均兩年才買一次。
  • 也可以用實際的狀況來做分群,A$freq>1 是指購買頻率。
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K
[1] 521
3.3 滑動資料窗格
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }    # 整個y,是一個迴圈變數,將所有dataframe置入
  • 每一個顧客,會隨時間而有不同的結果產生(「行銷滑水道」重點:水缸大小、水缸間流動的速度有多大)
  • 當有很多元件時,可以用這種Y$Y2015方法。
  • 同一個顧客值會不一樣。
head(Y$Y2015)
  cid recent freq  money senior status      since
1  10   3829    1  30.00   3829     S3 2005-07-08
2  80    343    7  71.43   3751     R1 2005-09-24
3  90    758   10 115.80   3783     R2 2005-08-23
4 120   1401    1  20.00   1401     S1 2012-03-01
5 130   2970    2  50.00   3710     S3 2005-11-04
6 160   2963    2  30.00   3577     S3 2006-03-17
  y_freq y_revenue
1      0         0
2      1        80
3      0         0
4      0         0
5      0         0
6      0         0
3.4 每年年底的累計顧客人數
sapply(Y, nrow)   # list 配上 sapply,非常好用
Y2010 Y2011 Y2012 Y2013 Y2014 Y2015 
10407 11674 13562 15468 16905 18417 
3.5 族群大小變化趨勢
  • 用sapply就是將Y每一個元素做nrow這個動作,並計算每年底這時間為止有多少資料總筆數。
  • s1(含)以下的皆為目前有消費行為的顧客
  • s3會從2010逐漸累積到2015,因此需要在分析時注意累積的問題
  • 活躍顧客:淺藍色以下(2014達到巔峰,後續便沒有什麼成長)
cols = c("gold","orange","blue","green","pink","magenta","darkred")
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))

3.6 族群屬性動態分析
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(      #以顧客族群做為分群標準,以下以族群為單位
    average_frequency = mean(freq),       #平均消費次數
    average_amount = mean(money),         #平均消費金額
    total_revenue = sum(y_revenue),       #總消費收益
    total_no_orders = sum(y_freq),        #所有消費次數
    average_recency = mean(recent),       #最後一次消費距今的平均天數
    average_seniority = mean(senior),     #第一次消費距今的平均天數
    group_size = n()                      #計算族群大小
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame   #以年區分各族群表現
head(CustSegments)
  status average_frequency average_amount total_revenue
1     N1             1.154          26.96         41046
2     N2             2.263          96.00        121034
3     R1             2.674          43.25         19407
4     R2             5.406          60.31        108631
5     S1             1.267          44.61             0
6     S2             1.167          60.65             0
  total_no_orders average_recency average_seniority
1            1500           449.2             507.1
2            1416           241.2             629.9
3             435           492.4            1470.0
4            1588           157.1            1547.3
5               0          1289.3            1373.1
6               0          1889.7            1922.4
  group_size year
1       3330 2010
2       1655 2010
3       1298 2010
4       1547 2010
5       2203 2010
6        360 2010
  • 依據客群與年份,顯示參數之間的動態泡泡圖
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )

圖四、顧客分群規則

補充:apply系列公式

補充:apply系列公式

  • 因為用傳統的方式要重複做好幾遍,Debug不易,因此有了apply系列
  • Lapply和sapply本質上差不多(sapply是進階版)
    • Lapply會把回傳的資料放進一個list裡,list的elements可以是不同長度、資料型態或三個模型
    • Sapply會把回傳的資料,依據資料型態,自動生成一個vector或matrix


3.7 族群屬性動態分析
  • 整合2014及2015年各族群消費資料
  • 流量矩陣(做一個table即可,可看到群間的流動數度)
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx   
     N1   N2   R1   R2  S1   S2   S3
N1 1705  381  144   45 831    0    0
N2    0 1131  267  430 263    0    0
R1    0    0 1240   43 819    0    0
R2    0    0  199 1742  75    0    0
S1    0    0  115    3 819 1026    0
S2    0    0   78    1   0  692 1339
S3    0    0   97    0   0    0 3420
  • 可以做個table簡單的矩陣,以表現出目前流量比較
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%),並計算到小數點第三位
      N1    N2    R1    R2    S1    S2    S3
N1 0.549 0.123 0.046 0.014 0.268 0.000 0.000
N2 0.000 0.541 0.128 0.206 0.126 0.000 0.000
R1 0.000 0.000 0.590 0.020 0.390 0.000 0.000
R2 0.000 0.000 0.099 0.864 0.037 0.000 0.000
S1 0.000 0.000 0.059 0.002 0.417 0.523 0.000
S2 0.000 0.000 0.037 0.000 0.000 0.328 0.635
S3 0.000 0.000 0.028 0.000 0.000 0.000 0.972
3.8 互動式流量分析
  • 各族群流量,包含流入、不變、流出
  • chore diagram(和弦圖、樂譜符號圖,可以變動,可以看出流數)
  • 圓周弧度:族群人數
  • 中間的小丘:保留在族群內的人
  • 中間的弧線:族群間流動的人數
chorddiag(tx, groupColors=cols)     


回到目錄



4. 建立模型

在這個案例裡面,我們的資料是收到Y2015年底,所以我們可以假設現在的時間是Y2015年底,我們想要用現有的資料建立模型,來預測每一位顧客:

但是,我們並沒有Y2016的資料,為了要建立模型,我們需要先把時間回推一期,也就是說:

假如Y2016的情況(跟Y2015比)沒有太大的變化的話,接下來我們就可以

4.1 準備資料

我們用Y2014年底的資料做自變數,Y2015年的資料做應變數

  • y在2015的資料當中
  • left_join:2個資料框,類似查表的概念,結合兩個資料框,使用cid,把後面的資料抄到前面的資料(如果欄位表頭不一致,以left為主)
  • .x和.y:R當中自動加的
  • y_revenue.y:2015來買多少錢
  • y_freq.y:2015會不會來買
CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid") 
head(CX)
  cid recent freq money senior status      since
1  10   3464    1  30.0   3464     S3 2005-07-08
2  80    302    6  70.0   3386     R1 2005-09-24
3  90    393   10 115.8   3418     R2 2005-08-23
4 120   1036    1  20.0   1036     N1 2012-03-01
5 130   2605    2  50.0   3345     S3 2005-11-04
6 160   2598    2  30.0   3212     S3 2006-03-17
  y_freq.x y_revenue.x y_freq.y y_revenue.y
1        0           0        0           0
2        1          80        1          80
3        0           0        0           0
4        0           0        0           0
5        0           0        0           0
6        0           0        0           0
  • X=Y\(Y2014 Y=Y\)Y2015[,c(1,8,9):1是cid,並用這個欄位來做建置。
  • left_join()兩邊都要有cid才有辦法做join,但如果我只有一列那我只留下左邊。
  • y_freq.x y_revenue.x y_freq.y 需要兩個Y,做類別變數。
  • 需要看2015年會不會再次購買,需要看y_freq.y,Retain (保留率)需要大於0
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0      
head(CX)
  cid recent freq money senior status      since freq0
1  10   3464    1  30.0   3464     S3 2005-07-08     0
2  80    302    6  70.0   3386     R1 2005-09-24     1
3  90    393   10 115.8   3418     R2 2005-08-23     0
4 120   1036    1  20.0   1036     N1 2012-03-01     0
5 130   2605    2  50.0   3345     S3 2005-11-04     0
6 160   2598    2  30.0   3212     S3 2006-03-17     0
  revenue0 Retain Revenue
1        0  FALSE       0
2       80   TRUE      80
3        0  FALSE       0
4        0  FALSE       0
5        0  FALSE       0
6        0  FALSE       0
  • Retain()保留機率 用y_revenue=y
  • Retai做類別模型的Y Revenue做回歸模型的Y
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%

 FALSE   TRUE 
0.7701 0.2299 
4.2 建立類別模型
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)

Call:
glm(formula = Retain ~ ., family = binomial(), data = CX[, c(2:3, 
    6, 8:10)])

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-3.689  -0.473  -0.298  -0.142   3.386  

Coefficients:
             Estimate Std. Error z value
(Intercept) -1.074007   0.089431  -12.01
recent      -0.002067   0.000131  -15.73
freq         0.095217   0.013882    6.86
statusN2     0.669429   0.070234    9.53
statusR1     0.488321   0.084389    5.79
statusR2     1.290002   0.110841   11.64
statusS1     0.670604   0.146532    4.58
statusS2     1.353554   0.208210    6.50
statusS3     2.573689   0.275786    9.33
freq0        0.566557   0.065532    8.65
revenue0    -0.000132   0.000135   -0.98
                   Pr(>|z|)    
(Intercept)         < 2e-16 ***
recent              < 2e-16 ***
freq        0.0000000000069 ***
statusN2            < 2e-16 ***
statusR1    0.0000000071864 ***
statusR2            < 2e-16 ***
statusS1    0.0000047279944 ***
statusS2    0.0000000000798 ***
statusS3            < 2e-16 ***
freq0               < 2e-16 ***
revenue0               0.33    
---
Signif. codes:  
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18228  on 16904  degrees of freedom
Residual deviance: 11766  on 16894  degrees of freedom
AIC: 11788

Number of Fisher Scoring iterations: 6
4.3 估計類別模型的準確性
  • 混淆矩陣 (Confusion Matrix)
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
       
        FALSE  TRUE
  FALSE 12045  1530
  TRUE    974  2356
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
[1] 0.8519
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
                 [,1]
FALSE vs. TRUE 0.8792
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))

4.4 建立數量模型
dx = subset(CX, Revenue > 0)   # 只對有來購買的人做模型(假如有來買的人,會買多少錢?)
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)   # 判定係數:R2 = 0.713   # 比較取了log()的R-square

Call:
lm(formula = log(Revenue) ~ recent + freq + log(1 + money) + 
    senior + status + freq0 + log(1 + revenue0), data = dx)

Residuals:
   Min     1Q Median     3Q    Max 
-3.245 -0.209 -0.067  0.205  3.435 

Coefficients:
                    Estimate Std. Error t value
(Intercept)        0.0587930  0.0458344    1.28
recent             0.0003541  0.0000507    6.98
freq               0.0526850  0.0046504   11.33
log(1 + money)     0.9320818  0.0135203   68.94
senior            -0.0001369  0.0000182   -7.52
statusN2           0.0127716  0.0262656    0.49
statusR1           0.1927532  0.0407579    4.73
statusR2           0.0297685  0.0352479    0.84
statusS1           0.0082406  0.0630355    0.13
statusS2          -0.2406398  0.0865731   -2.78
statusS3          -0.3667341  0.1181061   -3.11
freq0              0.0103133  0.0172551    0.60
log(1 + revenue0)  0.0632756  0.0094003    6.73
                          Pr(>|t|)    
(Intercept)                 0.1997    
recent            0.00000000000337 ***
freq                       < 2e-16 ***
log(1 + money)             < 2e-16 ***
senior            0.00000000000007 ***
statusN2                    0.6268    
statusR1          0.00000233405019 ***
statusR2                    0.3984    
statusS1                    0.8960    
statusS2                    0.0055 ** 
statusS3                    0.0019 ** 
freq0                       0.5501    
log(1 + revenue0) 0.00000000001930 ***
---
Signif. codes:  
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.463 on 3873 degrees of freedom
Multiple R-squared:  0.713, Adjusted R-squared:  0.712 
F-statistic:  802 on 12 and 3873 DF,  p-value: <2e-16
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 

  • Revenue要做線性模時必須log來做
  • 紅線是預測值,粉紅小圈圈是實際值


回到目錄



5. 估計顧客終生價值(CLV)

5.1 Y2016的預測值
  • 因為沒有未來的資料,需要把時間往回推一期,也就是使用模型對Y2015年底的資料做預測,對資料 中的每一位顧客,預測她們在Y2016的保留率和購買金額。
CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")
CX$ProbRetain = predict(mRet,CX,type='response')   # 預測Y2016保留率
CX$PredRevenue = exp(predict(mRev,CX))   # 預測Y2016購買金額
par(mfrow=c(1,2), mar=c(5,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")   #顧客保留率落在0.1左右,這部分代表有些顧客消費並不頻繁
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")  #根據直方圖顯示,預測出來的總收益分布與原先的分布情況相似


5.2 估計顧客終生價值(CLV)
顧客\(i\)的終生價值

\[ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t \]

Assume顧客不會永遠忠實,因此採期數計算,由公式得出每個顧客對公司值多少錢:

\(m_i\)\(r_i\):顧客\(i\)的預期(每期)營收貢獻、保留機率
\(g\)\(d\):公司的(稅前)營業利潤利率、資金成本
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
summary(CX$CLV)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      3      16      24      51      45    5094 
par(mar=c(3,3,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")   # CLV是用錢算出來的,所以也是錢,需要用log來算   # 取log後所得的值約為30塊/一顧客

5.3 比較各族群的價值

  • 消費金額高的顧客不少(尾巴長)
  • 新顧客與沉睡顧客的價值差不多
  • 新顧客變成主力顧客的機率不大
sapply(CX[,10:12], tapply, CX$status, mean)   # 各族群的平均營收貢獻、保留機率、終生價值
   ProbRetain PredRevenue    CLV
N1    0.20269       31.98  20.17
N2    0.44075      131.23 110.89
R1    0.34150       69.85  54.60
R2    0.74925       91.27 136.31
S1    0.05724       56.10  29.66
S2    0.03475       49.48  25.58
S3    0.02326       49.36  25.17
  • 新顧客(N1)跟睡著的顧客(S1、S2、S3)所帶給這間店的價值其實差不多
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")


回到目錄



6. 設定行銷策略、規劃行銷工具

首先進行各族群的屬性統整,再設定行銷策略與工具。


回到目錄



7. 選擇行銷對象

給定某一行銷工具的成本和預期效益,選擇可以施行這項工具的對象。

7.1 對R2族群進行保留

R2族群的預測保留率和購買金額

par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")

7.2 估計預期報酬

假設行銷工具的成本和預期效益為以下(給定假設)

  • 成本:藉由過去經驗所得到之行銷工具成本的假設數值
  • 效益:顧客接受到該行銷工具所產生的購買行為(下一期的購買機率)
cost = 10        
effect = 0.75    

估計這項行銷工具對每一位R2顧客的預期報酬

Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)   # 因為保留機率(ProbRetain)設定為0.75,即表示>0.75的族群不能使用這支程式(會導致預期報償為負值)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -515.8   -15.4   -11.5   -10.3    -8.1   646.9 
  • 這一項工具對R2顧客的預期報酬是負的,商業數據分析不能用平均值做分析
7.3 選擇行銷對象

但是,我們還是可以從R2中挑出許多預期報酬很大的行銷對象

Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)  #找出ExpReturn前15名
      cid ExpReturn
1  141340    646.85
2  164930    609.02
3    2190    323.38
4  172750    305.75
5  156280    289.41
6  190570    236.91
7  134030    199.29
8  141430    150.73
9  123480    134.52
10  65830    110.61
11 150890    107.18
12 134590     99.48
13  72000     92.55
14 133080     84.54
15 147510     77.18
  • 針對性行銷: 將決定下到每個人身上,而不再是以群體為分析對象,可以得到addition revenue
sum(Target$ExpReturn > 0)       # 可實施對象:258
[1] 258

在R2之中,有258人的預期報酬大於零,如果對這258人使用這項工具,我們的期望報酬是:

sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬:6464
[1] 6464
QUIZ:

我們可以算出對所有的族群實施這項工具的期望報酬

Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame
  status No.Target AvgROI TotalROI
1     N1      2211  9.973    22049
2     N2      1459 47.238    68920
3     R1      1596 25.459    40633
4     R2       258 25.054     6464
5     S1      2645 30.592    80915
6     S2      1609 27.134    43658
7     S3      4495 27.598   124052

這個結果是合理的嗎? 你想要怎麼修正這項分析的程序呢?

  • 數據顯示對已無多少價值的沉睡顧客S3使用此行銷工具,比對主力顧客R2的預期報酬還好超過20倍,實在不合理
  • 設定行銷工具的成本和效益應隨不同族群與過往經驗而變,當報償矩陣裡面的設定值發生變動後,得到的期望報酬也就不同
  • 可能修正的方向:
    • 新顧客群(N1,N2):
      • 由前面的觀察,N1族群的價值與S系列族群CLV差不多,他們是一群流動率很高的人,不需花費太多精力或花招去吸引他們,其投資報酬率太低
      • 相對起來,N2是一群很有潛力的族群,我們可以好好發展,培養他們成為主力客群,因此應投入較多的成本,我們預估在這裡的效益不錯,但不能確定多高
    • 主力顧客群(R1,R2):CLV最高的族群,他們忠實且穩定是我們最想留住並成長的對象,卻開始逐漸出現流失現象,因此應花最多成本在保留他們,增加其黏著度,其投資報酬率可以預見是相當高的。
    • 沉睡顧客群(S1,S2,S3):對於愈來愈龐大的沉睡顧客,我們很難再喚醒他們,最好的方式是從根本解決(不要讓R系列的流失),因此對於S系列,我們不打算投入太多成本


回到目錄



8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話,你可以做的分析包括:

一般而言,這一些分析的結果,足夠讓我們制定顧客發展和顧客保留策略;至於顧客吸收策略,我們通常還需要從CRM撈出顧客個人屬性資料才能做到。


回到目錄







---
title: "CVM：顧客價值管理 "
author: "第五組：施采彣、唐思琪、楊凱倫、陳怡安"
output: html_notebook
---

<br>

### <a id="top"><a/> 目錄

#### 章節筆記

[前言：從交易記錄到顧客價值](#n0) <br>
[1. 資料整理](#n1) <br>
[2. 層級式集群分析](#n2) <br>
[3. 規則分群](#n3) <br>
[4. 建立模型](#n4) <br>
[5. 估計顧客終生價值](#n5) <br>
[6. 設定行銷策略、規劃行銷工具](#n6) <br>
[7. 選擇行銷對象](#n7) <br>
[8. 結論](#n8) <br>

#### 小組重點整理
[1. 顧客價值管理流程圖](#g0) <br>
[2. RFM名詞解釋](#g1) <br>
[3. 泡泡圖分析](#g2) <br>
[4. 顧客分群命名](#g3) <br>
[5. 鯨魚圖](#g4) <br>
[6. lapply vs sapply](#g5) <br>
[7. CLV分析](#g6) <br>
[8. 行銷策略與工具](#g7) <br>
[9. QUIZ](#g8) <br>


<br><hr>

### <a id="n0"></a> 前言：從交易記錄到顧客價值

善用商業數據分析的工具和技巧，光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位)，我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃，包括：

+ **交易記錄分析**：
    + 敘述統計
    + 趨勢、交叉分析
    + 資料視覺化

+ **顧客群組與標籤**：
    + 集群分析
    + 群組屬性分析
    + 組間流動機率
    + 顧客(個人)流動機率


<center>

![圖一、顧客價值管理的層次](fig/fig1.png)

</center>

<br>從這一些分析我們可以看到公司主要的營收和獲利的重要來源，我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢；據此我們可以設定行銷的重點，決定行銷的策略，和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外，我們還可以利用這些簡單的交易紀錄：

+ **建立預測性模型**，預測每一位顧客的：
    + 保留機率
    + 預期營收
    + 組間變換機率
    + 下次可能購買時間

<br>利用這一些預測我們就可以進行全面客製化的： 

+ **顧客價值管理**：
    + 顧客終生價值
    + 顧客吸收策略
    + 顧客發展策略
    + 顧客保留策略

+ **針對性行銷**：
    + 設計行銷方案
    + 選擇行銷方案
    + 選擇行銷對象

<center>

 <a id="g0"></a>  
 
 ![圖二、顧客價值管理流程](fig/fig2.png)

</center>

<br>現在行銷重視客製化不同客戶的廣告，來達到精準行銷。主要有兩個階段：

+ 第一階段：先分群，做出不同隻面對不同消費族群的廣告
+ 第二階段：預測各族群中，有哪些人會點擊這個廣告，再對他投放

 <br>
 
[回到目錄](#top) <br>

<br><hr>

##### Setup 
```{r}
Sys.setlocale("LC_ALL","C")
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
```

##### Library
```{r echo=T, message=F, cache=F, warning=F}
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
library(googleVis)
library(chorddiag)
```
<br><hr>


### <a id="n1"></a> 1. 資料整理

##### 1.1 交易資料 (X)

+ 使用read.table()讀入資料，並設定欄位名稱
```{r}
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)        # 交易次數 51243  # x: transaction 
```

+ 長條圖顯示出交易數目逐年上升
+ 產生直方圖查看資料統計數量

```{r fig.height=3, fig.width=7.2}
par(cex=0.7)
hist(X$date, "years", las=1, freq=T, xlab="", main="No. Transaction by Year")
```

+ n_distinct即number of distinct，查看有幾個不一樣的值（多少個顧客）

```{r}
n_distinct(X$cid) # 18417
```

##### 1.2 顧客資料 (A)

+ 將截止日期(2016-01-01)距離交易日期的天數做為變數days，用來計算最近/最遠日購買，以及單一顧客總購買次數、平均購買金額
+ A: 顧客資料
+ 將「交易筆數」匯集成「顧客」
+ mutate: 長出一個新欄位

```{r}
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame
```

##### 1.4 顧客資料摘要
```{r}
summary(A)
```

##### <a id="g1"></a> 1.5 變數的分布狀況

+ recency：愈小表示顧客最近有來消費；愈大則代表很久沒來光顧
    + 左比右高，代表一直有顧客來消費
+ seniority：愈小是新進顧客；愈大則是老顧客
    + 第一次消費到截止日的時間會受到第一次日期影響，越短的消費日期不一定代表是一次性消費的顧客，可能會包含持續消費的顧客
    + 若要分析是否為忠誠顧客，必須考慮到消費頻率
+ frequency: 愈大表示顧客很常光顧(頻率高)
    + 消費次數多落在1次左右，而消費過10次的人也有，表示有忠實顧客群
+ money：一般做分析時，金錢相關的變數都需取log
    + 取10筆來進行log處理，x軸值再乘以10轉換成原始消費數字，消費金額多落在30元左右(1：10元, 1.5：30元, 2：100元, 2.5：300元, 3：1000元, 3.5：3000元)
+ 圖形上越長的條狀，是指該期間吸收很多新顧客
+ pmin()主要用途是設一個上限，並明確做出一個範圍

```{r fig.height=4, fig.width=8}
p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),main="log(money)",ylab="",xlab="")
```
 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n2"></a> 2. 層級式集群分析(靜態分群)

##### <a id="g2"></a> 2.1 RFM顧客分群

+ 依照統計方式分群
+ 1-10代表分10群，數字為族群大小
+ 資料量大，故做k-mean會比較保險
+ 集群分析，需要做距離矩陣

```{r}
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster   
table(A$grp)
```

##### 2.2 顧客群組屬性

+ 泡泡圖
    同時顯示4種屬性：x軸、y軸、大小（反映族群對店家的營收貢獻）、顏色
    + 除了能視覺化之外，泡泡隨時間的動態變化更重要
    + 藉由動態資料的方式（不要把全部的資料做aggration），能夠看到屬性隨著時間的變換
    + 以10年為例，可以依照不同年份年底做一次統計，這樣泡泡就會動（但可能每一年的分群規則都不一樣）
    + 泡泡圖圓圈裡的數字代表該族群有多少人
+ 我們最希望看到圈圈是紅色且出現在右上角
    + 頻率高
    + 客單價高
    + 最近有消費
+ 主力顧客群為：圓圈127
    + 重點放在保留這一族群的顧客
    + 希望提高他的購買頻率(往右拉)
    + 可採用促銷打折的行銷方案
+ 愈紅代表沉睡顧客，即將流失的顧客
+ X軸與Y軸分別放最重要的變數，並表示出各族群的貢獻
+ 選擇重要的變數來表達目前各族群顧客的活動狀況：

```{r fig.height=4.5, fig.width=8}
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")  
```
 <br>
 
[回到目錄](#top)

<br><hr>


### <a id="n3"></a> 3. 規則分群(動態趨勢)

##### 3.1 顧客分群規則

+ 設定顧客族群名稱
+ 依照該年度整體表現區分顧客群

```{r}
STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}
```

<a id="g3"></a> 

![圖三、顧客分群規則](fig/fig3.jfif)


+ N1：新顧客
+ N2：新潛力顧客
+ R1：主力顧客
+ R2：核心顧客
+ S1：瞌睡顧客
+ S2：半睡顧客
+ S3：沉睡顧客

<a id="g4"></a> 

![補充：鯨魚圖](fig/1.jpg)

+ 藍線是公司的累積獲利，依據顧客對公司獲利的貢獻度由大到小：
    + 淺藍色（頭）：讓公司獲利增加的顧客
        + 最理想的組合
        + 人數很少
        + 容易被搶走
        + 選擇性保留
    + 水藍色（背）：讓公司獲利打平的顧客
        + 幫助不大
        + 人數最多，產生規模經濟
        + 選擇性吸收
    + 深藍色（尾）：讓公司虧錢的顧客
        + 選擇性發展

<br>

##### 3.2 平均購買週期

+ 找「有購買過2次以上的購買顧客」的平均購買週期
+ 回購顧客的平均購買週期 `K = 521 days`，意思是平均兩年才買一次。
+ 也可以用實際的狀況來做分群，A$freq>1 是指購買頻率。

```{r}
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K
```

##### 3.3 滑動資料窗格

```{r}
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }    # 整個y，是一個迴圈變數，將所有dataframe置入
```

+ 每一個顧客，會隨時間而有不同的結果產生(「行銷滑水道」重點：水缸大小、水缸間流動的速度有多大)
+ 當有很多元件時，可以用這種Y$Y2015方法。
+ 同一個顧客值會不一樣。
```{r}
head(Y$Y2015)
```

##### 3.4 每年年底的累計顧客人數
```{r}
sapply(Y, nrow)   # list 配上 sapply，非常好用
```

##### 3.5 族群大小變化趨勢

+ 用sapply就是將Y每一個元素做nrow這個動作，並計算每年底這時間為止有多少資料總筆數。
+ s1(含)以下的皆為目前有消費行為的顧客
+ s3會從2010逐漸累積到2015，因此需要在分析時注意累積的問題
+ 活躍顧客：淺藍色以下(2014達到巔峰，後續便沒有什麼成長)

```{r fig.height=4, fig.width=8}
cols = c("gold","orange","blue","green","pink","magenta","darkred")
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))
```

##### 3.6 族群屬性動態分析
```{r}
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(      #以顧客族群做為分群標準，以下以族群為單位
    average_frequency = mean(freq),       #平均消費次數
    average_amount = mean(money),         #平均消費金額
    total_revenue = sum(y_revenue),       #總消費收益
    total_no_orders = sum(y_freq),        #所有消費次數
    average_recency = mean(recent),       #最後一次消費距今的平均天數
    average_seniority = mean(senior),     #第一次消費距今的平均天數
    group_size = n()                      #計算族群大小
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame   #以年區分各族群表現
head(CustSegments)
```

+ 依據客群與年份，顯示參數之間的動態泡泡圖
```{r eval=F}
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )
```


<center>


![圖四、顧客分群規則](fig/fig4.jfif)

<a id="g5"></a> 

![補充：apply系列公式](fig/2.jpg)

</center>

+ 因為用傳統的方式要重複做好幾遍，Debug不易，因此有了apply系列
+ Lapply和sapply本質上差不多（sapply是進階版）
    + Lapply會把回傳的資料放進一個list裡，list的elements可以是不同長度、資料型態或三個模型
    + Sapply會把回傳的資料，依據資料型態，自動生成一個vector或matrix

<br>

##### 3.7 族群屬性動態分析

+ 整合2014及2015年各族群消費資料
+ 流量矩陣(做一個table即可，可看到群間的流動數度)

```{r}
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx   
```

+ 可以做個table簡單的矩陣，以表現出目前流量比較

```{r}
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)，並計算到小數點第三位
```


##### 3.8 互動式流量分析

+ 各族群流量，包含流入、不變、流出
+ chore diagram（和弦圖、樂譜符號圖，可以變動，可以看出流數）
+ 圓周弧度：族群人數
+ 中間的小丘：保留在族群內的人
+ 中間的弧線：族群間流動的人數

```{r}
chorddiag(tx, groupColors=cols)     
```

![](fig/chord.jpg)

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n4"></a> 4. 建立模型

在這個案例裡面，我們的資料是收到Y2015年底，所以我們可以假設現在的時間是Y2015年底，我們想要用現有的資料建立模型，來預測每一位顧客：

+ 在Y2016年是否會來購買 (保留率：Retain)
+ 她來購買的話，會買多少錢 (購買金額：Revenue)

但是，我們並沒有Y2016的資料，為了要建立模型，我們需要先把時間回推一期，也就是說：

+ 用Y2014年底以前的資料整理出預測變數(X) 
+ 用Y2015年的資料整理出目標變數(Y) 

假如Y2016的情況(跟Y2015比)沒有太大的變化的話，接下來我們就可以

+ 使用該模型，以Y2015年底的資料，預測Y2016的狀況

##### 4.1 準備資料
我們用Y2014年底的資料做自變數，Y2015年的資料做應變數

+ y在2015的資料當中
+ left_join：2個資料框，類似查表的概念，結合兩個資料框，使用cid，把後面的資料抄到前面的資料(如果欄位表頭不一致，以left為主)
+ .x和.y：R當中自動加的
+ y_revenue.y：2015來買多少錢
+ y_freq.y：2015會不會來買

```{r}
CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid") 
head(CX)
```

+ X=Y$Y2014
  Y=Y$Y2015[,c(1,8,9)：1是cid，並用這個欄位來做建置。
+ left_join()兩邊都要有cid才有辦法做join，但如果我只有一列那我只留下左邊。
+ y_freq.x y_revenue.x y_freq.y 需要兩個Y，做類別變數。
+ 需要看2015年會不會再次購買，需要看y_freq.y，Retain (保留率)需要大於0

```{r}
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0      
head(CX)
```

+ Retain（）保留機率
  用y_revenue＝ｙ
+ Retai做類別模型的Ｙ
  Revenue做回歸模型的Ｙ

```{r}
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%
```

##### 4.2 建立類別模型
```{r}
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)
```

##### 4.3 估計類別模型的準確性

+ 混淆矩陣 (Confusion Matrix)  
```{r}
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
```

```{r}
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
```

```{r}
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
```

```{r fig.height=4, fig.width=4}
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))
```

##### 4.4 建立數量模型
```{r}
dx = subset(CX, Revenue > 0)   # 只對有來購買的人做模型(假如有來買的人，會買多少錢?)
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)   # 判定係數：R2 = 0.713   # 比較取了log（）的R-square
```

```{r fig.height=4.5, fig.width=4.5}
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 
```

+ Revenue要做線性模時必須log來做
+ 紅線是預測值，粉紅小圈圈是實際值

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n5"></a> 5. 估計顧客終生價值(CLV)

##### 5.1 Y2016的預測值

+ 因為沒有未來的資料，需要把時間往回推一期，也就是使用模型對Y2015年底的資料做預測，對資料   中的每一位顧客，預測她們在Y2016的保留率和購買金額。
```{r}
CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")
CX$ProbRetain = predict(mRet,CX,type='response')   # 預測Y2016保留率
CX$PredRevenue = exp(predict(mRev,CX))   # 預測Y2016購買金額
```

```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(5,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")   #顧客保留率落在0.1左右，這部分代表有些顧客消費並不頻繁
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")  #根據直方圖顯示，預測出來的總收益分布與原先的分布情況相似
```
<br>

##### 5.2 估計顧客終生價值(CLV)

<center>顧客$i$的終生價值</center>

$$ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t  $$

<center>

Assume顧客不會永遠忠實，因此採期數計算，由公式得出每個顧客對公司值多少錢：

</center>

<center>$m_i$、$r_i$：顧客$i$的預期(每期)營收貢獻、保留機率</center>

<center>$g$、$d$：公司的(稅前)營業利潤利率、資金成本</center>

```{r}
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
summary(CX$CLV)
```

```{r fig.height=2.5, fig.width=7.2}
par(mar=c(3,3,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")   # CLV是用錢算出來的，所以也是錢，需要用log來算   # 取log後所得的值約為30塊/一顧客
```

##### 5.3 比較各族群的價值

 <a id="g6"></a> 

+ 消費金額高的顧客不少（尾巴長）
+ 新顧客與沉睡顧客的價值差不多
+ 新顧客變成主力顧客的機率不大

```{r}
sapply(CX[,10:12], tapply, CX$status, mean)   # 各族群的平均營收貢獻、保留機率、終生價值
```

+ 新顧客(N1)跟睡著的顧客(S1、S2、S3)所帶給這間店的價值其實差不多

```{r}
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")
```

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n6"></a> 6. 設定行銷策略、規劃行銷工具

<a id="g7"></a> 

首先進行各族群的屬性統整，再設定行銷策略與工具。

+ 屬性分析
    + N1（新顧客）
        + CLV低
        + 人數些微浮動，大體一致
        + 流向S1 > N2 > R1（加總快一半）

    + N2（新潛力顧客）
        + CLV次高
        + 人數稍微有向上趨勢，但2015年又些微減少
        + 流向R2 > R1 > S1（加總一半）

    + R1（主力顧客）
        + CLV普通
        + 人數近年穩定
        + 快一半流向S1

    + R2（核心顧客）
        + CLV最高
        + 人數每年穩定
        + 少數流向R1

    + S1（瞌睡顧客）
        + CLV低
        + 人數稍微變多
        + 一半流向S2
        
    + S2（半睡顧客）
        + CLV低
        + 人數稍為減少
        + 三分之一流向S3

    + S3（沉睡顧客）
        + CLV低
        + 人數逐年上升
        + 大部分維持原地

    + 整體而言，各族群大小差不多
        + 惟S3偏大（介於整體四分到三分之一）
        + S1同N1次大
        + N2, R1與R2差不多
        + S2最少
+ 行銷策略與工具
    + S1, S2, S3正在逐漸擴大且不斷往S3前進，需要抑制此現象，可以藉由一般網路上的行銷工具增
      加品牌形象，或用廣告追蹤的方式，不斷露出與曝光，以增加該族群對品牌的印象。
    + R1也漸漸流失，應推出VIP及客製化等服務加強R1與R2的黏著度，並規劃短期促銷活動吸引其注
      意力，並可以使用的行銷工具，例如LINE+，可以針對主力客戶有專屬行銷方案，同時客戶可以
      用LINE+詢問並方便，業主增加與主力客戶的黏著力，以鞏固主力客戶的忠誠度。
    + 由於N1浮動率太大且無過多價值，不應花費太多時間在這些人身上
    + 但對於N2則不同，他們的CLV很高，但2015年人數卻突然下降，應將精力放在經營N2族群，可以
      透過FB粉絲團的經營方式，定期發送文案，並將品牌深化質感經營，以抓住N2消費者的經營。

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n7"></a> 7. 選擇行銷對象

給定某一行銷工具的成本和預期效益，選擇可以施行這項工具的對象。 

##### 7.1 對R2族群進行保留
R2族群的預測保留率和購買金額
```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")
```

##### 7.2 估計預期報酬
假設行銷工具的成本和預期效益為以下（給定假設）

+ 成本：藉由過去經驗所得到之行銷工具成本的假設數值
+ 效益：顧客接受到該行銷工具所產生的購買行為（下一期的購買機率）
```{r}
cost = 10        
effect = 0.75    
```

估計這項行銷工具對每一位R2顧客的預期報酬
```{r}
Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)   # 因為保留機率（ProbRetain）設定為0.75，即表示＞0.75的族群不能使用這支程式（會導致預期報償為負值）
```
+ 這一項工具對R2顧客的預期報酬是負的，商業數據分析不能用平均值做分析

##### 7.3 選擇行銷對象
但是，我們還是可以從R2中挑出許多預期報酬很大的行銷對象
```{r}
Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)  #找出ExpReturn前15名
```

+ 針對性行銷: 將決定下到每個人身上，而不再是以群體為分析對象，可以得到addition revenue

```{r}
sum(Target$ExpReturn > 0)       # 可實施對象：258
```
在R2之中，有258人的預期報酬大於零，如果對這258人使用這項工具，我們的期望報酬是：
```{r}
sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬：6464
```

##### <a id="g8"></a> QUIZ:
我們可以算出對所有的族群實施這項工具的期望報酬
```{r}
Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame
```
這個結果是合理的嗎？ 你想要怎麼修正這項分析的程序呢？

+ 數據顯示對已無多少價值的沉睡顧客S3使用此行銷工具，比對主力顧客R2的預期報酬還好超過20倍，實在不合理
+ 設定行銷工具的成本和效益應隨不同族群與過往經驗而變，當報償矩陣裡面的設定值發生變動後，得到的期望報酬也就不同
+ 可能修正的方向：
    + 新顧客群(N1,N2)：
        + 由前面的觀察，N1族群的價值與S系列族群CLV差不多，他們是一群流動率很高的人，不需花費太多精力或花招去吸引他們，其投資報酬率太低
        + 相對起來，N2是一群很有潛力的族群，我們可以好好發展，培養他們成為主力客群，因此應投入較多的成本，我們預估在這裡的效益不錯，但不能確定多高
    + 主力顧客群(R1,R2)：CLV最高的族群，他們忠實且穩定是我們最想留住並成長的對象，卻開始逐漸出現流失現象，因此應花最多成本在保留他們，增加其黏著度，其投資報酬率可以預見是相當高的。
    + 沉睡顧客群(S1,S2,S3)：對於愈來愈龐大的沉睡顧客，我們很難再喚醒他們，最好的方式是從根本解決(不要讓R系列的流失)，因此對於S系列，我們不打算投入太多成本
    
 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n8"></a> 8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話，你可以做的分析包括：

+ 全體顧客和每一個顧客分群的：
    + 族群大小與成長趨勢
    + 族群屬性分析：如平均CLV、平均營收貢獻、成長率、毛利率(需要有成本資料)等等
    + 組間流量和平均流動機率

+ 每一個顧客的：
    + 保留率、預期購買金額、終身價值
    + 目前所在群組，以及下一期會轉到個群組的機率
    + 如果有行銷工具的使用紀錄的話，我們也可以估計每一樣行銷工具、對每一位顧客的成功機率

一般而言，這一些分析的結果，足夠讓我們制定顧客發展和顧客保留策略；至於顧客吸收策略，我們通常還需要從CRM撈出顧客個人屬性資料才能做到。 

<br>
 
[回到目錄](#top)

<br><br><hr><br><br><br>

<style>
.caption {
  color: #777;
  margin-top: 10px;
}
p code {
  white-space: inherit;
}
pre {
  word-break: normal;
  word-wrap: normal;
  line-height: 1;
}
pre code {
  white-space: inherit;
}
p,li {
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

.r{
  line-height: 1.2;
}

title{
  color: #cc0000;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

body{
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h1,h2,h3,h4,h5{
  color: #008800;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h3{
  color: #008800;
  background: #e6ffe6;
  line-height: 2;
  font-weight: bold;
}

h5{
  color: #006000;
  background: #f8f8f8;
  line-height: 1.5;
  font-weight: bold;
}

em{
  color: #0000c0;
  background: #f0f0f0;
  }
</style>