前言:從交易記錄到顧客價值

善用商業數據分析的工具和技巧,光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位),我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃,包括:

圖一、顧客價值管理的層次

圖一、顧客價值管理的層次


從這一些分析我們可以看到公司主要的營收和獲利的重要來源,我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢;據此我們可以設定行銷的重點,決定行銷的策略,和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外,我們還可以利用這些簡單的交易紀錄:


利用這一些預測我們就可以進行全面客製化的:

圖二、顧客價值管理流程

圖二、顧客價值管理流程



Setup
Sys.setlocale("LC_ALL","C")
[1] "C"
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
Library
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
library(googleVis)
library(chorddiag)


1 1. 資料整理

1.1 交易資料 (X)
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)                  # 交易次數 51243
      cid             amount          date           
 Min.   :    10   Min.   :   5   Min.   :2005-01-02  
 1st Qu.: 57720   1st Qu.:  25   1st Qu.:2009-01-17  
 Median :102440   Median :  30   Median :2011-11-23  
 Mean   :108935   Mean   :  62   Mean   :2011-07-14  
 3rd Qu.:160525   3rd Qu.:  60   3rd Qu.:2013-12-29  
 Max.   :264200   Max.   :4500   Max.   :2015-12-31  

程式碼說明

  • 將檔案讀進table,header=FALSE,代表檔案沒有變數名稱,sep=‘’,代表依照,stringsAsFactors=F,代表不用變成類別。
  • names(X) = c(‘cid’,‘amount’,‘date’),將變數取名
  • X\(date = as.Date(X\)date)將檔案中日期轉成r中的日期格式

執行意涵

  • 讀取檔案是第一步也是最重要的一步,在一開始將檔案格式整理切分後,可以有利後面資料分析進行,是簡單但重要的一個步驟。
par(cex=0.8)
hist(X$date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year")

程式碼說明

  • par(cex=0.8),設定文字和符號的字體大小
  • hist(X\(date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year"),用X\)date作為x軸,freq=T,以頻率來計算,並用每一年作為切分,las=2,顯示y軸的呈現方法,xlab=“”,xlab不取名,main=“No. Transaction by Year”,這張圖的名稱。

執行意涵

  • 視覺化資料幫助我們更加快速觀察資料提供給我們的訊息,從圖中我們可以看出,交易次數逐年攀升。
n_distinct(X$cid)           # 顧客數 18417
[1] 18417

程式碼說明

  • n_distinct(X$cid),n_distinct()這個function會找出不重複的項目,在這筆資料中有許多顧客編碼是重複的,透過這個步驟我們可以算出顧客數。

執行意涵

  • 觀察顧客總數
1.2 顧客資料 (A)
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame

程式碼說明

  • mutate(days = as.integer(as.Date(“2016-01-01”) - date))創造一個新的變數days,內容為2016-01-01 - 交易發生的日期,先用日期格式來計算,再使用as.integer轉成數字格式。
  • group_by(cid)綁住顧客編碼
  • 將新增的變數一起轉成data.frame A

執行意涵

  • 觀察個別顧客的消費行為,透過新增許多變數,能幫助我們後面的分析。
1.4 顧客資料摘要
summary(A)
      cid             recent          freq           money     
 Min.   :    10   Min.   :   1   Min.   : 1.00   Min.   :   5  
 1st Qu.: 81990   1st Qu.: 244   1st Qu.: 1.00   1st Qu.:  22  
 Median :136430   Median :1070   Median : 2.00   Median :  30  
 Mean   :137574   Mean   :1253   Mean   : 2.78   Mean   :  58  
 3rd Qu.:195100   3rd Qu.:2130   3rd Qu.: 3.00   3rd Qu.:  50  
 Max.   :264200   Max.   :4014   Max.   :45.00   Max.   :4500  
     senior         since           
 Min.   :   1   Min.   :2005-01-02  
 1st Qu.: 988   1st Qu.:2007-10-23  
 Median :2087   Median :2010-04-15  
 Mean   :1984   Mean   :2010-07-26  
 3rd Qu.:2992   3rd Qu.:2013-04-18  
 Max.   :4016   Max.   :2015-12-31  
1.5 變數的分布狀況
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +     #泡泡大小→營收貢獻 泡泡內文字→佔多少人 
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")

程式碼說明

  • p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2)),cex設定字體大小,mfrow設定圖的排列方式,mar設定圖的邊框大小。
  • hist(A$recent,20,main=“recency”,ylab=“”,xlab=“”),繪製顧客最近購買據今天數的柱狀圖,20根柱子,標題為recency,x和y軸都不取名子。
  • hist(pmin(A\(freq, 10),0:10,main="frequency",ylab="",xlab=""),繪製顧客購買次數的柱狀圖,pmin(A\)freq, 10)將freq取pmin10,高於10次都以10次計算,0:10,設定x軸值,標題為frequency,x和y軸都不取名。
  • hist(A$senior,20,main=“seniority”,ylab=“”,xlab=“”),繪製顧客第一次購買據今天數的柱狀圖,20根柱子,標題為seniority,x和y軸都不取名子。
  • hist(log(A$money,10),,main=“log(money)”,ylab=“”,xlab=“”),繪製顧客平均購買金額柱狀圖,將money取log,標題為log(money),x和y軸都不取名子。

執行意涵

  • 將四項變數資料視覺化,可以觀察出各變數的分布狀況。


2. 層級式集群分析

2.1 RFM顧客分群
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster
table(A$grp)  # 族群大小

   1    2    3    4    5    6    7    8    9   10 
1073 2266 1296 2237 3207 1942 1781 2392 2096  127 

程式碼說明

  • A\(grp = kmeans(scale(A[,2:4]),10)\)cluster,將A中變數2到4取常態分佈,接著使用kmeans將它分成10群,接著將他cluster的分布存進新的變數grp
  • table(A$grp),將每一群數量分佈印出來。

執行意涵

  • 分群後方便後面預測
2.2 顧客群組屬性
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }

程式碼說明

  • group_by(A, grp) %>% summarise(recent=mean(recent), freq=mean(freq),money=mean(money), size=n(),先將A資料格式group by grp,代表後面summarise時以group來計算,後面將最近購買距今天數、 購買次數、金額三樣數據取平均,size=n()算出每群的大小。
  • mutate( revenue = size*money/1000 )%>% filter(size > 1)新增一個變數為revenue,並將計算出來size > 1的塞出來
  • ggplot(aes(x=freq, y=money)) + geom_point(aes(size=revenue, col=recent),alpha=0.5) + scale_size(range=c(4,30)) + scale_color_gradient(low=“green”,high=“red”) + scale_x_log10() + scale_y_log10(limits=c(30,3000)) + geom_text(aes(label = size ),size=3) + theme_bw() + guides(size=F) + labs(title=“Customer Segements”, subtitle=“(bubble_size:revenue_contribution; text:group_size)”, color=“Recency”) + xlab(“Frequency (log)”) + ylab(“Average Transaction Amount (log)”) 用ggplot來繪製,x軸放平均購買次數,y放平均購買金額,圖形上的點,大小為利潤貢獻,顏色為平均最近購買據今天數,透明度0.5,圓圈大小為430,調色為數值越低為綠色,越高為紅色,x和y軸的值取log10,y的原本值設定在303000間,篩掉離群值,字體大小設定為3,主題設定為bw,最後再幫圖檔取名,X軸Y軸取名。

執行意涵

  • 透過將不同群顧客的消費習性透過視覺化分類出來,可以讓我們快速發現他們差異,並有利我們之後針對不同群顧客執行不同行銷策略。

3. 規則分群

3.1 顧客分群規則

r{r eval=F}


<!-- rnb-source-end -->

<!-- rnb-output-begin eyJkYXRhIjoiRXJyb3I6IGF0dGVtcHQgdG8gdXNlIHplcm8tbGVuZ3RoIHZhcmlhYmxlIG5hbWVcbiJ9 -->

Error: attempt to use zero-length variable name ```

程式碼說明

  • STS = c(“N1”,“N2”,“R1”,“R2”,“S1”,“S2”,“S3”),建立一個向量
  • 建立Statusfunction,sx<2k成立前提下,且fx*mx成立,為N2,不是則為N1,若sx<2*k不成立前提下,rx<2*K成立,且sx/fx<0.75成立,為R2,不是則為R1,若rx<2*K不成立且rx<3*K,為S1,若上述皆不成立,rx<4*K為S2,不成立則為S3

執行意涵

  • 先將顧客分群條件設定好,有利後面顧客分析。

圖三、顧客分群規則

3.2 平均購買週期
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K
[1] 521

回購顧客的平均購買週期 K = 521 days

程式碼說明

  • 將購買次數大於一顧客的第一次距今購買天數/購買次數大於一顧客的總來店次數。

執行意涵

  • 計算出回購顧客的平均購買週期。
3.3 滑動資料窗格
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }

程式碼說明

  • for(y in 2010:2015)建立一個迴圈,y會從2010到2015執行下面那段程式碼。
  • D = as.Date(paste0(c(y, y-1),“-12-31”)),paste0會消除年份接月份時sep=“”那個空白,印出來的日期會有兩個,分別是前一年和今年的12月31日,ex:“2015-12-31” “2014-12-31”,再轉成日期格式。
  • 建立一個空的LIST,每年年底將顧客資料彙整成一個資料框,當期、前期的期末日期 ,從交易資料做起,將資料切齊到期末日期,交易距期末天數,依顧客彙總 …,最後一次購買距期末天數,購買次數 (至期末為止),平均購買金額 (至期末為止),第一次購買距期末天數,期末狀態,第一次購買日期,當期購買次數,當期購買金額。

執行意涵

  • 將資料按年份切割,可以做出來每一年個別的分析,方便之後預測下一年的顧客消費行為。
head(Y$Y2015)

程式碼說明

  • 印出2015年前五筆資料

執行意涵

  • 觀察2015年前五筆資料 ##### 3.4 每年年底的累計顧客人數
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
       
        FALSE  TRUE
  FALSE 12045  1530
  TRUE    974  2356
# 混淆矩陣 (Confusion Matrix)  

程式碼說明

  • 使用sapply將Y lsit中六個data frame 的row數量印出來。

執行意涵

  • 觀察6年來的顧客總數量
3.5 族群大小變化趨勢
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))

程式碼說明

  • 先設定一個顏色的向量,將每個Y裡的data frame的status數量視覺化,顏色為向量設定的顏色,接著加入旁篇的調色條,將STS和cols都倒過來。

執行意涵

  • 視覺化每一年份不同status的數量
3.6 族群屬性動態分析
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(
    average_frequency = mean(freq),
    average_amount = mean(money),
    total_revenue = sum(y_revenue),
    total_no_orders = sum(y_freq),
    average_recency = mean(recent),
    average_seniority = mean(senior),
    group_size = n()
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame
head(CustSegments)

程式碼說明

  • 將y裡的data frame 依照status囊總,算出平均來店次數、平均購買金額、平均當期利潤、當期購買總次數、平均最近距今購買天數、平均第一次到店距今天數和每一群人數,接著再將群組打散,將2010到2015重複6次對應7個不同status,把格式存成data.frame,然後印出前6行

執行意涵

  • 將6年每個status的變化做成data.frame,以利在後面視覺化分析。
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )

程式碼說明

  • 用剛剛status資料繪製互動泡泡圖,status依照年做變化,設定長900D、寬600。

執行意涵

  • 視覺化觀察每一年不同status的變化。
3.7 族群屬性動態分析
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
summary(CX$CLV)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      3      16      24      51      45    5094 

程式碼說明

  • 將Y list中2014和2015年的cid和status,用cid囊括
  • 接著將他們兩個擺進table分析,2014到2015年status的轉變,並把他存進data.frame中

執行意涵

  • 將他變成流量矩陣,以利觀察status的變化。
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)
      N1    N2    R1    R2    S1    S2    S3
N1 0.549 0.123 0.046 0.014 0.268 0.000 0.000
N2 0.000 0.541 0.128 0.206 0.126 0.000 0.000
R1 0.000 0.000 0.590 0.020 0.390 0.000 0.000
R2 0.000 0.000 0.099 0.864 0.037 0.000 0.000
S1 0.000 0.000 0.059 0.002 0.417 0.523 0.000
S2 0.000 0.000 0.037 0.000 0.000 0.328 0.635
S3 0.000 0.000 0.028 0.000 0.000 0.000 0.972

程式碼說明

  • 將流量矩陣丟進prob.table,採機率形式表現,取到小數點後三位

執行意涵

  • 以機率形式表示2014到2015年,status的機率轉變。
3.8 互動式流量分析
chorddiag(tx, groupColors=cols)

程式碼說明

  • 將流量矩陣丟進互動式流量分析,顏色使用剛剛設定的顏色向量

執行意涵

  • 用互動式流量分析圖,能將流量矩陣用視覺化呈現,以利分析。


4. 建立模型

在這個案例裡面,我們的資料是收到Y2015年底,所以我們可以假設現在的時間是Y2015年底,我們想要用現有的資料建立模型,來預測每一位顧客:

但是,我們並沒有Y2016的資料,為了要建立模型,我們需要先把時間回推一期,也就是說:

假如Y2016的情況(跟Y2015比)沒有太大的變化的話,接下來我們就可以

4.1 準備資料

我們用Y2014年底的資料做自變數,Y2015年的資料做應變數

sum(Target$ExpReturn > 0)                 # 可實施對象:258
[1] 258

程式碼說明

  • CX = left_join(Y\(Y2014, Y\)Y2015[,c(1,8,9)], by=“cid”)
  • 將 2014 年消費者全部的資料與 2015 年消費者僅消費頻率及消費額的資料,以 cid 作為對照合併

執行意涵

  • 將建立模型時所需要的自變數 ( 2014 資料 ) 以及應變數 ( 2015 資料 ) 合併為一個 data.frame 以利後續建模使用。
Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame

程式碼說明

  • names(CX)[8:11] = c(“freq0”,“revenue0”,“Retain”, “Revenue”)
  • 重新命名合併過後被系統自動命名的變數。
  • CX\(Retain = CX\)Retain > 0
  • 將第二年消費次數非 0 次的顧客判定為 Retain = TRUE。

執行意涵

  • 將 CX 資料框內的資料處理成接下來建模所需要的格式。
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%

 FALSE   TRUE 
0.7701 0.2299 

程式碼說明

  • table(CX$Retain) %>% prop.table()
  • 將 CX 中的 Retain 變數中的 T/F 比例計算出來。

執行意涵

  • 初步了解 2015 年還剩下多少比例的顧客。
4.2 建立類別模型
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)

Call:
glm(formula = Retain ~ ., family = binomial(), data = CX[, c(2:3, 
    6, 8:10)])

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-3.689  -0.473  -0.298  -0.142   3.386  

Coefficients:
             Estimate Std. Error z value        Pr(>|z|)    
(Intercept) -1.074007   0.089431  -12.01         < 2e-16 ***
recent      -0.002067   0.000131  -15.73         < 2e-16 ***
freq         0.095217   0.013882    6.86 0.0000000000069 ***
statusN2     0.669429   0.070234    9.53         < 2e-16 ***
statusR1     0.488321   0.084389    5.79 0.0000000071864 ***
statusR2     1.290002   0.110841   11.64         < 2e-16 ***
statusS1     0.670604   0.146532    4.58 0.0000047279944 ***
statusS2     1.353554   0.208210    6.50 0.0000000000798 ***
statusS3     2.573689   0.275786    9.33         < 2e-16 ***
freq0        0.566557   0.065532    8.65         < 2e-16 ***
revenue0    -0.000132   0.000135   -0.98            0.33    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18228  on 16904  degrees of freedom
Residual deviance: 11766  on 16894  degrees of freedom
AIC: 11788

Number of Fisher Scoring iterations: 6

程式碼說明

  • mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
  • 建立羅吉斯模型。自變數為 recent、freq、status、freq0、revenue0,應變數為 Retain。

執行意涵

  • 建立一個以 2014 年顧客資料來預測 2015 年該顧客是否會來消費的羅吉斯模型。
4.3 估計類別模型的準確性
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
       
        FALSE  TRUE
  FALSE 12045  1530
  TRUE    974  2356
# 混淆矩陣 (Confusion Matrix)  

程式碼說明

  • pred = predict(mRet,type=“response”)
  • 將前述步驟所建立的模型其觀察值的預測值全部存到變數 pred 中。
  • table(pred>0.5,CX$Retain)
  • 將類別預測值與實際發生值轉換為混淆矩陣。

執行意涵

  • 計算混淆矩陣可以幫助我們了解模型的預測表現如何。
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
[1] 0.8519
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
                 [,1]
FALSE vs. TRUE 0.8792

程式碼說明

  • table(pred>0.5,CX$Retain) %>% {sum(diag(.))/sum(.)}
  • 將類別預測值與實際發生值轉換為混淆矩陣,並計算 ACC ( 正確率 )。
  • colAUC(pred,CX$Retain)
  • 將類別預測值與實際發生值轉換為 AUC ( 辨識率 )。

執行意涵

  • 計算 ACC 及 AUC 能讓我們直觀地了解此模型的預測表現,並能夠與其他模型作比較。
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))

程式碼說明

  • prediction(pred, CX$Retain) %>% performance(“tpr”, “fpr”) %>% plot(print.cutoffs.at=seq(0,1,0.1))
  • 將類別預測值與實際發生值其 TPR、FPR 繪製成圖,threshold 從 0 ~ 1 之間每 0.1 繪製一個點,再連成如上圖之 ROC 曲線。

執行意涵

  • 繪製 ROC 曲線。此舉能夠幫助模型使用者了解模型的預測表現,並能夠使模型使用者依 TPR、FPR 挑出能夠接受之 threshold 值。
4.4 建立數量模型
dx = subset(CX, Revenue > 0)  # 只對有來購買的人做模型
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)                 # 判定係數:R2 = 0.713

Call:
lm(formula = log(Revenue) ~ recent + freq + log(1 + money) + 
    senior + status + freq0 + log(1 + revenue0), data = dx)

Residuals:
   Min     1Q Median     3Q    Max 
-3.245 -0.209 -0.067  0.205  3.435 

Coefficients:
                    Estimate Std. Error t value         Pr(>|t|)    
(Intercept)        0.0587930  0.0458344    1.28           0.1997    
recent             0.0003541  0.0000507    6.98 0.00000000000337 ***
freq               0.0526850  0.0046504   11.33          < 2e-16 ***
log(1 + money)     0.9320818  0.0135203   68.94          < 2e-16 ***
senior            -0.0001369  0.0000182   -7.52 0.00000000000007 ***
statusN2           0.0127716  0.0262656    0.49           0.6268    
statusR1           0.1927532  0.0407579    4.73 0.00000233405019 ***
statusR2           0.0297685  0.0352479    0.84           0.3984    
statusS1           0.0082406  0.0630355    0.13           0.8960    
statusS2          -0.2406398  0.0865731   -2.78           0.0055 ** 
statusS3          -0.3667341  0.1181061   -3.11           0.0019 ** 
freq0              0.0103133  0.0172551    0.60           0.5501    
log(1 + revenue0)  0.0632756  0.0094003    6.73 0.00000000001930 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.463 on 3873 degrees of freedom
Multiple R-squared:  0.713, Adjusted R-squared:  0.712 
F-statistic:  802 on 12 and 3873 DF,  p-value: <2e-16

程式碼說明

  • dx = subset(CX, Revenue > 0)
  • 將原先的資料框 CX 取子集,只要 2015 有來消費的顧客觀察值即可。
  • mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior + status + freq0 + log(1+revenue0), dx)
  • 建立一般線性模型,自變數為 recent、freq、log(1+money)、senior、status、freq0、log(1+revenue0),應變數為 log(Revenue)。money 及 revenue0 兩個變數額外 + 1 是為了避免該值 < 1 會造成取對數後數值為負。

執行意涵

  • 對 2015 年仍然有來消費的顧客建立「會花費多少金額」的一般線性數量預測模型。
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 

程式碼說明

  • plot(log(dx$Revenue), predict(mRev), col=‘pink’, cex=0.65)
  • 將預測值對實際發生值繪製散佈圖,顏色設定為 pink,大小調整為 0.65
  • abline(0,1,col=‘red’)
  • 繪製一條紅色的 45 度線做為對照。

執行意涵

  • 繪製一張散佈圖來觀察此模型的預測結果與實際觀測值的差距。


5. 估計顧客終生價值

5.1 Y2016的預測值

使用模型對Y2015年底的資料做預測,對資料中的每一位顧客,預測她們在Y2016的保留率和購買金額。

CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")
# 預測Y2016保留率
CX$ProbRetain = predict(mRet,CX,type='response')
# 預測Y2016購買金額
CX$PredRevenue = exp(predict(mRev,CX))

程式碼說明

  • CX = Y$Y2015 ; names(CX)[8:9] = c(“freq0”,“revenue0”)
  • 將資料框 CX 的資料更改為 2015 年的資料,並將變數欄位 8、9 更改為模型可以認知的名稱 freq0 及 revenue0。
  • CX$ProbRetain = predict(mRet,CX,type=‘response’)
  • 將類別預測模型 ( 2016 年是否會來消費 ) 預測的結果存為 CX 中的 ProbRetain。
  • CX$PredRevenue = exp(predict(mRev,CX))
  • 將數量預測模型 ( 2016 年會消費多少金額 ) 預測的結果存為 CX 中的 PredRevenue。

執行意涵

  • 將 2015 年的顧客資料丟入我們於第四部分所建立的兩個預測模型,分別預測顧客於 2016 年是否會來消費,以及如果會來消費,其消費金額是多少。
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")

程式碼說明

  • par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
  • 基礎繪圖設定,接下來的圖為一列兩行併為一張圖,邊界為 4,3,3,2,整體大小為 0.8。
  • hist(CX$ProbRetain,main=“ProbRetain”, ylab=“”)
  • 繪製第一個模型的預測結果柱狀圖。
  • hist(log(CX$PredRevenue,10),main=“log(PredRevenue)”, ylab=“”)
  • 繪製第二個模型的預測結果柱狀圖。注意金額的數字有取 log10。

執行意涵

  • 將預測結果以柱狀圖表示,能夠觀察兩個模型預測出來的結果分佈。如第一個模型預測今年的這些顧客於明年會來消費的機率大部分趨近於 0;而消費金額大部分落於 1.5 ( 也就是原始數值 31.62 ) 左右。


5.2 估計顧客終生價值(CLV)
顧客\(i\)的終生價值

\[ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t \]

\(m_i\)\(r_i\):顧客\(i\)的預期(每期)營收貢獻、保留機率
\(g\)\(d\):公司的(稅前)營業利潤利率、資金成本
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
summary(CX$CLV)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      3      16      24      51      45    5094 

程式碼說明

  • CX\(CLV = g * CX\)PredRevenue * rowSums(sapply(0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
  • 計算顧客終生價值 : 將獲利率乘上預期獲利,再乘上未來五年預期保留率的現值總和。

執行意涵

  • 計算顧客終生價值能夠讓我們了解每一個顧客的潛在價值有多大 ( 在這個題目我們計算了五年 )。
par(mar=c(2,2,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")

程式碼說明

  • par(mar=c(2,2,3,1), cex=0.8)
  • 基礎繪圖設定,接下來的圖邊界為 2,2,3,1,整體大小為 0.8。
  • hist(log(CX$CLV,10), xlab=“”, ylab=“”)
  • 繪製顧客終生價值的柱狀圖。注意這邊的「價值」也有取 log10。

執行意涵

  • 將顧客終生價值繪製成柱狀圖,能夠更直觀地看到顧客普遍帶給公司的價值在哪些區段。
5.3 比較各族群的價值
# 各族群的平均營收貢獻、保留機率、終生價值
sapply(CX[,10:12], tapply, CX$status, mean)
   ProbRetain PredRevenue    CLV
N1    0.20269       31.98  20.17
N2    0.44075      131.23 110.89
R1    0.34150       69.85  54.60
R2    0.74925       91.27 136.31
S1    0.05724       56.10  29.66
S2    0.03475       49.48  25.58
S3    0.02326       49.36  25.17

程式碼說明

  • sapply(CX[,10:12], tapply, CX$status, mean)
  • 將變數 10 ~ 12 ( 兩個預測結果與顧客終生價值 ) 根據不同的消費者狀態分組,計算其平均值。

執行意涵

  • 透過彙整成表格,能夠直接地看到每一個狀態下的消費者其平均保留機率、預計花費以及終生價值,有助於了解每個消費者狀態的性質與對其進行策略擬定。
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")

程式碼說明

  • par(mar=c(3,3,4,2), cex=0.8)
  • 基礎繪圖設定,接下來的圖邊界為 3,3,4,2,整體大小為 0.8。
  • boxplot(log(CLV)~status, CX, main=“CLV by Groups”)
  • 繪製顧客終生價值對顧客狀態分群的盒狀圖。

執行意涵

  • 從盒狀圖中可以看到不同的顧客狀態,其終生價值的分佈狀況。


6. 設定行銷策略、規劃行銷工具

行銷策略設定

行銷工具規劃

7. 選擇行銷對象

給定某一行銷工具的成本和預期效益,選擇可以施行這項工具的對象。

7.1 對R2族群進行保留

R2族群的預測保留率和購買金額

par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")

程式碼說明

  • 首先先用par(),對於圖表的格式進行調整,方便觀察。
  • 接著hist()畫出長條圖,觀察R2族群的預測保留率以及預測消費金額,對於消費金額取log使其呈現常態分佈,驗證結果正確性。
  • 在ProbRetain當中x軸為機率,y軸為顧客數量,在PredRevenue中x軸為消費金額,y軸為顧客數量。

執行意涵

  • 透過視覺化的動作將目標族群R2的預測保留率以及預測消費金額更加容易觀察。
7.2 估計預期報酬

假設行銷工具的成本和預期效益為

cost = 10        # 成本
effect = 0.75    # 效益:下一期的購買機率

估計這項行銷工具對每一位R2顧客的預期報酬

Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -515.8   -15.4   -11.5   -10.3    -8.1   646.9 

這一項工具對R2顧客的預期報酬是負的

程式碼說明

  • 先設定我們的預期效益、執行成本為多少。
  • subset出一個新的子集(關於R2群顧客的消費資料),建立成Target。
  • 建立ExpReturn預期報酬,也就是報酬扣掉cost成本,接著summary出結果。

執行意涵

  • 估計使用此行銷工具對每一位R2顧客能給店裡帶來的預期報酬是否是好的,若不好則再選擇其他更適合的行銷工具。
7.3 選擇行銷對象

但是,我們還是可以挑出許多預期報酬很大的行銷對象

Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)
sum(Target$ExpReturn > 0)                 # 可實施對象:258
[1] 258

在R2之中,有258人的預期報酬大於零,如果對這258人使用這項工具,我們的期望報酬是:

sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬:6464
[1] 6464

程式碼說明

  • 從Target中依照降冪排列的方式選擇最前面的15筆資料(資料中是含有顧客以及預期報酬的)。
  • 接著加總所有預期報酬為正值的顧客數量。
  • 最後加總所有預期報酬為正值的顧客之預期報酬,得到使用此項工具的總最大預期報酬。

執行意涵

  • 雖然我們得到了平均為負值的結果,但我們可以透過“選擇”的方式去找出預期報酬為正值的R2顧客,並且針對這些報酬為正的顧客使用此項行銷工具,得到最好的預期報酬總值。



QUIZ:

我們可以算出對所有的族群實施這項工具的期望報酬 …

Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame

這個結果是合理的嗎? 你想要怎麼修正這項分析的程序呢?

不合理

  • 其效益(加成方法)為定值0.75,但因為族群不同,貢獻效益也不同,故算出來的數值會有落差,應採用比率的方式較為客觀。
  • 若行銷的邊際成本低(像是電子檔DM),則應可以全部的顧客都發,其成本會隨著數量增加而降低,此結果應不符合現實。



8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話,你可以做的分析包括:

一般而言,這一些分析的結果,足夠讓我們制定顧客發展和顧客保留策略;至於顧客吸收策略,我們通常還需要從CRM撈出顧客個人屬性資料才能做到。







---
title: "CVM：顧客價值管理 "
author: "Group 2 , 2018/08/15"
output: html_notebook
---

<br>

### 前言：從交易記錄到顧客價值

善用商業數據分析的工具和技巧，光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位)，我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃，包括：

+ **交易記錄分析**：
    + 敘述統計
    + 趨勢、交叉分析
    + 資料視覺化

+ **顧客群組與標籤**：
    + 集群分析
    + 群組屬性分析
    + 組間流動機率
    + 顧客(個人)流動機率


<center>

![圖一、顧客價值管理的層次](fig/fig1.png)

</center>

<br>從這一些分析我們可以看到公司主要的營收和獲利的重要來源，我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢；據此我們可以設定行銷的重點，決定行銷的策略，和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外，我們還可以利用這些簡單的交易紀錄：

+ **建立預測性模型**，預測每一位顧客的：
    + 保留機率
    + 預期營收
    + 組間變換機率
    + 下次可能購買時間

<br>利用這一些預測我們就可以進行全面客製化的： 

+ **顧客價值管理**：
    + 顧客終生價值
    + 顧客吸收策略
    + 顧客發展策略
    + 顧客保留策略

+ **針對性行銷**：
    + 設計行銷方案
    + 選擇行銷方案
    + 選擇行銷對象


<center>

![圖二、顧客價值管理流程](fig/fig2.png)

</center>



<br><hr>

##### Setup 
```{r}
Sys.setlocale("LC_ALL","C")
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
```

+

##### Library
```{r echo=T, message=F, cache=F, warning=F}
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
library(googleVis)
library(chorddiag)
```
<br><hr>

### 1 1. 資料整理

##### 1.1 交易資料 (X)
```{r}
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)                  # 交易次數 51243
```
 **程式碼說明**
 
+ 將檔案讀進table,header=FALSE，代表檔案沒有變數名稱，sep='\t'，代表依照\t來切分檔案，stringsAsFactors=F，代表不用變成類別。
+ names(X) = c('cid','amount','date')，將變數取名
+ X$date = as.Date(X$date)將檔案中日期轉成r中的日期格式

 **執行意涵**
 
+ 讀取檔案是第一步也是最重要的一步，在一開始將檔案格式整理切分後，可以有利後面資料分析進行，是簡單但重要的一個步驟。

```{r fig.height=3, fig.width=7.2}
par(cex=0.8)
hist(X$date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year")
```
 **程式碼說明**
 
+ par(cex=0.8)，設定文字和符號的字體大小
+ hist(X$date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year")，用X$date作為x軸,freq=T,以頻率來計算，並用每一年作為切分，las=2，顯示y軸的呈現方法，xlab=""，xlab不取名，main="No. Transaction by Year"，這張圖的名稱。
 
 **執行意涵**
 
+ 視覺化資料幫助我們更加快速觀察資料提供給我們的訊息，從圖中我們可以看出，交易次數逐年攀升。
```{r}
n_distinct(X$cid)           # 顧客數 18417
```
 **程式碼說明**

+ n_distinct(X$cid)，n_distinct()這個function會找出不重複的項目，在這筆資料中有許多顧客編碼是重複的，透過這個步驟我們可以算出顧客數。

 **執行意涵**
 
+ 觀察顧客總數

##### 1.2 顧客資料 (A)
```{r}
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame
```
 **程式碼說明**
 
 + mutate(days = as.integer(as.Date("2016-01-01") - date))創造一個新的變數days，內容為2016-01-01 - 交易發生的日期，先用日期格式來計算，再使用as.integer轉成數字格式。
 + group_by(cid)綁住顧客編碼
 + 將新增的變數一起轉成data.frame A 
 
 **執行意涵**
 
 + 觀察個別顧客的消費行為，透過新增許多變數，能幫助我們後面的分析。
 
##### 1.4 顧客資料摘要
```{r}
summary(A)
```

##### 1.5 變數的分布狀況
```{r fig.height=4, fig.width=8}
p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),,main="log(money)",ylab="",xlab="")
```
 **程式碼說明**
 
+ p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))，cex設定字體大小，mfrow設定圖的排列方式，mar設定圖的邊框大小。
+ hist(A$recent,20,main="recency",ylab="",xlab="")，繪製顧客最近購買據今天數的柱狀圖，20根柱子，標題為recency，x和y軸都不取名子。
+ hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")，繪製顧客購買次數的柱狀圖，pmin(A$freq, 10)將freq取pmin10，高於10次都以10次計算，0:10，設定x軸值，標題為frequency，x和y軸都不取名。
+ hist(A$senior,20,main="seniority",ylab="",xlab="")，繪製顧客第一次購買據今天數的柱狀圖，20根柱子，標題為seniority，x和y軸都不取名子。
+ hist(log(A$money,10),,main="log(money)",ylab="",xlab="")，繪製顧客平均購買金額柱狀圖，將money取log，標題為log(money)，x和y軸都不取名子。

 **執行意涵**

+ 將四項變數資料視覺化，可以觀察出各變數的分布狀況。

<br><hr>


### 2. 層級式集群分析

##### 2.1 RFM顧客分群
```{r}
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster
table(A$grp)  # 族群大小
```
 **程式碼說明**
 
+ A$grp = kmeans(scale(A[,2:4]),10)$cluster，將A中變數2到4取常態分佈，接著使用kmeans將它分成10群，接著將他cluster的分布存進新的變數grp
+ table(A$grp)，將每一群數量分佈印出來。

 **執行意涵**

+ 分群後方便後面預測

##### 2.2 顧客群組屬性
```{r fig.height=4.5, fig.width=8}
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")
```

 **程式碼說明**
 
+ group_by(A, grp) %>% summarise(recent=mean(recent), freq=mean(freq),money=mean(money), size=n(),先將A資料格式group by grp,代表後面summarise時以group來計算，後面將最近購買距今天數、 購買次數、金額三樣數據取平均，size=n()算出每群的大小。
+ mutate( revenue = size*money/1000 )%>% filter(size > 1)新增一個變數為revenue，並將計算出來size > 1的塞出來
+ ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")
  用ggplot來繪製，x軸放平均購買次數，y放平均購買金額，圖形上的點，大小為利潤貢獻，顏色為平均最近購買據今天數，透明度0.5，圓圈大小為4~30，調色為數值越低為綠色，越高為紅色，x和y軸的值取log10，y的原本值設定在30~3000間，篩掉離群值，字體大小設定為3，主題設定為bw，最後再幫圖檔取名，X軸Y軸取名。
 
 **執行意涵**

+ 透過將不同群顧客的消費習性透過視覺化分類出來，可以讓我們快速發現他們差異，並有利我們之後針對不同群顧客執行不同行銷策略。
<br><hr>

### 3. 規則分群

##### 3.1 顧客分群規則
```{r}
STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}
```
 **程式碼說明**
 
+ STS = c("N1","N2","R1","R2","S1","S2","S3")，建立一個向量
+ 建立Statusfunction，sx<2k成立前提下，且fx\*mx成立，為N2，不是則為N1，若sx<2\*k不成立前提下，rx<2\*K成立，且sx/fx<0.75成立，為R2，不是則為R1，若rx<2\*K不成立且rx<3\*K，為S1，若上述皆不成立，rx<4\*K為S2，不成立則為S3

 **執行意涵**
 
+ 先將顧客分群條件設定好，有利後面顧客分析。

<center>

![圖三、顧客分群規則](fig/fig3.jfif)

</center>

##### 3.2 平均購買週期
```{r}
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K
```
回購顧客的平均購買週期 `K = 521 days`

 **程式碼說明**

+ 將購買次數大於一顧客的第一次距今購買天數/購買次數大於一顧客的總來店次數。

 **執行意涵**
 
+ 計算出回購顧客的平均購買週期。


##### 3.3 滑動資料窗格
```{r}
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }
```
 **程式碼說明**
 
+ for(y in 2010:2015)建立一個迴圈，y會從2010到2015執行下面那段程式碼。
+ D = as.Date(paste0(c(y, y-1),"-12-31"))，paste0會消除年份接月份時sep=""那個空白，印出來的日期會有兩個，分別是前一年和今年的12月31日，ex:"2015-12-31" "2014-12-31"，再轉成日期格式。
+ 建立一個空的LIST，每年年底將顧客資料彙整成一個資料框，當期、前期的期末日期 ，從交易資料做起，將資料切齊到期末日期，交易距期末天數，依顧客彙總 ...，最後一次購買距期末天數，購買次數 (至期末為止)，平均購買金額 (至期末為止)，第一次購買距期末天數，期末狀態，第一次購買日期，當期購買次數，當期購買金額。

 **執行意涵**

+ 將資料按年份切割，可以做出來每一年個別的分析，方便之後預測下一年的顧客消費行為。

```{r}
head(Y$Y2015)
```
 **程式碼說明**
 
+ 印出2015年前五筆資料

 **執行意涵**
 
+ 觀察2015年前五筆資料
##### 3.4 每年年底的累計顧客人數
```{r}
sapply(Y, nrow)
```
 **程式碼說明**

+ 使用sapply將Y lsit中六個data frame 的row數量印出來。

 **執行意涵**

+ 觀察6年來的顧客總數量

##### 3.5 族群大小變化趨勢
```{r fig.height=4, fig.width=8}
cols = c("gold","orange","blue","green","pink","magenta","darkred")
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))
```
 **程式碼說明**
 
+ 先設定一個顏色的向量，將每個Y裡的data frame的status數量視覺化，顏色為向量設定的顏色，接著加入旁篇的調色條，將STS和cols都倒過來。

 **執行意涵**

+ 視覺化每一年份不同status的數量

##### 3.6 族群屬性動態分析
```{r}
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(
    average_frequency = mean(freq),
    average_amount = mean(money),
    total_revenue = sum(y_revenue),
    total_no_orders = sum(y_freq),
    average_recency = mean(recent),
    average_seniority = mean(senior),
    group_size = n()
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame
head(CustSegments)
```
 **程式碼說明**
 
+ 將y裡的data frame 依照status囊總，算出平均來店次數、平均購買金額、平均當期利潤、當期購買總次數、平均最近距今購買天數、平均第一次到店距今天數和每一群人數，接著再將群組打散，將2010到2015重複6次對應7個不同status，把格式存成data.frame，然後印出前6行

 **執行意涵**
 
+ 將6年每個status的變化做成data.frame，以利在後面視覺化分析。
```{r eval=F}
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )
```
 **程式碼說明**

+ 用剛剛status資料繪製互動泡泡圖，status依照年做變化，設定長900D、寬600。

 **執行意涵**
 
+ 視覺化觀察每一年不同status的變化。
<center>
![圖四、顧客分群規則](fig/fig4.jfif)

</center>


##### 3.7 族群屬性動態分析
```{r}
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx    # 流量矩陣
```
 **程式碼說明**

+ 將Y list中2014和2015年的cid和status，用cid囊括
+ 接著將他們兩個擺進table分析，2014到2015年status的轉變，並把他存進data.frame中

 **執行意涵**
 
+ 將他變成流量矩陣，以利觀察status的變化。
```{r}
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)
```
 **程式碼說明**

+ 將流量矩陣丟進prob.table，採機率形式表現，取到小數點後三位

 **執行意涵**

+ 以機率形式表示2014到2015年，status的機率轉變。

##### 3.8 互動式流量分析
```{r}
chorddiag(tx, groupColors=cols)
```
 **程式碼說明**

+ 將流量矩陣丟進互動式流量分析，顏色使用剛剛設定的顏色向量

 **執行意涵**

+ 用互動式流量分析圖，能將流量矩陣用視覺化呈現，以利分析。

![](fig/chord.jpg)

<br><hr>

### 4. 建立模型

在這個案例裡面，我們的資料是收到Y2015年底，所以我們可以假設現在的時間是Y2015年底，我們想要用現有的資料建立模型，來預測每一位顧客：

+ 在Y2016年是否會來購買 (保留率：Retain)
+ 她來購買的話，會買多少錢 (購買金額：Revenue)

但是，我們並沒有Y2016的資料，為了要建立模型，我們需要先把時間回推一期，也就是說：

+ 用Y2014年底以前的資料整理出預測變數(X) 
+ 用Y2015年的資料整理出目標變數(Y) 

假如Y2016的情況(跟Y2015比)沒有太大的變化的話，接下來我們就可以

+ 使用該模型，以Y2015年底的資料，預測Y2016的狀況

##### 4.1 準備資料
我們用Y2014年底的資料做自變數，Y2015年的資料做應變數

```{r}
CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid")
head(CX)
```

 **程式碼說明**
 
+ CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid")
+ 將 2014 年消費者全部的資料與 2015 年消費者僅消費頻率及消費額的資料，以 cid 作為對照合併
 
 **執行意涵**

+ 將建立模型時所需要的自變數 ( 2014 資料 ) 以及應變數 ( 2015 資料 ) 合併為一個 data.frame 以利後續建模使用。


```{r}
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0
head(CX)
```

 **程式碼說明**
 
+ names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
+ 重新命名合併過後被系統自動命名的變數。
+ CX$Retain = CX$Retain > 0
+ 將第二年消費次數非 0 次的顧客判定為 Retain = TRUE。
 
 **執行意涵**

+ 將 CX 資料框內的資料處理成接下來建模所需要的格式。


```{r}
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%
```

 **程式碼說明**
 
+ table(CX$Retain) %>% prop.table()
+ 將 CX 中的 Retain 變數中的 T/F 比例計算出來。
 
 **執行意涵**

+ 初步了解 2015 年還剩下多少比例的顧客。


##### 4.2 建立類別模型
```{r}
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)
```

 **程式碼說明**
 
+ mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
+ 建立羅吉斯模型。自變數為 recent、freq、status、freq0、revenue0，應變數為 Retain。
 
 **執行意涵**

+ 建立一個以 2014 年顧客資料來預測 2015 年該顧客是否會來消費的羅吉斯模型。

##### 4.3 估計類別模型的準確性
```{r}
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
# 混淆矩陣 (Confusion Matrix)  
```

 **程式碼說明**
 
+ pred = predict(mRet,type="response")
+ 將前述步驟所建立的模型其觀察值的預測值全部存到變數 pred 中。
+ table(pred>0.5,CX$Retain) 
+ 將類別預測值與實際發生值轉換為混淆矩陣。
 
 **執行意涵**

+ 計算混淆矩陣可以幫助我們了解模型的預測表現如何。

```{r}
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
```
```{r}
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
```

 **程式碼說明**
 
+ table(pred>0.5,CX$Retain) %>% {sum(diag(.))/sum(.)}
+ 將類別預測值與實際發生值轉換為混淆矩陣，並計算 ACC ( 正確率 )。
+ colAUC(pred,CX$Retain)
+ 將類別預測值與實際發生值轉換為 AUC ( 辨識率 )。
 
 **執行意涵**

+ 計算 ACC 及 AUC 能讓我們直觀地了解此模型的預測表現，並能夠與其他模型作比較。


```{r fig.height=4, fig.width=4}
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))
```

 **程式碼說明**
 
+ prediction(pred, CX$Retain) %>% performance("tpr", "fpr") %>% plot(print.cutoffs.at=seq(0,1,0.1))
+ 將類別預測值與實際發生值其 TPR、FPR 繪製成圖，threshold 從 0 ~ 1 之間每 0.1 繪製一個點，再連成如上圖之 ROC 曲線。
 
 **執行意涵**

+ 繪製 ROC 曲線。此舉能夠幫助模型使用者了解模型的預測表現，並能夠使模型使用者依 TPR、FPR 挑出能夠接受之 threshold 值。

##### 4.4 建立數量模型
```{r}
dx = subset(CX, Revenue > 0)  # 只對有來購買的人做模型
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)                 # 判定係數：R2 = 0.713
```

 **程式碼說明**
 
+ dx = subset(CX, Revenue > 0)
+ 將原先的資料框 CX 取子集，只要 2015 有來消費的顧客觀察值即可。
+ mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior + status + freq0 + log(1+revenue0), dx)
+ 建立一般線性模型，自變數為 recent、freq、log(1+money)、senior、status、freq0、log(1+revenue0)，應變數為 log(Revenue)。money 及 revenue0 兩個變數額外 + 1 是為了避免該值 < 1 會造成取對數後數值為負。
 
 **執行意涵**

+ 對 2015 年仍然有來消費的顧客建立「會花費多少金額」的一般線性數量預測模型。

```{r fig.height=4.5, fig.width=4.5}
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 
```

 **程式碼說明**
 
+ plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
+ 將預測值對實際發生值繪製散佈圖，顏色設定為 pink，大小調整為 0.65
+ abline(0,1,col='red')
+ 繪製一條紅色的 45 度線做為對照。
 
 **執行意涵**

+ 繪製一張散佈圖來觀察此模型的預測結果與實際觀測值的差距。

<br><hr>

### 5. 估計顧客終生價值

##### 5.1 Y2016的預測值
使用模型對Y2015年底的資料做預測，對資料中的每一位顧客，預測她們在Y2016的保留率和購買金額。
```{r}
CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")

# 預測Y2016保留率
CX$ProbRetain = predict(mRet,CX,type='response')

# 預測Y2016購買金額
CX$PredRevenue = exp(predict(mRev,CX))
```

 **程式碼說明**
 
+ CX = Y$Y2015 ; names(CX)[8:9] = c("freq0","revenue0")
+ 將資料框 CX 的資料更改為 2015 年的資料，並將變數欄位 8、9 更改為模型可以認知的名稱 freq0 及 revenue0。
+ CX$ProbRetain = predict(mRet,CX,type='response')
+ 將類別預測模型 ( 2016 年是否會來消費 ) 預測的結果存為 CX 中的 ProbRetain。
+ CX$PredRevenue = exp(predict(mRev,CX))
+ 將數量預測模型 ( 2016 年會消費多少金額 ) 預測的結果存為 CX 中的 PredRevenue。
 
 **執行意涵**

+ 將 2015 年的顧客資料丟入我們於第四部分所建立的兩個預測模型，分別預測顧客於 2016 年是否會來消費，以及如果會來消費，其消費金額是多少。

```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")
```

 **程式碼說明**
 
+ par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
+ 基礎繪圖設定，接下來的圖為一列兩行併為一張圖，邊界為 4,3,3,2，整體大小為 0.8。
+ hist(CX$ProbRetain,main="ProbRetain", ylab="")
+ 繪製第一個模型的預測結果柱狀圖。
+ hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")
+ 繪製第二個模型的預測結果柱狀圖。注意金額的數字有取 log10。
 
 **執行意涵**

+ 將預測結果以柱狀圖表示，能夠觀察兩個模型預測出來的結果分佈。如第一個模型預測今年的這些顧客於明年會來消費的機率大部分趨近於 0；而消費金額大部分落於 1.5 ( 也就是原始數值 31.62 ) 左右。

<br>

##### 5.2 估計顧客終生價值(CLV)

<center>顧客$i$的終生價值</center>

$$ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t  $$

<center>$m_i$、$r_i$：顧客$i$的預期(每期)營收貢獻、保留機率</center>

<center>$g$、$d$：公司的(稅前)營業利潤利率、資金成本</center>

```{r}
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )

summary(CX$CLV)
```

 **程式碼說明**
 
+ CX$CLV = g * CX$PredRevenue * rowSums(sapply(0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
+ 計算顧客終生價值 : 將獲利率乘上預期獲利，再乘上未來五年預期保留率的現值總和。
 
 **執行意涵**

+ 計算顧客終生價值能夠讓我們了解每一個顧客的潛在價值有多大 ( 在這個題目我們計算了五年 )。

```{r fig.height=2.5, fig.width=7.2}
par(mar=c(2,2,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")
```

 **程式碼說明**
 
+ par(mar=c(2,2,3,1), cex=0.8)
+ 基礎繪圖設定，接下來的圖邊界為 2,2,3,1，整體大小為 0.8。
+ hist(log(CX$CLV,10), xlab="", ylab="")
+ 繪製顧客終生價值的柱狀圖。注意這邊的「價值」也有取 log10。
 
 **執行意涵**

+ 將顧客終生價值繪製成柱狀圖，能夠更直觀地看到顧客普遍帶給公司的價值在哪些區段。

##### 5.3 比較各族群的價值

```{r}
# 各族群的平均營收貢獻、保留機率、終生價值
sapply(CX[,10:12], tapply, CX$status, mean)
```

 **程式碼說明**
 
+ sapply(CX[,10:12], tapply, CX$status, mean)
+ 將變數 10 ~ 12 ( 兩個預測結果與顧客終生價值 ) 根據不同的消費者狀態分組，計算其平均值。

 **執行意涵**

+ 透過彙整成表格，能夠直接地看到每一個狀態下的消費者其平均保留機率、預計花費以及終生價值，有助於了解每個消費者狀態的性質與對其進行策略擬定。

```{r}
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")

```

 **程式碼說明**
 
+ par(mar=c(3,3,4,2), cex=0.8)
+ 基礎繪圖設定，接下來的圖邊界為 3,3,4,2，整體大小為 0.8。
+ boxplot(log(CLV)~status, CX, main="CLV by Groups")
+ 繪製顧客終生價值對顧客狀態分群的盒狀圖。
 
 **執行意涵**

+ 從盒狀圖中可以看到不同的顧客狀態，其終生價值的分佈狀況。


<br><hr>

### 6. 設定行銷策略、規劃行銷工具

**行銷策略設定**

+ 從互動式流量分析以及分群規則來看，我們可以知道各群顧客的移轉程度以及消費特性為何，再根據這些資料進行分析制定客製化的行銷策略，此外我們必須根據顧客終生價值去判斷哪些群的顧客是我們最需要做顧客保留的。

+ **S族群**：採用比較刺激的行銷策略喚醒此群顧客，但行銷主力並不在此。
+ S1：瞌睡顧客，瞌睡顧客對於這家店的認識有一定時間，有一半的機會成為主力顧客，但也有另一半的機會成為半睡顧客，且極少數會仍保留於此狀態中，雖然CLV偏低，但若成流轉成為主力顧客仍有一定潛力存在，為了增加成為主力顧客的機會，我們利用e-mail行銷，針對此群顧客寄出老顧客的限時特惠商品或是折價券，吸引瞌睡顧客重新回到店裡消費，再加以利用會員制度讓顧客留住在店中。
+ S2：半睡顧客，此群顧客的CLV值低，且多數會流轉成為沈睡顧客，少數會變成瞌睡顧客，由於顧客保留價值低，故對於此群顧客我們採用不分群的行銷策略模式，利用特惠、週年慶、特賣的方式吸引顧客上門。
+ S3：沈睡顧客，此類顧客極難再轉為其他種類顧客，此群顧客價值低，保留所造成的效果也不明顯，故採用與S2一樣的不針對性做法，採用較消極的行銷方式。

+ **R族群**：採用提高忠誠度的行銷方式保留此群顧客，其為我們的行銷主力對象。
+ R1：主力顧客：主力顧客的CLV為第三高，其比較容易流轉成瞌睡顧客，為了避免變成瞌睡顧客我們必須增強此群的忠誠度，像是設立一些會員分級獎勵制度，越高等級的顧客就能享有越多的尊爵會員優惠，並且每年贈送生日禮等等。藉此吸引主力顧客持續在店消費，降低成為瞌睡顧客的機會。
+ R2：核心顧客：核心顧客的CLV為最高，其也不太容易轉成其他群顧客，在會員至當中此群顧客最終會成為最高等級會員，以最高等級的會員優惠、無微不至的特別服務，讓核心顧客有美好的消費體驗，持續保留核心顧客。

+ **N族群**：採用持續吸引的方式將新顧客到店消費成為習慣，成為新的R族群顧客，為行銷主力對象。
+ N1：新顧客：新顧客屬於還在觀察、觀望的一族群，其消費貢獻不高，CLV極低，流轉為潛力顧客的機會也不高，但必須持續培養新顧客成為忠誠顧客，增加店的業績成長，故即使效益看似不高也必須做一些保留的行銷策略，可以利用一些充滿新鮮感的行銷方式像是集點好禮、現金回饋、新客好禮禮包分階段贈送的方式吸引其持續到店消費。
+ N2：新潛力顧客：此群顧客對店的收益貢獻相當高，CLV極高，有一定機會成為R2顧客，且有很大機會被保留於原來狀態，故要對此群顧客進行積極的顧客保留行銷方式，可進行新會員入會好禮，將新潛力顧客變成會員，對會員定期推出有趣、優惠的行銷活動，讓其更習慣於在這裡消費，也可以透過寄送e-mail的方式寄送新顧客的專屬優惠。

**行銷工具規劃**

+ **e-mail行銷**：做有針對性的行銷活動，根據不同的族群寄送相關訊息，例如對於S族群採用老顧客回娘家活動，N族群採用新顧客歡迎優惠活動，對顧客的狀態投其所好。
+ **簡訊行銷**：採用跟e-mail行銷相同的手法，通知顧客有這些優惠訊息。
+ **專屬APP**：對於急需保留的顧客做積極的顧客保留的動作，透過會員分級制度，將CLV高的族群，R1、R2、N2群顧客培養成忠誠顧客。
+ **社群行銷**：做不針對性地行銷，讓更多人知道店舉辦的活動，擴大其網路聲量，吸引各族群來到店中消費。
<br><hr>

### 7. 選擇行銷對象

給定某一行銷工具的成本和預期效益，選擇可以施行這項工具的對象。 

##### 7.1 對R2族群進行保留
R2族群的預測保留率和購買金額
```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")
```
**程式碼說明**

+ 首先先用par()，對於圖表的格式進行調整，方便觀察。
+ 接著hist()畫出長條圖，觀察R2族群的預測保留率以及預測消費金額，對於消費金額取log使其呈現常態分佈，驗證結果正確性。
+ 在ProbRetain當中x軸為機率，y軸為顧客數量，在PredRevenue中x軸為消費金額，y軸為顧客數量。

**執行意涵**

+ 透過視覺化的動作將目標族群R2的預測保留率以及預測消費金額更加容易觀察。

##### 7.2 估計預期報酬
假設行銷工具的成本和預期效益為
```{r}
cost = 10        # 成本
effect = 0.75    # 效益：下一期的購買機率
```

估計這項行銷工具對每一位R2顧客的預期報酬
```{r}
Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)
```
這一項工具對R2顧客的預期報酬是負的

**程式碼說明**

+ 先設定我們的預期效益、執行成本為多少。
+ subset出一個新的子集（關於R2群顧客的消費資料），建立成Target。
+ 建立ExpReturn預期報酬，也就是報酬扣掉cost成本，接著summary出結果。

**執行意涵**

+ 估計使用此行銷工具對每一位R2顧客能給店裡帶來的預期報酬是否是好的，若不好則再選擇其他更適合的行銷工具。

##### 7.3 選擇行銷對象
但是，我們還是可以挑出許多預期報酬很大的行銷對象
```{r}
Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)
```

```{r}
sum(Target$ExpReturn > 0)                 # 可實施對象：258
```
在R2之中，有258人的預期報酬大於零，如果對這258人使用這項工具，我們的期望報酬是：
```{r}
sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬：6464
```
**程式碼說明**

+ 從Target中依照降冪排列的方式選擇最前面的15筆資料（資料中是含有顧客以及預期報酬的）。
+ 接著加總所有預期報酬為正值的顧客數量。
+ 最後加總所有預期報酬為正值的顧客之預期報酬，得到使用此項工具的總最大預期報酬。

**執行意涵**

+ 雖然我們得到了平均為負值的結果，但我們可以透過“選擇”的方式去找出預期報酬為正值的R2顧客，並且針對這些報酬為正的顧客使用此項行銷工具，得到最好的預期報酬總值。

<br><br><hr>

##### QUIZ:

我們可以算出對所有的族群實施這項工具的期望報酬 ...
```{r}
Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame
```
**這個結果是合理的嗎？ 你想要怎麼修正這項分析的程序呢？**

**不合理**

+ 其效益（加成方法）為定值0.75，但因為族群不同，貢獻效益也不同，故算出來的數值會有落差，應採用比率的方式較為客觀。
+ 若行銷的邊際成本低（像是電子檔DM），則應可以全部的顧客都發，其成本會隨著數量增加而降低，此結果應不符合現實。

<br><br><hr>

### 8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話，你可以做的分析包括：

+ 全體顧客和每一個顧客分群的：
    + 族群大小與成長趨勢
    + 族群屬性分析：如平均CLV、平均營收貢獻、成長率、毛利率(需要有成本資料)等等
    + 組間流量和平均流動機率

+ 每一個顧客的：
    + 保留率、預期購買金額、終身價值
    + 目前所在群組，以及下一期會轉到個群組的機率
    + 如果有行銷工具的使用紀錄的話，我們也可以估計每一樣行銷工具、對每一位顧客的成功機率

一般而言，這一些分析的結果，足夠讓我們制定顧客發展和顧客保留策略；至於顧客吸收策略，我們通常還需要從CRM撈出顧客個人屬性資料才能做到。 


<br><br><hr><br><br><br>

<style>
.caption {
  color: #777;
  margin-top: 10px;
}
p code {
  white-space: inherit;
}
pre {
  word-break: normal;
  word-wrap: normal;
  line-height: 1;
}
pre code {
  white-space: inherit;
}
p,li {
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

.r{
  line-height: 1.2;
}

title{
  color: #cc0000;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

body{
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h1,h2,h3,h4,h5{
  color: #008800;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h3{
  color: #008800;
  background: #e6ffe6;
  line-height: 2;
  font-weight: bold;
}

h5{
  color: #006000;
  background: #f8f8f8;
  line-height: 1.5;
  font-weight: bold;
}

em{
  color: #0000c0;
  background: #f0f0f0;
  }
</style>

