前言:從交易記錄到顧客價值

善用商業數據分析的工具和技巧,光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位),我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃,包括:

圖一、顧客價值管理的層次

圖一、顧客價值管理的層次


從這一些分析我們可以看到公司主要的營收和獲利的重要來源,我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢;據此我們可以設定行銷的重點,決定行銷的策略,和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外,我們還可以利用這些簡單的交易紀錄:


利用這一些預測我們就可以進行全面客製化的:

圖二、顧客價值管理流程

圖二、顧客價值管理流程



Setup
Sys.setlocale("LC_ALL","C")
[1] "C"
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
Library
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
package 'ROCR' was built under R version 3.5.1Loading required package: gplots
package 'gplots' was built under R version 3.5.1
Attaching package: 'gplots'

The following object is masked from 'package:stats':

    lowess
library(googleVis)
package 'googleVis' was built under R version 3.5.1Creating a generic function for 'toJSON' from package 'jsonlite' in package 'googleVis'

Welcome to googleVis version 0.6.2

Please read Google's Terms of Use
before you start using the package:
https://developers.google.com/terms/

Note, the plot method of googleVis will by default use
the standard browser to display its output.

See the googleVis package vignettes for more details,
or visit http://github.com/mages/googleVis.

To suppress this message use:
suppressPackageStartupMessages(library(googleVis))
library(chorddiag)


基本整理函數

1 1. 資料整理

1.1 交易資料 (X)
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)                  # 交易次數 51243
      cid             amount          date           
 Min.   :    10   Min.   :   5   Min.   :2005-01-02  
 1st Qu.: 57720   1st Qu.:  25   1st Qu.:2009-01-17  
 Median :102440   Median :  30   Median :2011-11-23  
 Mean   :108935   Mean   :  62   Mean   :2011-07-14  
 3rd Qu.:160525   3rd Qu.:  60   3rd Qu.:2013-12-29  
 Max.   :264200   Max.   :4500   Max.   :2015-12-31  
par(cex=0.8)
hist(X$date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year")

有多少不一樣的cid

n_distinct(X$cid)           # 顧客數 18417
[1] 18417
1.2 顧客資料 (A)
  • mutate(): 長一個新欄位
  • days: recency: 整筆資料的最後一天-date
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數"
0,    since = min(date)       # 第一次購買日期"
  ) %>% data.frame
1.4 顧客資料摘要
summary(A)
      cid             recent          freq           money          senior         since           
 Min.   :    10   Min.   :   1   Min.   : 1.00   Min.   :   5   Min.   :   1   Min.   :2005-01-02  
 1st Qu.: 81990   1st Qu.: 244   1st Qu.: 1.00   1st Qu.:  22   1st Qu.: 988   1st Qu.:2007-10-23  
 Median :136430   Median :1070   Median : 2.00   Median :  30   Median :2087   Median :2010-04-15  
 Mean   :137574   Mean   :1253   Mean   : 2.78   Mean   :  58   Mean   :1984   Mean   :2010-07-26  
 3rd Qu.:195100   3rd Qu.:2130   3rd Qu.: 3.00   3rd Qu.:  50   3rd Qu.:2992   3rd Qu.:2013-04-18  
 Max.   :264200   Max.   :4014   Max.   :45.00   Max.   :4500   Max.   :4016   Max.   :2015-12-31  
1.5 變數的分布狀況

frequency : decrete variable pmin() : 設一個上限,超過上限的都算在最後一個區間

p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),,main="log(money)",ylab="",xlab="")



2. 層級式集群分析

2.1 RFM顧客分群
12345678910NA107322661296223732071942178123922096127NA
2.2 顧客群組屬性

看看每一群裡面平均的RFM為多少

每個泡泡為一個群

  • x y 軸放最重要的變數: frequency,
  • 大小: 這個族群的營收貢獻
  • 顏色: 多久沒來買
  • text: 族群大小

127那群: 是最重要的顧客,較常來買,每次買的金額也高。對他們要想盡辦法保留 2266那群: 常買但買的東西不多。可以看他喜好,盡量刺激他買多一點

group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")



3. 規則分群

用kmeans分群算是一種“統計”的分群 用階層式的“規則”分群,可以每年都用同樣的規則做分群,就可以比較每年的變化狀況 藉此可以比較顧客在行銷滑水道裡面滑去哪裡了 ##### 3.1 顧客分群規則

STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}

圖三、顧客分群規則

3.2 平均購買週期

K、R、F、M都很重要

計算freq>1,找買超過一次的顧客(有回購的人) \[ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t \] \[ \frac{\sum_{t=1}^N (\frac{S_i}{F_i})}{N} \] \[ \frac{ \sum_{t=1}^N }{} \]

K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K

sum(A$senior[A$freq>1] / A$freq[A$freq>1]) / nrow(A)

回購顧客的平均購買週期 K = 521 days

3.3 滑動資料窗格

每個年底都會彙整資料 用一個大Y變數把每個年份的資料框都存起來 status: 他屬於哪一群顧客(沉睡? 主力?….)

Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起,命名list的elements為Y+年份
      filter(date <= D[1]) %>%        # 將資料切齊到期末日期
      mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
      group_by(cid) %>% summarise(    # 依顧客彙總 ...
          recent = min(days),           #   最後一次購買距期末天數   
          freq = n(),                   #   購買次數 (至期末為止)   
          money = mean(amount),         #   平均購買金額 (至期末為止)
          senior = max(days),           #   第一次購買距期末天數
          status = Status(recent,freq,money,senior,K),  # 期末狀態
          since = min(date),                      # 第一次購買日期
          y_freq = sum(date > D[2]),              # 當期購買次數
          y_revenue = sum(amount[date > D[2]])    # 當期購買金額
      ) %>% data.frame }
head(Y$Y2015)
3.4 每年年底的累計顧客人數
sapply(Y, nrow)
3.5 族群大小變化趨勢

睡著的人會越來越多,所以人越來越多 有些演算法會把沉睡太久的顧客刪掉 用這個圖可以看一下每一個族群的顧客變化狀況

cols = c("gold","orange","blue","green","pink","magenta","darkred") # 設定顏色
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))
3.6 族群屬性動態分析
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(
    average_frequency = mean(freq),
    average_amount = mean(money),
    total_revenue = sum(y_revenue),
    total_no_orders = sum(y_freq),
    average_recency = mean(recent),
    average_seniority = mean(senior),
    group_size = n()
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame
head(CustSegments)

chrome的設定 > 進階 > 隱私權及安全性 > 內容設定 > Flash > [新增] > 127.0.0.1

plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )

圖四、顧客分群規則

R2頻率增加 N2購買金額應加

3.7 族群屬性動態分析

看看水缸中的顧客如何流動

  • 381個顧客本來2014年在N1,2015年變成了N2
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx    # 流量矩陣
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)
3.8 互動式流量分析

柱子: 粗的流動到細的地方 小山丘: 留在原水缸

S1的人一部分繼續睡,一部份跑到S2(睡更深)

chorddiag(tx, groupColors=cols)


4. 建立模型

在這個案例裡面,我們的資料是收到Y2015年底,所以我們可以假設現在的時間是Y2015年底,我們想要用現有的資料建立模型,來預測每一位顧客:

但是,我們並沒有Y2016的資料,為了要建立模型,我們需要先把時間回推一期,也就是說:

假如Y2016的情況(跟Y2015比)沒有太大的變化的話,接下來我們就可以

4.1 準備資料

我們用Y2014年底的資料做自變數,Y2015年的資料做應變數 當期購買次數&金額為第8,9欄 第1欄為cId,拿來當join時的key

left_join: 如果兩邊沒有match的資料,保留左邊的資料右邊填na或null merge: 如果兩邊沒有match的資料,就直接砍了不會保留

欄位名稱中的.x和.y是R自動加進去的

CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid")
head(CX)
  • y_freq.y欄位: 2015年會不會來買(Retain)
  • y_revenue.y欄位: 2015年會來買多少錢
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0
head(CX)
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%
4.2 建立類別模型
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)
4.3 估計類別模型的準確性
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
# 混淆矩陣 (Confusion Matrix)  
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))
4.4 建立數量模型

subset : 對會來買的人做回歸模型 log : 應變數取log後再看R-squared

dx = subset(CX, Revenue > 0)  # 只對有來購買的人做模型
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)                 # 判定係 數:R2 = 0.713
  • 紅線為預測值 * 粉紅圈為實際值
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 


5. 估計顧客終生價值

5.1 Y2016的預測值

使用模型對Y2015年底的資料做預測,對資料中的每一位顧客,預測她們在Y2016的保留率和購買金額。

CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")

# 預測Y2016保留率
CX$ProbRetain = predict(mRet,CX,type='response')

# 預測Y2016購買金額
CX$PredRevenue = exp(predict(mRev,CX))
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")


5.2 估計顧客終生價值(CLV)
顧客\(i\)的終生價值

\[ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t \]

\(m_i\)\(r_i\):顧客\(i\)的預期(每期)營收貢獻、保留機率
\(g\)\(d\):公司的(稅前)營業利潤利率、資金成本
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )

summary(CX$CLV)

所有人的CLV

par(mar=c(2,2,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")
5.3 比較各族群的價值
# 各族群的平均營收貢獻、保留機率、終生價值
sapply(CX[,10:12], tapply, CX$status, mean)
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")


6. 設定行銷策略、規劃行銷工具



7. 選擇行銷對象

給定某一行銷工具的成本和預期效益,選擇可以施行這項工具的對象。

7.1 對R2族群進行保留

R2族群的預測保留率和購買金額

par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")

S3族群

par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="S3"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="S3"],10),main="PredRevenue",xlab="")
7.2 估計預期報酬

可以依據之前使用行銷工具的經驗來推出effect和cost, 這裡假設行銷工具的成本和預期效益為

cost = 10        # 成本
effect = 0.75    # 效益:下一期的購買機率

估計這項行銷工具對每一位R2顧客的預期報酬

Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)

這一項工具對R2顧客的預期報酬是負的

這項工具對於Retain大於0.75的人其實沒甚麼用 他們算出來的ExpReturn會是負的

7.3 選擇行銷對象

但是,我們還是可以挑出許多預期報酬很大的行銷對象

Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)

找出預期報償為正的顧客 可以對他們實施這項行銷工具

sum(Target$ExpReturn > 0)                 # 可實施對象:258

在R2之中,有258人的預期報酬大於零,如果對這258人使用這項工具,我們的期望報酬是:

sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬:6464
QUIZ:

我們可以算出對所有的族群實施這項工具的期望報酬 …

Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame

這個結果是合理的嗎? 你想要怎麼修正這項分析的程序呢?

  • 因為每個群算出來的probRetain不一樣,而且同一套行銷工具應用到不同族群的顧客產生出來的cost和effect也不一樣,所以無法直接用相同的算法套運到所有族群。



8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話,你可以做的分析包括:

一般而言,這一些分析的結果,足夠讓我們制定顧客發展和顧客保留策略;至於顧客吸收策略,我們通常還需要從CRM撈出顧客個人屬性資料才能做到。







---
title: "CVM：顧客價值管理 "
author: "謝雨靜 M074020006, 2018/07/29"
output: html_notebook
---

<br>

### 前言：從交易記錄到顧客價值

善用商業數據分析的工具和技巧，光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位)，我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃，包括：

+ **交易記錄分析**：
    + 敘述統計
    + 趨勢、交叉分析
    + 資料視覺化

+ **顧客群組與標籤**：
    + 集群分析
    + 群組屬性分析
    + 組間流動機率
    + 顧客(個人)流動機率


<center>

![圖一、顧客價值管理的層次](fig/fig1.png)

</center>

<br>從這一些分析我們可以看到公司主要的營收和獲利的重要來源，我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢；據此我們可以設定行銷的重點，決定行銷的策略，和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外，我們還可以利用這些簡單的交易紀錄：

+ **建立預測性模型**，預測每一位顧客的：
    + 保留機率
    + 預期營收
    + 組間變換機率
    + 下次可能購買時間

<br>利用這一些預測我們就可以進行全面客製化的： 

+ **顧客價值管理**：
    + 顧客終生價值
    + 顧客吸收策略
    + 顧客發展策略
    + 顧客保留策略

+ **針對性行銷**：
    + 設計行銷方案
    + 選擇行銷方案
    + 選擇行銷對象


<center>

![圖二、顧客價值管理流程](fig/fig2.png)

</center>



<br><hr>

##### Setup 
```{r}
Sys.setlocale("LC_ALL","C")
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
```

##### Library
```{r echo=T, message=F, cache=F, warning=F}
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
library(googleVis)
library(chorddiag)
```
<br><hr>

### 基本整理函數

* arrange: 根據你選定的變數做排列 (可以是多個變數)

* filter: 根據你設定的條件做row 篩選(or selection)

* mutate: 根據你給定的值賦予新變數，或是變更舊變數

* select: 根據給定的變數名稱做選擇，也可以做刪除變數

* group_by: 根據給定變數做group，以銜接summarise

* summarise: 資料整併



### 1 1. 資料整理

##### 1.1 交易資料 (X)
```{r}
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)                  # 交易次數 51243
```


```{r fig.height=3, fig.width=7.2}
par(cex=0.8)
hist(X$date, "years", las=2, freq=T, xlab="", main="No. Transaction by Year")
# years可以換成weeks之類的
```

有多少不一樣的cid
```{r}
n_distinct(X$cid)           # 顧客數 18417
```

##### 1.2 顧客資料 (A)

* mutate(): 長一個新欄位
* days: recency: 整筆資料的最後一天-date
```{r}
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame
```

##### 1.4 顧客資料摘要
```{r}
summary(A)
```

##### 1.5 變數的分布狀況

frequency : decrete variable 
pmin() : 設一個上限，超過上限的都算在最後一個區間
```{r fig.height=4, fig.width=8}
p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),,main="log(money)",ylab="",xlab="")
```
<br><hr>

### 2. 層級式集群分析

##### 2.1 RFM顧客分群
```{r}
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster #只用R, F, M三個欄位
table(A$grp)  # 族群大小
```

##### 2.2 顧客群組屬性

看看每一群裡面平均的RFM為多少

每個泡泡為一個群

* x y 軸放最重要的變數: frequency,
* 大小: 這個族群的營收貢獻
* 顏色: 多久沒來買
* text: 族群大小


127那群: 是最重要的顧客，較常來買，每次買的金額也高。對他們要想盡辦法保留
2266那群: 常買但買的東西不多。可以看他喜好，盡量刺激他買多一點

```{r fig.height=4.5, fig.width=8}
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")
```
<br><hr>

### 3. 規則分群
用kmeans分群算是一種"統計"的分群
用階層式的"規則"分群，可以每年都用同樣的規則做分群，就可以比較每年的變化狀況
藉此可以比較顧客在行銷滑水道裡面滑去哪裡了
##### 3.1 顧客分群規則
```{r}
STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}
```

<center>

![圖三、顧客分群規則](fig/fig3.jfif)

</center>

##### 3.2 平均購買週期

K、R、F、M都很重要

計算freq>1，找買超過一次的顧客(有回購的人)
$$ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t  $$
$$ \frac{\sum_{t=1}^N (\frac{S_i}{F_i})}{N} $$
$$ \frac{ \sum_{t=1}^N   }{} $$
```{r}
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K

sum(A$senior[A$freq>1] / A$freq[A$freq>1]) / nrow(A)
```
回購顧客的平均購買週期 `K = 521 days`

##### 3.3 滑動資料窗格

每個年底都會彙整資料
用一個大Y變數把每個年份的資料框都存起來
status: 他屬於哪一群顧客(沉睡? 主力?....)
```{r}
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起，命名list的elements為Y+年份
      filter(date <= D[1]) %>%        # 將資料切齊到期末日期
      mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
      group_by(cid) %>% summarise(    # 依顧客彙總 ...
          recent = min(days),           #   最後一次購買距期末天數   
          freq = n(),                   #   購買次數 (至期末為止)   
          money = mean(amount),         #   平均購買金額 (至期末為止)
          senior = max(days),           #   第一次購買距期末天數
          status = Status(recent,freq,money,senior,K),  # 期末狀態
          since = min(date),                      # 第一次購買日期
          y_freq = sum(date > D[2]),              # 當期購買次數
          y_revenue = sum(amount[date > D[2]])    # 當期購買金額
      ) %>% data.frame }
```

```{r}
head(Y$Y2015)
```

##### 3.4 每年年底的累計顧客人數
```{r}
sapply(Y, nrow)
```

##### 3.5 族群大小變化趨勢

睡著的人會越來越多，所以人越來越多
有些演算法會把沉睡太久的顧客刪掉
用這個圖可以看一下每一個族群的顧客變化狀況
```{r fig.height=4, fig.width=8}
cols = c("gold","orange","blue","green","pink","magenta","darkred") # 設定顏色
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))
```

##### 3.6 族群屬性動態分析
```{r}
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(
    average_frequency = mean(freq),
    average_amount = mean(money),
    total_revenue = sum(y_revenue),
    total_no_orders = sum(y_freq),
    average_recency = mean(recent),
    average_seniority = mean(senior),
    group_size = n()
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame
head(CustSegments)
```

chrome的設定 > 進階 > 隱私權及安全性 > 內容設定 > Flash > [新增] > 127.0.0.1
```{r eval=F}
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )
```

<center>

![圖四、顧客分群規則](fig/fig4.jfif)

</center>

R2頻率增加
N2購買金額應加


##### 3.7 族群屬性動態分析

看看水缸中的顧客如何流動

* 381個顧客本來2014年在N1，2015年變成了N2

```{r}
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx    # 流量矩陣
```

```{r}
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)
```

##### 3.8 互動式流量分析

柱子: 粗的流動到細的地方
小山丘: 留在原水缸

S1的人一部分繼續睡，一部份跑到S2(睡更深)
```{r}
chorddiag(tx, groupColors=cols)
```

![](fig/chord.jpg)

<br><hr>

### 4. 建立模型

在這個案例裡面，我們的資料是收到Y2015年底，所以我們可以假設現在的時間是Y2015年底，我們想要用現有的資料建立模型，來預測每一位顧客：

+ 在Y2016年是否會來購買 (保留率：Retain)
+ 她來購買的話，會買多少錢 (購買金額：Revenue)

但是，我們並沒有Y2016的資料，為了要建立模型，我們需要先把時間回推一期，也就是說：

+ 用Y2014年底以前的資料整理出預測變數(X) 
+ 用Y2015年的資料整理出目標變數(Y) 

假如Y2016的情況(跟Y2015比)沒有太大的變化的話，接下來我們就可以

+ 使用該模型，以Y2015年底的資料，預測Y2016的狀況

##### 4.1 準備資料

我們用Y2014年底的資料做自變數，Y2015年的資料做應變數
當期購買次數&金額為第8,9欄
第1欄為cId，拿來當join時的key

left_join: 如果兩邊沒有match的資料，保留左邊的資料右邊填na或null
merge: 如果兩邊沒有match的資料，就直接砍了不會保留

欄位名稱中的.x和.y是R自動加進去的



```{r}
CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid")
head(CX)
```

* y_freq.y欄位: 2015年會不會來買(Retain)
* y_revenue.y欄位: 2015年會來買多少錢

```{r}
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0
head(CX)
```

```{r}
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%
```

##### 4.2 建立類別模型
```{r}
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)
```

##### 4.3 估計類別模型的準確性
```{r}
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
# 混淆矩陣 (Confusion Matrix)  
```
```{r}
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
```
```{r}
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
```
```{r fig.height=4, fig.width=4}
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))
```

##### 4.4 建立數量模型

subset : 對會來買的人做回歸模型
log : 應變數取log後再看R-squared

```{r}
dx = subset(CX, Revenue > 0)  # 只對有來購買的人做模型
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)                 # 判定係 數：R2 = 0.713
```

* 紅線為預測值
*　粉紅圈為實際值

```{r fig.height=4.5, fig.width=4.5}
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 
```
<br><hr>

### 5. 估計顧客終生價值

##### 5.1 Y2016的預測值
使用模型對Y2015年底的資料做預測，對資料中的每一位顧客，預測她們在Y2016的保留率和購買金額。
```{r}
CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")

# 預測Y2016保留率
CX$ProbRetain = predict(mRet,CX,type='response')

# 預測Y2016購買金額
CX$PredRevenue = exp(predict(mRev,CX))
```

```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")
```
<br>

##### 5.2 估計顧客終生價值(CLV)

<center>顧客$i$的終生價值</center>

$$ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t  $$

<center>$m_i$、$r_i$：顧客$i$的預期(每期)營收貢獻、保留機率</center>

<center>$g$、$d$：公司的(稅前)營業利潤利率、資金成本</center>



```{r}
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )

summary(CX$CLV)
```

所有人的CLV
```{r fig.height=2.5, fig.width=7.2}
par(mar=c(2,2,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")
```

##### 5.3 比較各族群的價值

```{r}
# 各族群的平均營收貢獻、保留機率、終生價值
sapply(CX[,10:12], tapply, CX$status, mean)
```



```{r}
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")

```
<br><hr>

### 6. 設定行銷策略、規劃行銷工具

<br><hr>

### 7. 選擇行銷對象

給定某一行銷工具的成本和預期效益，選擇可以施行這項工具的對象。 

##### 7.1 對R2族群進行保留
R2族群的預測保留率和購買金額
```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")
```

S3族群
```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="S3"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="S3"],10),main="PredRevenue",xlab="")
```



##### 7.2 估計預期報酬

可以依據之前使用行銷工具的經驗來推出effect和cost，
這裡假設行銷工具的成本和預期效益為
```{r}
cost = 10        # 成本
effect = 0.75    # 效益：下一期的購買機率
```

估計這項行銷工具對每一位R2顧客的預期報酬
```{r}
Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)
```
這一項工具對R2顧客的預期報酬是負的

這項工具對於Retain大於0.75的人其實沒甚麼用
他們算出來的ExpReturn會是負的

##### 7.3 選擇行銷對象

但是，我們還是可以挑出許多預期報酬很大的行銷對象
```{r}
Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)
```

找出預期報償為正的顧客
可以對他們實施這項行銷工具

```{r}
sum(Target$ExpReturn > 0)                 # 可實施對象：258
```
在R2之中，有258人的預期報酬大於零，如果對這258人使用這項工具，我們的期望報酬是：
```{r}
sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬：6464
```

##### QUIZ:
我們可以算出對所有的族群實施這項工具的期望報酬 ...
```{r}
Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame
```
這個結果是合理的嗎？ 你想要怎麼修正這項分析的程序呢？

+ 因為每個群算出來的probRetain不一樣，而且同一套行銷工具應用到不同族群的顧客產生出來的cost和effect也不一樣，所以無法直接用相同的算法套運到所有族群。
+

<br><br><hr>

### 8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話，你可以做的分析包括：

+ 全體顧客和每一個顧客分群的：
    + 族群大小與成長趨勢
    + 族群屬性分析：如平均CLV、平均營收貢獻、成長率、毛利率(需要有成本資料)等等
    + 組間流量和平均流動機率

+ 每一個顧客的：
    + 保留率、預期購買金額、終身價值
    + 目前所在群組，以及下一期會轉到個群組的機率
    + 如果有行銷工具的使用紀錄的話，我們也可以估計每一樣行銷工具、對每一位顧客的成功機率

一般而言，這一些分析的結果，足夠讓我們制定顧客發展和顧客保留策略；至於顧客吸收策略，我們通常還需要從CRM撈出顧客個人屬性資料才能做到。 


<br><br><hr><br><br><br>

<style>
.caption {
  color: #777;
  margin-top: 10px;
}
p code {
  white-space: inherit;
}
pre {
  word-break: normal;
  word-wrap: normal;
  line-height: 1;
}
pre code {
  white-space: inherit;
}
p,li {
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

.r{
  line-height: 1.2;
}

title{
  color: #cc0000;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

body{
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h1,h2,h3,h4,h5{
  color: #008800;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h3{
  color: #008800;
  background: #e6ffe6;
  line-height: 2;
  font-weight: bold;
}

h5{
  color: #006000;
  background: #f8f8f8;
  line-height: 1.5;
  font-weight: bold;
}

em{
  color: #0000c0;
  background: #f0f0f0;
  }
</style>

