Según wikipedia.org, “RFM es un método utilizado para analizar el valor del cliente”.
RFM representa las tres dimensiones:
- Actividad reciente: ¿Qué tan reciente fue la compra del cliente?
- Frecuencia: ¿con qué frecuencia compran?
- Valor monetario - ¿Cuánto gastan?
Los segmentos resultantes se pueden ordenar desde los más valiosos (mayor antigüedad, frecuencia y valor) hasta los menos valiosos (menor antigüedad, frecuencia y valor). La identificación de los segmentos de RFM más valiosos puede aprovechar las relaciones fortuitas en los datos utilizados para este análisis.
library(tidyverse)
library(skimr)
library(data.table)
library(knitr)
library(rmarkdown)
Lectura de datos
df <-
readr::read_csv(file = 'C:/Users/HUAWEI/Downloads/data.csv/data.csv',
locale = readr::locale(encoding = 'UTF-8'))
dplyr::glimpse(df)
## Rows: 541,909
## Columns: 8
## $ InvoiceNo <chr> "536365", "536365", "536365", "536365", "536365", "536365"~
## $ StockCode <chr> "85123A", "71053", "84406B", "84029G", "84029E", "22752", ~
## $ Description <chr> "WHITE HANGING HEART T-LIGHT HOLDER", "WHITE METAL LANTERN~
## $ Quantity <dbl> 6, 6, 8, 6, 6, 2, 6, 6, 6, 32, 6, 6, 8, 6, 6, 3, 2, 3, 3, ~
## $ InvoiceDate <chr> "12/1/2010 8:26", "12/1/2010 8:26", "12/1/2010 8:26", "12/~
## $ UnitPrice <dbl> 2.55, 3.39, 2.75, 3.39, 3.39, 7.65, 4.25, 1.85, 1.85, 1.69~
## $ CustomerID <dbl> 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17~
## $ Country <chr> "United Kingdom", "United Kingdom", "United Kingdom", "Uni~
Tratamiento de los datos
Se remueven las cantiades negativas y consumidores con NA asignados.
# Remocion de negativos y NA's
df1 <-
df %>%
dplyr::filter(Quantity > 0 ,
UnitPrice > 0) %>%
tidyr::drop_na()
head(df1, n = 10)
Recodificacion de variables
df2 <-
df1 %>%
dplyr::mutate(InvoiceDate = as.Date(x = InvoiceDate, format = '%m/%d/%Y')) %>%
dplyr::mutate_if(is.character, as.factor) %>%
dplyr::mutate(total_dolar = Quantity*UnitPrice)
skimr::skim(df2)
Data summary
Name |
df2 |
Number of rows |
397884 |
Number of columns |
9 |
_______________________ |
|
Column type frequency: |
|
Date |
1 |
factor |
4 |
numeric |
4 |
________________________ |
|
Group variables |
None |
Variable type: Date
InvoiceDate |
0 |
1 |
2010-12-01 |
2011-12-09 |
2011-07-31 |
305 |
Variable type: factor
InvoiceNo |
0 |
1 |
FALSE |
18532 |
576: 542, 579: 533, 580: 529, 578: 442 |
StockCode |
0 |
1 |
FALSE |
3665 |
851: 2035, 224: 1723, 850: 1618, 848: 1408 |
Description |
0 |
1 |
FALSE |
3866 |
WHI: 2028, REG: 1723, JUM: 1618, ASS: 1408 |
Country |
0 |
1 |
FALSE |
37 |
Uni: 354321, Ger: 9040, Fra: 8341, EIR: 7236 |
Variable type: numeric
Quantity |
0 |
1 |
12.99 |
179.33 |
1 |
2.00 |
6.00 |
12.00 |
80995.00 |
▇▁▁▁▁ |
UnitPrice |
0 |
1 |
3.12 |
22.10 |
0 |
1.25 |
1.95 |
3.75 |
8142.75 |
▇▁▁▁▁ |
CustomerID |
0 |
1 |
15294.42 |
1713.14 |
12346 |
13969.00 |
15159.00 |
16795.00 |
18287.00 |
▇▇▇▇▇ |
total_dolar |
0 |
1 |
22.40 |
309.07 |
0 |
4.68 |
11.80 |
19.80 |
168469.60 |
▇▁▁▁▁ |
Calcular el conjunto de datos de RFM
Para implementar el análisis de RFM, necesitamos seguir procesando el conjunto de datos mediante los siguientes pasos:
- Busque la fecha más reciente para cada ID y calcule los días hasta la fecha actual o alguna otra para obtener los datos de antigüedad.
- Calcule la cantidad de traducciones de un cliente para obtener los datos de frecuencia.
- Sume la cantidad de dinero que gastó un cliente y divídala por Frecuencia, para obtener la cantidad por transacción en promedio, que son los datos monetarios.
df_RFM <-
df2 %>%
dplyr::group_by(CustomerID) %>%
dplyr::summarise(Recency = Sys.Date() - max(InvoiceDate),
Recency = as.numeric(Recency),
frequenci = dplyr::n_distinct(InvoiceNo),
monitery = sum(total_dolar)/frequenci) %>%
dplyr::ungroup()
summary(df_RFM)
kableExtra::kable(head(df_RFM))
## CustomerID Recency frequenci monitery
## Min. :12346 Min. :3423 Min. : 1.000 Min. : 3.45
## 1st Qu.:13813 1st Qu.:3440 1st Qu.: 1.000 1st Qu.: 178.62
## Median :15300 Median :3473 Median : 2.000 Median : 293.90
## Mean :15300 Mean :3515 Mean : 4.272 Mean : 419.17
## 3rd Qu.:16779 3rd Qu.:3565 3rd Qu.: 5.000 3rd Qu.: 430.11
## Max. :18287 Max. :3796 Max. :209.000 Max. :84236.25
CustomerID
|
Recency
|
frequenci
|
monitery
|
12346
|
3748
|
1
|
77183.6000
|
12347
|
3425
|
7
|
615.7143
|
12348
|
3498
|
4
|
449.3100
|
12349
|
3441
|
1
|
1757.5500
|
12350
|
3733
|
1
|
334.4000
|
12352
|
3459
|
8
|
313.2550
|
Antigüedad
Experiencia reciente: ¿Qué tan reciente fue la compra del cliente?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(Recency) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Frecuencia
Frecuencia: ¿con qué frecuencia compran?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(frequenci) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Monetario
Valor monetario: ¿cuánto gastan?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(monitery) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Debido a que los datos están realmente sesgados, usamos la escala logarítmica para normalizar.
df_RFM$monitery <- log(df_RFM$monitery)
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(monitery) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

RFM Analisis
rfm_result <-
rfm::rfm_table_customer(df_RFM,
customer_id = CustomerID,
recency_days = Recency,
n_transactions = frequenci,
total_revenue = monitery)
Heat Map
rfm::rfm_heatmap(rfm_result)

Bar Chart
rfm::rfm_bar_chart(rfm_result)

Histogram
rfm::rfm_histograms(rfm_result)

Customers by Orders
rfm::rfm_order_dist(rfm_result)

Refinamiento del analisis
Segmentacion del cliente:
ggplot(data = BDF) + aes(x = cus_seg, fill = cus_seg)+ geom_bar() +
geom_text(aes(label=scales::percent(..count../sum(..count..))),
stat='count',position=position_dodge(1))+
labs(title = "Segmentacion del Cliente", x = "Segmento", y = "Total de clientes") + coord_flip()+ theme_minimal()

