Según wikipedia.org, “RFM es un método utilizado para analizar el valor del cliente”.
RFM representa las tres dimensiones:
- Actividad reciente: ¿Qué tan reciente fue la compra del cliente?
- Frecuencia: ¿con qué frecuencia compran?
- Valor monetario - ¿Cuánto gastan?
Los segmentos resultantes se pueden ordenar desde los más valiosos (mayor antigüedad, frecuencia y valor) hasta los menos valiosos (menor antigüedad, frecuencia y valor). La identificación de los segmentos de RFM más valiosos puede aprovechar las relaciones fortuitas en los datos utilizados para este análisis.
library(tidyverse)
library(skimr)
library(data.table)
library(knitr)
library(rmarkdown)
Lectura de datos
df <-
readr::read_csv(file = 'C:/Users/HUAWEI/Downloads/data.csv/data.csv',
locale = readr::locale(encoding = 'UTF-8'))
dplyr::glimpse(df)
## Rows: 541,909
## Columns: 8
## $ InvoiceNo <chr> "536365", "536365", "536365", "536365", "536365", "536365"~
## $ StockCode <chr> "85123A", "71053", "84406B", "84029G", "84029E", "22752", ~
## $ Description <chr> "WHITE HANGING HEART T-LIGHT HOLDER", "WHITE METAL LANTERN~
## $ Quantity <dbl> 6, 6, 8, 6, 6, 2, 6, 6, 6, 32, 6, 6, 8, 6, 6, 3, 2, 3, 3, ~
## $ InvoiceDate <chr> "12/1/2010 8:26", "12/1/2010 8:26", "12/1/2010 8:26", "12/~
## $ UnitPrice <dbl> 2.55, 3.39, 2.75, 3.39, 3.39, 7.65, 4.25, 1.85, 1.85, 1.69~
## $ CustomerID <dbl> 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17~
## $ Country <chr> "United Kingdom", "United Kingdom", "United Kingdom", "Uni~
Tratamiento de los datos
Se remueven las cantiades negativas y consumidores con NA asignados.
# Remocion de negativos y NA's
df1 <-
df %>%
dplyr::filter(Quantity > 0 ,
UnitPrice > 0) %>%
tidyr::drop_na()
head(df1, n = 10)
Recodificacion de variables
df2 <-
df1 %>%
dplyr::mutate(InvoiceDate = as.Date(x = InvoiceDate, format = '%m/%d/%Y')) %>%
dplyr::mutate_if(is.character, as.factor) %>%
dplyr::mutate(total_dolar = Quantity*UnitPrice)
skimr::skim(df2)
Data summary
Name |
df2 |
Number of rows |
397884 |
Number of columns |
9 |
_______________________ |
|
Column type frequency: |
|
Date |
1 |
factor |
4 |
numeric |
4 |
________________________ |
|
Group variables |
None |
Variable type: Date
InvoiceDate |
0 |
1 |
2010-12-01 |
2011-12-09 |
2011-07-31 |
305 |
Variable type: factor
InvoiceNo |
0 |
1 |
FALSE |
18532 |
576: 542, 579: 533, 580: 529, 578: 442 |
StockCode |
0 |
1 |
FALSE |
3665 |
851: 2035, 224: 1723, 850: 1618, 848: 1408 |
Description |
0 |
1 |
FALSE |
3866 |
WHI: 2028, REG: 1723, JUM: 1618, ASS: 1408 |
Country |
0 |
1 |
FALSE |
37 |
Uni: 354321, Ger: 9040, Fra: 8341, EIR: 7236 |
Variable type: numeric
Quantity |
0 |
1 |
12.99 |
179.33 |
1 |
2.00 |
6.00 |
12.00 |
80995.00 |
▇▁▁▁▁ |
UnitPrice |
0 |
1 |
3.12 |
22.10 |
0 |
1.25 |
1.95 |
3.75 |
8142.75 |
▇▁▁▁▁ |
CustomerID |
0 |
1 |
15294.42 |
1713.14 |
12346 |
13969.00 |
15159.00 |
16795.00 |
18287.00 |
▇▇▇▇▇ |
total_dolar |
0 |
1 |
22.40 |
309.07 |
0 |
4.68 |
11.80 |
19.80 |
168469.60 |
▇▁▁▁▁ |
Calcular el conjunto de datos de RFM
Para implementar el análisis de RFM, necesitamos seguir procesando el conjunto de datos mediante los siguientes pasos:
- Busque la fecha más reciente para cada ID y calcule los días hasta la fecha actual o alguna otra para obtener los datos de antigüedad.
- Calcule la cantidad de traducciones de un cliente para obtener los datos de frecuencia.
- Sume la cantidad de dinero que gastó un cliente y divídala por Frecuencia, para obtener la cantidad por transacción en promedio, que son los datos monetarios.
df_RFM <-
df2 %>%
dplyr::group_by(CustomerID) %>%
dplyr::summarise(Recency = Sys.Date() - max(InvoiceDate),
Recency = as.numeric(Recency),
frequenci = dplyr::n_distinct(InvoiceNo),
monitery = sum(total_dolar)/frequenci) %>%
dplyr::ungroup()
summary(df_RFM)
kableExtra::kable(head(df_RFM))
## CustomerID Recency frequenci monitery
## Min. :12346 Min. :3423 Min. : 1.000 Min. : 3.45
## 1st Qu.:13813 1st Qu.:3440 1st Qu.: 1.000 1st Qu.: 178.62
## Median :15300 Median :3473 Median : 2.000 Median : 293.90
## Mean :15300 Mean :3515 Mean : 4.272 Mean : 419.17
## 3rd Qu.:16779 3rd Qu.:3565 3rd Qu.: 5.000 3rd Qu.: 430.11
## Max. :18287 Max. :3796 Max. :209.000 Max. :84236.25
CustomerID
|
Recency
|
frequenci
|
monitery
|
12346
|
3748
|
1
|
77183.6000
|
12347
|
3425
|
7
|
615.7143
|
12348
|
3498
|
4
|
449.3100
|
12349
|
3441
|
1
|
1757.5500
|
12350
|
3733
|
1
|
334.4000
|
12352
|
3459
|
8
|
313.2550
|
Antigüedad
Experiencia reciente: ¿Qué tan reciente fue la compra del cliente?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(Recency) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Frecuencia
Frecuencia: ¿con qué frecuencia compran?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(frequenci) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Monetario
Valor monetario: ¿cuánto gastan?
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(monitery) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Debido a que los datos están realmente sesgados, usamos la escala logarítmica para normalizar.
df_RFM$monitery <- log(df_RFM$monitery)
df_RFM %>%
dplyr::filter(monitery < 7000,
frequenci < 200) %>%
ggplot2::ggplot() +
ggplot2::aes(monitery) +
ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) +
ggplot2::theme_minimal() +
ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

RFM Analisis
rfm_result <-
rfm::rfm_table_customer(df_RFM,
customer_id = CustomerID,
recency_days = Recency,
n_transactions = frequenci,
total_revenue = monitery)
Heat Map
rfm::rfm_heatmap(rfm_result)

Bar Chart
rfm::rfm_bar_chart(rfm_result)

Histogram
rfm::rfm_histograms(rfm_result)

Customers by Orders
rfm::rfm_order_dist(rfm_result)

Refinamiento del analisis
Segmentacion del cliente:
ggplot(data = BDF) + aes(x = cus_seg, fill = cus_seg)+ geom_bar() +
geom_text(aes(label=scales::percent(..count../sum(..count..))),
stat='count',position=position_dodge(1))+
labs(title = "Segmentacion del Cliente", x = "Segmento", y = "Total de clientes") + coord_flip()+ theme_minimal()

---
title: "Segmentacion de consumidores usando RFM"
author: 'Grupo 5'
date: "`r format(Sys.time(), '%d %B, %Y')`"
output: 
    html_document:
        df_print: paged
        fig_height: 4
        fig_width: 7
        toc: true
        code_download: true
        code_folding: "show"
---

Según wikipedia.org, "RFM es un método utilizado para analizar el valor del cliente".

RFM representa las tres dimensiones:

* Actividad reciente: ¿Qué tan reciente fue la compra del cliente?
* Frecuencia: ¿con qué frecuencia compran?
* Valor monetario - ¿Cuánto gastan?

Los segmentos resultantes se pueden ordenar desde los más valiosos (mayor antigüedad, frecuencia y valor) hasta los menos valiosos (menor antigüedad, frecuencia y valor). La identificación de los segmentos de RFM más valiosos puede aprovechar las relaciones fortuitas en los datos utilizados para este análisis.


```{r setup, include=FALSE, message=F, error=F, warning=F}
knitr::opts_chunk$set(echo = TRUE)
```

```{r, message=FALSE, warning=FALSE, results='hide'}
library(tidyverse)
library(skimr)
library(data.table)
library(knitr)
library(rmarkdown)

```

## Lectura de datos

```{r, results='markup', message=FALSE}

df <- 
  readr::read_csv(file = 'C:/Users/HUAWEI/Downloads/data.csv/data.csv', 
                  locale = readr::locale(encoding = 'UTF-8'))

dplyr::glimpse(df)

```

## Tratamiento de los datos
Se remueven las cantiades negativas y consumidores con NA asignados.

```{r}
# Remocion de negativos y NA's
df1 <- 
  df %>% 
  dplyr::filter(Quantity > 0 , 
                UnitPrice > 0) %>% 
  tidyr::drop_na()

head(df1, n = 10)

```

## Recodificacion de variables

```{r}
df2 <- 
  df1 %>% 
  dplyr::mutate(InvoiceDate = as.Date(x = InvoiceDate, format = '%m/%d/%Y')) %>% 
  dplyr::mutate_if(is.character, as.factor) %>% 
  dplyr::mutate(total_dolar = Quantity*UnitPrice)

skimr::skim(df2)

```

## Calcular el conjunto de datos de RFM {.tabset}
Para implementar el análisis de RFM, necesitamos seguir procesando el conjunto de datos mediante los siguientes pasos:

1. Busque la fecha más reciente para cada ID y calcule los días hasta la fecha actual o alguna otra para obtener los datos de antigüedad.
2. Calcule la cantidad de traducciones de un cliente para obtener los datos de frecuencia.
3. Sume la cantidad de dinero que gastó un cliente y divídala por Frecuencia, para obtener la cantidad por transacción en promedio, que son los datos monetarios.

```{r results='hold'}

df_RFM <- 
  df2 %>% 
  dplyr::group_by(CustomerID) %>% 
  dplyr::summarise(Recency = Sys.Date() - max(InvoiceDate), 
                   Recency = as.numeric(Recency), 
                   frequenci = dplyr::n_distinct(InvoiceNo), 
                   monitery = sum(total_dolar)/frequenci) %>% 
  dplyr::ungroup()

summary(df_RFM)

kableExtra::kable(head(df_RFM))

```

### Antigüedad
Experiencia reciente: ¿Qué tan reciente fue la compra del cliente?

```{r}

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(Recency) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

### Frecuencia
Frecuencia: ¿con qué frecuencia compran?

```{r} 

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(frequenci) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

### Monetario
Valor monetario: ¿cuánto gastan?

```{r} 

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

Debido a que los datos están realmente sesgados, usamos la escala logarítmica para normalizar.

```{r}

df_RFM$monitery <- log(df_RFM$monitery)

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))
```

## RFM Analisis {.tabset}

```{r}
rfm_result <- 
  rfm::rfm_table_customer(df_RFM, 
                          customer_id = CustomerID,
                          recency_days = Recency,
                          n_transactions = frequenci,
                          total_revenue = monitery)

```

### Heat Map
```{r}
rfm::rfm_heatmap(rfm_result)
```

### Bar Chart
```{r}
rfm::rfm_bar_chart(rfm_result)
```

### Histogram
```{r}
rfm::rfm_histograms(rfm_result)
```

### Customers by Orders
```{r}
rfm::rfm_order_dist(rfm_result)

```

## Refinamiento del analisis

```{r include=FALSE}
library(sqldf)

BDF <- as.data.frame(rfm_result$rfm)
BDF <- 
  reshape::rename(BDF, 
                  c(recency_score = "rfm_recency", 
                    frequency_score = "rfm_freq", 
                    monetary_score = "rfm_monetary"))

BDF <- sqldf("select
customer_id,recency_days,transaction_count,amount,rfm_recency,rfm_freq,rfm_monetary,rfm_score,
case 
when (rfm_recency between 4 and 5) and (rfm_freq between 4 and 5 and rfm_monetary between 4 and 5) then 'Campeones'
when (rfm_recency between 2 and 5) and (rfm_freq between 2 and 5 and rfm_monetary between 2 and 5) then 'Clientes leales'
when (rfm_recency between 3 and 5) and (rfm_freq between 1 and 3 and rfm_monetary between 1 and 3) then 'Leal potencial'
when (rfm_recency between 4 and 5) and (rfm_freq between 0 and 1 and rfm_monetary between 0 and 1) then 'Clientes recientes'
when (rfm_recency between 3 and 4) and (rfm_freq between 0 and 1 and rfm_monetary between 0 and 1) then 'Prometedor'
when (rfm_recency between 2 and 3) and (rfm_freq between 2 and 3 and rfm_monetary between 2 and 3) then 'Clientes que necesitan atencion'
when (rfm_recency between 2 and 3) and (rfm_freq between 0 and 2 and rfm_monetary between 0 and 2) then 'A punto de dormir'
when (rfm_recency between 0 and 2) and (rfm_freq between 2 and 5 and rfm_monetary between 2 and 5) then 'En riesgo'
when (rfm_recency between 0 and 1) and (rfm_freq between 4 and 5 and rfm_monetary between 4 and 5) then 'No puedo Perderlos'
when (rfm_recency between 1 and 2) and (rfm_freq between 1 and 2 and rfm_monetary between 1 and 2) then 'Hibernando'
when (rfm_recency between 0 and 2) and (rfm_freq between 0 and 2 and rfm_monetary between 0 and 2) then 'Perdido'
else 'other' end as cus_seg
from BDF")
```



### Segmentacion del cliente: 

```{r}
ggplot(data = BDF) + aes(x = cus_seg, fill = cus_seg)+ geom_bar() +
  geom_text(aes(label=scales::percent(..count../sum(..count..))),
            stat='count',position=position_dodge(1))+
  labs(title = "Segmentacion del Cliente", x = "Segmento", y = "Total de clientes") + coord_flip()+ theme_minimal()
```

