Según wikipedia.org, “RFM es un método utilizado para analizar el valor del cliente”.

RFM representa las tres dimensiones:

Los segmentos resultantes se pueden ordenar desde los más valiosos (mayor antigüedad, frecuencia y valor) hasta los menos valiosos (menor antigüedad, frecuencia y valor). La identificación de los segmentos de RFM más valiosos puede aprovechar las relaciones fortuitas en los datos utilizados para este análisis.

library(tidyverse)
library(skimr)
library(data.table)
library(knitr)
library(rmarkdown)

Lectura de datos

df <- 
  readr::read_csv(file = 'C:/Users/HUAWEI/Downloads/data.csv/data.csv', 
                  locale = readr::locale(encoding = 'UTF-8'))

dplyr::glimpse(df)
## Rows: 541,909
## Columns: 8
## $ InvoiceNo   <chr> "536365", "536365", "536365", "536365", "536365", "536365"~
## $ StockCode   <chr> "85123A", "71053", "84406B", "84029G", "84029E", "22752", ~
## $ Description <chr> "WHITE HANGING HEART T-LIGHT HOLDER", "WHITE METAL LANTERN~
## $ Quantity    <dbl> 6, 6, 8, 6, 6, 2, 6, 6, 6, 32, 6, 6, 8, 6, 6, 3, 2, 3, 3, ~
## $ InvoiceDate <chr> "12/1/2010 8:26", "12/1/2010 8:26", "12/1/2010 8:26", "12/~
## $ UnitPrice   <dbl> 2.55, 3.39, 2.75, 3.39, 3.39, 7.65, 4.25, 1.85, 1.85, 1.69~
## $ CustomerID  <dbl> 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17850, 17~
## $ Country     <chr> "United Kingdom", "United Kingdom", "United Kingdom", "Uni~

Tratamiento de los datos

Se remueven las cantiades negativas y consumidores con NA asignados.

# Remocion de negativos y NA's
df1 <- 
  df %>% 
  dplyr::filter(Quantity > 0 , 
                UnitPrice > 0) %>% 
  tidyr::drop_na()

head(df1, n = 10)

Recodificacion de variables

df2 <- 
  df1 %>% 
  dplyr::mutate(InvoiceDate = as.Date(x = InvoiceDate, format = '%m/%d/%Y')) %>% 
  dplyr::mutate_if(is.character, as.factor) %>% 
  dplyr::mutate(total_dolar = Quantity*UnitPrice)

skimr::skim(df2)
Data summary
Name df2
Number of rows 397884
Number of columns 9
_______________________
Column type frequency:
Date 1
factor 4
numeric 4
________________________
Group variables None

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
InvoiceDate 0 1 2010-12-01 2011-12-09 2011-07-31 305

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
InvoiceNo 0 1 FALSE 18532 576: 542, 579: 533, 580: 529, 578: 442
StockCode 0 1 FALSE 3665 851: 2035, 224: 1723, 850: 1618, 848: 1408
Description 0 1 FALSE 3866 WHI: 2028, REG: 1723, JUM: 1618, ASS: 1408
Country 0 1 FALSE 37 Uni: 354321, Ger: 9040, Fra: 8341, EIR: 7236

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Quantity 0 1 12.99 179.33 1 2.00 6.00 12.00 80995.00 ▇▁▁▁▁
UnitPrice 0 1 3.12 22.10 0 1.25 1.95 3.75 8142.75 ▇▁▁▁▁
CustomerID 0 1 15294.42 1713.14 12346 13969.00 15159.00 16795.00 18287.00 ▇▇▇▇▇
total_dolar 0 1 22.40 309.07 0 4.68 11.80 19.80 168469.60 ▇▁▁▁▁

Calcular el conjunto de datos de RFM

Para implementar el análisis de RFM, necesitamos seguir procesando el conjunto de datos mediante los siguientes pasos:

  1. Busque la fecha más reciente para cada ID y calcule los días hasta la fecha actual o alguna otra para obtener los datos de antigüedad.
  2. Calcule la cantidad de traducciones de un cliente para obtener los datos de frecuencia.
  3. Sume la cantidad de dinero que gastó un cliente y divídala por Frecuencia, para obtener la cantidad por transacción en promedio, que son los datos monetarios.
df_RFM <- 
  df2 %>% 
  dplyr::group_by(CustomerID) %>% 
  dplyr::summarise(Recency = Sys.Date() - max(InvoiceDate), 
                   Recency = as.numeric(Recency), 
                   frequenci = dplyr::n_distinct(InvoiceNo), 
                   monitery = sum(total_dolar)/frequenci) %>% 
  dplyr::ungroup()

summary(df_RFM)

kableExtra::kable(head(df_RFM))
##    CustomerID       Recency       frequenci          monitery       
##  Min.   :12346   Min.   :3423   Min.   :  1.000   Min.   :    3.45  
##  1st Qu.:13813   1st Qu.:3440   1st Qu.:  1.000   1st Qu.:  178.62  
##  Median :15300   Median :3473   Median :  2.000   Median :  293.90  
##  Mean   :15300   Mean   :3515   Mean   :  4.272   Mean   :  419.17  
##  3rd Qu.:16779   3rd Qu.:3565   3rd Qu.:  5.000   3rd Qu.:  430.11  
##  Max.   :18287   Max.   :3796   Max.   :209.000   Max.   :84236.25
CustomerID Recency frequenci monitery
12346 3748 1 77183.6000
12347 3425 7 615.7143
12348 3498 4 449.3100
12349 3441 1 1757.5500
12350 3733 1 334.4000
12352 3459 8 313.2550

Antigüedad

Experiencia reciente: ¿Qué tan reciente fue la compra del cliente?

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(Recency) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Frecuencia

Frecuencia: ¿con qué frecuencia compran?

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(frequenci) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Monetario

Valor monetario: ¿cuánto gastan?

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

Debido a que los datos están realmente sesgados, usamos la escala logarítmica para normalizar.

df_RFM$monitery <- log(df_RFM$monitery)

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

RFM Analisis

rfm_result <- 
  rfm::rfm_table_customer(df_RFM, 
                          customer_id = CustomerID,
                          recency_days = Recency,
                          n_transactions = frequenci,
                          total_revenue = monitery)

Heat Map

rfm::rfm_heatmap(rfm_result)

Bar Chart

rfm::rfm_bar_chart(rfm_result)

Histogram

rfm::rfm_histograms(rfm_result)

Customers by Orders

rfm::rfm_order_dist(rfm_result)

Refinamiento del analisis

Segmentacion del cliente:

ggplot(data = BDF) + aes(x = cus_seg, fill = cus_seg)+ geom_bar() +
  geom_text(aes(label=scales::percent(..count../sum(..count..))),
            stat='count',position=position_dodge(1))+
  labs(title = "Segmentacion del Cliente", x = "Segmento", y = "Total de clientes") + coord_flip()+ theme_minimal()

---
title: "Segmentacion de consumidores usando RFM"
author: 'Grupo 5'
date: "`r format(Sys.time(), '%d %B, %Y')`"
output: 
    html_document:
        df_print: paged
        fig_height: 4
        fig_width: 7
        toc: true
        code_download: true
        code_folding: "show"
---

Según wikipedia.org, "RFM es un método utilizado para analizar el valor del cliente".

RFM representa las tres dimensiones:

* Actividad reciente: ¿Qué tan reciente fue la compra del cliente?
* Frecuencia: ¿con qué frecuencia compran?
* Valor monetario - ¿Cuánto gastan?

Los segmentos resultantes se pueden ordenar desde los más valiosos (mayor antigüedad, frecuencia y valor) hasta los menos valiosos (menor antigüedad, frecuencia y valor). La identificación de los segmentos de RFM más valiosos puede aprovechar las relaciones fortuitas en los datos utilizados para este análisis.


```{r setup, include=FALSE, message=F, error=F, warning=F}
knitr::opts_chunk$set(echo = TRUE)
```

```{r, message=FALSE, warning=FALSE, results='hide'}
library(tidyverse)
library(skimr)
library(data.table)
library(knitr)
library(rmarkdown)

```

## Lectura de datos

```{r, results='markup', message=FALSE}

df <- 
  readr::read_csv(file = 'C:/Users/HUAWEI/Downloads/data.csv/data.csv', 
                  locale = readr::locale(encoding = 'UTF-8'))

dplyr::glimpse(df)

```

## Tratamiento de los datos
Se remueven las cantiades negativas y consumidores con NA asignados.

```{r}
# Remocion de negativos y NA's
df1 <- 
  df %>% 
  dplyr::filter(Quantity > 0 , 
                UnitPrice > 0) %>% 
  tidyr::drop_na()

head(df1, n = 10)

```

## Recodificacion de variables

```{r}
df2 <- 
  df1 %>% 
  dplyr::mutate(InvoiceDate = as.Date(x = InvoiceDate, format = '%m/%d/%Y')) %>% 
  dplyr::mutate_if(is.character, as.factor) %>% 
  dplyr::mutate(total_dolar = Quantity*UnitPrice)

skimr::skim(df2)

```

## Calcular el conjunto de datos de RFM {.tabset}
Para implementar el análisis de RFM, necesitamos seguir procesando el conjunto de datos mediante los siguientes pasos:

1. Busque la fecha más reciente para cada ID y calcule los días hasta la fecha actual o alguna otra para obtener los datos de antigüedad.
2. Calcule la cantidad de traducciones de un cliente para obtener los datos de frecuencia.
3. Sume la cantidad de dinero que gastó un cliente y divídala por Frecuencia, para obtener la cantidad por transacción en promedio, que son los datos monetarios.

```{r results='hold'}

df_RFM <- 
  df2 %>% 
  dplyr::group_by(CustomerID) %>% 
  dplyr::summarise(Recency = Sys.Date() - max(InvoiceDate), 
                   Recency = as.numeric(Recency), 
                   frequenci = dplyr::n_distinct(InvoiceNo), 
                   monitery = sum(total_dolar)/frequenci) %>% 
  dplyr::ungroup()

summary(df_RFM)

kableExtra::kable(head(df_RFM))

```

### Antigüedad
Experiencia reciente: ¿Qué tan reciente fue la compra del cliente?

```{r}

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(Recency) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

### Frecuencia
Frecuencia: ¿con qué frecuencia compran?

```{r} 

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(frequenci) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

### Monetario
Valor monetario: ¿cuánto gastan?

```{r} 

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))

```

Debido a que los datos están realmente sesgados, usamos la escala logarítmica para normalizar.

```{r}

df_RFM$monitery <- log(df_RFM$monitery)

df_RFM %>% 
  dplyr::filter(monitery < 7000, 
                frequenci < 200) %>% 
  ggplot2::ggplot() + 
  ggplot2::aes(monitery) + 
  ggplot2::geom_histogram(col = 'red', fill = 'skyblue', bins = 50) + 
  ggplot2::theme_minimal() + 
  ggplot2::theme(text = ggplot2::element_text(family = 'serif'))
```

## RFM Analisis {.tabset}

```{r}
rfm_result <- 
  rfm::rfm_table_customer(df_RFM, 
                          customer_id = CustomerID,
                          recency_days = Recency,
                          n_transactions = frequenci,
                          total_revenue = monitery)

```

### Heat Map
```{r}
rfm::rfm_heatmap(rfm_result)
```

### Bar Chart
```{r}
rfm::rfm_bar_chart(rfm_result)
```

### Histogram
```{r}
rfm::rfm_histograms(rfm_result)
```

### Customers by Orders
```{r}
rfm::rfm_order_dist(rfm_result)

```

## Refinamiento del analisis

```{r include=FALSE}
library(sqldf)

BDF <- as.data.frame(rfm_result$rfm)
BDF <- 
  reshape::rename(BDF, 
                  c(recency_score = "rfm_recency", 
                    frequency_score = "rfm_freq", 
                    monetary_score = "rfm_monetary"))

BDF <- sqldf("select
customer_id,recency_days,transaction_count,amount,rfm_recency,rfm_freq,rfm_monetary,rfm_score,
case 
when (rfm_recency between 4 and 5) and (rfm_freq between 4 and 5 and rfm_monetary between 4 and 5) then 'Campeones'
when (rfm_recency between 2 and 5) and (rfm_freq between 2 and 5 and rfm_monetary between 2 and 5) then 'Clientes leales'
when (rfm_recency between 3 and 5) and (rfm_freq between 1 and 3 and rfm_monetary between 1 and 3) then 'Leal potencial'
when (rfm_recency between 4 and 5) and (rfm_freq between 0 and 1 and rfm_monetary between 0 and 1) then 'Clientes recientes'
when (rfm_recency between 3 and 4) and (rfm_freq between 0 and 1 and rfm_monetary between 0 and 1) then 'Prometedor'
when (rfm_recency between 2 and 3) and (rfm_freq between 2 and 3 and rfm_monetary between 2 and 3) then 'Clientes que necesitan atencion'
when (rfm_recency between 2 and 3) and (rfm_freq between 0 and 2 and rfm_monetary between 0 and 2) then 'A punto de dormir'
when (rfm_recency between 0 and 2) and (rfm_freq between 2 and 5 and rfm_monetary between 2 and 5) then 'En riesgo'
when (rfm_recency between 0 and 1) and (rfm_freq between 4 and 5 and rfm_monetary between 4 and 5) then 'No puedo Perderlos'
when (rfm_recency between 1 and 2) and (rfm_freq between 1 and 2 and rfm_monetary between 1 and 2) then 'Hibernando'
when (rfm_recency between 0 and 2) and (rfm_freq between 0 and 2 and rfm_monetary between 0 and 2) then 'Perdido'
else 'other' end as cus_seg
from BDF")
```



### Segmentacion del cliente: 

```{r}
ggplot(data = BDF) + aes(x = cus_seg, fill = cus_seg)+ geom_bar() +
  geom_text(aes(label=scales::percent(..count../sum(..count..))),
            stat='count',position=position_dodge(1))+
  labs(title = "Segmentacion del Cliente", x = "Segmento", y = "Total de clientes") + coord_flip()+ theme_minimal()
```

