Importar base de datos

#file.choose()
bd12 <- read.csv("C:\\Users\\danyc\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\Desktop\\Excel y CSV\\Maestrodatos_clientes.csv")
summary(bd12)
##    CustomerID        Total             Visitas       
##  Min.   :12346   Min.   :    3.45   Min.   :  1.000  
##  1st Qu.:13832   1st Qu.:  178.30   1st Qu.:  1.000  
##  Median :15322   Median :  292.00   Median :  2.000  
##  Mean   :15316   Mean   :  415.62   Mean   :  4.227  
##  3rd Qu.:16790   3rd Qu.:  426.63   3rd Qu.:  5.000  
##  Max.   :18287   Max.   :84236.25   Max.   :209.000

Herramienta “El Generador de Valor de Datos”

Paso 1. Definir el área del negocio que buscamos impactar o mejorar y su KPI

El área serían directamente las ventas de nuestros productos pero con relación a los clientes.

Los KPI´s a impactar son:

a. Compras del cliente (Ventas) b. Retención del cliente

Paso 2. Seleccionar plantilla(-s) para crear valor a partir de los datos de los clientes.

Visión / Segmentación / Personalización / Contextualización

Paso 3. Generar ideas o conceptos específicos.
Creación de estrategía para mantener a los clientes y generar un incremento en sus compras.

Paso 4. Reunir los datos requeridos. Se necesita una base de datos limpia de tickets de ventas a clientes con numeros de clientes.

Paso 5. Plan de ejecución. a. Recabar los datos, selecciónar los últimos años para recabar esta informacion para trabajarla. b.Limpiar la base de datos. c.Hacer una segmentación en clusters de los clientes. d. Definir las ubicaciones con más retorno de clientes. e. Generar estratégias para seguir reteniendo clientes y premiar la lealtad.

Limpiar base de datos

Agregar el CustomerID como nombre de los renglones

bd13<-bd12
rownames(bd13)<- bd13$CustomerID

Eliminar la columna de customer ID

bd14<-bd13
bd14<- subset(bd14, select = -c (CustomerID))

Revisar presencia de datos anormales

summary(bd14)
##      Total             Visitas       
##  Min.   :    3.45   Min.   :  1.000  
##  1st Qu.:  178.30   1st Qu.:  1.000  
##  Median :  292.00   Median :  2.000  
##  Mean   :  415.62   Mean   :  4.227  
##  3rd Qu.:  426.63   3rd Qu.:  5.000  
##  Max.   :84236.25   Max.   :209.000
plot(bd14$Total, bd14$visitas)

#Los datos fuera de lo normal estan fuera de los siguientes límites:
   #Límite inferior = Q1 - 1.5*IQR
   #Límite superior = Q3 + 1.5*IQR
#Q1: Cuartil 1, Q3: Cuartil 3, IQR: Rango Intercuartil =Q3-Q1

Calcular el límite superior del total

iqr_total<-IQR(bd14$Total)
limite_superior_total<- 426.63+ 1.5*iqr_total
limite_superior_total
## [1] 799.1277

Conservar solo los tickets promedios menores a 800

bd15 <-bd14
bd15 <- bd15[bd15$Total<800, ]
summary(bd15)
##      Total           Visitas       
##  Min.   :  3.45   Min.   :  1.000  
##  1st Qu.:172.96   1st Qu.:  1.000  
##  Median :272.23   Median :  2.000  
##  Mean   :298.21   Mean   :  4.125  
##  3rd Qu.:390.24   3rd Qu.:  5.000  
##  Max.   :799.62   Max.   :209.000

Calcular el límite superior de las visitas

iqr_Visitas<-IQR(bd14$Visitas)
limite_superior_visitas<- 5+ 1.5*iqr_Visitas
limite_superior_visitas
## [1] 11

Conservar sólo las visitas menores a 12

bd16<-bd15
bd16<-bd16[bd16$Visitas < 12, ]

summary(bd16)
##      Total           Visitas      
##  Min.   :  3.45   Min.   : 1.000  
##  1st Qu.:168.67   1st Qu.: 1.000  
##  Median :267.13   Median : 2.000  
##  Mean   :293.99   Mean   : 2.971  
##  3rd Qu.:384.80   3rd Qu.: 4.000  
##  Max.   :799.62   Max.   :11.000
plot(bd16$Total, bd16$Visitas)

K-means clustering

Paso 1. Normalizar Variables

bd17<-bd16
bd17<-as.data.frame(scale(bd17))

plot(bd17$Total, bd17$Visitas)

Paso 2. k-means Clustering

#segmentos <- kmeans(bd17, 3)
#segmentos

asignacion <- cbind(bd16, cluster = segmentos$cluster)
head(asignacion, 10)
##          Total Visitas cluster
## 12347 615.7143       7       2
## 12350 334.4000       1       1
## 12352 313.2550       8       2
## 12353  89.0000       1       1
## 12355 459.4000       1       3
## 12358 584.0300       2       3
## 12361 189.9000       1       1
## 12362 522.6230      10       2
## 12363 276.0000       2       1
## 12364 328.2750       4       1

Exportar csv

#write.csv(asignacion,"clientes_segmentados.csv")

Visualizar Segmentos

#install.packages("factoextra")
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(segmentos, data = bd17,
             palette=c("red","blue", "black", "dark green"),
             ellipse.type= "euclid",
             star.plot = T ,
             repel = T,
             ggtheme = theme())
## Warning: ggrepel: 3734 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

#install.packages("Cluster")

library(data.table)
library(cluster)
library(factoextra)

Optimizar k

set.seed(123)
optimizacion <- clusGap(bd17, FUN = kmeans, nstart = 25, K.max= 10, B = 50)
## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations

## Warning: did not converge in 10 iterations
plot(optimizacion, xlab = "Numero de Clusters k")

Conclusión y Aprendizaje

Dentro de los clusters para el supermercado pudimos visualizar la manera en la que los clientes del cluster superior en color rojo son los más leales y con unas compras superiores a los demás pero debido a que la visualización del primer cluster era muy incierta por el amontonamiento de los datos, se hizo la segunda optimización de K-means la cual también reduce el error de los clusters en un 6-15% al decirnos cuál es el grupo de clusters mas óptimo para nuestro análisis, esto se complementaría con la herramienta de manera en que segmentando a los clientes por individual se les pueden dar distintos tipos de bonificaciónes o complementos adicionales para retenerlos de la competencia.

Ya visualizando los datos, esta herramienta la podríamos utilizar generalmente en el area de mercadotecnia y ventas ya que va muy relacionada con la generación de insights para distintos clusters en el mercado y al mismo tiempo la generación de estrategias. De igual manera se puede integrar esta información con un CRM para personalizar las promociones que se les dan a sus segmentos de clientes y aumentar las ventas en el area de interés del cliente, asi como lo hace Costco o Rappi al estudiar el comportamiento del consumidor con sus datos y dando ofertas que probablemente pudieran aceptar.

