Importar base de datos
#file.choose()
bd12 <- read.csv("C:\\Users\\danyc\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\Desktop\\Excel y CSV\\Maestrodatos_clientes.csv")
summary(bd12)
## CustomerID Total Visitas
## Min. :12346 Min. : 3.45 Min. : 1.000
## 1st Qu.:13832 1st Qu.: 178.30 1st Qu.: 1.000
## Median :15322 Median : 292.00 Median : 2.000
## Mean :15316 Mean : 415.62 Mean : 4.227
## 3rd Qu.:16790 3rd Qu.: 426.63 3rd Qu.: 5.000
## Max. :18287 Max. :84236.25 Max. :209.000
Herramienta “El Generador de Valor de
Datos”
Paso 1. Definir el área del negocio que buscamos impactar o
mejorar y su KPI
El área serían directamente las ventas de nuestros productos pero con
relación a los clientes.
Los KPI´s a impactar son:
a. Compras del cliente (Ventas) b. Retención del
cliente
Paso 2. Seleccionar plantilla(-s) para crear valor a partir
de los datos de los clientes.
Visión / Segmentación / Personalización /
Contextualización
Paso 3. Generar ideas o conceptos específicos.
Creación de estrategía para mantener a los clientes y generar un
incremento en sus compras.
Paso 4. Reunir los datos requeridos. Se necesita una base de
datos limpia de tickets de ventas a clientes con numeros de
clientes.
Paso 5. Plan de ejecución. a. Recabar los datos, selecciónar
los últimos años para recabar esta informacion para trabajarla.
b.Limpiar la base de datos. c.Hacer una segmentación en clusters de los
clientes. d. Definir las ubicaciones con más retorno de clientes. e.
Generar estratégias para seguir reteniendo clientes y premiar la
lealtad.
Limpiar base de datos
Agregar el CustomerID como nombre de los
renglones
bd13<-bd12
rownames(bd13)<- bd13$CustomerID
Eliminar la columna de customer ID
bd14<-bd13
bd14<- subset(bd14, select = -c (CustomerID))
Revisar presencia de datos anormales
summary(bd14)
## Total Visitas
## Min. : 3.45 Min. : 1.000
## 1st Qu.: 178.30 1st Qu.: 1.000
## Median : 292.00 Median : 2.000
## Mean : 415.62 Mean : 4.227
## 3rd Qu.: 426.63 3rd Qu.: 5.000
## Max. :84236.25 Max. :209.000
plot(bd14$Total, bd14$visitas)

#Los datos fuera de lo normal estan fuera de los siguientes límites:
#Límite inferior = Q1 - 1.5*IQR
#Límite superior = Q3 + 1.5*IQR
#Q1: Cuartil 1, Q3: Cuartil 3, IQR: Rango Intercuartil =Q3-Q1
Calcular el límite superior del total
iqr_total<-IQR(bd14$Total)
limite_superior_total<- 426.63+ 1.5*iqr_total
limite_superior_total
## [1] 799.1277
Conservar solo los tickets promedios
menores a 800
bd15 <-bd14
bd15 <- bd15[bd15$Total<800, ]
summary(bd15)
## Total Visitas
## Min. : 3.45 Min. : 1.000
## 1st Qu.:172.96 1st Qu.: 1.000
## Median :272.23 Median : 2.000
## Mean :298.21 Mean : 4.125
## 3rd Qu.:390.24 3rd Qu.: 5.000
## Max. :799.62 Max. :209.000
Calcular el límite superior de las
visitas
iqr_Visitas<-IQR(bd14$Visitas)
limite_superior_visitas<- 5+ 1.5*iqr_Visitas
limite_superior_visitas
## [1] 11
Conservar sólo las visitas menores a
12
bd16<-bd15
bd16<-bd16[bd16$Visitas < 12, ]
summary(bd16)
## Total Visitas
## Min. : 3.45 Min. : 1.000
## 1st Qu.:168.67 1st Qu.: 1.000
## Median :267.13 Median : 2.000
## Mean :293.99 Mean : 2.971
## 3rd Qu.:384.80 3rd Qu.: 4.000
## Max. :799.62 Max. :11.000
plot(bd16$Total, bd16$Visitas)

K-means clustering
Paso 1. Normalizar Variables
bd17<-bd16
bd17<-as.data.frame(scale(bd17))
plot(bd17$Total, bd17$Visitas)

Paso 2. k-means Clustering
#segmentos <- kmeans(bd17, 3)
#segmentos
asignacion <- cbind(bd16, cluster = segmentos$cluster)
head(asignacion, 10)
## Total Visitas cluster
## 12347 615.7143 7 2
## 12350 334.4000 1 1
## 12352 313.2550 8 2
## 12353 89.0000 1 1
## 12355 459.4000 1 3
## 12358 584.0300 2 3
## 12361 189.9000 1 1
## 12362 522.6230 10 2
## 12363 276.0000 2 1
## 12364 328.2750 4 1
Exportar csv
#write.csv(asignacion,"clientes_segmentados.csv")
Visualizar Segmentos
#install.packages("factoextra")
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_cluster(segmentos, data = bd17,
palette=c("red","blue", "black", "dark green"),
ellipse.type= "euclid",
star.plot = T ,
repel = T,
ggtheme = theme())
## Warning: ggrepel: 3734 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

#install.packages("Cluster")
library(data.table)
library(cluster)
library(factoextra)
Optimizar k
set.seed(123)
optimizacion <- clusGap(bd17, FUN = kmeans, nstart = 25, K.max= 10, B = 50)
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
## Warning: did not converge in 10 iterations
plot(optimizacion, xlab = "Numero de Clusters k")

Conclusión y Aprendizaje
Dentro de los clusters para el supermercado pudimos visualizar la
manera en la que los clientes del cluster superior en color rojo son los
más leales y con unas compras superiores a los demás pero debido a que
la visualización del primer cluster era muy incierta por el
amontonamiento de los datos, se hizo la segunda optimización de K-means
la cual también reduce el error de los clusters en un 6-15% al decirnos
cuál es el grupo de clusters mas óptimo para nuestro análisis, esto se
complementaría con la herramienta de manera en que segmentando a los
clientes por individual se les pueden dar distintos tipos de
bonificaciónes o complementos adicionales para retenerlos de la
competencia.
Ya visualizando los datos, esta herramienta la podríamos utilizar
generalmente en el area de mercadotecnia y ventas ya que va muy
relacionada con la generación de insights para distintos clusters en el
mercado y al mismo tiempo la generación de estrategias. De igual manera
se puede integrar esta información con un CRM para personalizar las
promociones que se les dan a sus segmentos de clientes y aumentar las
ventas en el area de interés del cliente, asi como lo hace Costco o
Rappi al estudiar el comportamiento del consumidor con sus datos y dando
ofertas que probablemente pudieran aceptar.
