Librerías
library(dplyr)
library(factoextra)
library(ggplot2)
library(cluster)
library(data.table)
Ventas
Importar base de datos
Como observación, en este análisis se omite el paso de entender base
de datos ya que esta base de datos es la exportada al final deel
ejercicio Herramientas para la Limpieza de Datos.
setwd("C:\\Users\\javaw\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\7mo Semestre\\Modulo 3")
ventas<-read.csv("ventas_bd_limpia.csv")
Herramienta “El Generador de Valor de Datos”
Paso 1. Definir el área de negocio a impactar y su
KPI
El departamento de mercadotecnia, específicamente en el indicador de
ticket promedio por cliente y las visitas a la tienda.
Paso 2. Seleccionar plantilla(s) para crear valor a partir
de los datos de los clientes.
Visión Segmentación Personalización Contextualización
Paso 3. Generar ideas o conceptos específicos.
Elaborar un modelo de clusters para identificar los segmentos de
mercado y analizar su comportamiento de visitas a la tienda.
Paso 4.Reunir los datos requeridos.
Elaborar una base de datos con la variables para realizar los
clusters: ticket promedio, número de cliente y visitas por cliente.
Paso 5. Plan de ejecución.
Mecadotecnia elaborará un plan para desarrollar estrategias de
mercado específicas para cada segmento identificado.
De igual manera, mercadotecnia puede complementar esto con un market
basket analysis.
Segmentación de mercado
Ticket Promedio
Para obtener el ticket promedio es necesario primero hacer una
columna que sea el precio por la cantidad comprada.
ventas1<-cbind(ventas,Totalcompra=(ventas$Price*ventas$Quantity))
Posteriormente, hay que usar la funcion aggregate para saber cuanto
fue el total de compra por cada ticket y cuantos tickets hay por
cliente.
ticket_por_cliente<-aggregate(Totalcompra ~ CustomerID + BillNo, data = ventas1, sum)
head(ticket_por_cliente)
## CustomerID BillNo Totalcompra
## 1 17850 536365 139.12
## 2 17850 536366 22.20
## 3 13047 536367 278.73
## 4 13047 536368 70.05
## 5 13047 536369 17.85
## 6 12583 536370 855.86
ticket_promedio<-group_by(ticket_por_cliente,CustomerID) %>% summarise(TicketsPromedio = mean(Totalcompra))
head(ticket_promedio)
## # A tibble: 6 x 2
## CustomerID TicketsPromedio
## <int> <dbl>
## 1 12346 77184.
## 2 12347 613.
## 3 12349 1758.
## 4 12350 334.
## 5 12352 313.
## 6 12353 89
Una vez que tenemos el ticket promedio por cliente es necesario saber
lo siguiente.
Visitas a la tienda
visitas<-group_by(ticket_por_cliente,CustomerID) %>% summarise(Visitas = n_distinct(BillNo))
visitas
## # A tibble: 4,291 x 2
## CustomerID Visitas
## <int> <int>
## 1 12346 1
## 2 12347 7
## 3 12349 1
## 4 12350 1
## 5 12352 8
## 6 12353 1
## 7 12354 1
## 8 12355 1
## 9 12356 3
## 10 12357 1
## # ... with 4,281 more rows
Ya que tenemos las visitas por cliente hay que unir las bases de
datos para tener nuestra segmentación.
segmentacion<-merge(ticket_promedio,visitas,by="CustomerID")
head(segmentacion)
## CustomerID TicketsPromedio Visitas
## 1 12346 77183.6000 1
## 2 12347 613.3143 7
## 3 12349 1757.5500 1
## 4 12350 334.4000 1
## 5 12352 313.2550 8
## 6 12353 89.0000 1
Cluster Analysis: Pasos Previos
Agregar el customerID como nombre a los renglones
df<-segmentacion
rownames(df)<-df$CustomerID
Eliminar la columna de Customer ID
df2<-df
df2<-subset(df2, select=-c(CustomerID))
head(df2)
## TicketsPromedio Visitas
## 12346 77183.6000 1
## 12347 613.3143 7
## 12349 1757.5500 1
## 12350 334.4000 1
## 12352 313.2550 8
## 12353 89.0000 1
Revisar la presencia de datos anormales
summary(df2)
## TicketsPromedio Visitas
## Min. : 3.45 Min. : 1.000
## 1st Qu.: 176.14 1st Qu.: 1.000
## Median : 286.72 Median : 2.000
## Mean : 412.33 Mean : 4.223
## 3rd Qu.: 423.24 3rd Qu.: 5.000
## Max. :84236.25 Max. :207.000
plot(df2$TicketsPromedio, df2$Visitas)

Podemos definir que los datos fuera de lo normal están fuera de los
siguientes límites:
Límite Inferior = Q1 - 1.5IQR
Límite Superior = Q3 + 1.5IQR
Q1: Cuartil 1, Q3: Cuartil 3, IQR: Rango Intercuartil = Q3-Q1
Calcular el límite superior del total de tickets promedio
iqr_total<-IQR(df2$TicketsPromedio)
limite_superior_total <-423.24 + 1.5*iqr_total
limite_superior_total
## [1] 793.8898
Calcular el limite superior del total de visitas
iqr_visitas<-IQR(df2$Visitas)
limite_superior_visitas<-5+1.5*iqr_visitas
limite_superior_visitas
## [1] 11
Conservar solo los tickets promedios menores a 794
df3<-df2
df3<-df3[df3$TicketsPromedio<794,]
summary(df3)
## TicketsPromedio Visitas
## Min. : 3.45 Min. : 1.00
## 1st Qu.:169.96 1st Qu.: 1.00
## Median :269.00 Median : 2.00
## Mean :294.98 Mean : 4.12
## 3rd Qu.:386.99 3rd Qu.: 5.00
## Max. :791.15 Max. :207.00
Conservar solo las visitas inferiores a 12
df4<-df3
df4<-df4[df4$Visitas<12,]
summary(df4)
## TicketsPromedio Visitas
## Min. : 3.45 Min. : 1.000
## 1st Qu.:166.06 1st Qu.: 1.000
## Median :263.24 Median : 2.000
## Mean :290.86 Mean : 2.967
## 3rd Qu.:381.55 3rd Qu.: 4.000
## Max. :791.15 Max. :11.000
Boxplot con tickets inferiores a 794 y visitas inferiores a 12
plot(df4$TicketsPromedio,df4$Visitas)

Cluster Analysis: Pasos Definitivos
Para hacer en analisis por clusters es necesario primero llevar a
cabo el siguiente proceso.
Paso1. Normalizar variables
df5<-df4
df5<-as.data.frame(scale(df5))
plot(df5$TicketsPromedio, df5$Visitas)

Paso 2. K-means Clustering
4 clusters
segmentos<-kmeans(df5,4)
asignacion<-cbind(df4,Cluster=segmentos$cluster)
head(asignacion,10)
## TicketsPromedio Visitas Cluster
## 12347 613.3143 7 1
## 12350 334.4000 1 4
## 12352 313.2550 8 3
## 12353 89.0000 1 2
## 12355 459.4000 1 4
## 12358 584.0300 2 1
## 12361 189.9000 1 2
## 12362 519.5990 10 3
## 12363 276.0000 2 4
## 12364 328.2750 4 4
3 clusters
segmentos2<-kmeans(df5,3)
asignacion2<-cbind(df4,Cluster=segmentos2$cluster)
head(asignacion2,10)
## TicketsPromedio Visitas Cluster
## 12347 613.3143 7 2
## 12350 334.4000 1 1
## 12352 313.2550 8 2
## 12353 89.0000 1 1
## 12355 459.4000 1 3
## 12358 584.0300 2 3
## 12361 189.9000 1 1
## 12362 519.5990 10 2
## 12363 276.0000 2 1
## 12364 328.2750 4 3
Exportar CSV
write.csv(asignacion,"clientes_segmentados.csv")
Visualizar Segmentos 4 clusters
fviz_cluster(segmentos, data=df5,
palette=c("red","blue","black","darkgreen"),
ellipse.type="euclid",
star.plot=T,
repel=T,
ggtheme=theme())
## Warning: ggrepel: 3728 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Visualizar Segmentos 3 clusters
fviz_cluster(segmentos2, data=df5,
palette=c("red","blue","black","darkgreen"),
ellipse.type="euclid",
star.plot=T,
repel=T,
ggtheme=theme())
## Warning: ggrepel: 3728 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Optimizar K
set.seed(123)
optimizacion<-clusGap(df5, FUN= kmeans, nstart=25,K.max=10,B=50)
plot(optimizacion,xlab="Numero de clusters K")

Gráfico Interactivo
#selectInput("opciones",label="x",choices = names(ticket_por_cliente),selected = "BillNo")
#renderPlot(plot(ticket_por_cliente$Totalcompra,ticket_por_cliente[,input$opciones])
#)
Us Arrests
Importar Base de Datos
setwd("C:\\Users\\javaw\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\7mo Semestre\\Modulo 3")
us<-read.csv("USArrests.csv")
Herramienta “El Generador de Valor de Datos”
Paso 1. Definir el área de negocio a impactar y su
KPI
El departamento de seguridad nacional, o departamento que sea
responsable, específicamente en el indicador de índices de
criminalidad.
Paso 2. Seleccionar plantilla(s) para crear valor a partir
de los datos de los clientes.
Visión Segmentación Personalización Contextualización
Paso 3. Generar ideas o conceptos específicos.
Elaborar un modelo de clusters para identificar los estados que
poseen índices de criminalidad similares, además de una población
similar.
Paso 4.Reunir los datos requeridos.
Los datos necesarios ya están reunidos, solo hay que realizar el
análisis de clusters y normalizar.
Paso 5. Plan de ejecución.
El departamento de seguridad desarrollará una estrategia a
implementarse para reducir los índices de criminalidad. Esta estrategia
será por fases.
1. Implementarla en estados con menores índices (California).
2. Replicar en estados similares a california.
3. Replicar en el resto del país.
Cluster Analysis: Pasos Previos
Convertir estados a los renglones
us1<-us
rownames(us1)<-us1$ï..
Eliminar la columna de Estado
us2<-us1
us2<-subset(us2, select=-c(ï..))
Cluster Analysis: Pasos Definitivos
Para hacer en analisis por clusters es necesario primero llevar a
cabo el siguiente proceso.
Paso1. Normalizar variables
us3<-us2
us3<-as.data.frame(scale(us3))
Paso 2. K-means Clustering
4 clusters
clusters<-kmeans(us3,4)
asignacion<-cbind(us2,Cluster=clusters$cluster)
head(asignacion,10)
## Murder Assault UrbanPop Rape Cluster
## Alabama 13.2 236 58 21.2 4
## Alaska 10.0 263 48 44.5 3
## Arizona 8.1 294 80 31.0 3
## Arkansas 8.8 190 50 19.5 4
## California 9.0 276 91 40.6 3
## Colorado 7.9 204 78 38.7 3
## Connecticut 3.3 110 77 11.1 2
## Delaware 5.9 238 72 15.8 2
## Florida 15.4 335 80 31.9 3
## Georgia 17.4 211 60 25.8 4
3 clusters
clusters2<-kmeans(us3,3)
asignacion2<-cbind(us2,Cluster=clusters2$cluster)
head(asignacion2,10)
## Murder Assault UrbanPop Rape Cluster
## Alabama 13.2 236 58 21.2 2
## Alaska 10.0 263 48 44.5 2
## Arizona 8.1 294 80 31.0 2
## Arkansas 8.8 190 50 19.5 1
## California 9.0 276 91 40.6 2
## Colorado 7.9 204 78 38.7 2
## Connecticut 3.3 110 77 11.1 1
## Delaware 5.9 238 72 15.8 1
## Florida 15.4 335 80 31.9 2
## Georgia 17.4 211 60 25.8 2
Exportar CSV
write.csv(asignacion,"datos_con_cluster_usarrests.csv")
Visualizar Segmentos 4 clusters
fviz_cluster(clusters, data=us3,
palette=c("red","blue","black","darkgreen"),
ellipse.type="euclid",
star.plot=T,
repel=T,
ggtheme=theme())

Visualizar Segmentos 3 clusters
fviz_cluster(clusters2, data=us3,
palette=c("red","blue","black","darkgreen"),
ellipse.type="euclid",
star.plot=T,
repel=T,
ggtheme=theme())

Gráfico interactivo
#selectInput("variables",label="x",choices = names(us2),selected = #"Murder")
#renderPlot(plot(us2$Assault,us2[,input$variables])
#)
Conclusiones
Me parece que el analisis de clusters aporta bastante valor,
especialmente en ámbitos de negocios como en el caso de ventas. En el
caso de US Arrests, los clusters nos sirven para identificar aquellos
estados que tienen menores incidencias en asesinatos, violaciones, entre
otros. Además de poder agrupas aquellos estados que tienen índices de
criminalidad parecidos y poblaciones parecidas.
Los clusters permite que visualicemos los grupos o conjuntos de datos
que poseen características similares y pueden ser segmentados o
catalogados bajo estas características. Estos son de gran valor para
analísis donde se requiere hacer estrategias por grupos, como es el caso
de los supermercados o cuando se quiere conocer grupos con
características similares.
