Librerías

library(dplyr)
library(factoextra)
library(ggplot2)
library(cluster)
library(data.table)

Ventas

Importar base de datos

Como observación, en este análisis se omite el paso de entender base de datos ya que esta base de datos es la exportada al final deel ejercicio Herramientas para la Limpieza de Datos.

setwd("C:\\Users\\javaw\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\7mo Semestre\\Modulo 3")
ventas<-read.csv("ventas_bd_limpia.csv")

Herramienta “El Generador de Valor de Datos”

Paso 1. Definir el área de negocio a impactar y su KPI

El departamento de mercadotecnia, específicamente en el indicador de ticket promedio por cliente y las visitas a la tienda.

Paso 2. Seleccionar plantilla(s) para crear valor a partir de los datos de los clientes.
Visión Segmentación Personalización Contextualización
Paso 3. Generar ideas o conceptos específicos.

Elaborar un modelo de clusters para identificar los segmentos de mercado y analizar su comportamiento de visitas a la tienda.

Paso 4.Reunir los datos requeridos.

Elaborar una base de datos con la variables para realizar los clusters: ticket promedio, número de cliente y visitas por cliente.

Paso 5. Plan de ejecución.

Mecadotecnia elaborará un plan para desarrollar estrategias de mercado específicas para cada segmento identificado.

De igual manera, mercadotecnia puede complementar esto con un market basket analysis.

Segmentación de mercado

Ticket Promedio

Para obtener el ticket promedio es necesario primero hacer una columna que sea el precio por la cantidad comprada.

ventas1<-cbind(ventas,Totalcompra=(ventas$Price*ventas$Quantity))

Posteriormente, hay que usar la funcion aggregate para saber cuanto fue el total de compra por cada ticket y cuantos tickets hay por cliente.

ticket_por_cliente<-aggregate(Totalcompra ~ CustomerID + BillNo, data = ventas1, sum)
head(ticket_por_cliente)
##   CustomerID BillNo Totalcompra
## 1      17850 536365      139.12
## 2      17850 536366       22.20
## 3      13047 536367      278.73
## 4      13047 536368       70.05
## 5      13047 536369       17.85
## 6      12583 536370      855.86
ticket_promedio<-group_by(ticket_por_cliente,CustomerID) %>% summarise(TicketsPromedio = mean(Totalcompra))
head(ticket_promedio)
## # A tibble: 6 x 2
##   CustomerID TicketsPromedio
##        <int>           <dbl>
## 1      12346          77184.
## 2      12347            613.
## 3      12349           1758.
## 4      12350            334.
## 5      12352            313.
## 6      12353             89

Una vez que tenemos el ticket promedio por cliente es necesario saber lo siguiente.

Visitas a la tienda

visitas<-group_by(ticket_por_cliente,CustomerID) %>% summarise(Visitas = n_distinct(BillNo))
visitas
## # A tibble: 4,291 x 2
##    CustomerID Visitas
##         <int>   <int>
##  1      12346       1
##  2      12347       7
##  3      12349       1
##  4      12350       1
##  5      12352       8
##  6      12353       1
##  7      12354       1
##  8      12355       1
##  9      12356       3
## 10      12357       1
## # ... with 4,281 more rows

Ya que tenemos las visitas por cliente hay que unir las bases de datos para tener nuestra segmentación.

segmentacion<-merge(ticket_promedio,visitas,by="CustomerID")
head(segmentacion)
##   CustomerID TicketsPromedio Visitas
## 1      12346      77183.6000       1
## 2      12347        613.3143       7
## 3      12349       1757.5500       1
## 4      12350        334.4000       1
## 5      12352        313.2550       8
## 6      12353         89.0000       1

Cluster Analysis: Pasos Previos

Agregar el customerID como nombre a los renglones

df<-segmentacion
rownames(df)<-df$CustomerID

Eliminar la columna de Customer ID

df2<-df
df2<-subset(df2, select=-c(CustomerID))
head(df2)
##       TicketsPromedio Visitas
## 12346      77183.6000       1
## 12347        613.3143       7
## 12349       1757.5500       1
## 12350        334.4000       1
## 12352        313.2550       8
## 12353         89.0000       1

Revisar la presencia de datos anormales

summary(df2)
##  TicketsPromedio       Visitas       
##  Min.   :    3.45   Min.   :  1.000  
##  1st Qu.:  176.14   1st Qu.:  1.000  
##  Median :  286.72   Median :  2.000  
##  Mean   :  412.33   Mean   :  4.223  
##  3rd Qu.:  423.24   3rd Qu.:  5.000  
##  Max.   :84236.25   Max.   :207.000
plot(df2$TicketsPromedio, df2$Visitas)

Podemos definir que los datos fuera de lo normal están fuera de los siguientes límites:
Límite Inferior = Q1 - 1.5IQR
Límite Superior = Q3 + 1.5
IQR
Q1: Cuartil 1, Q3: Cuartil 3, IQR: Rango Intercuartil = Q3-Q1

Calcular el límite superior del total de tickets promedio

iqr_total<-IQR(df2$TicketsPromedio)
limite_superior_total <-423.24 + 1.5*iqr_total
limite_superior_total
## [1] 793.8898

Calcular el limite superior del total de visitas

iqr_visitas<-IQR(df2$Visitas)
limite_superior_visitas<-5+1.5*iqr_visitas
limite_superior_visitas
## [1] 11

Conservar solo los tickets promedios menores a 794

df3<-df2
df3<-df3[df3$TicketsPromedio<794,]
summary(df3)
##  TicketsPromedio     Visitas      
##  Min.   :  3.45   Min.   :  1.00  
##  1st Qu.:169.96   1st Qu.:  1.00  
##  Median :269.00   Median :  2.00  
##  Mean   :294.98   Mean   :  4.12  
##  3rd Qu.:386.99   3rd Qu.:  5.00  
##  Max.   :791.15   Max.   :207.00

Conservar solo las visitas inferiores a 12

df4<-df3
df4<-df4[df4$Visitas<12,]
summary(df4)
##  TicketsPromedio     Visitas      
##  Min.   :  3.45   Min.   : 1.000  
##  1st Qu.:166.06   1st Qu.: 1.000  
##  Median :263.24   Median : 2.000  
##  Mean   :290.86   Mean   : 2.967  
##  3rd Qu.:381.55   3rd Qu.: 4.000  
##  Max.   :791.15   Max.   :11.000

Boxplot con tickets inferiores a 794 y visitas inferiores a 12

plot(df4$TicketsPromedio,df4$Visitas)

Cluster Analysis: Pasos Definitivos

Para hacer en analisis por clusters es necesario primero llevar a cabo el siguiente proceso.

Paso1. Normalizar variables

df5<-df4
df5<-as.data.frame(scale(df5))
plot(df5$TicketsPromedio, df5$Visitas)

Paso 2. K-means Clustering

4 clusters
segmentos<-kmeans(df5,4)

asignacion<-cbind(df4,Cluster=segmentos$cluster)
head(asignacion,10)
##       TicketsPromedio Visitas Cluster
## 12347        613.3143       7       1
## 12350        334.4000       1       4
## 12352        313.2550       8       3
## 12353         89.0000       1       2
## 12355        459.4000       1       4
## 12358        584.0300       2       1
## 12361        189.9000       1       2
## 12362        519.5990      10       3
## 12363        276.0000       2       4
## 12364        328.2750       4       4
3 clusters
segmentos2<-kmeans(df5,3)

asignacion2<-cbind(df4,Cluster=segmentos2$cluster)
head(asignacion2,10)
##       TicketsPromedio Visitas Cluster
## 12347        613.3143       7       2
## 12350        334.4000       1       1
## 12352        313.2550       8       2
## 12353         89.0000       1       1
## 12355        459.4000       1       3
## 12358        584.0300       2       3
## 12361        189.9000       1       1
## 12362        519.5990      10       2
## 12363        276.0000       2       1
## 12364        328.2750       4       3

Exportar CSV

write.csv(asignacion,"clientes_segmentados.csv")

Visualizar Segmentos 4 clusters

fviz_cluster(segmentos, data=df5,
             palette=c("red","blue","black","darkgreen"),
             ellipse.type="euclid",
             star.plot=T,
             repel=T,
             ggtheme=theme())
## Warning: ggrepel: 3728 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Visualizar Segmentos 3 clusters

fviz_cluster(segmentos2, data=df5,
             palette=c("red","blue","black","darkgreen"),
             ellipse.type="euclid",
             star.plot=T,
             repel=T,
             ggtheme=theme())
## Warning: ggrepel: 3728 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Optimizar K

set.seed(123)
optimizacion<-clusGap(df5, FUN= kmeans, nstart=25,K.max=10,B=50)
plot(optimizacion,xlab="Numero de clusters K")

Gráfico Interactivo

#selectInput("opciones",label="x",choices = names(ticket_por_cliente),selected = "BillNo")
#renderPlot(plot(ticket_por_cliente$Totalcompra,ticket_por_cliente[,input$opciones])
  
#)

Us Arrests

Importar Base de Datos

setwd("C:\\Users\\javaw\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\7mo Semestre\\Modulo 3")
us<-read.csv("USArrests.csv")

Herramienta “El Generador de Valor de Datos”

Paso 1. Definir el área de negocio a impactar y su KPI

El departamento de seguridad nacional, o departamento que sea responsable, específicamente en el indicador de índices de criminalidad.

Paso 2. Seleccionar plantilla(s) para crear valor a partir de los datos de los clientes.
Visión Segmentación Personalización Contextualización
Paso 3. Generar ideas o conceptos específicos.

Elaborar un modelo de clusters para identificar los estados que poseen índices de criminalidad similares, además de una población similar.

Paso 4.Reunir los datos requeridos.

Los datos necesarios ya están reunidos, solo hay que realizar el análisis de clusters y normalizar.

Paso 5. Plan de ejecución.

El departamento de seguridad desarrollará una estrategia a implementarse para reducir los índices de criminalidad. Esta estrategia será por fases.
1. Implementarla en estados con menores índices (California).
2. Replicar en estados similares a california.
3. Replicar en el resto del país.

Cluster Analysis: Pasos Previos

Convertir estados a los renglones

us1<-us
rownames(us1)<-us1$ï..

Eliminar la columna de Estado

us2<-us1
us2<-subset(us2, select=-c(ï..))

Cluster Analysis: Pasos Definitivos

Para hacer en analisis por clusters es necesario primero llevar a cabo el siguiente proceso.

Paso1. Normalizar variables

us3<-us2
us3<-as.data.frame(scale(us3))

Paso 2. K-means Clustering

4 clusters
clusters<-kmeans(us3,4)

asignacion<-cbind(us2,Cluster=clusters$cluster)
head(asignacion,10)
##             Murder Assault UrbanPop Rape Cluster
## Alabama       13.2     236       58 21.2       4
## Alaska        10.0     263       48 44.5       3
## Arizona        8.1     294       80 31.0       3
## Arkansas       8.8     190       50 19.5       4
## California     9.0     276       91 40.6       3
## Colorado       7.9     204       78 38.7       3
## Connecticut    3.3     110       77 11.1       2
## Delaware       5.9     238       72 15.8       2
## Florida       15.4     335       80 31.9       3
## Georgia       17.4     211       60 25.8       4
3 clusters
clusters2<-kmeans(us3,3)

asignacion2<-cbind(us2,Cluster=clusters2$cluster)
head(asignacion2,10)
##             Murder Assault UrbanPop Rape Cluster
## Alabama       13.2     236       58 21.2       2
## Alaska        10.0     263       48 44.5       2
## Arizona        8.1     294       80 31.0       2
## Arkansas       8.8     190       50 19.5       1
## California     9.0     276       91 40.6       2
## Colorado       7.9     204       78 38.7       2
## Connecticut    3.3     110       77 11.1       1
## Delaware       5.9     238       72 15.8       1
## Florida       15.4     335       80 31.9       2
## Georgia       17.4     211       60 25.8       2
Exportar CSV
write.csv(asignacion,"datos_con_cluster_usarrests.csv")
Visualizar Segmentos 4 clusters
fviz_cluster(clusters, data=us3,
             palette=c("red","blue","black","darkgreen"),
             ellipse.type="euclid",
             star.plot=T,
             repel=T,
             ggtheme=theme())

Visualizar Segmentos 3 clusters
fviz_cluster(clusters2, data=us3,
             palette=c("red","blue","black","darkgreen"),
             ellipse.type="euclid",
             star.plot=T,
             repel=T,
             ggtheme=theme())

Gráfico interactivo

#selectInput("variables",label="x",choices = names(us2),selected = #"Murder")
#renderPlot(plot(us2$Assault,us2[,input$variables])
  
#)

Conclusiones

Me parece que el analisis de clusters aporta bastante valor, especialmente en ámbitos de negocios como en el caso de ventas. En el caso de US Arrests, los clusters nos sirven para identificar aquellos estados que tienen menores incidencias en asesinatos, violaciones, entre otros. Además de poder agrupas aquellos estados que tienen índices de criminalidad parecidos y poblaciones parecidas.

Los clusters permite que visualicemos los grupos o conjuntos de datos que poseen características similares y pueden ser segmentados o catalogados bajo estas características. Estos son de gran valor para analísis donde se requiere hacer estrategias por grupos, como es el caso de los supermercados o cuando se quiere conocer grupos con características similares.

