Análisis exploratorio de las ventas en línea

La siguiente gráfica muestra la relación entre el número de clientes observados respecto al tiempo que tardan en volver a comprar.

Ahora se presentará una gráfica de la distribución de las compras respecto a los días que trascurridos.

Ahora vamos a calcular el promedio de días desde la última compra.

## [1] 34.94826

Con esta información podemos notar que el promedio ronda a los 35 días desde la última compra.

Veamos el histograma de frecuencias y de probabilidad.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   21.00   33.00   34.95   46.00  144.00

Los resultados de la tabla anterior nos permiten observar algunos datos importantes. Por ejemplo, existen clientes que compraron el día anterior a la recolección de los datos, mientras que la última compra de algunos clientes se registró hace 144 días. Por otro lado, sabemos que el promedio de la última compra es de 35 días. También sabemos que el 50% de los clientes realizaron su última compra alrededor de los primeros 33 días.

Con la información anterior podemos darnos una idea de la distribución que siguen los datos. Antes de comenzar daremos una idea general de lo que se buscaremos en este análisis.

Hasta el momento hemos realizado un análisis exploratorio de los datos, con lo cual tenemos una idea general de cómo se comporta la información disponible.

Vamos a enfocarnos en los clientes que tardan más en comprar, estos clientes los vamos a tomar a partir de los resultados del análisis exploratorio. estas personas representan el 25% de nuestros datos y según la información con la que contamos, estos compradores realizaron su última compra después de el día 46.

A todos aquellos clientes, que tarden en comprar más de 46 días diremos que son compradores “Tardados” y nos enfocaremos en ellos, para encontrar un algoritmo que nos ayude a recocer las características de este grupo, lo cual nos ayudará a crear una estrategia, que aumente la frecuencia de sus compras.

Esta grafica nos muestra estimador de Kplan Mier a diferentes niveles de confianza(del 90 al 95)

Este estimador nos indica el comportamiento de compra respecto a ambos géneros, tanto hombre como mujeres, además nos dice que el tiempo de falla que significa que vuelvan a comprar se comporta de manera similar para ambos sexos esto para el último cuarto de los clientes observados.

f3<-survfit(Surv(data_p8$daysSinceFirstPurch,GEN)~1,conf.int=.90) #Analicemoslo al 90%

Con esta grafica nos damos cuenta que el intervalo de confianza del 95% y 90% se comportan de manera similar.

H1<- c(H1,tail(H1,1))

H2<-c(H2,tail(H2,1))

Esta grafica nos muestra que conforme pasa el tiempo la probabilidad de que vuelvan a comprar aumenta, tomando en cuenta que ya compraron una vez. Podemos notar en esta gráfica, que después de los 100 días, la probabilidad se comienza a estancar y deja de crecer a un buen ritmo. Nuestro objetivo es lograr que esto cambie y no se estanque en ningún momento.

Continuaremos nuestro análisis notando que, las gráficas respecto a hombres y mujeres no se cruzan en una ventana de tiempo considerable por lo que podemos utilizar riesgos proporcionales de Cox. Donde podemos notar que entre los 36 a 85 días, es posible suponer riesgos proporcionales; sin embargo, acercándose a los 90 días prácticamente las supervivencias son la misma, observando que se intersecan en 95, es decir el tiempo que tardan en comprar hombres y mujeres es muy similar después de ese momento.

Cabe mencionar que algunas variables no fueron tomadas en cuenta ya sea por su significado dentro del modelo o por el contenido de su información.

La variable programa de recompensas no fue tomada en cuenta debido a su escaso contenido de información pues más del 89% de estas entradas son 0, en otras palabras, no ofrecen información sobre la actividad de los clientes.

Por otro lado, no usamos la variable baucher y devolución puesto que esta no es relevante dentro del análisis pues lo que realmente nos interesa es el patrón de compra de los clientes.

Por último, no se tomó en cuenta la variable del carrito pues nos interesa el que los clientes compren con más frecuencia, aunque sus compras sean por importes bajos.

Puesto que no existía un diccionario de variables para esta base de datos el rubro de peluche para niños no fue tomado en cuenta, pues no es posible comprender su utilidad con la información a nuestro alcance.

summary(fit.coxph)
## Call:
## coxph(formula = D1 ~ data_p8$daysSinceFirstPurch + data_p8$gender + 
##     data_p8$boughtAgain, data = data_p8)
## 
##   n= 5122, number of events= 5122 
## 
##                                   coef  exp(coef)   se(coef)        z
## data_p8$daysSinceFirstPurch -6.827e+00  1.084e-03  2.573e-02 -265.315
## data_p8$genderfamale        -3.697e-05  1.000e+00  2.940e-02   -0.001
## data_p8$boughtAgain         -3.554e-06  1.000e+00  2.922e-02    0.000
##                             Pr(>|z|)    
## data_p8$daysSinceFirstPurch   <2e-16 ***
## data_p8$genderfamale           0.999    
## data_p8$boughtAgain            1.000    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                             exp(coef) exp(-coef) lower .95 upper .95
## data_p8$daysSinceFirstPurch  0.001084      922.5  0.001031   0.00114
## data_p8$genderfamale         0.999963        1.0  0.943965   1.05928
## data_p8$boughtAgain          0.999996        1.0  0.944341   1.05893
## 
## Concordance= 1  (se = 0 )
## Likelihood ratio test= 42842  on 3 df,   p=<2e-16
## Wald test            = 70392  on 3 df,   p=<2e-16
## Score (logrank) test = 7317  on 3 df,   p=<2e-16

Con la información anterior podemos decir que la variable bought again no es significativa para nuestro análisis, nos dice que, si ya compraron una o dos veces, eventualmente van a volver adquirir productos. Ahora, tomando en cuenta el sexo junto bought again, nos indica que no importa si son hombres o mujeres, si se tardan más de 100 días en comprar, el patrón de compra entre hombre y mujeres es muy similar, por lo cual lo mejor sería crear una estrategia para ese sector sin enfocarse en un sexo especifico.

Conclusión

La sugerencia que le podemos dar a la empresa es que cuando ponga un nuevo producto a la venta, enfoque todo su esfuerzo en marketing y publicidad, en las personas que compran con frecuencia, (personas cuya recompra es menor a 100 días) para mantener su frecuencia e incluso aumentarla. En este segmento de compradores, es mejor enfocándose ligeramente en los hombres, dado que las mujeres en ese lapso adquieren los productos más seguido, y por lo tanto no requieren un gran estímulo por parte de la publicidad.

Por otro lado, como los patrones de compra de ambos géneros, después de 100 días desde la última compra, es muy similar la publicidad en ese momento debe de ser muy parecida, tanto para hombres como para mujeres. En este sentido sería muy recomendable enviar una notificación con un título atractivo como “Esto te podría interesar” para atraer su atención y lograr que compren de nuevo.

Otra recomendación útil seria capturar los datos de la mercancía que la gente está comprando para saber que se está desplazando con mayor rapidez en los almacenes y enfocar la propaganda y otros recursos en estos productos. De este modo sería posible identificar el patrón de compra de las personas con poca frecuencia de adquisición y con ello se podría identificar los intereses de ese segmento de clientes.