Introducción

“No es que cotice es que tengo mucha demanda”

Twitter

Una estrategia de venta exitosa es aquella que logra aumentar los ingresos de una empresa. Eso no sólo se consigue incorporando nuevos clientes. También se logra con una adecuada estrategia de venta, que es en este caso, usar la psicología de ventas. Es decir, usar la psicología del lujo. El valor de un producto viene modificado porque en general, el consumo es una competencia social. Con su ayuda, nos elevamos por encima de los demás. Por ejemplo, si mi botella de vino es más cara que la tuya, eso significa que soy mejor que tú.

Al analizar un gran volumen de compras de distintos clientes, se establecen reglas con porcentajes de probabilidad que indican qué artículos se suelen comprar al mismo tiempo, permitiendo conocer más sobre los hábitos de consumo de los clientes habituales.

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Objetivos

Objetivo General

  • De la base de datos obtenida, clasificar a los compradores del centro comercial para poder generar estrategias de marketing que eleven las ventas, con el uso de herramientas estadísticas y de técnicas de Minería de datos.

Objetivo Específico

  • Aplicar la técnica descriptiva de clustering para segmentar las personas con atributos lo suficientemente similares y compararlas con otros grupos.

¿Cuál es el problema?

En el mercado existe una gran cantidad de productos a diversos precios y de gran diversidad para una misma necesidad. Sin embargo, el precio al cual está fijado un producto tiene un efecto en los estratos sociales, siendo que un estrato alto puede pagar más por un producto de lo que haría un estrato de la media, y peor aún el estrato social bajo no podría comprar el producto cuando lo ideal sería vender el producto lo más caro posible, pero para ello es necesario saber, sin preguntar, cuanto está dispuesto a pagar una persona por un producto. Para saber cuánto está dispuesto a pagar una persona por un producto es preciso saber su ingreso, lo cual es difícil pues no es algo que se pregunte directamente. El problema es establecer una mejor estrategia de venta, y de esta manera obtener mejores ingresos.

Metodología

La Metodología para cumplir con los objetivos es KDD la cual es una metodología que propone 5 fases: Selección, pre-procesamiento, transformación, minería de datos, evaluación e implantación. Es un proceso iterativo e interactivo.

Fase de comprensión del negocio o problema

Se tienen los objetivos bien especificados y entendibles para convertirlos en objetivos técnicos y en un plan de proyecto. Este primer paso nos permitirá una correcta selección y tratamiento de los datos para interpretarlos y tener un óptimo resultado. Se entiende los objetivos y requerimientos del proyecto desde la perspectiva de maximizar las ganancias, además se lo ha convertido en un problema de minería de datos y se sabe cómo alcanzar los objetivos. Se determinaron los factores que influyen en el resultado del proyecto. Se registró la información que se conoce sobre la situación de negocio de la organización al comienzo del proyecto.

  • Determinar los objetivos del problema, El sector donde se desarrolla el proyecto es el comercial. Este centro comercial oferta diversos productos, el cual busca vender sin importar que venda a diferentes precios un mismo producto apoyándose en la cuestión psicológica de la gente.
  • Evaluación de la situación, Las herramientas necesarias para afrontar este problema son dominadas. La información que se requiere para realizar la clasificación ya se la tiene. Los beneficios esperados son maximizar la utilidad. El problema se procede a trabajar en un software para el tratamiento de los datos nuestro caso usando R studio, se podrá obtener una serie de resultados que facilitarán el análisis y especialmente para la comprensión del mismo.

  • Determinación de los objetivos, Establecer el número de clusters adecuado, para segmentar a los clientes con atributos lo suficientemente similares y compararlas con otros grupos. Con esto se podrá desarrollar el proyecto de una manera clara.

Fase de comprensión de datos

El procedimiento para llevar a cabo esta fase es el siguiente:

  • Recolección de datos iniciales, se consideró los datos de un supermercado de un centro comercial, en este caso se tomaron datos del Kaggle la cual es una comunidad en línea de científicos de datos y profesionales del aprendizaje automático.

  • Descripción de datos, La base consta de 201 datos y 5 variables que describen las características de estas como: genero, edad, ingreso anual, puntaje de gasto.

  • Exploración de datos, para esto es necesario realizar la estadística descriptiva de las variables y analizarlas.

  • Verificación de la calidad de los datos, en esta etapa se verifica la consistencia de los datos para su correcto análisis.

Fase de preparación de los datos

En esta fase se prepara a la base de datos para adaptarla a la técnica de clustering. Esta preparación de datos requiere de las siguientes acciones:

  • Selección de los datos, Se realizó una selección de datos ya que la base cuenta con variables que no son relevantes que más adelante son separadas para un mejor análisis.

  • Limpieza de datos, con la ayuda del software es posible verificar las variables con datos faltantes, en este caso la base se encuentra completa.

  • Estructuración de los datos, para realizar la clusterización no se aumentará otras variables para el estudio ni tampoco nuevos registros por el momento.

  • Integración de los datos, dado que no se incluyen nuevas variables, ni registros no se requiere una integración de datos.

  • Formateo de los datos, la base no cuenta con NA, o caracteres no especificados o fuera de rango.

Fase de modelado

Para realizar la clasificación se ensayó muchos valores para obtener un número adecuado y pequeño de clústers para obtener clústers muy heterogéneos. Para la formación de los clústers se usó el método de las "k medias" usando la distancia Euclideana. La elección de los métodos para determinar el número adecuado también dependerá de cómo se hayan tratado los datos en las fases previas.

Fase de evaluación

Al tener la posibilidad de usar métricas de evaluación internas y externas, se estima que las métricas internas evalúan qué tan buena es la estructura del clustering sin necesidad de información ajena a los propios datos, algoritmo y resultado. Por lo cual, se las estima adecuadas para este caso en particular. Como parte de las métricas de evaluación internas encontramos dos criterios principales, la cohesión y la separación. La cohesión se remite al hecho de que los objetos de cada clúster deben ser lo más cercanos al resto de miembros del mismo clúster.
Por otro lado, la separación se refiere al hecho de que los clústeres deben estar separados ampliamente entre sí. Existen varias formas para medir la distancia entre cada clúster, se pueden tomar los miembros más cercanos de cada clúster, los más distantes o los centroides. Para resolver el criterio de cohesión, existe la métrica SSW (Sum of Squares Within), la cual es una medida que considera la sumatoria de la distancia al cuadrado de un punto del clúster y el centroide del cluster. Para el criterio de separación se utiliza la medida SSB (Sum of Squares Between), que se obtiene de la sumatoria de la distancia al cuadrado del centroide del clúster y la media del dataset, por el número de elementos en cada clúster. Además, existen índices que utilizan estas sumas de cuadrados como los propuestos a continuación:

  • Calinski-Harabaz (1974)
  • Hartigan(1975)
  • Xu(1997)

También existen índices basados en otros criterios como el Davies-Bouldin(DB) o el Coeficiente de Silhouette.

Fase de implementación

Después de un proceso de clustering validado, se transforma el conocimiento en acciones dentro del proceso. Vale recalcar que el uso de la Minería de datos no concluye en la implantación de técnicas, pues es necesario documentar y presentar los resultados de tal manera que sea comprensible para el cliente. Las tareas que se ejecutan en la implementación de los clústeres ofrecen al usuario la cartilla con mejores opciones para cumplir el objetivo, en este caso de brindar al usuario una variedad de agrupamientos de los clientes según sus preferencias en compras. Dado todo este proceso, se requiere presentar un informe con un resumen de los puntos más importantes del proyecto para que el cliente pueda revisar y evaluar, para así dar su punto de vista y recomendar si se requiere mejorar algún aspecto, hasta conseguir la aprobación de este.

Herramientas

  • Se usará Excel para tener un ambiente más amigable en la presentación de los datos, puesto que brinda un entorno que facilita la compresión.

  • El software por utilizar como herramienta del análisis de los datos es R Studio. Este programa contiene funciones que nos permiten discernir de forma más completa los resultados, así como paquetes más complejos para el manejo de técnicas como el clustering.

Fases

Análisis preliminar y preparación de los datos

En la data utilizada existen 200 datos con los siguientes atrivutos:

  • CustomerID: Identificación que se le asigna a cada cliente del supermercado.
  • Gender: Género del cliente.
  • Age: Edad del cliente.
  • Annual Income: Ingreso anual del cliente en $(dólares).
  • Spending Score: Puntuación de gasto que se le asigna a cada cliente (1-100).

Selección y limpieza de los datos, análisis descriptivos de los datos, visualización de los datos

Con la ayuda del software R procederemos a la lectura de los datos:

   CustomerID        Gender               Age        Annual Income (k$)
 Min.   :  1.00   Length:200         Min.   :18.00   Min.   : 15.00    
 1st Qu.: 50.75   Class :character   1st Qu.:28.75   1st Qu.: 41.50    
 Median :100.50   Mode  :character   Median :36.00   Median : 61.50    
 Mean   :100.50                      Mean   :38.85   Mean   : 60.56    
 3rd Qu.:150.25                      3rd Qu.:49.00   3rd Qu.: 78.00    
 Max.   :200.00                      Max.   :70.00   Max.   :137.00    
 Spending Score (1-100)
 Min.   : 1.00         
 1st Qu.:34.75         
 Median :50.00         
 Mean   :50.20         
 3rd Qu.:73.00         
 Max.   :99.00         

Donde presentamos algunas características de nuestras variables de estudio.

Donde podemos observar que las mujeres suelen comprar las que los hombres en los supermercados.

Se puede observar que indistintamente de la edad las personas van a comprar a un supermercado, observemos que las edades entre 30 y 35 años son los que mas compras hacen en un supermercado.

Agrupamiento

Para los clusters que se presentaran a continuación se usaron las variables Annual Income que se refiere al ingreso anual que tiene el cliente y Spending Score que se refiere a la puntuación de gasto que asigna el supermercado al cliente en base a sus compras.

Ahora, usando el algoritmo de k-medias procedemos al agrupamiento de los datos. Con el método del codo obtenemos el posible número de centroides, así:

Como se observa en la gráfica, consideraremos \(k=5\) centroides para el agrupamiento de los datos. Así:

Podemos observar 5 clusters, en los cuales se puede identificar las principales características de cada cluster y de este modo realizar estrategias de marketing pertinentes para aumentar el consumo de los grupos enfocandonos en sus principales consumos.

Conclusión

Una vez realizado la estadística descriptiva de los atributos, se puede determinar de forma preliminar que los objetos pueden ser descritos con la técnica de clustering. Las variables se encuentran relacionadas y presentan distintos patrones, también existe variabilidad en los valores de los atributos de la base. El score se puede entender como una representación de las preferencias de los compradores, esto se observa con otras variables que se correlacionan con esta como el puntaje de gasto; esto es, que existe una relación positiva entre el puntaje de gasto impulsada por los ingresos anuales de los clientes. Los resultados pueden ser presentados mediante métodos de visualización amigables para el usuario destino, según el proyecto principal, al observar el gráfico de agrupación entre la edad de los clientes y sus puntajes de gasto correspondientes, se los ha agregado en 4 categorías diferentes, a saber, clientes habituales, clientes prioritarios, clientes objetivo de ciudadanos mayores, clientes objetivo de jóvenes. Luego, después de obtener los resultados, podemos realizar diferentes estrategias y políticas de marketing para optimizar los puntajes de gasto del cliente en el centro comercial.

Referencias