A. Contexto del ejemplo

Las transacciones provienen de un repositorio público de información, con permiso para uso libre para proyectos de análisis no comercial. Son transacciones reales de una tienda en línea de retail en el Reino Unido, registradas durante el período del 1 de diciembre de 2010 al 9 de diciembre de 2011.

Datos sin procesar

Cada transacción contiene los siguientes datos:

  • Código y fecha de la transacción.
  • Código y descripción del producto.
  • Cantidad vendida del producto.
  • Precio unitario del producto.
  • Código del cliente.
  • País de entrega.

La muestra para el ejemplo consiste en 18,324 transacciones, que involucran 3,405 productos, 4,322 clientes y 37 países.



B. Análisis tradicional

El análisis tradicional estadístico permite responder preguntas como:


¿Cuáles son los 10 productos más vendidos en unidades?

Producto Unidades totales
paper craft , little birdie 80995
medium ceramic top storage jar 77916
world war 2 gliders asstd designs 54366
jumbo bag red retrospot 46057
assorted colour bird ornament 35310
pack of 72 retrospot cake cases 33677
rabbit night light 27202
mini paint set vintage 26075
pack of 12 london tissues 25333
pack of 60 pink paisley cake cases 24249


¿Cuáles son los 10 productos con mayor ingreso por venta?

Producto Ingreso total
paper craft , little birdie 168469.60
regency cakestand 3 tier 142414.45
jumbo bag red retrospot 85007.29
medium ceramic top storage jar 81416.73
postage 77695.96
party bunting 68685.93
assorted colour bird ornament 56492.46
manual 53776.58
rabbit night light 51346.20
chilli lights 46263.51


¿Horarios con mayor volumen de transacciones?



C. Minería de reglas de asociación

Este tipo de análisis estudia los carritos de compra para obtener asociaciones entre diferentes productos que permita identificar hábitos de compra de los clientes; esta información sirve para estrategias como modificar la ubicación de los productos en los anaqueles, ofertas más personalizadas, mercadotecnia dirigida y otras más.

Este tipo de análisis utiliza 3 conceptos:

  • Support de un producto A: Mide la popularidad de un ítem, es decir, la probabilidad de que un cliente lleve el producto A en el carrito de compra. Por ejemplo: Si el café es muy popular y tiene soporte de 0.74, el 74% de los clientes compró café.

  • Confidence de B respecto de A: Mide la posibilidad de un cliente lleve un producto como consecuencia de llevar otro producto, es decir, es la probabilidad de llevar el producto B si se decidió llevar el producto A. Por ejemplo: si el azúcar tiene confianza de 0.68 respecto del café, el 68% de los clientes que compró café, también decidió comprar azúcar.

  • Lift de B respecto de A: Mide la dependencia de un producto respecto de otro, es decir, indica el valor de una regla como elemento predictivo. Si el lift entre A y B es 1, A y B son productos independientes; si el lift es mayor que 1, es muy probable que se compren juntos ambos productos; si el lift es menor que 1, comprar un producto tendrá un impacto negativo en el otro.

Las reglas de asociación tienen longitud, que se refiere a la cantidad de productos involucrados en la regla.

Una regla de asociación tiene antecedente, que es el o los productos que influencian, y tiene consecuente, que es el o los productos influenciados. Por ejemplo:

{leche, cereal} ==> {azúcar}


implica que comprar leche y cereal influye en comprar azúcar.


Análisis del ejemplo

El análisis de los carritos de compra indica que el carrito más pequeño fue de 1 ítem, mientras que el carrito más grande fue de 385 productos, la gráfica siguiente muestra el comportamiento de la cantidad de carritos de compra que contienen de 1 a 30 artículos.

La gráfica siguiente muestra las 20 productos más frecuentes en un carrito de compra, se observa que el producto regency cakestand 3 tier es el que los clientes, de manera individual, compran más frecuentemente, seguido de jumbo bag red retro spot y party bunting.


Reglas de asociación

Se analizan las transacciones para obtener todas las reglas de asociación que contengan máximo 10 productos, con support = 0.001 (mínimo) y confidence = 0.8 (mínimo).

Se obtuvieron 41,711 reglas de asociación con las características siguientes:

Medidas Valor mínimo Valor promedio Valor máximo
Support 0.001037 0.001454 0.022592
Confidence 0.8000 0.8990 1.0000
Lift 9.538 85.460 753.625

Se despliegan las primeras 10 reglas ordenadas descendentemente por confidence:

lhs Var.2 rhs support confidence lift count
[1] {decoupage} => {greeting card} 0.0012005 1 333.18182 22
[2] {black tea} => {sugar jars} 0.0022374 1 237.98701 41
[3] {black tea} => {coffee} 0.0022374 1 62.32993 41
[4] {funk monkey} => {art lights} 0.0021828 1 458.12500 40
[5] {art lights} => {funk monkey} 0.0021828 1 458.12500 40
[6] {chocolate spots} => {swiss roll towel} 0.0024557 1 407.22222 45
[7] {swiss roll towel} => {chocolate spots} 0.0024557 1 407.22222 45
[8] {white tea} => {sugar jars} 0.0028922 1 237.98701 53
[9] {white tea} => {coffee} 0.0028922 1 62.32993 53
[10] {magic garden} => {hook} 0.0026739 1 373.97959 49

El 100% de los clientes que compraron decoupage compraron greeting card, el 100% de los clientes que compraron black tea compraron sugar jars y coffee.


Gráfica de dispersión de reglas

En este tipo de gráfica, cada eje representa una medida de interés, support es el eje horizontal y confidence es el eje vertical, usando lift como color de los puntos.

Mientras más a la derecha o más arriba esté el punto, mejor es la regla; similarmente, mientras más oscuro sea el punto, mayor valor tiene la regla.


Gráfica Two-key

Este tipo especial de gráfica de dispersión, es similar a la anterior, pero el color representa el order de la regla, es decir, la cantidad de productos que contiene la regla, a mayor orden, mayor longitud de la regla. Se puede observar que las reglas de 5 y 6 productos son predominantes en la gráfica.


Gráfica de matriz

En este tipo de gráfica, el antecedente (lado izquierdo) de la regla es el eje horizontal, mientras que el consecuente (lado derecho) de la regla es el eje vertical; si existe una regla entre ambos, la intersección se rellena con un color proporcional al lift de la regla; de no existir regla alguna, se deja en blanco la intersección.

Se grafican las 10 primeras y se observa que funk monkey está asociado únicamente con art lights con un lift alto, mientras que white tea está asociado con coffee y sugar jars con lift bajo.

## Itemsets in Antecedent (LHS)
## [1] "{funk monkey}"      "{art lights}"       "{chocolate  spots}"
## [4] "{swiss roll towel}" "{magic garden}"     "{decoupage}"       
## [7] "{black tea}"        "{white tea}"       
## Itemsets in Consequent (RHS)
## [1] "{coffee}"           "{sugar jars}"       "{greeting card}"   
## [4] "{hook}"             "{swiss roll towel}" "{chocolate  spots}"
## [7] "{art lights}"       "{funk monkey}"


Gráfica de red

En este tipo de gráfica, los productos están representados por vértices y las reglas por flechas conectoras. Si la flecha sale del ítem, este es antecedente y si la flecha se dirige al ítem, es el consecuente. El tamaño y el color del círculo conector indican las características analizadas.

Por ejemplo, la gráfica siguiente corresponde a 10 reglas y se observa que white tea y black tea son ambos productos que propician comprar sugar jars y coffe, sin embargo, el lift* de sugar jars** es mayor que el de coffee, por lo tanto, influyen mucho más en la compra del primero que del segundo.


Gráfica de coordenadas paralelas

En esta gráfica, los productos se despliegan en el eje vertical mientras que el eje horizontal representa las posiciones de los productos en la regla. Las flechas representan la longitud de la regla, su ancho representa el support y la intensidad del color representa el lift.

Por ejemplo, la gráfica siguiente corresponde a 10 reglas y vemos que el mayor lift corresponde a la regla pink polkadot cup + green polkadot bowl + blue polkadot plate como predictores de green polkadot plate.


Búsqueda de reglas específicas

Una vez generadas las reglas, se pueden explorar buscando aquellas que cumplan con ciertas características tanto en los antecedentes de la regla como en los consecuentes de la misma.

Por ejemplo, se extraen todas las reglas donde su antecedente sea coffee, es decir, personas para quienes el café sería el producto que influya en la compra de otros productos, obteniéndose 24 reglas.

Se despliegan las 10 primeras reglas:

lhs Var.2 rhs support confidence lift count
[1] {coffee} => {set 3 retrospot tea} 0.0120600 0.7517007 62.329932 221
[2] {coffee} => {sugar} 0.0120600 0.7517007 62.329932 221
[3] {coffee} => {sugar jars} 0.0042019 0.2619048 62.329932 77
[4] {coffee} => {red spotty biscuit tin} 0.0037108 0.2312925 23.546863 68
[5] {coffee} => {white tea} 0.0028922 0.1802721 62.329932 53
[6] {coffee} => {red retrospot round cake tins} 0.0026194 0.1632653 12.677274 48
[7] {coffee} => {set of 3 cake tins pantry design} 0.0026194 0.1632653 2.927433 48
[8] {coffee} => {regency cakestand 3 tier} 0.0025648 0.1598639 1.905990 47
[9] {coffee} => {pack of 72 retrospot cake cases} 0.0025102 0.1564626 3.113113 46
[10] {coffee} => {red retrospot butter dish} 0.0022920 0.1428571 13.424908 42

Se observa que con un cliente que vaya a comprar coffee, existe el 75.17% de que compre también un set 3 retrospot tea y sugar, pero solo 26.19% de que compre sugar jars.

Se muestran las gráficas para las primeras 10 reglas:


De igual manera, se extraen todas las reglas donde su consecuencia sea coffee, es decir, personas para quienes otros producto(s) influyen en su decisión de comprar coffee, obteniéndose 117 reglas.

Analizando las primeras 10 reglas:

##      lhs                            rhs          support confidence     lift count
## [1]  {black tea}                 => {coffee} 0.002237381          1 62.32993    41
## [2]  {white tea}                 => {coffee} 0.002892224          1 62.32993    53
## [3]  {sugar jars}                => {coffee} 0.004201910          1 62.32993    77
## [4]  {set 3 retrospot tea}       => {coffee} 0.012060027          1 62.32993   221
## [5]  {sugar}                     => {coffee} 0.012060027          1 62.32993   221
## [6]  {black tea,                                                                  
##       sugar jars}                => {coffee} 0.002237381          1 62.32993    41
## [7]  {sugar jars,                                                                 
##       white tea}                 => {coffee} 0.002892224          1 62.32993    53
## [8]  {red retrospot mug,                                                          
##       set 3 retrospot tea}       => {coffee} 0.001091405          1 62.32993    20
## [9]  {red retrospot mug,                                                          
##       sugar}                     => {coffee} 0.001091405          1 62.32993    20
## [10] {red retrospot butter dish,                                                  
##       set 3 retrospot tea}       => {coffee} 0.002128240          1 62.32993    39

Se observa que todas las reglas tienen confidence igual a 1, lo que significa que 100% de los clientes que compraron los productos antecedentes, también compraron coffee.


D. Conclusiones

Este es un ejemplo de aplicación de herramientas de ciencia de datos para realizar análisis sofisticados con datos de las organizaciones. Con las herramientas adecuadas, se puede obtener información valiosa para la toma de decisiones de la empresa.

A partir de los objetivos estratégicos de la empresa, se pueden definir los tipos de análisis a realizar para generar conocimiento valioso para una mejor toma de decisiones.

 

Dr. José Luis Barrera Canto

Científico de Datos e Inteligencia Artificial
Consultor Especializado

jose.luis.barrera.canto@gmail.com