Las transacciones provienen de un repositorio público de información, con permiso para uso libre para proyectos de análisis no comercial. Son transacciones reales de una tienda en línea de retail en el Reino Unido, registradas durante el período del 1 de diciembre de 2010 al 9 de diciembre de 2011.
Cada transacción contiene los siguientes datos:
La muestra para el ejemplo consiste en 18,324 transacciones, que involucran 3,405 productos, 4,322 clientes y 37 países.
El análisis tradicional estadístico permite responder preguntas como:
| Producto | Unidades totales |
|---|---|
| paper craft , little birdie | 80995 |
| medium ceramic top storage jar | 77916 |
| world war 2 gliders asstd designs | 54366 |
| jumbo bag red retrospot | 46057 |
| assorted colour bird ornament | 35310 |
| pack of 72 retrospot cake cases | 33677 |
| rabbit night light | 27202 |
| mini paint set vintage | 26075 |
| pack of 12 london tissues | 25333 |
| pack of 60 pink paisley cake cases | 24249 |
| Producto | Ingreso total |
|---|---|
| paper craft , little birdie | 168469.60 |
| regency cakestand 3 tier | 142414.45 |
| jumbo bag red retrospot | 85007.29 |
| medium ceramic top storage jar | 81416.73 |
| postage | 77695.96 |
| party bunting | 68685.93 |
| assorted colour bird ornament | 56492.46 |
| manual | 53776.58 |
| rabbit night light | 51346.20 |
| chilli lights | 46263.51 |
Este tipo de análisis estudia los carritos de compra para obtener asociaciones entre diferentes productos que permita identificar hábitos de compra de los clientes; esta información sirve para estrategias como modificar la ubicación de los productos en los anaqueles, ofertas más personalizadas, mercadotecnia dirigida y otras más.
Este tipo de análisis utiliza 3 conceptos:
Support de un producto A: Mide la popularidad de un ítem, es decir, la probabilidad de que un cliente lleve el producto A en el carrito de compra. Por ejemplo: Si el café es muy popular y tiene soporte de 0.74, el 74% de los clientes compró café.
Confidence de B respecto de A: Mide la posibilidad de un cliente lleve un producto como consecuencia de llevar otro producto, es decir, es la probabilidad de llevar el producto B si se decidió llevar el producto A. Por ejemplo: si el azúcar tiene confianza de 0.68 respecto del café, el 68% de los clientes que compró café, también decidió comprar azúcar.
Lift de B respecto de A: Mide la dependencia de un producto respecto de otro, es decir, indica el valor de una regla como elemento predictivo. Si el lift entre A y B es 1, A y B son productos independientes; si el lift es mayor que 1, es muy probable que se compren juntos ambos productos; si el lift es menor que 1, comprar un producto tendrá un impacto negativo en el otro.
Las reglas de asociación tienen longitud, que se refiere a la cantidad de productos involucrados en la regla.
Una regla de asociación tiene antecedente, que es el o los productos que influencian, y tiene consecuente, que es el o los productos influenciados. Por ejemplo:
implica que comprar leche y cereal influye en comprar azúcar.
El análisis de los carritos de compra indica que el carrito más pequeño fue de 1 ítem, mientras que el carrito más grande fue de 385 productos, la gráfica siguiente muestra el comportamiento de la cantidad de carritos de compra que contienen de 1 a 30 artículos.
La gráfica siguiente muestra las 20 productos más frecuentes en un carrito de compra, se observa que el producto regency cakestand 3 tier es el que los clientes, de manera individual, compran más frecuentemente, seguido de jumbo bag red retro spot y party bunting.
Se analizan las transacciones para obtener todas las reglas de asociación que contengan máximo 10 productos, con support = 0.001 (mínimo) y confidence = 0.8 (mínimo).
Se obtuvieron 41,711 reglas de asociación con las características siguientes:
| Medidas | Valor mínimo | Valor promedio | Valor máximo |
|---|---|---|---|
| Support | 0.001037 | 0.001454 | 0.022592 |
| Confidence | 0.8000 | 0.8990 | 1.0000 |
| Lift | 9.538 | 85.460 | 753.625 |
Se despliegan las primeras 10 reglas ordenadas descendentemente por confidence:
| lhs | Var.2 | rhs | support | confidence | lift | count | |
|---|---|---|---|---|---|---|---|
| [1] | {decoupage} | => | {greeting card} | 0.0012005 | 1 | 333.18182 | 22 |
| [2] | {black tea} | => | {sugar jars} | 0.0022374 | 1 | 237.98701 | 41 |
| [3] | {black tea} | => | {coffee} | 0.0022374 | 1 | 62.32993 | 41 |
| [4] | {funk monkey} | => | {art lights} | 0.0021828 | 1 | 458.12500 | 40 |
| [5] | {art lights} | => | {funk monkey} | 0.0021828 | 1 | 458.12500 | 40 |
| [6] | {chocolate spots} | => | {swiss roll towel} | 0.0024557 | 1 | 407.22222 | 45 |
| [7] | {swiss roll towel} | => | {chocolate spots} | 0.0024557 | 1 | 407.22222 | 45 |
| [8] | {white tea} | => | {sugar jars} | 0.0028922 | 1 | 237.98701 | 53 |
| [9] | {white tea} | => | {coffee} | 0.0028922 | 1 | 62.32993 | 53 |
| [10] | {magic garden} | => | {hook} | 0.0026739 | 1 | 373.97959 | 49 |
El 100% de los clientes que compraron decoupage compraron greeting card, el 100% de los clientes que compraron black tea compraron sugar jars y coffee.
En este tipo de gráfica, cada eje representa una medida de interés, support es el eje horizontal y confidence es el eje vertical, usando lift como color de los puntos.
Mientras más a la derecha o más arriba esté el punto, mejor es la regla; similarmente, mientras más oscuro sea el punto, mayor valor tiene la regla.
Este tipo especial de gráfica de dispersión, es similar a la anterior, pero el color representa el order de la regla, es decir, la cantidad de productos que contiene la regla, a mayor orden, mayor longitud de la regla. Se puede observar que las reglas de 5 y 6 productos son predominantes en la gráfica.
En este tipo de gráfica, el antecedente (lado izquierdo) de la regla es el eje horizontal, mientras que el consecuente (lado derecho) de la regla es el eje vertical; si existe una regla entre ambos, la intersección se rellena con un color proporcional al lift de la regla; de no existir regla alguna, se deja en blanco la intersección.
Se grafican las 10 primeras y se observa que funk monkey está asociado únicamente con art lights con un lift alto, mientras que white tea está asociado con coffee y sugar jars con lift bajo.
## Itemsets in Antecedent (LHS)
## [1] "{funk monkey}" "{art lights}" "{chocolate spots}"
## [4] "{swiss roll towel}" "{magic garden}" "{decoupage}"
## [7] "{black tea}" "{white tea}"
## Itemsets in Consequent (RHS)
## [1] "{coffee}" "{sugar jars}" "{greeting card}"
## [4] "{hook}" "{swiss roll towel}" "{chocolate spots}"
## [7] "{art lights}" "{funk monkey}"
En este tipo de gráfica, los productos están representados por vértices y las reglas por flechas conectoras. Si la flecha sale del ítem, este es antecedente y si la flecha se dirige al ítem, es el consecuente. El tamaño y el color del círculo conector indican las características analizadas.
Por ejemplo, la gráfica siguiente corresponde a 10 reglas y se observa que white tea y black tea son ambos productos que propician comprar sugar jars y coffe, sin embargo, el lift* de sugar jars** es mayor que el de coffee, por lo tanto, influyen mucho más en la compra del primero que del segundo.
En esta gráfica, los productos se despliegan en el eje vertical mientras que el eje horizontal representa las posiciones de los productos en la regla. Las flechas representan la longitud de la regla, su ancho representa el support y la intensidad del color representa el lift.
Por ejemplo, la gráfica siguiente corresponde a 10 reglas y vemos que el mayor lift corresponde a la regla pink polkadot cup + green polkadot bowl + blue polkadot plate como predictores de green polkadot plate.
Una vez generadas las reglas, se pueden explorar buscando aquellas que cumplan con ciertas características tanto en los antecedentes de la regla como en los consecuentes de la misma.
Por ejemplo, se extraen todas las reglas donde su antecedente sea coffee, es decir, personas para quienes el café sería el producto que influya en la compra de otros productos, obteniéndose 24 reglas.
Se despliegan las 10 primeras reglas:
| lhs | Var.2 | rhs | support | confidence | lift | count | |
|---|---|---|---|---|---|---|---|
| [1] | {coffee} | => | {set 3 retrospot tea} | 0.0120600 | 0.7517007 | 62.329932 | 221 |
| [2] | {coffee} | => | {sugar} | 0.0120600 | 0.7517007 | 62.329932 | 221 |
| [3] | {coffee} | => | {sugar jars} | 0.0042019 | 0.2619048 | 62.329932 | 77 |
| [4] | {coffee} | => | {red spotty biscuit tin} | 0.0037108 | 0.2312925 | 23.546863 | 68 |
| [5] | {coffee} | => | {white tea} | 0.0028922 | 0.1802721 | 62.329932 | 53 |
| [6] | {coffee} | => | {red retrospot round cake tins} | 0.0026194 | 0.1632653 | 12.677274 | 48 |
| [7] | {coffee} | => | {set of 3 cake tins pantry design} | 0.0026194 | 0.1632653 | 2.927433 | 48 |
| [8] | {coffee} | => | {regency cakestand 3 tier} | 0.0025648 | 0.1598639 | 1.905990 | 47 |
| [9] | {coffee} | => | {pack of 72 retrospot cake cases} | 0.0025102 | 0.1564626 | 3.113113 | 46 |
| [10] | {coffee} | => | {red retrospot butter dish} | 0.0022920 | 0.1428571 | 13.424908 | 42 |
Se observa que con un cliente que vaya a comprar coffee, existe el 75.17% de que compre también un set 3 retrospot tea y sugar, pero solo 26.19% de que compre sugar jars.
Se muestran las gráficas para las primeras 10 reglas:
De igual manera, se extraen todas las reglas donde su consecuencia sea coffee, es decir, personas para quienes otros producto(s) influyen en su decisión de comprar coffee, obteniéndose 117 reglas.
Analizando las primeras 10 reglas:
## lhs rhs support confidence lift count
## [1] {black tea} => {coffee} 0.002237381 1 62.32993 41
## [2] {white tea} => {coffee} 0.002892224 1 62.32993 53
## [3] {sugar jars} => {coffee} 0.004201910 1 62.32993 77
## [4] {set 3 retrospot tea} => {coffee} 0.012060027 1 62.32993 221
## [5] {sugar} => {coffee} 0.012060027 1 62.32993 221
## [6] {black tea,
## sugar jars} => {coffee} 0.002237381 1 62.32993 41
## [7] {sugar jars,
## white tea} => {coffee} 0.002892224 1 62.32993 53
## [8] {red retrospot mug,
## set 3 retrospot tea} => {coffee} 0.001091405 1 62.32993 20
## [9] {red retrospot mug,
## sugar} => {coffee} 0.001091405 1 62.32993 20
## [10] {red retrospot butter dish,
## set 3 retrospot tea} => {coffee} 0.002128240 1 62.32993 39
Se observa que todas las reglas tienen confidence igual a 1, lo que significa que 100% de los clientes que compraron los productos antecedentes, también compraron coffee.
Este es un ejemplo de aplicación de herramientas de ciencia de datos para realizar análisis sofisticados con datos de las organizaciones. Con las herramientas adecuadas, se puede obtener información valiosa para la toma de decisiones de la empresa.
A partir de los objetivos estratégicos de la empresa, se pueden definir los tipos de análisis a realizar para generar conocimiento valioso para una mejor toma de decisiones.
Dr. José Luis Barrera Canto
Científico de Datos e Inteligencia Artificial
Consultor Especializado
jose.luis.barrera.canto@gmail.com