Introducción

El análisis de afinidad es el estudio de atributos o características que “van juntas”. Los métodos de análisis de afinidad, conocidos en la literatura como ‘análisis de canastas de supermercado’ o market basket analysis, buscan identificar las asociaciones entre atributos de una base de datos a través de métodos que cuantifican el grado de asociación entre atributos. En este trabajo se aplican reglas de asociación sobre una base de datos con información de 1.5 millones de precios para 1000 productos en 175 comercios ubicados en la Ciudad de Buenos Aires, se identificaron reglas de asociación aplicando el algoritmo Apriori de la librería arules de R.

Entre los principales resultados, se encontró que el análisis de reglas de asociación permite confirmar algunas de las hipótesis del primer trabajo práctico: como que los barrios de Puerto Madero y Villa Ortuzar son los más caros de la Ciudad, mientras que Mataderos, paternal y Monserrat son de los más baratos.

También se analizó en nivel de precios relativos asociado a distintas cadenas de supermercados y se encontró que la cadena Jumbo esta asociada a niveles de precios relativos más caros, seguida de COTO asociada a niveles de precios relativos medios y Carrefour asociada a precios relativos más baratos.

En una segunda etapa se estudiaron asociaciones vinculadas a la variación de los precios. Si bien en esta sección los resultados no confirmaron las hipótesis del primer trabajo, se identificaron aquellos productos que explicaron parte de la desaceleración de los precios.

En una tercer etapa se realizó un análisis de la evolución de los precios de los vinos, diferenciando por marca.

Posteriormente se elaboró un análisis de la capacidad predictiva de las reglas. Se encontró que el análisis de reglas de asociación tiene dificultades para predecir el comportamiento en variables vinculadas a la variación de precios pero si logra una buena performance en reglas vinculadas a los precios relativos.

Por último, en el final del documento se presentan un conjunto de comentarios y reflexiones.

Preprocesamiento y la construcción de reglas

Dadas las tres bases de datos originales se creó una única base de datos con todas las variables para la creación de reglas. A continuación se explican las transformaciones realizadas a cada una de los conjuntos de datos para obtener las siguientes variables:

Variable Descripción
producto Nombre del producto
marca Marca del producto
sucursal Razón social correspondiente a la sucursal
barrio Barrio correspondiente a la sucursal
prom_prec_j Promedio de precio en el período j (con j entre 1 y 4) discretizado
var_i Variación del promedio de precio correspondiente al período i+1 con el período i (con i entre 1 y 3) discretizado
var_tot Variación del precio entre el período 1 y el período 4 discretizado
prec_rel_tot Precio relativo del producto en la sucursal respecto al promedio discretizado

Preprocesamiento de la base de datos de precios

Este conjunto de datos contiene inicialmente precios de productos de 10 mediciones realizadas en distintos períodos. Para el análisis estas mediciones se conglomeraron en cuatro: noviembre, diciembre, enero y febrero.

Al pasar los precios a formato columnar se produjeron faltantes. Para imputarlos se realizó el promedio de las mediciones inmediatamente contiguas. Este método no imputó la totalidad de los faltantes, debido a los casos en que las mediciones aledañas al faltante contenían faltantes.

Las líneas de productos con faltantes luego de la imputación fueron omitidas del análisis.

Dada la base de precios por mes, se creó la variable correspondiente a la variación de precios, de acuerdo a la siguiente ecuación:

\[var\_i=\frac{precio_{i+1}-precio_{i}}{precio_{i}}\]

Con i = noviembre, diciembre, enero y febrero

Los valores obtenidos se discretizaron en las siguientes categorías:

Categorías Rango
Disminución Fuerte (-inf;-0.5)
Disminución Media [-0.5;-0.02)
Disminución Leve [-0.02;-0.005)
Mantiene [-0.005;0.005)
Aumento Leve [0.005;0.05)
Aumento Medio [0.05;0.1)
Aumento Fuerte [0.1;inf)

Además, se creó la variable correspondiente al precio relativo total de acuerdo a la siguiente fórmula:

\[precio\_rel\_tot = \frac{precio_{productoensucursal} - precio_{productopromedio}}{precio_{productopromedio}}\]

Los resultados se discretizaron de acuerdo a los siguientes parámetros:

Categorías Rango
Muy caro [0.1:inf)
Medio caro [0.05;0.1)
Levemente caro [0.01;0.05)
Medio [-0.01;0.01)
Levemente barato [-0.05;-0.01)
Medianamente barato [-0.1;-0.05)
Muy barato (-inf;-0.1)

Preprocesameinto de la base de datos de sucursales

Con los datos proporcionados por esta base, se generó la variable “barrio” y la variable “comercioRazonSocial” correspondiente a la cadena de cada sucursal. Ambas variables fueron utilizadas en el punto III en el análisis descriptivo para analizar que barrios son los más caros y baratos y para descubrir que cadenas tiene los niveles de precios relativos más altos.

Preprocesamiento de la base de datos de productos

Se realizó un preprocesamiento a las descripciones de los productos generando un vocabulario de términos para agregar como variable. Se eliminaron de las descripciones de los productos tanto las palabras “vacías” como las marcas y las presentaciones. Así obtuvimos un vocabulario “puro” con únicamente nombres de productos.

Se realizó un ranking con las primeras 50 palabras más repetidas y se las graficó en función de sus frecuencias. La distribución obtenida es de potencia y se puede apreciar en la figura .

Frecuencia de los 50 términos más repetidos

Frecuencia de los 50 términos más repetidos

Para ver cuales son estos productos más frecuentes se realizó una word cloud que se encuentra a continuación en la figura . Las palabras “vino” y “galletitas” son las de mayor tamaño indicando mayor frecuencia seguidas por jugo agua y leche.

Nube de palabras del vocabulario

Nube de palabras del vocabulario

Se analizó las marcas de los productos de igual manera para obtener la variable marca y utilizarla en la sección III en el análisis de los productos que contribuyen más a la desacelaración de precios y al análisis de la variación de precios de los vinos como también en la sección IV analizando la variación de precio de algunas galletitas.

Análisis descriptivo

En esta se sección se describe un conjunto de las asociaciones que consideramos permiten extraer conocimiento relevante de la base. Para simplificar la exposición elaboramos un conjunto de preguntas, las cuales se clasificaron en tres grupos:

  • Grupo 1, asociaciones vinculadas al nivel de precios

    a) ¿Qué cadenas tienen los niveles de precios relativos más altos?
    b) ¿Qué barrios tienen los niveles de precios relativos más altos?
  • Grupo 2, asociaciones vinculadas a la variación de los precios

    a) ¿Se verifica una desaceleración en los precios utilizando reglas de asociación?
    b) ¿Qué productos contribuyen a desacelerar los precios?
  • Grupo 3, asociaciones vinculadas a un conjunto de productos seleccionados, en este caso “vinos”.

    a) ¿Qué marcas de vino sufrieron los mayores aumentos de precios?
    b) ¿Qué marcas de vino mantuvieron sus precios?
    c) ¿Qué marcas de vino tuvieron disminución de precios fuertes?

Grupo 1: asociaciones vinculadas al nivel de precios

a) ¿Qué cadenas tienen los niveles de precios relativos más altos?

En la tabla se presentan las reglas de asociación las principales cadenas de supermercados y los precios relativos de los productos. Se consideraron únicamente aquellas asociaciones con un lift mayor a 1.5. Como se puede observar, la empresa Jumbo esta vinculada con precios relativos más altos. De hecho, si consideramos las ultimas tres filas de la tabla, podemos observar que la confianza indica que el 75% de los precios de la cadena Jumbo son caratulados como “levemente caros”, “Medio caros” o “Muy caros”.

En cuanto a la empresa COTO, encontramos que sus precios relativos se asocian a niveles intermedios. Concretamente, las filas 1 de la tabla indica que el alrededor del 40% de los precios de COTO están asociados a niveles de precios “Medios” (esto surge de sumar la confianza de cada fila).

Por último, la cadena Carrefour está asociada a niveles de precios relativos más bajos que el promedio. La tabla muestra que el 73% de los precios de carrefour están asociados a precios relativos “levemente baratos”, “medianamente baratos” o " muy baratos".

b) ¿Qué barrios son más baratos? ¿Cúales más caros?

En el primer trabajo práctico identificamos los barrios más caros a través de un score que con consistía en un promedio de precios de estandarizados de los productos ofertados 1 . En dicho trabajo encontramos que los barrios con productos más caros de la ciudad son Puerto Madero, Villa Ortuzar y Retiro; mientras que los más baratos son Paternal, Mataderos y Versalles.

En esta oportunidad buscaremos responder la misma pregunta pero utilizando técnicas de asociación.

En la tabla se presentan las reglas de asociación entre los barrios de la ciudad y los precios relativos de los productos. El nivel de confianza mínimo adoptado fue de 30%, por lo que para que las reglas que se presentan indican que por lo menos el 30% de los productos de cada barrio de la tabla están asociados a su respectivo nivel de precios relativos.Por ejemplo, en el caso de Puerto Madero el 36% de los precios del barrio son “Levemente caros” o en Monserrat el 50% de los precios son “Levemente baratos”. Asimismo, se consideró un lift mínimo de 1.5 para asegurar que las asociaciones sean robustas.

Las reglas obtenidas están en línea con los resultados que habíamos presentado en el Trabajo 1 (ver tablas y ) , Villa Ortuzar y Puerto Madero se encuentran entre los barrios más caros tanto para las reglas como para el score del TP1. En el mismo sentido, los barrios asociados con precios relativos “Levemente baratos” son, entre otros, Versalles, Paternal, Villa del Parque y Monserrat, barrios identificados entre los más baratos en el primer trabajo.


Grupo 2: asociaciones vinculadas a la variación de los precios

a) Se verifica una desaceleración de los precios utilizando reglas de asociación

En el primer trabajo de la materia habíamos encontrado que la variación de precios se había acelerado en el mes de enero y desacelerado en los siguientes meses (ver figura ). Una primer pregunta para hacer es si esta desaceleración se verifica realizando un análisis de reglas de asociación. En las figuras , y se presenta el support de las variaciones de precios en cada período. Una primera conclusión que surge de mirar los gráficos es que la proporción de precios que se mantienen, es decir no variaron sus precios mes contra mes, se reduce en el tercer período pasando de 45% en segundo período a 34% en el tercero. Asimismo, el support de “Aumento_medio” y “Aumento_leve” se incrementa en el tercer período lo que indicaría que los precios aceleraron su tasa de crecimiento. La diferencia entre las conclusiones obtenidas en el TP 1 y este análisis de reglas de asociación se explica porque, mientras que en el TP 1 tomamos un precio promedio por producto y calculamos la variación, en este trabajo al haber más transacciones de algunos productos que de otros y dado que aquellos más frecuentes (con mayor support) parecen haber acelerado su ritmo de aumento, resulta más difícil registrar la desaceleración.

Distribución de la variación mensual de precios

Distribución de la variación mensual de precios

Support de Variaciones de precios en el período 1

Support de Variaciones de precios en el período 1

Support de Variaciones de precios en el período 2

Support de Variaciones de precios en el período 2

Support de Variaciones de precios en el período 3

Support de Variaciones de precios en el período 3

b) ¿Qué productos contribuyen a la desaceleración de precios?

Existe un conjunto de productos de que muestra una desaceleración en su variación mensual. En el gráfico de coordenadas paralelas se presenta a un conjunto de reglas de asociación de un conjunto de productos que mantuvieron sus precios en el tercer período tras haber aumentado en el primer o segundo período. El gráfico muestra que las galletitas registraron un aumento fuerte en el primer y segundo período y luego mantuvieron su precio en el tercer período. También se puede observar que la cerveza y los caramelos registraron aumentos fuertes en el primer período y luego se mantuvieron.

Gráfico de coordenadas paralelas: productos que mantuvieon sus precios en el tercer período tras haber aumentado en el período uno o dos

Gráfico de coordenadas paralelas: productos que mantuvieon sus precios en el tercer período tras haber aumentado en el período uno o dos

Grupo 3: asociaciones vinculadas a un conjunto de productos seleccionados, en este caso “vinos”.

Para realizar este análisis, la base de datos fue filtrada para que sólo contenga las transacciones correspondientes a “vino”. Las variables con las se trabajaron para la creación de reglas fueron “marca” y “variación total”, esta última correspondiente a la variación total de precio durante los cuatro meses de estudio.

En las tres secciones de este grupo se tomó como mínimo soporte 0,01 y como mínima confianza 0,2. Además, las únicas reglas que se tuvieron en cuenta fueron aquellas cuyo lift fuese mayor a 1. Las reglas a continuación se encuentran ordenadas por lift descendiente.

a) ¿Qué marcas de vino sufrieron los mayores aumentos de precios?

Las reglas que se obtuvieron para las marcas de vinos como mayor aumento de precio se pueden observar en la Tabla . Estas corresponden a: “Etchart”, “Colon”, “Termidor” y “Frizee”. En el caso de las marcas “Etchart” y “Colon”, la confianza es de 1 y 0,99 respectivamente, esto indica que en todas las transacciones en donde aparecen estas marcas de vino, la variación total del precio fue “Variación Fuerte”.

b) ¿Qué marcas de vino mantuvieron sus precios?

Para este punto, se tomaron las 5 primeras reglas ordenadas por lift, las mismas se pueden observar en la Tabla . Las marcas que mantuvieron sus precios en el total del período con confianza mayor al 78% fueron: “Valdmont”, “Latitud”,“Castel”,“Chadon” y “Aime”.

c) ¿Qué marcas de vino tuvieron disminución de precios fuertes?

La única marca que sufrió una disminución, fue el vino “Nieto Sanetiner”. Tiene un lift superior a 1 y su confianza es del 20%, es decir, soloe ste porcentaje de la marca sufrió una disminución fuerte. Estos resultados se pueden observar en la Tabla .

Una representación de las reglas referentes a la variación de precios en el período de cada una de las marcas de vino se pueden observar en la Figura . En la misma se puede observar que hay cuatro variables centrales referidas a la variación del precio a las que confluyen las marcas de los vinos. Los círculos que representan las distintas marcas se diferencian por color y por tamaño. El color representa el lift de cada una de las reglas: cuanto más oscuro, mayor lift. El lift mínimo es de 1,112 y el máximo 6,433. Por otro lado, el diámetro covaria positivamente con el soporte de la regla, el soporte mínimo es de 0,01 y el máximo 0,049. Las marcas dejamos fuera en los puntos a, b y c son aquellas que tuvieron un aumento medio, disminución media y aumento medio. En el gráfico se pueden observar cuales fueron estas marcas. Todas estas reglas cuentan con lift mayor a 2 por lo que se considera que el antecedente y el consecuente no son independientes entre sí.

Reglas de asociación para las marcas de vino y las variaciones de precio

Reglas de asociación para las marcas de vino y las variaciones de precio

Análisis predictivo

a) ¿Es posible predecir el comportamiento del precio en la última variación?

Para poder responder esta pregunta, realizamos el análisis del comportamiento de las siguientes marcas de galletitas: Opera, Granix y Rex. Para todas las reglas el lift mínimo fue 1 y el soporte mínimo 0.01.

Galletitas Opera

En la tabla se encuentran las reglas correspondientes a las variaciones 1 y 2 para esta marca de galletitas. En la primera y segunda variaciones el precio sufrió un aumento medio en el 58% de los casos. Se podría esperar que en la tercera variación el precio se mantenga en aumento leve. La tabla presenta el comportamiento del precio en la variación 3, sorprendentemente, en este período el 52% de las galletitas Opera sufrieron una disminución fuerte de precio.

Galletitas Granix

Se puede ver en la tabla que el 58% de las galletitas Granix mantuvieron el precio en el primer y en el segundo, también mantiene pero la proporción aumentó a 95%. Esperaríamos entonces, que mantenga su comportamiento en el tercer período, pero los resultados que arroja la tabla son diferentes: el 75% de las galletitas Granix tuvieron un aumento medio.

Galletitas Rex

La tabla refleja que en el primer período el 49% de las galletitas Rex tuvo un aumento medio de su precio mientras que en el segundo período el porcentaje fue de 53. La tabla indica que este comportamiento tampoco se mantuvo en el tercer período ya que el 87% de las galletitas Rex mantuvo su precio.

En esta sección tomando un grupo de productos como las galletitas pudimos analizar el comportamiento del precio en los tres períodos. Con las reglas que generamos fue imposible predecir el comportamiento. Esto se debe a que, dada la inflación del país, es probable que los precios varíen constantemente y además, las reglas representaban un porción, por lo general, solamente un poco mayor al 50% del total.

b) Evaluación de las reglas de precios relativos

En este punto evaluaremos si las reglas de asociación del punto 1a) se mantienen en los distintos períodos. A diferencia del ítem anterior, en el que estudiamos la variación de precios, en este caso evaluaremos una regla que compara precios relativos. Esta diferencia es importante porque si bien las reglas pueden tener problemas para predecir series de tiempo en variables inestables en el tiempo (como la inflación) pueden ser útiles para analizar variables más estables como los precios relativos

En la siguiente tabla presentamos la evolución la confianza de siete reglas asociadas a los precios relativos de los supermercados (ver ítem 1a). Optamos por la confianza como indicador de la performance de la regla en el tiempo porque si la confianza se mantiene estable quiere decir que esa cadena de supermercado tendrá una proporción similar de sus productos en el mismo estrato (barato/medio/caro) lo que permite asociar a esa cadena con un nivel de precios relativos. El mensaje principal de esta tabla es que para este tipo de variables (precios relativos) la confianza se mantiene estable en los distintos períodos y podemos asociar con bastante seguridad a Jumbo con precios caros, a Coto con precios medios y a Carrefour con precios medianamente baratos.

Confianza de las reglas en los tres períodos
Período 1 Período 2 Período 3 Período 4
{comercioRazonSocial=Jumbo Retail Argentina S.A.} => {precio_relativo=muy caro} 0.15 0.18 0.16 0.16
{comercioRazonSocial=Jumbo Retail Argentina S.A.} => {precio_relativo=Medio caro} 0.22 0.23 0.20 0.20
{comercioRazonSocial=Jumbo Retail Argentina S.A.} => {precio_relativo=Levemente caro} 0.35 0.33 0.33 0.33
{comercioRazonSocial=Coto Centro Integral de Comercialización S.A.} => {precio_relativo=Medio} 0.36 0.35 0.36 0.38
{comercioRazonSocial=INC S.A.} => {precio_relativo=Muy barato} 0.14 0.18 0.15 0.13
{comercioRazonSocial=INC S.A.} => {precio_relativo=Medianamente barato} 0.16 0.15 0.16 0.15
{comercioRazonSocial=INC S.A.} => {precio_relativo=Levemente barato} 0.33 0.31 0.32 0.35

Conclusiones

El análisis de la base de datos aplicando técnicas de reglas de asociación permitió arribar a los siguientes resultados:

  • se encontró que el análisis de reglas de asociación permite confirmar algunas de las hipótesis del primer trabajo práctico: como que los barrios de Puerto Madero y Villa Ortuzar son los más caros de la Ciudad, mientras que Mataderos, paternal y Monserrat son de los más baratos

  • se encontró que la cadena Jumbo esta asociada a niveles de precios relativos más caros, seguida de COTO asociada a niveles de precios relativos medios y Carrefour asociada a precios relativos más baratos.

  • el análisis de reglas de regas de asociación no permite confirmar la desaceleración de precios observada en el primer trabajo.

  • dentro del análisis descriptivo de conjuntos particulares de productos, las asociaciones vinculadas a los vinos referían a la variación de precio total que sufrieron desde noviembre a febrero. Se encontró que un conjunto de productos registró aumentos medio en tanto que otro grupo de vinos se mantuvo. Es decir que entre productos que compiten entre si las estrategias de pricing durante estos meses difirió significativamente.

  • con respecto a la sección IV, las predicciones que se pueden hacer con la herramienta arules es limitada. En especial en el caso de este trabajo en donde la variable estudiada es la variación de precios. Sin embargo, las predicciones sí resultaron consistentes en distintos períodos cuando la variable asociada fue un precio relativo.


  1. En el TP 1, se trataron precios faltantes para completar missings en el caso de que algún producto no tuviera oferta en un barrio. En este trabajo, dado que se utiliza una técnica distinta, no se imputaron datos faltantes y por lo tanto hay un sesgo de oferta en los productos que puede llevar a una diferencia en los resultados.