I. Introducción

¿Qué barrios de la Ciudad de Buenos Aires son más caros? ¿Existe un vínculo entre el precio de alquiler y el nivel de precios de los comercios? ¿Qué productos presentan mayor dispersión de precios? ¿Cuáles menos? ¿Qué aumentaron más? ¿De cuánto fue la inflación en supermercados?

A partir de una base de datos con información de 1.5 millones de precios para 1000 productos en 175 comercios ubicados en la Ciudad de Buenos Aires, se buscó responder a los interrogantes planteados aplicando técnicas de análisis de datos.

Entre los principales resultados se encontró que los barrios con productos más caros de la ciudad son Puerto Madero, Villa Ortuzar y Retiro. Mientras que los más baratos son Paternal, Mataderos y Versalles. Asimismo, se encontró que el precio del terreno, y por lo tanto de los alquileres, puede se uno de los factores que explique este mayor nivel de precios.

Otro resultado interesante estuvo vinculado a la dispersión de precios. La teoría económica a sugiere que en un mismo momento T, dos productos exactamente iguales deben valer lo mismo. Sin embargo, la evidencia muestra que esto no sucede. El trabajo encuentra que existe una elevada dispersión en productos de cosmética y limpieza en tanto que alimentos muestra menor dispersión. Sobre este punto un hallazgo es que los precios con baja dispersión suelen estar adherido al sistema de Precios Cuidados [1] por lo que se puede inferir que el programa ayuda a reducir la dispersión o incluso eliminarla en algunos bienes.

En cuanto a la inflación de supermercados, el trabajo encuentra que los precios e incrementaron un 10% entre noviembre de 2018 y febrero de 2019. Siendo los productos que más subieron las bebidas gaseosas y las hamburguesas, con alzas de entre 70 y 100%.

Asimismo, se analizó la variación mensual de los precios los y se encontró que cerca un 25% de los precios permanecen estables en cada mes, un 20% registra incrementos de entre 0.1% y 2%, un 15% presenta incremento de 2 a 4%, un 20% entre 4 y 8%, un 10% en 8 y 12% y un 5% exhibe alzas mayores a 12% mensual.

El documento se estructura de la siguiente manera: luego de la introducción, en la sección II se presentan las base de datos utilizadas; en la sección III se responden las preguntas de investigación de este documento desarrollando la metodología de análisis utilizada; finalmente en la IV se realizan un conjunto de reflexiones sobre los principales hallazgos y posibilidades de continuación de la investigación.

II. Datos: procesamiento e integración de datos

II.a. Datos

El conjunto de datos utilizados se obtuvieron a partir de un relevamiento reciente por medio de crawling de precios en la página Precios Claros[2]. Se seleccionaron precios de supermercados e hipermercados de la Ciudad Autónoma de Buenos Aires (CABA), sobre los 1000 productos más frecuentes. Los datos se refieren al período comprendido entre noviembre de 2018 hasta finales de febrero de 2019.

Inicialmente se contaba con tres datasets:

  • Sucursales: Contiene información de todas las sucursales relevadas de comercios del rubro de supermercados, hipermercados y autoservicios ubicados en la ciudad de Buenos Aires.

  • Productos: Contienen información de productos de tipo alimentos, bebidas, limpieza, higiene personal y alimentos y productos para mascotas. Está limitado para los 1000 productos con más frecuencia en el relevamientos de precios en CABA.

  • Precios: Contiene información de medición de precios sobre los 1000 productos seleccionados en las sucursales de tipo supermercados e hipermercados de CABA (se excluye a la categoría autoservicios). Los precios corresponden a precios de listas, es decir que no contemplan promociones especiales de ningún tipo, por ejemplo promociones bancarias, ni promociones por cantidad. Por lo tanto, corresponden al precio de venta de una unidad en pago en efectivo.

A través de la página del gobierno de la Ciudad [3] se descargaron las bases de datos correspondientes a:

  • Localización y límites geográficos de los barrios de la Ciudad de Buenos Aires

  • Valor de venta de terrenos por m2 en USD para cada barrio de la Ciudad de Buenos Aires correspondiente a los años 2017 y 2018.

  • Índice de Precios de la Ciudad de Buenos Aires. Se utilizaron los datos de inflación general e inflación en alimentos.

II.b. Preprocesamiento y limpieza de los datos

Los análisis realizados en este trabajo se realizaron teniendo en cuenta el mes en que se obtuvo el valor del precio. Como se puede observar en la gráfica a continuación, en el mes correspondiente a Marzo, los datos obtenidos fueron mucho menores a los demás meses. (ver ).

Cantidad de precios registrados por mes

Cantidad de precios registrados por mes

Cantidad de precios declarados por cadena

Cantidad de precios declarados por cadena

Cantidad de comercios adheridos por barrio

A pesar que la base de datos de sucursales cuenta con una extensa cantidad, los precios relevados corresponden únicamente a 175 de ellas y hay barrios donde ninguna sucursal provee información. A continuación se encuentra un mapa de la Ciudad de Buenos Aires con la distribución de estas sucursales por barrio. Ver Figura nº .

Cantidad de comercios adheridos por barrio

Cantidad de comercios adheridos por barrio

Cantidad de precios declarados por cadena

Las empresas que formaron parte del programa y declararon sus precios fueron las que se pueden observar en ela figura nº .

La empresa que más datos proporcionó fue Coto seguida por Carrefour y luego Disco. Las empresas menos representativas son Mi Chango, Walmart y Josimar.

Para el análisis de los precios de los barrios, como para algunos barrios no había precios se debió imputador estos valores. Esto se pudo realizar a través de la técnica Hot Deck que reemplaza los valores faltantes con valores obtenidos de registros similares.

III Análisis: preguntas de investigación, metodología y análisis

En estas sección se dará respuesta a cada una de las hipótesis que se plantean a continuación:

Pregunta 1: ¿Qué barrios son más caros?

En este análisis se tuvo en cuenta el sesgo que puede existir entre los tipos de productos que se ofrecen en cada barrio. Por ejemplo, en un barrio con alto poder adquisitivo probablemente cuente con menos oferta de productos de segunda línea que un barrio con menor poder adquisitivo. Se ha sorteado este problema haciendo el análisis por producto e imputando aquellos precios faltantes en los barrios.

Además, como los precios de los productos no se mantienen constantes en el tiempo, se ha decidido utilizar el promedio de precio en todo el período de análisis para cada producto.

El precio utilizado para cada barrio es el promedio de precios de todas las sucursales en él.

Por otro lado, dado que los productos se encuentran en embases de distintos tamamaños el anlisis debe hacer por producto. Para poder comparar entre productos y obtener un indicador consolidado por barrio se utilizaron dos herramientas : (i) Normalización Min-Max y (ii) Heatmap. Se desarrollan a continuación:

Normalización Min-Max

La técnica de Normalización Min-Max se trata de una transformación lineal utilizada para normalizar los valores del precio. Esta transformación fue aplicada de acuerdo a la siguiente ecuación:

\[Precio_{(i,j)}=(Precio_{(i,j)}-min(Precio_i))/(max(Precio_i)-min(Precio_i))\] \[\text{donde i es el producto y j es el barrio}\]

El rango de los precios para cada producto pasa a estar entre 0 y 1.

Con la totalidad de los precios de la base por barrio, se realizó el cálculo de un score de precios. Este score de precio fue calculado como el promedio de precios de productos para el barrio determinado. Una vez obtenido el score de cada barrio, se los ordenó de acuerdo a un ranking.

En la tabla , más abajo, se pueden observar los resultados de los barrios con precios más altos.

Asimismo, se realizó la misma tabla para los barrios con promedio de precios más bajos (Tabla ).

Los resultados anteriores se pueden ver en forma gráfica a través de un heatmap.

Heatmap

Un heatmap o mapa de calor, es una representación gráfica de datos donde los valores individuales contenidos en una matriz se representan como colores. Para que las celdas sean comparables entre si se normaliza en base a la media y la desviación estándar del atributo de interés. En este caso se normalizó la variable precio de acuerdo a la distribución de cada producto.

Dado la gran cantidad de productos (1000), que dificultaba la representación gráfica, se seleccionó de manera aleatoria 50 productos (representando un 5% del total) para representar.

Los resultados se muestran en la figura

Mapa de Calor de Precio de Productos por Barrio

Mapa de Calor de Precio de Productos por Barrio

En el borde superior se observa un dendograma, este hace referencia al reodernamiento de cada uno de los barrios por clustering o agrupación. El algoritmo calcula la distancia entre cada par de columnas y las ordena por similitud. A través de ello, es posible ver que los barrios Villa Ortuzar y Puerto Madero tienen los precios más altos, seguidos de Retiro, Recoleta y Belgrano. En el otro extremo se encuentran barrios como Versalles, Paternal o Mataderos.

Estos resultados corroboran el análisis por scores realizado previamente.

Pregunta 2. ¿Existe un vínculo entre el costo de los terrenos y el precio de los productos?

Para poder responder esta pregunta, se ha utilizado la base de datos de valor de venta de terrenos en USD para cada barrio de la Ciudad de Buenos Aires correspondiente a los años 2017 y 2018 y los resultados obtenidos de score de la pregunta anterior.

A simple vista se puede observar que los colores de ambos mapas tienen la misma tendencia. Para verificar si existe una relación entre el costo de los terrenos y el precio se ha realizado una regresión lineal siguiendo el siguiente modelo:

\[Score_i = \beta_0 + \beta_1.Precio\_Terreno_i + \theta_i\] \[\text{donde i es el barrio, } \beta \text{ los coeficientes a estimar, } \theta \text{ los residuos }\]

Los resultados obtenidos se pueden ver en la tabla .

Para el coeficiente que afecta al valor del terreno el coeficiente resultó positivo y significativo al 1%. Dado que se trata de un modelo log-lin, puede interpretarse que: un incremento de un dólar en el precio de los terrenos del barrio i se traducirá en un alza del score de precios del barrio de 0.12%.

Este resultado se representa gráficamente en el scater plot que se encuentra en la figura nº .

Scater Plot Precio del metro cuadrado en dólares vs. Score Barrio caro

Scater Plot Precio del metro cuadrado en dólares vs. Score Barrio caro

En este gráfico se representa la función lineal a la que se ajustan los datos de valores de terreno y score de precio por barrio.

Un dato interesante es que algunos barrios ocmo Villa Ortuzar y Villa General Mitre presentan precios elevados a pesar de tener un valor medio del terreno bastante menor al de barrios con inveles de precios similares. Explicar ese residio puede resultar interesante para próximos trabajos. Los mismo sucede, pero en sentido contrario con Paternal, Monserrat y Villa del Parque.

Pregunta 3. ¿Qué productos presentan mayor y menor dispersión de precios?

Se entiende como dispersión de precios cuando en un mismo mercado las empresas venden simultáneamente un mismo producto a distinto precio.

Existe un número importante de trabajos que ha estudiado el vínculo entre dispersión de precios e inflación. Sintéticamente, los estudios empíricos indican que a mayores niveles de inflación mayor es la dispersión de precios. Esto se explicaría porque cuando hay una elevada inflación los precios cambian rápidamente y adquirir información sobre los precios es costoso para los consumidores: deben recorrer comercios y esto lleva tiempo.

En esta sección del documento analizamos que productos registran mayor dispersión. Para ello calculamos el coeficiente de variación para cada producto en cada mes. El coeficiente de variación se calculo de acuerdo a la siguiente fórmula: \[CV_{i}=s_i/\overline{x_i}\]

\[\text{donde i es el producto, s es el desvío estándar y } \overline{x} \text{ es la media}\]

En la tabla nº mostramos los resultados para el mes de noviembre. Por una cuestión de extensión no mostramos los resultados para el resto de los meses pero un patrón que se encontró fue que en general los productos con mayor dispersión no solían ser alimentos sino productos cosméticos y de limpieza.

En el otro extremo, los productos con menor dispersión resultaron ser, en general, alimentos (ver tabla . Una explicación para este fenómeno puede ser que, dado que el principal consumo de los consumidores es en alimentos, el precios de los mismos sea el principal factor detrás de la decisión de a qué comercio concurrir. En ese contexto, los supermercados pueden tener como estrategia tener precios de alimentos competitivos pero mayor margen en otro tipo de productos.

En algunos productos el factor que explica la baja dispersión es que los productos se encuentran en algún programa de precios sugeridos del gobierno por ejemplo: Polvo para Mousse, Orégano dos anclas, Gaseosas Sprite, Paso de los Toros, entre otros.

Pregunta 4. ¿Cuánto fue la inflación segun nuestra base de datos?

Es frecuente que los institutos de estadística del mundo comiencen a relevar parte de la información de precios con la que se elaboran los índices de inflación a través de la web con métodos similares a los utilizados para construir labase de este trabajo.

En ese marco, en esta pregunta calculamos la inflación de una forma naive, asumiendo que todos los productos tienen la misma ponderación. Así, calculamos la inflación como el promedio simple de la variación de mensual de todos los precios disponibles en la base.

Cabe destacar que no esperamos que nuestra medición sea similar a la de insitutos oficiales. En primer lugar, porque la canasta de consumo que mide el IPC CABA o INDEC esta compuesto por una canasta de bienes más amplia que la de supermercados, incluyes servicios públicos (transporte, luz, agua,etc), combustibles y otros bienes que no se venden en supermercados. Además, otra limitante es que los consumos tienen una poderación en las canastas de organismos oficiales.

En un primer abordaje, se realizó el cálculo de la inflación realizando imputación (hot deck) en la base de precios para que cada producto tenga un precio por mes. Esta imputación resultó inadecuada ya que en un gran porcentaje de faltantes utilizaba los precios del mes previo, provocando que el valor calculado de la inflación sea subestimado.

El análisis de la inflación entonces fue calculado sobre la base de datos con faltantes.

La inflación presentada por los 1000 productos se ve representada mediante boxplots en lafigura

Comparación de la inflación de alimentos, inflación general e inflación en la base de datos

Comparación de la inflación de alimentos, inflación general e inflación en la base de datos

Para el mes de diciembre, se puede percibir que la mediana de inflación es levemente inferior al índice de precios General y levemente mayor al índice de precios de los alimentos.

Se puede observar que en enero tanto para los datos del gobierno como para la base de datos de Precios Claros, la inflación fue mayor que la del mes anterior. Además, a partir de ese mes la mediana de los precios de la base de datos resultó inferior a los dos indices de precios, el general y el de alimentos.

Una posible explicación para la diferencia que presenta el análisis de la mediana respecto al gobierno, es que, muchos de los productos utilizados en este trabajo forman parte del grupo de Precios Cuidados. Por lo tanto, sus precios se mantuvieron constantes.

Específicamente, para el mes de marzo, la medida de inflación no es relevante para el análisis. Esto es debido a que la cantidad de datos para ese mes es significativamente menor y por lo tanto, fueron muy pocos los productos que se utilizan en el cálculo.

Continuando con el análisis de inflación, se ha realizado un gráfico con la distribución de la variación mensual de precios. El mismo se encuentra en la figura .

Distribución de la variación mensual de precios

Distribución de la variación mensual de precios

Es evidente que la inflación en el mes de diciembre fue menor a la que se calculó en enero y febrero porque la mayor proporción de precios que variaron lo hicieron en un porcentaje menor al 0.1%. En el mes de enero, los precios que variaron entre un 8% y 12% fueron los más frecuentes y finalmente para el mes de febrero fueron los precios con variación entre el 0.1% y 2%.

Pregunta 5. ¿Qué productos presentan los mayores incrementos de precios?

Para completar el análisis de aumentos de precios, en la tabla siguiente se identifican a los productos que sufrieron el mayor incremento de precios entre noviembre de 2018 y febrero de 2019.

Algunos puntos que sedestacan son que:

  • Los precios se incrementaron un 10% entre noviembre de 2018 y febrero de 2019.

  • Los productos que más subieron las bebidas gaseosas y las hamburguesas, con alzas de entre 70 y 100%.

VII. Conclusiones

El analisis de la base de datos de Precios Claros nos permitió arribar a los siguientes resultados:

Una de las conclusiones más relevantes del trabajo es que la base de Precios Claros resulta una herramienta útil para los consumidores. Por un lado permite desarrollar aplicaciones para encontrar ventajas de precios, permite medir la inflación aunque esto require mayor desarrollo metodológico, permite obtener información relevante para los hacedores de política como demostramos con el analisis de dispersión.

Por último, dejamos algunas preguntas qué se podrían responder con la base en agenda para una posible extensión del trabajo:

VIII. Referencias