“Análisis de Datos sobre Base SIO GRANOS”

INTEGRANTES:

  • Aranega, Facundo
  • Bolondi, Angel
  • Lanús, Facundo
  • Menendez, Mariana

Introducción

El objetivo del siguiente trabajo es poner en practica todo lo aprendido en la diplomatura de AgroAnalytics para sacar conclusiones sobre una base de estudio. El equipo de trabajo está convencido de la importancia de los datos en cualquier rubro.

Cada empresa o sector tiene muchísimos datos que por distintas razones no utiliza y que con su correcto tratamiento podría marcar un diferencial. Convertir los datos en información que brinden valor.

La motivación que tenemos es poder obtener a partir de ciertas fuentes de datos y mediante el uso de las herramientas aprendidas, información que nos sea útil para predecir o entender ciertos comportamientos de la variable de estudio. Ejemplo: entender porque la producción de tal producto en una determinada zona del país es mas fuerte en determinado mes del año.

Aplicar técnicas de modelado de datos para armar un origen con información de confianza, limpia, performante y fácil de mantener a futuro.

Volcar estas fuentes en mapas o tableros para poder observar los comportamientos a lo largo del tiempo y presentar conclusiones de forma clara y entendible para cualquier gerencia.

DATA WAREHOUSE

¿Que es un data warehouse?

Es una colección de tecnologías de soporte de decisión. Permite tomar mejores decisiones y más rápido. Está compuesto por hardware y software de bases de datos y herramientas.(Alonso, E. s/f)

Según H.W. Inmon “es un conjunto de datos integrado orientado a una materia, que varian con el tiempo y que no son transitirios, los cuales soportan el proceso de toma de desiciones de una administracón”.

Requiere de deteminada arquitectura para hacer eficiente su mantenimiento. Esta arquitectura incluye herramientas para, extrer datos operacionales y fuentes externas. Depuracióm, transformación, integración y carga de esos datos. Refrescar periodicamente y depurar los datos. (Alonso, E. op cit)

¿Para que sirve?

Sirve ara obtener información correcta para las personas adecuadas en el momento conveniente para que tomen decisiones. (Alonso, E. op cit)

Armado DataWarehouse

Base de datos

La fuente de datos que utilizamos para el análisis de nuestro proyecto es un .xls extraído de la pagina oficial de SIO Granos. Un ejemplo de la compocisión de la base se muestra la tabla 1:

El data warehouse fue creado usando como fuente de información, la base pública del ministerio de agricultura de la nación.

¿Que es Sio Granos?

Es un Sistema unificado de Información Obligatoria de las operaciones de compraventa de granos que conforman el Mercado Físico y que surge conforme a lo establecido en la Resolución Conjunta CNV – SAGyP Nº 208 y 628. El mencionado sistema ha sido desarrollado por las Bolsas de Cereales de Bahía Blanca, Buenos Aires, Córdoba y Entre Ríos y las Bolsas de Comercio de Chaco, Rosario y Santa Fe, el Mercado a Término de Buenos Aires S.A. – MATBA y el Mercado a Término de Rosario S.A. –ROFEX.

El proyecto

Dentro de un Proyecto de Postgres SQL, armamos nuestro modelado en tablas en hechos y dimensiones.

Consideramos una Dimensión Calendario, para poder obtener métricas mensuales, quincenales, analizar feriados, etc.

A su vez, armamos una Dimensión Localidad, donde por cada localidad detallamos su descripción, departamento, provincia, latitud, longitud y Zona Sio Granos.

Para sumar las Zonas realizamos una bajada de la pagina oficial del INDEC, la misma venia por localidad y departamento, y la sumamos a nuestra Dimensión.

Además, se detalla información referente a la operación como ser fecha y tipo, producto comercializado y cantidad, procedencia y destino de la mercadería, precio por toneladas y la cosecha a la que corresponde.

Esta información esta aplanada, lo que no genera un buen performance en el modelado, sumado a que a simple vista observamos que hay datos sucios o sin valor.

Mediante lo aprendido en las clases dictadas en esta diplomatura procedemos al curado de esta información, en una primera instancia sacando los caracteres especiales (‘,ñ,*,”, etc).

Se planteo el armado de un Modelo Estrella. Recomendado en DataWarehouse de tamaño chico debido a que se obtienen buenos rendimientos en consultas, permite la fácil agregación de campos a futuro y los cruces entre tablas son sencillos manejando SQL. Este modelo semuestra en la imágen 1.

Imágen 1. Modelo estrella base Sio Granos.

Tablas que componen el Data Werehouse

Para centralizar las bases de datos, se creó un proyecto en Postgresql para almacenar las fuentes, como muestran las siguientes imagenes.

El Data Warehouse está compuesto por la base ¨SioGranos_DiplomaturaAustral¨, conformado por las siguientes tablas:

Tabla de Hechos

Corresponde a la tabla principal de nuestro modelo dimensional. Contiene claves foráneas al resto de las dimensiones y todo aquello que consideramos importante medir y analizar:

Tablas de Dimensiones

Son tablas desnormalizadas, ofrecen información característica de las tablas de hechos y normalmente contienen pocos registros.

Tabla operaciones: Tabla calendario: Tabla Localidades:

Tabla Productos:

Dimesiones:

  • Fecha

  • Tipo de Operación

    • Tipo

    • Precio

  • Producto

    • Cantidad

    • Calidad

    • Calidad adicional

  • Procedencia

    • Provincia

    • Localidad

  • Lugar de Entrega

    • Fecha de entrega
  • Condición

    • Es Final
  • Cosecha

  • Moneda

  • id_localidad

Medidas:

  • Cantidad de toneladas

  • Precio por tonelada

Periodicidad

  • Diario

Periodo:

  • 23/3/2021 – 18/9/2021

La página del Sio Granos solo permite ls descarga de los últimos 6 meses, por lo que no se puede hacer un análisis estacional, ni comparaciones interanuales. No obstante, la útilidad de la información actual es imprecindible para comparar con los valores de precio, moneda en la que se realizan las operaciones, cantidad de operaciones por día, etc.

Lenguaje Visión de Negocio

  • Informar por cantidad y precio, las operaciones de cada tipo de granos, según procedencia de zonas del país, y tipo de contrato.

La base está compuesta en manera cruda, por aporximadamente 20 columnas y 300.000 registros, que detalla cada una de las operaciones informadas.

El análisis permitirá ver los datos de manera agrupada y clasificada según nivel de importancia, para identificar tendencias, patrones e insights, que permitan tomar mejores decisiones.

  • Informar la ubicación geográfica de las operaciones informadas en Sio Granos.

Agregar los atributos de georeferenciación es importante para poder mapear los datos. Esta fue creada a partir de una clave primaria, concatenando campo ¨procedencia_pcia¨ y procedencia_localid." y de esa manera evitar los departamentos y partidos repetidos, que matcheando a la base de georeferenciación del INDEC permite tomar los datos de latitud y longitud.

ANALISIS INTELIGENTE DE DATOS

Para analizar los datos se utiliza el software R, que perminte la conexión y consulta desde el servidor de la base de datos (Data Warehouse), como muestra la imagen número 2.

Imagen 2. Conexión de R a Postgres:

Una vez que los datos son consultados desde R, se comienza a hacer una exploración y descripción de la base, agrupando y calculando campos relevantes.

Descripción de la base

En volumen, el producto mas comercializado es el maíz, con el 42% del total, seguido por la soja con el 38%. Durante este periodo, el maíz y la soja, representan el 80% del volumen comercializado.

Tabla 3. Productos comercializados:

PRODUCTO total_TN Porc_TN
MAIZ 39181504.25 0.42
SOJA 35454565.90 0.38
TRIGO PAN 11968171.84 0.13
GIRASOL 1806253.42 0.02
CEBADA CERV. 1572920.13 0.02
SORGO 1364344.11 0.01
CEBADA FORR. 1161891.67 0.01
ARROZ C.L.F 498097.82 0.01
TRIGO CAND. 158657.92 0.00
ACEITE SOJA 86687.77 0.00
ARROZ C.L.A 24565.08 0.00

Tipo de moneda y cantidad de operaciones

El 47% de las operaciones de granos, en este perido, se realiza en pesos, 41% de las operaciones se realiza en dólares, solo 9, en Euros y el 12% está sin informar en que moneda, probablemente, por operaciones de canje.

Moneda Operaciones %
$ 180431 0.47
U$S 157927 0.41
0 44795 0.12
EUR 9 0.00

Tipo de operaciones:

TIPO TN_MONEDA Porc_TN
Compraventa U\(S | 0.51| |Compraventa |0 | 0.22| |Compraventa |\) 0.19
Canje U\(S | 0.04| |Canje |0 | 0.02| |Canje |\) 0.01
Canje EUR 0.00
Compraventa EUR 0.00

Contrato

OPERACION total_TN Porc_TN
Contrato 71404274.15 0.77
Fijación 13923258.85 0.15
Rectificación 5300782.59 0.06
Anulación 2016614.97 0.02
Rectificación Fijación 318961.77 0.00
Anulación Fijación 307050.70 0.00
Rectificación Ampliación 6716.88 0.00

MAIZ

Volumen por provincia y precio promedio por tonelada:

Tabla 4.

PROCEDENCIA_PCIA total_TN Porc_TN Producto PESOS.Prom.TN
CÓRDOBA 2786493.49 0.44 MAIZ 18146.46
SANTA FE 1315285.12 0.21 MAIZ 18870.03
BUENOS AIRES 923012.06 0.15 MAIZ 19046.72
ENTRE RÍOS 376788.38 0.06 MAIZ 18615.66
CIUDAD AUTÓNOMA DE BUENOS AIRES 241194.58 0.04 MAIZ 19501.18
SANTIAGO DEL ESTERO 214499.45 0.03 MAIZ 17607.59
TUCUMÁN 128513.77 0.02 MAIZ 17188.16
SAN LUIS 126610.54 0.02 MAIZ 18027.81
SALTA 112650.41 0.02 MAIZ 16949.37
CHACO 56896.84 0.01 MAIZ 17487.50
LA PAMPA 26731.61 0.00 MAIZ 19571.06
CATAMARCA 13853.78 0.00 MAIZ 17190.65
NEUQUÉN 601.03 0.00 MAIZ 20855.00
FORMOSA 547.53 0.00 MAIZ 16505.00
CORRIENTES 505.01 0.00 MAIZ 18558.33
JUJUY 249.73 0.00 MAIZ 17754.25
CHUBUT 143.98 0.00 MAIZ 17960.00
MENDOZA 59.64 0.00 MAIZ 18125.81
MISIONES 56.00 0.00 MAIZ 19135.00
RÍO NEGRO 19.45 0.00 MAIZ 21200.00

Distribución de los montos por tonelada de maiz

Las distribución del precio por tonelada en está rondando los 200 dólares. Como muesta el gráfico de caja y bigotes. Aunque hay mucha disperción entre valores extremos. Los valores máximos para maiz, fueron vistos durante el mes de mayo (más de 300 USD) y en julio (más de 200 USD) como muestra el gráfico evolutivo por mes.

ACEITE SOJA

Volumen por provincia y precio promedio por tonelada.

El 31% de las toneladas comercializadas tuvo origen en la provincia de Santa Fe y el mayor precio promedio por tonelada, se pagó en la provincia de Córdoba.

Tabla 5.

PROCEDENCIA_PCIA total_TN Porc_TN Producto PESOS.Prom.TN
SANTA FE 964.12 0.31 ACEITE SOJA 86769.06
BUENOS AIRES 831.36 0.27 ACEITE SOJA 77880.73
ENTRE RÍOS 739.02 0.24 ACEITE SOJA 68888.47
CÓRDOBA 519.45 0.17 ACEITE SOJA 88377.77
SALTA 11.92 0.00 ACEITE SOJA 79000.00
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     850   74792   80000   78936   88000  122000

SOJA

Volumen por provincia y precio promedio por tonelada.

Tabla 6.

PROCEDENCIA_PCIA total_TN Porc_TN Producto PESOS.Prom.TN
CÓRDOBA 3187115.24 0.33 SOJA 30949.41
SANTA FE 2576738.56 0.27 SOJA 31454.62
BUENOS AIRES 1388941.98 0.15 SOJA 31146.95
CIUDAD AUTÓNOMA DE BUENOS AIRES 617573.57 0.06 SOJA 31871.21
ENTRE RÍOS 485403.64 0.05 SOJA 30955.95
SANTIAGO DEL ESTERO 412089.04 0.04 SOJA 30865.10
CHACO 305823.00 0.03 SOJA 30386.21
TUCUMÁN 200715.74 0.02 SOJA 30393.14
SALTA 145888.38 0.02 SOJA 30769.31
SAN LUIS 83931.26 0.01 SOJA 30525.44
LA PAMPA 64308.87 0.01 SOJA 30634.64
CATAMARCA 39214.07 0.00 SOJA 30543.04
JUJUY 6318.74 0.00 SOJA 29836.41
FORMOSA 1276.63 0.00 SOJA 30131.00
CORRIENTES 1267.13 0.00 SOJA 30862.95
MENDOZA 1200.00 0.00 SOJA 23690.00
MISIONES 48.28 0.00 SOJA 34688.00
LA RIOJA 34.14 0.00 SOJA 30200.00
RÍO NEGRO 5.00 0.00 SOJA 32215.00

Distribución de los montos por tonelada de soja

##        n
## 1 383162
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   173.2 30010.0 31300.0 31029.1 32340.0 61354.3

GEORREFERENCIACIÓN CON QGIS

Esto permite hacer una descripción gráfica de las tablas representadas en el capitulo anterior, anlisis inteligente de datos.

El mapa de calor por departamento, según volumen de granos, se muestra en la imagen 4.

El color más fuerte representan los departamentos en los cuales se realizan operaciones con mayor volumen en toneladas de granos.

Imagen 4. Volumen de granos por departamento>