El objetivo del siguiente trabajo es poner en practica todo lo aprendido en la diplomatura de AgroAnalytics para sacar conclusiones sobre una base de estudio. El equipo de trabajo está convencido de la importancia de los datos en cualquier rubro.
Cada empresa o sector tiene muchísimos datos que por distintas razones no utiliza y que con su correcto tratamiento podría marcar un diferencial. Convertir los datos en información que brinden valor.
La motivación que tenemos es poder obtener a partir de ciertas fuentes de datos y mediante el uso de las herramientas aprendidas, información que nos sea útil para predecir o entender ciertos comportamientos de la variable de estudio. Ejemplo: entender porque la producción de tal producto en una determinada zona del país es mas fuerte en determinado mes del año.
Aplicar técnicas de modelado de datos para armar un origen con información de confianza, limpia, performante y fácil de mantener a futuro.
Volcar estas fuentes en mapas o tableros para poder observar los comportamientos a lo largo del tiempo y presentar conclusiones de forma clara y entendible para cualquier gerencia.
Es una colección de tecnologías de soporte de decisión. Permite tomar mejores decisiones y más rápido. Está compuesto por hardware y software de bases de datos y herramientas.(Alonso, E. s/f)
Según H.W. Inmon “es un conjunto de datos integrado orientado a una materia, que varian con el tiempo y que no son transitirios, los cuales soportan el proceso de toma de desiciones de una administracón”.
Requiere de deteminada arquitectura para hacer eficiente su mantenimiento. Esta arquitectura incluye herramientas para, extrer datos operacionales y fuentes externas. Depuracióm, transformación, integración y carga de esos datos. Refrescar periodicamente y depurar los datos. (Alonso, E. op cit)
Sirve ara obtener información correcta para las personas adecuadas en el momento conveniente para que tomen decisiones. (Alonso, E. op cit)
La fuente de datos que utilizamos para el análisis de nuestro proyecto es un .xls extraído de la pagina oficial de SIO Granos. Un ejemplo de la compocisión de la base se muestra la tabla 1:
El data warehouse fue creado usando como fuente de información, la base pública del ministerio de agricultura de la nación.
Es un Sistema unificado de Información Obligatoria de las operaciones de compraventa de granos que conforman el Mercado Físico y que surge conforme a lo establecido en la Resolución Conjunta CNV – SAGyP Nº 208 y 628. El mencionado sistema ha sido desarrollado por las Bolsas de Cereales de Bahía Blanca, Buenos Aires, Córdoba y Entre Ríos y las Bolsas de Comercio de Chaco, Rosario y Santa Fe, el Mercado a Término de Buenos Aires S.A. – MATBA y el Mercado a Término de Rosario S.A. –ROFEX.
Dentro de un Proyecto de Postgres SQL, armamos nuestro modelado en tablas en hechos y dimensiones.
Consideramos una Dimensión Calendario, para poder obtener métricas mensuales, quincenales, analizar feriados, etc.
A su vez, armamos una Dimensión Localidad, donde por cada localidad detallamos su descripción, departamento, provincia, latitud, longitud y Zona Sio Granos.
Para sumar las Zonas realizamos una bajada de la pagina oficial del INDEC, la misma venia por localidad y departamento, y la sumamos a nuestra Dimensión.
Además, se detalla información referente a la operación como ser fecha y tipo, producto comercializado y cantidad, procedencia y destino de la mercadería, precio por toneladas y la cosecha a la que corresponde.
Esta información esta aplanada, lo que no genera un buen performance en el modelado, sumado a que a simple vista observamos que hay datos sucios o sin valor.
Mediante lo aprendido en las clases dictadas en esta diplomatura procedemos al curado de esta información, en una primera instancia sacando los caracteres especiales (‘,ñ,*,”, etc).
Se planteo el armado de un Modelo Estrella. Recomendado en DataWarehouse de tamaño chico debido a que se obtienen buenos rendimientos en consultas, permite la fácil agregación de campos a futuro y los cruces entre tablas son sencillos manejando SQL. Este modelo semuestra en la imágen 1.
Imágen 1. Modelo estrella base Sio Granos.
Para centralizar las bases de datos, se creó un proyecto en Postgresql para almacenar las fuentes, como muestran las siguientes imagenes.
El Data Warehouse está compuesto por la base ¨SioGranos_DiplomaturaAustral¨, conformado por las siguientes tablas:
Corresponde a la tabla principal de nuestro modelo dimensional. Contiene claves foráneas al resto de las dimensiones y todo aquello que consideramos importante medir y analizar:
Son tablas desnormalizadas, ofrecen información característica de las tablas de hechos y normalmente contienen pocos registros.
Tabla operaciones: Tabla calendario:
Tabla Localidades:
Tabla Productos:
Dimesiones:
Fecha
Tipo de Operación
Tipo
Precio
Producto
Cantidad
Calidad
Calidad adicional
Procedencia
Provincia
Localidad
Lugar de Entrega
Condición
Cosecha
Moneda
id_localidad
Medidas:
Cantidad de toneladas
Precio por tonelada
Periodicidad
Periodo:
La página del Sio Granos solo permite ls descarga de los últimos 6 meses, por lo que no se puede hacer un análisis estacional, ni comparaciones interanuales. No obstante, la útilidad de la información actual es imprecindible para comparar con los valores de precio, moneda en la que se realizan las operaciones, cantidad de operaciones por día, etc.
La base está compuesta en manera cruda, por aporximadamente 20 columnas y 300.000 registros, que detalla cada una de las operaciones informadas.
El análisis permitirá ver los datos de manera agrupada y clasificada según nivel de importancia, para identificar tendencias, patrones e insights, que permitan tomar mejores decisiones.
Agregar los atributos de georeferenciación es importante para poder mapear los datos. Esta fue creada a partir de una clave primaria, concatenando campo ¨procedencia_pcia¨ y procedencia_localid." y de esa manera evitar los departamentos y partidos repetidos, que matcheando a la base de georeferenciación del INDEC permite tomar los datos de latitud y longitud.
Para analizar los datos se utiliza el software R, que perminte la conexión y consulta desde el servidor de la base de datos (Data Warehouse), como muestra la imagen número 2.
Imagen 2. Conexión de R a Postgres:
Una vez que los datos son consultados desde R, se comienza a hacer una exploración y descripción de la base, agrupando y calculando campos relevantes.
En volumen, el producto mas comercializado es el maíz, con el 42% del total, seguido por la soja con el 38%. Durante este periodo, el maíz y la soja, representan el 80% del volumen comercializado.
Tabla 3. Productos comercializados:
| PRODUCTO | total_TN | Porc_TN |
|---|---|---|
| MAIZ | 39181504.25 | 0.42 |
| SOJA | 35454565.90 | 0.38 |
| TRIGO PAN | 11968171.84 | 0.13 |
| GIRASOL | 1806253.42 | 0.02 |
| CEBADA CERV. | 1572920.13 | 0.02 |
| SORGO | 1364344.11 | 0.01 |
| CEBADA FORR. | 1161891.67 | 0.01 |
| ARROZ C.L.F | 498097.82 | 0.01 |
| TRIGO CAND. | 158657.92 | 0.00 |
| ACEITE SOJA | 86687.77 | 0.00 |
| ARROZ C.L.A | 24565.08 | 0.00 |
El 47% de las operaciones de granos, en este perido, se realiza en pesos, 41% de las operaciones se realiza en dólares, solo 9, en Euros y el 12% está sin informar en que moneda, probablemente, por operaciones de canje.
| Moneda | Operaciones | % |
|---|---|---|
| $ | 180431 | 0.47 |
| U$S | 157927 | 0.41 |
| 0 | 44795 | 0.12 |
| EUR | 9 | 0.00 |
Tipo de operaciones:
| TIPO | TN_MONEDA | Porc_TN |
|---|---|---|
| Compraventa | U\(S | 0.51| |Compraventa |0 | 0.22| |Compraventa |\) | 0.19 |
| Canje | U\(S | 0.04| |Canje |0 | 0.02| |Canje |\) | 0.01 |
| Canje | EUR | 0.00 |
| Compraventa | EUR | 0.00 |
Contrato
| OPERACION | total_TN | Porc_TN |
|---|---|---|
| Contrato | 71404274.15 | 0.77 |
| Fijación | 13923258.85 | 0.15 |
| Rectificación | 5300782.59 | 0.06 |
| Anulación | 2016614.97 | 0.02 |
| Rectificación Fijación | 318961.77 | 0.00 |
| Anulación Fijación | 307050.70 | 0.00 |
| Rectificación Ampliación | 6716.88 | 0.00 |
Volumen por provincia y precio promedio por tonelada:
Tabla 4.
| PROCEDENCIA_PCIA | total_TN | Porc_TN | Producto | PESOS.Prom.TN |
|---|---|---|---|---|
| CÓRDOBA | 2786493.49 | 0.44 | MAIZ | 18146.46 |
| SANTA FE | 1315285.12 | 0.21 | MAIZ | 18870.03 |
| BUENOS AIRES | 923012.06 | 0.15 | MAIZ | 19046.72 |
| ENTRE RÍOS | 376788.38 | 0.06 | MAIZ | 18615.66 |
| CIUDAD AUTÓNOMA DE BUENOS AIRES | 241194.58 | 0.04 | MAIZ | 19501.18 |
| SANTIAGO DEL ESTERO | 214499.45 | 0.03 | MAIZ | 17607.59 |
| TUCUMÁN | 128513.77 | 0.02 | MAIZ | 17188.16 |
| SAN LUIS | 126610.54 | 0.02 | MAIZ | 18027.81 |
| SALTA | 112650.41 | 0.02 | MAIZ | 16949.37 |
| CHACO | 56896.84 | 0.01 | MAIZ | 17487.50 |
| LA PAMPA | 26731.61 | 0.00 | MAIZ | 19571.06 |
| CATAMARCA | 13853.78 | 0.00 | MAIZ | 17190.65 |
| NEUQUÉN | 601.03 | 0.00 | MAIZ | 20855.00 |
| FORMOSA | 547.53 | 0.00 | MAIZ | 16505.00 |
| CORRIENTES | 505.01 | 0.00 | MAIZ | 18558.33 |
| JUJUY | 249.73 | 0.00 | MAIZ | 17754.25 |
| CHUBUT | 143.98 | 0.00 | MAIZ | 17960.00 |
| MENDOZA | 59.64 | 0.00 | MAIZ | 18125.81 |
| MISIONES | 56.00 | 0.00 | MAIZ | 19135.00 |
| RÍO NEGRO | 19.45 | 0.00 | MAIZ | 21200.00 |
Las distribución del precio por tonelada en está rondando los 200 dólares. Como muesta el gráfico de caja y bigotes. Aunque hay mucha disperción entre valores extremos. Los valores máximos para maiz, fueron vistos durante el mes de mayo (más de 300 USD) y en julio (más de 200 USD) como muestra el gráfico evolutivo por mes.
Volumen por provincia y precio promedio por tonelada.
El 31% de las toneladas comercializadas tuvo origen en la provincia de Santa Fe y el mayor precio promedio por tonelada, se pagó en la provincia de Córdoba.
Tabla 5.
| PROCEDENCIA_PCIA | total_TN | Porc_TN | Producto | PESOS.Prom.TN |
|---|---|---|---|---|
| SANTA FE | 964.12 | 0.31 | ACEITE SOJA | 86769.06 |
| BUENOS AIRES | 831.36 | 0.27 | ACEITE SOJA | 77880.73 |
| ENTRE RÍOS | 739.02 | 0.24 | ACEITE SOJA | 68888.47 |
| CÓRDOBA | 519.45 | 0.17 | ACEITE SOJA | 88377.77 |
| SALTA | 11.92 | 0.00 | ACEITE SOJA | 79000.00 |
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 850 74792 80000 78936 88000 122000
Volumen por provincia y precio promedio por tonelada.
Tabla 6.
| PROCEDENCIA_PCIA | total_TN | Porc_TN | Producto | PESOS.Prom.TN |
|---|---|---|---|---|
| CÓRDOBA | 3187115.24 | 0.33 | SOJA | 30949.41 |
| SANTA FE | 2576738.56 | 0.27 | SOJA | 31454.62 |
| BUENOS AIRES | 1388941.98 | 0.15 | SOJA | 31146.95 |
| CIUDAD AUTÓNOMA DE BUENOS AIRES | 617573.57 | 0.06 | SOJA | 31871.21 |
| ENTRE RÍOS | 485403.64 | 0.05 | SOJA | 30955.95 |
| SANTIAGO DEL ESTERO | 412089.04 | 0.04 | SOJA | 30865.10 |
| CHACO | 305823.00 | 0.03 | SOJA | 30386.21 |
| TUCUMÁN | 200715.74 | 0.02 | SOJA | 30393.14 |
| SALTA | 145888.38 | 0.02 | SOJA | 30769.31 |
| SAN LUIS | 83931.26 | 0.01 | SOJA | 30525.44 |
| LA PAMPA | 64308.87 | 0.01 | SOJA | 30634.64 |
| CATAMARCA | 39214.07 | 0.00 | SOJA | 30543.04 |
| JUJUY | 6318.74 | 0.00 | SOJA | 29836.41 |
| FORMOSA | 1276.63 | 0.00 | SOJA | 30131.00 |
| CORRIENTES | 1267.13 | 0.00 | SOJA | 30862.95 |
| MENDOZA | 1200.00 | 0.00 | SOJA | 23690.00 |
| MISIONES | 48.28 | 0.00 | SOJA | 34688.00 |
| LA RIOJA | 34.14 | 0.00 | SOJA | 30200.00 |
| RÍO NEGRO | 5.00 | 0.00 | SOJA | 32215.00 |
## n
## 1 383162
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 173.2 30010.0 31300.0 31029.1 32340.0 61354.3
Esto permite hacer una descripción gráfica de las tablas representadas en el capitulo anterior, anlisis inteligente de datos.
El mapa de calor por departamento, según volumen de granos, se muestra en la imagen 4.
El color más fuerte representan los departamentos en los cuales se realizan operaciones con mayor volumen en toneladas de granos.
Imagen 4. Volumen de granos por departamento>