## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3 v purrr 0.3.4
## v tibble 3.1.0 v dplyr 1.0.5
## v tidyr 1.1.3 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
``
Las evaluaciones agropecuarias fueron realizadas desde el 2007 al 2019 en los 32 departamentos del país y en un total de 1022 municipios (de los 1103), destacados como los individuos de análisis. Con vectores de caracter cualitativo, entre los que resaltamos, por razones de este trabajo, el tipo de cultivo con 223 entradas.
Entre los vectores cuantitativos descuellan: área sembrada (ha), cosechada(ha), producción (t) y el rendimiento en toneladas por hectárea.
Observación: No se encuentran \(3817\) entradas en el elemento rendimiento_t_ha. Datos que representan un 2% del total de la información.
| Name | datos_eva |
| Number of rows | 229716 |
| Number of columns | 17 |
| _______________________ | |
| Column type frequency: | |
| character | 10 |
| numeric | 7 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| departamento | 0 | 1.00 | 4 | 24 | 0 | 32 | 0 |
| municipio | 0 | 1.00 | 3 | 27 | 0 | 1022 | 0 |
| grupo_de_cultivo | 0 | 1.00 | 6 | 48 | 0 | 13 | 0 |
| subgrupo_de_cultivo | 0 | 1.00 | 3 | 32 | 0 | 120 | 0 |
| cultivo | 0 | 1.00 | 2 | 32 | 0 | 223 | 0 |
| sistema_productivo | 0 | 1.00 | 2 | 32 | 0 | 271 | 0 |
| periodo | 0 | 1.00 | 4 | 5 | 0 | 40 | 0 |
| estado_fisico_produccion | 0 | 1.00 | 2 | 22 | 0 | 23 | 0 |
| nombre_cientifico | 3300 | 0.99 | 8 | 47 | 0 | 214 | 0 |
| ciclo_de_cultivo | 0 | 1.00 | 5 | 11 | 0 | 3 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| cod_dep | 0 | 1.00 | 40.17 | 25.26 | 5 | 17.0 | 41 | 66.00 | 99 | ▇▅▃▆▁ |
| cod_mun | 0 | 1.00 | 40592.74 | 25243.25 | 5001 | 17486.0 | 41319 | 66682.00 | 99773 | ▇▅▃▆▁ |
| year | 0 | 1.00 | 2013.11 | 3.82 | 2006 | 2010.0 | 2013 | 2016.00 | 2019 | ▅▇▅▇▇ |
| area_sembrada_ha | 0 | 1.00 | 285.92 | 1142.56 | 0 | 10.0 | 35 | 150.00 | 47403 | ▇▁▁▁▁ |
| area_cosechada_ha | 0 | 1.00 | 246.58 | 984.23 | 0 | 8.0 | 29 | 125.00 | 38600 | ▇▁▁▁▁ |
| produccion_t | 0 | 1.00 | 2738.95 | 43559.27 | 0 | 30.6 | 140 | 640.00 | 4546116 | ▇▁▁▁▁ |
| rendimiento_t_ha | 3817 | 0.98 | 9.33 | 14.93 | 0 | 1.5 | 5 | 11.79 | 246 | ▇▁▁▁▁ |
En general, la desviación estandar \((sd)\) presenta ratios bastantes significativos con relación a la media en las cuatro variables cuantitativas principales:
## [1] 14.28696
## [1] 332.8986
## [1] 309.3842
## [1] 4333.843
## [1] 42.59591
Los coeficientes de asimetría \((g_1)\) y de curtosis \((g_2)\) nos permiten mayor claridad sobre lo antes concluido. Con un \(g_1= 14.23 > 0\) nos encontramos ante una distribución asimétrica positiva. Y un \(g_2= 332.9 > 0\) ante una distribución leptocúrtica.
Observación 2: las otras 3 variables cuantitativas siguen las mismas tendencias centrales y de dispersión.
Las métricas de tendencia central, desviación, posición y dispersión realizadas esta vez por departamento, muestran similar inclinación a las realizadas en el descriptivo general: Desviación estandar significativa, distribución con sesgo a la izquierda y distribución leptocúrtica. Lo que signifca que vamos a encontrar áreas sembradas en su mayoría, diría más del 75%, por debajo del promedio.
Es muy recurrente que el cuartil 75 sea muy inferior al promedio. Lo que me hace pensar en la áreas muy extensas de cultivos o latifundios.
~ Análisis por agrupación
##
## Attaching package: 'dbplyr'
## The following objects are masked from 'package:dplyr':
##
## ident, sql
cuáles son los departamentos con mayor área o extensión sembrada.
Análisis por Visualización:
En la gráfica 1, se encuentran organizados los departamentos con mayor producción en toneladas y la barra asciende al área sembrada. Valle del Cauca, Cauca y Antioquia encabezan el listado. Antioquia ocupa el tercer lugar a pesar de poseer una extensión mayor de siembra, las hipotesis recaen sobre las otras variables: área cosechada, estado físico de la producción, tipo de cultivo, entre otros.
Vaupés, Amazonas, Guainía y Vichada a pesar de poseer superficies muy superiores al resto de los departamentos, se ratifica en este análisis que sus suelos son pobres para la actividad agricola.
En la Gráfica 2, vemos que por el área cosechada, Antioquia supera al Valle del Cauca y al Cauca. Lo que descarta esta hipótesis sobre su tercer puesto en producción. El grupo con más área cosechada es el de otros permanentes.
En la Gráfica 3, podemos atisbar que la variable estado físico del cultivo puede ser el causante del primer lugar del Valle del cauca (la tierra de los ingenios azucareros) en la producción en toneladas, en este caso particular, por la caña para molienda perteneciente al subgrupo “otros cultivos permanentes” el que posee mayor área cosechada.
En la Gráfica 4, observamos la correlación directa entre el área sembrada con el área cosechada. Y hasta las \(20500 ha\) aporx. estas relación directa.
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
~ Gráfica 2
## `summarise()` has grouped output by 'departamento'. You can override using the `.groups` argument.
~ Gráfica 3
## `summarise()` has grouped output by 'estado_fisico_produccion'. You can override using the `.groups` argument.
~ Gráfica 4
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
## `geom_smooth()` using formula 'y ~ x'