## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.1.0     v dplyr   1.0.5
## v tidyr   1.1.3     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

``

Descriptivo General

Las evaluaciones agropecuarias fueron realizadas desde el 2007 al 2019 en los 32 departamentos del país y en un total de 1022 municipios (de los 1103), destacados como los individuos de análisis. Con vectores de caracter cualitativo, entre los que resaltamos, por razones de este trabajo, el tipo de cultivo con 223 entradas.

Entre los vectores cuantitativos descuellan: área sembrada (ha), cosechada(ha), producción (t) y el rendimiento en toneladas por hectárea.

Observación: No se encuentran \(3817\) entradas en el elemento rendimiento_t_ha. Datos que representan un 2% del total de la información.

Data summary
Name datos_eva
Number of rows 229716
Number of columns 17
_______________________
Column type frequency:
character 10
numeric 7
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
departamento 0 1.00 4 24 0 32 0
municipio 0 1.00 3 27 0 1022 0
grupo_de_cultivo 0 1.00 6 48 0 13 0
subgrupo_de_cultivo 0 1.00 3 32 0 120 0
cultivo 0 1.00 2 32 0 223 0
sistema_productivo 0 1.00 2 32 0 271 0
periodo 0 1.00 4 5 0 40 0
estado_fisico_produccion 0 1.00 2 22 0 23 0
nombre_cientifico 3300 0.99 8 47 0 214 0
ciclo_de_cultivo 0 1.00 5 11 0 3 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
cod_dep 0 1.00 40.17 25.26 5 17.0 41 66.00 99 ▇▅▃▆▁
cod_mun 0 1.00 40592.74 25243.25 5001 17486.0 41319 66682.00 99773 ▇▅▃▆▁
year 0 1.00 2013.11 3.82 2006 2010.0 2013 2016.00 2019 ▅▇▅▇▇
area_sembrada_ha 0 1.00 285.92 1142.56 0 10.0 35 150.00 47403 ▇▁▁▁▁
area_cosechada_ha 0 1.00 246.58 984.23 0 8.0 29 125.00 38600 ▇▁▁▁▁
produccion_t 0 1.00 2738.95 43559.27 0 30.6 140 640.00 4546116 ▇▁▁▁▁
rendimiento_t_ha 3817 0.98 9.33 14.93 0 1.5 5 11.79 246 ▇▁▁▁▁

Análisis de Métricas de carácter central, desviación y posición.

En general, la desviación estandar \((sd)\) presenta ratios bastantes significativos con relación a la media en las cuatro variables cuantitativas principales:

  • En el área sembrada existe una sd de \(1143 ha\), teniendo una media (ponderada) de \(286 ha\). Sabiendo que existen cultivos con áreas que van desde \(5m^2\) (0.0005 ha) hasta \(47403 ha\).
  • Con una mediana de \(35\) ha, se presenta, entonces, una distribución con sesgo a la izquierda. Es decir, vamos a encontrar con mayor frecuencia áreas cultivadas por debajo de la media.
## [1] 14.28696
## [1] 332.8986
## [1] 309.3842
## [1] 4333.843
## [1] 42.59591

Dispersión

Los coeficientes de asimetría \((g_1)\) y de curtosis \((g_2)\) nos permiten mayor claridad sobre lo antes concluido. Con un \(g_1= 14.23 > 0\) nos encontramos ante una distribución asimétrica positiva. Y un \(g_2= 332.9 > 0\) ante una distribución leptocúrtica.

Observación 2: las otras 3 variables cuantitativas siguen las mismas tendencias centrales y de dispersión.

Análisis por Agrupación

Las métricas de tendencia central, desviación, posición y dispersión realizadas esta vez por departamento, muestran similar inclinación a las realizadas en el descriptivo general: Desviación estandar significativa, distribución con sesgo a la izquierda y distribución leptocúrtica. Lo que signifca que vamos a encontrar áreas sembradas en su mayoría, diría más del 75%, por debajo del promedio.

Es muy recurrente que el cuartil 75 sea muy inferior al promedio. Lo que me hace pensar en la áreas muy extensas de cultivos o latifundios.

~ Análisis por agrupación

## 
## Attaching package: 'dbplyr'
## The following objects are masked from 'package:dplyr':
## 
##     ident, sql
Con lo visto hasta ahora, Quiero saber:

cuáles son los departamentos con mayor área o extensión sembrada.

La relación que tiene con la producción, área cosechada y el estado del cultivo a la hora de la cosecha.

Análisis por Visualización:

En la gráfica 1, se encuentran organizados los departamentos con mayor producción en toneladas y la barra asciende al área sembrada. Valle del Cauca, Cauca y Antioquia encabezan el listado. Antioquia ocupa el tercer lugar a pesar de poseer una extensión mayor de siembra, las hipotesis recaen sobre las otras variables: área cosechada, estado físico de la producción, tipo de cultivo, entre otros.

Vaupés, Amazonas, Guainía y Vichada a pesar de poseer superficies muy superiores al resto de los departamentos, se ratifica en este análisis que sus suelos son pobres para la actividad agricola.

En la Gráfica 2, vemos que por el área cosechada, Antioquia supera al Valle del Cauca y al Cauca. Lo que descarta esta hipótesis sobre su tercer puesto en producción. El grupo con más área cosechada es el de otros permanentes.

En la Gráfica 3, podemos atisbar que la variable estado físico del cultivo puede ser el causante del primer lugar del Valle del cauca (la tierra de los ingenios azucareros) en la producción en toneladas, en este caso particular, por la caña para molienda perteneciente al subgrupo “otros cultivos permanentes” el que posee mayor área cosechada.

En la Gráfica 4, observamos la correlación directa entre el área sembrada con el área cosechada. Y hasta las \(20500 ha\) aporx. estas relación directa.

Visualización

Gráfica 1

## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

~ Gráfica 2

## `summarise()` has grouped output by 'departamento'. You can override using the `.groups` argument.

~ Gráfica 3

## `summarise()` has grouped output by 'estado_fisico_produccion'. You can override using the `.groups` argument.

~ Gráfica 4

## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
## `geom_smooth()` using formula 'y ~ x'