1. Introducción
Por medio de este cuaderno se ilustra como se obtienen estadisticas
multianuales para un grupo determinado de cultivos del departamento
seleccionado (Boyacá). La fuente principal de los datos son las
Evaluaciones Agropecuarias Municipales (EVA), un conjunto de datos
agrícolas de 2007-2018 proporcionado por el Ministerio de Agricultura y
Desarrollo Rural.
2. Setup
Como primer paso, vamos a instalar y cargar las librerias necesarias
de R para que se puedan desarrollar todas las funciones requeridas.
En la seccion “consola” se instalan los siguientes paquetes:
#install.packages('dplyr')
#install.packages('readxl')
#install.packages('sf')
Con los paquetes instalados, se procede a cargar las librerias:
library(tidyverse)
library(dplyr)
library(readr)
library(ggplot2)
3. Para el Departamento seleccionado se desacarga el conjunto de
datos EVA que tenga un registro de varios años
Nos dirigimos a la página:
https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Evaluaciones-Agropecuarias-Municipales-EVA/2pnw-mmge/data
Allí encontraremos el conjunto de Datos necesario.
La pagina tiene un sitio Web vinculado que se conoce como: (i.e
datos.gov.co). Allí podemos visualizar los datos y tambnien aplicar el
filtro necesario para solo obtenerv los datos de nuedstro interes
correspondientes al departamento de Boyacá.
Cuando se tengan los datos de interes se exportan en formato
.csv.
El Archivo aparecera en descargar como
Evaluaciones_Agropecuarias_Municipales_EVA.csv. Y sera necesario moverlo
directorio de trabajo.
3.1 Lectura del conjunto de Datos EVA
list.files()
[1] "Cuaderno2.knit.md"
[2] "Cuaderno2.nb.html"
[3] "Cuaderno2.Rmd"
[4] "Eva_Boyaca.csv"
[5] "pandoca6c3d16567e.nb.html"
Ahora, procedamos a leer el conjunto de datos EVA 2007-2018:
# adjust the filepath acording to your data
(eva = read_csv("EVA_Boyaca.csv", col_names = TRUE,
show_col_types = FALSE))
Vea la tabla y confirme que contenga estadísticas agrícolas para
diferentes años. ¿Puedes decir cuál es el período de tiempo para estos
datos?
Es muy importante saber cuáles son los nombres que “ve” el software.
Puede ser diferente de lo que vemos. Averigüemoslo:
names(eva)
[1] "CÓD. \nDEP."
[2] "DEPARTAMENTO"
[3] "CÓD. MUN."
[4] "MUNICIPIO"
[5] "GRUPO \nDE CULTIVO"
[6] "SUBGRUPO \nDE CULTIVO"
[7] "CULTIVO"
[8] "DESAGREGACIÓN REGIONAL Y/O SISTEMA PRODUCTIVO"
[9] "AÑO"
[10] "PERIODO"
[11] "Área Sembrada\n(ha)"
[12] "Área Cosechada\n(ha)"
[13] "Producción\n(t)"
[14] "Rendimiento\n(t/ha)"
[15] "ESTADO FISICO PRODUCCION"
[16] "NOMBRE \nCIENTIFICO"
[17] "CICLO DE CULTIVO"
4.Limpieza del conjunto de Datos EVA.
Se seleccionan algunos de los atributos para la limpieza del conjunto
de Datos EVA.
# comprobar la salida del objeto en el último fragmento
# cambiar los nombres de los atributos según sus propios datos
eva %>% dplyr::select('CÓD. MUN.':'ESTADO FISICO PRODUCCION') -> eva.tmp
eva.tmp
Se verifica el resultado y tambien que solo se seleccionaron las
columnas relevantes.
Ahora, se cambian los nombres de varias columnas que contengan
caracteres vacíos o caracteres “noisy”:
# asegúrese de utilizar los nombres de las columnas que están en su objeto eva.tmp
eva.tmp %>% dplyr::rename('Cod_Mun' = 'CÓD. MUN.',
'Grupo' = 'GRUPO \nDE CULTIVO',
'Subgrupo' = 'SUBGRUPO \nDE CULTIVO',
'Year' = 'AÑO',
'AreaSembrada' = 'Área Sembrada\n(ha)',
'AreaCosechada' = 'Área Sembrada\n(ha)',
'Produccion' = 'Producción\n(t)', 'Rendimiento' = 'Rendimiento\n(t/ha)',
'Sistema' = 'DESAGREGACIÓN REGIONAL Y/O SISTEMA PRODUCTIVO',
'Estado' = 'ESTADO FISICO PRODUCCION') -> new_eva
Ahora se comprueba el resultado:
new_eva
Se revisa y verifica que en la anterior tabla los atributos
cuantitativos se almacenen como tipos de datos numéricos (no como tipos
de datos de cadena).
5. Análisis de los datos
Muchas tareas de análisis de datos se pueden abordar utilizando el
paradigma dividir-aplicar-combinar. Que basicamente consiste en: dividir
los datos en grupos, aplicar algún análisis a cada grupo y luego
combinar los resultados.
La biblioteca dplyr hace que esto sea muy fácil por medio de el uso
de la función group_by(), que divide los datos en grupos. Cuando los
datos se agrupan de esta manera, se puede utilizar resume() para
colapsar cada grupo en un resumen de una sola fila. resume() hace esto
posible por medio de una función de agregación o resumen a cada
grupo.
5.1 Los cultivos más importantes entre 2007 y 2018.
Por ejemplo, si se quiere saber la producción total por grupo de
cultivos, tecleamos:
new_eva %>%
##filtro(Produccion > 0) %>%
group_by(Grupo) %>%
summarize(total_produccion = sum(Produccion)) %>%
arrange(desc(total_produccion))
la producción total esta compuesta de la suma de la producción de
cada grupo de cultivos entre 2007 y 2018. En Boyacá, los dos cultivos de
mayor producción fueron “Tubérculos y Plátanos” y “Hortalizas”.
Para guardar la producción total como un objeto, se procede a:
new_eva %>%
group_by(Grupo) %>%
summarize(total_produccion = sum(Produccion)) -> PT
Para filtarar los cultivos mas importantes:
PT %>%
filter(total_produccion > 1000000) -> main.groups
Para conocer la producción total de los principales grupos de
cultivos:
(value = sum(main.groups$total_produccion))
[1] 19212405
Para agregar un nuevo atributo con porcentaje de la producción
total:
main.groups$percent = main.groups$total_produccion/value
Para crear un gráfico circular de la producción total de los grupos
principales:
library(ggplot2)
# Barplot
bp<- ggplot(main.groups, aes(x="", y=percent, fill=Grupo))+
geom_bar(width = 1, stat = "identity")
# Piechart
pie <- bp + coord_polar("y", start=0)
pie

5.2 Municipios con mayor producción para cada grupo de
cultivos:
Para conocer los municipios que lideraron la producción de cada
cultivo de 2007 a 2018 en el departamento de Boyacá:
new_eva %>%
group_by(Grupo, MUNICIPIO) %>%
summarize(total_prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.max(total_prod)) %>%
arrange(desc(total_prod))
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
Para guardar dicho objeto:
new_eva %>%
group_by(Grupo, MUNICIPIO) %>%
summarize(total_prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.max(total_prod)) -> leaders
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
leaders
Para filtrar los municipios más importantes desde el punto de vista
agrícola:
leaders %>%
filter(total_prod > 50000) -> main.leaders
Ahora graficamos los “leaders” filtrados:
# Basic barplot
p<-ggplot(data=main.leaders, aes(x=MUNICIPIO, y=total_prod)) +
geom_bar(stat="identity")
p

5.3 Dinámica del cultivo de tomate entre 2009 y 2015, en el
departamento de Boyacá.
Aunque en municipio de mayor producción en el departamento de Boyaca
es Aquitania, el cultivo de interes escogido que es “Tomate” no se
produce alli debido a condiciones como la altura y el clima. Por ello,
para el analisis del cultivo de tomate en el departamento de Boyaca se
toma como municipio de mayor produccion el municipio de Sutamarchan.
Donde el tomate es parte de la identidad de un símbolo del municipio
debido a su extensa produccion. En sutamarchan el la buena calidad en el
acceso a recursos a recursos agricolas, las condiciones climaticas
favorable teniendo en cuenta que la temperatura que puede variar de los
9°C a los 22°C y una altura de 1800 msnm. Estas características han dado
paso para que diferentes variedades de tomate se puedan pruducir, que el
tomate encuentre un lugar de gran demanda en el mercado gracias a su
poca distancia con el centro del pais y que el tomate se vuelva parte de
las tradiciones agricolas de cada uno de los productores de las
diferentes zonas de Sutamarchan.
new_eva %>%
filter(MUNICIPIO=="SUTAMARCHAN" & CULTIVO=="TOMATE") %>%
group_by(Year, CULTIVO) %>%
select(MUNICIPIO, CULTIVO, Produccion, Year) -> sutamarchan_tomatoe
Ahora se comprueba el resultado:
sutamarchan_tomatoe
Con la información obtenida. Se hace un grafico de la la producción
de tomate en Sutamarchan durante los años 2009 y 2015 para ilustrar
mejor los datos:
g <- ggplot(aes(x=Year, y=Produccion/1000), data = sutamarchan_tomatoe) + geom_bar(stat='identity') + labs(y='Produccion de Tomate [Ton x 1000]')
Por ultimo se le añade un titulo y se visualiza:
g + ggtitle("Evolucion del cultivo de Tomate en Sutamarchan desde el año 2009 hasta el 2015") + labs(caption= "Basado en datos de EVA (Minagricultura, 2020)")

6.Otros analisis
6.1. Analisis del rendimiento
Teniendo en cuenta que Sutamarchan Boyaca es un municipio que
principalmente tiene su vocacion agricola relacionada con el tomate,
saber el rendimiento de los cultivos de tomate que se desarrollan es
importante para llegar a tomar y establecer desiciones relacionadas con:
Las variedades sembradas, los tiempos de siembra y el calendario
climatico. Para contratastar el rendimiento del tomate sembrado en
sutamarchan boyaca es necesario que:
new_eva %>%
filter(MUNICIPIO=="SUTAMARCHAN" & CULTIVO=="TOMATE") %>%
group_by(Year, CULTIVO) %>%
select(MUNICIPIO, CULTIVO, Rendimiento, Year) -> sutamarchan_tomatoeR
Que teiene como Resultado:
sutamarchan_tomatoeR
Con la información obtenida. Se hace un grafico del rendimiento de
tomate en el periodo que comprende desde 2009 hasta el año 2015 para
ilustrar mejor los datos:
r <- ggplot(aes(x=Year, y=Rendimiento/1000), data = sutamarchan_tomatoeR) + geom_bar(stat='identity') + labs(y='Rendimiento de Tomate [Ton x ha]')
Por ultimo se le añade un titulo y se visualiza:
r + ggtitle("Cambios en el rendimiento del cultivo de tomate del año 2009 hasta el año 2015") + labs(caption= "Basado en datos de EVA (Minagricultura, 2020)")

6.2 Analisis del area Cosechada
Tener en cuenta el area cosechada del cultivo de tomate en
Sutamarchan, es un factor importante que permite establecer el Municipio
de Sutamarchan como el mayor productor de Tomate en el departamento de
Boyacá. Y es que al conocer a Sutamarchan como un municipio con una
vocacion agricola tomatera. Tambien influyen en factores como la
planificacion del cultivo, la relacion con la estimacion de producción y
la estimacion de rendimiento, el monitoreo y control de plagas y
enfermedades. Para contratastar el area sembrada en sutamarchan boyaca
es necesario que:
new_eva %>%
filter(MUNICIPIO=="SUTAMARCHAN" & CULTIVO=="TOMATE") %>%
group_by(Year, CULTIVO) %>%
select(MUNICIPIO, CULTIVO, AreaCosechada, Year) -> sutamarchan_tomatoeAc
Que tiene como Resultado:
sutamarchan_tomatoeAc
Con la información obtenida. Se hace un grafico con relacion al area
en la cual se obtuvo cosecha de tomate en el periodo comprendido entre
el año 2009 y 2015:
Ac <- ggplot(aes(x=Year, y=AreaCosechada), data = sutamarchan_tomatoeAs) + geom_bar(stat='identity') + labs(y='Area cosechada [ha]')
Por ultimo se le añade un titulo y se visualiza:
Ac + ggtitle ("Cambios en el area cosechada de tomate del año 2009 hasta el año 2015") + labs(caption= "Basado en datos de EVA (Minagricultura, 2020)")

7. Bibliografia
(1). Lizarazo, I., 2022. Understanding dynamic productivity of crops.
Available at https://rpubs.com/ials2un/production_dyn_v1.
(2).
sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 11 x64 (build 22621)
Matrix products: default
locale:
[1] LC_COLLATE=Spanish_Colombia.utf8
[2] LC_CTYPE=Spanish_Colombia.utf8
[3] LC_MONETARY=Spanish_Colombia.utf8
[4] LC_NUMERIC=C
[5] LC_TIME=Spanish_Colombia.utf8
time zone: America/Bogota
tzcode source: internal
attached base packages:
[1] stats graphics grDevices utils
[5] datasets methods base
other attached packages:
[1] lubridate_1.9.2 forcats_1.0.0
[3] stringr_1.5.0 dplyr_1.1.3
[5] purrr_1.0.2 readr_2.1.4
[7] tidyr_1.3.0 tibble_3.2.1
[9] ggplot2_3.4.3 tidyverse_2.0.0
loaded via a namespace (and not attached):
[1] sass_0.4.7 utf8_1.2.3
[3] generics_0.1.3 stringi_1.7.12
[5] hms_1.1.3 digest_0.6.33
[7] magrittr_2.0.3 evaluate_0.21
[9] grid_4.3.1 timechange_0.2.0
[11] fastmap_1.1.1 jsonlite_1.8.7
[13] fansi_1.0.4 scales_1.2.1
[15] jquerylib_0.1.4 cli_3.6.1
[17] rlang_1.1.1 crayon_1.5.2
[19] bit64_4.0.5 munsell_0.5.0
[21] cachem_1.0.8 withr_2.5.0
[23] yaml_2.3.7 tools_4.3.1
[25] parallel_4.3.1 tzdb_0.4.0
[27] colorspace_2.1-0 vctrs_0.6.3
[29] R6_2.5.1 lifecycle_1.0.3
[31] bit_4.0.5 vroom_1.6.3
[33] pkgconfig_2.0.3 pillar_1.9.0
[35] bslib_0.5.1 gtable_0.3.3
[37] rsconnect_1.1.0 glue_1.6.2
[39] xfun_0.40 tidyselect_1.2.0
[41] rstudioapi_0.15.0 knitr_1.43
[43] farver_2.1.1 htmltools_0.5.6
[45] rmarkdown_2.24 labeling_0.4.2
[47] compiler_4.3.1
