1. Introducción
En este cuaderno utilizaremos como fuente de datos la Evaluaciones
Agropecuarias Municipales - EVA (2007-2018), un conjunto de datos
proporcionado por el Ministerio de Agricultura y Desarrollo Rural para
ilustrar algunos datos estadísticos relacionados al cultivo de yuca en
el municipio de Turbo del departamento de Antioquia.
Para esto, también vamos a utilizar las principales funcionalidades
de la biblioteca dplyr. Las cuales son:
- mutate: añade nuevas variables que son funciones de variables
existentes.
- select: selecciona variables basándose en sus nombres.
- filter: selecciona casos basándose en sus valores.
- summarise: creduce múltiples valores a un único resumen.
- arrange: cambia el orden de las filas.
Todas éstas funciones se combinan de forma natural con group_by, que
permite realizar cualquier operación “por grupo”.
2. Configuración
Primero se deben instalar las librerías requeridas:
- install.packages (“tidyverse”)
- install.packages (“readxl”)
- install.packages (“dplyr”)
- install.packages (“ggplot2”)
4. Leer el conjunto de datos EVA
list.files()
[1] "EVA.nb.html" "EVA.Rmd" "EVA_Antioquia.csv"
(eva = read.csv("./EVA_Antioquia.csv"))
En la tabla se pueden observar datos estadísticos de diferentes años,
cultivos, municipios, entre otros más específicos.
Ahora vamos a revisar los nombres que le da el propio software a las
diferentes características allí expuestas.
names(eva)
[1] "CÓD...DEP."
[2] "DEPARTAMENTO"
[3] "CÓD..MUN."
[4] "MUNICIPIO"
[5] "GRUPO..DE.CULTIVO"
[6] "SUBGRUPO..DE.CULTIVO"
[7] "CULTIVO"
[8] "DESAGREGACIÓN.REGIONAL.Y.O.SISTEMA.PRODUCTIVO"
[9] "AÑO"
[10] "PERIODO"
[11] "Área.Sembrada..ha."
[12] "Área.Cosechada..ha."
[13] "Producción..t."
[14] "Rendimiento..t.ha."
[15] "ESTADO.FISICO.PRODUCCION"
[16] "NOMBRE..CIENTIFICO"
[17] "CICLO.DE.CULTIVO"
5. Limpiar los datos EVA
Vamos a seleccionar aquellos atributos de nuestro interés:
(eva %>% dplyr::select("CÓD..MUN.":"ESTADO.FISICO.PRODUCCION") -> eva.tmp)
eva.tmp
Ahora comprobamos la salida del objeto y verificamos que se hayan
seleccionado los objetos de nuestro interés.
A continuación vamos a cambiar los nombres de algunas de las
columnas, teniendo en cuenta usar los nombres que están en el objeto
eva.tmp:
(eva.tmp %>% dplyr::rename("Cod_Mun" = "CÓD..MUN.",
"Grupo" = "GRUPO..DE.CULTIVO",
"Municipio" = "MUNICIPIO",
"Subgrupo" = "SUBGRUPO..DE.CULTIVO",
"Cultivo" = "CULTIVO",
"Year" = "AÑO",
"Periodo" = "PERIODO",
"Area_Sembrada" = "Área.Sembrada..ha.",
"Area_Cosechada" = "Área.Cosechada..ha.",
"Produccion" = "Producción..t.", "Rendimiento" = "Rendimiento..t.ha.",
"Sistema" = "DESAGREGACIÓN.REGIONAL.Y.O.SISTEMA.PRODUCTIVO",
"Estado" = "ESTADO.FISICO.PRODUCCION")) -> new_eva
new_eva
Ahora, comprobamos que la tabla anterior tenga los atributos
cuantitativos como tipos de datos numéricos (no como tipos de datos de
cadena).
6. Análisis de datos
Los análisis de datos pueden utilizarse de manera:
dividir-aplicar-combinar, así, dividir los datos en grupos, aplicar
algún análisis a cada grupo y combinar los resultados.
De esta manera, como ya fueron mencionadas las funciones de la
biblioteca dplyr, vamos a ponerlas en acción.
6.1 Los cultivos más importantes en el periodo de 2007-2018
- Si queremos conocer la producción total por grupo de cultivos
new_eva %>%
##filter(Produccion > 0) %>%
group_by(Grupo) %>%
summarize(Total_produccion = sum(Produccion)) %>%
arrange(desc(Total_produccion))
Ya con estos datos obtenidos podemos observar que los frutales son el
cultivo de mayor producción en el departamento seguido por los
tubérculos y los plátanos. Por otro lado, los de menor producción en
este periodo (2007-2018) fueron las plantas aromáticas, condimentarias y
medicinales.
Para guardar la producción total en un objeto:
new_eva %>%
group_by(Grupo) %>%
summarize(Total_produccion = sum(Produccion)) -> PT
Para filtrar las producciones más importantes:
PT %>%
filter(Total_produccion > 1000000) -> main.groups
Para conocer la producción total de los principales grupos de
cultivos:
(value = sum(main.groups$Total_produccion))
[1] 36312945
Para añadir un nuevo atributo con el porcentaje de la producción
total:
main.groups$percent = main.groups$Total_produccion/value
Para crear un gráfico circular de la producción total de
main.groups:
bp<- ggplot(main.groups, aes(x="", y=percent, fill=Grupo))+
geom_bar(width = 1, stat = "identity")
pie <- bp + coord_polar("y", start=0)
pie

6.2 El municipio y cultivo con mayor producción en el periodo de
2007-2018
- Producción de cada grupo de cultivos: municipios que lideran la
producción en cada uno de los cultivos del departamento.
new_eva %>%
group_by(Grupo, Municipio) %>%
summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.max(Total_Prod)) %>%
arrange(desc(Total_Prod))
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
Para guardar el objeto:
new_eva %>%
group_by(Grupo, Municipio) %>%
summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.max(Total_Prod)) -> leaders
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
leaders
Aquí vamos a filtrar los municipios más importantes desde el punto de
vista agrícola:
leaders %>%
filter(Total_Prod > 100000) -> main.leaders
Vamos a trazar los líderes filtrados:
p<-ggplot(data=main.leaders, aes(x=Municipio, y=Total_Prod)) +
geom_bar(stat="identity")
p

6.3 Dinámica de un cultivo importante entre 2007 y 2018
new_eva %>%
filter(Municipio=="TURBO" & CULTIVO=="YUCA") %>%
group_by(Year, Cultivo) %>%
select(Municipio, Cultivo, Produccion, Year) -> Turbo_Yuca
Comprobamos:
Turbo_Yuca
En seguida haremos un gráfico de la producción de yuca en el
municipio de Turbo durante todo el periodo cubierto por el conjunto de
datos EVA:
g <- ggplot(aes(x=Year, y=Produccion/1000), data = Turbo_Yuca) + geom_bar(stat='identity') + labs(y='Produccion de Yuca [Ton x 1000]')
Añadimos un título y visualizamos:
g + ggtitle("Producción de yuca en el municipio de Turbo en el periodo de 2007-2018") + labs(caption= "Basado en datos de EVA (Minagricultura, 2023)")

6.4 Área sembrada y cosechada de yuca en Turbo (2007 y 2018)
new_eva %>%
filter(Municipio=="TURBO" & Cultivo=="YUCA") %>%
group_by(Year, Cultivo) %>%
select(Municipio, Cultivo, Area_Sembrada, Area_Cosechada, Year) -> Turbo_Yuca_SemyCos
Turbo_Yuca_SemyCos
7. Datos adicionales de los cultivos producidos en Turbo
Por último, se muestran algunos datos de relevancia en el municipio
de Turbo Antioquia como lo son los cultivos producidos allí y aquellos
de mayor y menor producción.
7.1 Cultivos producidos en el municipio de Turbo (Antioquia)
new_eva %>%
filter(Municipio=="TURBO") %>%
group_by(Cultivo) %>%
select(Municipio, Cultivo, Produccion, Rendimiento) -> Turbo_Cultivos
Turbo_Cultivos
7.2 Cultivos de mayor y menor producción en el municipio de Turbo
(Antioquia)
p<-ggplot(data=main.leaders, aes(x=Cultivo, y=Total_Prod)) +
geom_bar(stat="identity")
new_eva %>%
group_by(Cultivo) %>%
summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.max(Total_Prod)) -> Cultivo_Max
Cultivo_Max
new_eva %>%
group_by(Cultivo) %>%
summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
slice(which.min(Total_Prod)) -> Cultivo_Min
Cultivo_Min
8. BIBLIOGRAFÍA
sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19045)
Matrix products: default
locale:
[1] LC_COLLATE=Spanish_Colombia.utf8 LC_CTYPE=Spanish_Colombia.utf8
[3] LC_MONETARY=Spanish_Colombia.utf8 LC_NUMERIC=C
[5] LC_TIME=Spanish_Colombia.utf8
time zone: America/Bogota
tzcode source: internal
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] readxl_1.4.3 lubridate_1.9.2 forcats_1.0.0 stringr_1.5.0 dplyr_1.1.3
[6] purrr_1.0.2 readr_2.1.4 tidyr_1.3.0 tibble_3.2.1 ggplot2_3.4.3
[11] tidyverse_2.0.0
loaded via a namespace (and not attached):
[1] sass_0.4.7 utf8_1.2.3 generics_0.1.3 stringi_1.7.12
[5] hms_1.1.3 digest_0.6.33 magrittr_2.0.3 evaluate_0.21
[9] grid_4.3.1 timechange_0.2.0 fastmap_1.1.1 cellranger_1.1.0
[13] jsonlite_1.8.7 fansi_1.0.4 scales_1.2.1 jquerylib_0.1.4
[17] cli_3.6.1 crayon_1.5.2 rlang_1.1.1 bit64_4.0.5
[21] munsell_0.5.0 withr_2.5.0 cachem_1.0.8 yaml_2.3.7
[25] parallel_4.3.1 tools_4.3.1 tzdb_0.4.0 colorspace_2.1-0
[29] vctrs_0.6.3 R6_2.5.1 lifecycle_1.0.3 bit_4.0.5
[33] vroom_1.6.3 pkgconfig_2.0.3 pillar_1.9.0 bslib_0.5.1
[37] gtable_0.3.4 glue_1.6.2 xfun_0.40 tidyselect_1.2.0
[41] rstudioapi_0.15.0 knitr_1.44 farver_2.1.1 htmltools_0.5.6
[45] labeling_0.4.3 rmarkdown_2.25 compiler_4.3.1
