1. Introducción

En este cuaderno utilizaremos como fuente de datos la Evaluaciones Agropecuarias Municipales - EVA (2007-2018), un conjunto de datos proporcionado por el Ministerio de Agricultura y Desarrollo Rural para ilustrar algunos datos estadísticos relacionados al cultivo de yuca en el municipio de Turbo del departamento de Antioquia.

Para esto, también vamos a utilizar las principales funcionalidades de la biblioteca dplyr. Las cuales son:

Todas éstas funciones se combinan de forma natural con group_by, que permite realizar cualquier operación “por grupo”.

2. Configuración

Primero se deben instalar las librerías requeridas:

3. Descargar el conjunto de datos EVA para el departamento seleccionado (Antioquia)

Ir al siguiente enlace: https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Evaluaciones-Agropecuarias-Municipales-EVA/2pnw-mmge/data

En el sitio web filtrar y descargar los datos del departamento. Buscar el archivo en el equipo y moverlo al directorio en donde se encuentra el trabajo en proceso.

4. Leer el conjunto de datos EVA

list.files()
[1] "EVA.nb.html"       "EVA.Rmd"           "EVA_Antioquia.csv"
(eva = read.csv("./EVA_Antioquia.csv"))

En la tabla se pueden observar datos estadísticos de diferentes años, cultivos, municipios, entre otros más específicos.

Ahora vamos a revisar los nombres que le da el propio software a las diferentes características allí expuestas.

names(eva)
 [1] "CÓD...DEP."                                   
 [2] "DEPARTAMENTO"                                 
 [3] "CÓD..MUN."                                    
 [4] "MUNICIPIO"                                    
 [5] "GRUPO..DE.CULTIVO"                            
 [6] "SUBGRUPO..DE.CULTIVO"                         
 [7] "CULTIVO"                                      
 [8] "DESAGREGACIÓN.REGIONAL.Y.O.SISTEMA.PRODUCTIVO"
 [9] "AÑO"                                          
[10] "PERIODO"                                      
[11] "Área.Sembrada..ha."                           
[12] "Área.Cosechada..ha."                          
[13] "Producción..t."                               
[14] "Rendimiento..t.ha."                           
[15] "ESTADO.FISICO.PRODUCCION"                     
[16] "NOMBRE..CIENTIFICO"                           
[17] "CICLO.DE.CULTIVO"                             

5. Limpiar los datos EVA

Vamos a seleccionar aquellos atributos de nuestro interés:

(eva %>% dplyr::select("CÓD..MUN.":"ESTADO.FISICO.PRODUCCION") -> eva.tmp)
eva.tmp

Ahora comprobamos la salida del objeto y verificamos que se hayan seleccionado los objetos de nuestro interés.

A continuación vamos a cambiar los nombres de algunas de las columnas, teniendo en cuenta usar los nombres que están en el objeto eva.tmp:

(eva.tmp %>%  dplyr::rename("Cod_Mun" = "CÓD..MUN.", 
                         "Grupo" = "GRUPO..DE.CULTIVO",
                         "Municipio" = "MUNICIPIO",
                         "Subgrupo" = "SUBGRUPO..DE.CULTIVO",
                         "Cultivo" = "CULTIVO",
                         "Year" = "AÑO",
                         "Periodo" = "PERIODO",
                         "Area_Sembrada" = "Área.Sembrada..ha.",
                         "Area_Cosechada" = "Área.Cosechada..ha.",
                         "Produccion" = "Producción..t.",                                                                "Rendimiento" = "Rendimiento..t.ha.",   
                         "Sistema" = "DESAGREGACIÓN.REGIONAL.Y.O.SISTEMA.PRODUCTIVO",
                         "Estado" = "ESTADO.FISICO.PRODUCCION")) -> new_eva
new_eva

Ahora, comprobamos que la tabla anterior tenga los atributos cuantitativos como tipos de datos numéricos (no como tipos de datos de cadena).

6. Análisis de datos

Los análisis de datos pueden utilizarse de manera: dividir-aplicar-combinar, así, dividir los datos en grupos, aplicar algún análisis a cada grupo y combinar los resultados.

De esta manera, como ya fueron mencionadas las funciones de la biblioteca dplyr, vamos a ponerlas en acción.

6.1 Los cultivos más importantes en el periodo de 2007-2018

  • Si queremos conocer la producción total por grupo de cultivos
new_eva %>%
  ##filter(Produccion > 0) %>%
  group_by(Grupo) %>%
  summarize(Total_produccion = sum(Produccion)) %>% 
  arrange(desc(Total_produccion)) 

Ya con estos datos obtenidos podemos observar que los frutales son el cultivo de mayor producción en el departamento seguido por los tubérculos y los plátanos. Por otro lado, los de menor producción en este periodo (2007-2018) fueron las plantas aromáticas, condimentarias y medicinales.

Para guardar la producción total en un objeto:

new_eva %>%
  group_by(Grupo) %>%
  summarize(Total_produccion = sum(Produccion)) -> PT 

Para filtrar las producciones más importantes:

PT %>% 
  filter(Total_produccion > 1000000) -> main.groups

Para conocer la producción total de los principales grupos de cultivos:

(value = sum(main.groups$Total_produccion))
[1] 36312945

Para añadir un nuevo atributo con el porcentaje de la producción total:

main.groups$percent = main.groups$Total_produccion/value

Para crear un gráfico circular de la producción total de main.groups:

  • #barplot
bp<- ggplot(main.groups, aes(x="", y=percent, fill=Grupo))+
geom_bar(width = 1, stat = "identity")
  • #Piechart
pie <- bp + coord_polar("y", start=0)
pie

6.2 El municipio y cultivo con mayor producción en el periodo de 2007-2018

  • Producción de cada grupo de cultivos: municipios que lideran la producción en cada uno de los cultivos del departamento.
new_eva %>%
  group_by(Grupo, Municipio) %>%
  summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.max(Total_Prod))  %>%
  arrange(desc(Total_Prod))
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.

Para guardar el objeto:

new_eva %>%
  group_by(Grupo, Municipio) %>%
  summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.max(Total_Prod))  -> leaders
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
leaders

Aquí vamos a filtrar los municipios más importantes desde el punto de vista agrícola:

leaders %>% 
  filter(Total_Prod > 100000) -> main.leaders

Vamos a trazar los líderes filtrados:

p<-ggplot(data=main.leaders, aes(x=Municipio, y=Total_Prod)) +
  geom_bar(stat="identity")
p

6.3 Dinámica de un cultivo importante entre 2007 y 2018

new_eva %>% 
  filter(Municipio=="TURBO" & CULTIVO=="YUCA") %>% 
  group_by(Year, Cultivo) %>%
  select(Municipio, Cultivo, Produccion, Year) ->  Turbo_Yuca

Comprobamos:

Turbo_Yuca

En seguida haremos un gráfico de la producción de yuca en el municipio de Turbo durante todo el periodo cubierto por el conjunto de datos EVA:

g <- ggplot(aes(x=Year, y=Produccion/1000), data = Turbo_Yuca) + geom_bar(stat='identity') + labs(y='Produccion de Yuca [Ton x 1000]')

Añadimos un título y visualizamos:

g + ggtitle("Producción de yuca en el municipio de Turbo en el periodo de 2007-2018") + labs(caption= "Basado en datos de EVA  (Minagricultura, 2023)")

6.4 Área sembrada y cosechada de yuca en Turbo (2007 y 2018)

new_eva %>% 
  filter(Municipio=="TURBO" & Cultivo=="YUCA") %>% 
  group_by(Year, Cultivo) %>%
  select(Municipio, Cultivo, Area_Sembrada, Area_Cosechada, Year) ->  Turbo_Yuca_SemyCos
Turbo_Yuca_SemyCos

7. Datos adicionales de los cultivos producidos en Turbo

Por último, se muestran algunos datos de relevancia en el municipio de Turbo Antioquia como lo son los cultivos producidos allí y aquellos de mayor y menor producción.

7.1 Cultivos producidos en el municipio de Turbo (Antioquia)

new_eva %>% 
  filter(Municipio=="TURBO") %>% 
  group_by(Cultivo) %>%
  select(Municipio, Cultivo, Produccion, Rendimiento) ->  Turbo_Cultivos
Turbo_Cultivos

7.2 Cultivos de mayor y menor producción en el municipio de Turbo (Antioquia)

p<-ggplot(data=main.leaders, aes(x=Cultivo, y=Total_Prod)) +
  geom_bar(stat="identity")
new_eva %>%
  group_by(Cultivo) %>%
  summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.max(Total_Prod))  -> Cultivo_Max
Cultivo_Max
new_eva %>%
  group_by(Cultivo) %>%
  summarize(Total_Prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.min(Total_Prod))  -> Cultivo_Min
Cultivo_Min

8. BIBLIOGRAFÍA

sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19045)

Matrix products: default


locale:
[1] LC_COLLATE=Spanish_Colombia.utf8  LC_CTYPE=Spanish_Colombia.utf8   
[3] LC_MONETARY=Spanish_Colombia.utf8 LC_NUMERIC=C                     
[5] LC_TIME=Spanish_Colombia.utf8    

time zone: America/Bogota
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] readxl_1.4.3    lubridate_1.9.2 forcats_1.0.0   stringr_1.5.0   dplyr_1.1.3    
 [6] purrr_1.0.2     readr_2.1.4     tidyr_1.3.0     tibble_3.2.1    ggplot2_3.4.3  
[11] tidyverse_2.0.0

loaded via a namespace (and not attached):
 [1] sass_0.4.7        utf8_1.2.3        generics_0.1.3    stringi_1.7.12   
 [5] hms_1.1.3         digest_0.6.33     magrittr_2.0.3    evaluate_0.21    
 [9] grid_4.3.1        timechange_0.2.0  fastmap_1.1.1     cellranger_1.1.0 
[13] jsonlite_1.8.7    fansi_1.0.4       scales_1.2.1      jquerylib_0.1.4  
[17] cli_3.6.1         crayon_1.5.2      rlang_1.1.1       bit64_4.0.5      
[21] munsell_0.5.0     withr_2.5.0       cachem_1.0.8      yaml_2.3.7       
[25] parallel_4.3.1    tools_4.3.1       tzdb_0.4.0        colorspace_2.1-0 
[29] vctrs_0.6.3       R6_2.5.1          lifecycle_1.0.3   bit_4.0.5        
[33] vroom_1.6.3       pkgconfig_2.0.3   pillar_1.9.0      bslib_0.5.1      
[37] gtable_0.3.4      glue_1.6.2        xfun_0.40         tidyselect_1.2.0 
[41] rstudioapi_0.15.0 knitr_1.44        farver_2.1.1      htmltools_0.5.6  
[45] labeling_0.4.3    rmarkdown_2.25    compiler_4.3.1   
