1) Introducción

Para realizar este libro se va a utilizar la evaluacion agropecuaria municipal realizada en los años del 2006 al 2018 para realizar una comparación anual de los diferentes cultivos sembrados en el departamento del Magdalena y como pueden cambiar las dinamicas de los diferentes cultivos al paso de los años, demostrando cuales son de mayor importancia economica para el departamento y si se estan aprovechando los suelos destinados a la agricultura.

2) SetUp

Lo primero antes de empezar a manejar los datos es definir las librerias que vamos a utilizar para poder procesarlos y generar los graficos que necesitamos.

library(tidyverse)
library(dplyr)
library(readr)
library(ggplot2)
library(tidyr)

3) Lee el conjunto de datos EVA

Por medio del enlace https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Evaluaciones-Agropecuarias-Municipales-EVA/2pnw-mmge/data, econtramos el informe EVA (Evaluaciones Agropecuarias Municipales) del 2006 al 2018, la cual vamos a utilizar para realizar el tratamiento debido de los datos. Lo primero que debemos hacer es filtrar la información del departamento del magdalena en formato csv para poder trabajarla.

list.files("C:\\Users\\brand\\OneDrive\\Escritorio\\GB2\\P4", , pattern=c('csv'))
[1] "Evaluaciones_Agropecuarias_Municipales_EVA_20250603 (1).csv"
[2] "tabla_final_EVA_2023.csv"                                   
(eva = read_csv("C:\\Users\\brand\\OneDrive\\Escritorio\\GB2\\P4\\Evaluaciones_Agropecuarias_Municipales_EVA_20250603 (1).csv", col_names = TRUE,
                show_col_types = FALSE))

al leer los datos del informe podemos evidenciar que son del 2006 al 2018 y que tiene información sobre 32 cultivos diferentes. El siguiente paso es mirar si el programa esta tomando las columnas con los nombres adecuados.

names(eva)
 [1] "CÓD. \nDEP."                                  
 [2] "DEPARTAMENTO"                                 
 [3] "CÓD. MUN."                                    
 [4] "MUNICIPIO"                                    
 [5] "GRUPO \nDE CULTIVO"                           
 [6] "SUBGRUPO \nDE CULTIVO"                        
 [7] "CULTIVO"                                      
 [8] "DESAGREGACIÓN REGIONAL Y/O SISTEMA PRODUCTIVO"
 [9] "AÑO"                                          
[10] "PERIODO"                                      
[11] "Área Sembrada\n(ha)"                          
[12] "Área Cosechada\n(ha)"                         
[13] "Producción\n(t)"                              
[14] "Rendimiento\n(t/ha)"                          
[15] "ESTADO FISICO PRODUCCION"                     
[16] "NOMBRE \nCIENTIFICO"                          
[17] "CICLO DE CULTIVO"                             

4) Limpia el conjunto de datos EVA

eva %>% dplyr::select('CÓD. MUN.':'ESTADO FISICO PRODUCCION') -> eva.tmp
eva.tmp

Ahora cambiamos los nombres de las columnas para que no tengan espacios ni vacios que el programa no pueda leer de manera adecuada.

eva.tmp %>%  dplyr::rename('Cod_Mun' = 'CÓD. MUN.', 
                         'Grupo' = 'GRUPO \nDE CULTIVO',
                         'Subgrupo' = 'SUBGRUPO \nDE CULTIVO', 
                         'Year' = 'AÑO',
                         'AreaSembrada' = 'Área Sembrada\n(ha)',
                         'AreaCosechada' = 'Área Sembrada\n(ha)',
                         'Produccion' = 'Producción\n(t)',                                                                 'Rendimiento' =  'Rendimiento\n(t/ha)',   
                         'Sistema' = 'DESAGREGACIÓN REGIONAL Y/O SISTEMA PRODUCTIVO',
                         'Estado' = 'ESTADO FISICO PRODUCCION') -> new_eva
new_eva

5) analisis de datos

Una técnica ampliamente utilizada en el análisis de datos es el enfoque dividir–aplicar–combinar, que permite explorar patrones y resumir información agrupando datos de forma estructurada. Esta estrategia consiste en tres pasos: primero se agrupan las observaciones con características similares mediante funciones como group_by() en el paquete dplyr; luego se les aplica una operación estadística o de transformación, como una suma, promedio, conteo o cálculo de desviación estándar con summarize(); y finalmente se combinan los resultados en una tabla consolidada. Esta forma de trabajar permite obtener resúmenes claros y compactos de grandes volúmenes de datos sin necesidad de bucles complejos, y es especialmente útil cuando se busca comparar grupos, analizar tendencias por categorías o construir reportes agregados. Gracias a su sintaxis intuitiva, dplyr se ha convertido en una herramienta clave para realizar este tipo de análisis en el entorno de R.

5.1) Los cultivos más importantes entre 2007 y 2018

new_eva %>%
  ##filter(Produccion > 0) %>%
  group_by(Grupo) %>%
  summarize(total_produccion = sum(Produccion)) %>% 
  arrange(desc(total_produccion)) 

Al obervar la tabla se puede evidenciar que el departamento del magdalena no es muy productivo en el sector agricola con excepcion a los cultivos de frutales, tuberculos, platanos y oleaginosas, los cuales tienen un mayor rendimiento de producción.

new_eva %>%
  group_by(Grupo) %>%
  summarize(total_produccion = sum(Produccion)) -> PT
PT %>% 
  filter(total_produccion > 1000000) -> main.groups
(value = sum(main.groups$total_produccion))
[1] 9649841
main.groups$percent = main.groups$total_produccion/value
library(ggplot2)
# Barplot
bp<- ggplot(main.groups, aes(x="", y=percent, fill=Grupo))+
geom_bar(width = 1, stat = "identity")
# Piechart
pie <- bp + coord_polar("y", start=0)
pie

En este grafico se puede observar mejor que los cultivos anteriormente mencionados son los mas productivos del departamento debido a que superan el millon de toneladas producidas.

new_eva %>%
  group_by(Grupo, MUNICIPIO) %>%
  summarize(total_prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.max(total_prod))  %>%
  arrange(desc(total_prod))
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
new_eva %>%
  group_by(Grupo , MUNICIPIO) %>%
  summarize(total_prod = sum(Produccion, na.rm = TRUE)) %>%
  slice(which.max(total_prod))  -> leaders
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.
leaders
leaders %>% 
  filter(total_prod > 30000) -> main.leaders
p<-ggplot(data=main.leaders, aes(x=MUNICIPIO, y=total_prod)) +
  geom_bar(stat="identity")
p

por medio de este grafico se puede evidenciar que el municipio de zona bananera es el mas productivo del departamento por una diferencia abismal en comparación a los demas municipios.

6)Dinámica de un cultivo importante entre 2007 y 2018

Vamos a revisar la dinamica del cultivo de banano en el municipio de Zona Bananera para ver como ha cambiado su producción en este perido de tiempo.

new_eva %>% 
  filter(MUNICIPIO=="ZONA BANANERA" & CULTIVO=="BANANO") %>% 
  group_by(Year, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, Produccion, Year) ->  ZONABNR_BANANO
ZONABNR_BANANO
g <- ggplot(aes(x=Year, y=Produccion/1000), data = ZONABNR_BANANO) + geom_bar(stat='identity') + labs(y='Produccion de banano [Ton x 1000]')
g + ggtitle("Evolucion del cultivo de banano en zona bananera del 2007 al 2018") + labs(caption= "basado en (Minagricultura, 2020)")

7) Análisis adicional y gráficos

Por ultimo vamos a realizar una comparación entre los cultivos de cafe y citricos del municipio de Santa Marta para ver su dinamica en este periodo de tiempo y cual de los dos es mas productivo en la actualidad.

Primero revisamos la dinamica del cafe en el municipio

new_eva %>% 
  filter(MUNICIPIO=="SANTA MARTA" & CULTIVO=="CAFE") %>% 
  group_by(Year, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, Produccion, Year) ->  SANTAM_CAFE
SANTAM_CAFE
S <- ggplot(aes(x=Year, y=Produccion/1000), data = SANTAM_CAFE) + geom_bar(stat='identity') + labs(y='Produccion de cafe [Ton x 1000]')

Por medio de este grafico se puede ver que el cafe tiene una tendencia muy dinamica con el pasar de los años en donde es notable que la producción ha ido disminuyendo a partir del año 2015.

S + ggtitle("Evolucion del cultivo de cafe en santa marta del 2007 al 2018") + labs(caption= "basado en (Minagricultura, 2020)")

Ahora revisamos las dinamicas del cultivo de citricos en el mismo municipio.

new_eva %>% 
  filter(MUNICIPIO=="SANTA MARTA" & CULTIVO=="CITRICOS") %>% 
  group_by(Year, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, Produccion, Year) ->  SANTAM_CITRI
SANTAM_CITRI
C <- ggplot(aes(x=Year, y=Produccion/1000), data = SANTAM_CITRI) + geom_bar(stat='identity') + labs(y='Produccion de citricos [Ton x 1000]')

En esta grafica podemos observar como el cultivo de citricos es menos dinamico en relacion al cultivo de cafe y se ha mantenido su producción mas constate en los ultimos años, aunque tambien se puede observar una caida bastante notoria en su producción a partir del año 2015.

C + ggtitle("Evolucion del cultivo de citricos en santa marta del 2007 al 2018") + labs(caption= "basado en (Minagricultura, 2020)")


# Filtrar por municipio y cultivos deseados
comparacion <- new_eva %>%
  filter(MUNICIPIO == "SANTA MARTA", 
         CULTIVO %in% c("CAFE", "CITRICOS")) %>%
  group_by(Year, CULTIVO) %>%
  summarize(Produccion = sum(Produccion, na.rm = TRUE), .groups = "drop")

Por medio de esta grafica comparamos el rendimento de ambos cultivos en el municipio, observando que la producción de citricos ha sido mas constante en ese periodo de tiempo, pero tuvo una caida a parit del año 2015 junto con la producción de cafe, esta caida pudo ser causada por la disminucion del aarea sembrada en el magdalena durante los ultimos años, en donde se ha utilizado gran parte de la tierra dedicada para la agricultura en ganaderia intensiva y ecoturismo.

library(ggplot2)

ggplot(comparacion, aes(x = Year, y = Produccion / 1000, color = CULTIVO)) +
  geom_line(size = 1.2) +
  geom_point(size = 2) +
  labs(
    title = "Producción de Café vs Citricos en Santa Marta (2006–2018)",
    x = "Año",
    y = "Producción [Ton x 1000]",
    color = "Cultivo",
    caption = "Fuente: Minagricultura, 2020"
  ) +
  theme_minimal()

cultivos_magdalena <- new_eva %>%
  group_by(Year, CULTIVO) %>%
  summarize(Produccion = sum(Produccion, na.rm = TRUE), .groups = "drop")

Por medio de este grafico podemos observar el rendimiento de la producción en este periodo de los diferentes cultivos de importancia economica en el magdalena y su dinamica al pasar de los años.

ggplot(cultivos_magdalena, aes(x = Year, y = Produccion / 1000, color = CULTIVO)) +
  geom_line(size = 1) +
  geom_point(size = 1.5) +
  labs(
    title = "Producción de cultivos en el Magdalena 2007–2018",
    x = "Año",
    y = "Producción [Ton x 1000]",
    color = "Cultivo",
    caption = "Fuente: Minagricultura, 2020"
  ) +
  theme_minimal()

8) Bibliografia

[1] Lizarazo, I., 2022. Understanding dynamic productivity of crops. Available at https://rpubs.com/ials2un/production_dyn_v1.

sessionInfo()
R version 4.4.3 (2025-02-28 ucrt)
Platform: x86_64-w64-mingw32/x64
Running under: Windows 11 x64 (build 26100)

Matrix products: default


locale:
[1] LC_COLLATE=Spanish_Colombia.utf8  LC_CTYPE=Spanish_Colombia.utf8   
[3] LC_MONETARY=Spanish_Colombia.utf8 LC_NUMERIC=C                     
[5] LC_TIME=Spanish_Colombia.utf8    

time zone: America/Bogota
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] lubridate_1.9.4 forcats_1.0.0   stringr_1.5.1   purrr_1.0.4     readr_2.1.5    
 [6] tidyr_1.3.1     tibble_3.2.1    tidyverse_2.0.0 ggplot2_3.5.2   ggspatial_1.1.9
[11] dplyr_1.1.4     sf_1.0-20      

loaded via a namespace (and not attached):
 [1] gtable_0.3.6       xfun_0.52          bslib_0.9.0        lattice_0.22-6    
 [5] tzdb_0.5.0         vctrs_0.6.5        tools_4.4.3        generics_0.1.4    
 [9] parallel_4.4.3     proxy_0.4-27       pkgconfig_2.0.3    Matrix_1.7-2      
[13] KernSmooth_2.23-26 RColorBrewer_1.1-3 lifecycle_1.0.4    compiler_4.4.3    
[17] farver_2.1.2       htmltools_0.5.8.1  class_7.3-23       sass_0.4.10       
[21] yaml_2.3.10        pillar_1.10.2      crayon_1.5.3       jquerylib_0.1.4   
[25] rsconnect_1.3.4    classInt_0.4-11    cachem_1.1.0       nlme_3.1-167      
[29] tidyselect_1.2.1   digest_0.6.37      stringi_1.8.7      labeling_0.4.3    
[33] splines_4.4.3      fastmap_1.2.0      grid_4.4.3         cli_3.6.5         
[37] magrittr_2.0.3     e1071_1.7-16       withr_3.0.2        scales_1.4.0      
[41] bit64_4.6.0-1      timechange_0.3.0   rmarkdown_2.29     bit_4.6.0         
[45] hms_1.1.3          evaluate_1.0.3     knitr_1.50         mgcv_1.9-1        
[49] rlang_1.1.6        Rcpp_1.0.14        glue_1.8.0         DBI_1.2.3         
[53] rstudioapi_0.17.1  vroom_1.6.5        jsonlite_2.0.0     R6_2.6.1          
[57] units_0.8-7       
