Análisis de datos estadísticos de agricultura

1. Introducción

En este cuaderno se analizan los datos estadísticos de agricultura proporcionados por UPRA-Unidad de Planificación Rural Agropecuaria, pero más específicamente los datos relacionados al cultivo de yuca en Antioquia.

Click en el siguiente link para descargar el archivo: https://upra.gov.co/es-co/Evas_Documentos/BaseEVA_Agr%C3%ADcola20192022.xlsx

2. Configuración

Lo primero que se debe hacer y como en todos los libros en R, es guardar tanto el libro en el que se está trabajnado como los datos descargados en el mismo directorio. Ya con eso hecho, se debe editar el fichero original (los datos de UPRA directamente en el Excel), renombrar algunas columnas para que R sea capaz de leerlo, no debe haber espacios en blanco ni caracteres extraños.

Ahora hay que limpiar la memoria temporal:

rm(list = ls())

Cargar las siguientes librerías de R:

library(readr)

library(readxl)

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

3. Leer la base de datos de EVA de 2019-2022.

Ahora, verificaremos que la base de datos se encuentre en el mismo directorio que el del libro que estamos creando:

list.files()

## [1] "Antiq_Raices_Tuberculos_2022.csv" "EVA_19_22.xlsx"                  
## [3] "EVA19_22.nb.html"                 "EVA19_22.Rmd"

Hay una sola hoja, la leemos:

EVA19_22 <- read_excel("EVA_19_22.xlsx")

EVA19_22

4. Subconjunto de datos para el departamento

Como solo un departamento es de nuestro interés, debemos filtrar:

(Antiq19_22 = dplyr::filter(EVA19_22, DPTO == "Antioquia"))

Luego de esto, seleccionaremos los datos de uno de esos años que nos interese, en este caso el 2022:

(Antiq_22 = dplyr::filter(Antiq19_22, YEAR == 2022))

5. Seleccionar el grupo de cultivos a analizar

Ahora debemos seleccionar el grupo de cultivos de nuestro interés y resumir la producción por municipio:

Antiq_22 %>%
  group_by(COD_MUN, MUNICIPIO, GRUPO) %>%
  filter(GRUPO=="Raíces y Tubérculos") %>%
  summarize(max_prod = max(PRODUCCION, na.rm = TRUE))%>%
  arrange(desc(max_prod)) -> Raices_Tuberculos22

## `summarise()` has grouped output by 'COD_MUN', 'MUNICIPIO'. You can override
## using the `.groups` argument.

Raices_Tuberculos22

6. Escribir los datos

Para este paso, vamos a utilizar la biblioteca readr para guardar los datos en un formato cvs:

write_csv(Raices_Tuberculos22, "Antiq_Raices_Tuberculos_2022.csv")

Vamos a comprobar que el archivo se haya creado:

list.files()

## [1] "Antiq_Raices_Tuberculos_2022.csv" "EVA_19_22.xlsx"                  
## [3] "EVA19_22.nb.html"                 "EVA19_22.Rmd"

Leamos el fichero para comprobar que los datos son correctos:

los_datos22 <- read_csv("Antiq_Raices_Tuberculos_2022.csv")

## Rows: 99 Columns: 4
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): COD_MUN, MUNICIPIO, GRUPO
## dbl (1): max_prod
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

los_datos22

head(los_datos22)

tail(los_datos22)

¡Muy bien! Eso es todo por ahora, luego podremos proceder a crear el cuaderno donde uniremos los datos de producción de 2022 con los polígonos que representan los municipios de nuestro departamento seleccionado que previamente hicimos en QGIS.

7. Información

sessionInfo()

## R version 4.3.1 (2023-06-16 ucrt)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 19045)
## 
## Matrix products: default
## 
## 
## locale:
## [1] LC_COLLATE=Spanish_Colombia.utf8  LC_CTYPE=Spanish_Colombia.utf8   
## [3] LC_MONETARY=Spanish_Colombia.utf8 LC_NUMERIC=C                     
## [5] LC_TIME=Spanish_Colombia.utf8    
## 
## time zone: America/Bogota
## tzcode source: internal
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] dplyr_1.1.3  readxl_1.4.3 readr_2.1.4 
## 
## loaded via a namespace (and not attached):
##  [1] crayon_1.5.2      vctrs_0.6.3       cli_3.6.1         knitr_1.44       
##  [5] rlang_1.1.1       xfun_0.40         generics_0.1.3    jsonlite_1.8.7   
##  [9] bit_4.0.5         glue_1.6.2        htmltools_0.5.6   sass_0.4.7       
## [13] hms_1.1.3         fansi_1.0.4       rmarkdown_2.25    cellranger_1.1.0 
## [17] evaluate_0.21     jquerylib_0.1.4   tibble_3.2.1      tzdb_0.4.0       
## [21] fastmap_1.1.1     yaml_2.3.7        lifecycle_1.0.3   compiler_4.3.1   
## [25] pkgconfig_2.0.3   rstudioapi_0.15.0 digest_0.6.33     R6_2.5.1         
## [29] tidyselect_1.2.0  utf8_1.2.3        parallel_4.3.1    vroom_1.6.3      
## [33] pillar_1.9.0      magrittr_2.0.3    bslib_0.5.1       bit64_4.0.5      
## [37] tools_4.3.1       cachem_1.0.8