Cómo leer y subconjuntar datos estadísticos agrícolas en formato .xlsx

Intoducción

Este es un cuaderno muy sencillo que ilustra cómo subconjuntar los datos estadísticos agricolas de EVA 2019-2025 proporcionados por UPRA.

Prerequisitos

Se debe tener descargado el archivo EVA 2019-2025 en la misma carpeta donde se encuentra guardado este cuaderno.

Configuración

Limpiar la memoria temporal:

rm(list=ls())

Cargar las bibliotecas de R:

library(readxl)
library(readr)
library(dplyr)

Lea el conjunto de datos EVA 2019-2025

Vamos a comprobar los nombres de los archivos que se encuentran en el mismo directorio que este cuaderno:

list.files("/Users/felipe/Documents/GB2/Proyecto4")

## [1] "Basesipra19_25.csv" "Cuaderno2.html"     "Cuaderno2.nb.html" 
## [4] "Cuaderno2.Rmd"      "Datos"              "Notebook02.html"   
## [7] "Notebook02.nb.html" "Notebook02.Rmd"     "notebook2.Rmd"

En este caso, el archivo corregido es Basesipra19_25.xlsx Como se trata de un archivo de Excel, conviene saber cuántas hojas contiene:

hojas <- excel_sheets("./datos/Basesipra19_25.xlsx")

hojas

## [1] "BaseSIPRA"

Vamos a leer la unica hoja que encontramos.

Basesipra19_25 <- read_excel("./datos/Basesipra19_25.xlsx")

Basesipra19_25

Tenga en cuenta que la columna codigoMunicipio es de tipo carácter. Este es el tipo de dato común para los identificadores.

Subconjunto de datos para su departamento

Como solo me interesan los departamentos de la zona cafetera (Caldas, Risaralda y Quindio) es necesario filtrar Basesipra19_25.

(zona_cafetera = dplyr::filter(Basesipra19_25, departamento == "Caldas"|departamento == "Quindio"|departamento == "Risaralda"))

Ahora, seleccionaremos únicamente los datos correspondientes a 2025:

(zona_cafetera = dplyr::filter(Basesipra19_25, anho == 2025))

Subconjunto del grupo de cultivos que se estàn analizando

Ahora seleccionamos solo el grupo de cultivos que nos interesa y resumimos la producción por municipio:

zona_cafetera %>%
  group_by(codigoMunicipio, municipio, grupo_especie) %>%
  filter(grupo_especie=='Frutales') %>% 
  summarize(produccio = max(produccio, na.rm = TRUE)) %>%
  arrange(desc(produccio)) -> frutales2025

frutales2025

Escribimos los datos

Usaremos la biblioteca readr para guardar nuestros datos en formato CSV.

write_csv(frutales2025, "Basesipra19_25.csv")

Comprobemos que el archivo ha sido creado:

list.files()

## [1] "Basesipra19_25.csv" "Cuaderno2.html"     "Cuaderno2.nb.html" 
## [4] "Cuaderno2.Rmd"      "Datos"              "Notebook02.html"   
## [7] "Notebook02.nb.html" "Notebook02.Rmd"     "notebook2.Rmd"

Leamos el archivo para comprobar que los datos son correctos:

los_datos25 <- read_csv("Basesipra19_25.csv")

los_datos25

Tenga en cuenta que la columna codigoMunicipio ahora puede ser doble (es decir, numérica). Este no es el tipo de datos común para identificadores. En caso de que necesitemos cambiar dicho tipo de datos, podemos usar mutate:

los_datos25 %>% mutate(codigoMunicipio = as.character(codigoMunicipio)) -> nuevos_datos25.

Producción de café

Vamos a realizar un filtro para obtener los municipios con mayor producción de café en el año 2025 para los tres departamentos de la zona cafetera.

cafe_zona <- zona_cafetera %>%
    filter(
        especie == "Café",
        departamento %in% c("Caldas", "Quindío", "Risaralda"),
        anho == 2025
    ) %>%
    group_by(departamento, codigoMunicipio, municipio) %>%
    summarize(
        produccion_total = sum(produccio, na.rm = TRUE),
        .groups = "drop"
    ) %>%
    arrange(desc(produccion_total))

cafe_zona

El café de Colombia y en especial el del eje cafetero es considerado uno de los mejores a nivel mundial. De hecho gracias a su sabor, aroma y textura, este producto es destacado por su calidad. Las dos especies más cultivadas son Arábica y Robusta. Segun la base de datos EVA en el año 2025 los municipios más productores de café en la zona cafetra con una producción en toneladas por año fueron Manizales con 7727 t/a, Belén de Umbria con 6249 t/a, Apía 5190 t/a y Manzanares 4597 t/a.

Producción de naranja

Vamos a repetir el procedimiento anterior para ver la maxima producción de naranja en la zona cafetera, utilizmos el mismo codigo pero modificamos la especie.

naranja_zona <- zona_cafetera %>%
    filter(
        especie == "Naranja",
        departamento %in% c("Caldas", "Quindío", "Risaralda"),
        anho == 2025
    ) %>%
    group_by(departamento, codigoMunicipio, municipio) %>%
    summarize(
        produccion_total = sum(produccio, na.rm = TRUE),
        .groups = "drop"
    ) %>%
    arrange(desc(produccion_total))

naranja_zona

En la zona del eje cafetero las variedas de naranja más cultivadas y reconocidas son principalmente: Valencia, Salustiana y Tangelo. Estas variedades son reconocidas por su alta productividad, calidad del fruto y adaptación a las condiciones climáticas de la zona de montaña. Estas características, sumadas a los suelos volcánicos y al clima templado húmedo de departamentos como Caldas, Quindío y Risaralda, convierten a la región en una de las más importantes para la producción naranjas del país. En la base de datos de EVA respecto al año 2025 podemos observar que los municipios con mayor producción en toneladas por año fueron Montenegro con 29642 t/a, Aguadas con 21792 t/a, Chinchiná con 17818 t/a y Pereira con 17289 t/a.

Referencias

#Lizarazo, I. 2023. How to read and subset .xlsx agricultural statistics data. Available at https://upra.gov.co/es-co/eva/eva-2025