Este es un cuaderno muy sencillo que ilustra cómo subconjuntar los datos estadísticos agricolas de EVA 2019-2025 proporcionados por UPRA.
Se debe tener descargado el archivo EVA 2019-2025 en la misma carpeta donde se encuentra guardado este cuaderno.
Limpiar la memoria temporal:
rm(list=ls())
Cargar las bibliotecas de R:
library(readxl)
library(readr)
library(dplyr)
Vamos a comprobar los nombres de los archivos que se encuentran en el mismo directorio que este cuaderno:
list.files("/Users/felipe/Documents/GB2/Proyecto4")
## [1] "Basesipra19_25.csv" "Cuaderno2.html" "Cuaderno2.nb.html"
## [4] "Cuaderno2.Rmd" "Datos" "Notebook02.html"
## [7] "Notebook02.nb.html" "Notebook02.Rmd" "notebook2.Rmd"
En este caso, el archivo corregido es Basesipra19_25.xlsx Como se trata de un archivo de Excel, conviene saber cuántas hojas contiene:
hojas <- excel_sheets("./datos/Basesipra19_25.xlsx")
hojas
## [1] "BaseSIPRA"
Vamos a leer la unica hoja que encontramos.
Basesipra19_25 <- read_excel("./datos/Basesipra19_25.xlsx")
Basesipra19_25
Tenga en cuenta que la columna codigoMunicipio es de tipo carácter. Este es el tipo de dato común para los identificadores.
Como solo me interesan los departamentos de la zona cafetera (Caldas, Risaralda y Quindio) es necesario filtrar Basesipra19_25.
(zona_cafetera = dplyr::filter(Basesipra19_25, departamento == "Caldas"|departamento == "Quindio"|departamento == "Risaralda"))
Ahora, seleccionaremos únicamente los datos correspondientes a 2025:
(zona_cafetera = dplyr::filter(Basesipra19_25, anho == 2025))
Ahora seleccionamos solo el grupo de cultivos que nos interesa y resumimos la producción por municipio:
zona_cafetera %>%
group_by(codigoMunicipio, municipio, grupo_especie) %>%
filter(grupo_especie=='Frutales') %>%
summarize(produccio = max(produccio, na.rm = TRUE)) %>%
arrange(desc(produccio)) -> frutales2025
frutales2025
Usaremos la biblioteca readr para guardar nuestros datos en formato CSV.
write_csv(frutales2025, "Basesipra19_25.csv")
Comprobemos que el archivo ha sido creado:
list.files()
## [1] "Basesipra19_25.csv" "Cuaderno2.html" "Cuaderno2.nb.html"
## [4] "Cuaderno2.Rmd" "Datos" "Notebook02.html"
## [7] "Notebook02.nb.html" "Notebook02.Rmd" "notebook2.Rmd"
Leamos el archivo para comprobar que los datos son correctos:
los_datos25 <- read_csv("Basesipra19_25.csv")
los_datos25
Tenga en cuenta que la columna codigoMunicipio ahora puede ser doble (es decir, numérica). Este no es el tipo de datos común para identificadores. En caso de que necesitemos cambiar dicho tipo de datos, podemos usar mutate:
los_datos25 %>% mutate(codigoMunicipio = as.character(codigoMunicipio)) -> nuevos_datos25.
Vamos a realizar un filtro para obtener los municipios con mayor producción de café en el año 2025 para los tres departamentos de la zona cafetera.
cafe_zona <- zona_cafetera %>%
filter(
especie == "Café",
departamento %in% c("Caldas", "Quindío", "Risaralda"),
anho == 2025
) %>%
group_by(departamento, codigoMunicipio, municipio) %>%
summarize(
produccion_total = sum(produccio, na.rm = TRUE),
.groups = "drop"
) %>%
arrange(desc(produccion_total))
cafe_zona
El café de Colombia y en especial el del eje cafetero es considerado uno de los mejores a nivel mundial. De hecho gracias a su sabor, aroma y textura, este producto es destacado por su calidad. Las dos especies más cultivadas son Arábica y Robusta. Segun la base de datos EVA en el año 2025 los municipios más productores de café en la zona cafetra con una producción en toneladas por año fueron Manizales con 7727 t/a, Belén de Umbria con 6249 t/a, Apía 5190 t/a y Manzanares 4597 t/a.
Vamos a repetir el procedimiento anterior para ver la maxima producción de naranja en la zona cafetera, utilizmos el mismo codigo pero modificamos la especie.
naranja_zona <- zona_cafetera %>%
filter(
especie == "Naranja",
departamento %in% c("Caldas", "Quindío", "Risaralda"),
anho == 2025
) %>%
group_by(departamento, codigoMunicipio, municipio) %>%
summarize(
produccion_total = sum(produccio, na.rm = TRUE),
.groups = "drop"
) %>%
arrange(desc(produccion_total))
naranja_zona
En la zona del eje cafetero las variedas de naranja más cultivadas y reconocidas son principalmente: Valencia, Salustiana y Tangelo. Estas variedades son reconocidas por su alta productividad, calidad del fruto y adaptación a las condiciones climáticas de la zona de montaña. Estas características, sumadas a los suelos volcánicos y al clima templado húmedo de departamentos como Caldas, Quindío y Risaralda, convierten a la región en una de las más importantes para la producción naranjas del país. En la base de datos de EVA respecto al año 2025 podemos observar que los municipios con mayor producción en toneladas por año fueron Montenegro con 29642 t/a, Aguadas con 21792 t/a, Chinchiná con 17818 t/a y Pereira con 17289 t/a.
#Lizarazo, I. 2023. How to read and subset .xlsx agricultural statistics data. Available at https://upra.gov.co/es-co/eva/eva-2025