Maykol Linares

1. INTRODUCCIÓN

En este libro elaborado con el programa R-Studio es posible elaborar analisis estadisticos a traes de la lectura, filtro y edición de documentos que contengan información que lo recquieran. En este trabajo se realizara el respectivo analisis de un documento excel (*.xls) suministrado por la Unidad de Planeación Rural Agropecuaria (UPRA), como parte de su programa Evaluaciónes Agropecuarias Municipales (EVA), por parte del gobierno de Colombia.

2. Arreglos

Para empezar es necesario contar con las librerias necesarias para hacer uso de las funciones necesarias. La primera libreria que se instalara será “tidyverse”, después “readxl” y al final se cargara esta ultima libreria. Una vez realizado este comando en un chunk, se les asignara a cada una (excepto a la carga de la libreria “readxl”) un comentario “#”, para que despues de realizar el comando estas no se vuelvan a ejecutar.

#install.packages('tidyverse')
#install.packages('readxl')
library(tidyverse)
library(readxl)

3. Leyendo el archivo excel con las estadisticas agropecuarias municipales

Para comenzar con el analisis en el archivo se encuentran mas que cifras agricolas, en este también hay estadisticas del ambito pecuario, su separación se realizara en futuros pasos.

El comando list.files nos permite obtener un listado de los archivos que cumplan con cierta caracteristica o extensión.

(archivos = list.files(pattern = 'xls'))
[1] "UPRA_EVA.xlsx"
(hojas = readxl::excel_sheets("UPRA_EVA.xlsx"))
[1] "Agrícola_SIPRA_AGRONET"       "InventarioBovino"             "InventarioPorcino"           
[4] "InvBufalosCaprinoOvinoEquino" "InvAves"                     

Seleccionamos la hoja que nos muestra el sector agricola (las demas hojas son pecuarias):

eva2020 = readxl::read_excel("UPRA_EVA.xlsx", sheet = "Agrícola_SIPRA_AGRONET")

y obtenemos los siguiente:

eva2020

4. Seleccionar de entre la tabla el departamento de interes

Filtramos de toda la lista el departamento de interes, en este caso es el Cauca:

(cauca2020 = dplyr::filter(eva2020, Departamento == "Cauca"))

5.“Limpiar” los datos filtrados

Ahora proseguimos con la seleccion de las columnas de interes, note que otras columnas como el codigo del mucipio o nombre cientifico del cultivo no nos son relevantes para el estudio que vamos a realizar.

(cauca2020.tmp <-  cauca2020 %>% select('Código del Municipio':'Ciclo del cultivo'))

Vamos a “limpiar” en el archivo excel los nombres, si se fija, los nombres con espacios y tildes son problematicos, los softwares de programación suelen tener problemas con esto. Ahora corregimos los nombres de las columnas:

cauca2020.tmp %>% rename(Cod_Mun = 'Código del Municipio', 
                         Grupo = 'Grupo cultivo según especie', 
                         Subgrupo = 'Subgrupo cultivo según especie',
                         AreaSiembra = 'Area Sembrada (ha)',
                         AreaCosecha = 'Area Cosechada (ha)',
                         Produccion = 'Producción (t)',                              
                         Rendimiento = 'Rendimiento (t/ha)', Ciclo='Ciclo del cultivo') ->                                  ncauca2020

Obtenemos:

ncauca2020

Otro problema… los datos mostrados en la tabla se encuentran como caracteres, es decir, las columnas en las que se trabajan datos numericos son vistos como algun tipo de letra, esto significa que no podremos realizar operaciones entre ellas. Lo corregimos de esta manera:

(ncauca2020 %>% mutate(AreaSiembra = as.numeric(AreaSiembra),
                       AreaCosecha = as.numeric(AreaCosecha),
                       Produccion = as.numeric(Produccion),
                       Rendimiento = as.numeric(Rendimiento)) -> ncauca2020 )

6. Procesamiento y analisis de los datos

Comencemos por ver los cultivos cuya producción sea mayor a cero y los organizaremos de mayor a menor:

ncauca2020 %>%
  filter(Produccion > 0) %>%
  group_by(Cultivo) %>%
  summarize(total_produccion = sum(Produccion)) %>% 
  arrange(desc(total_produccion))

Fijemonos que los principales cultivos son la caña azucarera, la yuca y la papa.

Ahora podemos fijarnos en los municipios con la maxima producción de un determinado cultivo, es decir, que es lo que más se produce en el municipio a analizar:

ncauca2020 %>%
  group_by(Cultivo, Municipio) %>%
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  slice(which.max(max_prod))  %>%
  arrange(desc(max_prod))
`summarise()` has grouped output by 'Cultivo'. You can override using the `.groups` argument.

Ahora vemos que el principal cultivo del departamento de Cauca (Caña azucarera) se encuentra producida en mayor cantidad en el municipio de Miranda, probablemente la economia en ese lugar sea mejor.

Debido a que los cultivos cambian constantemente a lo largo de los años es importante conocer el grupo de cultivos en el area de estudio. A pesar de que el agricultor cambie de cultivo, no le sera tan facil cambiar de grupo, debido a que el grupo al que pertenece la planta tiene una serie de caracteristicas que les permiten ser cultivadas en areas especiales, esto puede ser la altura, temperatura, presipitaciones, etc…

ncauca2020 %>%
  group_by(Grupo,Municipio) %>%
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  slice(which.max(max_prod))  %>%
  arrange(desc(max_prod))
`summarise()` has grouped output by 'Grupo'. You can override using the `.groups` argument.

En el municipio de Miranda se encuentran los Cultivos Tropicales Tradicionales, es decir, alli no solo se ve la caña azucarera, sino también la caña panelera.

Tomemos los grupos de cultivos mas importantes y guardemolos en un comando para despues exportarlos a archivos csv de manera que puedan ser leidos desde cualquier otro software:

ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Cultivos Tropicales Tradicionales') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaTropicales2020
`summarise()` has grouped output by 'Cod_Mun', 'Municipio'. You can override using the `.groups` argument.
caucaTropicales2020
ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Tubérculos Y Plátanos') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaTuberculos2020
`summarise()` has grouped output by 'Cod_Mun', 'Municipio'. You can override using the `.groups` argument.
caucaTuberculos2020
(ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Plátanos') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaPlatanos2020)
`summarise()` has grouped output by 'Cod_Mun', 'Municipio'. You can override using the `.groups` argument.

7. Guardando los comandos a archivos csv

Con el comando “write_csv” guardamos los comandos a archivos:

write_csv(caucaPlatanos2020, "./cauca_platanos_2020.csv")
write_csv(caucaTuberculos2020, "./cauca_tuberculos_2020.csv")
write_csv(caucaTropicales2020, "./cauca_tropicales_2020.csv")

8. Información de la secion utilizada en el programa

sessionInfo()
R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 17763)

Matrix products: default

locale:
[1] LC_COLLATE=Spanish_Colombia.1252  LC_CTYPE=Spanish_Colombia.1252    LC_MONETARY=Spanish_Colombia.1252
[4] LC_NUMERIC=C                      LC_TIME=Spanish_Colombia.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] readxl_1.3.1    forcats_0.5.1   stringr_1.4.0   dplyr_1.0.6     purrr_0.3.4     readr_1.4.0     tidyr_1.1.3    
 [8] tibble_3.1.1    ggplot2_3.3.5   tidyverse_1.3.1

loaded via a namespace (and not attached):
 [1] tidyselect_1.1.1 xfun_0.10        haven_2.4.1      colorspace_1.4-1 vctrs_0.3.8      generics_0.0.2   htmltools_0.3.6 
 [8] yaml_2.2.0       base64enc_0.1-3  utf8_1.1.4       rlang_0.4.11     pillar_1.7.0     glue_1.4.2       withr_2.5.0     
[15] DBI_1.0.0        dbplyr_2.1.1     modelr_0.1.8     lifecycle_1.0.1  munsell_0.5.0    gtable_0.3.0     cellranger_1.1.0
[22] rvest_1.0.2      evaluate_0.14    knitr_1.25       fansi_0.4.0      broom_0.7.12     Rcpp_1.0.2       backports_1.1.4 
[29] scales_1.0.0     jsonlite_1.7.2   fs_1.3.1         hms_1.1.1        digest_0.6.21    stringi_1.4.3    grid_3.6.1      
[36] cli_2.5.0        tools_3.6.1      magrittr_2.0.1   crayon_1.5.0     pkgconfig_2.0.3  ellipsis_0.3.2   xml2_1.3.2      
[43] reprex_2.0.1     lubridate_1.7.10 rstudioapi_0.13  assertthat_0.2.1 rmarkdown_1.16   httr_1.4.2       R6_2.4.0        
[50] compiler_3.6.1  
---
title: "ANALISIS ESTADISTICO DE LA AGRICULTURA EN COLOMBIA, AÑO 2020 "
output: html_notebook
---
<h1> Maykol Linares </h1>
## 1. INTRODUCCIÓN 
En este libro elaborado con el programa R-Studio es posible elaborar analisis estadisticos a traes de la lectura, filtro y edición de documentos que contengan información que lo recquieran. En este trabajo se realizara el respectivo analisis de un documento excel (*.xls) suministrado por la Unidad de Planeación Rural Agropecuaria (UPRA), como parte de su programa Evaluaciónes Agropecuarias Municipales (EVA), por parte del gobierno de Colombia. 

## 2. Arreglos

Para empezar es necesario contar con las librerias necesarias para hacer uso de las funciones necesarias. La primera libreria que se instalara será "tidyverse", después "readxl" y al final se cargara esta ultima libreria. Una vez realizado este comando en un chunk, se les asignara a cada una (excepto a la carga de la libreria "readxl") un comentario "#", para que despues de realizar el comando estas no se vuelvan a ejecutar.

```{r message=FALSE}
#install.packages('tidyverse')
#install.packages('readxl')
library(tidyverse)
library(readxl)
```



## 3. Leyendo el archivo excel con las estadisticas agropecuarias municipales

Para comenzar con el analisis en el archivo se encuentran mas que cifras agricolas, en este también hay estadisticas del ambito pecuario, su separación se realizara en futuros pasos. 

El comando list.files nos permite obtener un listado de los archivos que cumplan con cierta caracteristica o extensión.

```{r message=FALSE}
(archivos = list.files(pattern = 'xls'))
```

```{r}
(hojas = readxl::excel_sheets("UPRA_EVA.xlsx"))
```

Seleccionamos la hoja que nos muestra el sector agricola (las demas hojas son pecuarias):

```{r}
eva2020 = readxl::read_excel("UPRA_EVA.xlsx", sheet = "Agrícola_SIPRA_AGRONET")
```

y obtenemos los siguiente:

```{r}
eva2020
```


## 4. Seleccionar de entre la tabla el departamento de interes

Filtramos de toda la lista el departamento de interes, en este caso es el Cauca:

```{r}
(cauca2020 = dplyr::filter(eva2020, Departamento == "Cauca"))
```



## 5."Limpiar" los datos filtrados

Ahora proseguimos con la seleccion de las columnas de interes, note que otras columnas como el codigo del mucipio o nombre cientifico del cultivo no nos son relevantes para el estudio que vamos a realizar.

```{r}
(cauca2020.tmp <-  cauca2020 %>% select('Código del Municipio':'Ciclo del cultivo'))
```

 Vamos a "limpiar" en el archivo excel los nombres, si se fija, los nombres con espacios y tildes son problematicos, los softwares de programación suelen tener problemas con esto. Ahora corregimos los nombres de las columnas:

```{r}
cauca2020.tmp %>% rename(Cod_Mun = 'Código del Municipio', 
                         Grupo = 'Grupo cultivo según especie', 
                         Subgrupo = 'Subgrupo cultivo según especie',
                         AreaSiembra = 'Area Sembrada (ha)',
                         AreaCosecha = 'Area Cosechada (ha)',
                         Produccion = 'Producción (t)',                              
                         Rendimiento = 'Rendimiento (t/ha)', Ciclo='Ciclo del cultivo') ->                                  ncauca2020
```

Obtenemos:

```{r}
ncauca2020
```

Otro problema... los datos mostrados en la tabla se encuentran como caracteres, es decir, las columnas en las que se trabajan datos numericos son vistos como algun tipo de letra, esto significa que no podremos realizar operaciones entre ellas. Lo corregimos de esta manera:

```{r message=FALSE}
(ncauca2020 %>% mutate(AreaSiembra = as.numeric(AreaSiembra),
                       AreaCosecha = as.numeric(AreaCosecha),
                       Produccion = as.numeric(Produccion),
                       Rendimiento = as.numeric(Rendimiento)) -> ncauca2020 )
```



## 6. Procesamiento y analisis de los datos

Comencemos por ver los cultivos cuya producción sea mayor a cero y los organizaremos de mayor a menor:

```{r}
ncauca2020 %>%
  filter(Produccion > 0) %>%
  group_by(Cultivo) %>%
  summarize(total_produccion = sum(Produccion)) %>% 
  arrange(desc(total_produccion))
```
Fijemonos que los principales cultivos son la caña azucarera, la yuca y la papa.

Ahora podemos fijarnos en los municipios con la maxima producción de un determinado cultivo, es decir, que es lo que más se produce en el municipio a analizar:

```{r}
ncauca2020 %>%
  group_by(Cultivo, Municipio) %>%
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  slice(which.max(max_prod))  %>%
  arrange(desc(max_prod))
```
Ahora vemos que el principal cultivo del departamento de Cauca (Caña azucarera) se encuentra producida en mayor cantidad en el municipio de Miranda, probablemente la economia en ese lugar sea mejor.

Debido a que los cultivos cambian constantemente a lo largo de los años es importante conocer el grupo de cultivos en el area de estudio. A pesar de que el agricultor cambie de cultivo, no le sera tan facil cambiar de grupo, debido a que el grupo al que pertenece la planta tiene una serie de caracteristicas que les permiten ser cultivadas en areas especiales, esto puede ser la altura, temperatura, presipitaciones, etc...

```{r}
ncauca2020 %>%
  group_by(Grupo,Municipio) %>%
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  slice(which.max(max_prod))  %>%
  arrange(desc(max_prod))
```

En el municipio de Miranda se encuentran los Cultivos Tropicales Tradicionales, es decir, alli no solo se ve la caña azucarera, sino también la caña panelera.

Tomemos los grupos de cultivos mas importantes y guardemolos en un comando para despues exportarlos a archivos csv de manera que puedan ser leidos desde cualquier otro software:

```{r}
ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Cultivos Tropicales Tradicionales') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaTropicales2020
```

```{r}
caucaTropicales2020
```

```{r}
ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Tubérculos Y Plátanos') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaTuberculos2020
```

```{r}
caucaTuberculos2020
```

```{r}
(ncauca2020 %>%
  group_by(Cod_Mun, Municipio, Grupo) %>%
  filter(Grupo=='Plátanos') %>% 
  summarize(max_prod = max(Produccion, na.rm = TRUE)) %>%
  arrange(desc(max_prod)) -> caucaPlatanos2020)
```

## 7. Guardando los comandos a archivos csv

Con el comando "write_csv" guardamos los comandos a archivos:

```{r}
write_csv(caucaPlatanos2020, "./cauca_platanos_2020.csv")
write_csv(caucaTuberculos2020, "./cauca_tuberculos_2020.csv")
write_csv(caucaTropicales2020, "./cauca_tropicales_2020.csv")
```

## 8. Información de la secion utilizada en el programa

```{r}
sessionInfo()
```






