1. Introducción

Este es el tercer cuaderno que los estudiantes de Geomatica Basica deben escribir para comenzar con R & RStudio. Su objetivo es aprender a utilizar el paquete dplyr para la “edición” de datos. La edición se refiere a elegir un subconjunto de las variables y / u observaciones en un conjunto de datos, así como a filtrar (seleccionar observaciones en función de sus valores de variables), crear nuevas variables y más. Para tal fin, utilizamos aquí las Evaluaciones Agropecuarias Municipales (EVA), un conjunto de datos estadísticos agrícolas 2007-2018 proporcionados por el Ministerio de Agricultura y Desarrollo.

2. Carga de las bibliotecas necesarias

Comencemos a cargar varias bibliotecas, en particular dplyr:

library(tidyverse)
library(dplyr)
library(ggplot2)

3. Lectura de una tabla con estadísticas agrarias

Una vez que hemos descargado el conjunto de datos de EVA, necesitamos “limpiarlo”, para poder trabajar en R. Esto comprende dos pasos principales: - eliminar símbolos y espacios extraños en los nombres de las columnas - seleccionar solo las filas que pertenecen a el departamento que nos interesa. En mi caso, es Boyacá.

Las dos tareas deben realizarse en Excel.

Ahora, leamos el archivo limpio de estadísticas de EVA para Boyacá. Leeremos el archivo delimitado por csv en un tibble:

eva_valle <- read_csv2(file = "C:/Users/LUISA CARRION/Documents/EVA_final.csv")
i Using ',' as decimal and '.' as grouping mark. Use `read_delim()` for more control.

-- Column specification ----------------------------------------------------------
cols(
  COD_DEPTO = col_double(),
  DEPTO = col_character(),
  COD_MUN = col_double(),
  MUNICIPIO = col_character(),
  GRUPO = col_character(),
  SUBGRUPO = col_character(),
  CULTIVO = col_character(),
  DESAGRE = col_character(),
  YEAR = col_double(),
  PERIODO = col_character(),
  Ha_Siembra = col_double(),
  Ha_cosecha = col_double(),
  ton_Prod = col_double(),
  RENDIM = col_double(),
  CICLO = col_character()
)

Para ver el tipo de archivo que es eva_valle, se escribe:

class(eva_valle)
[1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame" 

Si se quiere ver los primeros elementos del data frame, se usa el siguiente código:

head(eva_valle)

4. ¿Qué es dplyr?

El paquete dplyr es un paquete bastante nuevo (2014) que intenta proporcionar herramientas sencillas para las tareas de manipulación de datos más comunes. Está construido para trabajar directamente con marcos de datos. El pensamiento detrás de esto se inspiró en gran medida en el paquete plyr, que ha estado en uso durante algún tiempo, pero sufrió por ser lento en algunos casos. Dplyr aborda esto al portar gran parte del cálculo a C ++. Una característica adicional es la capacidad de trabajar con datos almacenados directamente en una base de datos externa. Los beneficios de hacer esto son que los datos se pueden administrar de forma nativa en una base de datos relacional, las consultas se pueden realizar en esa base de datos y solo se devuelven los resultados de la consulta.

Esto resuelve un problema común con R en el sentido de que todas las operaciones se realizan en la memoria y, por lo tanto, la cantidad de datos con los que puede trabajar está limitada por la memoria disponible. Las conexiones de la base de datos eliminan esencialmente esa limitación, ya que puede tener una base de datos de muchos 100 GB, realizar consultas directamente y extraer justo lo que necesita para el análisis en R.

4.1 Seleccionar columnas y filtrar filas

Vamos a aprender algunas de las funciones dplyr más comunes: select (), filter (), mutate (), group_by () y summary ().

Para seleccionar columnas de un marco de datos, use select (). El primer argumento de esta función es el marco de datos (eva_boyaca), y los argumentos siguientes son las columnas que se deb

evita  <-   select(eva_valle, MUNICIPIO, CULTIVO, YEAR, ton_Prod,RENDIM)
evita

Para elegir filas, por ejemplo las estadísticas correspondientes a un solo cultivo, podemos usar filter ():

evita_mora <- filter(evita, CULTIVO == "MORA")
evita_mora

En caso de que estemos interesados en un solo municipio:

evita_cali <- filter(evita, MUNICIPIO == "CALI")
evita_cali

4.2 Tuberías

Pero, ¿y si quisiera seleccionar y filtrar? Hay tres formas de hacer esto: usar pasos intermedios, funciones anidadas o canalizaciones.

Con los pasos intermedios, esencialmente crea un marco de datos temporal y lo usa como entrada para la siguiente función. Esto puede saturar su espacio de trabajo con muchos objetos.

También puede anidar funciones (es decir, una función dentro de otra). Esto es útil, pero puede ser difícil de leer si se anidan demasiadas funciones como proceso de adentro hacia afuera.

La última opción, las tuberías, son una adición bastante reciente a R. Las tuberías le permiten tomar la salida de una función y enviarla directamente a la siguiente, lo cual es útil cuando necesita muchas cosas para el mismo conjunto de datos. Las tuberías en R se ven como%>% y están disponibles a través del paquete magrittr instalado como parte de dply Pero, ¿y si quisiera seleccionar y filtrar? Hay tres formas de hacer esto: usar pasos intermedios, funciones anidadas o canalizaciones.

Con los pasos intermedios, esencialmente crea un marco de datos temporal y lo usa como entrada para la siguiente función. Esto puede saturar su espacio de trabajo con muchos objetos.

También puede anidar funciones (es decir, una función dentro de otra). Esto es útil, pero puede ser difícil de leer si se anidan demasiadas funciones como proceso de adentro hacia afuera.

La última opción, las tuberías, son una adición bastante reciente a R. Las tuberías le permiten tomar la salida de una función y enviarla directamente a la siguiente, lo cual es útil cuando necesita muchas cosas para el mismo conjunto de datos. Las tuberías en R se ven como%>% y están disponibles a través del paquete magrittr instalado como parte de dply

evita_cali_2018 <- evita %>%
  filter(MUNICIPIO == "CALI") %>%
  filter(YEAR == 2018) %>%
  select(CULTIVO, RENDIM)
evita_cali_2018

4.3 Mutar

Con frecuencia queremos crear nuevas columnas basadas en los valores de las columnas existentes, por ejemplo, para hacer conversiones de unidades o encontrar la proporción de valores en dos columnas. Para esto usaremos mutate (). Con frecuencia queremos crear nuevas columnas basadas en los valores de las columnas existentes, por ejemplo, para hacer conversiones de unidades o encontrar la proporción de valores en dos columnas. Para esto usaremos mutate ().

eva_valle %>%
  select(MUNICIPIO, CULTIVO, Ha_Siembra, ton_Prod, RENDIM) %>%
  filter(Ha_Siembra!=0) %>%
  mutate(RENDIM_SIEMBRA = ton_Prod/Ha_Siembra)

4.4 Análisis de datos dividir-aplicar-combinar y la función de resumen ()

Se pueden abordar muchas tareas de análisis de datos utilizando el paradigma dividir-aplicar-combinar: dividir los datos en grupos, aplicar algunos análisis a cada grupo y luego combinar los resultados.

dplyr lo hace muy fácil mediante el uso de la función group_by (), que divide los datos en grupos. Cuando los datos se agrupan de esta manera, se puede usar resume () para contraer cada grupo en un resumen de una sola fila. resume () hace esto aplicando una función de agregación o resumen a cada grupo.

Por ejemplo, si quisiéramos agrupar por cultivo y encontrar la productividad media (Ton / ha) en los municipios de Valle del Cauca, haríamos:

evita %>%
  group_by(CULTIVO) %>%
  summarize(mean_rend = mean(RENDIM, na.rm = TRUE))

Por si acaso, queremos encontrar los municipios con mayor productividad para cada cultivo para cualquier año:

eva_valle %>%
  group_by(CULTIVO, MUNICIPIO) %>%
  summarize(max_rend = max(RENDIM, na.rm = TRUE)) %>%
  slice(which.max(max_rend))
ningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Infningun argumento finito para max; retornando -Inf`summarise()` has grouped output by 'CULTIVO'. You can override using the `.groups` argument.

Para encontrar los municipios con mayor productividad por grupos de cultivos para cualquier año:

eva_valle %>%
  group_by(GRUPO, MUNICIPIO) %>%
  summarize(max_rend = max(RENDIM, na.rm = TRUE)) %>%
  slice(which.max(max_rend))
`summarise()` has grouped output by 'GRUPO'. You can override using the `.groups` argument.

Ahora, busquemos cuáles son los municipios con mayor área cosechada para cada grupo de cultivos en 2018:

eva_valle %>% 
  filter(YEAR==2018) %>% 
  group_by(GRUPO, MUNICIPIO) %>%
  summarize(max_area_cosecha = max(Ha_cosecha, na.rm = TRUE)) %>%
    slice(which.max(max_area_cosecha)) %>%
    arrange(desc(max_area_cosecha)) -> area_cosecha_max
`summarise()` has grouped output by 'GRUPO'. You can override using the `.groups` argument.
area_cosecha_max

Ahora, busquemos la mayor producción para cada cultivo en cualquier año:

eva_valle %>% 
  group_by(GRUPO, MUNICIPIO, YEAR) %>%
  summarize(max_prod = max(ton_Prod, na.rm = TRUE)) %>%
    slice(which.max(max_prod)) %>%
    arrange(desc(max_prod)) -> ton_prod_max
`summarise()` has grouped output by 'GRUPO', 'MUNICIPIO'. You can override using the `.groups` argument.
ton_prod_max

En el 2007, la mayor poducción de Café se concentó en el municipio de Argelia. Por ello, seleccionaremos la producción de otros permanentes (Toneladas) en Argelia para cada año

eva_valle %>% 
  filter(MUNICIPIO=="ARGELIA" & CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  argelia_cafe

argelia_cafe

5. Gráficos exploratorios:

Hagamos un gráfico rápido de la producción de papa en Tunja para todo el período de tiempo cubierto por el conjunto de datos de EVA:

g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = argelia_cafe) + geom_bar(stat='identity', width = 0.5, fill = "coral")+labs(y='Produccion de café [Ton x 1000]')

Basado en datos EVA 0.5

g + ggtitle("Evolución de la Producción de café en Argelia desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

6. Estadísticas para Valle:

En el caso del cultivo de café, se quiere conocer la producción total del departamento:

eva_valle %>% 
  filter(CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_cafe

valle_cafe

En base a los datos obtenidos, se hace una gráfica de la evolución de la producción de café:

g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_cafe) + geom_bar(stat='identity',width = 0.5, fill = "brown3") + labs(y='Produccion de café [Ton x 1000]')
g + ggtitle("Evolución de la Producción de café en Valle del Cauca desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

Tambien es de interés conocer las estadísticas de producción de aguacate para Valle del Cauca:

eva_valle %>% 
  filter(CULTIVO=="AGUACATE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_aguaca

valle_aguaca
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_aguaca) + geom_bar(stat='identity',width = 0.5, fill = "blue4") + labs(y='Produccion de aguacate [Ton x 1000]')
g + ggtitle("Evolución de la producción de aguacate en Valle del Cauca entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

Ahora, se quiere conocer la producción de café en Sevilla, un municipio de Valle del Cauca:

eva_valle %>% 
  filter(MUNICIPIO=="SEVILLA" & CULTIVO=="AGUACATE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  sevilla_aguacate

sevilla_aguacate

g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = sevilla_aguacate) + geom_bar(stat='identity',width = 0.5, fill = "blueviolet") + labs(y='Produccion de aguacate [Ton x 1000]')
g + ggtitle("Evolución de la producción de aguacate en Sevilla entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

Se quiere conocer la producción de café en Dagua, municipio de Valle del Cauca:

eva_valle %>% 
  filter(MUNICIPIO=="DAGUA" & CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  dagua_cafe

dagua_cafe
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = dagua_cafe) + geom_bar(stat='identity',width = 0.5, fill = "cadetblue3") + labs(y='Produccion de café [Ton x 1000]')
g + ggtitle("Evolución de la producción de café en Dagua entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

Por ultimo, se quiere conocer la producción de caña de azúcar del departamento debido a que es uno de los productos que sustentan la economía de Valle del Cauca:

eva_valle %>% 
  filter(CULTIVO=="CANA AZUCARERA") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_cana

valle_cana
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_cana) + geom_bar(stat='identity',width = 0.5, fill = "darkorange2") + labs(y='Produccion de caña de azúcar [Ton x 1000]')
g + ggtitle("Evolución de la Producción de caña de azúcar en Valle del Cauca desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

Por último, se quiere conocer la producción de caña de azúcar de Trujillo, Valle del Cauca:

eva_valle %>% 
  filter(MUNICIPIO=="TRUJILLO" & CULTIVO=="CANA AZUCARERA") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  trujillo_cana

trujillo_cana
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = trujillo_cana) + geom_bar(stat='identity',width = 0.5, fill = "darkolivegreen3") + labs(y='Produccion de caña de azúcar [Ton x 1000]')
g + ggtitle("Evolución de la Producción de caña de azúcar en Trujillo desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")

---
title: "My third R Notebook: Evaluaciones Agropecuarias Municipales"
output: html_notebook
author: Luisa Fernanda Carrión Ramírez y Miguel Santiago Morales Ruíz

---

### 1. Introducción

Este es el tercer cuaderno que los estudiantes de Geomatica Basica deben escribir para comenzar con R & RStudio. Su objetivo es aprender a utilizar el paquete dplyr para la "edición" de datos. La edición se refiere a elegir un subconjunto de las variables y / u observaciones en un conjunto de datos, así como a filtrar (seleccionar observaciones en función de sus valores de variables), crear nuevas variables y más. Para tal fin, utilizamos aquí las Evaluaciones Agropecuarias Municipales (EVA), un conjunto de datos estadísticos agrícolas 2007-2018 proporcionados por el Ministerio de Agricultura y Desarrollo.

### 2. Carga de las bibliotecas necesarias

Comencemos a cargar varias bibliotecas, en particular dplyr:

```{r}
library(tidyverse)
library(dplyr)
library(ggplot2)
```

### 3. Lectura de una tabla con estadísticas agrarias

Una vez que hemos descargado el conjunto de datos de EVA, necesitamos "limpiarlo", para poder trabajar en R. Esto comprende dos pasos principales: - eliminar símbolos y espacios extraños en los nombres de las columnas - seleccionar solo las filas que pertenecen a el departamento que nos interesa. En mi caso, es Boyacá.

Las dos tareas deben realizarse en Excel.

Ahora, leamos el archivo limpio de estadísticas de EVA para Boyacá. Leeremos el archivo delimitado por csv en un tibble:

```{r}
eva_valle <- read_csv2(file = "C:/Users/LUISA CARRION/Documents/EVA_final.csv")
```
Para ver el tipo de archivo que es eva_valle, se escribe:

```{r}
class(eva_valle)
```
Si se quiere ver los primeros elementos del data frame, se usa el siguiente código:

```{r}
head(eva_valle)
```

### 4. ¿Qué es dplyr?

El paquete dplyr es un paquete bastante nuevo (2014) que intenta proporcionar herramientas sencillas para las tareas de manipulación de datos más comunes. Está construido para trabajar directamente con marcos de datos. El pensamiento detrás de esto se inspiró en gran medida en el paquete plyr, que ha estado en uso durante algún tiempo, pero sufrió por ser lento en algunos casos. Dplyr aborda esto al portar gran parte del cálculo a C ++. Una característica adicional es la capacidad de trabajar con datos almacenados directamente en una base de datos externa. Los beneficios de hacer esto son que los datos se pueden administrar de forma nativa en una base de datos relacional, las consultas se pueden realizar en esa base de datos y solo se devuelven los resultados de la consulta.

Esto resuelve un problema común con R en el sentido de que todas las operaciones se realizan en la memoria y, por lo tanto, la cantidad de datos con los que puede trabajar está limitada por la memoria disponible. Las conexiones de la base de datos eliminan esencialmente esa limitación, ya que puede tener una base de datos de muchos 100 GB, realizar consultas directamente y extraer justo lo que necesita para el análisis en R.

#### 4.1 Seleccionar columnas y filtrar filas

Vamos a aprender algunas de las funciones dplyr más comunes: select (), filter (), mutate (), group_by () y summary ().

Para seleccionar columnas de un marco de datos, use select (). El primer argumento de esta función es el marco de datos (eva_boyaca), y los argumentos siguientes son las columnas que se deb

```{r}
evita  <-   select(eva_valle, MUNICIPIO, CULTIVO, YEAR, ton_Prod,RENDIM)
```


```{r}
evita
```

Para elegir filas, por ejemplo las estadísticas correspondientes a un solo cultivo, podemos usar filter ():

```{r}
evita_mora <- filter(evita, CULTIVO == "MORA")
```

```{r}
evita_mora
```

En caso de que estemos interesados en un solo municipio:

```{r}
evita_cali <- filter(evita, MUNICIPIO == "CALI")
```

```{r}
evita_cali
```
#### 4.2 Tuberías
Pero, ¿y si quisiera seleccionar y filtrar? Hay tres formas de hacer esto: usar pasos intermedios, funciones anidadas o canalizaciones.

Con los pasos intermedios, esencialmente crea un marco de datos temporal y lo usa como entrada para la siguiente función. Esto puede saturar su espacio de trabajo con muchos objetos.

También puede anidar funciones (es decir, una función dentro de otra). Esto es útil, pero puede ser difícil de leer si se anidan demasiadas funciones como proceso de adentro hacia afuera.

La última opción, las tuberías, son una adición bastante reciente a R. Las tuberías le permiten tomar la salida de una función y enviarla directamente a la siguiente, lo cual es útil cuando necesita muchas cosas para el mismo conjunto de datos. Las tuberías en R se ven como%>% y están disponibles a través del paquete magrittr instalado como parte de dply
Pero, ¿y si quisiera seleccionar y filtrar? Hay tres formas de hacer esto: usar pasos intermedios, funciones anidadas o canalizaciones.

Con los pasos intermedios, esencialmente crea un marco de datos temporal y lo usa como entrada para la siguiente función. Esto puede saturar su espacio de trabajo con muchos objetos.

También puede anidar funciones (es decir, una función dentro de otra). Esto es útil, pero puede ser difícil de leer si se anidan demasiadas funciones como proceso de adentro hacia afuera.

La última opción, las tuberías, son una adición bastante reciente a R. Las tuberías le permiten tomar la salida de una función y enviarla directamente a la siguiente, lo cual es útil cuando necesita muchas cosas para el mismo conjunto de datos. Las tuberías en R se ven como%>% y están disponibles a través del paquete magrittr instalado como parte de dply


```{r}
evita_cali_2018 <- evita %>%
  filter(MUNICIPIO == "CALI") %>%
  filter(YEAR == 2018) %>%
  select(CULTIVO, RENDIM)
```

```{r}
evita_cali_2018
```

#### 4.3 Mutar

Con frecuencia queremos crear nuevas columnas basadas en los valores de las columnas existentes, por ejemplo, para hacer conversiones de unidades o encontrar la proporción de valores en dos columnas. Para esto usaremos mutate ().
Con frecuencia queremos crear nuevas columnas basadas en los valores de las columnas existentes, por ejemplo, para hacer conversiones de unidades o encontrar la proporción de valores en dos columnas. Para esto usaremos mutate ().

```{r}
eva_valle %>%
  select(MUNICIPIO, CULTIVO, Ha_Siembra, ton_Prod, RENDIM) %>%
  filter(Ha_Siembra!=0) %>%
  mutate(RENDIM_SIEMBRA = ton_Prod/Ha_Siembra)
```

#### 4.4 Análisis de datos dividir-aplicar-combinar y la función de resumen ()

Se pueden abordar muchas tareas de análisis de datos utilizando el paradigma dividir-aplicar-combinar: dividir los datos en grupos, aplicar algunos análisis a cada grupo y luego combinar los resultados.

dplyr lo hace muy fácil mediante el uso de la función group_by (), que divide los datos en grupos. Cuando los datos se agrupan de esta manera, se puede usar resume () para contraer cada grupo en un resumen de una sola fila. resume () hace esto aplicando una función de agregación o resumen a cada grupo.

Por ejemplo, si quisiéramos agrupar por cultivo y encontrar la productividad media (Ton / ha) en los municipios de Valle del Cauca, haríamos:

```{r}
evita %>%
  group_by(CULTIVO) %>%
  summarize(mean_rend = mean(RENDIM, na.rm = TRUE))
```

Por si acaso, queremos encontrar los municipios con mayor productividad para cada cultivo para cualquier año:

```{r}
eva_valle %>%
  group_by(CULTIVO, MUNICIPIO) %>%
  summarize(max_rend = max(RENDIM, na.rm = TRUE)) %>%
  slice(which.max(max_rend))
```

Para encontrar los municipios con mayor productividad por grupos de cultivos para cualquier año:

```{r}
eva_valle %>%
  group_by(GRUPO, MUNICIPIO) %>%
  summarize(max_rend = max(RENDIM, na.rm = TRUE)) %>%
  slice(which.max(max_rend))
```

Ahora, busquemos cuáles son los municipios con mayor área cosechada para cada grupo de cultivos en 2018:

```{r}
eva_valle %>% 
  filter(YEAR==2018) %>% 
  group_by(GRUPO, MUNICIPIO) %>%
  summarize(max_area_cosecha = max(Ha_cosecha, na.rm = TRUE)) %>%
    slice(which.max(max_area_cosecha)) %>%
    arrange(desc(max_area_cosecha)) -> area_cosecha_max

area_cosecha_max
```

Ahora, busquemos la mayor producción para cada cultivo en cualquier año:

```{r}
eva_valle %>% 
  group_by(GRUPO, MUNICIPIO, YEAR) %>%
  summarize(max_prod = max(ton_Prod, na.rm = TRUE)) %>%
    slice(which.max(max_prod)) %>%
    arrange(desc(max_prod)) -> ton_prod_max

ton_prod_max
```

En el 2007, la mayor poducción de Café se concentó en el municipio de Argelia. Por ello, seleccionaremos la producción de otros permanentes (Toneladas) en Argelia para cada año

```{r}
eva_valle %>% 
  filter(MUNICIPIO=="ARGELIA" & CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  argelia_cafe

argelia_cafe
```

### 5. Gráficos exploratorios:

Hagamos un gráfico rápido de la producción de papa en Tunja para todo el período de tiempo cubierto por el conjunto de datos de EVA:

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = argelia_cafe) + geom_bar(stat='identity', width = 0.5, fill = "coral")+labs(y='Produccion de café [Ton x 1000]')
```

Basado en datos EVA
0.5

```{r}
g + ggtitle("Evolución de la Producción de café en Argelia desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

### 6. Estadísticas para Valle:

En el caso del cultivo de café, se quiere conocer la producción total del departamento:

```{r}
eva_valle %>% 
  filter(CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_cafe

valle_cafe
```

En base a los datos obtenidos, se hace una gráfica de la evolución de la producción de café:

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_cafe) + geom_bar(stat='identity',width = 0.5, fill = "brown3") + labs(y='Produccion de café [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la Producción de café en Valle del Cauca desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

Tambien es de interés conocer las estadísticas de producción de aguacate para Valle del Cauca:

```{r}
eva_valle %>% 
  filter(CULTIVO=="AGUACATE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_aguaca

valle_aguaca
```

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_aguaca) + geom_bar(stat='identity',width = 0.5, fill = "blue4") + labs(y='Produccion de aguacate [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la producción de aguacate en Valle del Cauca entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

Ahora, se quiere conocer la producción de café en Sevilla, un municipio de Valle del Cauca:

```{r}
eva_valle %>% 
  filter(MUNICIPIO=="SEVILLA" & CULTIVO=="AGUACATE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  sevilla_aguacate

sevilla_aguacate
```

```{r}

g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = sevilla_aguacate) + geom_bar(stat='identity',width = 0.5, fill = "blueviolet") + labs(y='Produccion de aguacate [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la producción de aguacate en Sevilla entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

Se quiere conocer la producción de café en Dagua, municipio de Valle del Cauca:

```{r}
eva_valle %>% 
  filter(MUNICIPIO=="DAGUA" & CULTIVO=="CAFE") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  dagua_cafe

dagua_cafe
```

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = dagua_cafe) + geom_bar(stat='identity',width = 0.5, fill = "cadetblue3") + labs(y='Produccion de café [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la producción de café en Dagua entre 2007 y 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

Por ultimo, se quiere conocer la producción de caña de azúcar del departamento debido a que es uno de los productos que sustentan la economía de Valle del Cauca:

```{r}
eva_valle %>% 
  filter(CULTIVO=="CANA AZUCARERA") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(CULTIVO, ton_Prod, YEAR) ->  valle_cana

valle_cana
```

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = valle_cana) + geom_bar(stat='identity',width = 0.5, fill = "darkorange2") + labs(y='Produccion de caña de azúcar [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la Producción de caña de azúcar en Valle del Cauca desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```

Por último, se quiere conocer la producción de caña de azúcar de Trujillo, Valle del Cauca:

```{r}
eva_valle %>% 
  filter(MUNICIPIO=="TRUJILLO" & CULTIVO=="CANA AZUCARERA") %>% 
  group_by(YEAR, CULTIVO) %>%
  select(MUNICIPIO, CULTIVO, ton_Prod, YEAR) ->  trujillo_cana

trujillo_cana
```

```{r}
g <- ggplot(aes(x=YEAR, y=ton_Prod/1000), data = trujillo_cana) + geom_bar(stat='identity',width = 0.5, fill = "darkolivegreen3") + labs(y='Produccion de caña de azúcar [Ton x 1000]')
```

```{r}
g + ggtitle("Evolución de la Producción de caña de azúcar en Trujillo desde 2007 hasta 2018") + labs(caption= "Basado en datos EVA (Minagricultura, 2020)")
```
