Bibliotecas
library(tidyverse) # Manipulación de datos_eva y gráficos
library(janitor) # Edición de nombres en bases de datos_eva
library(readxl) # Lectura de archivos de excel
library(DT) # Tablas interactivas en documentos HTML
library(plotly) # Gráficos interactivos en documentos HTML
datos_eva
datos_eva <-
read_csv("Evaluaciones_Agropecuarias_Municipales___EVA._2019_-_2021._Base_Agr_cola.csv") %>%
clean_names() %>%
mutate(area_perdida_p = (1 - (area_cosechada / area_sembrada)) * 100,
area_perdida_ha = area_sembrada - area_cosechada)
datos_eva %>% head()
Datos encuesta
mis_nombres <- c(
"promedio_academico",
"tiempo_casa_u",
"distancia_casa_u",
"abandonar_universidad",
"medio_transporte",
"electivas",
"numero_azar",
"trabajo",
"matematicas",
"pregunta_tiempo",
"sistema_educativo"
)
encuesta <- read_excel("Encuesta-Respuestas.xlsx") %>%
set_names(mis_nombres) %>%
mutate(
promedio_academico = as.numeric(promedio_academico),
tiempo_casa_u = str_extract_all(
string = tiempo_casa_u,
pattern = "[0-9]+",
simplify = TRUE
),
tiempo_casa_u = as.numeric(tiempo_casa_u),
distancia_casa_u = str_replace_all(distancia_casa_u,
pattern = "km",
replacement = ""),
distancia_casa_u = str_replace_all(distancia_casa_u,
pattern = ",",
replacement = "."),
distancia_casa_u = as.numeric(distancia_casa_u),
matematicas = as.numeric(matematicas),
velocidad = distancia_casa_u / tiempo_casa_u
)
encuesta
ggplot2
Guía
Capas
ggplot2
Estructura
básica
data %>%
ggplot(mapping = aes(x = ..., y = ...)) +
geom_...
Tipos de gráficos
Cantidades
- ¿Cuántos registros hay por cada número elegido al azar de la
encuesta?
encuesta %>%
count(numero_azar) %>%
ggplot(aes(x = numero_azar, y = n)) +
geom_col()

- ¿Cuál es el top 10 de cultivos con mayor número de registros?
datos_eva %>%
count(cultivo, sort = TRUE) %>%
slice(1:10) %>%
ggplot(aes(x = cultivo, y = n)) +
geom_col()

- Podemos mejorar el gráfico agregando varias características
adicionales:
- Reordenar los cultivos por número de registros
- Colores a las barras
- Etiquetas al eje x, al eje y y título del gráfico
datos_eva %>%
count(cultivo, sort = TRUE) %>%
slice(1:10) %>%
ggplot(aes(x = reorder(cultivo, n), y = n)) +
geom_col(color = "black", fill = "red") +
labs(x = "Cultivo", y = "Total",
title = "Top 10 de cultivos con mayor registros",
subtitle = "EVAs Colombia - 2021")

- Colores para cada barra: con “show.legend = FALSE” quitamos la
leyenda.
datos_eva %>%
count(cultivo, sort = TRUE) %>%
slice(1:10) %>%
ggplot(aes(x = reorder(cultivo, n), y = n, color = cultivo, fill = cultivo)) +
geom_col(show.legend = FALSE) +
labs(x = "Cultivo", y = "n",
title = "Top 10 de cultivos con mayor registros")

- Colores para cada barra: con “show.legend = FALSE” quitamos la
leyenda y además rotamos las coordenadas:
datos_eva %>%
count(cultivo, sort = TRUE) %>%
slice(1:10) %>%
ggplot(aes(x = reorder(cultivo, n), y = n, color = cultivo, fill = cultivo)) +
geom_col(show.legend = FALSE) +
labs(x = "Cultivo", y = "n",
title = "Top 10 de cultivos con mayor registros") +
coord_flip()

- Podemos representar con barras cualquier otra cantidad, no sólo las
frecuencias (conteos). Por ejemplo, podemos graficar el top 10 del
promedio de rendimiento.
datos_eva %>%
group_by(cultivo) %>%
summarise(promedio = mean(rendimiento)) %>%
ungroup() %>%
arrange(desc(promedio)) %>%
slice(1:10) %>%
ggplot(aes(x = reorder(cultivo, promedio), y = promedio)) +
geom_col() +
coord_flip() +
labs(x = "Cultivo", y = "Rendimiento (ton/ha)")

- ¿Cuál es el top 10 de cultivos con mayor área perdida (%) promedio?
Nota: aplicamos un filtro para mantener sólo cultivos
que superan los 5 municipios con registro.
datos_eva %>%
group_by(cultivo) %>%
summarise(promedio = mean(area_perdida_p),
N = n()) %>%
ungroup() %>%
filter(N > 5) %>%
arrange(desc(promedio)) %>%
slice(1:10) %>%
ggplot(aes(x = reorder(cultivo, promedio), y = promedio)) +
geom_col() +
coord_flip()

Proporciones
- ¿Cómo es la distribución porcencual de las personas que trabajan y
aquellos que han pensado en abandonar la universidad?
encuesta %>%
count(trabajo, abandonar_universidad) %>%
ggplot(aes(x = trabajo, y = n, fill = abandonar_universidad)) +
geom_col(position = "fill")

Distribuciones
Individuales
- ¿Cómo es la distribución del rendimiento para el cultivo de
café?
datos_eva %>%
filter(cultivo == "Café") %>%
ggplot(aes(x = rendimiento)) +
geom_histogram(color = "black")

- El mismo gráfico anterior puede ser representado a través de
densidades:
datos_eva %>%
filter(cultivo == "Café") %>%
ggplot(aes(x = rendimiento)) +
geom_density(fill = "orange")

- Podemos calcular el promedio y la mediana y agregarlo al gráfico
anterior:
promedio_rto_cafe <-
datos_eva %>%
filter(cultivo == "Café") %>%
pull(rendimiento) %>%
mean()
mediana_rto_cafe <-
datos_eva %>%
filter(cultivo == "Café") %>%
pull(rendimiento) %>%
median()
datos_eva %>%
filter(cultivo == "Café") %>%
ggplot(aes(x = rendimiento)) +
geom_density() +
geom_vline(xintercept = promedio_rto_cafe, color = "blue", lty = 2) +
geom_vline(xintercept = mediana_rto_cafe, color = "red", lty = 2)

Comparativas
- ¿Cómo es la distribución de cada departamento para el rendimiento en
el cultivo de café?
datos_eva %>%
filter(cultivo == "Café") %>%
ggplot(aes(x = departamento, y = rendimiento)) +
geom_boxplot() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

- Teniendo en cuenta que el cultivo de maíz es transitorio, ¿cuál
período presenta mayor uniformidad en el rendimiento?
datos_eva %>%
filter(cultivo == "Maíz") %>%
ggplot(aes(x = periodo, y = rendimiento)) +
geom_boxplot()

- El mismo resultado anterior puede ser representado a través de
densidades:
datos_eva %>%
filter(cultivo == "Maíz") %>%
ggplot(aes(x = rendimiento, color = periodo)) +
geom_density()

- ¿Podemos agregar una tercera variable al gráfico anterior?
datos_eva %>%
filter(cultivo == "Maíz") %>%
ggplot(aes(x = departamento, y = rendimiento, fill = periodo)) +
geom_boxplot() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

- ¿Existen diferencias en la distribución del promedio académico para
las personas que poseen trabajo?
encuesta %>%
ggplot(aes(x = trabajo, y = promedio_academico)) +
geom_boxplot()

Relaciones x-y
- ¿Existe alguna asociación entre el área perdida (%) y el rendimiento
para el cultivo de maíz?
datos_eva %>%
filter(cultivo == "Maíz") %>%
ggplot(aes(x = area_perdida_p, y = rendimiento)) +
geom_point()

- Con los datos de la encuesta, ¿Cuál es la relación de la distancia
con la velocidad?
encuesta %>%
ggplot(aes(x = distancia_casa_u, y = velocidad)) +
geom_point()

Gráficos
interactivos
Gráfico 1
ggplotly(
encuesta %>%
ggplot(aes(x = distancia_casa_u, y = velocidad)) +
geom_point()
)
Gráfico 2
ggplotly(
datos_eva %>%
filter(cultivo == "Maíz") %>%
ggplot(aes(x = rendimiento, color = periodo)) +
geom_density()
)
---
title: "Visualizaciones con R"
subtitle: "ggplot2"
author: "Edimer David Jaramillo"
date: "31-10-2022"
output:
  html_document:
    toc: true
    toc_depth: 5
    toc_float: true
    number_sections: true
    theme: cosmo
    highlight: breezedark
    df_print: paged
    code_folding: hide
    code_download: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, eval = TRUE, fig.align = "center",
                      fig.width = 5.5, fig.height = 4.5, warning = FALSE,
                      message = FALSE)
```

# Bibliotecas

```{r}
library(tidyverse) # Manipulación de datos_eva y gráficos
library(janitor)   # Edición de nombres en bases de datos_eva
library(readxl)    # Lectura de archivos de excel
library(DT)        # Tablas interactivas en documentos HTML
library(plotly)    # Gráficos interactivos en documentos HTML
```

# Referencias

- [From Data to Viz](https://www.data-to-viz.com/)
- [The R Graph Gallery](https://r-graph-gallery.com/index.html)
- [`ggplot2`](https://r-graph-gallery.com/ggplot2-package.html)
- [Colors in R](http://www.stat.columbia.edu/~tzheng/files/Rcolor.pdf)
- [Colors in R](http://www.sthda.com/english/wiki/colors-in-r)
- [Hexadecimal Colors](https://www.w3schools.com/colors/colors_hexadecimal.asp)
- [Galería de gráficos](https://www.dataviz-inspiration.com/)

# datos_eva

```{r}
datos_eva <-
  read_csv("Evaluaciones_Agropecuarias_Municipales___EVA._2019_-_2021._Base_Agr_cola.csv") %>%
  clean_names() %>% 
  mutate(area_perdida_p = (1 - (area_cosechada / area_sembrada)) * 100,
         area_perdida_ha = area_sembrada - area_cosechada)

datos_eva %>% head()
```

# Datos encuesta

```{r}
mis_nombres <- c(
  "promedio_academico",
  "tiempo_casa_u",
  "distancia_casa_u",
  "abandonar_universidad",
  "medio_transporte",
  "electivas",
  "numero_azar",
  "trabajo",
  "matematicas",
  "pregunta_tiempo",
  "sistema_educativo"
)

encuesta <- read_excel("Encuesta-Respuestas.xlsx") %>%
  set_names(mis_nombres) %>%
  mutate(
    promedio_academico = as.numeric(promedio_academico),
    tiempo_casa_u = str_extract_all(
      string = tiempo_casa_u,
      pattern = "[0-9]+",
      simplify = TRUE
    ),
    tiempo_casa_u = as.numeric(tiempo_casa_u),
    distancia_casa_u = str_replace_all(distancia_casa_u,
                                       pattern = "km",
                                       replacement = ""),
    distancia_casa_u = str_replace_all(distancia_casa_u,
                                       pattern = ",",
                                       replacement = "."),
    distancia_casa_u = as.numeric(distancia_casa_u),
    matematicas = as.numeric(matematicas),
    velocidad = distancia_casa_u / tiempo_casa_u
  ) 

encuesta
```

# `ggplot2`

## Guía

- [Guía de visualización usando ggplot2](https://diegokoz.github.io/intro_ds/fuentes/ggplot2-cheatsheet-2.1-Spanish.pdf)

<center>
<img src = "https://r-graph-gallery.com/img/other/ggplot2Hex.jpg" />
</center>

## Capas `ggplot2`

<center>
<img src = "https://r.qcbs.ca/workshop03/workshop03-fr/images/gglayers.png" width = 700/>
</center>

## Estructura básica

```
data %>% 
  ggplot(mapping = aes(x = ..., y = ...)) +
  geom_...
```

# Tipos de gráficos

<center>
<img src = "https://rproject-udea.netlify.app/temas/statistics/04-estad-descriptiva-r2/img/graficos.png" />
</center>

## Cantidades

- ¿Cuántos registros hay por cada número elegido al azar de la encuesta?

```{r}
encuesta %>% 
  count(numero_azar) %>% 
  ggplot(aes(x = numero_azar, y = n)) +
  geom_col()
```


- ¿Cuál es el top 10 de cultivos con mayor número de registros?

```{r}
datos_eva %>% 
  count(cultivo, sort = TRUE) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = cultivo, y = n)) +
  geom_col()
```

- Podemos mejorar el gráfico agregando varias características adicionales:
  - Reordenar los cultivos por número de registros
  - Colores a las barras
  - Etiquetas al eje x, al eje y y título del gráfico
  
```{r}
datos_eva %>% 
  count(cultivo, sort = TRUE) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = reorder(cultivo, n), y = n)) +
  geom_col(color = "black", fill = "red") +
  labs(x = "Cultivo", y = "Total",
       title = "Top 10 de cultivos con mayor registros",
       subtitle = "EVAs Colombia - 2021")
```

- Colores para cada barra: con "show.legend = FALSE" quitamos la leyenda.

```{r}
datos_eva %>% 
  count(cultivo, sort = TRUE) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = reorder(cultivo, n), y = n, color = cultivo, fill = cultivo)) +
  geom_col(show.legend = FALSE) +
  labs(x = "Cultivo", y = "n",
       title = "Top 10 de cultivos con mayor registros")
```

- Colores para cada barra: con "show.legend = FALSE" quitamos la leyenda y además rotamos las coordenadas:

```{r}
datos_eva %>% 
  count(cultivo, sort = TRUE) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = reorder(cultivo, n), y = n, color = cultivo, fill = cultivo)) +
  geom_col(show.legend = FALSE) +
  labs(x = "Cultivo", y = "n",
       title = "Top 10 de cultivos con mayor registros") +
  coord_flip()
```

- Podemos representar con barras cualquier otra cantidad, no sólo las frecuencias (conteos). Por ejemplo, podemos graficar el top 10 del promedio de rendimiento.

```{r}
datos_eva %>% 
  group_by(cultivo) %>% 
  summarise(promedio = mean(rendimiento)) %>% 
  ungroup() %>% 
  arrange(desc(promedio)) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = reorder(cultivo, promedio), y = promedio)) +
  geom_col() +
  coord_flip() +
  labs(x = "Cultivo", y = "Rendimiento (ton/ha)")
```


- ¿Cuál es el top 10 de cultivos con mayor área perdida (%) promedio? **Nota:** aplicamos un filtro para mantener sólo cultivos que superan los 5 municipios con registro.

```{r}
datos_eva %>% 
  group_by(cultivo) %>% 
  summarise(promedio = mean(area_perdida_p),
            N = n()) %>% 
  ungroup() %>% 
  filter(N > 5) %>% 
  arrange(desc(promedio)) %>% 
  slice(1:10) %>% 
  ggplot(aes(x = reorder(cultivo, promedio), y = promedio)) +
  geom_col() +
  coord_flip()
```

## Proporciones

- ¿Cómo es la distribución porcencual de las personas que trabajan y aquellos que han pensado en abandonar la universidad?

```{r}
encuesta %>% 
  count(trabajo, abandonar_universidad) %>% 
  ggplot(aes(x = trabajo, y = n, fill = abandonar_universidad)) +
  geom_col(position = "fill")
```


## Distribuciones

### Individuales

- ¿Cómo es la distribución del rendimiento para el cultivo de café?

```{r}
datos_eva %>% 
  filter(cultivo == "Café") %>% 
  ggplot(aes(x = rendimiento)) +
  geom_histogram(color = "black")
```

- El mismo gráfico anterior puede ser representado a través de densidades:

```{r}
datos_eva %>% 
  filter(cultivo == "Café") %>% 
  ggplot(aes(x = rendimiento)) +
  geom_density(fill = "orange")
```

- Podemos calcular el promedio y la mediana y agregarlo al gráfico anterior:

```{r}
promedio_rto_cafe <-
  datos_eva %>%
  filter(cultivo == "Café") %>%
  pull(rendimiento) %>%
  mean()

mediana_rto_cafe <-
  datos_eva %>%
  filter(cultivo == "Café") %>%
  pull(rendimiento) %>%
  median()

datos_eva %>% 
  filter(cultivo == "Café") %>% 
  ggplot(aes(x = rendimiento)) +
  geom_density() +
  geom_vline(xintercept = promedio_rto_cafe, color = "blue", lty = 2) +
  geom_vline(xintercept = mediana_rto_cafe, color = "red", lty = 2)
```

### Comparativas

- ¿Cómo es la distribución de cada departamento para el rendimiento en el cultivo de café?

```{r}
datos_eva %>% 
  filter(cultivo == "Café") %>% 
  ggplot(aes(x = departamento, y = rendimiento)) +
  geom_boxplot() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

- Teniendo en cuenta que el cultivo de maíz es transitorio, ¿cuál período presenta mayor uniformidad en el rendimiento?

```{r}
datos_eva %>% 
  filter(cultivo == "Maíz") %>% 
  ggplot(aes(x = periodo, y = rendimiento)) +
  geom_boxplot()
```

- El mismo resultado anterior puede ser representado a través de densidades:

```{r}
datos_eva %>% 
  filter(cultivo == "Maíz") %>% 
  ggplot(aes(x = rendimiento, color = periodo)) +
  geom_density()
```

- ¿Podemos agregar una tercera variable al gráfico anterior?

```{r, fig.width=8}
datos_eva %>% 
  filter(cultivo == "Maíz") %>% 
  ggplot(aes(x = departamento, y = rendimiento, fill = periodo)) +
  geom_boxplot() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

- ¿Existen diferencias en la distribución del promedio académico para las personas que poseen trabajo?

```{r}
encuesta %>% 
  ggplot(aes(x = trabajo, y = promedio_academico)) +
  geom_boxplot()
```


## Relaciones x-y

- ¿Existe alguna asociación entre el área perdida (%) y el rendimiento para el cultivo de maíz?

```{r}
datos_eva %>% 
  filter(cultivo == "Maíz") %>% 
  ggplot(aes(x = area_perdida_p, y = rendimiento)) +
  geom_point() 
```

- Con los datos de la encuesta, ¿Cuál es la relación de la distancia con la velocidad?

```{r}
encuesta %>% 
  ggplot(aes(x = distancia_casa_u, y = velocidad)) +
  geom_point()
```




# Gráficos interactivos

## Gráfico 1

```{r}
ggplotly(
  encuesta %>% 
  ggplot(aes(x = distancia_casa_u, y = velocidad)) +
  geom_point()
)
```

## Gráfico 2

```{r}
ggplotly(
  datos_eva %>% 
  filter(cultivo == "Maíz") %>% 
  ggplot(aes(x = rendimiento, color = periodo)) +
  geom_density()
)
```