Visualización de Datos con ggplot2

La visualización de datos es una de las etapas fundamentales en el análisis de datos porque se relaciona con la comunicación de los resultados.

Una buena visualización permite:

  • condensar mucha información
  • evidenciar nuestro punto de vista
  • contar historias con datos

ggplot2 es uno de los paquetes que está dentro de tidyverse y es el paquete más utilizado para hacer gráficos.

Podés consultar un cheatsheet en castellano en este link.

El paquete ggplot2 es uno de los paquetes dentro de la colección tidyverse, y que está basado en la teoría de “grammar of graphics” (la gramática de los gráficos), porque permite construir los gráficos por capas, controlando las características individuales de cada uno.

Las capas de los gráficos

Esto implica que podemos controlar desde la estructura del gráfico (títulos, ejes) hasta todo lo que pasa dentro de la visualización.

Veamos en detalle cada una de las capas:

  • Data (Datos): La fuente de datos que usaremos para graficar los datos.

  • Aesthetics (Estética): Son las modificaciones estéticas que haremos asignando variables al gráfico.

  • Geometries (Geometría): Va a ser la forma geométrica con la que vamos a representar los datos (barras, líneas, puntos, etc.).

Estas tres capas son las esenciales para hacer un gráfico en ggplot2. Las siguientes capas nos permiten controlar otros aspectos de la visualización.

  • Facets (Facetas o lados): Si tenemos un gráfico que combina varios elementos, los facets nos permiten un gráfico individual por cada elemento.

  • Statistics (Estadística): Podemos agregar una capa que incorpore por ejemplo una regresión lineal o bien una referencia como un valor promedio.

  • Coordinates (Ejes): Nos permite controlar los ejes, desde su presentación, o incluso los límites, etc..

  • Theme (Estilo): Controla aspectos visuales sobre el fondo, fuente, ejes, etc..

Preparándonos

Al igual que con cualquier paquete, necesitamos instalar y cargar el paquete para utilizarlo.

Si ya instalamos tidyverse() no hace faltar volver a instalar ggplot2.

install.packages("ggplot2")

Luego, tenemos que cargar el paquete. También cargaremos otros paquetes para cargar y manipular datos.

# Cargar los paquetes ggplot2, readxl, y dplyr
library(ggplot2)   # Visualización de datos
library(readxl)    # Cargar archivos de Excel
library(dplyr)    # Limpieza y manipulación de datos

Fuentes de datos

Los datos que utilizaremos para trabajar son los siguientes.

  • maestro.xlsx y salarios.xlsx que son un listado de empleados y también un listado de sueldos de empleados mensualizados.
  • rotacion.csv que muestra la evolución de ingresos y de egresos a lo largo de varios años.
  • kiwi_ar.RDS, un archivo de datos propio de R que contiene un data frame más limpio y manteniendo algunas características.
# Cargar los archivos de Excel
maestro <- read_xlsx("maestro.xlsx")
salarios <- read_xlsx("salarios.xlsx")

## Unir ambos data frames
mensuales <- left_join(maestro, salarios, by = "ID") %>% 
  filter(!is.na(PUESTO))  # Filtra todas las filas que no están vacías de la columna PUESTO

# Cargar el archivo rotacion.csv
rotacion <- read.csv("rotacion.csv", 
                     sep = ";")   # Indica el símbolo que separa las columnas

# Cargar el archivo kiwi_ar.RDS
kiwi <- readRDS("kiwi_ar.RDS")

Haciendo gráficos con ggplot2

La sintáxis básica de ggplot2 es la siguiente:

ggplot(nombre_dataframe, aes(x, y)) +
         geom_XXX

La función para hacer gráficos siempre será ggplot().

Luego tenemos que poner el nombre del data frame.

Adentro del aes() ponemos las columnas que queremos ver reflejadas en el gráfico. Esto en la jerga de R se llama mapear variables en el gráfico. Las variables las podemos utilizar además de verlas reflejadas en los ejes x, e y, también pueden usarse para modificar el color y el tamaño de los elementos de un gráfico.

Por último, con geom_xxx() le indicamos la forma geométrica que puede adoptar la visualización (gráficos, puntos, líneas, etc.).

Para sumar capas en un gráfico tenemos que usar el signo +. Un error común que cometo es confundirlo por el pipe %>%.

Los geoms que veremos en estas clases son:

  • geom_histogram(): Para graficar histogramas. Nos permiten ver la distribución de una variable numérica. Se puede graficar mapeando una sola variable al menos.
  • geom_freqpoly(): También nos permite ver la distribución de una variable numérica, atenuando la curva. Se puede graficar mapeando una sola variable al menos.
  • geom_boxplot(): Hace gráficos boxplot, también conocidos como de bigote y caja. Permite visualizar una gran cantidad de información estadística.
  • geom_bar(): Hace gráficos de barras. El largo de las barras lo determina la cantidad de filas de lo que estemos mapeando. Funciona incluso con un sólo eje.
  • geom_col(): También hace gráficos de barra pero el largo lo determina el valor de la/s celda/s que grafiquemos. Necesita por lo menos mapear una variable para el eje x, y otro para el eje y.
  • geom_line(): Para hacer gráficos de línea.
  • geom_point(): Para hacer gráficos de dispersión (también conocidos como scatter plots).

Estos no son todos los tipos de gráficos que se pueden hacer con ggplot2. En 2020 la comunidad hispanoparlante de R lanzó una actividad llamada 30 Días de Gráficos en honor de Florence Nightingale, un desafío en el cual a lo largo de 30 días quien quisiera podría hacer un tipo de gráfico diferente.

Pueden ver una muestra de todos los gráficos en el repositorio de GitHub de Ariadna Angulo Brunet, una psicóloga española que realizó los 30 gráficos.

Histogramas

Los histogramas son un tipo de gráfico que nos permite ver la distribución de una variable numérica, y entre otras cosas, analizar por ejemplo su simetría.

Por default, geom_histogram() divide a la variable numérica en 30 secciones con un rango de valores. El largo de cada barra estará determinado por la cantidad de observaciones que quedan dentro de cada rango de valores.

Hagamos un histograma de la variable sueldo_bruto del data frame kiwi.

# Hagamos un histograma de sueldo_bruto del data frame kiwi
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

Cada barra de un histograma en R se llama bin. Podemos controlar la cantidad de barras que vemos usando dentro de geom_histogram() el parámetro bins y asignando el número que más nos sirva. También podemos modificar el ancho de los bins con el parámetro bindwidth.

# Modifiquemos la cantidad de bins a 15
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(bins = 15)

# Modifiquemos el ancho de los bins por 20000
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(binwidth = 25000)

Una alternativa a los histogramas es geom_freqpoly() que permite ver la forma de la distribución, generando un gráfico de líneas al centro de cada bin.

También existe geom_density() que permite ver una curva atenuada de la distribución, pero como el eje y muestra la proporción de la distribución es un poco más compleja de interpretar.

# Hacer un histograma de sueldo_bruto
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

# Hacer un histograma de sueldo_bruto y combinarlo con geom_freqpoly()
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram() +
  geom_freqpoly()

# Hacer un gráfico de densidad
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_density()

Boxplots

Los boxplots son gráficos que contienen una gran cantidad de información estadística.

En este gráfico podemos ver:

  • Los cuartiles 1 y 3 (Q1 y Q3) en los bordes de la caja.
  • La mediana que es la linea dentro de la caja.
  • Los outliers, representados en puntos, que son observaciones que superan una vez y media (1,5 veces) el rango intercuartil.

Además, la extensión de la caja nos permite tener una idea de la distribución de los datos.

# Hacer un boxplot básico
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_boxplot()

# Compararlo con un histograma
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

En la explicación previa, decíamos que podemos “mapear” una variable para modificar el color de un gráfico. En los tipos de gráficos que contienen una superficie, como los boxplots o los gráficos de barras, el parámetro que necesitamos para modificar los colores en función de una variable se llama fill y lo tenemos que usar dentro del aes().

# Mapear la variable género con el parámetro fill
ggplot(kiwi, aes(y = sueldo_bruto, fill = genero)) +
  geom_boxplot()

Prácticas

Usando los data frames maestro y mensuales realizar los siguientes gráficos:

# Realizar un histograma de EDAD del data frame maestro


# Realizar un histograma y un freqpoly de los sueldos en mensuales


# Realizar un boxplot de mensuales, mapeando PUESTO en el eje x y SUELDO en y.

Gráficos de barra

geom_bar()

En R contamos con dos geoms para hacer gráficos de barra:

  • geom_bar(): El largo de la barra lo determina la cantidad de filas de una columna. Se pueden hacer mapeando una sola variable.

  • geom_col(): El largo de la barra lo determina el valor de la celda. Otra diferencia respecto de geom_bar() es que necesitamos mapear una variable al eje x y otra variable al eje y.

Usemos el data frame kiwi para probar ambos gráficos.

# Hacer un gráfico de barras mapeando puesto al eje x
# Usar geom_bar()
ggplot(kiwi, aes(x = puesto, fill = genero)) +
  geom_bar() 

Si mapeamos, por ejemplo la variable genero al color, podemos controlar la posición de las barras con los siguientes parámetros:

  • position = "dodge": Para poner las barras una al lado de la otra.

  • position = "identity": Pone una barra detrás de la otra.

  • position = "stack": Para hacer gráficos apilados. Es la opción por default de geom_bar().

  • position = "fill": Para hacer un gráfico apilado al 100%

Las visualizaciones también se pueden guardar en objetos. Lo cual nos permite ahorrar mucho tiempo escribiendo.

# Guardar la primera parte del gráfico en un objeto
barras <- ggplot(kiwi, aes(x = puesto, fill = genero)) 

# Reutilizamos el objeto para hacer gráficos de barras
barras + 
  geom_bar()

Ahora probemos modificar los parámetros con las opciones dodge, identity y fill.

# Usar el objeto vis1 y modificar el parámetro dodge dentro de geom_bar()
barras +
  geom_bar(position = "dodge")

# Usar position = "identity"
barras +
  geom_bar(position = "identity", alpha = 0.6)

# Usar position = "fill"
barras + 
  geom_bar(position = "fill")

geom_col()

A diferencia de geom_bar() necesitamos pasar una columna al eje x y una columna al eje y. Pero antes, vamos a necesitar hacer un par de cálculos previos.

sueldo_rubro <- kiwi %>% 
  group_by(rubro) %>%     # Agrupo por rubro
  summarise(sueldo_promedio = mean(sueldo_bruto)) %>% # Calculo sueldo promedio
  slice_max(n = 10,                     # Nos permite recortar la salida
            order_by = sueldo_promedio) # Criterio para ordenar resultados

# Veamos el contenido
sueldo_rubro
## # A tibble: 10 × 2
##    rubro                                         sueldo_promedio
##    <chr>                                                   <dbl>
##  1 Minería (carbón, otra minería)                        105792.
##  2 Industrias químicas                                   104261.
##  3 Servicios financieros; seguros                        103052.
##  4 Ingeniería mecánica                                   102000 
##  5 Medios de comunicación; cultura; gráficos             101120 
##  6 Oil & gas                                              96244.
##  7 Silvicultura; madera; celulosa; papel                  96000 
##  8 Transporte marítimo; puertos;                          91667.
##  9 Alimentación; bebidas; tabaco                          91389.
## 10 Servicios de correos, y de telecomunicaciones          84620

Como decíamos antes, ahora podemos mapear una variable (asignar) al eje x y asignar otra variable al eje y.

# Hacer un gráfico de columnas
ggplot(sueldo_rubro, aes(x = rubro, y = sueldo_promedio)) +
  geom_col()

No necesariamente tenemos que mapear las columnas de texto al eje x. Cuando las etiquetas son largas, para hacerlo más legible al eje, podemos asignar las variables de texto al eje y.

# Repetir el gráfico anterior pero invirtiendo los ejes
ggplot(sueldo_rubro, aes(y = rubro, x = sueldo_promedio)) +
  geom_col() +
  geom_text(aes(label = round(sueldo_promedio)),
            size = 3,
            hjust = 1.2,
            color = "white")

Cuando la variable de texto no tiene un orden implícito, como las jerarquías de un puesto por ejemplo, una buena práctica es ordenar las barras de mayor a menor. Esto simplifica al lector la interpretación del gráfico (o en otras palabras, hace que nuestro trabajo sea de mayor calidad).

Hay varias formas de lograr esto, una forma simple de hacerlo es con la función reorder().

# Repetir el gráfico anterior, pero ordenando las barras de mayor a menor
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col()

La sintaxis de reorder() es la siguiente:

eje = reorder(variable_eje, variable_criterio) 

En el ejemplo anterior hicimos y = reorder(rubro, sueldo_promedio). Vamos por partes:

  • y: es el eje al cual estamos asignando (mapeando) la variable.

  • reorder(): es la función:

  • rubro: es la variable que estamos asignando al eje y en este caso.

  • sueldo_promedio: El criterio por el cual vamos a ordenar las barras. Si queremos ordenar las barras al revés sólo tenemos que poner el signo menos (-) delante de la variable que estamos usando como criterio de orden (por ejemplo -sueldo_promedio).

Algo que no está bueno en el gráfico anterior es que se muestran los nombres de los ejes tal cual como vienen en el data frame original. Una función que nos permite añadir títulos y corregir los nombres de las variables es la función labs().

# Repetir el gráfico anterior, y añadir títulos, subtítulos, ejes, y nota al pie
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col() +
  labs(title = "Sueldo promedio por rubro",
       subtitle = "En AR$ - Puestos de RRHH",
       x = "Sueldo Promedio",
       y = "Rubro",
       caption = "Fuente: Encuesta KIWI 2020")

Para saber más sobre estética de los gráficos pueden ver la sesión 4 de R4HR Club de R para RRHH, y también la sesión de Microaprendizajes.

Gráficos de líneas

Los gráficos de líneas son el gráfico por excelencia para visualizar series de tiempo, es decir la evolución temporal de una variable.

Para este ejemplo vamos a utilizar el data frame de rotacion.

# Veamos el contenido del data frame 'rotacion'
rotacion
##    Periodo Movimientos Cantidades
## 1     2010    Ingresos          9
## 2     2010     Egresos          2
## 3     2011    Ingresos         84
## 4     2011     Egresos         14
## 5     2012    Ingresos         44
## 6     2012     Egresos         17
## 7     2013    Ingresos         44
## 8     2013     Egresos         15
## 9     2014    Ingresos         60
## 10    2014     Egresos         14
## 11    2015    Ingresos         36
## 12    2015     Egresos         27
## 13    2016    Ingresos         14
## 14    2016     Egresos         14

Para ver la evolución de ambas líneas, podemos mapear:

  • Periodo al eje x

  • Cantidades al eje y

  • Movimientos como color.

  • geom_line() como visualización

# Hacer un gráfico de líneas con la evolución temporal de los Ingresos y Egresos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line()

Para marcar la sección donde corta cada año, podemos agregar una capa de puntos al gráfico anterior. Juguemos con el parámetro size dentro de geom_point().

# Agregar una capa de puntos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2)

Este es un buen momento para ver la utilidad de los facets.

# Añadir una capa de facet_wrap(~Movimientos)
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2) +
  facet_wrap(~Movimientos)

Gráficos de dispersión - Scatter plots

Los gráficos, o diagramas de dispersión, son una gran forma de visualizar relaciones entre variables numéricas, concentraciones de datos, entre otras cosas. Es una forma de introducirnos en el análisis de regresiones lineales.

También permiten la concentración de datos entre variables numéricas y categóricas. El geom que necesitaremos es geom_point().

# Realizar un gráfico de dispersión entre anios_experiencia y sueldo_bruto
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point()

Si quisiéramos trazar una recta de regresión, una forma de hacerlo es la siguiente:

# Agregar una regresión lineal
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point() +
  geom_smooth(method = "lm")

Como decíamos, también podemos analizar la distribución de los datos entre una variable categórica y una variable numérica

# Graficar genero vs. sueldo_bruto
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point()

Cuando hacemos gráficos de dispersión, dos parámetros muy útiles para analizar donde hay más concentración de datos, son los parámetros jitter y alpha.

Jitter le añade un poco de ruido a los datos para evitar la superposición de puntos, pero manteniendo la distribución de los datos. Hablando mal y pronto, lo que hace es mover un poquito los puntos dentro del gráfico para que sean más visibles.

Otro parámetro muy útil es alpha que le añade transparencia a los puntos, lo cual nos ayuda a ver donde hay más concentración de datos, en donde haya más oscuridad del color.

También se puede jugar con el parámetro size o shape para modificar el tamaño, o la forma de los puntos.

En este gráfico ponemos estos parámetros en práctica.

# Hacemos el gráfico añadiendo el parámetro jitter y alpha
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point(position = "jitter",
             alpha = 0.3,
             size = 2) +
  theme_minimal()

Gráficos de torta

Todas las personas que trabajan en visualización de datos AMAN odiar los gráficos de torta. De hecho en ggplot2 no hay un geom_pie y no conozco ninguna extensión que los realice de manera sencilla. Aunque si existe la función de R base pie

# Preprocesamiento
satisfaccion <- kiwi %>% 
  select(satisfaccion) %>% 
  filter(!is.na(satisfaccion)) %>% 
  group_by(satisfaccion) %>% 
  tally() %>% 
  arrange(satisfaccion)

# Hacemos el gráfico en R base
pie(satisfaccion$n)

De todas maneras, como dice mi abuela, siempre hay un roto para un descosido y aquí les presento una forma de realizar un gráfico de dona.

En esencia, lo que vamos a hacer es un gráfico de barras apiladas al 100% al cual doblaremos, de la misma manera que las cucharas en Matrix.

Primero haremos un gráfico de barras apiladas al 100%, cuyas porciones (rectángulos) “doblaremos” posteriormente. En este ejemplo, vamos a hacer un gráfico de dona sobre el porcentaje de gente y el tipo de universidad. Para lo cual tenemos que hacer un pequeño preprocesamiento de datos:

# Crear un objeto llamado educacion
educacion <- kiwi %>% 
  select(tipo_universidad) %>%            # Selecciona la columna
  group_by(tipo_universidad) %>%          # Agrupa por tipo_universidad
  summarise(cantidad = n()) %>%           # Agrega columna con cantidad de casos
  mutate(porcentaje = cantidad / sum(cantidad)) %>% # Agrega columna de porcentaje
  arrange(-cantidad)                      # Ordena descendemtente por cantidad

# Veamos el resultado
educacion
## # A tibble: 3 × 3
##   tipo_universidad             cantidad porcentaje
##   <chr>                           <int>      <dbl>
## 1 Universidad Pública               246     0.502 
## 2 Universidad Privada               222     0.453 
## 3 No estudié en la Universidad       22     0.0449

El siguiente paso es determinar dónde empieza y dónde termina cada rectángulo que vamos a crear. Eso lo vamos a poner en unas columnas nuevas que llamaremos ymax y ymin.

# Calculamos los límites superiores de cada rectángulo
educacion$ymax <- cumsum(educacion$porcentaje)

# Calculamos el límite inferior de cada porción
educacion$ymin <- c(0, head(educacion$ymax, n=-1))

# Calculamos la posición de la etiqueta
educacion$posicion_etiqueta <- (educacion$ymax + educacion$ymin) / 2

# Creamos las etiquetas de cada porción
educacion$etiqueta <- paste0(educacion$tipo_universidad, # paste0 pega elementos
                             "\n Cant: ", 
                             educacion$cantidad)

# Ver como quedó el data frame
educacion
## # A tibble: 3 × 7
##   tipo_universidad             cantidad porcentaje  ymax  ymin posicio…¹ etiqu…²
##   <chr>                           <int>      <dbl> <dbl> <dbl>     <dbl> <chr>  
## 1 Universidad Pública               246     0.502  0.502 0         0.251 "Unive…
## 2 Universidad Privada               222     0.453  0.955 0.502     0.729 "Unive…
## 3 No estudié en la Universidad       22     0.0449 1     0.955     0.978 "No es…
## # … with abbreviated variable names ¹​posicion_etiqueta, ²​etiqueta

Los pasos anteriores crearon la posición donde comienzan y donde termina cada barra, en donde se ubica cada etiqueta, y por último, qué va a decir cada etiqueta.

Con la función paste0() lo que hacemos es concatenar varios elementos, primero, los valores de la columna tipo_universidad (Universidad Pública, Universidad Privada, etc.), luego, con la barra invertida y la n \n en otro renglón agrega la palabra Cant: y finalmente pone el valor de la columna cantidad.

Ahora, vamos a hacer el gráfico capa por capa para que vean cómo se construye:

# Realizar el gráfico de dona

# Primera capa del gráfico
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() 

# There is no spoon! Nuestro primer gráfico de torta
 ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y")

# Recortamos el centro de la torta
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4))

# Así quedaría el gráfico de barra sin coord_polar
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  xlim(c(2,4))

# Agregamos algunas modificaciones estéticas
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4)) +
  theme_void() +             # Elimina fondos y referencias
  scale_fill_viridis_d() +   # Define una escala de colores
  theme(legend.position = "right",
        plot.title.position = "plot") + # Modifica posición leyendas y del título
  labs(title = "Respuestas según Tipo de Universidad",
       fill = "Tipo de Universidad", 
       caption = "Fuente: Encuesta KIWI de Sueldos de RH 2020") +
  geom_label(x = 3.5,
             aes(y = posicion_etiqueta,
                 label = etiqueta),
             size = 3)

Check out

ggplot2 es un paquete que tiene una infinidad de posibilidades, tiene muchas extensiones que posibilitan construir todo tipo de gráficos, añadirles interactividad, información dinámica y muchas cosas más.

Este paquete construye los gráficos por capas. Las capas fundamentales son:

  • Datos

  • Variables, que se asignan dentro del aes().

  • Un geom_"algo" que le va a dar la forma al gráfico.

Los gráficos además se pueden combinar agregando capas, lo cual posibilita agregar información, o limpiar los gráficos para añadir información de contexto.

Customizar un gráfico lleva trabajo, pero todos esos elementos se pueden guardar en objetos y reutilizarlos para ahorrar código y esfuerzo.

Esto me permite ir trabajando progresivamente con los gráficos. Primero me aseguro que el gráfico funcione, y luego voy incorporando capas para definir colores, los ejes, los títulos, y finalmente la estética general del gráfico.

Pueden explorar algunas extensiones en este link: https://exts.ggplot2.tidyverse.org/gallery/. También hay un libro online (en inglés) que pueden revisar acá: https://ggplot2-book.org/.

---
title: "Visualización de Datos"
author: "Sergio Garcia Mora | Data 4HR"
date: "11/10/2022"
output: 
  html_document:
    theme: lumen
    highlight: pygments
    toc: true
    toc_float: true
    code_folding: show
    code_download: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE, fig.retina = 3, out.width = "80%")
```

# Visualización de Datos con `ggplot2`

La visualización de datos es una de las etapas fundamentales en el análisis de datos porque se relaciona con **la comunicación** de los resultados.

Una buena visualización permite:

-   condensar mucha información
-   evidenciar nuestro punto de vista
-   contar historias con datos

**ggplot2** es uno de los paquetes que está dentro de *tidyverse* y es **el** paquete más utilizado para hacer gráficos.

Podés consultar un [cheatsheet en castellano en este link](https://github.com/rstudio/cheatsheets/raw/master/translations/spanish/data-visualization_es.pdf).

![](Archivos/dia12-2.png){width="420"}

![](Archivos/scatter-fin-1.png){width="383"}

El paquete `ggplot2` es uno de los paquetes dentro de la colección `tidyverse`, y que está basado en la teoría de **"grammar of graphics"** (la gramática de los gráficos), porque permite construir los gráficos por capas, controlando las características individuales de cada uno.

![Las capas de los gráficos](Archivos/grammar_graphics_details.png)

Esto implica que podemos controlar desde la **estructura** del gráfico (títulos, ejes) hasta todo lo que pasa dentro de la **visualización**.

Veamos en detalle cada una de las capas:

-   **Data (Datos):** La fuente de datos que usaremos para graficar los datos.

-   **Aesthetics (Estética):** Son las modificaciones estéticas que haremos asignando variables al gráfico.

-   **Geometries (Geometría):** Va a ser la forma geométrica con la que vamos a representar los datos (barras, líneas, puntos, etc.).

Estas tres capas son las esenciales para hacer un gráfico en `ggplot2`. Las siguientes capas nos permiten controlar otros aspectos de la visualización.

-   **Facets (Facetas o lados):** Si tenemos un gráfico que combina varios elementos, los *facets* nos permiten un gráfico individual por cada elemento.

-   **Statistics (Estadística):** Podemos agregar una capa que incorpore por ejemplo una regresión lineal o bien una referencia como un valor promedio.

-   **Coordinates (Ejes):** Nos permite controlar los ejes, desde su presentación, o incluso los límites, etc..

-   **Theme (Estilo)**: Controla aspectos visuales sobre el fondo, fuente, ejes, etc..

# Preparándonos

Al igual que con cualquier paquete, necesitamos instalar y cargar el paquete para utilizarlo.

*Si ya instalamos `tidyverse()` no hace faltar volver a instalar `ggplot2`.*

```{r instalar-pkg, eval=FALSE}
install.packages("ggplot2")
```

Luego, tenemos que cargar el paquete. También cargaremos otros paquetes para cargar y manipular datos.

```{r cargar-ggplot2}
# Cargar los paquetes ggplot2, readxl, y dplyr
library(ggplot2)   # Visualización de datos
library(readxl)    # Cargar archivos de Excel
library(dplyr)    # Limpieza y manipulación de datos
```

## Fuentes de datos

Los datos que utilizaremos para trabajar son los siguientes.

-   `maestro.xlsx` y `salarios.xlsx` que son un listado de empleados y también un listado de sueldos de empleados mensualizados.
-   `rotacion.csv` que muestra la evolución de ingresos y de egresos a lo largo de varios años.
-   `kiwi_ar.RDS`, un archivo de datos propio de R que contiene un data frame más limpio y manteniendo algunas características.

```{r datos}
# Cargar los archivos de Excel
maestro <- read_xlsx("maestro.xlsx")
salarios <- read_xlsx("salarios.xlsx")

## Unir ambos data frames
mensuales <- left_join(maestro, salarios, by = "ID") %>% 
  filter(!is.na(PUESTO))  # Filtra todas las filas que no están vacías de la columna PUESTO

# Cargar el archivo rotacion.csv
rotacion <- read.csv("rotacion.csv", 
                     sep = ";")   # Indica el símbolo que separa las columnas

# Cargar el archivo kiwi_ar.RDS
kiwi <- readRDS("kiwi_ar.RDS")


```

# Haciendo gráficos con ggplot2

La sintáxis básica de `ggplot2` es la siguiente:

```{r ggp1, eval = FALSE}
ggplot(nombre_dataframe, aes(x, y)) +
         geom_XXX
```

La función para hacer gráficos siempre será `ggplot()`.

Luego tenemos que poner el nombre del data frame.

Adentro del `aes()` ponemos las columnas que queremos ver reflejadas en el gráfico. Esto en la jerga de R se llama *mapear variables en el gráfico*. Las variables las podemos utilizar además de verlas reflejadas en los ejes `x`, e `y`, también pueden usarse para modificar el color y el tamaño de los elementos de un gráfico.

Por último, con `geom_xxx()` le indicamos la forma geométrica que puede adoptar la visualización (gráficos, puntos, líneas, etc.).

Para sumar capas en un gráfico tenemos que usar el signo `+`. Un error común que cometo es confundirlo por el *pipe* `%>%`.

Los *geoms* que veremos en estas clases son:

-   `geom_histogram()`: Para graficar histogramas. Nos permiten ver la distribución de una variable numérica. Se puede graficar mapeando una sola variable al menos.
-   `geom_freqpoly()`: También nos permite ver la distribución de una variable numérica, atenuando la curva. Se puede graficar mapeando una sola variable al menos.
-   `geom_boxplot()`: Hace gráficos boxplot, también conocidos como de bigote y caja. Permite visualizar una gran cantidad de información estadística.
-   `geom_bar()`: Hace gráficos de barras. El largo de las barras lo determina la cantidad de filas de lo que estemos mapeando. Funciona incluso con un sólo eje.
-   `geom_col()`: También hace gráficos de barra pero el largo lo determina el valor de la/s celda/s que grafiquemos. Necesita por lo menos mapear una variable para el eje x, y otro para el eje y.
-   `geom_line()`: Para hacer gráficos de línea.
-   `geom_point()`: Para hacer gráficos de dispersión (también conocidos como scatter plots).

Estos no son todos los tipos de gráficos que se pueden hacer con `ggplot2`. En 2020 la comunidad hispanoparlante de R lanzó una actividad llamada **30 Días de Gráficos** en honor de [Florence Nightingale](https://mujeresconciencia.com/2014/05/12/florence-nigthingale-pionera-estadistica/), un desafío en el cual a lo largo de 30 días quien quisiera podría hacer un tipo de gráfico diferente.

Pueden ver una muestra de todos los gráficos en el repositorio de GitHub de [Ariadna Angulo Brunet](https://github.com/AnguloB/datosdemiercoles), una psicóloga española que realizó los 30 gráficos.

## Histogramas

Los histogramas son un tipo de gráfico que nos permite ver la distribución de una variable numérica, y entre otras cosas, analizar por ejemplo su simetría.

Por default, `geom_histogram()` divide a la variable numérica en 30 secciones con un rango de valores. El largo de cada barra estará determinado por la cantidad de observaciones que quedan dentro de cada rango de valores.

Hagamos un histograma de la variable `sueldo_bruto` del data frame `kiwi`.

```{r hist1}
# Hagamos un histograma de sueldo_bruto del data frame kiwi
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

```

Cada *barra* de un histograma en R se llama `bin`. Podemos controlar la cantidad de barras que vemos usando dentro de `geom_histogram()` el parámetro `bins` y asignando el número que más nos sirva. También podemos modificar el ancho de los *bins* con el parámetro `bindwidth`.

```{r hist2}
# Modifiquemos la cantidad de bins a 15
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(bins = 15)

# Modifiquemos el ancho de los bins por 20000
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(binwidth = 25000)
```

Una alternativa a los histogramas es `geom_freqpoly()` que permite ver la forma de la distribución, generando un gráfico de líneas al centro de cada bin.

También existe `geom_density()` que permite ver una curva atenuada de la distribución, pero como el eje `y` muestra la proporción de la distribución es un poco más compleja de interpretar.

```{r hist3}
# Hacer un histograma de sueldo_bruto
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

# Hacer un histograma de sueldo_bruto y combinarlo con geom_freqpoly()
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram() +
  geom_freqpoly()

# Hacer un gráfico de densidad
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_density()
```

## Boxplots

Los boxplots son gráficos que contienen una gran cantidad de información estadística.

![](Archivos/boxplot.png){width="494"}

En este gráfico podemos ver:

-   Los cuartiles 1 y 3 (Q1 y Q3) en los bordes de la caja.
-   La mediana que es la linea dentro de la caja.
-   Los outliers, representados en puntos, que son observaciones que superan una vez y media (1,5 veces) el rango intercuartil.

Además, la extensión de la caja nos permite tener una idea de la **distribución** de los datos.

```{r boxp1}
# Hacer un boxplot básico
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_boxplot()

# Compararlo con un histograma
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

```

En la explicación previa, decíamos que podemos *"mapear"* una variable para modificar el color de un gráfico. En los tipos de gráficos que contienen una superficie, como los boxplots o los gráficos de barras, el parámetro que necesitamos para modificar los colores en función de una variable se llama `fill` y lo tenemos que usar dentro del `aes()`.

```{r boxp2}
# Mapear la variable género con el parámetro fill
ggplot(kiwi, aes(y = sueldo_bruto, fill = genero)) +
  geom_boxplot()

```

### Prácticas

Usando los data frames `maestro` y `mensuales` realizar los siguientes gráficos:

```{r practica1}
# Realizar un histograma de EDAD del data frame maestro


# Realizar un histograma y un freqpoly de los sueldos en mensuales


# Realizar un boxplot de mensuales, mapeando PUESTO en el eje x y SUELDO en y.

```

![](https://media.giphy.com/media/LTYT5GTIiAMBa/giphy.gif){width="311"}

## Gráficos de barra

### geom_bar()

En R contamos con dos *geoms* para hacer gráficos de barra:

-   `geom_bar()`: El largo de la barra lo determina la **cantidad de filas** de una columna. Se pueden hacer mapeando una sola variable.

-   `geom_col()`: El largo de la barra lo determina el **valor de la celda**. Otra diferencia respecto de `geom_bar()` es que necesitamos mapear una variable al eje `x` y otra variable al eje `y`.

Usemos el data frame `kiwi` para probar ambos gráficos.

```{r bar1}
# Hacer un gráfico de barras mapeando puesto al eje x
# Usar geom_bar()
ggplot(kiwi, aes(x = puesto, fill = genero)) +
  geom_bar() 
```

Si mapeamos, por ejemplo la variable `genero` al color, podemos controlar la posición de las barras con los siguientes parámetros:

-   `position = "dodge"`: Para poner las barras una al lado de la otra.

-   `position = "identity"`: Pone una barra detrás de la otra.

-   `position = "stack"`: Para hacer gráficos apilados. Es la opción por default de `geom_bar()`.

-   `position = "fill"`: Para hacer un gráfico apilado al 100%

Las visualizaciones también se pueden guardar en objetos. Lo cual nos permite ahorrar mucho tiempo escribiendo.

```{r bar2}
# Guardar la primera parte del gráfico en un objeto
barras <- ggplot(kiwi, aes(x = puesto, fill = genero)) 

# Reutilizamos el objeto para hacer gráficos de barras
barras + 
  geom_bar()
```

Ahora probemos modificar los parámetros con las opciones `dodge`, `identity` y `fill`.

```{r bar3}
# Usar el objeto vis1 y modificar el parámetro dodge dentro de geom_bar()
barras +
  geom_bar(position = "dodge")

# Usar position = "identity"
barras +
  geom_bar(position = "identity", alpha = 0.6)

# Usar position = "fill"
barras + 
  geom_bar(position = "fill")

```

### geom_col()

A diferencia de `geom_bar()` necesitamos pasar una columna al eje `x` y una columna al eje `y`. Pero antes, vamos a necesitar hacer un par de cálculos previos.

```{r promedios}
sueldo_rubro <- kiwi %>% 
  group_by(rubro) %>%     # Agrupo por rubro
  summarise(sueldo_promedio = mean(sueldo_bruto)) %>% # Calculo sueldo promedio
  slice_max(n = 10,                     # Nos permite recortar la salida
            order_by = sueldo_promedio) # Criterio para ordenar resultados

# Veamos el contenido
sueldo_rubro
```

Como decíamos antes, ahora podemos mapear una variable (asignar) al eje `x` y asignar otra variable al eje `y`.

```{r col1}
# Hacer un gráfico de columnas
ggplot(sueldo_rubro, aes(x = rubro, y = sueldo_promedio)) +
  geom_col()
```

No necesariamente tenemos que mapear las columnas de texto al eje `x`. Cuando las etiquetas son largas, para hacerlo más legible al eje, podemos asignar las variables de texto al eje `y`.

```{r col2}
# Repetir el gráfico anterior pero invirtiendo los ejes
ggplot(sueldo_rubro, aes(y = rubro, x = sueldo_promedio)) +
  geom_col() +
  geom_text(aes(label = round(sueldo_promedio)),
            size = 3,
            hjust = 1.2,
            color = "white")
```

Cuando la variable de texto no tiene un orden implícito, como las jerarquías de un puesto por ejemplo, una buena práctica es ordenar las barras de mayor a menor. Esto simplifica al lector la interpretación del gráfico (o en otras palabras, hace que nuestro trabajo sea de mayor calidad).

Hay varias formas de lograr esto, una forma simple de hacerlo es con la función `reorder()`.

```{r col3}
# Repetir el gráfico anterior, pero ordenando las barras de mayor a menor
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col()
 
```

La sintaxis de `reorder()` es la siguiente:

```{r reorder, eval=FALSE}
eje = reorder(variable_eje, variable_criterio) 
```

En el ejemplo anterior hicimos `y = reorder(rubro, sueldo_promedio)`. Vamos por partes:

-   `y`: es el eje al cual estamos asignando (mapeando) la variable.

-   `reorder()`: es la función:

-   `rubro`: es la variable que estamos asignando al eje `y` en este caso.

-   `sueldo_promedio`: El criterio por el cual vamos a ordenar las barras. Si queremos ordenar las barras al revés sólo tenemos que poner el signo menos (`-`) delante de la variable que estamos usando como criterio de orden (por ejemplo `-sueldo_promedio`).

Algo que no está bueno en el gráfico anterior es que se muestran los nombres de los ejes tal cual como vienen en el data frame original. Una función que nos permite añadir títulos y corregir los nombres de las variables es la función `labs()`.

```{r col4}
# Repetir el gráfico anterior, y añadir títulos, subtítulos, ejes, y nota al pie
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col() +
  labs(title = "Sueldo promedio por rubro",
       subtitle = "En AR$ - Puestos de RRHH",
       x = "Sueldo Promedio",
       y = "Rubro",
       caption = "Fuente: Encuesta KIWI 2020")

```

Para saber más sobre estética de los gráficos pueden ver la [sesión 4 de R4HR Club de R para RRHH](https://drive.google.com/drive/folders/1aHiCbYFdMP4Gn-pADkqRTpq0M71236qZ?usp=sharing), y también la sesión de [Microaprendizajes](https://rpubs.com/Data4HR/r4hr-microaprendizajes).

## Gráficos de líneas

Los gráficos de líneas son el gráfico por excelencia para visualizar series de tiempo, es decir la evolución temporal de una variable.

Para este ejemplo vamos a utilizar el data frame de `rotacion`.

```{r linea}
# Veamos el contenido del data frame 'rotacion'
rotacion
```

Para ver la evolución de ambas líneas, podemos mapear:

-   `Periodo` al eje x

-   `Cantidades` al eje y

-   `Movimientos` como `color`.

-   `geom_line()` como visualización

```{r linea2}
# Hacer un gráfico de líneas con la evolución temporal de los Ingresos y Egresos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line()
```

Para marcar la sección donde corta cada año, podemos agregar una capa de puntos al gráfico anterior. Juguemos con el parámetro `size` dentro de `geom_point()`.

```{r linea3}
# Agregar una capa de puntos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2)

```

Este es un buen momento para ver la utilidad de los *facets*.

```{r linea-4}
# Añadir una capa de facet_wrap(~Movimientos)
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2) +
  facet_wrap(~Movimientos)
```

## Gráficos de dispersión - Scatter plots

Los gráficos, o diagramas de dispersión, son una gran forma de visualizar relaciones entre variables numéricas, concentraciones de datos, entre otras cosas. Es una forma de introducirnos en el análisis de regresiones lineales.

También permiten la concentración de datos entre variables numéricas y categóricas. El *geom* que necesitaremos es `geom_point()`.

```{r scater1}
# Realizar un gráfico de dispersión entre anios_experiencia y sueldo_bruto
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point()
```

Si quisiéramos trazar una recta de regresión, una forma de hacerlo es la siguiente:

```{r scatter-reg}
# Agregar una regresión lineal
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point() +
  geom_smooth(method = "lm")
```

Como decíamos, también podemos analizar la distribución de los datos entre una variable categórica y una variable numérica

```{r scater2}
# Graficar genero vs. sueldo_bruto
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point()
```

Cuando hacemos gráficos de dispersión, dos parámetros muy útiles para analizar donde hay más concentración de datos, son los parámetros **jitter** y **alpha**.

**Jitter** le añade un poco de ruido a los datos para evitar la superposición de puntos, pero manteniendo la distribución de los datos. Hablando mal y pronto, lo que hace es mover un poquito los puntos dentro del gráfico para que sean más visibles.

Otro parámetro muy útil es **alpha** que le añade transparencia a los puntos, lo cual nos ayuda a ver donde hay más concentración de datos, en donde haya más oscuridad del color.

También se puede jugar con el parámetro **size** o **shape** para modificar el tamaño, o la forma de los puntos.

En este gráfico ponemos estos parámetros en práctica.

```{r scatter-fin}
# Hacemos el gráfico añadiendo el parámetro jitter y alpha
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point(position = "jitter",
             alpha = 0.3,
             size = 2) +
  theme_minimal()
```

## Gráficos de torta

![](https://github.com/chechoid/pepaitba/blob/main/inst/tutorials/pepa1/pie_crocs.jpg?raw=true){width="302"}

Todas las personas que trabajan en visualización de datos AMAN odiar los gráficos de torta. De hecho en `ggplot2` no hay un `geom_pie` y no conozco ninguna extensión que los realice de manera sencilla. Aunque si existe la función de R base `pie`

```{r pie-base}
# Preprocesamiento
satisfaccion <- kiwi %>% 
  select(satisfaccion) %>% 
  filter(!is.na(satisfaccion)) %>% 
  group_by(satisfaccion) %>% 
  tally() %>% 
  arrange(satisfaccion)

# Hacemos el gráfico en R base
pie(satisfaccion$n)
```

De todas maneras, como dice mi abuela, *siempre hay un roto para un descosido* y aquí les presento una forma de realizar un **gráfico de dona**.

En esencia, lo que vamos a hacer es un gráfico de barras apiladas al 100% al cual doblaremos, de la misma manera que las cucharas en Matrix.

![](https://img1.wsimg.com/isteam/ip/320bde44-561e-41e4-a5aa-4028a5c5d883/there%2520is%2520no%2520spoon.jpg){width="344"}

Primero haremos un gráfico de barras apiladas al 100%, cuyas porciones (rectángulos) "doblaremos" posteriormente. En este ejemplo, vamos a hacer un gráfico de dona sobre el porcentaje de gente y el tipo de universidad. Para lo cual tenemos que hacer un pequeño preprocesamiento de datos:

```{r pie-pre}
# Crear un objeto llamado educacion
educacion <- kiwi %>% 
  select(tipo_universidad) %>%            # Selecciona la columna
  group_by(tipo_universidad) %>%          # Agrupa por tipo_universidad
  summarise(cantidad = n()) %>%           # Agrega columna con cantidad de casos
  mutate(porcentaje = cantidad / sum(cantidad)) %>% # Agrega columna de porcentaje
  arrange(-cantidad)                      # Ordena descendemtente por cantidad

# Veamos el resultado
educacion
```

El siguiente paso es determinar dónde empieza y dónde termina cada rectángulo que vamos a crear. Eso lo vamos a poner en unas columnas nuevas que llamaremos `ymax` y `ymin`.

```{r pie-maxmin}
# Calculamos los límites superiores de cada rectángulo
educacion$ymax <- cumsum(educacion$porcentaje)

# Calculamos el límite inferior de cada porción
educacion$ymin <- c(0, head(educacion$ymax, n=-1))

# Calculamos la posición de la etiqueta
educacion$posicion_etiqueta <- (educacion$ymax + educacion$ymin) / 2

# Creamos las etiquetas de cada porción
educacion$etiqueta <- paste0(educacion$tipo_universidad, # paste0 pega elementos
                             "\n Cant: ", 
                             educacion$cantidad)

# Ver como quedó el data frame
educacion
```

Los pasos anteriores crearon la posición donde comienzan y donde termina cada barra, en donde se ubica cada etiqueta, y por último, qué va a decir cada etiqueta.

Con la función `paste0()` lo que hacemos es concatenar varios elementos, primero, los valores de la columna `tipo_universidad` (*Universidad Pública, Universidad Privada,* etc.), luego, con la barra invertida y la n `\n` en otro renglón agrega la palabra `Cant:` y finalmente pone el valor de la columna `cantidad`.

Ahora, vamos a hacer el gráfico capa por capa para que vean cómo se construye:

```{r pie-plot}
# Realizar el gráfico de dona

# Primera capa del gráfico
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() 

# There is no spoon! Nuestro primer gráfico de torta
 ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y")
 

# Recortamos el centro de la torta
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4))

# Así quedaría el gráfico de barra sin coord_polar
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  xlim(c(2,4))


# Agregamos algunas modificaciones estéticas
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4)) +
  theme_void() +             # Elimina fondos y referencias
  scale_fill_viridis_d() +   # Define una escala de colores
  theme(legend.position = "right",
        plot.title.position = "plot") + # Modifica posición leyendas y del título
  labs(title = "Respuestas según Tipo de Universidad",
       fill = "Tipo de Universidad", 
       caption = "Fuente: Encuesta KIWI de Sueldos de RH 2020") +
  geom_label(x = 3.5,
             aes(y = posicion_etiqueta,
                 label = etiqueta),
             size = 3)


```

## Check out

`ggplot2` es un paquete que tiene una infinidad de posibilidades, tiene muchas extensiones que posibilitan construir todo tipo de gráficos, añadirles interactividad, información dinámica y muchas cosas más.

Este paquete construye los gráficos por capas. Las capas fundamentales son:

-   Datos

-   Variables, que se asignan dentro del `aes()`.

-   Un `geom_"algo"` que le va a dar la forma al gráfico.

Los gráficos además se pueden combinar agregando capas, lo cual posibilita agregar información, o limpiar los gráficos para añadir información de contexto.

Customizar un gráfico lleva trabajo, pero todos esos elementos se pueden guardar en objetos y reutilizarlos para ahorrar código y esfuerzo.

Esto me permite ir trabajando progresivamente con los gráficos. Primero me aseguro que el gráfico funcione, y luego voy incorporando capas para definir colores, los ejes, los títulos, y finalmente la estética general del gráfico.

Pueden explorar algunas extensiones en este link: <https://exts.ggplot2.tidyverse.org/gallery/>. También hay un libro online (en inglés) que pueden revisar acá: <https://ggplot2-book.org/>.
