Visualización de Datos con ggplot2
La visualización de datos es una de las etapas fundamentales en el
análisis de datos porque se relaciona con la
comunicación de los resultados.
Una buena visualización permite:
- condensar mucha información
- evidenciar nuestro punto de vista
- contar historias con datos
ggplot2 es uno de los paquetes que está dentro de
tidyverse y es el paquete más utilizado para
hacer gráficos.
Podés consultar un cheatsheet
en castellano en este link.


El paquete ggplot2
es uno de los paquetes dentro de la
colección tidyverse
, y que está basado en la teoría de
“grammar of graphics” (la gramática de los gráficos),
porque permite construir los gráficos por capas, controlando las
características individuales de cada uno.
Esto implica que podemos controlar desde la
estructura del gráfico (títulos, ejes) hasta todo lo
que pasa dentro de la visualización.
Veamos en detalle cada una de las capas:
Data (Datos): La fuente de datos que usaremos
para graficar los datos.
Aesthetics (Estética): Son las modificaciones
estéticas que haremos asignando variables al gráfico.
Geometries (Geometría): Va a ser la forma
geométrica con la que vamos a representar los datos (barras, líneas,
puntos, etc.).
Estas tres capas son las esenciales para hacer un gráfico en
ggplot2
. Las siguientes capas nos permiten controlar otros
aspectos de la visualización.
Facets (Facetas o lados): Si tenemos un gráfico
que combina varios elementos, los facets nos permiten un
gráfico individual por cada elemento.
Statistics (Estadística): Podemos agregar una
capa que incorpore por ejemplo una regresión lineal o bien una
referencia como un valor promedio.
Coordinates (Ejes): Nos permite controlar los
ejes, desde su presentación, o incluso los límites, etc..
Theme (Estilo): Controla aspectos visuales sobre
el fondo, fuente, ejes, etc..
Haciendo gráficos con ggplot2
La sintáxis básica de ggplot2
es la siguiente:
ggplot(nombre_dataframe, aes(x, y)) +
geom_XXX
La función para hacer gráficos siempre será
ggplot()
.
Luego tenemos que poner el nombre del data frame.
Adentro del aes()
ponemos las columnas que queremos ver
reflejadas en el gráfico. Esto en la jerga de R se llama mapear
variables en el gráfico. Las variables las podemos utilizar además
de verlas reflejadas en los ejes x
, e y
,
también pueden usarse para modificar el color y el tamaño de los
elementos de un gráfico.
Por último, con geom_xxx()
le indicamos la forma
geométrica que puede adoptar la visualización (gráficos, puntos, líneas,
etc.).
Para sumar capas en un gráfico tenemos que usar el signo
+
. Un error común que cometo es confundirlo por el
pipe %>%
.
Los geoms que veremos en estas clases son:
geom_histogram()
: Para graficar histogramas. Nos
permiten ver la distribución de una variable numérica. Se puede graficar
mapeando una sola variable al menos.
geom_freqpoly()
: También nos permite ver la
distribución de una variable numérica, atenuando la curva. Se puede
graficar mapeando una sola variable al menos.
geom_boxplot()
: Hace gráficos boxplot, también
conocidos como de bigote y caja. Permite visualizar una gran cantidad de
información estadística.
geom_bar()
: Hace gráficos de barras. El largo de las
barras lo determina la cantidad de filas de lo que estemos mapeando.
Funciona incluso con un sólo eje.
geom_col()
: También hace gráficos de barra pero el
largo lo determina el valor de la/s celda/s que grafiquemos. Necesita
por lo menos mapear una variable para el eje x, y otro para el eje
y.
geom_line()
: Para hacer gráficos de línea.
geom_point()
: Para hacer gráficos de dispersión
(también conocidos como scatter plots).
Estos no son todos los tipos de gráficos que se pueden hacer con
ggplot2
. En 2020 la comunidad hispanoparlante de R lanzó
una actividad llamada 30 Días de Gráficos en honor de
Florence
Nightingale, un desafío en el cual a lo largo de 30 días quien
quisiera podría hacer un tipo de gráfico diferente.
Pueden ver una muestra de todos los gráficos en el repositorio de
GitHub de Ariadna
Angulo Brunet, una psicóloga española que realizó los 30
gráficos.
Histogramas
Los histogramas son un tipo de gráfico que nos permite ver la
distribución de una variable numérica, y entre otras cosas, analizar por
ejemplo su simetría.
Por default, geom_histogram()
divide a la variable
numérica en 30 secciones con un rango de valores. El largo de cada barra
estará determinado por la cantidad de observaciones que quedan dentro de
cada rango de valores.
Hagamos un histograma de la variable sueldo_bruto
del
data frame kiwi
.
# Hagamos un histograma de sueldo_bruto del data frame kiwi
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

Cada barra de un histograma en R se llama bin
.
Podemos controlar la cantidad de barras que vemos usando dentro de
geom_histogram()
el parámetro bins
y asignando
el número que más nos sirva. También podemos modificar el ancho de los
bins con el parámetro bindwidth
.
# Modifiquemos la cantidad de bins a 15
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram(bins = 15)

# Modifiquemos el ancho de los bins por 20000
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram(binwidth = 25000)

Una alternativa a los histogramas es geom_freqpoly()
que
permite ver la forma de la distribución, generando un gráfico de líneas
al centro de cada bin.
También existe geom_density()
que permite ver una curva
atenuada de la distribución, pero como el eje y
muestra la
proporción de la distribución es un poco más compleja de
interpretar.
# Hacer un histograma de sueldo_bruto
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

# Hacer un histograma de sueldo_bruto y combinarlo con geom_freqpoly()
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram() +
geom_freqpoly()

# Hacer un gráfico de densidad
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_density()

Boxplots
Los boxplots son gráficos que contienen una gran cantidad de
información estadística.

En este gráfico podemos ver:
- Los cuartiles 1 y 3 (Q1 y Q3) en los bordes de la caja.
- La mediana que es la linea dentro de la caja.
- Los outliers, representados en puntos, que son observaciones que
superan una vez y media (1,5 veces) el rango intercuartil.
Además, la extensión de la caja nos permite tener una idea de la
distribución de los datos.
# Hacer un boxplot básico
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_boxplot()

# Compararlo con un histograma
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

En la explicación previa, decíamos que podemos “mapear” una
variable para modificar el color de un gráfico. En los tipos de gráficos
que contienen una superficie, como los boxplots o los gráficos de
barras, el parámetro que necesitamos para modificar los colores en
función de una variable se llama fill
y lo tenemos que usar
dentro del aes()
.
# Mapear la variable género con el parámetro fill
ggplot(kiwi, aes(y = sueldo_bruto, fill = genero)) +
geom_boxplot()

Prácticas
Usando los data frames maestro
y mensuales
realizar los siguientes gráficos:
# Realizar un histograma de EDAD del data frame maestro
# Realizar un histograma y un freqpoly de los sueldos en mensuales
# Realizar un boxplot de mensuales, mapeando PUESTO en el eje x y SUELDO en y.

Gráficos de barra
geom_bar()
En R contamos con dos geoms para hacer gráficos de
barra:
geom_bar()
: El largo de la barra lo determina la
cantidad de filas de una columna. Se pueden hacer
mapeando una sola variable.
geom_col()
: El largo de la barra lo determina el
valor de la celda. Otra diferencia respecto de
geom_bar()
es que necesitamos mapear una variable al eje
x
y otra variable al eje y
.
Usemos el data frame kiwi
para probar ambos
gráficos.
# Hacer un gráfico de barras mapeando puesto al eje x
# Usar geom_bar()
ggplot(kiwi, aes(x = puesto, fill = genero)) +
geom_bar()

Si mapeamos, por ejemplo la variable genero
al color,
podemos controlar la posición de las barras con los siguientes
parámetros:
position = "dodge"
: Para poner las barras una al
lado de la otra.
position = "identity"
: Pone una barra detrás de la
otra.
position = "stack"
: Para hacer gráficos apilados. Es
la opción por default de geom_bar()
.
position = "fill"
: Para hacer un gráfico apilado al
100%
Las visualizaciones también se pueden guardar en objetos. Lo cual nos
permite ahorrar mucho tiempo escribiendo.
# Guardar la primera parte del gráfico en un objeto
barras <- ggplot(kiwi, aes(x = puesto, fill = genero))
# Reutilizamos el objeto para hacer gráficos de barras
barras +
geom_bar()

Ahora probemos modificar los parámetros con las opciones
dodge
, identity
y fill
.
# Usar el objeto vis1 y modificar el parámetro dodge dentro de geom_bar()
barras +
geom_bar(position = "dodge")

# Usar position = "identity"
barras +
geom_bar(position = "identity", alpha = 0.6)

# Usar position = "fill"
barras +
geom_bar(position = "fill")

geom_col()
A diferencia de geom_bar()
necesitamos pasar una columna
al eje x
y una columna al eje y
. Pero antes,
vamos a necesitar hacer un par de cálculos previos.
sueldo_rubro <- kiwi %>%
group_by(rubro) %>% # Agrupo por rubro
summarise(sueldo_promedio = mean(sueldo_bruto)) %>% # Calculo sueldo promedio
slice_max(n = 10, # Nos permite recortar la salida
order_by = sueldo_promedio) # Criterio para ordenar resultados
# Veamos el contenido
sueldo_rubro
## # A tibble: 10 × 2
## rubro sueldo_promedio
## <chr> <dbl>
## 1 Minería (carbón, otra minería) 105792.
## 2 Industrias químicas 104261.
## 3 Servicios financieros; seguros 103052.
## 4 Ingeniería mecánica 102000
## 5 Medios de comunicación; cultura; gráficos 101120
## 6 Oil & gas 96244.
## 7 Silvicultura; madera; celulosa; papel 96000
## 8 Transporte marítimo; puertos; 91667.
## 9 Alimentación; bebidas; tabaco 91389.
## 10 Servicios de correos, y de telecomunicaciones 84620
Como decíamos antes, ahora podemos mapear una variable (asignar) al
eje x
y asignar otra variable al eje y
.
# Hacer un gráfico de columnas
ggplot(sueldo_rubro, aes(x = rubro, y = sueldo_promedio)) +
geom_col()

No necesariamente tenemos que mapear las columnas de texto al eje
x
. Cuando las etiquetas son largas, para hacerlo más
legible al eje, podemos asignar las variables de texto al eje
y
.
# Repetir el gráfico anterior pero invirtiendo los ejes
ggplot(sueldo_rubro, aes(y = rubro, x = sueldo_promedio)) +
geom_col() +
geom_text(aes(label = round(sueldo_promedio)),
size = 3,
hjust = 1.2,
color = "white")

Cuando la variable de texto no tiene un orden implícito, como las
jerarquías de un puesto por ejemplo, una buena práctica es ordenar las
barras de mayor a menor. Esto simplifica al lector la interpretación del
gráfico (o en otras palabras, hace que nuestro trabajo sea de mayor
calidad).
Hay varias formas de lograr esto, una forma simple de hacerlo es con
la función reorder()
.
# Repetir el gráfico anterior, pero ordenando las barras de mayor a menor
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
y = reorder(rubro, sueldo_promedio))) +
geom_col()

La sintaxis de reorder()
es la siguiente:
eje = reorder(variable_eje, variable_criterio)
En el ejemplo anterior hicimos
y = reorder(rubro, sueldo_promedio)
. Vamos por partes:
y
: es el eje al cual estamos asignando (mapeando) la
variable.
reorder()
: es la función:
rubro
: es la variable que estamos asignando al eje
y
en este caso.
sueldo_promedio
: El criterio por el cual vamos a
ordenar las barras. Si queremos ordenar las barras al revés sólo tenemos
que poner el signo menos (-
) delante de la variable que
estamos usando como criterio de orden (por ejemplo
-sueldo_promedio
).
Algo que no está bueno en el gráfico anterior es que se muestran los
nombres de los ejes tal cual como vienen en el data frame original. Una
función que nos permite añadir títulos y corregir los nombres de las
variables es la función labs()
.
# Repetir el gráfico anterior, y añadir títulos, subtítulos, ejes, y nota al pie
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
y = reorder(rubro, sueldo_promedio))) +
geom_col() +
labs(title = "Sueldo promedio por rubro",
subtitle = "En AR$ - Puestos de RRHH",
x = "Sueldo Promedio",
y = "Rubro",
caption = "Fuente: Encuesta KIWI 2020")

Para saber más sobre estética de los gráficos pueden ver la sesión
4 de R4HR Club de R para RRHH, y también la sesión de Microaprendizajes.
Gráficos de líneas
Los gráficos de líneas son el gráfico por excelencia para visualizar
series de tiempo, es decir la evolución temporal de una variable.
Para este ejemplo vamos a utilizar el data frame de
rotacion
.
# Veamos el contenido del data frame 'rotacion'
rotacion
## Periodo Movimientos Cantidades
## 1 2010 Ingresos 9
## 2 2010 Egresos 2
## 3 2011 Ingresos 84
## 4 2011 Egresos 14
## 5 2012 Ingresos 44
## 6 2012 Egresos 17
## 7 2013 Ingresos 44
## 8 2013 Egresos 15
## 9 2014 Ingresos 60
## 10 2014 Egresos 14
## 11 2015 Ingresos 36
## 12 2015 Egresos 27
## 13 2016 Ingresos 14
## 14 2016 Egresos 14
Para ver la evolución de ambas líneas, podemos mapear:
# Hacer un gráfico de líneas con la evolución temporal de los Ingresos y Egresos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line()

Para marcar la sección donde corta cada año, podemos agregar una capa
de puntos al gráfico anterior. Juguemos con el parámetro
size
dentro de geom_point()
.
# Agregar una capa de puntos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line() +
geom_point(size = 2)

Este es un buen momento para ver la utilidad de los
facets.
# Añadir una capa de facet_wrap(~Movimientos)
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line() +
geom_point(size = 2) +
facet_wrap(~Movimientos)

Gráficos de dispersión - Scatter plots
Los gráficos, o diagramas de dispersión, son una gran forma de
visualizar relaciones entre variables numéricas, concentraciones de
datos, entre otras cosas. Es una forma de introducirnos en el análisis
de regresiones lineales.
También permiten la concentración de datos entre variables numéricas
y categóricas. El geom que necesitaremos es
geom_point()
.
# Realizar un gráfico de dispersión entre anios_experiencia y sueldo_bruto
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
geom_point()

Si quisiéramos trazar una recta de regresión, una forma de hacerlo es
la siguiente:
# Agregar una regresión lineal
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
geom_point() +
geom_smooth(method = "lm")

Como decíamos, también podemos analizar la distribución de los datos
entre una variable categórica y una variable numérica
# Graficar genero vs. sueldo_bruto
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
geom_point()

Cuando hacemos gráficos de dispersión, dos parámetros muy útiles para
analizar donde hay más concentración de datos, son los parámetros
jitter y alpha.
Jitter le añade un poco de ruido a los datos para
evitar la superposición de puntos, pero manteniendo la distribución de
los datos. Hablando mal y pronto, lo que hace es mover un poquito los
puntos dentro del gráfico para que sean más visibles.
Otro parámetro muy útil es alpha que le añade
transparencia a los puntos, lo cual nos ayuda a ver donde hay más
concentración de datos, en donde haya más oscuridad del color.
También se puede jugar con el parámetro size o
shape para modificar el tamaño, o la forma de los
puntos.
En este gráfico ponemos estos parámetros en práctica.
# Hacemos el gráfico añadiendo el parámetro jitter y alpha
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
geom_point(position = "jitter",
alpha = 0.3,
size = 2) +
theme_minimal()

Gráficos de torta

Todas las personas que trabajan en visualización de datos AMAN odiar
los gráficos de torta. De hecho en ggplot2
no hay un
geom_pie
y no conozco ninguna extensión que los realice de
manera sencilla. Aunque si existe la función de R base
pie
# Preprocesamiento
satisfaccion <- kiwi %>%
select(satisfaccion) %>%
filter(!is.na(satisfaccion)) %>%
group_by(satisfaccion) %>%
tally() %>%
arrange(satisfaccion)
# Hacemos el gráfico en R base
pie(satisfaccion$n)

De todas maneras, como dice mi abuela, siempre hay un roto para
un descosido y aquí les presento una forma de realizar un
gráfico de dona.
En esencia, lo que vamos a hacer es un gráfico de barras apiladas al
100% al cual doblaremos, de la misma manera que las cucharas en
Matrix.

Primero haremos un gráfico de barras apiladas al 100%, cuyas
porciones (rectángulos) “doblaremos” posteriormente. En este ejemplo,
vamos a hacer un gráfico de dona sobre el porcentaje de gente y el tipo
de universidad. Para lo cual tenemos que hacer un pequeño
preprocesamiento de datos:
# Crear un objeto llamado educacion
educacion <- kiwi %>%
select(tipo_universidad) %>% # Selecciona la columna
group_by(tipo_universidad) %>% # Agrupa por tipo_universidad
summarise(cantidad = n()) %>% # Agrega columna con cantidad de casos
mutate(porcentaje = cantidad / sum(cantidad)) %>% # Agrega columna de porcentaje
arrange(-cantidad) # Ordena descendemtente por cantidad
# Veamos el resultado
educacion
## # A tibble: 3 × 3
## tipo_universidad cantidad porcentaje
## <chr> <int> <dbl>
## 1 Universidad Pública 246 0.502
## 2 Universidad Privada 222 0.453
## 3 No estudié en la Universidad 22 0.0449
El siguiente paso es determinar dónde empieza y dónde termina cada
rectángulo que vamos a crear. Eso lo vamos a poner en unas columnas
nuevas que llamaremos ymax
y ymin
.
# Calculamos los límites superiores de cada rectángulo
educacion$ymax <- cumsum(educacion$porcentaje)
# Calculamos el límite inferior de cada porción
educacion$ymin <- c(0, head(educacion$ymax, n=-1))
# Calculamos la posición de la etiqueta
educacion$posicion_etiqueta <- (educacion$ymax + educacion$ymin) / 2
# Creamos las etiquetas de cada porción
educacion$etiqueta <- paste0(educacion$tipo_universidad, # paste0 pega elementos
"\n Cant: ",
educacion$cantidad)
# Ver como quedó el data frame
educacion
## # A tibble: 3 × 7
## tipo_universidad cantidad porcentaje ymax ymin posicio…¹ etiqu…²
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 Universidad Pública 246 0.502 0.502 0 0.251 "Unive…
## 2 Universidad Privada 222 0.453 0.955 0.502 0.729 "Unive…
## 3 No estudié en la Universidad 22 0.0449 1 0.955 0.978 "No es…
## # … with abbreviated variable names ¹posicion_etiqueta, ²etiqueta
Los pasos anteriores crearon la posición donde comienzan y donde
termina cada barra, en donde se ubica cada etiqueta, y por último, qué
va a decir cada etiqueta.
Con la función paste0()
lo que hacemos es concatenar
varios elementos, primero, los valores de la columna
tipo_universidad
(Universidad Pública, Universidad
Privada, etc.), luego, con la barra invertida y la n
\n
en otro renglón agrega la palabra Cant:
y
finalmente pone el valor de la columna cantidad
.
Ahora, vamos a hacer el gráfico capa por capa para que vean cómo se
construye:
# Realizar el gráfico de dona
# Primera capa del gráfico
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect()

# There is no spoon! Nuestro primer gráfico de torta
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y")

# Recortamos el centro de la torta
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y") +
xlim(c(2,4))

# Así quedaría el gráfico de barra sin coord_polar
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
xlim(c(2,4))

# Agregamos algunas modificaciones estéticas
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y") +
xlim(c(2,4)) +
theme_void() + # Elimina fondos y referencias
scale_fill_viridis_d() + # Define una escala de colores
theme(legend.position = "right",
plot.title.position = "plot") + # Modifica posición leyendas y del título
labs(title = "Respuestas según Tipo de Universidad",
fill = "Tipo de Universidad",
caption = "Fuente: Encuesta KIWI de Sueldos de RH 2020") +
geom_label(x = 3.5,
aes(y = posicion_etiqueta,
label = etiqueta),
size = 3)

Check out
ggplot2
es un paquete que tiene una infinidad de
posibilidades, tiene muchas extensiones que posibilitan construir todo
tipo de gráficos, añadirles interactividad, información dinámica y
muchas cosas más.
Este paquete construye los gráficos por capas. Las capas
fundamentales son:
Los gráficos además se pueden combinar agregando capas, lo cual
posibilita agregar información, o limpiar los gráficos para añadir
información de contexto.
Customizar un gráfico lleva trabajo, pero todos esos elementos se
pueden guardar en objetos y reutilizarlos para ahorrar código y
esfuerzo.
Esto me permite ir trabajando progresivamente con los gráficos.
Primero me aseguro que el gráfico funcione, y luego voy incorporando
capas para definir colores, los ejes, los títulos, y finalmente la
estética general del gráfico.
Pueden explorar algunas extensiones en este link: https://exts.ggplot2.tidyverse.org/gallery/. También hay
un libro online (en inglés) que pueden revisar acá: https://ggplot2-book.org/.
---
title: "Visualización de Datos"
author: "Sergio Garcia Mora | Data 4HR"
date: "11/10/2022"
output: 
  html_document:
    theme: lumen
    highlight: pygments
    toc: true
    toc_float: true
    code_folding: show
    code_download: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE, fig.retina = 3, out.width = "80%")
```

# Visualización de Datos con `ggplot2`

La visualización de datos es una de las etapas fundamentales en el análisis de datos porque se relaciona con **la comunicación** de los resultados.

Una buena visualización permite:

-   condensar mucha información
-   evidenciar nuestro punto de vista
-   contar historias con datos

**ggplot2** es uno de los paquetes que está dentro de *tidyverse* y es **el** paquete más utilizado para hacer gráficos.

Podés consultar un [cheatsheet en castellano en este link](https://github.com/rstudio/cheatsheets/raw/master/translations/spanish/data-visualization_es.pdf).

![](Archivos/dia12-2.png){width="420"}

![](Archivos/scatter-fin-1.png){width="383"}

El paquete `ggplot2` es uno de los paquetes dentro de la colección `tidyverse`, y que está basado en la teoría de **"grammar of graphics"** (la gramática de los gráficos), porque permite construir los gráficos por capas, controlando las características individuales de cada uno.

![Las capas de los gráficos](Archivos/grammar_graphics_details.png)

Esto implica que podemos controlar desde la **estructura** del gráfico (títulos, ejes) hasta todo lo que pasa dentro de la **visualización**.

Veamos en detalle cada una de las capas:

-   **Data (Datos):** La fuente de datos que usaremos para graficar los datos.

-   **Aesthetics (Estética):** Son las modificaciones estéticas que haremos asignando variables al gráfico.

-   **Geometries (Geometría):** Va a ser la forma geométrica con la que vamos a representar los datos (barras, líneas, puntos, etc.).

Estas tres capas son las esenciales para hacer un gráfico en `ggplot2`. Las siguientes capas nos permiten controlar otros aspectos de la visualización.

-   **Facets (Facetas o lados):** Si tenemos un gráfico que combina varios elementos, los *facets* nos permiten un gráfico individual por cada elemento.

-   **Statistics (Estadística):** Podemos agregar una capa que incorpore por ejemplo una regresión lineal o bien una referencia como un valor promedio.

-   **Coordinates (Ejes):** Nos permite controlar los ejes, desde su presentación, o incluso los límites, etc..

-   **Theme (Estilo)**: Controla aspectos visuales sobre el fondo, fuente, ejes, etc..

# Preparándonos

Al igual que con cualquier paquete, necesitamos instalar y cargar el paquete para utilizarlo.

*Si ya instalamos `tidyverse()` no hace faltar volver a instalar `ggplot2`.*

```{r instalar-pkg, eval=FALSE}
install.packages("ggplot2")
```

Luego, tenemos que cargar el paquete. También cargaremos otros paquetes para cargar y manipular datos.

```{r cargar-ggplot2}
# Cargar los paquetes ggplot2, readxl, y dplyr
library(ggplot2)   # Visualización de datos
library(readxl)    # Cargar archivos de Excel
library(dplyr)    # Limpieza y manipulación de datos
```

## Fuentes de datos

Los datos que utilizaremos para trabajar son los siguientes.

-   `maestro.xlsx` y `salarios.xlsx` que son un listado de empleados y también un listado de sueldos de empleados mensualizados.
-   `rotacion.csv` que muestra la evolución de ingresos y de egresos a lo largo de varios años.
-   `kiwi_ar.RDS`, un archivo de datos propio de R que contiene un data frame más limpio y manteniendo algunas características.

```{r datos}
# Cargar los archivos de Excel
maestro <- read_xlsx("maestro.xlsx")
salarios <- read_xlsx("salarios.xlsx")

## Unir ambos data frames
mensuales <- left_join(maestro, salarios, by = "ID") %>% 
  filter(!is.na(PUESTO))  # Filtra todas las filas que no están vacías de la columna PUESTO

# Cargar el archivo rotacion.csv
rotacion <- read.csv("rotacion.csv", 
                     sep = ";")   # Indica el símbolo que separa las columnas

# Cargar el archivo kiwi_ar.RDS
kiwi <- readRDS("kiwi_ar.RDS")


```

# Haciendo gráficos con ggplot2

La sintáxis básica de `ggplot2` es la siguiente:

```{r ggp1, eval = FALSE}
ggplot(nombre_dataframe, aes(x, y)) +
         geom_XXX
```

La función para hacer gráficos siempre será `ggplot()`.

Luego tenemos que poner el nombre del data frame.

Adentro del `aes()` ponemos las columnas que queremos ver reflejadas en el gráfico. Esto en la jerga de R se llama *mapear variables en el gráfico*. Las variables las podemos utilizar además de verlas reflejadas en los ejes `x`, e `y`, también pueden usarse para modificar el color y el tamaño de los elementos de un gráfico.

Por último, con `geom_xxx()` le indicamos la forma geométrica que puede adoptar la visualización (gráficos, puntos, líneas, etc.).

Para sumar capas en un gráfico tenemos que usar el signo `+`. Un error común que cometo es confundirlo por el *pipe* `%>%`.

Los *geoms* que veremos en estas clases son:

-   `geom_histogram()`: Para graficar histogramas. Nos permiten ver la distribución de una variable numérica. Se puede graficar mapeando una sola variable al menos.
-   `geom_freqpoly()`: También nos permite ver la distribución de una variable numérica, atenuando la curva. Se puede graficar mapeando una sola variable al menos.
-   `geom_boxplot()`: Hace gráficos boxplot, también conocidos como de bigote y caja. Permite visualizar una gran cantidad de información estadística.
-   `geom_bar()`: Hace gráficos de barras. El largo de las barras lo determina la cantidad de filas de lo que estemos mapeando. Funciona incluso con un sólo eje.
-   `geom_col()`: También hace gráficos de barra pero el largo lo determina el valor de la/s celda/s que grafiquemos. Necesita por lo menos mapear una variable para el eje x, y otro para el eje y.
-   `geom_line()`: Para hacer gráficos de línea.
-   `geom_point()`: Para hacer gráficos de dispersión (también conocidos como scatter plots).

Estos no son todos los tipos de gráficos que se pueden hacer con `ggplot2`. En 2020 la comunidad hispanoparlante de R lanzó una actividad llamada **30 Días de Gráficos** en honor de [Florence Nightingale](https://mujeresconciencia.com/2014/05/12/florence-nigthingale-pionera-estadistica/), un desafío en el cual a lo largo de 30 días quien quisiera podría hacer un tipo de gráfico diferente.

Pueden ver una muestra de todos los gráficos en el repositorio de GitHub de [Ariadna Angulo Brunet](https://github.com/AnguloB/datosdemiercoles), una psicóloga española que realizó los 30 gráficos.

## Histogramas

Los histogramas son un tipo de gráfico que nos permite ver la distribución de una variable numérica, y entre otras cosas, analizar por ejemplo su simetría.

Por default, `geom_histogram()` divide a la variable numérica en 30 secciones con un rango de valores. El largo de cada barra estará determinado por la cantidad de observaciones que quedan dentro de cada rango de valores.

Hagamos un histograma de la variable `sueldo_bruto` del data frame `kiwi`.

```{r hist1}
# Hagamos un histograma de sueldo_bruto del data frame kiwi
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

```

Cada *barra* de un histograma en R se llama `bin`. Podemos controlar la cantidad de barras que vemos usando dentro de `geom_histogram()` el parámetro `bins` y asignando el número que más nos sirva. También podemos modificar el ancho de los *bins* con el parámetro `bindwidth`.

```{r hist2}
# Modifiquemos la cantidad de bins a 15
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(bins = 15)

# Modifiquemos el ancho de los bins por 20000
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram(binwidth = 25000)
```

Una alternativa a los histogramas es `geom_freqpoly()` que permite ver la forma de la distribución, generando un gráfico de líneas al centro de cada bin.

También existe `geom_density()` que permite ver una curva atenuada de la distribución, pero como el eje `y` muestra la proporción de la distribución es un poco más compleja de interpretar.

```{r hist3}
# Hacer un histograma de sueldo_bruto
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

# Hacer un histograma de sueldo_bruto y combinarlo con geom_freqpoly()
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram() +
  geom_freqpoly()

# Hacer un gráfico de densidad
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_density()
```

## Boxplots

Los boxplots son gráficos que contienen una gran cantidad de información estadística.

![](Archivos/boxplot.png){width="494"}

En este gráfico podemos ver:

-   Los cuartiles 1 y 3 (Q1 y Q3) en los bordes de la caja.
-   La mediana que es la linea dentro de la caja.
-   Los outliers, representados en puntos, que son observaciones que superan una vez y media (1,5 veces) el rango intercuartil.

Además, la extensión de la caja nos permite tener una idea de la **distribución** de los datos.

```{r boxp1}
# Hacer un boxplot básico
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_boxplot()

# Compararlo con un histograma
ggplot(kiwi, aes(x = sueldo_bruto)) +
  geom_histogram()

```

En la explicación previa, decíamos que podemos *"mapear"* una variable para modificar el color de un gráfico. En los tipos de gráficos que contienen una superficie, como los boxplots o los gráficos de barras, el parámetro que necesitamos para modificar los colores en función de una variable se llama `fill` y lo tenemos que usar dentro del `aes()`.

```{r boxp2}
# Mapear la variable género con el parámetro fill
ggplot(kiwi, aes(y = sueldo_bruto, fill = genero)) +
  geom_boxplot()

```

### Prácticas

Usando los data frames `maestro` y `mensuales` realizar los siguientes gráficos:

```{r practica1}
# Realizar un histograma de EDAD del data frame maestro


# Realizar un histograma y un freqpoly de los sueldos en mensuales


# Realizar un boxplot de mensuales, mapeando PUESTO en el eje x y SUELDO en y.

```

![](https://media.giphy.com/media/LTYT5GTIiAMBa/giphy.gif){width="311"}

## Gráficos de barra

### geom_bar()

En R contamos con dos *geoms* para hacer gráficos de barra:

-   `geom_bar()`: El largo de la barra lo determina la **cantidad de filas** de una columna. Se pueden hacer mapeando una sola variable.

-   `geom_col()`: El largo de la barra lo determina el **valor de la celda**. Otra diferencia respecto de `geom_bar()` es que necesitamos mapear una variable al eje `x` y otra variable al eje `y`.

Usemos el data frame `kiwi` para probar ambos gráficos.

```{r bar1}
# Hacer un gráfico de barras mapeando puesto al eje x
# Usar geom_bar()
ggplot(kiwi, aes(x = puesto, fill = genero)) +
  geom_bar() 
```

Si mapeamos, por ejemplo la variable `genero` al color, podemos controlar la posición de las barras con los siguientes parámetros:

-   `position = "dodge"`: Para poner las barras una al lado de la otra.

-   `position = "identity"`: Pone una barra detrás de la otra.

-   `position = "stack"`: Para hacer gráficos apilados. Es la opción por default de `geom_bar()`.

-   `position = "fill"`: Para hacer un gráfico apilado al 100%

Las visualizaciones también se pueden guardar en objetos. Lo cual nos permite ahorrar mucho tiempo escribiendo.

```{r bar2}
# Guardar la primera parte del gráfico en un objeto
barras <- ggplot(kiwi, aes(x = puesto, fill = genero)) 

# Reutilizamos el objeto para hacer gráficos de barras
barras + 
  geom_bar()
```

Ahora probemos modificar los parámetros con las opciones `dodge`, `identity` y `fill`.

```{r bar3}
# Usar el objeto vis1 y modificar el parámetro dodge dentro de geom_bar()
barras +
  geom_bar(position = "dodge")

# Usar position = "identity"
barras +
  geom_bar(position = "identity", alpha = 0.6)

# Usar position = "fill"
barras + 
  geom_bar(position = "fill")

```

### geom_col()

A diferencia de `geom_bar()` necesitamos pasar una columna al eje `x` y una columna al eje `y`. Pero antes, vamos a necesitar hacer un par de cálculos previos.

```{r promedios}
sueldo_rubro <- kiwi %>% 
  group_by(rubro) %>%     # Agrupo por rubro
  summarise(sueldo_promedio = mean(sueldo_bruto)) %>% # Calculo sueldo promedio
  slice_max(n = 10,                     # Nos permite recortar la salida
            order_by = sueldo_promedio) # Criterio para ordenar resultados

# Veamos el contenido
sueldo_rubro
```

Como decíamos antes, ahora podemos mapear una variable (asignar) al eje `x` y asignar otra variable al eje `y`.

```{r col1}
# Hacer un gráfico de columnas
ggplot(sueldo_rubro, aes(x = rubro, y = sueldo_promedio)) +
  geom_col()
```

No necesariamente tenemos que mapear las columnas de texto al eje `x`. Cuando las etiquetas son largas, para hacerlo más legible al eje, podemos asignar las variables de texto al eje `y`.

```{r col2}
# Repetir el gráfico anterior pero invirtiendo los ejes
ggplot(sueldo_rubro, aes(y = rubro, x = sueldo_promedio)) +
  geom_col() +
  geom_text(aes(label = round(sueldo_promedio)),
            size = 3,
            hjust = 1.2,
            color = "white")
```

Cuando la variable de texto no tiene un orden implícito, como las jerarquías de un puesto por ejemplo, una buena práctica es ordenar las barras de mayor a menor. Esto simplifica al lector la interpretación del gráfico (o en otras palabras, hace que nuestro trabajo sea de mayor calidad).

Hay varias formas de lograr esto, una forma simple de hacerlo es con la función `reorder()`.

```{r col3}
# Repetir el gráfico anterior, pero ordenando las barras de mayor a menor
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col()
 
```

La sintaxis de `reorder()` es la siguiente:

```{r reorder, eval=FALSE}
eje = reorder(variable_eje, variable_criterio) 
```

En el ejemplo anterior hicimos `y = reorder(rubro, sueldo_promedio)`. Vamos por partes:

-   `y`: es el eje al cual estamos asignando (mapeando) la variable.

-   `reorder()`: es la función:

-   `rubro`: es la variable que estamos asignando al eje `y` en este caso.

-   `sueldo_promedio`: El criterio por el cual vamos a ordenar las barras. Si queremos ordenar las barras al revés sólo tenemos que poner el signo menos (`-`) delante de la variable que estamos usando como criterio de orden (por ejemplo `-sueldo_promedio`).

Algo que no está bueno en el gráfico anterior es que se muestran los nombres de los ejes tal cual como vienen en el data frame original. Una función que nos permite añadir títulos y corregir los nombres de las variables es la función `labs()`.

```{r col4}
# Repetir el gráfico anterior, y añadir títulos, subtítulos, ejes, y nota al pie
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
                         y = reorder(rubro, sueldo_promedio))) +
  geom_col() +
  labs(title = "Sueldo promedio por rubro",
       subtitle = "En AR$ - Puestos de RRHH",
       x = "Sueldo Promedio",
       y = "Rubro",
       caption = "Fuente: Encuesta KIWI 2020")

```

Para saber más sobre estética de los gráficos pueden ver la [sesión 4 de R4HR Club de R para RRHH](https://drive.google.com/drive/folders/1aHiCbYFdMP4Gn-pADkqRTpq0M71236qZ?usp=sharing), y también la sesión de [Microaprendizajes](https://rpubs.com/Data4HR/r4hr-microaprendizajes).

## Gráficos de líneas

Los gráficos de líneas son el gráfico por excelencia para visualizar series de tiempo, es decir la evolución temporal de una variable.

Para este ejemplo vamos a utilizar el data frame de `rotacion`.

```{r linea}
# Veamos el contenido del data frame 'rotacion'
rotacion
```

Para ver la evolución de ambas líneas, podemos mapear:

-   `Periodo` al eje x

-   `Cantidades` al eje y

-   `Movimientos` como `color`.

-   `geom_line()` como visualización

```{r linea2}
# Hacer un gráfico de líneas con la evolución temporal de los Ingresos y Egresos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line()
```

Para marcar la sección donde corta cada año, podemos agregar una capa de puntos al gráfico anterior. Juguemos con el parámetro `size` dentro de `geom_point()`.

```{r linea3}
# Agregar una capa de puntos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2)

```

Este es un buen momento para ver la utilidad de los *facets*.

```{r linea-4}
# Añadir una capa de facet_wrap(~Movimientos)
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
  geom_line() +
  geom_point(size = 2) +
  facet_wrap(~Movimientos)
```

## Gráficos de dispersión - Scatter plots

Los gráficos, o diagramas de dispersión, son una gran forma de visualizar relaciones entre variables numéricas, concentraciones de datos, entre otras cosas. Es una forma de introducirnos en el análisis de regresiones lineales.

También permiten la concentración de datos entre variables numéricas y categóricas. El *geom* que necesitaremos es `geom_point()`.

```{r scater1}
# Realizar un gráfico de dispersión entre anios_experiencia y sueldo_bruto
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point()
```

Si quisiéramos trazar una recta de regresión, una forma de hacerlo es la siguiente:

```{r scatter-reg}
# Agregar una regresión lineal
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
  geom_point() +
  geom_smooth(method = "lm")
```

Como decíamos, también podemos analizar la distribución de los datos entre una variable categórica y una variable numérica

```{r scater2}
# Graficar genero vs. sueldo_bruto
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point()
```

Cuando hacemos gráficos de dispersión, dos parámetros muy útiles para analizar donde hay más concentración de datos, son los parámetros **jitter** y **alpha**.

**Jitter** le añade un poco de ruido a los datos para evitar la superposición de puntos, pero manteniendo la distribución de los datos. Hablando mal y pronto, lo que hace es mover un poquito los puntos dentro del gráfico para que sean más visibles.

Otro parámetro muy útil es **alpha** que le añade transparencia a los puntos, lo cual nos ayuda a ver donde hay más concentración de datos, en donde haya más oscuridad del color.

También se puede jugar con el parámetro **size** o **shape** para modificar el tamaño, o la forma de los puntos.

En este gráfico ponemos estos parámetros en práctica.

```{r scatter-fin}
# Hacemos el gráfico añadiendo el parámetro jitter y alpha
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
  geom_point(position = "jitter",
             alpha = 0.3,
             size = 2) +
  theme_minimal()
```

## Gráficos de torta

![](https://github.com/chechoid/pepaitba/blob/main/inst/tutorials/pepa1/pie_crocs.jpg?raw=true){width="302"}

Todas las personas que trabajan en visualización de datos AMAN odiar los gráficos de torta. De hecho en `ggplot2` no hay un `geom_pie` y no conozco ninguna extensión que los realice de manera sencilla. Aunque si existe la función de R base `pie`

```{r pie-base}
# Preprocesamiento
satisfaccion <- kiwi %>% 
  select(satisfaccion) %>% 
  filter(!is.na(satisfaccion)) %>% 
  group_by(satisfaccion) %>% 
  tally() %>% 
  arrange(satisfaccion)

# Hacemos el gráfico en R base
pie(satisfaccion$n)
```

De todas maneras, como dice mi abuela, *siempre hay un roto para un descosido* y aquí les presento una forma de realizar un **gráfico de dona**.

En esencia, lo que vamos a hacer es un gráfico de barras apiladas al 100% al cual doblaremos, de la misma manera que las cucharas en Matrix.

![](https://img1.wsimg.com/isteam/ip/320bde44-561e-41e4-a5aa-4028a5c5d883/there%2520is%2520no%2520spoon.jpg){width="344"}

Primero haremos un gráfico de barras apiladas al 100%, cuyas porciones (rectángulos) "doblaremos" posteriormente. En este ejemplo, vamos a hacer un gráfico de dona sobre el porcentaje de gente y el tipo de universidad. Para lo cual tenemos que hacer un pequeño preprocesamiento de datos:

```{r pie-pre}
# Crear un objeto llamado educacion
educacion <- kiwi %>% 
  select(tipo_universidad) %>%            # Selecciona la columna
  group_by(tipo_universidad) %>%          # Agrupa por tipo_universidad
  summarise(cantidad = n()) %>%           # Agrega columna con cantidad de casos
  mutate(porcentaje = cantidad / sum(cantidad)) %>% # Agrega columna de porcentaje
  arrange(-cantidad)                      # Ordena descendemtente por cantidad

# Veamos el resultado
educacion
```

El siguiente paso es determinar dónde empieza y dónde termina cada rectángulo que vamos a crear. Eso lo vamos a poner en unas columnas nuevas que llamaremos `ymax` y `ymin`.

```{r pie-maxmin}
# Calculamos los límites superiores de cada rectángulo
educacion$ymax <- cumsum(educacion$porcentaje)

# Calculamos el límite inferior de cada porción
educacion$ymin <- c(0, head(educacion$ymax, n=-1))

# Calculamos la posición de la etiqueta
educacion$posicion_etiqueta <- (educacion$ymax + educacion$ymin) / 2

# Creamos las etiquetas de cada porción
educacion$etiqueta <- paste0(educacion$tipo_universidad, # paste0 pega elementos
                             "\n Cant: ", 
                             educacion$cantidad)

# Ver como quedó el data frame
educacion
```

Los pasos anteriores crearon la posición donde comienzan y donde termina cada barra, en donde se ubica cada etiqueta, y por último, qué va a decir cada etiqueta.

Con la función `paste0()` lo que hacemos es concatenar varios elementos, primero, los valores de la columna `tipo_universidad` (*Universidad Pública, Universidad Privada,* etc.), luego, con la barra invertida y la n `\n` en otro renglón agrega la palabra `Cant:` y finalmente pone el valor de la columna `cantidad`.

Ahora, vamos a hacer el gráfico capa por capa para que vean cómo se construye:

```{r pie-plot}
# Realizar el gráfico de dona

# Primera capa del gráfico
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() 

# There is no spoon! Nuestro primer gráfico de torta
 ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y")
 

# Recortamos el centro de la torta
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4))

# Así quedaría el gráfico de barra sin coord_polar
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  xlim(c(2,4))


# Agregamos algunas modificaciones estéticas
ggplot(educacion, aes(ymax=ymax, 
                      ymin=ymin, 
                      xmax=4, 
                      xmin=3, 
                      fill=tipo_universidad)) +
  geom_rect() +
  coord_polar(theta = "y") +
  xlim(c(2,4)) +
  theme_void() +             # Elimina fondos y referencias
  scale_fill_viridis_d() +   # Define una escala de colores
  theme(legend.position = "right",
        plot.title.position = "plot") + # Modifica posición leyendas y del título
  labs(title = "Respuestas según Tipo de Universidad",
       fill = "Tipo de Universidad", 
       caption = "Fuente: Encuesta KIWI de Sueldos de RH 2020") +
  geom_label(x = 3.5,
             aes(y = posicion_etiqueta,
                 label = etiqueta),
             size = 3)


```

## Check out

`ggplot2` es un paquete que tiene una infinidad de posibilidades, tiene muchas extensiones que posibilitan construir todo tipo de gráficos, añadirles interactividad, información dinámica y muchas cosas más.

Este paquete construye los gráficos por capas. Las capas fundamentales son:

-   Datos

-   Variables, que se asignan dentro del `aes()`.

-   Un `geom_"algo"` que le va a dar la forma al gráfico.

Los gráficos además se pueden combinar agregando capas, lo cual posibilita agregar información, o limpiar los gráficos para añadir información de contexto.

Customizar un gráfico lleva trabajo, pero todos esos elementos se pueden guardar en objetos y reutilizarlos para ahorrar código y esfuerzo.

Esto me permite ir trabajando progresivamente con los gráficos. Primero me aseguro que el gráfico funcione, y luego voy incorporando capas para definir colores, los ejes, los títulos, y finalmente la estética general del gráfico.

Pueden explorar algunas extensiones en este link: <https://exts.ggplot2.tidyverse.org/gallery/>. También hay un libro online (en inglés) que pueden revisar acá: <https://ggplot2-book.org/>.
