Visualización de Datos con ggplot2
La visualización de datos es una de las etapas fundamentales en el
análisis de datos porque se relaciona con la
comunicación de los resultados.
Una buena visualización permite:
- condensar mucha información
- evidenciar nuestro punto de vista
- contar historias con datos
ggplot2 es uno de los paquetes que está dentro de
tidyverse y es el paquete más utilizado para
hacer gráficos.
Podés consultar un cheatsheet
en castellano en este link.


El paquete ggplot2
es uno de los paquetes dentro de la
colección tidyverse
, y que está basado en la teoría de
“grammar of graphics” (la gramática de los gráficos),
porque permite construir los gráficos por capas, controlando las
características individuales de cada uno.
Esto implica que podemos controlar desde la
estructura del gráfico (títulos, ejes) hasta todo lo
que pasa dentro de la visualización.
Veamos en detalle cada una de las capas:
Data (Datos): La fuente de datos que usaremos
para graficar los datos.
Aesthetics (Estética): Son las modificaciones
estéticas que haremos asignando variables al gráfico.
Geometries (Geometría): Va a ser la forma
geométrica con la que vamos a representar los datos (barras, líneas,
puntos, etc.).
Estas tres capas son las esenciales para hacer un gráfico en
ggplot2
. Las siguientes capas nos permiten controlar otros
aspectos de la visualización.
Facets (Facetas o lados): Si tenemos un gráfico
que combina varios elementos, los facets nos permiten un
gráfico individual por cada elemento.
Statistics (Estadística): Podemos agregar una
capa que incorpore por ejemplo una regresión lineal o bien una
referencia como un valor promedio.
Coordinates (Ejes): Nos permite controlar los
ejes, desde su presentación, o incluso los límites, etc..
Theme (Estilo): Controla aspectos visuales sobre
el fondo, fuente, ejes, etc..
Haciendo gráficos con ggplot2
La sintáxis básica de ggplot2
es la siguiente:
ggplot(nombre_dataframe, aes(x, y)) +
geom_XXX
La función para hacer gráficos siempre será
ggplot()
.
Luego tenemos que poner el nombre del data frame.
Adentro del aes()
ponemos las columnas que queremos ver
reflejadas en el gráfico. Esto en la jerga de R se llama mapear
variables en el gráfico. Las variables las podemos utilizar además
de verlas reflejadas en los ejes x
, e y
,
también pueden usarse para modificar el color y el tamaño de los
elementos de un gráfico.
Por último, con geom_xxx()
le indicamos la forma
geométrica que puede adoptar la visualización (gráficos, puntos, líneas,
etc.).
Para sumar capas en un gráfico tenemos que usar el signo
+
. Un error común que cometo es confundirlo por el
pipe %>%
.
Los geoms que veremos en estas clases son:
geom_histogram()
: Para graficar histogramas. Nos
permiten ver la distribución de una variable numérica. Se puede graficar
mapeando una sola variable al menos.
geom_freqpoly()
: También nos permite ver la
distribución de una variable numérica, atenuando la curva. Se puede
graficar mapeando una sola variable al menos.
geom_boxplot()
: Hace gráficos boxplot, también
conocidos como de bigote y caja. Permite visualizar una gran cantidad de
información estadística.
geom_bar()
: Hace gráficos de barras. El largo de las
barras lo determina la cantidad de filas de lo que estemos mapeando.
Funciona incluso con un sólo eje.
geom_col()
: También hace gráficos de barra pero el
largo lo determina el valor de la/s celda/s que grafiquemos. Necesita
por lo menos mapear una variable para el eje x, y otro para el eje
y.
geom_line()
: Para hacer gráficos de línea.
geom_point()
: Para hacer gráficos de dispersión
(también conocidos como scatter plots).
Estos no son todos los tipos de gráficos que se pueden hacer con
ggplot2
. En 2020 la comunidad hispanoparlante de R lanzó
una actividad llamada 30 Días de Gráficos en honor de
Florence
Nightingale, un desafío en el cual a lo largo de 30 días quien
quisiera podría hacer un tipo de gráfico diferente.
Pueden ver una muestra de todos los gráficos en el repositorio de
GitHub de Ariadna
Angulo Brunet, una psicóloga española que realizó los 30
gráficos.
Histogramas
Los histogramas son un tipo de gráfico que nos permite ver la
distribución de una variable numérica, y entre otras cosas, analizar por
ejemplo su simetría.
Por default, geom_histogram()
divide a la variable
numérica en 30 secciones con un rango de valores. El largo de cada barra
estará determinado por la cantidad de observaciones que quedan dentro de
cada rango de valores.
Hagamos un histograma de la variable sueldo_bruto
del
data frame kiwi
.
# Hagamos un histograma de sueldo_bruto del data frame kiwi
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

Cada barra de un histograma en R se llama bin
.
Podemos controlar la cantidad de barras que vemos usando dentro de
geom_histogram()
el parámetro bins
y asignando
el número que más nos sirva. También podemos modificar el ancho de los
bins con el parámetro bindwidth
.
# Modifiquemos la cantidad de bins a 15
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram(bins = 15)

# Modifiquemos el ancho de los bins por 20000
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram(binwidth = 25000)

Una alternativa a los histogramas es geom_freqpoly()
que
permite ver la forma de la distribución, generando un gráfico de líneas
al centro de cada bin.
También existe geom_density()
que permite ver una curva
atenuada de la distribución, pero como el eje y
muestra la
proporción de la distribución es un poco más compleja de
interpretar.
# Hacer un histograma de sueldo_bruto
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

# Hacer un histograma de sueldo_bruto y combinarlo con geom_freqpoly()
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram() +
geom_freqpoly()

# Hacer un gráfico de densidad
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_density()

Boxplots
Los boxplots son gráficos que contienen una gran cantidad de
información estadística.

En este gráfico podemos ver:
- Los cuartiles 1 y 3 (Q1 y Q3) en los bordes de la caja.
- La mediana que es la linea dentro de la caja.
- Los outliers, representados en puntos, que son observaciones que
superan una vez y media (1,5 veces) el rango intercuartil.
Además, la extensión de la caja nos permite tener una idea de la
distribución de los datos.
# Hacer un boxplot básico
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_boxplot()

# Compararlo con un histograma
ggplot(kiwi, aes(x = sueldo_bruto)) +
geom_histogram()

En la explicación previa, decíamos que podemos “mapear” una
variable para modificar el color de un gráfico. En los tipos de gráficos
que contienen una superficie, como los boxplots o los gráficos de
barras, el parámetro que necesitamos para modificar los colores en
función de una variable se llama fill
y lo tenemos que usar
dentro del aes()
.
# Mapear la variable género con el parámetro fill
ggplot(kiwi, aes(y = sueldo_bruto, fill = genero)) +
geom_boxplot()

Prácticas
Usando los data frames maestro
y mensuales
realizar los siguientes gráficos:
# Realizar un histograma de EDAD del data frame maestro
# Realizar un histograma y un freqpoly de los sueldos en mensuales
# Realizar un boxplot de mensuales, mapeando PUESTO en el eje x y SUELDO en y.

Gráficos de barra
geom_bar()
En R contamos con dos geoms para hacer gráficos de
barra:
geom_bar()
: El largo de la barra lo determina la
cantidad de filas de una columna. Se pueden hacer
mapeando una sola variable.
geom_col()
: El largo de la barra lo determina el
valor de la celda. Otra diferencia respecto de
geom_bar()
es que necesitamos mapear una variable al eje
x
y otra variable al eje y
.
Usemos el data frame kiwi
para probar ambos
gráficos.
# Hacer un gráfico de barras mapeando puesto al eje x
# Usar geom_bar()
ggplot(kiwi, aes(x = puesto, fill = genero)) +
geom_bar()

Si mapeamos, por ejemplo la variable genero
al color,
podemos controlar la posición de las barras con los siguientes
parámetros:
position = "dodge"
: Para poner las barras una al
lado de la otra.
position = "identity"
: Pone una barra detrás de la
otra.
position = "stack"
: Para hacer gráficos apilados. Es
la opción por default de geom_bar()
.
position = "fill"
: Para hacer un gráfico apilado al
100%
Las visualizaciones también se pueden guardar en objetos. Lo cual nos
permite ahorrar mucho tiempo escribiendo.
# Guardar la primera parte del gráfico en un objeto
barras <- ggplot(kiwi, aes(x = puesto, fill = genero))
# Reutilizamos el objeto para hacer gráficos de barras
barras +
geom_bar()

Ahora probemos modificar los parámetros con las opciones
dodge
, identity
y fill
.
# Usar el objeto vis1 y modificar el parámetro dodge dentro de geom_bar()
barras +
geom_bar(position = "dodge")

# Usar position = "identity"
barras +
geom_bar(position = "identity", alpha = 0.6)

# Usar position = "fill"
barras +
geom_bar(position = "fill")

geom_col()
A diferencia de geom_bar()
necesitamos pasar una columna
al eje x
y una columna al eje y
. Pero antes,
vamos a necesitar hacer un par de cálculos previos.
sueldo_rubro <- kiwi %>%
group_by(rubro) %>% # Agrupo por rubro
summarise(sueldo_promedio = mean(sueldo_bruto)) %>% # Calculo sueldo promedio
slice_max(n = 10, # Nos permite recortar la salida
order_by = sueldo_promedio) # Criterio para ordenar resultados
# Veamos el contenido
sueldo_rubro
## # A tibble: 10 × 2
## rubro sueldo_promedio
## <chr> <dbl>
## 1 Minería (carbón, otra minería) 105792.
## 2 Industrias químicas 104261.
## 3 Servicios financieros; seguros 103052.
## 4 Ingeniería mecánica 102000
## 5 Medios de comunicación; cultura; gráficos 101120
## 6 Oil & gas 96244.
## 7 Silvicultura; madera; celulosa; papel 96000
## 8 Transporte marítimo; puertos; 91667.
## 9 Alimentación; bebidas; tabaco 91389.
## 10 Servicios de correos, y de telecomunicaciones 84620
Como decíamos antes, ahora podemos mapear una variable (asignar) al
eje x
y asignar otra variable al eje y
.
# Hacer un gráfico de columnas
ggplot(sueldo_rubro, aes(x = rubro, y = sueldo_promedio)) +
geom_col()

No necesariamente tenemos que mapear las columnas de texto al eje
x
. Cuando las etiquetas son largas, para hacerlo más
legible al eje, podemos asignar las variables de texto al eje
y
.
# Repetir el gráfico anterior pero invirtiendo los ejes
ggplot(sueldo_rubro, aes(y = rubro, x = sueldo_promedio)) +
geom_col() +
geom_text(aes(label = round(sueldo_promedio)),
size = 3,
hjust = 1.2,
color = "white")

Cuando la variable de texto no tiene un orden implícito, como las
jerarquías de un puesto por ejemplo, una buena práctica es ordenar las
barras de mayor a menor. Esto simplifica al lector la interpretación del
gráfico (o en otras palabras, hace que nuestro trabajo sea de mayor
calidad).
Hay varias formas de lograr esto, una forma simple de hacerlo es con
la función reorder()
.
# Repetir el gráfico anterior, pero ordenando las barras de mayor a menor
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
y = reorder(rubro, sueldo_promedio))) +
geom_col()

La sintaxis de reorder()
es la siguiente:
eje = reorder(variable_eje, variable_criterio)
En el ejemplo anterior hicimos
y = reorder(rubro, sueldo_promedio)
. Vamos por partes:
y
: es el eje al cual estamos asignando (mapeando) la
variable.
reorder()
: es la función:
rubro
: es la variable que estamos asignando al eje
y
en este caso.
sueldo_promedio
: El criterio por el cual vamos a
ordenar las barras. Si queremos ordenar las barras al revés sólo tenemos
que poner el signo menos (-
) delante de la variable que
estamos usando como criterio de orden (por ejemplo
-sueldo_promedio
).
Algo que no está bueno en el gráfico anterior es que se muestran los
nombres de los ejes tal cual como vienen en el data frame original. Una
función que nos permite añadir títulos y corregir los nombres de las
variables es la función labs()
.
# Repetir el gráfico anterior, y añadir títulos, subtítulos, ejes, y nota al pie
ggplot(sueldo_rubro, aes(x = sueldo_promedio,
y = reorder(rubro, sueldo_promedio))) +
geom_col() +
labs(title = "Sueldo promedio por rubro",
subtitle = "En AR$ - Puestos de RRHH",
x = "Sueldo Promedio",
y = "Rubro",
caption = "Fuente: Encuesta KIWI 2020")

Para saber más sobre estética de los gráficos pueden ver la sesión
4 de R4HR Club de R para RRHH, y también la sesión de Microaprendizajes.
Gráficos de líneas
Los gráficos de líneas son el gráfico por excelencia para visualizar
series de tiempo, es decir la evolución temporal de una variable.
Para este ejemplo vamos a utilizar el data frame de
rotacion
.
# Veamos el contenido del data frame 'rotacion'
rotacion
## Periodo Movimientos Cantidades
## 1 2010 Ingresos 9
## 2 2010 Egresos 2
## 3 2011 Ingresos 84
## 4 2011 Egresos 14
## 5 2012 Ingresos 44
## 6 2012 Egresos 17
## 7 2013 Ingresos 44
## 8 2013 Egresos 15
## 9 2014 Ingresos 60
## 10 2014 Egresos 14
## 11 2015 Ingresos 36
## 12 2015 Egresos 27
## 13 2016 Ingresos 14
## 14 2016 Egresos 14
Para ver la evolución de ambas líneas, podemos mapear:
# Hacer un gráfico de líneas con la evolución temporal de los Ingresos y Egresos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line()

Para marcar la sección donde corta cada año, podemos agregar una capa
de puntos al gráfico anterior. Juguemos con el parámetro
size
dentro de geom_point()
.
# Agregar una capa de puntos
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line() +
geom_point(size = 2)

Este es un buen momento para ver la utilidad de los
facets.
# Añadir una capa de facet_wrap(~Movimientos)
ggplot(rotacion, aes(x = Periodo, y = Cantidades, color = Movimientos)) +
geom_line() +
geom_point(size = 2) +
facet_wrap(~Movimientos)

Gráficos de dispersión - Scatter plots
Los gráficos, o diagramas de dispersión, son una gran forma de
visualizar relaciones entre variables numéricas, concentraciones de
datos, entre otras cosas. Es una forma de introducirnos en el análisis
de regresiones lineales.
También permiten la concentración de datos entre variables numéricas
y categóricas. El geom que necesitaremos es
geom_point()
.
# Realizar un gráfico de dispersión entre anios_experiencia y sueldo_bruto
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
geom_point()

Si quisiéramos trazar una recta de regresión, una forma de hacerlo es
la siguiente:
# Agregar una regresión lineal
ggplot(kiwi, aes(x = anios_experiencia, y = sueldo_bruto)) +
geom_point() +
geom_smooth(method = "lm")

Como decíamos, también podemos analizar la distribución de los datos
entre una variable categórica y una variable numérica
# Graficar genero vs. sueldo_bruto
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
geom_point()

Cuando hacemos gráficos de dispersión, dos parámetros muy útiles para
analizar donde hay más concentración de datos, son los parámetros
jitter y alpha.
Jitter le añade un poco de ruido a los datos para
evitar la superposición de puntos, pero manteniendo la distribución de
los datos. Hablando mal y pronto, lo que hace es mover un poquito los
puntos dentro del gráfico para que sean más visibles.
Otro parámetro muy útil es alpha que le añade
transparencia a los puntos, lo cual nos ayuda a ver donde hay más
concentración de datos, en donde haya más oscuridad del color.
También se puede jugar con el parámetro size o
shape para modificar el tamaño, o la forma de los
puntos.
En este gráfico ponemos estos parámetros en práctica.
# Hacemos el gráfico añadiendo el parámetro jitter y alpha
ggplot(kiwi, aes(x = genero, y = sueldo_bruto)) +
geom_point(position = "jitter",
alpha = 0.3,
size = 2) +
theme_minimal()

Gráficos de torta

Todas las personas que trabajan en visualización de datos AMAN odiar
los gráficos de torta. De hecho en ggplot2
no hay un
geom_pie
y no conozco ninguna extensión que los realice de
manera sencilla. Aunque si existe la función de R base
pie
# Preprocesamiento
satisfaccion <- kiwi %>%
select(satisfaccion) %>%
filter(!is.na(satisfaccion)) %>%
group_by(satisfaccion) %>%
tally() %>%
arrange(satisfaccion)
# Hacemos el gráfico en R base
pie(satisfaccion$n)

De todas maneras, como dice mi abuela, siempre hay un roto para
un descosido y aquí les presento una forma de realizar un
gráfico de dona.
En esencia, lo que vamos a hacer es un gráfico de barras apiladas al
100% al cual doblaremos, de la misma manera que las cucharas en
Matrix.

Primero haremos un gráfico de barras apiladas al 100%, cuyas
porciones (rectángulos) “doblaremos” posteriormente. En este ejemplo,
vamos a hacer un gráfico de dona sobre el porcentaje de gente y el tipo
de universidad. Para lo cual tenemos que hacer un pequeño
preprocesamiento de datos:
# Crear un objeto llamado educacion
educacion <- kiwi %>%
select(tipo_universidad) %>% # Selecciona la columna
group_by(tipo_universidad) %>% # Agrupa por tipo_universidad
summarise(cantidad = n()) %>% # Agrega columna con cantidad de casos
mutate(porcentaje = cantidad / sum(cantidad)) %>% # Agrega columna de porcentaje
arrange(-cantidad) # Ordena descendemtente por cantidad
# Veamos el resultado
educacion
## # A tibble: 3 × 3
## tipo_universidad cantidad porcentaje
## <chr> <int> <dbl>
## 1 Universidad Pública 246 0.502
## 2 Universidad Privada 222 0.453
## 3 No estudié en la Universidad 22 0.0449
El siguiente paso es determinar dónde empieza y dónde termina cada
rectángulo que vamos a crear. Eso lo vamos a poner en unas columnas
nuevas que llamaremos ymax
y ymin
.
# Calculamos los límites superiores de cada rectángulo
educacion$ymax <- cumsum(educacion$porcentaje)
# Calculamos el límite inferior de cada porción
educacion$ymin <- c(0, head(educacion$ymax, n=-1))
# Calculamos la posición de la etiqueta
educacion$posicion_etiqueta <- (educacion$ymax + educacion$ymin) / 2
# Creamos las etiquetas de cada porción
educacion$etiqueta <- paste0(educacion$tipo_universidad, # paste0 pega elementos
"\n Cant: ",
educacion$cantidad)
# Ver como quedó el data frame
educacion
## # A tibble: 3 × 7
## tipo_universidad cantidad porcentaje ymax ymin posicio…¹ etiqu…²
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 Universidad Pública 246 0.502 0.502 0 0.251 "Unive…
## 2 Universidad Privada 222 0.453 0.955 0.502 0.729 "Unive…
## 3 No estudié en la Universidad 22 0.0449 1 0.955 0.978 "No es…
## # … with abbreviated variable names ¹posicion_etiqueta, ²etiqueta
Los pasos anteriores crearon la posición donde comienzan y donde
termina cada barra, en donde se ubica cada etiqueta, y por último, qué
va a decir cada etiqueta.
Con la función paste0()
lo que hacemos es concatenar
varios elementos, primero, los valores de la columna
tipo_universidad
(Universidad Pública, Universidad
Privada, etc.), luego, con la barra invertida y la n
\n
en otro renglón agrega la palabra Cant:
y
finalmente pone el valor de la columna cantidad
.
Ahora, vamos a hacer el gráfico capa por capa para que vean cómo se
construye:
# Realizar el gráfico de dona
# Primera capa del gráfico
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect()

# There is no spoon! Nuestro primer gráfico de torta
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y")

# Recortamos el centro de la torta
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y") +
xlim(c(2,4))

# Así quedaría el gráfico de barra sin coord_polar
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
xlim(c(2,4))

# Agregamos algunas modificaciones estéticas
ggplot(educacion, aes(ymax=ymax,
ymin=ymin,
xmax=4,
xmin=3,
fill=tipo_universidad)) +
geom_rect() +
coord_polar(theta = "y") +
xlim(c(2,4)) +
theme_void() + # Elimina fondos y referencias
scale_fill_viridis_d() + # Define una escala de colores
theme(legend.position = "right",
plot.title.position = "plot") + # Modifica posición leyendas y del título
labs(title = "Respuestas según Tipo de Universidad",
fill = "Tipo de Universidad",
caption = "Fuente: Encuesta KIWI de Sueldos de RH 2020") +
geom_label(x = 3.5,
aes(y = posicion_etiqueta,
label = etiqueta),
size = 3)

Check out
ggplot2
es un paquete que tiene una infinidad de
posibilidades, tiene muchas extensiones que posibilitan construir todo
tipo de gráficos, añadirles interactividad, información dinámica y
muchas cosas más.
Este paquete construye los gráficos por capas. Las capas
fundamentales son:
Los gráficos además se pueden combinar agregando capas, lo cual
posibilita agregar información, o limpiar los gráficos para añadir
información de contexto.
Customizar un gráfico lleva trabajo, pero todos esos elementos se
pueden guardar en objetos y reutilizarlos para ahorrar código y
esfuerzo.
Esto me permite ir trabajando progresivamente con los gráficos.
Primero me aseguro que el gráfico funcione, y luego voy incorporando
capas para definir colores, los ejes, los títulos, y finalmente la
estética general del gráfico.
Pueden explorar algunas extensiones en este link: https://exts.ggplot2.tidyverse.org/gallery/. También hay
un libro online (en inglés) que pueden revisar acá: https://ggplot2-book.org/.
