Hablamos la clase pasada de extender las capacidades de R, utilizando herramientas adicionales para diferentes propositos que vienen en forma de “paquetes”. Empleamos la análogia de que “R” es como un celular nuevo, el cual tiene ciertas funcionalidades que vienen por defecto, pero que además nosotros podemos agregar más funciones a nuestros celulares a través de la descarga de aplicaciones desde “app store” o “google play”. En el caso del siguiente análisis, utilizaremos las aplicaciones “ggplot2”, “dplyr” y “skimr”, que agregaran nuevas herramientas para utilizar en nuestro código a través del concepto de funciones en programación.

library(ggplot2)
library(dplyr)
library(skimr)

En esta clase utilizaremos como ejemplo la data “mpg” que viene cargada con el paquete “ggplot2”. Esta data contiene información sobre la eficiencia de combustible de distintos modelos de autos y sus caracteristicas.

Inspeccionando los datos

Es bueno entender antes de cualquier análisis, la data con la que contamos y para esto es útil la función dplyr::glimpse(). Por función entenderemos un proceso que toma un input o entrada, como un dataframe (data rectangular), luego ejecuta una operación sobre este input en que se pueden ajustar ciertos aspectos para controlar la operación y finalmente recibimos un output o resultado.

A la función dplyr::glimpse() le entregamos como argumento nuestra data rectangular y nos arroja información acerca del tipo de variables (columnas) y algunas de las observaciones de cada una de estas.

glimpse(mpg)
Observations: 234
Variables: 11
$ manufacturer <chr> "audi", "audi", "audi", "audi", "audi", "audi", "audi", "audi", "audi", "audi...
$ model        <chr> "a4", "a4", "a4", "a4", "a4", "a4", "a4", "a4 quattro", "a4 quattro", "a4 qua...
$ displ        <dbl> 1.8, 1.8, 2.0, 2.0, 2.8, 2.8, 3.1, 1.8, 1.8, 2.0, 2.0, 2.8, 2.8, 3.1, 3.1, 2....
$ year         <int> 1999, 1999, 2008, 2008, 1999, 1999, 2008, 1999, 1999, 2008, 2008, 1999, 1999,...
$ cyl          <int> 4, 4, 4, 4, 6, 6, 6, 4, 4, 4, 4, 6, 6, 6, 6, 6, 6, 8, 8, 8, 8, 8, 8, 8, 8, 8,...
$ trans        <chr> "auto(l5)", "manual(m5)", "manual(m6)", "auto(av)", "auto(l5)", "manual(m5)",...
$ drv          <chr> "f", "f", "f", "f", "f", "f", "f", "4", "4", "4", "4", "4", "4", "4", "4", "4...
$ cty          <int> 18, 21, 20, 21, 16, 18, 18, 18, 16, 20, 19, 15, 17, 17, 15, 15, 17, 16, 14, 1...
$ hwy          <int> 29, 29, 31, 30, 26, 26, 27, 26, 25, 28, 27, 25, 25, 25, 25, 24, 25, 23, 20, 1...
$ fl           <chr> "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p", "p...
$ class        <chr> "compact", "compact", "compact", "compact", "compact", "compact", "compact", ...

Otra función útil para la exploración de nuestros datos es skimr::skim(), esta toma como input una data rectangular (dataframe) y nos entrega distintas medida de información, en un formato rectangular, de cada una de las variables como el valor mínimo, máximo, valores distintos, cantidad de observaciones con valores perdidos, entre otras.

skim(mpg)
Skim summary statistics
 n obs: 234 
 n variables: 11 

-- Variable type:character -----------------------------------------------------
     variable missing complete   n min max empty n_unique
        class       0      234 234   3  10     0        7
          drv       0      234 234   1   1     0        3
           fl       0      234 234   1   1     0        5
 manufacturer       0      234 234   4  10     0       15
        model       0      234 234   2  22     0       38
        trans       0      234 234   8  10     0       10

-- Variable type:integer -------------------------------------------------------
 variable missing complete   n    mean   sd   p0  p25    p50  p75 p100     hist
      cty       0      234 234   16.86 4.26    9   14   17     19   35 ▅▇▇▇▁▁▁▁
      cyl       0      234 234    5.89 1.61    4    4    6      8    8 ▇▁▁▇▁▁▁▇
      hwy       0      234 234   23.44 5.95   12   18   24     27   44 ▃▇▃▇▅▁▁▁
     year       0      234 234 2003.5  4.51 1999 1999 2003.5 2008 2008 ▇▁▁▁▁▁▁▇

-- Variable type:numeric -------------------------------------------------------
 variable missing complete   n mean   sd  p0 p25 p50 p75 p100     hist
    displ       0      234 234 3.47 1.29 1.6 2.4 3.3 4.6    7 ▇▇▅▅▅▃▂▁

La primera visualización

Empecemos con nuestra primera visualización en R, veamos la relación que existe entre la capacidad de desplazamiento (displ) de los vehculos con respecto a las millas rendidas en carretera (hwy).

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

¿Alguien me puede contar lo que nos dice este gráfico? Es importante aprender a leer los gráficos, si bien la ventaja de revelar patrones es indudable, no es mágica tampoco en el sentido de que por ver el gráfico ya lo vemos todo.

A medida que aumenta la capacidad de desplazamiento (displ), la cual se mide en litros, la eficiencia en carretera de los autos, medida en millas por galon, disminuye. En términos simples, observando estas dos variables y dejando todo lo demás constante, mayores motores muestran una menor eficiencia en carretera.

Ahora, para lograr visualizar esto, ¿que necesito? Los ingredientes mínimos para crear un gráfico son los siguientes:

  1. Datos.
  2. Vincular las variables que queremos representar a los aspectos visuales del gráfico.
  3. A lo menos una capa que contenga una representación geometrica de los datos (puntos, líneas, barras, etcétera)

El primer punto es evidente, el segundo trata de mapear variables del conjunto de datos relevantes para el gráfico a ciertos atributos esteticos. Alguno de los atributos más comunes son:

En nuestro primer gráfico utilizamos solo dos atributos estéticos: el eje x e y. Podemos agregar más información a nuestro gráfico vinculando atributos estéticos adicionales a variables contenidas en los datos.

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, colour = class))

Una de las ventajas de ggplot2 es que permite construir gráficos utilizando especificaciones mínimas que junto a configuraciones prestablecidas, nos facilitan el trabajo de definir todos los aspectos posibles de un gráfico. Por ejemplo, en el gráfico de arriba ggplot2 automaticamente crea la leyenda con la información de que color es cada nivel de la variable clase. Esto es posible gracias a las especificaciones internas de la data que hay debajo de cada gráfico:

(representacion_interna <- mpg %>% 
  select(displ, hwy, class) %>% 
  left_join(mpg %>% 
            distinct(class) %>% 
            mutate(colour = c("red", "brown", 
                              "green", "blue", 
                              "calypso", "purple", 
                              "yellow")),
  by = "class") %>% 
  select(-class) %>% 
  rename(x = displ,
         y = hwy))

Obviando los detalles del código de arriba, así es como ggplot2 mapea las variables que queremos gráficar de nuestra base (mpg) a las propiedades visuales (x, y, colour).

(diccionario_colores <- mpg %>% 
                            distinct(class) %>% 
                            mutate(colour = c("red", "brown", 
                                              "green", "blue", 
                                              "calypso", "purple", 
                                              "yellow")))

Podemos seguir incorporando información en nuestro gráfico mapeando otras variables de la base mpg a otros atributos estéticos dentro de la función aes(), por ejemplo, el número de cilindros que tienen los vehículos a través del atributo shape.

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, colour = class, shape = as.factor(cyl)))

Sin embargo, acá nos vemos enfrentado a un trade-off entre cantidad de información y capacidad de comprensión. Tratar de abarcar demasiados aspectos visuales en un solo gráfico tiene un costo, que es la dificultad de comunicar al introducir mayor complejidad en nuestra visualización.

Facetas

Una forma para comparar distintos grupos de datos, entendamos estos grupos como una data tabular separada en varíos conjuntos por los distintos valores de una variable categórica, por ejemplo, los cuatros subconjuntos de datos que obtenemos al separar la data mpg por los autos que tienen igual número de cilindros indicados en la variable cyl.

lapply(split(mpg, mpg$cyl), head, n = 3)
$`4`

$`5`

$`6`

$`8`
NA

En vez de utilizar cuatro atributos estéticos y empezar a mermar la capacidad de comprensión del gráfico por causa del aumento de complejidad de información, podemos dejar solo tres de estos atributos pero generar, para comparar, el mismo gráfico en distintos subconjuntos de datos. Esta técnica en ggplot2 se conoce por facets y respecto al ejemplo anterior, generamos un gráfico para cada uno de los distintos grupos de datos al separar mpg por los valores unicos presentes en la variable cyl.

ggplot(data = mpg, mapping = aes(x = displ, y = hwy, colour = class)) +
  geom_point() +
  facet_wrap(~ cyl)

Ahora tenemos un nuevo componente que podemos agregar a la sintaxis de nuestro código. Abstrayendo todo lo que hemos visto hasta ahora:

#ggplot(data = mis_datos, mapping = aes(x, y, ...)) +
#  geom_<NAME>() +
#  facet_wrap(~ var_categorica)

Distintas representaciones geométricas: geom_<REPRESENTACION>

En los gráficos anteriores hemos representado nuestros datos solo a tráves de puntos. ¿Cómo incorporamos otras representaciones geometricas para visualizar datos?

El paquete ggplot2 trabaja a tráves de capas de representación gráficas sobre datos, cada una de estas capas requieres de los tres ingredientes mínimos nombrados arriba: datos, mapeo de variables a atributos estéticos y la representación geométrica (o geom).

Anteriormente, hemos trabajado con una capa visual de puntos pero podemos utilizar otro tipo de representaciones geométricas en la construcción de estas capas.

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = drv))

Si observamos bien el código del gráfico de barra, solo empleamos un atributo estético comparado con los dos atributos mínimos que utilizamos para crear el gráfico de puntos. ¿Cómo se explica esto? Cada representación geométrica tiene asociado un conjunto de atributos estéticos que pueden o no tener similitudes con otros geom.

?geom_bar

Otros aspecto interesante de mencionar con respecto a la relación geom y mapeo de variables desde los datos a los atributos estéticos, es la diferencia entre sintaxis como especificación de código valido por el paquete ggplot2 y la semántica visual producida por el gráfico creado. Una sintaxis válida en ggplot2 que se traduce en un gráfico, ¿implica que este tenga semántica visual?

ggplot(data = mpg) +
  geom_line(aes(x = displ, y = hwy, linetype = as.factor(cyl), colour = as.factor(cyl)))

Para gráficar una línea se necesitan tener las coordenadas de cada punto, es decir los atributos estéticos x e y, que son utilizados por geom_line para unir cada una de estas coordenadas en base al eje x de izquierda a derecha. Esta representación es ideal para visualizar la evolución de una variable a tráves del tiempo. Sin embargo, en el gráfico de arriba, vemos que una sintaxis válida no es el único requisito para crear un gráfico semanticamente valido.

Transformaciones estadísticas y geoms

Analicemos un aspecto de ggplot2 con el gráfico de barra. Imaginemos que tenemos la cantidad de animales que hay en cierta comunidad:

animales_agrupado <- tribble(
                        ~ animal,   ~ num_obs,
                         "Perro",           203,
                          "Gato",           142,
                       "Pajaros",           108
             
)

Con la función tribble podemos crear una data rectangular (datafame o tibble) nosotros mismos. Esta se construye visualmente como esta arriba, indicando los nombres de las columnas con la cola de chancho ~ (alt + 126 en el teclado númerico) y luego agregando las observaciones por fila indentandolas para que queden alineadas bajo la columna que pertenecen. ¡No olvidemos separar cada argumento de la función tribble con una coma!

Nuestra data de juguete animales_agrupado, este tipo de data la llamaremos así porque es mínima y de ejemplo, representa el número de perros, gatos y pajaros que hay en un edificio. Esto es perfecto para gráficar con barras, sin embargo, es útil destacar que ya contamos cuantos animales hay de cada uno.

La capa geom_bar implica una transformación estadistica sobre nuestros datos para representar visualmente estos. Esta transformación es la de contar, geom_bar cuenta el número de observaciones que hay en la data y la representa con barras, pero en animales_agrupado los datos ya fueron contados. Esta es la razón de que utilizamos el argumento stat dentro de geom_bar con el valor “identity” que se lee como NO aplicar transformación sobre los datos.

ggplot(data = animales_agrupado) +
  geom_bar(mapping = aes(x = animal, y = num_obs),
           stat = "identity")

Para entender mejor lo anterior, creeemos otra data sin el número de observaciones (animales) ya agrupados. Utiliziaremos ahora la función tibble (sin la r), que es para crear data rectangular por columnas, para crear una data de solo una columna y 453 filas. Nos ayudamos en esta tarea de la función rep que repite en este caso el nombre del tipo de animal las veces que le indiquemos en el segundo argumento.

animales_no_agrupados <- tibble(
    animales = c(rep("Perro", 203),  # una sola columna con el nombre "animales".
                 rep("Gato", 142),      # que se construye concatenando "c()" 
                 rep("Pajaros", 108))   # tres vectores
)

Ahora que creamos nuestra data animales_no_agrupados podemos ver como quedo:

animales_no_agrupados

Ahora crearemos un gráfico de barra utilizando la data animales_no_agrupados, pero esta vez, no fijaremos el argumento stat igual a “Identity”. Es más, solo tenemos una columna animales, por lo que no podemos fijar el eje y a diferencia del gráfico anterior, en que teníamos una columna num_obs con el total de animales. Por debajo, geom_bar cuenta las observaciones y agrega la transformación de conteo que representa el total de animales por categoría al atributo estético eje y.

ggplot(data = animales_no_agrupados) +
  geom_bar(mapping = aes(x = animales))

Más adelante veremos otras representaciones geometricas que tienen asociadas transformaciones estadisticas sobre nuestros datos para crear representaciones visuales. Estas son computadas por las funciones del paquete ggplot2, pero lo importante es saber que transformar la data para crear medidas de resumen es una idea poderosa en visualización.

Más de una capa gráfica

Hablamos de que los ingredientes mínimos para crear un gráfico son los siguientes:

  1. Datos.
  2. Vincular las variables que queremos representar a los aspectos visuales del gráfico.
  3. A lo menos una capa que contenga una representación geometrica de los datos (puntos, líneas, barras, etcétera)

Estos ingredientes conforman un gráfico de una sola capa. Una de las caracteristicas de ggplot2 es que permite construir gráficos a tráves de capas. Esto significa que podemos agregar estos requisitos mínimos nombrados arriba más de una vez e ir componiendo gráficos por capas.

Voy a crear dos representaciones geometricas distintas pero a partir de los mismos datos mapeados de igual forma.

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  ggtitle("Representación geométrica de puntos.")

ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  ggtitle("Representación geométrica smooth: estima un modelo \n(función matématica) con los datos.")

¿Podemos juntar estas dos representaciones en un solo gráfico de dos capas?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  geom_smooth(mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  ggtitle("Las dos representaciones en un mismo gráfico!")

Acá vemos un aspecto interesante de la sintaxis de ggplot2. La función con la que partimos cada gráfico ggplot(), tiene la propiedad de que todo lo especificado dentro de esta función se aplica como configuración básica de las capas del gráfico. En nuestro ejemplo de arriba, cada capa gráfica, geom_point y geom_smooth, heredan el argumento data = mpg. Es más, el mapeo de las variable es exactamente el mismo en ambas capas, por lo que lo podemos establecer tambien el argumento mapping como configuración inicial en la función ggplot() y ahorrarnos tipeo:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  geom_point() +  # 1era capa (esto es un comentario)
  geom_smooth() +  # 2da capa (la consola lo ignora y me sirve para resaltar puntos
  ggtitle("Mismo gráfico de dos representaciones geométricas de arriba!")

Si queremos gráficar representaciones geometricas de la misma data, no es necesario especificar el argumento data = mpg en cada capa o geom_nombre. De forma contraria, podemos sobreescribir la configuración básica, especificando una fuente de datos distintas en alguna de las capas, logrando de esta forma combinar datos desde distintas fuentes en un solo gráfico.

Crearé un dataframe de dos filas y cuatro columnas, con nombre “displ”, “hwy”, “cyl” y “etiqueta” representando el auto de los súpersonicos y el de los picapiedras para agregar al resto de los autos.

pica_supersonicos <- tibble(
  displ = c(7, 0),
  hwy = c(60, 5),
  cyl = c(0, 20),
  etiqueta = c("supersonicos", "picapiedras")
)
pica_supersonicos

Ahora crearemos el mismo gráfico de puntos, le agregaremos una capa adicional de puntos pero con otra fuente de datos, con las mismas variables, pero otros datos, el modelo de autos de los supersonicos y los picapiedras. Incrementaremos el tamaño de los autos de los supersonicos y los picapiedras para que sea más fácil identificarlos, esto lo hacemos con un parametro fijo size = 4, por fijo me refiero que no se vincula a una variable de la data, de hecho, al fijar los parametros a una constante, lo hago afuera de la función aes().

ggplot(data = mpg, mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  geom_point() +
  geom_point(data = pica_supersonicos, size = 4) +
  ggtitle("Un gráfico de dos capas de puntos representando\ndos fuentes distintas de datos!")

Y así podemos ir agregando capaz, por ejemplo, agreguemos una tercera para crear una etiqueta para los puntos del auto de los picapiedras y los supersonicos.

ggplot(data = mpg, mapping = aes(x = displ, y = hwy, colour = as.factor(cyl))) +
  geom_point() +
  geom_point(data = pica_supersonicos, size = 4) +
  geom_text(mapping = aes(x = displ, y = hwy, label = etiqueta), data = pica_supersonicos,
            size = 2, nudge_y = 2) +
  ggtitle("Un gráfico de tres capas que ilustra el arte\nde componer por capas visuales!")

