Estructura de ggplot()

La estructura que utiliza la función ggplot() es la siguiente:

ggplot(data =  ,
       mapping = aes()) + 
  geom_*()
  scale_*()
  labs() +
  facet_*()
  theme()

Los argumentos data = y mapping = son los argumentos mínimos de la función. Adicional a esto, es casi indispensable agregar el layer de geom_*, para definir el tipo de gráfica que queremos visualizar.

Trabajando con la base de datos mpg

Para empezar a practicar el uso de ggplot utilizaremos una base datos precargada, llamada mpg.

Ya sabemos que al revisar una base de datos es común utilizar funciones como str() o summary(). En este caso empezaremos conociendo los nombres de las variables de la base de datos con la función names()

names(mpg)
 [1] "manufacturer" "model"        "displ"        "year"         "cyl"         
 [6] "trans"        "drv"          "cty"          "hwy"          "fl"          
[11] "class"       

Podemos observar que la base de datos cuenta con 11 variables.

Para conocer la clase de cada una de estas variables, utilizaremos la función sappply().

sapply(mpg, class)
manufacturer        model        displ         year          cyl        trans          drv 
 "character"  "character"    "numeric"    "integer"    "integer"  "character"  "character" 
         cty          hwy           fl        class 
   "integer"    "integer"  "character"  "character" 

Debemos recordadr que el primer argumento de la función sapply() es la base de datos. Con esto, podemos identificar las variables de la base de datos y el tipo de información que tiene cada una de ellas.

¿Qué pasa si al usar la función ggplot() no se definen los argumentos mínimos?

Si solo se usa la función, este sería el resultado

ggplot()

R nos arrojaría una gráfica gris. No le hemos definido qué variables queremos graficar, cómo las queremos ordenar ni en dónde se encuentran dichas variables.

Utilicemos la función definiendo los argumentos mínimos.

ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy ))

En esta ocasión, se ha definido qué variables queremos graficar, dónde se encuentran pero no hemos definido la manera en que las queremos visualizar. ¡Nos falta un layer que defina esto!

El tipo gráfica deberá estar en función del propósito que tiene. Las variables cty y hwy representan el rendimiento por galón que tiene el vehículo en la ciudad y en la carretera, respectivamente.

¿Qué relación esperaríamos que tuviera? Deberían ser variables muy correlacionadas, y una forma de evaluar esta condición es a través de una gráfica de dispersión o scatter plot. Por lo tanto, utilizaremos el layer geom_*() y le asignaremos point para indicar que queremos obtener una gráfica de dispersión.

ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy )) +
  geom_point()

Como podemos observar, las variables están correlacionados de forma positiva.

Otra forma de presentar la misma información sería:

ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy )) +
  geom_line()

Al definir una gráfica con líneas, la gráfica se vuelve confusa. Debemos cuidar la forma en que presentamos la información.

¿Cómo podríamos incorporar títulos a nuestra gráfica?

Para incorporar títulos a nuestra gráfica tenemos que agregar el layer labs() que es una abreviación de labels.

ggplot(mpg, aes(x = cty, y = hwy)) + 
  geom_point() + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )

El layer labs tiene los argumentos title, subtitle y caption. Es importante recordar que al nos ser un objeto la información que se muestra en los títulos, debe ser escrita entre comillas.

Clases, categorías o factores

¿Cómo podemos hacer gráficas en función de las diferentes clases, categorías o factores que tienen las variables?

Una manera de hacer esto es a través de diferenciar las observaciones por color. Por ejemplo, la variable cyl mide la cantidad de cilindros que tienen los autos.

Para ver la tabla de frecuencia de alguna variables podemos usar la función table()

table(mpg$cyl)

 4  5  6  8 
81  4 79 70 

Para poder realizar está distinción a través de colores debemos incluirlo en el argumento aes() como color = var.

La gráfica estaría definida de la siguiente manera:

ggplot(mpg, aes(x=cty, y=hwy, color=cyl)) + 
  geom_point() +
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )

Es probable que la gráfica de arriba no sea lo que esperabamos. La razón más probable es porque la variable cyl esté definida como una variable continua cuando es una variable discreta. Para verificar esto, podemos usar la función class().

class(mpg$cyl)
[1] "integer"

Para hacer el cambio, podemos re definir la variable como caracter o como factor. Hagamos esto.

ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) + 
  geom_point() +
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )

¡Listo! Esta gráfica sí cumple con nuestras expectativas.

Otra forma de distinguir las observaciones en factores sería utilizando el layer facet_. Esto nos va a permitir hacer mini gráficas en función de los factores que tiene la variable.

Por ejmplo,

ggplot(mpg, aes(x=cty, y=hwy)) + 
  geom_point() +
  facet_wrap(~ cyl) + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )

De esta forma pudimos realizar una gráfica para cada uno de la cantidad de cilindros.

Una gráfica que puede resultar interesante es:

ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) + 
  geom_point() +
  facet_wrap(~ drv) + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )

---
title: "Data Visualization Session 1"
author: "JJGS"
output: 
  html_notebook:
    toc: true
    toc_float: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(tidyverse)
```

## **Estructura de ggplot()** 

La estructura que utiliza la función `ggplot()` es la siguiente:

```{r eval=FALSE}
ggplot(data =  ,
       mapping = aes()) + 
  geom_*()
  scale_*()
  labs() +
  facet_*()
  theme()
```

Los argumentos `data =` y `mapping =` son los argumentos mínimos de la función. Adicional a esto, es casi indispensable agregar el layer de `geom_*`, para definir el tipo de gráfica que queremos visualizar.

## **Trabajando con la base de datos mpg**

Para empezar a practicar el uso de ggplot utilizaremos una base datos precargada, llamada **mpg**.

Ya sabemos que al revisar una base de datos es común utilizar funciones como `str()` o `summary()`. En este caso empezaremos conociendo los nombres de las variables de la base de datos con la función `names()`

```{r}
names(mpg)
```

Podemos observar que la base de datos cuenta con **11 variables**.

Para conocer la clase de cada una de estas variables, utilizaremos la función `sappply()`.

```{r}
sapply(mpg, class)
```

Debemos recordadr que el primer argumento de la función `sapply()` es la base de datos. Con esto, podemos identificar las variables de la base de datos y el tipo de información que tiene cada una de ellas.

## **¿Qué pasa si al usar la función `ggplot()` no se definen los argumentos mínimos?**

Si solo se usa la función, este sería el resultado

```{r}
ggplot()
```

`R` nos arrojaría una gráfica gris. No le hemos definido qué variables queremos graficar, cómo las queremos ordenar ni en dónde se encuentran dichas variables.

Utilicemos la función definiendo los argumentos mínimos.

```{r}
ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy ))
```

En esta ocasión, se ha definido qué variables queremos graficar, dónde se encuentran pero no hemos definido la manera en que las queremos visualizar. ¡Nos falta un layer que defina esto!

**El tipo gráfica deberá estar en función del propósito que tiene**. Las variables `cty` y `hwy` representan el rendimiento por galón que tiene el vehículo en la ciudad y en la carretera, respectivamente. 

**¿Qué relación esperaríamos que tuviera?** Deberían ser variables muy correlacionadas, y una forma de evaluar esta condición es a través de una **gráfica de dispersión o scatter plot**. Por lo tanto, utilizaremos el layer `geom_*()` y le asignaremos **point** para indicar que queremos obtener una gráfica de dispersión.

```{r}
ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy )) +
  geom_point()
```

Como podemos observar, las variables están correlacionados de forma positiva. 

Otra forma de presentar la misma información sería:

```{r}
ggplot(data = mpg,
       mapping = aes(x = cty, y = hwy )) +
  geom_line()
```

Al definir una gráfica con líneas, la gráfica se vuelve confusa. Debemos cuidar la forma en que presentamos la información.

## **¿Cómo podríamos incorporar títulos a nuestra gráfica?**

Para incorporar títulos a nuestra gráfica tenemos que agregar el layer `labs()` que es una abreviación de **labels**.

```{r}
ggplot(mpg, aes(x = cty, y = hwy)) + 
  geom_point() + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )
```

El layer `labs` tiene los argumentos `title`, `subtitle` y `caption`. Es importante recordar que al nos ser un objeto la información que se muestra en los títulos, **debe ser escrita entre comillas**.

## **Clases, categorías o factores**

**¿Cómo podemos hacer gráficas en función de las diferentes clases, categorías o factores que tienen las variables?**

Una manera de hacer esto es a través de diferenciar las observaciones por color. Por ejemplo, la variable `cyl` mide la cantidad de cilindros que tienen los autos. 

Para ver la tabla de frecuencia de alguna variables podemos usar la función `table()`

```{r}
table(mpg$cyl)
```

Para poder realizar está distinción a través de colores debemos incluirlo en el argumento `aes()` como `color = var`.

La gráfica estaría definida de la siguiente manera:

```{r}
ggplot(mpg, aes(x=cty, y=hwy, color=cyl)) + 
  geom_point() +
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )
```

Es probable que la gráfica de arriba no sea lo que esperabamos. La razón más probable es porque la variable `cyl` esté definida como una variable continua cuando es una variable discreta. Para verificar esto, podemos usar la función `class()`.

```{r}
class(mpg$cyl)
```

Para hacer el cambio, podemos re definir la variable como caracter o como factor. Hagamos esto.

```{r}
ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) + 
  geom_point() +
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )
```

¡Listo! Esta gráfica sí cumple con nuestras expectativas.

Otra forma de distinguir las observaciones en factores sería utilizando el layer `facet_`. Esto nos va a permitir hacer mini gráficas en función de los factores que tiene la variable.

Por ejmplo,

```{r}
ggplot(mpg, aes(x=cty, y=hwy)) + 
  geom_point() +
  facet_wrap(~ cyl) + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )
```

De esta forma pudimos realizar una gráfica para cada uno de la cantidad de cilindros.

Una gráfica que puede resultar interesante es:

```{r}
ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) + 
  geom_point() +
  facet_wrap(~ drv) + 
  labs( title = "City Miles versus Highway Miles",
        subtitle = "Based on the data from 1999 to 2008",
        caption = "Created by JJGS"
        )
```








