Estructura de ggplot()
La estructura que utiliza la función ggplot() es la siguiente:
ggplot(data = ,
mapping = aes()) +
geom_*()
scale_*()
labs() +
facet_*()
theme()
Los argumentos data = y mapping = son los argumentos mÃnimos de la función. Adicional a esto, es casi indispensable agregar el layer de geom_*, para definir el tipo de gráfica que queremos visualizar.
Trabajando con la base de datos mpg
Para empezar a practicar el uso de ggplot utilizaremos una base datos precargada, llamada mpg.
Ya sabemos que al revisar una base de datos es común utilizar funciones como str() o summary(). En este caso empezaremos conociendo los nombres de las variables de la base de datos con la función names()
names(mpg)
[1] "manufacturer" "model" "displ" "year" "cyl"
[6] "trans" "drv" "cty" "hwy" "fl"
[11] "class"
Podemos observar que la base de datos cuenta con 11 variables.
Para conocer la clase de cada una de estas variables, utilizaremos la función sappply().
sapply(mpg, class)
manufacturer model displ year cyl trans drv
"character" "character" "numeric" "integer" "integer" "character" "character"
cty hwy fl class
"integer" "integer" "character" "character"
Debemos recordadr que el primer argumento de la función sapply() es la base de datos. Con esto, podemos identificar las variables de la base de datos y el tipo de información que tiene cada una de ellas.
¿Qué pasa si al usar la función ggplot() no se definen los argumentos mÃnimos?
Si solo se usa la función, este serÃa el resultado
ggplot()

R nos arrojarÃa una gráfica gris. No le hemos definido qué variables queremos graficar, cómo las queremos ordenar ni en dónde se encuentran dichas variables.
Utilicemos la función definiendo los argumentos mÃnimos.
ggplot(data = mpg,
mapping = aes(x = cty, y = hwy ))

En esta ocasión, se ha definido qué variables queremos graficar, dónde se encuentran pero no hemos definido la manera en que las queremos visualizar. ¡Nos falta un layer que defina esto!
El tipo gráfica deberá estar en función del propósito que tiene. Las variables cty y hwy representan el rendimiento por galón que tiene el vehÃculo en la ciudad y en la carretera, respectivamente.
¿Qué relación esperarÃamos que tuviera? DeberÃan ser variables muy correlacionadas, y una forma de evaluar esta condición es a través de una gráfica de dispersión o scatter plot. Por lo tanto, utilizaremos el layer geom_*() y le asignaremos point para indicar que queremos obtener una gráfica de dispersión.
ggplot(data = mpg,
mapping = aes(x = cty, y = hwy )) +
geom_point()

Como podemos observar, las variables están correlacionados de forma positiva.
Otra forma de presentar la misma información serÃa:
ggplot(data = mpg,
mapping = aes(x = cty, y = hwy )) +
geom_line()

Al definir una gráfica con lÃneas, la gráfica se vuelve confusa. Debemos cuidar la forma en que presentamos la información.
¿Cómo podrÃamos incorporar tÃtulos a nuestra gráfica?
Para incorporar tÃtulos a nuestra gráfica tenemos que agregar el layer labs() que es una abreviación de labels.
ggplot(mpg, aes(x = cty, y = hwy)) +
geom_point() +
labs( title = "City Miles versus Highway Miles",
subtitle = "Based on the data from 1999 to 2008",
caption = "Created by JJGS"
)

El layer labs tiene los argumentos title, subtitle y caption. Es importante recordar que al nos ser un objeto la información que se muestra en los tÃtulos, debe ser escrita entre comillas.
Clases, categorÃas o factores
¿Cómo podemos hacer gráficas en función de las diferentes clases, categorÃas o factores que tienen las variables?
Una manera de hacer esto es a través de diferenciar las observaciones por color. Por ejemplo, la variable cyl mide la cantidad de cilindros que tienen los autos.
Para ver la tabla de frecuencia de alguna variables podemos usar la función table()
table(mpg$cyl)
4 5 6 8
81 4 79 70
Para poder realizar está distinción a través de colores debemos incluirlo en el argumento aes() como color = var.
La gráfica estarÃa definida de la siguiente manera:
ggplot(mpg, aes(x=cty, y=hwy, color=cyl)) +
geom_point() +
labs( title = "City Miles versus Highway Miles",
subtitle = "Based on the data from 1999 to 2008",
caption = "Created by JJGS"
)

Es probable que la gráfica de arriba no sea lo que esperabamos. La razón más probable es porque la variable cyl esté definida como una variable continua cuando es una variable discreta. Para verificar esto, podemos usar la función class().
class(mpg$cyl)
[1] "integer"
Para hacer el cambio, podemos re definir la variable como caracter o como factor. Hagamos esto.
ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) +
geom_point() +
labs( title = "City Miles versus Highway Miles",
subtitle = "Based on the data from 1999 to 2008",
caption = "Created by JJGS"
)

¡Listo! Esta gráfica sà cumple con nuestras expectativas.
Otra forma de distinguir las observaciones en factores serÃa utilizando el layer facet_. Esto nos va a permitir hacer mini gráficas en función de los factores que tiene la variable.
Por ejmplo,
ggplot(mpg, aes(x=cty, y=hwy)) +
geom_point() +
facet_wrap(~ cyl) +
labs( title = "City Miles versus Highway Miles",
subtitle = "Based on the data from 1999 to 2008",
caption = "Created by JJGS"
)

De esta forma pudimos realizar una gráfica para cada uno de la cantidad de cilindros.
Una gráfica que puede resultar interesante es:
ggplot(mpg, aes(x=cty, y=hwy, color=as.factor(cyl))) +
geom_point() +
facet_wrap(~ drv) +
labs( title = "City Miles versus Highway Miles",
subtitle = "Based on the data from 1999 to 2008",
caption = "Created by JJGS"
)

