This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
library(ggplot2)
## Registered S3 methods overwritten by 'ggplot2':
## method from
## [.quosures rlang
## c.quosures rlang
## print.quosures rlang
En esta sección vamos a seguir trabajando con el paquete ggplot2, en este caso para usar los diagramas de cajas. Cargamos el dataset mtcars y lo guardamos como df.
df <- mtcars
head(df)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
El diagrama de cajas se usa en variables numéricas ya que nos proporcionará tanto la mediana como los cuartiles y los outliers. Vamos a inspeccionar el dataset.
str(df)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
Todas las variables son numéricas, aunque algunas de ellas realmente tienen un número limitado de valores (como es el caso de la variable cyl, que solo tiene el 4,6 y 8). La sintaxis básica para una representación de un diagrama de cajas es la siguiente:
pl <- ggplot(df, aes(x=0, y=mpg))
El elemento geométrico que se le añade es geom_boxplot()
pl + geom_boxplot()
Obtenemos así la distribución en cajas de la variable mpg.
Otra característica importante es que podemos calcular la distribución de una variable respecto a otra categórica. Si, por ejemplo, quisiéramos ver cómo se distribuye la variable mpg en función de cyl, simplemente modificaríamos la sintaxis básica de la siguiente manera:
pl <- ggplot(df, aes(x=factor(cyl),y=mpg))
pl + geom_boxplot()
Al igual que los otros tipos de gráficos, se puede modificar tanto su tamaño, color, relleno y otros parámetros que se encuentran en la documentación. Rellenaremos el gráfico en función de otra columna.
pl + geom_boxplot(aes(fill=factor(cyl))) + theme_bw()
Para cambiar de dirección el gráfico cuando prefiramos poner los diagramas de cajas en horizontal añadimos el siguiente comando:
pl + geom_boxplot() + coord_flip()