A continuación se mostrará como se realiza e interpreta un gráfico de boxplot o cajas para analizar la distribución y la tendencia central de un conjunto de datos determinado.
Para empezar, veamos como se ve un gráfico de este tipo:
Para cumplir con el objetivo de analizar la distribución de una determinada muestra de datos, la visualización distribuye los datos en cuartiles: Q1, Q2 y Q3. Cabe destacar que, los cuartiles son los valores que dividen a la muestra (cantidad de registros) en 4 partes iguales.
Q1: El primer cuartil está representado por el mayor valor incluido en el 1/4 más bajo. Es decir que, el 25% de la muestra de datos es menor que este valor.
Q2: El segundo cuartil está representado por el mayor valor incluido en el 2/4. Es decir que, el 50% de la muestra de datos es menor que este valor. Este valor indica la mediana de la serie.
Q3: El tercer cuartil está representado por el mayor valor incluido en el 3/4. Es decir que, el 75% de la muestra de datos es menor que este valor.
En este gráfico también pueden aparecer outliers, es decir valores extremos que haya dentro de los conjuntos de datos.
Trabajemos con el dataset provisto por Gapminder:
Primero, activemos la librería necesaria: tidvyerse
library(tidyverse)
Luego, carguemos el dataset:
data_mundial <- read.csv("https://bitsandbricks.github.io/data/gapminder.csv")
Y ahora, para simplificar los datos, trabajemos solo con el año más reciente:
data_mundial_ult <- data_mundial %>% filter(anio == max(anio))
data_mundial_ult %>%
head()
## pais continente anio expVida pobl PBI_PC
## 1 Afghanistan Asia 2007 43.828 31889923 974.5803
## 2 Albania Europe 2007 76.423 3600523 5937.0295
## 3 Algeria Africa 2007 72.301 33333216 6223.3675
## 4 Angola Africa 2007 42.731 12420476 4797.2313
## 5 Argentina Americas 2007 75.320 40301927 12779.3796
## 6 Australia Oceania 2007 81.235 20434176 34435.3674
Ahora sí! Veamos con un boxplot como se distribuyen los datos de expVida por país según su Continente:
ggplot(data = data_mundial_ult) +
geom_boxplot(aes(x = continente, y = expVida, color = continente)) +
labs(title = "Expectativa de Vida por Continente",
subtitle = "Año 2007",
y = "Expectativa de Vida",
x = "Continente",
color = "Continente",
caption = "Fuente: www.gapminder.com") +
coord_flip()
Tal como vimos al principio, podemos observar las cajas con la distribución de datos para cada Continente. A simple vista, se podría decir que teniendo en cuenta la mediana, el continente con mayor expectativa de vida es Oceanía, seguido por Europa, América, Asia y África.
La mayor variación en la expectativa de vida está en los países de África que van desde 39 hasta 77 años; y la menor en Oceanía que van de 81 a 83 años.
Se ven 2 casos que tienen outliers o valores extremos de expectativa de vida en algún país, estos son: Asia y América.