Introducción

La idea de estos apuntes es escribir sobre el análisis exploratorio de datos.

Cargar paquetes utilizados en el documento.

library(ggplot2)
library(dplyr)
library(titanic)
theme_set(theme_bw())

Exploremos la data del Titanic.

# Unir las dos tablas por filas con información de los pasajeros del
# titanic que vienen en el paquete titanic: titanic_train y titanic_test
df <- dplyr::bind_rows(titanic::titanic_train,
                       titanic::titanic_test)
# Ver que contiene la data, un breve resumen con glimpse():
glimpse(df)
Observations: 1,309
Variables: 12
$ PassengerId <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...
$ Survived    <int> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, ...
$ Pclass      <int> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, ...
$ Name        <chr> "Braund, Mr. Owen Harris", "Cumings, Mrs. Joh...
$ Sex         <chr> "male", "female", "female", "female", "male",...
$ Age         <dbl> 22, 38, 26, 35, 35, NA, 54, 2, 27, 14, 4, 58,...
$ SibSp       <int> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, ...
$ Parch       <int> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, ...
$ Ticket      <chr> "A/5 21171", "PC 17599", "STON/O2. 3101282", ...
$ Fare        <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4...
$ Cabin       <chr> "", "C85", "", "C123", "", "", "E46", "", "",...
$ Embarked    <chr> "S", "C", "S", "S", "S", "Q", "S", "S", "S", ...

Para mayor detalle de que información contienen las variables ver la documentación:

?titanic::titanic_train

Inspeccionar variación en una variable

Hablar de los siguientes puntos:

  1. Repaso de variables categorica y continua
  2. Definición de variación
  3. Introduccir el concepto de distribucción

En variable categórica: geom_bar

Analicemos la distribución de pasajeros por sexo que hay en los datos.

ggplot(data = df) +
  geom_bar(mapping = aes(x = Sex), fill = "steelblue", colour = "black") +
  ggtitle("Para observar la variación de una variable categórica: geom_bar.")

La información del gráfico anterior se puede confirmar con la función dplyr::count. Esta función cuenta el número de observaciones en cada uno de los valores únicos (female y male) que tiene la variable (Sex). Por ejemplo, las observaciones en nuestros datos corresponden a pasajeros del Titanic, sí queremos saber cuantos pasajeros son hombres o mujeres, podemos utilizar count de la siguiente manera:

count(df, Sex)

En variable continua: geom_histogram

Veamos como análizar la distribución de una variable continua como Fare, que indica la tarifa pagada por los pasajeros del Titanic.

df %>% 
  select(Fare)

Gráfiquemos cada observación con un punto cuya coordenada en el eje x será dada por el valor indicado en Fare y en el eje y fijaremos , para todas las observaciones, el valor 0.

ggplot(data = df) +
  geom_point(mapping = aes(x = Fare, y = 0))

El gráfico anterior nos da información del rango que pueden tomar los valores, por ejemplo, los valores mínimos y máximos de la variable Fare son 0 y 512.3292 respectivamente. Además se puede observar que hay una concentración de puntos entre el rango tarifario 0 a 100. Luego, dos subgrupos entre 100 a 160 y 200 a 260 aproximadamente. El valor máximo parece ser una observación puntual y bastante alejado del resto de los puntos. ¿Cómo podemos ser más especificos en visualizar las concentraciones de puntos?

Intentemos capturar la magnitud de cada tarifa, en el sentido de cuantas observaciones hay detrás de estas, tarea especial para la función count. Sí pensamos en el output de count, este nos entrega una tabla totalmente legitima para poder gráficar:

# head nos arroja las primeras 6 observaciones de la tabla que nos entrega count(df, Fare)
head(count(df, Fare))

Utilizaremos la misma técnica del gráfico anterior, pero ahora solo tenemos valores unicos en la variable Fare para el eje x y seguiremos usando la constante 0 para el eje y, pero esta vez, usaremos la variable n que nos arroja la función count. Así tendremos la cantidad de observaciones presentadas por cada unos de los valores únicos de x asociada al atributo size de los puntos en el gráfico.

df %>% 
  count(Fare) %>% 
  ggplot() +
  geom_point(mapping = aes(x = Fare, y = 0, size = n), 
             alpha = 1 / 5,
             shape = 21, 
             fill = "red", 
             colour = "black")

Este gráfico introduce la noción de magnitud en los valores observados en la variable Fare. Ahora se puede distinguir mejor las concentraciones de datos en los valores, sin embargo, si reflexionamos acerca de la naturaleza de esta variable continua puede que no tenga mucho sentido contabilizar una tarifa de 6.01 y 6 como distintas. Por supuesto que esto depende del contexto, pero sí lo pensamos, siempre podemos definir intervalos “pertinentes” para ser contabilizados como observaciones símiles. Esto nos lleva a la idea de discretizar una variable continua.

Es posible definir intervalos de tarifas de igual distancia para la variable Fare y clasificar a cual de estos intervalos pertenece el valor de cada observación. Por ejemplo, la función dplyr::cut_width se puede utilizar para crear estos intervalos y obtener una versión discreta de la variable Fare.

# Crear intervalos y clasificar a cual de estos pertenece los valores de una variable continua. 
df %>% 
  select(Fare) %>% 
  mutate(intervalos = cut_width(Fare, 10))

Existe una representación geométrica en el paquete ggplot2 que realiza la transformación anterior y cuenta el número de observaciones por cada uno de los intervalos generados, esta da como resultado un gráfico que se conoce por histograma. Podemos gráficar de forma rápida un histograma en ggplot con la función geom_histogram, que nos solicita como mínimo el asignar una variable continua al atríbuto estético eje x.

ggplot(data = df) +
  geom_histogram(mapping = aes(x = Fare), binwidth = 10, fill = "orange", colour = "black") +
  ggtitle("Para observar la variación de una variable continua: geom_histogram.")

El argumento binwidth utilizado por geom_histogram sirve para definir el tamaño de los intervalos generados. No hay forma estandar de escoger el tamaño del intervalo, por lo tanto, es importante probar con distintos tamaños para ver sí se encuentran patrones de variación interesantes.

Sí solo especificamos el atríbuto estético x en la función geom_histogram, por defecto se utiliza un tamaño de intervalo de 30 (bin_width = 30). El siguiente histograma se genera a partir de los mismos datos que el de arriba, solo que no se especifica el tamaño del intervalo.

# Por defecto, cuando no especificamos bin_width para fijar el tamaño de los intervalos, se utiliza bin_width = 30.
ggplot(data = df) +
  geom_histogram(mapping = aes(x = Fare), fill = "green", colour = "black")

Inspeccionar covariación entre variables

Entre variable categórica y continua: geom_freqpoly

Comparemos las distribución de tarifas entre grupos definidos por la variable Sex. En nuestra clase de introducción a la visualización, incorporamos a nuestra caja de herramientas la función facet_wrap(~ var_categorica) que nos permite replicar el mismo gráfico para cada uno de los grupos formados en base a una variable categórica. El resultado son una serie de gráficos en la misma escala para facilitar la comparación.

ggplot(data = df) +
  geom_histogram(mapping = aes(x = Fare, fill = Sex),
                 colour = "black") +
  scale_fill_viridis_d() +
  facet_wrap(~ Sex)

Este gráfico nos revela que las distribuciiones son similares, presentan una cola hacía la derecha, donde la mayor concentración de valores se encuentran entre el intervalo tarifario 0-100. Sin embargo, podemos ver que la magnitud (count) es menor para el grupo de mujeres. ¿Por qué?

Otra forma de comparar distribuciones de distintos grupos es con la función geom_freqpoly. Básicamente es lo mismo que un histograma, solo que en vez de utilizar barras ocupa líneas, esto facilita la sobreposición visual de los distintos grupos para comparar.

Muchas veces hay un desequilibrio con respecto al número de observaciones pertenecientes a cada grupo. Esto no tiene que ver con que las comparaciones de los grupos solo sean entre grupos de igual tamaño. Por ejemplo, en nuestros datos del Titanic es esperable que hayan menos observaciones de pasajeros en primera clase que en tercera porque habían menos cupos para primera clase en el barco.

df %>% 
  count(Pclass)
ggplot(data = df) +
  geom_freqpoly(mapping = aes(x = Fare, y = ..density.., colour = factor(Pclass),),
                binwidth = 10,
                size = 0.8) +
  ggtitle("Para comparar distintas distribuciones: geom_freqpoly\nSe puede utilizar y = ..density.. para hacer más comparables \nlos grupos con cantidad de observaciones muy distintas.")

Entre variable categórica y continua: geom_boxplot

Hasta ahora hemos visto que el proceso de visualización implica muchas veces realizar transformaciones estadisticas para sintetizar la información de nuestros datos en métricas más faciles de comprender. Un simple ejemplo de transformación es el conteo de observaciones, empleada por las funciones: geom_bar, geom_histogram y geom_freqpoly.

Un gráfico que utiliza otras transformaciones estadísticas y sirve para inspeccionar como covaria una variable continua con respecto a una categórica, es el gráfico de cajas y bigotes, o mejor conocido por su nombre en ingles como boxplot.

Comencemos creando una data de juguete para entender los componentes de boxplot.

# Crear un dataframe a partir de una secuencia que comienza en el 1 y términa en el 25.
(data_juguete <- tibble(
                        id = "var_categorica",
                        seq_num = seq(1, 25)
                        )
)
ggplot(data = data_juguete) +
  geom_boxplot(mapping = aes(x = id, y = seq_num)) +
  ggtitle("Gráfico de caja.")

¿Qué significa esta caja?

Sí ordenamos los valores de la variable seq_num de menor a mayor, y nos preguntamos cual es el valor que se encuentra en el 25%, 50% y 75% de los datos. Encontraremos información clave para comprender el boxplot.

Podemos responder la interrogante anterior, calculando facilmente con la función quantile los valores que representan los % solicitados.

quantile(data_juguete$seq_num)
  0%  25%  50%  75% 100% 
   1    7   13   19   25 
ggplot(data = data_juguete) +
  geom_boxplot(mapping = aes(x = id, y = seq_num)) +
  geom_hline(yintercept = 7, colour = "steelblue", size = 2) +  # valor correspondiente al 25% de los datos
  geom_hline(yintercept = 13, colour = "orange", size = 2) +    # valor correspondiente al 50% de los datos
  geom_hline(yintercept = 19, colour = "red", size = 2) +       # valor correspondiente al 75% de los datos
  ggtitle("Gráfico de caja con líneas horizontales destacando\nlos valores del primero, segundo y tercer cuartil.")

El tamaño de la caja se le conoce como rango intercuartil (IQR) y es la diferencia entre el tercer (75%) y primer cuartil (25%) de una distribución. La línea horizontal que divide por la mitad la caja es el estadístico conocico como la mediana (50%). Fuera de la caja tenemos los bigotes que representan los valores que se encuentran en las colas izquierda y derecha de la distribución.

# Podemos calcular el rango intercuartil con la función:
IQR(data_juguete$seq_num)
[1] 12

Lo que es equivalente a:

19 - 7
[1] 12

Los bigotes del gráfico no superan una distancia desde los valores del cuartil 25% y 75% \(-/+ 1.5 * \text{IQR}\)

La ventaja del boxplot es que compacta la distribución que vimos anteriormente representada por un histograma en esta caja con bigotes. Esto nos permite comparar la distribución de una variable continua con respecto a una variable categorica.

ggplot(data = df) +
  geom_boxplot(mapping = aes(x = factor(Sex), y = Fare, fill = factor(Pclass))) +
  facet_wrap(~ Pclass, scales = "free") +
  scale_fill_viridis_d() +
  ggtitle("Distribución tarifa pasajeros por sexo y clase.")

Los puntos que observamos más allá de los bigotes se consiideran outliers. Sin embargo, esta es una definición arbitraria.

Entre variables categóricas

ggplot(data = df) +
  geom_count(mapping = aes(x = factor(Survived), y = Sex),
             shape = 21,
             fill = "orange",
             colour = "black") +
  xlab("Survived") + 
  ggtitle("Para observar la covaración entre dos variables\ncategóricas: geom_count")

df %>% 
  count(Sex, Survived) %>% 
  ggplot(mapping = aes(x = factor(Survived), y = Sex)) +
  geom_tile(mapping = aes(fill = n)) +
  scale_fill_viridis_c() +
  xlab("Survived") +
  ggtitle("Para observar la covariación entre dos variables\ncategóricas: geom_tile")

Gráfico de correlación

La correlación es una medida para ver el grado de relación lineal entre dos variables. El rango que puede tomar esta métrica es de -1 a 1, siendo:

  • 1: Una relación lineal positiva perfecta
  • 0: Ausencia de relación lineal
  • -1: Una relación lineal negativa perfecta
library(purrr)
library(tidyr)
# Solo seleccionar las variables númericas.
var_caracter <- map_lgl(df, is.character)
datos_num <- df[, !var_caracter]
# Crear matriz de correlación y redondear al segundo decimal.
datos_cor <- as_tibble(cor(datos_num, use = "complete.obs"),
                       rownames = NA)
# Crear una variable con los nombres de las variables.
datos_cor$var1 <- names(datos_num)
# Trasponer la tabla, dejando los nombres de las columnas
# como una variable
datos_cor <- tidyr::gather(datos_cor, "var2", "cor", -var1)
ggplot(data = datos_cor) +
  geom_tile(mapping = aes(x = var1, y = var2, fill = cor)) +
  scale_fill_viridis_c() +
  ggtitle("Gráfico de correlación entre las variables númericas") +
  xlab(NULL) +  # Eliminar etiqueta del eje x
  ylab(NULL)    # Eliminar etiqueta del eje y

