Christopher Jerez, Fernanda Marchessi y Antonia Pumarino

library(tidyverse)
library(ggplot2)

Trabajar con datos puede ser muy rápido o muy lento, dependiendo de cómo estén organizados los datos. En un mundo perfecto creeríamos que todos los datos que entregan organizaciones o instituciones están bien organizados, por ende, trabajar con ellos sería fácil y rápido. Sin embargo, Hadley Wickham señala que la realidad es muy distinta.

En sus años de experiencia trabajando con datos, Wickham se ha percatado que es una realidad que los datos vienen organizados de manera extraña y que incluso, hay muchas formas en que los datos estén mal organizados. Arreglar esto manualmente, implicaba mucho tiempo pero además conllevaba muchos errores de tipeo. Por esta razón se propuso crear un sistema que ordenara los datos de manera rápida, o como dice el autor, una manera más limpia de tener los datos.

Su misión lo llevó a inventar un paquete en el programa Rstudio, donde creó un sistema mucho más simple y rápido de trabajar con datos, el tidy data.

Los tidy data, o datos prolijos, son una forma de ordenar y limpiar la información de una manera que permite ser leída y entendida de manera mucho más fácil y exacta. Para que esto sea posible se tienen que cumplir dos condiciones simultáneamente: que cada columna sea una variable y cada fila una observación.

Las variables son las que contienen los valores que miden un mismo atributo, como el tiempo, la altura, temperatura, etc. Una observación en cambio, contiene todos los valores medidos en la misma unidad como una persona, un día o tipos de fruta a través de los atributos.

A continuación, podemos observar un ejemplo de datos que no son prolijos: vemos que todos los encabezados de las columnas en verdad corresponden a valores. Si bien es evidente que esta tabla nos da información sobre tres niños, trabajar en Rstudio con estos datos tal como se presentan es muy engorroso, puesto que las variables están en las columnas.

probando_jiji <- tibble(
  
  Martin = c("1,40 metros"),
  Agustin = c("1,65 metros"),
  Joaquin = c("1,70 metros")
)

No tidy

tibble(
  Martin = c("1,40 metros"),
  Agustin = c("1,65 metros"),
  Joaquin = c("1,70 metros")
)

Al intentar graficar con ggplot, no hay nada que agrupe a Martín, Agustín o Joaquín, pues todos ellos son variables desparramadas en distintas columnas, por lo tanto es necesario dejar todos estos nombres en una misma columna. Lo mismo pasa con las estaturas, por ende, es necesario buscar otra manera de organizar los datos para procesarlos de manera ordenada y posteriormente poder graficarlos.

ggplot(probando_jiji) +
  geom_bar(mapping = aes(x = metros))
Error in FUN(X[[i]], ...) : object 'metros' not found

¿Cómo arreglar esto? Convirtiendo esta información a tidy data. Rstudio ofrece funciones que nos ayudan fácilmente a realizar esta tarea, específicamente la función gather. Gracias a ella, podemos agrupar la información en torno a dos columnas: Niños y Estatura.

probando_jiji <-tidyr::gather(data = probando_jiji,
              key = Niños,
              value = Estatura)
              
probando_jiji

Ya que nuestra información se volvió tidy, es decir, que las variables ahora están en es muy fácil graficar los datos que entrega. A continuación, mostramos un ejemplo usando el paquete Ggplot para hacer un gráfico de puntos donde cada niño está relacionado con su estatura.

ggplot(probando_jiji) +
  geom_count(aes(Niños, Estatura, colour = Niños)) +
  ggtitle("Grafico 1: Información tidy de los niños")

La situación anterior, como explica Wickham, es uno de los problemas más comunes observados en conjuntos de datos desordenados. Otros ejemplos suceden cuando:

Ante estas situaciones, hay otras herramientas que están a disposición de los usuarios para convertir un conjunto de datos desordenado a uno ordenado. Por ejemplo, a continuación presentamos un conjunto de datos donde hay muchas variables en una columna.

ejemplo_1 <- tibble(
  años_precios = c("2017_7000", "2018_8000", "2019_9000", "2017_6000", "2018_7000", "2019_8000"),
  Producto = c("almendra", "almendra", "almendra","nuez", "nuez", "nuez"),
)
ejemplo_1

En este caso, tenemos información sobre la evolución de los precios por año de dos productos. Tenemos las columnas “años_precios” y “Producto” pero tanto años como precios debieran ser en realidad columnas por sí solas, de otra forma, un gráfico con esta información es imposible de entender.

ggplot(ejemplo_1) +
  geom_point(mapping = aes(x = años_precios, y = Producto)) +
  ggtitle("Grafico 2: Información desprolija sobre almendras y nueces")

Para volver este conjunto de datos a uno tidy, procederemos a usar la función separate para ahora tener tres columnas, cada una con sus respectivas variables.Gracias a esto, ahora la información está mucho más ordenada, es más fácil de graficarla y entenderla, como mostramos a continuación.

ejemplo_1 <- separate(ejemplo_1, años_precios, c("Años", "Precios"), sep ="_")
ejemplo_1
ggplot(ejemplo_1) +
  geom_point(mapping = aes(x = Precios, y = Años, colour = Producto, size = Precios)) +
  ggtitle("Grafico3: Información ordenada respecto a nueces y almendras")

Por ende, la importancia del tidy data es que gracias a esta condición de orden, trabajar con datos es mucho más simple y permite que al graficar, la información sea entendible para todas las personas.

