library("ggplot2")
library("dplyr")
library("tidyverse")
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v tidyr   0.8.2     v purrr   0.2.5
v readr   1.1.1     v stringr 1.3.1
v tidyr   0.8.2     v forcats 0.3.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
library("tibble")
install.packages("tidyverse")

Introducción al análisis de datos. en el texto se trata: “Reestructura de datos y el principio de los datos limpios” y “Estrategia divide-aplica-combina”.

La limpieza y orden de los datos es elemental para facilitar el trabajo de análisis, en este texto se muestran técnicas para hacer de la data un lugar más conveniente donde trabajar.

La idea es limpiar los datos de la información que no necesitamos y almacenarlos de una manera consistente que nos permita enfocarnos en responder las dudas antes de estar luchando por descifrarlos. A fin de cuentas, una data ordenada y limpia nos ayuda a trabajar en la: Manipulación, visualización y modelación de los datos.

En resumen:

Lo importante de armar una tabla ordenada es comenzar por identificar las variables, en el siguiente caso, las variable será las anotaciones de Camilo y Luciano con la camiseta de su club universitario, Club Atlético Cenicero (CAC).

comenzaremos por asignarle nombre a la data, en este caso le pondremos Goles_por_partido, siendo el primer dato el nombre del jugador, separado por un guión bajo el número correspondiente a la fecha:

Goles_por_partido <- tibble(camilo_1 = c(2),
       camilo_2 = c(3),
       camilo_3 = c(1),
       luciano_1 = c(1),
       luciano_2 = c(3),
       luciano_3 = c(0)
       )

A continuación la tabla:

tibble(camilo_1 = c(2),
       camilo_2 = c(3),
       camilo_3 = c(1),
       luciano_1 = c(1),
       luciano_2 = c(3),
       luciano_3 = c(0)
)

En este caso, las varibles son identificables como “nombres” (Camilo y Luciano), “fechas” y goles marcados. Los datos se encuentran en una sola líne sin una tabla clara.

Por otro lado, existen muchos errores posibles a la hora de ordenar una data, analizarla y extraer datos. Los errores más comunes dentro de este ejercicio pueden ser que: Los encabezados de las columnas son valores numéricos; pueden haber más de una variable por columna; las variables están organizadas tanto en filas como en columnas; más de un tipo de observación en una tabla o una misma unidad observacional está almacenada en múltiples tablas.

Es por eso que el paquete tidyr: tiene dos funciones claves para facilitar la tarea:

En el caso de tener una tabla con datos desordenados e ilegibles, debemos ocupar tidy para ordenarla. Para comenzar se deben alargar los datos y así reconocer las dos columnas que se agrupan key y value. Para hacer esto ocupamos la función gather.

Dato importante

Si queremos restar de las columnas alguna variable es se debe anteponer el signo menos (-) antes de la variable a eliminar.

Para ejemplificar usaremos el primer ejemplo de este archivo, en el cual destacaban las variables relacionadas con los partidos de fútbol jugados por Camilo y Luciano, datos que sólo se presentan de manera lineal, para ordenar utilizaremos la función gather.

tidyr::gather(data = Goles_por_partido,
              key = "Fecha_jugada",
              value = "goles_marcados")

También puede pasar que una columna presente dos variables diferentes, en este caso podemos utilizar la función de tidy “separate”. Lo que hace es recibir la información:

En general, el paquete tidy es una herramienta muy útil en la visualización de datos en RStudio, ordena los datos para hacerlos más legibles a través de distintos métodos y funciones, como por ejemplo Gather y Spread.

Goles_Por_Partido_tidy <- gather(data = Goles_por_partido,
       key = "Fecha_jugada",
       value = "goles_marcados") %>%
separate(Fecha_jugada, into = c("Nombre", "Fecha"), sep = "_")
gather(data = Goles_por_partido,
       key = "Fecha_jugada",
       value = "goles_marcados") %>%
separate(Fecha_jugada, into = c("Nombre", "Fecha"), sep = "_")

Es elemental en este proceso tener en cuenta identificar de la mejor manera las diferentes variables presentes en la tabla, no sólo a modo infirmativo, sino que también para saber cuáles de estas son necesarias para nuestro trabajo. Por otra parte, es necesario tener en cuenta 5 puntos que son claves para la visualización de datos con tidy:

Otra forma de ordenar una data ilegible o enredada es la clásica forma de aplica-combina, que consiste en romper un problema en pedazos, separar todas las variables y dejarlas como información parcelada, para luego unir de la mejor forma y así ordenar.

Para esto es necesario tener en cuenta 3 conceptos:

Finalmente, si hablamos de ordenar datos no podemos dejar fuera a “dplyr”, en él se encuentran varias funciones, como por ejemplo:

En la siguiente tabla buscaremos dar un ejemplo de una de las funciones de dplyr, en base a la tabla utilizada con los goles por jugador y fecha. En este caso, ejemplificaremos con la función Filter:

filter(Goles_Por_Partido_tidy, goles_marcados == "0")

En la tabla anterior, filtramos los datos para extraer la información que necesitamos, en este caso para sacar el número de veces que un jugador no anotó en alguna fecha, dando como resultado que el jugador “Luciano” no anotó en la fecha número 3.

A diferencia del paquete tidy, en este caso generalmente se trabaja con una data ordenada, que previamente ordenamos o que ya se encontraba legible y útil para nuestro trabajo. Sin embargo, estas funciones funcionan de manera similar, reciben de entrada un dataframe, los argumentos que siguen indican qué trabajo realizaremos y nos arroja la nueva información.

