library("ggplot2")
library("dplyr")
library("tidyverse")
[30m-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --[39m
[30m[32mv[30m [34mtidyr [30m 0.8.2 [32mv[30m [34mpurrr [30m 0.2.5
[32mv[30m [34mreadr [30m 1.1.1 [32mv[30m [34mstringr[30m 1.3.1
[32mv[30m [34mtidyr [30m 0.8.2 [32mv[30m [34mforcats[30m 0.3.0[39m
[30m-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[30m [34mdplyr[30m::[32mfilter()[30m masks [34mstats[30m::filter()
[31mx[30m [34mdplyr[30m::[32mlag()[30m masks [34mstats[30m::lag()[39m
library("tibble")
install.packages("tidyverse")
Introducción al análisis de datos. en el texto se trata: “Reestructura de datos y el principio de los datos limpios” y “Estrategia divide-aplica-combina”.
La limpieza y orden de los datos es elemental para facilitar el trabajo de análisis, en este texto se muestran técnicas para hacer de la data un lugar más conveniente donde trabajar.
La idea es limpiar los datos de la información que no necesitamos y almacenarlos de una manera consistente que nos permita enfocarnos en responder las dudas antes de estar luchando por descifrarlos. A fin de cuentas, una data ordenada y limpia nos ayuda a trabajar en la: Manipulación, visualización y modelación de los datos.
En resumen:
Cada variable forma una columna
Cada observación forma un renglón
Cada tipo de unidad observacional forma una tabla
Lo importante de armar una tabla ordenada es comenzar por identificar las variables, en el siguiente caso, las variable será las anotaciones de Camilo y Luciano con la camiseta de su club universitario, Club Atlético Cenicero (CAC).
comenzaremos por asignarle nombre a la data, en este caso le pondremos Goles_por_partido, siendo el primer dato el nombre del jugador, separado por un guión bajo el número correspondiente a la fecha:
Goles_por_partido <- tibble(camilo_1 = c(2),
camilo_2 = c(3),
camilo_3 = c(1),
luciano_1 = c(1),
luciano_2 = c(3),
luciano_3 = c(0)
)
A continuación la tabla:
tibble(camilo_1 = c(2),
camilo_2 = c(3),
camilo_3 = c(1),
luciano_1 = c(1),
luciano_2 = c(3),
luciano_3 = c(0)
)
En este caso, las varibles son identificables como “nombres” (Camilo y Luciano), “fechas” y goles marcados. Los datos se encuentran en una sola líne sin una tabla clara.
Por otro lado, existen muchos errores posibles a la hora de ordenar una data, analizarla y extraer datos. Los errores más comunes dentro de este ejercicio pueden ser que: Los encabezados de las columnas son valores numéricos; pueden haber más de una variable por columna; las variables están organizadas tanto en filas como en columnas; más de un tipo de observación en una tabla o una misma unidad observacional está almacenada en múltiples tablas.
Es por eso que el paquete tidyr: tiene dos funciones claves para facilitar la tarea:
Gather: Junta las columnas en pares de valores y nombres, concrete los datos anchos en largos.
Spread: Separa dos columnas para hacer los datos más anchos.
En el caso de tener una tabla con datos desordenados e ilegibles, debemos ocupar tidy para ordenarla. Para comenzar se deben alargar los datos y así reconocer las dos columnas que se agrupan key y value. Para hacer esto ocupamos la función gather.
Dato importante
Si queremos restar de las columnas alguna variable es se debe anteponer el signo menos (-) antes de la variable a eliminar.
Para ejemplificar usaremos el primer ejemplo de este archivo, en el cual destacaban las variables relacionadas con los partidos de fútbol jugados por Camilo y Luciano, datos que sólo se presentan de manera lineal, para ordenar utilizaremos la función gather.
tidyr::gather(data = Goles_por_partido,
key = "Fecha_jugada",
value = "goles_marcados")
También puede pasar que una columna presente dos variables diferentes, en este caso podemos utilizar la función de tidy “separate”. Lo que hace es recibir la información:
Nombre de la base de datos.
El nombre de la variable que deseamos separar en más de una.
La posición de donde deseamos “cortar”. La función es separar valores en distintos puntos de la columna siempre y cuando esta no tenga un valor alfa numérico. (espacio, guión, punto, etc.).
En general, el paquete tidy es una herramienta muy útil en la visualización de datos en RStudio, ordena los datos para hacerlos más legibles a través de distintos métodos y funciones, como por ejemplo Gather y Spread.
Goles_Por_Partido_tidy <- gather(data = Goles_por_partido,
key = "Fecha_jugada",
value = "goles_marcados") %>%
separate(Fecha_jugada, into = c("Nombre", "Fecha"), sep = "_")
gather(data = Goles_por_partido,
key = "Fecha_jugada",
value = "goles_marcados") %>%
separate(Fecha_jugada, into = c("Nombre", "Fecha"), sep = "_")
Es elemental en este proceso tener en cuenta identificar de la mejor manera las diferentes variables presentes en la tabla, no sólo a modo infirmativo, sino que también para saber cuáles de estas son necesarias para nuestro trabajo. Por otra parte, es necesario tener en cuenta 5 puntos que son claves para la visualización de datos con tidy:
Incluir un encabezado con el nombre de las variables.
Los nombres de las variables deben ser entendibles. (Pendejetes es mejor que PobInfantilMenorA18).
En general los datos se deben guardar en un archivo por tabla.
Escribir un script con las modificaciones que se hicieron a los datos crudos (reproducibilidad).
Selección de variables, datos faltantes, tipos y detección de valores atípicos.
Otra forma de ordenar una data ilegible o enredada es la clásica forma de aplica-combina, que consiste en romper un problema en pedazos, separar todas las variables y dejarlas como información parcelada, para luego unir de la mejor forma y así ordenar.
Para esto es necesario tener en cuenta 3 conceptos:
Separa la base de datos original.
Aplica funciones a cada subconjunto.
Combina los resultados en una nueva base de datos.
Finalmente, si hablamos de ordenar datos no podemos dejar fuera a “dplyr”, en él se encuentran varias funciones, como por ejemplo:
Filter: Para obtener un subconjunto a elección.
Select: Selecciona columnas según el nombre.
Arrange: Reordena filas.
Mutate: Agrega nuevas variables.
Summarise: Reduce variables a valores (promedio).
En la siguiente tabla buscaremos dar un ejemplo de una de las funciones de dplyr, en base a la tabla utilizada con los goles por jugador y fecha. En este caso, ejemplificaremos con la función Filter:
filter(Goles_Por_Partido_tidy, goles_marcados == "0")
En la tabla anterior, filtramos los datos para extraer la información que necesitamos, en este caso para sacar el número de veces que un jugador no anotó en alguna fecha, dando como resultado que el jugador “Luciano” no anotó en la fecha número 3.
A diferencia del paquete tidy, en este caso generalmente se trabaja con una data ordenada, que previamente ordenamos o que ya se encontraba legible y útil para nuestro trabajo. Sin embargo, estas funciones funcionan de manera similar, reciben de entrada un dataframe, los argumentos que siguen indican qué trabajo realizaremos y nos arroja la nueva información.
