Hemos visto que con el tidytverse podemos manipular datos. En concreto, hemos aprendido las siguiente funciones que alteran tablas de datos:

El desafío ahora, radica en utilizar estas funciones (y otras que iremos aprendiendo en el camino) para preprocesar una tabla real de datos.

Para esto, vamos primero a cargar las librerías tidyverse y lubridate.

library(tidyverse)
library(lubridate)

Una vez cargadas, vamos a importar en un data frame llamado df_ventas2020 los siguientes datos que se encuentran en la dirección url: https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/ventas_fabrica.csv. Vale mensionar que estos datos corresponden a las ventas mensuales en unidades y en valor de productos fabricados en una planta local.

df_ventas2020 <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/ventas_fabrica.csv",
                          col_names = T) 

-- Column specification ---------------------------------------------------------
cols(
  Nombre_Articulo = col_character(),
  Nombre_Producto = col_character(),
  Nombre_Color = col_character(),
  PeriodoMes = col_double(),
  Tipo = col_character(),
  Unidades = col_double(),
  Valor_USD = col_double()
)

Démosle una mirada a este objeto con glimpse y View.

glimpse(df_ventas2020)
Rows: 3,103
Columns: 7
$ Nombre_Articulo <chr> "Fuentes", "Fuentes", "Fuentes", "Fuentes", "Fuentes", ~
$ Nombre_Producto <chr> "FUENTE REGGIO BLANCO", "FUENTE REGGIO BLANCO", "FUENTE~
$ Nombre_Color    <chr> "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLAN~
$ PeriodoMes      <dbl> 202001, 202002, 202003, 202004, 202005, 202006, 202007,~
$ Tipo            <chr> "Continuo", "Continuo", "Continuo", "Continuo", "Contin~
$ Unidades        <dbl> 551, 360, 177, 19, 123, 165, 456, 333, 404, 312, 287, 3~
$ Valor_USD       <dbl> 20290.03, 12814.27, 6872.47, 431.86, 5217.57, 6875.70, ~
View(df_ventas2020)

Empecemos entonces con el preprocesamiento.

1. Ajustar las clases de las variables

Una de las primeras cosas que notamos en nuestro data frame, es que algunas variables no están en las clases adecuadas. Por ejemplo,

df_ventas2020 %>%
  count(Nombre_Articulo)
df_ventas2020 %>%
  count(Tipo)
df_ventas2020 %>%
  count(Nombre_Color)

Visto esto, usemos mutate para construir un nuevo objeto df_ventas2020_01 a partir de nuestra tabla, de modo que cambiemos la clase de las 3 variables definidas. PISTA: Utilice además las funciones as.factor y as.integer dentro del mutate.

df_ventas2020_01 <- df_ventas2020 %>%
  mutate(Nombre_Articulo = as.factor(Nombre_Articulo)) %>%
  mutate(Tipo = as.factor(Tipo)) %>%
  mutate(Unidades = as.integer(Unidades))

Veamos con glimpse si logramos nuestro objetivo:

glimpse(df_ventas2020_01)
Rows: 3,103
Columns: 7
$ Nombre_Articulo <fct> Fuentes, Fuentes, Fuentes, Fuentes, Fuentes, Fuentes, F~
$ Nombre_Producto <chr> "FUENTE REGGIO BLANCO", "FUENTE REGGIO BLANCO", "FUENTE~
$ Nombre_Color    <chr> "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLAN~
$ PeriodoMes      <dbl> 202001, 202002, 202003, 202004, 202005, 202006, 202007,~
$ Tipo            <fct> Continuo, Continuo, Continuo, Continuo, Continuo, Conti~
$ Unidades        <int> 551, 360, 177, 19, 123, 165, 456, 333, 404, 312, 287, 3~
$ Valor_USD       <dbl> 20290.03, 12814.27, 6872.47, 431.86, 5217.57, 6875.70, ~

2. Tratamiento de valores perdidos y outliers

2.1 Valores perdidos

Algo muy frecuente que se nos presenta al momento de trabajar con datos reales, es la existencia de valores perdidos (comúnmente representados por los caracteres “NA”, “?” o “null”). Como analista de datos, conviene darles cierta atención a estos casos, y las dos formas más utilizas son:

  • Eliminación de valores perdidos: esta alternativa es la más simple y directa pero hay que tener cuidado de que esto no implique perder información valiosa posteriormente. Para hacerlo la forma más sencilla es usando filter apoyado de otra función como is.na. En nuestro ejemplo, notemos que tanto Unidades como Valo_USDr poseen valores perdidos, por lo que creemos un nuevo objeto df_ventas2020_02 quitándolos. PISTA: recuerde que la negación de una operación lógica se expresa antecediendo el caracter “!”.
df_ventas2020_02 <- df_ventas2020_01 %>%
  filter(!is.na(Unidades)) %>%
  filter(!is.na(Valor_USD))
View(df_ventas2020_02)
  • Reemplazo de valores perdidos: esta alternativa puede resultar más compleja, pero trae como beneficio que no se pierde potencial información de valor. Consiste en sustituir los valores perdidos por un valor referencial (comúnmente la mediana). En nuestro ejemplo, vamos a reemplazar por la mediana los valores perdidos en Unidades y dejaremos Valor_USD para tratarlo después. Para esto, vamos a agrupar nuestra tabla por Nombre_Producto, y sustituiremos los valores perdidos en cada grupo. REcuerde usar las funciones group_by, ungroup y mutate. Cree un nuevo objeto llamado df_ventas2020_03. PISTA: Empleemos otra función muy util llamada ifelse que permite evaluar condicionalmente.
df_ventas2020_03 <- df_ventas2020_01 %>%
  group_by(Nombre_Producto) %>%
  mutate(Unidades = ifelse(is.na(Unidades),
                           as.integer(median(Unidades, na.rm = TRUE)),
                           Unidades)) %>%
  ungroup()
View(df_ventas2020_03)

2.2 Outliers (Valores atípicos)

Otra situación bastante común que se presenta es encontrarse con valores “extraños” que claramente muestran un comportamiento distinto al esperado. El 2020 fue un año marcado por casos atípicos a nivel de datos, pues en los meses de marzo, abril y mayo, la pandemia del COVID-19 ocasionó variaciones nunca antes vistas, y nuestros datos de ejemplo no son la excepción.

Para tratar estos valores, se pueden emplear los mismos métodos que en el caso de perdidos. Esto es, se los puede eliminar o bien se los puede cambiar por un valor referencial como la mediana.

Por esta ocasión, no vamos a cambiar o eliminar nada de nuestro ejemplo, pero solamente veamos que tan atípicos son nuestros datos en estos meses haciendo un resumen estadístico por PeriodoMes con la suma de Unidades y Valor_USD. Recuerde usar summarise.

df_ventas2020_03 %>% 
  group_by(PeriodoMes) %>%
  summarise(Unidades = sum(Unidades, na.rm = TRUE),
            Valor_USD = sum(Valor_USD, na.rm = TRUE))

Otros atípicos bastante comunes que se encuentran, son aquellos que se originan por un mal ingreso de los datos. En nuestro ejemplo, notemos que existen algunos registros con Unidades = 0 pero con valor de venta positivo. Esto claramente no tiene sentido. Arreglemos esto, cambiando los Valor_USD a 0 siempre que Unidades sean 0. Creemos el objeto df_ventas2020_04.

df_ventas2020_04 <- df_ventas2020_03 %>%
  mutate(Valor_USD = ifelse(Unidades == 0,
                            0,
                            Valor_USD))

3. Tratamiento de variables no numéricas

Algunas variables no numéricas (texto o factores) pueden requerir de cierto tratamiento a fin de facilitar su análisis subsiguiente. Esto es extremadamente importante al momento de utilizar los datos en modelos de analítica avanzada, como los asociados a aprendizaje computacional (machine learning) puesto que la computadora no es capaz de contextualizar palabras coomo una persona.

En este sentido, muchos de los métodos de este apartado trascienden a lo planteado en este curso. sin embargo, en el aula virtual se ha colocado un breve video que explica el método más común para tratar variables no numéricas: el One-Hot Encoding por si les resulta de interés.

Por ahora, veremos un caso específico y muy usado en inteligencia de negocio que se denomina el Balanceo. Lo que buscamos aquí es reducir o limitar el número de opciones que una variable de tipo factor o texto pueda presentar, y como ejemplo haremos este tratamiento en Nombre_Color.

Como ya lo mencionamos, esta variable tiene 17 opciones diferentes, las cuales no están balanceadas. Para ilustrar esto, el color BLANCO presenta 1,404 casos, mientras que el NARANJA apenas 9.

Vamos entonces a CREAR una nueva la variable Grupo_Color de modo que si uno de los colores tiene menos de 100 observaciones, pertenecerá al grupo “OTROS”, todos los demás casos mantienen su nombre original. Utilizaremos nuevamente las funciones group_by, ungroup, mutate, e ifelse. Llamaremos al nuevo objeto que creemos df_ventas2020_05.

df_ventas2020_05 <- df_ventas2020_04 %>%
  #Primero generemos un campo auxiliar que nos muestre el número de casos para cada color
  group_by(Nombre_Color) %>%
  mutate(Casos = n()) %>%
  ungroup() %>%
  #Luego, creemos la variable Grupo_Color poniendo el valor de OTROS cuando casos sea menor que 100, y el mismo nombre del color cuando esto no aplique
  mutate(Grupo_Color = ifelse(Casos < 100,
                              "OTROS",
                              Nombre_Color))

Veamos lo que conseguimos:

View(df_ventas2020_04)

Construyamos una tabla de frecuencia de nuestra nueva variable para ver si en algo mejoramos el balanceo y la cantidad de opciones:

df_ventas2020_05 %>%
  count(Grupo_Color)

4. Selección (o ingeniería) de atributos

Como último punto de nuestro preprocesamiento, definir cuáles son las variables que queremos mostrar en nuestra tabla de datos previo a empezar su análisis exhaustivo. Esto implica las dos cosas referidas a continuación.

4.1 Creación de nuevas variables

Para dar una mayor robustez a nuestro análisis, siempre es bueno contar con todas las variables que nos vayan a ser de utilidad. Para esto, por un lado creemos variables que sean potencialmente valiosas.

En nuestro ejemplo, notemos que podría ser útil contar con las siguientes variables:

  • Mes: el campo PeriodoMes termina siendo redundante en vista que sabemos que todos los datos corresponden al Período o Año 2020.
  • Fecha: sería adecuado tener un campo adicional que esté en formato fecha puesto que estamos viendo, de cierta forma, una evolución en el tiempo.
  • Tarifa_Prom: siempre que estudiamos ventas, es útil saber la tarifa promedio a la cual se terminó vendiendo un producto, y esto e sfacil calcularlo con \[ Valor_{USD} / Unidades \]

Entonces, creemos el objeto df_ventas2020_06 que contenga estos nuevos atributos usando la función mutate. PISTA: Utilice la funcion str_remove para quitar el 2020 de PeriodoMes; ISOdate para obtener una fecha.

df_ventas2020_06 <- df_ventas2020_05 %>%
  mutate(Mes = as.integer(str_remove(PeriodoMes, "2020"))) %>%
  mutate(Fecha = ISOdate(year = 2020, month = Mes, day = 1)) %>%
  mutate(Tarifa_Prom = Valor_USD/Unidades)

Veamos lo conseguido:

View(df_ventas2020_06)

Notemos que Tarifa_Prom tiene valores perdidos arrastrados por Valor_USD, y otros derivados de la división por 0. Ya lo corregiremos más adelante.

4.2 Eliminación de variables

Así como creamos variables potencialmente útiles para nuestro análisis posterior, podemos también eliminar aquellas variables que carezcan de sentido o veamos de forma anticipada que no nos serán de utilidad.

En nuestro ejemplo, las variables PeriodoMes y Casos no tienen mucho sentido. La primera porque toda la información que puede entregar ya está contenida en las nuevas variables que creamos; y la segunda, porque su existencia es puramente auxiliar. Por consiguiente vemos que su eliminación no representa ningún riesgo para el análisis.

Para eliminarlas, utilicemos la función select, creando el objeto df_ventas2020_07.

df_ventas2020_07 <- df_ventas2020_06 %>%
  select(-PeriodoMes,
         -Casos)

veamos el resultado final:

View(df_ventas2020_07)

OJO: Para eliminar una variable, tenemos que tener muy clara la razón detrás de nuestra decisión. No se eliminan variables sin una explicación lógica y defendible.

5. Tarea Individual

Usando lo aprendido en la clase, complete su script de forma que incluya lo siguiente, además de lo hecho con el profesor:

Este script lo deben subir hasta la fecha indicada en el Aula Virtual.

