Hemos visto que con el tidytverse podemos manipular datos. En concreto, hemos aprendido las siguiente funciones que alteran tablas de datos:
- summarise: generar resúmenes estadísticos a medida.
- count: construir conteos o tablas de frecuencia.
- arrange: ordenar los datos ascendente o descendentemente a partir de una variable en específico.
- mutate crear nuevas variables a partir de las existentes o transformar alguna ya existente.
- group_by (y su cierre ungroup): consolidad en grupos a los datos.
- filter: reducir la tabla mediante una operación lógica que aplique a una variable.
- select: reducir la tabla mediante la definición de cuáles variables se deben considerar.
El desafío ahora, radica en utilizar estas funciones (y otras que iremos aprendiendo en el camino) para preprocesar una tabla real de datos.
Para esto, vamos primero a cargar las librerías tidyverse y lubridate.
library(tidyverse)
library(lubridate)
Una vez cargadas, vamos a importar en un data frame llamado df_ventas2020 los siguientes datos que se encuentran en la dirección url: https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/ventas_fabrica.csv. Vale mensionar que estos datos corresponden a las ventas mensuales en unidades y en valor de productos fabricados en una planta local.
df_ventas2020 <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/ventas_fabrica.csv",
col_names = T)
-- Column specification ---------------------------------------------------------
cols(
Nombre_Articulo = col_character(),
Nombre_Producto = col_character(),
Nombre_Color = col_character(),
PeriodoMes = col_double(),
Tipo = col_character(),
Unidades = col_double(),
Valor_USD = col_double()
)
Démosle una mirada a este objeto con glimpse y View.
glimpse(df_ventas2020)
Rows: 3,103
Columns: 7
$ Nombre_Articulo <chr> "Fuentes", "Fuentes", "Fuentes", "Fuentes", "Fuentes", ~
$ Nombre_Producto <chr> "FUENTE REGGIO BLANCO", "FUENTE REGGIO BLANCO", "FUENTE~
$ Nombre_Color <chr> "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLAN~
$ PeriodoMes <dbl> 202001, 202002, 202003, 202004, 202005, 202006, 202007,~
$ Tipo <chr> "Continuo", "Continuo", "Continuo", "Continuo", "Contin~
$ Unidades <dbl> 551, 360, 177, 19, 123, 165, 456, 333, 404, 312, 287, 3~
$ Valor_USD <dbl> 20290.03, 12814.27, 6872.47, 431.86, 5217.57, 6875.70, ~
View(df_ventas2020)
Empecemos entonces con el preprocesamiento.
1. Ajustar las clases de las variables
Una de las primeras cosas que notamos en nuestro data frame, es que algunas variables no están en las clases adecuadas. Por ejemplo,
- Nombre_Articulo debería ser un factor, ya que si bien es un texto, su rango de opciones es acotado a 14, y la cantidad de datos por cada opción es bastante similar. Para ver esto, construyamos una tabla de frecuencias de esta variable:
df_ventas2020 %>%
count(Nombre_Articulo)
- Misma situación se evidencia con Tipo, que solamente toma dos opciones y de hecho es un buleano.
df_ventas2020 %>%
count(Tipo)
- Nombre_Color igualmente podría considerarse un factor, pero vemos que las opciones que puede tomar son muchas (17) y la cantidad de casos por opción es desbalanceada, así que por ahora lo vamos a dejar a un lado.
df_ventas2020 %>%
count(Nombre_Color)
- Unidades es numérico, pero lo más lógico es que sea un entero, puesto que no puede tomar valores decimales bajo ningún concepto.
Visto esto, usemos mutate para construir un nuevo objeto df_ventas2020_01 a partir de nuestra tabla, de modo que cambiemos la clase de las 3 variables definidas. PISTA: Utilice además las funciones as.factor y as.integer dentro del mutate.
df_ventas2020_01 <- df_ventas2020 %>%
mutate(Nombre_Articulo = as.factor(Nombre_Articulo)) %>%
mutate(Tipo = as.factor(Tipo)) %>%
mutate(Unidades = as.integer(Unidades))
Veamos con glimpse si logramos nuestro objetivo:
glimpse(df_ventas2020_01)
Rows: 3,103
Columns: 7
$ Nombre_Articulo <fct> Fuentes, Fuentes, Fuentes, Fuentes, Fuentes, Fuentes, F~
$ Nombre_Producto <chr> "FUENTE REGGIO BLANCO", "FUENTE REGGIO BLANCO", "FUENTE~
$ Nombre_Color <chr> "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLANCO", "BLAN~
$ PeriodoMes <dbl> 202001, 202002, 202003, 202004, 202005, 202006, 202007,~
$ Tipo <fct> Continuo, Continuo, Continuo, Continuo, Continuo, Conti~
$ Unidades <int> 551, 360, 177, 19, 123, 165, 456, 333, 404, 312, 287, 3~
$ Valor_USD <dbl> 20290.03, 12814.27, 6872.47, 431.86, 5217.57, 6875.70, ~
2. Tratamiento de valores perdidos y outliers
2.1 Valores perdidos
Algo muy frecuente que se nos presenta al momento de trabajar con datos reales, es la existencia de valores perdidos (comúnmente representados por los caracteres “NA”, “?” o “null”). Como analista de datos, conviene darles cierta atención a estos casos, y las dos formas más utilizas son:
- Eliminación de valores perdidos: esta alternativa es la más simple y directa pero hay que tener cuidado de que esto no implique perder información valiosa posteriormente. Para hacerlo la forma más sencilla es usando filter apoyado de otra función como is.na. En nuestro ejemplo, notemos que tanto Unidades como Valo_USDr poseen valores perdidos, por lo que creemos un nuevo objeto df_ventas2020_02 quitándolos. PISTA: recuerde que la negación de una operación lógica se expresa antecediendo el caracter “!”.
df_ventas2020_02 <- df_ventas2020_01 %>%
filter(!is.na(Unidades)) %>%
filter(!is.na(Valor_USD))
View(df_ventas2020_02)
- Reemplazo de valores perdidos: esta alternativa puede resultar más compleja, pero trae como beneficio que no se pierde potencial información de valor. Consiste en sustituir los valores perdidos por un valor referencial (comúnmente la mediana). En nuestro ejemplo, vamos a reemplazar por la mediana los valores perdidos en Unidades y dejaremos Valor_USD para tratarlo después. Para esto, vamos a agrupar nuestra tabla por Nombre_Producto, y sustituiremos los valores perdidos en cada grupo. REcuerde usar las funciones group_by, ungroup y mutate. Cree un nuevo objeto llamado df_ventas2020_03. PISTA: Empleemos otra función muy util llamada ifelse que permite evaluar condicionalmente.
df_ventas2020_03 <- df_ventas2020_01 %>%
group_by(Nombre_Producto) %>%
mutate(Unidades = ifelse(is.na(Unidades),
as.integer(median(Unidades, na.rm = TRUE)),
Unidades)) %>%
ungroup()
View(df_ventas2020_03)
2.2 Outliers (Valores atípicos)
Otra situación bastante común que se presenta es encontrarse con valores “extraños” que claramente muestran un comportamiento distinto al esperado. El 2020 fue un año marcado por casos atípicos a nivel de datos, pues en los meses de marzo, abril y mayo, la pandemia del COVID-19 ocasionó variaciones nunca antes vistas, y nuestros datos de ejemplo no son la excepción.
Para tratar estos valores, se pueden emplear los mismos métodos que en el caso de perdidos. Esto es, se los puede eliminar o bien se los puede cambiar por un valor referencial como la mediana.
Por esta ocasión, no vamos a cambiar o eliminar nada de nuestro ejemplo, pero solamente veamos que tan atípicos son nuestros datos en estos meses haciendo un resumen estadístico por PeriodoMes con la suma de Unidades y Valor_USD. Recuerde usar summarise.
df_ventas2020_03 %>%
group_by(PeriodoMes) %>%
summarise(Unidades = sum(Unidades, na.rm = TRUE),
Valor_USD = sum(Valor_USD, na.rm = TRUE))
Otros atípicos bastante comunes que se encuentran, son aquellos que se originan por un mal ingreso de los datos. En nuestro ejemplo, notemos que existen algunos registros con Unidades = 0 pero con valor de venta positivo. Esto claramente no tiene sentido. Arreglemos esto, cambiando los Valor_USD a 0 siempre que Unidades sean 0. Creemos el objeto df_ventas2020_04.
df_ventas2020_04 <- df_ventas2020_03 %>%
mutate(Valor_USD = ifelse(Unidades == 0,
0,
Valor_USD))
3. Tratamiento de variables no numéricas
Algunas variables no numéricas (texto o factores) pueden requerir de cierto tratamiento a fin de facilitar su análisis subsiguiente. Esto es extremadamente importante al momento de utilizar los datos en modelos de analítica avanzada, como los asociados a aprendizaje computacional (machine learning) puesto que la computadora no es capaz de contextualizar palabras coomo una persona.
En este sentido, muchos de los métodos de este apartado trascienden a lo planteado en este curso. sin embargo, en el aula virtual se ha colocado un breve video que explica el método más común para tratar variables no numéricas: el One-Hot Encoding por si les resulta de interés.
Por ahora, veremos un caso específico y muy usado en inteligencia de negocio que se denomina el Balanceo. Lo que buscamos aquí es reducir o limitar el número de opciones que una variable de tipo factor o texto pueda presentar, y como ejemplo haremos este tratamiento en Nombre_Color.
Como ya lo mencionamos, esta variable tiene 17 opciones diferentes, las cuales no están balanceadas. Para ilustrar esto, el color BLANCO presenta 1,404 casos, mientras que el NARANJA apenas 9.
Vamos entonces a CREAR una nueva la variable Grupo_Color de modo que si uno de los colores tiene menos de 100 observaciones, pertenecerá al grupo “OTROS”, todos los demás casos mantienen su nombre original. Utilizaremos nuevamente las funciones group_by, ungroup, mutate, e ifelse. Llamaremos al nuevo objeto que creemos df_ventas2020_05.
df_ventas2020_05 <- df_ventas2020_04 %>%
#Primero generemos un campo auxiliar que nos muestre el número de casos para cada color
group_by(Nombre_Color) %>%
mutate(Casos = n()) %>%
ungroup() %>%
#Luego, creemos la variable Grupo_Color poniendo el valor de OTROS cuando casos sea menor que 100, y el mismo nombre del color cuando esto no aplique
mutate(Grupo_Color = ifelse(Casos < 100,
"OTROS",
Nombre_Color))
Veamos lo que conseguimos:
View(df_ventas2020_04)
Construyamos una tabla de frecuencia de nuestra nueva variable para ver si en algo mejoramos el balanceo y la cantidad de opciones:
df_ventas2020_05 %>%
count(Grupo_Color)
4. Selección (o ingeniería) de atributos
Como último punto de nuestro preprocesamiento, definir cuáles son las variables que queremos mostrar en nuestra tabla de datos previo a empezar su análisis exhaustivo. Esto implica las dos cosas referidas a continuación.
4.1 Creación de nuevas variables
Para dar una mayor robustez a nuestro análisis, siempre es bueno contar con todas las variables que nos vayan a ser de utilidad. Para esto, por un lado creemos variables que sean potencialmente valiosas.
En nuestro ejemplo, notemos que podría ser útil contar con las siguientes variables:
- Mes: el campo PeriodoMes termina siendo redundante en vista que sabemos que todos los datos corresponden al Período o Año 2020.
- Fecha: sería adecuado tener un campo adicional que esté en formato fecha puesto que estamos viendo, de cierta forma, una evolución en el tiempo.
- Tarifa_Prom: siempre que estudiamos ventas, es útil saber la tarifa promedio a la cual se terminó vendiendo un producto, y esto e sfacil calcularlo con \[ Valor_{USD} / Unidades \]
Entonces, creemos el objeto df_ventas2020_06 que contenga estos nuevos atributos usando la función mutate. PISTA: Utilice la funcion str_remove para quitar el 2020 de PeriodoMes; ISOdate para obtener una fecha.
df_ventas2020_06 <- df_ventas2020_05 %>%
mutate(Mes = as.integer(str_remove(PeriodoMes, "2020"))) %>%
mutate(Fecha = ISOdate(year = 2020, month = Mes, day = 1)) %>%
mutate(Tarifa_Prom = Valor_USD/Unidades)
Veamos lo conseguido:
View(df_ventas2020_06)
Notemos que Tarifa_Prom tiene valores perdidos arrastrados por Valor_USD, y otros derivados de la división por 0. Ya lo corregiremos más adelante.
4.2 Eliminación de variables
Así como creamos variables potencialmente útiles para nuestro análisis posterior, podemos también eliminar aquellas variables que carezcan de sentido o veamos de forma anticipada que no nos serán de utilidad.
En nuestro ejemplo, las variables PeriodoMes y Casos no tienen mucho sentido. La primera porque toda la información que puede entregar ya está contenida en las nuevas variables que creamos; y la segunda, porque su existencia es puramente auxiliar. Por consiguiente vemos que su eliminación no representa ningún riesgo para el análisis.
Para eliminarlas, utilicemos la función select, creando el objeto df_ventas2020_07.
df_ventas2020_07 <- df_ventas2020_06 %>%
select(-PeriodoMes,
-Casos)
veamos el resultado final:
View(df_ventas2020_07)
OJO: Para eliminar una variable, tenemos que tener muy clara la razón detrás de nuestra decisión. No se eliminan variables sin una explicación lógica y defendible.
5. Tarea Individual
Usando lo aprendido en la clase, complete su script de forma que incluya lo siguiente, además de lo hecho con el profesor:
- Anotaciones o comentarios que faciliten la lectura del mismo.
- Transformación a factor de la variable Grupo_Color.
- Tratamiento a los valores perdidos de Tarifa_Prom
- Tratamiento a los valores perdidos de Valor_USD, usando para esto la Tarifa_Prom ya procesada.
- Transformación de la clase de Mes a factor.
- Creación de un nuevo atributo potencialmente útil en el análisis posterior.
Este script lo deben subir hasta la fecha indicada en el Aula Virtual.
