Las librerías a usar.

library(readr)
library(ggplot2)
library(reshape2)
library(wordcloud)
Loading required package: RColorBrewer
library(DataExplorer)
library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
-- Attaching packages --------------------------------------- tidyverse 1.3.0 --
v tibble  2.1.3     v dplyr   0.8.3
v tidyr   1.0.2     v stringr 1.4.0
v purrr   0.3.3     v forcats 0.4.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
library(DBI)
library(tibble)
library(RSQLite)
library(dbplyr)

Attaching package: 㤼㸱dbplyr㤼㸲

The following objects are masked from 㤼㸱package:dplyr㤼㸲:

    ident, sql
library(magrittr)

Attaching package: 㤼㸱magrittr㤼㸲

The following object is masked from 㤼㸱package:purrr㤼㸲:

    set_names

The following object is masked from 㤼㸱package:tidyr㤼㸲:

    extract
       
    
rm(list=ls())
gc()
          used  (Mb) gc trigger  (Mb) max used  (Mb)
Ncells 2296944 122.7    3860925 206.2  3860925 206.2
Vcells 4168522  31.9    8388608  64.0  6249239  47.7

1 Archivos

1.1 Datasets originales

Las Mediciones corresponden a precios de diversos alimentos comercializados en la Ciudad Autónoma de Buenos Aires durante el periodo de Noviembre 2018 a Febrero 2019 a partir de un scrapeo a la página de preciosclaro

Se utilizaron para este trabajo datos de precios, sucursales y productos del programa “Precios Claros”. El proceso de relevamiento de precios fue generado de manera automática mediante la técnica de web crawling

2 Maneras distintas de importar los archivos

2.1 Desde la base de datos

ddbb_precios <- "../_datasets/precios.db"
con <- dbConnect(RSQLite::SQLite(), dbname = ddbb_precios)
(precios <- dbGetQuery(con, "SELECT * FROM precios") %>% as_tibble(.))
#Convierto a fecha y factor
precios$fecha  %<>%  as.Date(., origin = "1970-01-01")
precios$idProducto  %<>% as.factor(.)
precios$idSucursal  %<>% as.factor(.)

# Tabla Productos
###############################
(productos <- dbGetQuery(con, "SELECT * FROM productos") %>% as_tibble(.))
#Convierto a factor
productos$id %<>% as.factor(.) 
productos$marca %<>% as.factor(.) 

# Tabla Sucursales
###############################
(sucursales <- dbGetQuery(con, "SELECT * FROM sucursales") %>% as_tibble(.))
#Convierto a factor
sucursales$id %<>% as.factor(.)
sucursales$sucursalTipo %<>% as.factor(.)
sucursales$comercioRazonSocial %<>% as.factor(.)
sucursales$provincia %<>% as.factor(.)
sucursales$localidad %<>% as.factor(.)
glimpse(sucursales)
Observations: 706
Variables: 9
$ id                  <fct> 15-1-480, 3-1-1506, 10-3-675, 3-1-1507, 3-1-29, 10-3-300, 15-1-498, 1...
$ sucursalNombre      <chr> "480 - Saavedra", "GRAL PAZ - NORTE", "Cabildo 4861", "GRAL PAZ - SUR...
$ sucursalTipo        <fct> Autoservicio, Autoservicio, Autoservicio, Autoservicio, Autoservicio,...
$ comercioRazonSocial <fct> DIA Argentina S.A, Deheza S.A.I.C.F. e I., INC S.A., Deheza S.A.I.C.F...
$ direccion           <chr> "Av Dr. Ricardo Balbin 4881", "San Juan Bautista De La Salle 4356", "...
$ provincia           <fct> AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, AR-...
$ localidad           <fct> capital federal, capital federal, ciudad autónoma de buenos aires, ca...
$ lat                 <dbl> -34.55212, -34.55945, -34.54004, -34.55998, -34.54147, -34.54054, -34...
$ lng                 <dbl> -58.49841, -58.50503, -58.47474, -58.50454, -58.47384, -58.47205, -58...

2.1.1 Limpiar el entorno

rm(list=ls())
gc()
          used  (Mb) gc trigger  (Mb)  max used   (Mb)
Ncells 3157955 168.7    4764052 254.5   4764052  254.5
Vcells 9029784  68.9   35626142 271.9 182019909 1388.8

2.2 Read CSV

Tengo un par de csv y direcatamente los leo.

precios <- read_csv("./files/Datasets originales/precios.txt.zip")
productos <- read.csv("./files/Datasets adicionales/productos_categoria.csv")
sucursales <- read.csv("./files/Datasets adicionales/sucursales_barrios.csv")

left join ## inner Join

inner join

inner join

2.2.1 Inner Join Productos-Precio

glimpse(precios)
Observations: 1,584,661
Variables: 5
$ producto <chr> "7790762052364", "12-1-2800000937881", "77934400...
$ sucursal <chr> "12-1-44", "12-1-44", "12-1-44", "12-1-44", "12-...
$ precio   <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 70.25, 60.39...
$ fecha    <dttm> 2019-01-15 04:51:28, 2019-01-15 04:51:28, 2019-...
$ medicion <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
glimpse(productos)
Observations: 1,016
Variables: 6
$ X_id..oid    <fct> 5cbc69be7af152186c0cd784, 5cbc69be7af152186c...
$ nombre       <fct> Aceite de Girasol Can?uelas 1.5 Lt, Aceite d...
$ Categoria    <fct> Aceite, Aceite, Aceite, Aceite, Aceite, Acei...
$ marca        <fct> CAÑUELAS, CAÑUELAS, COCINERO, COCINERO, NATU...
$ presentacion <fct> 1.5 lt, 900.0 cc, 1.5 lt, 900.0 ml, 1.5 lt, ...
$ id           <fct> 7792180001665, 7792180001641, 7790060023684,...

Agregamos la info de los productos al df “precios”. Utilizamos inner join que matchea la columna producto del data frame precios y la columna ID de la columna del data frame productos

data1 <- precios %>% inner_join(productos, by = c("producto" = "id"))
glimpse(data1)
Observations: 1,559,443
Variables: 10
$ producto     <chr> "7790762052364", "12-1-2800000937881", "7793...
$ sucursal     <chr> "12-1-44", "12-1-44", "12-1-44", "12-1-44", ...
$ precio       <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 70.25, 6...
$ fecha        <dttm> 2019-01-15 04:51:28, 2019-01-15 04:51:28, 2...
$ medicion     <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,...
$ X_id..oid    <fct> 5cbc69be7af152186c0cd67e, 5cbc69be7af152186c...
$ nombre       <fct> Vino Rosado Seleccion Especial Santa Ana 700...
$ Categoria    <fct> Bebidas con alcohol, Conservas, Bebidas con ...
$ marca        <fct> SANTA ANA, COTO, NIETO SANETINER, BODEGA TRA...
$ presentacion <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml, 642.0...

Creamos un nuevo dataset. Compuesto por ahora 10 variables. entre Precios y productos

Quedan sucursales

glimpse(sucursales)
Observations: 837
Variables: 15
$ X_id..oid           <fct> 5cbc698b7af152186c0cd13f, 5cbc698b7af...
$ sucursalTipo        <fct> Autoservicio, Autoservicio, Autoservi...
$ direccion           <fct> Av Dr. Ricardo Balbin 4881, San Juan ...
$ provincia           <fct> AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, A...
$ banderaId           <int> 1, 1, 3, 1, 1, 3, 1, 1, 1, 3, 1, 1, 1...
$ localidad           <fct> Capital Federal, CAPITAL FEDERAL, Ciu...
$ banderaDescripcion  <fct> Supermercados DIA, DEHEZA S.A.I.C.F. ...
$ lat                 <dbl> -34.55212, -34.55945, -34.54004, -34....
$ comercioRazonSocial <fct> DIA Argentina S.A, Deheza S.A.I.C.F. ...
$ lng                 <dbl> -58.49841, -58.50503, -58.47474, -58....
$ sucursalNombre      <fct> 480 - Saavedra, GRAL PAZ - NORTE, Cab...
$ comercioId          <int> 15, 3, 10, 3, 3, 10, 15, 15, 15, 10, ...
$ sucursalId          <int> 480, 1506, 675, 1507, 29, 300, 498, 1...
$ id                  <fct> 15-1-480, 3-1-1506, 10-3-675, 3-1-150...
$ barrio              <fct> SAAVEDRA, 0, SAAVEDRA, SAAVEDRA, SAAV...

Agregamos la info de sucursales a “data1”, se crea un nuevo data frame, ver que ya no es necesario data1

2.2.2 Inner Join Sucursal con mi data1

data2 <- data1 %>% inner_join(sucursales, by = c("sucursal" = "id"))
glimpse(data2)
Observations: 1,559,443
Variables: 24
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ precio              <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 7...
$ fecha               <dttm> 2019-01-15 04:51:28, 2019-01-15 04:5...
$ medicion            <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6...
$ X_id..oid.x         <fct> 5cbc69be7af152186c0cd67e, 5cbc69be7af...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ X_id..oid.y         <fct> 5cbc698b7af152186c0cd187, 5cbc698b7af...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ provincia           <fct> AR-C, AR-C, AR-C, AR-C, AR-C, AR-C, A...
$ banderaId           <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ localidad           <fct> Belgrano, Belgrano, Belgrano, Belgran...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ lat                 <dbl> -34.56358, -34.56358, -34.56358, -34....
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ lng                 <dbl> -58.46841, -58.46841, -58.46841, -58....
$ sucursalNombre      <fct> MONROE , MONROE , MONROE , MONROE , M...
$ comercioId          <int> 12, 12, 12, 12, 12, 12, 12, 12, 12, 1...
$ sucursalId          <int> 44, 44, 44, 44, 44, 44, 44, 44, 44, 4...
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...

data2 Mi nuevo dataset tiene ahora 24 variables.

Borramos data1, nos quedamos con data2

rm(data1)

2.3 Seleccion de columnas

preciosclaros <- select(data2, `producto`, "producto", "nombre", "Categoria", "marca", "presentacion", "precio", "medicion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio")

#elimino data2 porque ya no la necesito
rm(data2)

glimpse(preciosclaros)
Observations: 1,559,443
Variables: 13
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ precio              <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 7...
$ medicion            <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...

Me quedan las 13 columnas que me importan

3 Missing Values

3.1 Exploremos el dataset

Analicemos precios claros como nuestra union entre Precios, productos y sucursales. ¿Que pasa cuando vemos un solo producto?

head(preciosclaros)

3.2 sum(is.na(data))

sum(is.na(preciosclaros))
[1] 0

sardinillas


sardina <- preciosclaros %>% filter(nombre== "Sardinillas en Aceite Lata Coto 81 Gr" & direccion == "Av. Monroe 3284")

sum(is.na(sardina))
[1] 0

Son 10 mediciones, 1,2,3,4,5,6,7,8,9,10

unique(sardina$medicion)
[1]  6  9  8  5 10  4  2  7  3

Falta la medición 1 y sin embargo, cuando preguntamos si hay nulos no aparece ¿Por qué?

3.3 Tidy vs Untidy:

Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera» Leon Tolstoi, 1877 escritor de la Guerra y la Paz

Like families, tidy datasets are all alike but every messy dataset is messy in its own way.» Hadley Wickham, 2014 Chief Data Scientist de R Studio

https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html

  • Tipos de data desordenada:
    • Los headers de las columnas son valores y no variables.(año como columna)
    • Hay multiples variables en una sola columna. (en la misma columna peso y altura)
    • Cada valor esta escrito en distintas unidades, en cms y mts.
    • Una misma observacion esta en muchas tablas.

Valores como columnas Dice Hadley Wickham que esta manera de presentar la data es desordenada pero puede ser muy util. Provee una manera de eficiente de almacenamiento muy eficiente para operaciones computacionales. ***

3.4 Las mediciones de filas a columnas

Long to wide Necesito pasar los precios de productos por sucursal a formato columnar. Cada fila representará un producto de una sucursal con diez columnas asociadas a los precios en cada medición.

glimpse(preciosclaros)
Observations: 1,559,443
Variables: 13
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ precio              <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 7...
$ medicion            <dbl> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...

pivot_wider()

precioswide <- preciosclaros %>%
  pivot_wider(names_from = medicion,  names_sep = "_", values_from = precio)
glimpse(precioswide)
Observations: 164,592
Variables: 21
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...
$ `6`                 <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 7...
$ `7`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `9`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `8`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `1`                 <dbl> 56.20, NA, 215.00, 85.99, 72.09, 70.2...
$ `3`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
$ `5`                 <dbl> 56.20, 76.99, 215.00, 85.99, 81.99, 7...
$ `10`                <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `4`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
$ `2`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
head(precioswide)

Tengo desordenadas las mediciones, la intento ordenar pero me pone el 1 y el 10 al lado

precioswide[12:21] %>%
    select(sort(names(.)))

Ordenar a lo criollo

precioswide <- select(precioswide, `producto`, "producto", "nombre", "Categoria", "marca", "presentacion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio","1","2","3","4","5","6","7","8","9","10")
glimpse(precioswide)
Observations: 164,592
Variables: 21
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...
$ `1`                 <dbl> 56.20, NA, 215.00, 85.99, 72.09, 70.2...
$ `2`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
$ `3`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
$ `4`                 <dbl> 56.20, 76.99, 215.00, 85.99, 72.09, 7...
$ `5`                 <dbl> 56.20, 76.99, 215.00, 85.99, 81.99, 7...
$ `6`                 <dbl> 56.20, 76.99, 215.00, 92.87, 81.99, 7...
$ `7`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `8`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `9`                 <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...
$ `10`                <dbl> 56.20, 80.59, 215.00, 92.87, 81.99, 7...

3.5 Faltantes


sum(is.na(precioswide))
[1] 86477

sardinillas

3.6 Formas de saber si hay NA

Recordemos que el anterior dataset con la forma larga, donde cada fila tenia una medicion, tenia 0 faltnates. Nuestro nuevo dataset

# Para saber la cantidad exacta de NAs que están presentes en los datos 
sum(is.na(precioswide ))
[1] 86477

3.6.1 Cant filas con NA?

sum(!complete.cases(precioswide ))
[1] 53170
        

3.6.2 Columnas con NA?

# Tengo 53170 registros que tienen al menos 1 NA
colnames(precioswide )[colSums(is.na(precioswide )) > 0] # Obtengo las columnas que tienen un al menos NA. Mediciones sin datos.
 [1] "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10"

3.6.3 Mapeo NA aplicando purrr::map

map(precioswide , ~sum(is.na(.)))
$producto
[1] 0

$nombre
[1] 0

$Categoria
[1] 0

$marca
[1] 0

$presentacion
[1] 0

$sucursal
[1] 0

$sucursalTipo
[1] 0

$banderaDescripcion
[1] 0

$comercioRazonSocial
[1] 0

$direccion
[1] 0

$barrio
[1] 0

$`1`
[1] 5891

$`2`
[1] 12734

$`3`
[1] 4801

$`4`
[1] 8327

$`5`
[1] 5297

$`6`
[1] 27193

$`7`
[1] 5628

$`8`
[1] 5162

$`9`
[1] 5216

$`10`
[1] 6228

3.6.4 Funcion de libreria Fun Modeling

funModeling::status(precioswide )

4 Tratamiento de Faltantes

4.1 Opcion 1: Sustitucion por medias

#Hago una copia del dataset para trabajar
df<- precioswide 

Solo puedo hacer media de valores numericos

numerico<- sapply(df, is.numeric)#Creo funcion para seleccionar tipo
dfnum <- df[numerico] #aplico la funcion

Tener en cuenta que no seria correcto rempalzar por el valor de toda la columna, dado que para la medicion 1 tenemos los precios de distintos productos.

# Sustitución por la media de cada Row
ind <- which(is.na(dfnum), arr.ind=TRUE)
dfnum[ind] <- rowMeans(dfnum,  na.rm = TRUE)[ind[,1]]
head(dfnum)
df[numerico] <- dfnum

Ya tengo mi dataset sin NA

sum(is.na(df))
[1] 0

4.2 Opcion 2: Eliminar los NA

dfomit <- precioswide 
# Eliminamos toda la fila por contener un faltante
dfomit <- na.omit(dfomit)
sum(is.na(dfomit))
[1] 0
omit <- nrow(dfomit) #nrow funcion para sumar filas
omit
[1] 111422

Cantidad de filas de mi dataset original

original <- nrow(precioswide )
original
[1] 164592

Un manejo inapropiado de DF en el análisis puede introducir sesgos y puede resultar en conclusiones engañosas.


Efectos de eliminar faltantes Cantidad de rows que elimino, pierdo informacion

original-omit
[1] 53170
(original-omit)/omit
[1] 0.4771948

Perder el 47% de mis filas puede generar mucha distorción.

4.3 Opcion 3: Solucion “Creativa”

  • Medicion 1-2-3 son de Noviembre 2018
  • Medicion 4-5 son de Diciembre 2018
  • Medicion 6-7 son de Enero 2019
  • Medicion 8-9-10 son de Febrero

El periodo de la medicion 1 a la 10 pueden haber sido varios meses, no sería correcta reemplazarla por el promedio de la anterior y de la siguiente? ¿O como segunda opcion el remplazo por el promedio del periodo?

4.3.1 Reemplazos de adyancentes

dfremplazo <- precioswide 
sum(is.na(precioswide ))
[1] 86477
head(dfremplazo[12:21])

Remplazo los Na de la medicion 1 por los de la 2 dado que no tiene adyacentes

Mi medición 2 se expresa cómo la columna 13, recordar que DF[Indice filas, Indice Columnas]

# Reemplaza los NA en la medición 1 por el valor de la medición 2
i = which(is.na(dfremplazo$`1`)) # Devuelve número de filas con NA
dfremplazo[i,12] = dfremplazo[i,13] # reemplaza los nulos en la primer medición por el valor en la segunda

De la medicion 2 hasta la 9 hago los adyacentes, utilizo el numero de columna

# Reemplaza NA entre la columna 13 y la 20 (valores d las mediciones 2 a 9) por el promedio de sus adyacentes
for (j in 0:7) {
  ii = which(is.na(dfremplazo[,13+j])) 
    dfremplazo[ii,13+j] = (dfremplazo[ii,13+j-1]+dfremplazo[ii,13+j+1])/2
}

Medicion 10 que tenga NA la reemplazo por la 9

# Reemplazo los NA de la medición 10 por el valor de la medición 9
iii = which(is.na(dfremplazo$`10`))
dfremplazo[iii,21] = dfremplazo[iii,20]

NA que me quedan

sum(is.na(dfremplazo))
[1] 32005

¿Cuantas filas tengo de diferencia?

original
[1] 164592

Filas en mi nuevo dataset

reemplazo
[1] 155274
original-reemplazo #difrencia con el dataset original
[1] 9318
(original-reemplazo)/original
[1] 0.05661272

5% de filas menos.


4.4 Opcion 4: Generar media por periodo

Genero columnas con los precios promedios de cada periodo.

*¿Que pasa con la media cuando hay NA?

# Promedios por periodo y total
dfremplazo =
(
dfremplazo %>%
  mutate(periodo1 = rowMeans(select(., "1","2","3"),na.rm
=TRUE), periodo2 = rowMeans(select(., "4","5"),na.rm
=TRUE), periodo3 = rowMeans(select(., "6","7"),na.rm
=TRUE), periodo4 = rowMeans(select(., "8","9","10"),na.rm
=TRUE), promedio = rowMeans(select(., "1","2","3","4","5","6","7","8","9","10"),na.rm
=TRUE))
)
head(dfremplazo)

4.4.0.1 Seleccion de mi mutate periodos

preciosmedios <- select(dfremplazo, "producto", "nombre", "Categoria", "marca", "presentacion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio", "periodo1", "periodo2","periodo3","periodo4","promedio")
glimpse(preciosmedios)
Observations: 164,592
Variables: 16
$ producto            <chr> "7790762052364", "12-1-2800000937881"...
$ nombre              <fct> Vino Rosado Seleccion Especial Santa ...
$ Categoria           <fct> Bebidas con alcohol, Conservas, Bebid...
$ marca               <fct> SANTA ANA, COTO, NIETO SANETINER, BOD...
$ presentacion        <fct> 700.0 ml, 81.0 gr, 750.0 cc, 750.0 ml...
$ sucursal            <chr> "12-1-44", "12-1-44", "12-1-44", "12-...
$ sucursalTipo        <fct> Supermercado, Supermercado, Supermerc...
$ banderaDescripcion  <fct> COTO CICSA, COTO CICSA, COTO CICSA, C...
$ comercioRazonSocial <fct> Coto Centro Integral de Comercializac...
$ direccion           <fct> Av. Monroe 3284, Av. Monroe 3284, Av....
$ barrio              <fct> COGHLAN, COGHLAN, COGHLAN, COGHLAN, C...
$ periodo1            <dbl> 56.20000, 76.99000, 215.00000, 85.990...
$ periodo2            <dbl> 56.20, 76.99, 215.00, 85.99, 77.04, 7...
$ periodo3            <dbl> 56.20, 78.79, 215.00, 92.87, 81.99, 7...
$ periodo4            <dbl> 56.20000, 80.59000, 215.00000, 92.870...
$ promedio            <dbl> 56.200, 78.430, 215.000, 89.430, 78.0...
sum(is.na(preciosmedios))
[1] 8935
# puede ver que faltante habia con preciosmedios[!complete.cases(preciosmedios),]

preciosmedios %>% filter(producto==7794000960329)
NA

Mi periodo 4 eran Medicion 8-9-10 correspondientes a febrero

precioswide %>% filter(producto==7794000960329)

4.4.0.2 Elimino menos cantidad

preciosmedios <- na.omit(preciosmedios)

Diferencia entre filas del dataset original y el de filas eliminadas

medios <- nrow(preciosmedios) #cantidad de filas

original-medios #difrencia con el dataset original
[1] 5726
(original-medios)/original # que %?
[1] 0.03478905
---
title: "Missing Precios"
author: "Konna"
date: "11/3/2020"

output: 
  html_notebook:
    toc: true
    toc_float: true
    toc_collapsed: true 
    toc_depth: 4
    number_sections: true
    theme: spacelab
---
<style>
body {
text-align: justify}

.list-group-item.active, .list-group-item.active:focus, .list-group-item.active:hover {
    background-color: #DD8D1;
}
</style>



Las librerías a usar.<br>
```{r Librerías}
library(readr)
library(ggplot2)
library(reshape2)
library(wordcloud)
library(DataExplorer)
library(tidyverse)
library(DBI)
library(tibble)
library(RSQLite)
library(dbplyr)
library(magrittr)
       
    
rm(list=ls())
gc()
```

# Archivos
## Datasets originales

Las Mediciones corresponden a precios de diversos alimentos comercializados en la Ciudad Autónoma de Buenos Aires durante el periodo de Noviembre 2018 a Febrero 2019 a partir de un scrapeo a la página de preciosclaro

Se utilizaron para este trabajo datos de precios, sucursales y productos del programa "Precios Claros". El proceso de relevamiento de precios fue generado de manera automática mediante la técnica de web crawling

# Maneras distintas de importar los archivos

## Desde la base de datos

```{r}
ddbb_precios <- "../_datasets/precios.db"
con <- dbConnect(RSQLite::SQLite(), dbname = ddbb_precios)
```

```{r}
(precios <- dbGetQuery(con, "SELECT * FROM precios") %>% as_tibble(.))
#Convierto a fecha y factor
precios$fecha  %<>%  as.Date(., origin = "1970-01-01")
precios$idProducto  %<>% as.factor(.)
precios$idSucursal  %<>% as.factor(.)

# Tabla Productos
###############################
(productos <- dbGetQuery(con, "SELECT * FROM productos") %>% as_tibble(.))
#Convierto a factor
productos$id %<>% as.factor(.) 
productos$marca %<>% as.factor(.) 

# Tabla Sucursales
###############################
(sucursales <- dbGetQuery(con, "SELECT * FROM sucursales") %>% as_tibble(.))
#Convierto a factor
sucursales$id %<>% as.factor(.)
sucursales$sucursalTipo %<>% as.factor(.)
sucursales$comercioRazonSocial %<>% as.factor(.)
sucursales$provincia %<>% as.factor(.)
sucursales$localidad %<>% as.factor(.)

```
```{r}
glimpse(sucursales)
```
### Limpiar el entorno
```{r}
rm(list=ls())
gc()
```

## Read CSV
Tengo un par de csv y direcatamente los leo. 
```{r message=FALSE}
precios <- read_csv("./files/Datasets originales/precios.txt.zip")
productos <- read.csv("./files/Datasets adicionales/productos_categoria.csv")
sucursales <- read.csv("./files/Datasets adicionales/sucursales_barrios.csv")

```

![left join](join-left.png)
## inner Join

![inner join](join-inner.png)



### Inner Join Productos-Precio
```{r}
glimpse(precios)

```
```{r}
glimpse(productos)
```
Agregamos la info de los productos al df "precios". Utilizamos inner join que matchea  la columna producto del data frame precios y la columna ID de la columna del data frame productos
```{r warning<-FALSE, message=FALSE, warning=FALSE}
data1 <- precios %>% inner_join(productos, by = c("producto" = "id"))

```

```{r warning=FALSE}
glimpse(data1)
```
Creamos un nuevo dataset. Compuesto por ahora 10 variables. entre Precios y productos

*Quedan sucursales*
```{r}
glimpse(sucursales)
```
Agregamos la info de sucursales a "data1", se crea un nuevo data frame, ver que ya no es necesario data1

### Inner Join Sucursal con mi data1
```{r inner join warning<-FALSE, message=FALSE, warning=FALSE}
data2 <- data1 %>% inner_join(sucursales, by = c("sucursal" = "id"))

```
```{r}
glimpse(data2)
```
**data2** Mi nuevo dataset tiene ahora 24 variables.

Borramos data1, nos quedamos con data2
```{r}
rm(data1)
```


## Seleccion de columnas

```{r}
preciosclaros <- select(data2, `producto`, "producto", "nombre", "Categoria", "marca", "presentacion", "precio", "medicion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio")

#elimino data2 porque ya no la necesito
rm(data2)

glimpse(preciosclaros)

```
Me quedan las 13 columnas que me importan

# Missing Values

## Exploremos el dataset
Analicemos precios claros como nuestra union entre Precios, productos y sucursales. *¿Que pasa cuando vemos un solo producto?*
```{r}
head(preciosclaros)
```
## sum(is.na(data))
```{r}
sum(is.na(preciosclaros))
```

*sardinillas*
```{r}

sardina <- preciosclaros %>% filter(nombre== "Sardinillas en Aceite Lata Coto 81 Gr" & direccion == "Av. Monroe 3284")

sum(is.na(sardina))
```
*Son 10 mediciones, 1,2,3,4,5,6,7,8,9,10*
```{r}
unique(sardina$medicion)
```
*Falta la medición 1 y sin embargo, cuando preguntamos si hay nulos no aparece ¿Por qué?*


## Tidy vs Untidy:

>Todas las familias felices se parecen unas a otras, pero cada familia infeliz lo es a su manera» Leon Tolstoi, 1877 escritor de la Guerra y la Paz

>Like families, tidy datasets are all alike but every messy dataset is messy in its own way.» Hadley Wickham, 2014 Chief Data Scientist de R Studio


 https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html

* **Tipos de data desordenada**:
  + Los headers de las columnas son valores y no variables.(año como columna)
  + Hay multiples variables en una sola columna. (en la misma columna peso y altura)
  + Cada valor esta escrito en distintas unidades, en cms y mts.
  + Una misma observacion esta en muchas tablas.


**Valores como columnas** Dice Hadley Wickham que esta manera de presentar la data es desordenada pero puede ser muy util. Provee una manera de eficiente de almacenamiento muy eficiente para operaciones computacionales.
***

## Las mediciones de filas a columnas
**Long to wide**
Necesito pasar los precios de productos por sucursal a formato columnar. Cada fila representará un producto de una sucursal con diez columnas asociadas a los precios en cada medición.<br>
```{r}
glimpse(preciosclaros)
```



*pivot_wider()*
```{r}
precioswide <- preciosclaros %>%
  pivot_wider(names_from = medicion,  names_sep = "_", values_from = precio)
```

```{r}
glimpse(precioswide)
```


```{r}
head(precioswide)
```


*Tengo desordenadas las mediciones, la intento ordenar pero me pone el 1 y el 10 al lado*
```{r}
precioswide[12:21] %>%
    select(sort(names(.)))
```

*Ordenar a lo criollo*
```{r}
precioswide <- select(precioswide, `producto`, "producto", "nombre", "Categoria", "marca", "presentacion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio","1","2","3","4","5","6","7","8","9","10")

```


```{r}
glimpse(precioswide)
```

## Faltantes
```{r}

sum(is.na(precioswide))
```

**sardinillas**
```{r}
head(precioswide[2,12:14])
```


## Formas de saber si hay NA
Recordemos que el anterior dataset con la forma larga, donde cada fila tenia una medicion, tenia 0 faltnates. Nuestro nuevo dataset
```{r}
# Para saber la cantidad exacta de NAs que están presentes en los datos 
sum(is.na(precioswide ))
```
### Cant filas con NA?
```{r}
sum(!complete.cases(precioswide ))
        
```
### Columnas con NA?
```{r}
# Tengo 53170 registros que tienen al menos 1 NA
colnames(precioswide )[colSums(is.na(precioswide )) > 0] # Obtengo las columnas que tienen un al menos NA. Mediciones sin datos.
```
### Mapeo NA aplicando purrr::map
```{r}
map(precioswide , ~sum(is.na(.)))
```

### Funcion de libreria Fun Modeling
```{r}
funModeling::status(precioswide )
```

# Tratamiento de Faltantes

## Opcion 1: Sustitucion por medias
```{r}
#Hago una copia del dataset para trabajar
df<- precioswide 
```

Solo puedo hacer media de valores numericos
```{r}
numerico<- sapply(df, is.numeric)#Creo funcion para seleccionar tipo
dfnum <- df[numerico] #aplico la funcion

```

*Tener en cuenta que no seria correcto rempalzar por el valor de toda la columna, dado que para la medicion 1 tenemos los precios de distintos productos.*
```{r}
# Sustitución por la media de cada Row
ind <- which(is.na(dfnum), arr.ind=TRUE)
dfnum[ind] <- rowMeans(dfnum,  na.rm = TRUE)[ind[,1]]
```

```{r}
head(dfnum)
```

```{r}
df[numerico] <- dfnum
```

*Ya tengo mi dataset sin NA*
```{r}
sum(is.na(df))
```

## Opcion 2: Eliminar los NA

```{r Eliminación de faltantes}
dfomit <- precioswide 
# Eliminamos toda la fila por contener un faltante
dfomit <- na.omit(dfomit)

```

```{r}
sum(is.na(dfomit))
```

```{r}
omit <- nrow(dfomit) #nrow funcion para sumar filas
omit
```

*Cantidad de filas de mi dataset original*
```{r}
original <- nrow(precioswide )
original

```

> Un manejo inapropiado de DF en el análisis puede introducir sesgos y puede resultar en conclusiones engañosas.

***
Efectos de eliminar faltantes
Cantidad de rows que elimino, pierdo informacion
```{r}
original-omit
```
```{r}
(original-omit)/omit
```
Perder el 47% de mis filas puede generar mucha distorción.

## Opcion 3: Solucion "Creativa"

* Medicion 1-2-3 son de Noviembre 2018
* Medicion 4-5 son de Diciembre 2018
* Medicion 6-7 son de  Enero 2019
* Medicion 8-9-10 son de Febrero
 
El periodo de la medicion 1 a la 10 pueden haber sido varios meses, no sería correcta reemplazarla por el promedio de la anterior y de la siguiente? 
¿O como segunda opcion el remplazo por el promedio del periodo?
 

### Reemplazos de adyancentes

```{r}
dfremplazo <- precioswide 
```

```{r}
sum(is.na(precioswide ))
```


```{r}
head(dfremplazo[12:21])
```

**Remplazo los Na de la medicion 1 por los de la 2 dado que no tiene adyacentes**

Mi medición 2 se expresa cómo la columna 13, recordar que DF[Indice filas, Indice Columnas]
```{r}
dfremplazo[1,13]
```


```{r}
# Reemplaza los NA en la medición 1 por el valor de la medición 2
i = which(is.na(dfremplazo$`1`)) # Devuelve número de filas con NA
dfremplazo[i,12] = dfremplazo[i,13] # reemplaza los nulos en la primer medición por el valor en la segunda
```

**De la medicion 2 hasta la 9 hago los adyacentes, utilizo el numero de columna**
```{r promedio de adyacentes}
# Reemplaza NA entre la columna 13 y la 20 (valores d las mediciones 2 a 9) por el promedio de sus adyacentes
for (j in 0:7) {
  ii = which(is.na(dfremplazo[,13+j])) 
	dfremplazo[ii,13+j] = (dfremplazo[ii,13+j-1]+dfremplazo[ii,13+j+1])/2
}
```

**Medicion 10 que tenga NA la reemplazo por la 9**
```{r Reemplazo NA en m10 por el valor de m9}
# Reemplazo los NA de la medición 10 por el valor de la medición 9
iii = which(is.na(dfremplazo$`10`))
dfremplazo[iii,21] = dfremplazo[iii,20]
```

**NA que me quedan**
```{r}
sum(is.na(dfremplazo))
```
***
¿Cuantas filas tengo de diferencia?
```{r}
original
```

*Filas en mi nuevo dataset*
```{r}
dfremplazo2 <- na.omit(dfremplazo)

reemplazo <- nrow(dfremplazo2) #cantidad de filas

reemplazo

```
```{r}
original-reemplazo #difrencia con el dataset original
```
```{r}
(original-reemplazo)/original
```
5% de filas menos.

***


## Opcion 4: Generar media por periodo

Genero columnas con los precios promedios de cada periodo.

*¿Que pasa con la media cuando hay NA?



```{r Promedios por periodo y total}
# Promedios por periodo y total
dfremplazo =
(
dfremplazo %>%
  mutate(periodo1 = rowMeans(select(., "1","2","3"),na.rm
=TRUE), periodo2 = rowMeans(select(., "4","5"),na.rm
=TRUE), periodo3 = rowMeans(select(., "6","7"),na.rm
=TRUE), periodo4 = rowMeans(select(., "8","9","10"),na.rm
=TRUE), promedio = rowMeans(select(., "1","2","3","4","5","6","7","8","9","10"),na.rm
=TRUE))
)
```

```{r}
head(dfremplazo)
```
#### Seleccion de mi mutate periodos
```{r}
preciosmedios <- select(dfremplazo, "producto", "nombre", "Categoria", "marca", "presentacion", "sucursal", "sucursalTipo", "banderaDescripcion", "comercioRazonSocial", "direccion", "barrio", "periodo1", "periodo2","periodo3","periodo4","promedio")
```

```{r}
glimpse(preciosmedios)
```
```{r}
sum(is.na(preciosmedios))
```
```{r}
# puede ver que faltante habia con preciosmedios[!complete.cases(preciosmedios),]

preciosmedios %>% filter(producto==7794000960329)

```
Mi periodo 4 eran *Medicion 8-9-10* correspondientes a febrero

```{r}
precioswide %>% filter(producto==7794000960329)
```
#### Elimino menos cantidad

```{r}
preciosmedios <- na.omit(preciosmedios)
```

**Diferencia entre filas del dataset original y el de filas eliminadas**
```{r}
medios <- nrow(preciosmedios) #cantidad de filas

original-medios #difrencia con el dataset original

(original-medios)/original # que %?

```



