library(readxl)
DatosArca<-read_xlsx("~/SEMESTRE3/SEMANAS TEC/Bootcamp de programación/Bootcamp_program/Datos Arca Continental Original.xlsx")
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in N184066 / R184066C14: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in O184066 / R184066C15: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in P184066 / R184066C16: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in Q184066 / R184066C17: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in R184066 / R184066C18: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in S184066 / R184066C19: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in T184066 / R184066C20: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in U184066 / R184066C21: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in V184066 / R184066C22: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in W184066 / R184066C23: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in X184066 / R184066C24: got a date
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Expecting numeric in Y184066 / R184066C25: got a date
#FUNCIÓN SELECT
EneJunCEDI <-select(DatosArca, Año, CEDI, 8, Enero, Febrero,Marzo,Abril, Mayo, Junio)
EneJunCEDI
## # A tibble: 466,509 x 9
## Año CEDI `Tamaño Cte Industr~ Enero Febrero Marzo Abril Mayo Junio
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2016 Suc. Belenes Extra Grande NA NA NA NA NA NA
## 2 2016 Suc. Belenes Extra Grande NA 2 8 4 4 2
## 3 2016 Suc. Belenes Extra Grande NA NA 3 6 3 3
## 4 2016 Suc. Belenes Extra Grande NA NA NA NA NA NA
## 5 2016 Suc. Belenes Extra Grande NA NA NA NA NA NA
## 6 2016 Suc. Belenes Extra Grande NA NA 1 NA NA NA
## 7 2016 Suc. Belenes Extra Grande 1 NA NA NA 0 NA
## 8 2016 Suc. Belenes Extra Grande NA 1 NA 1 NA 1
## 9 2016 Suc. Belenes Extra Grande 3 3 4 4 4 4
## 10 2016 Suc. Belenes Extra Grande NA NA NA NA NA 0
## # ... with 466,499 more rows
# SELECT AND FILTER
DatosCEDI<-select(DatosArca, Año, CEDI, 8, Enero, Febrero,Marzo,Abril, Mayo, Junio, Julio, Agosto, Septiembre,Octubre, Noviembre, Diciembre)
CEDI_Grande<-DatosArca[c(1,2,8,7)]
CEDI_Grande
## # A tibble: 466,509 x 4
## ID Año `Tamaño Cte Industria` Nombre
## <dbl> <dbl> <chr> <chr>
## 1 1 2016 Extra Grande ABARR
## 2 2 2016 Extra Grande ABARR
## 3 3 2016 Extra Grande ABARR
## 4 4 2016 Extra Grande ABARR
## 5 5 2016 Extra Grande ABARR
## 6 6 2016 Extra Grande ABARR
## 7 7 2016 Extra Grande ABARR
## 8 8 2016 Extra Grande ABARR
## 9 9 2016 Extra Grande ABARR
## 10 10 2016 Extra Grande ABARR
## # ... with 466,499 more rows
#CEDI_Grande1<-filter(DatosArca, 8=="Grande")
#CEDI_Grande1
#Debido a un error en la base de datos no corre el filtrado en la columna del Tamaño de la industria.
#Filtrado de Retornable
SelectRetornable<-select (DatosArca, Año, Retornable_NR, Enero, Febrero,Marzo,Abril, Mayo, Junio, Julio, Agosto, Septiembre,Octubre, Noviembre, Diciembre)
SelectRetornable
## # A tibble: 466,509 x 14
## Año Retornable_NR Enero Febrero Marzo Abril Mayo Junio Julio Agosto
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2016 No Retornable NA NA NA NA NA NA NA NA
## 2 2016 No Retornable NA 2 8 4 4 2 2 2
## 3 2016 No Retornable NA NA 3 6 3 3 3 3
## 4 2016 No Retornable NA NA NA NA NA NA NA NA
## 5 2016 No Retornable NA NA NA NA NA NA NA NA
## 6 2016 No Retornable NA NA 1 NA NA NA NA NA
## 7 2016 No Retornable 1 NA NA NA 0 NA 0 NA
## 8 2016 No Retornable NA 1 NA 1 NA 1 NA 1
## 9 2016 No Retornable 3 3 4 4 4 4 4 7
## 10 2016 No Retornable NA NA NA NA NA 0 NA NA
## # ... with 466,499 more rows, and 4 more variables: Septiembre <dbl>,
## # Octubre <dbl>, Noviembre <dbl>, Diciembre <dbl>
ventas <- filter(DatosArca, Retornable_NR == "No Retornable")
Filtrado de Marca
VentasMarca<-select (DatosArca, Año, Marca, Enero, Febrero,Marzo,Abril, Mayo, Junio, Julio, Agosto, Septiembre,Octubre, Noviembre, Diciembre)
VentasMarca
## # A tibble: 466,509 x 14
## Año Marca Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2016 Topo Chi~ NA NA NA NA NA NA NA NA NA
## 2 2016 Ciel Agu~ NA 2 8 4 4 2 2 2 2
## 3 2016 Ciel Agu~ NA NA 3 6 3 3 3 3 3
## 4 2016 Ciel Exp~ NA NA NA NA NA NA NA NA NA
## 5 2016 Ciel Mini NA NA NA NA NA NA NA NA NA
## 6 2016 Ciel Sab~ NA NA 1 NA NA NA NA NA NA
## 7 2016 Delaware~ 1 NA NA NA 0 NA 0 NA NA
## 8 2016 Delaware~ NA 1 NA 1 NA 1 NA 1 1
## 9 2016 Frutsi 3 3 4 4 4 4 4 7 4
## 10 2016 Pulpy NA NA NA NA NA 0 NA NA NA
## # ... with 466,499 more rows, and 3 more variables: Octubre <dbl>,
## # Noviembre <dbl>, Diciembre <dbl>
# FUNCION ARRANGE
ejemplo<-arrange(DatosArca, CEDI,Marca,Presentacion)
ejemplo
## # A tibble: 466,509 x 25
## ID Año Territorio `Sub Territorio` CEDI Cliente Nombre
## <dbl> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 184065 2018 Territorio Sub Territorio CEDI Cliente Nombre
## 2 200110 2018 Guadalajara Belenes Suc. Belenes 7800 SAN I
## 3 200224 2018 Guadalajara Belenes Suc. Belenes 7875 ABARR
## 4 200461 2018 Guadalajara Belenes Suc. Belenes 7917 ABARR
## 5 200576 2018 Guadalajara Belenes Suc. Belenes 8010 ABARR
## 6 200682 2018 Guadalajara Belenes Suc. Belenes 8186 SUPER
## 7 200783 2018 Guadalajara Belenes Suc. Belenes 8201 MIGUE
## 8 200968 2018 Guadalajara Belenes Suc. Belenes 8678 FERNA
## 9 201041 2018 Guadalajara Belenes Suc. Belenes 8689 ABARR
## 10 201313 2018 Guadalajara Belenes Suc. Belenes 8795 ABARR
## # ... with 466,499 more rows, and 18 more variables:
## # Tamaño Cte Industria <chr>, Segmento Det <chr>, Marca <chr>,
## # Presentacion <chr>, Tamaño <chr>, Retornable_NR <chr>, Enero <dbl>,
## # Febrero <dbl>, Marzo <dbl>, Abril <dbl>, Mayo <dbl>, Junio <dbl>,
## # Julio <dbl>, Agosto <dbl>, Septiembre <dbl>, Octubre <dbl>,
## # Noviembre <dbl>, Diciembre <dbl>
#OTRO ARRANGE
DatosArrange<-arrange(DatosArca, CEDI, Marca, Presentacion)
DatosArrange
## # A tibble: 466,509 x 25
## ID Año Territorio `Sub Territorio` CEDI Cliente Nombre
## <dbl> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 184065 2018 Territorio Sub Territorio CEDI Cliente Nombre
## 2 200110 2018 Guadalajara Belenes Suc. Belenes 7800 SAN I
## 3 200224 2018 Guadalajara Belenes Suc. Belenes 7875 ABARR
## 4 200461 2018 Guadalajara Belenes Suc. Belenes 7917 ABARR
## 5 200576 2018 Guadalajara Belenes Suc. Belenes 8010 ABARR
## 6 200682 2018 Guadalajara Belenes Suc. Belenes 8186 SUPER
## 7 200783 2018 Guadalajara Belenes Suc. Belenes 8201 MIGUE
## 8 200968 2018 Guadalajara Belenes Suc. Belenes 8678 FERNA
## 9 201041 2018 Guadalajara Belenes Suc. Belenes 8689 ABARR
## 10 201313 2018 Guadalajara Belenes Suc. Belenes 8795 ABARR
## # ... with 466,499 more rows, and 18 more variables:
## # Tamaño Cte Industria <chr>, Segmento Det <chr>, Marca <chr>,
## # Presentacion <chr>, Tamaño <chr>, Retornable_NR <chr>, Enero <dbl>,
## # Febrero <dbl>, Marzo <dbl>, Abril <dbl>, Mayo <dbl>, Junio <dbl>,
## # Julio <dbl>, Agosto <dbl>, Septiembre <dbl>, Octubre <dbl>,
## # Noviembre <dbl>, Diciembre <dbl>
# Resumen y datos estadísitcos de la base de datos
summary.data.frame(DatosArca)
## ID Año Territorio Sub Territorio
## Min. : 1 Min. :2016 Length:466509 Length:466509
## 1st Qu.:116628 1st Qu.:2017 Class :character Class :character
## Median :233255 Median :2018 Mode :character Mode :character
## Mean :233255 Mean :2018
## 3rd Qu.:349882 3rd Qu.:2019
## Max. :466509 Max. :2019
##
## CEDI Cliente Nombre Tamaño Cte Industria
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## Segmento Det Marca Presentacion Tamaño
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## Retornable_NR Enero Febrero Marzo
## Length:466509 Min. : -19.0 Min. : -11.00 Min. : -32.00
## Class :character 1st Qu.: 1.0 1st Qu.: 1.00 1st Qu.: 1.00
## Mode :character Median : 2.0 Median : 2.00 Median : 3.00
## Mean : 10.1 Mean : 9.76 Mean : 11.36
## 3rd Qu.: 6.0 3rd Qu.: 6.00 3rd Qu.: 6.00
## Max. :42736.0 Max. :42767.00 Max. :42795.00
## NA's :233480 NA's :231213 NA's :227420
## Abril Mayo Junio Julio
## Min. : -70.00 Min. : -106.00 Min. : -211.0 Min. : -60.00
## 1st Qu.: 1.00 1st Qu.: 1.00 1st Qu.: 1.0 1st Qu.: 1.00
## Median : 3.00 Median : 3.00 Median : 3.0 Median : 2.00
## Mean : 11.71 Mean : 12.75 Mean : 12.2 Mean : 11.75
## 3rd Qu.: 6.00 3rd Qu.: 7.00 3rd Qu.: 6.0 3rd Qu.: 6.00
## Max. :42826.00 Max. :42856.00 Max. :42887.0 Max. :42917.00
## NA's :224057 NA's :216910 NA's :215753 NA's :223411
## Agosto Septiembre Octubre Noviembre
## Min. : -211.00 Min. : -527.0 Min. : -38.0 Min. : -25.0
## 1st Qu.: 1.00 1st Qu.: 1.0 1st Qu.: 1.0 1st Qu.: 1.0
## Median : 3.00 Median : 3.0 Median : 3.0 Median : 3.0
## Mean : 11.98 Mean : 13.4 Mean : 13.7 Mean : 13.3
## 3rd Qu.: 6.00 3rd Qu.: 7.0 3rd Qu.: 7.0 3rd Qu.: 6.0
## Max. :42948.00 Max. :42979.0 Max. :43009.0 Max. :43040.0
## NA's :220242 NA's :337314 NA's :338386 NA's :338460
## Diciembre
## Min. : -28.0
## 1st Qu.: 1.0
## Median : 3.0
## Mean : 14.8
## 3rd Qu.: 7.0
## Max. :43070.0
## NA's :341855
#Ventas Primer Semestre
DatosArca1<-mutate(DatosArca, VentasPrimerSemestre=Enero+Febrero+Marzo+Abril+Mayo+Junio)
grp_data = group_by(DatosArca1, Marca, Presentacion, VentasPrimerSemestre)
summarise(grp_data)
## `summarise()` has grouped output by 'Marca', 'Presentacion'. You can override using the `.groups` argument.
## # A tibble: 17,667 x 3
## # Groups: Marca, Presentacion [273]
## Marca Presentacion VentasPrimerSemestre
## <chr> <chr> <dbl>
## 1 AdeS Frutal 200 ml Tetra 0
## 2 AdeS Frutal 200 ml Tetra 1
## 3 AdeS Frutal 200 ml Tetra 2
## 4 AdeS Frutal 200 ml Tetra 3
## 5 AdeS Frutal 200 ml Tetra 4
## 6 AdeS Frutal 200 ml Tetra 5
## 7 AdeS Frutal 200 ml Tetra 6
## 8 AdeS Frutal 200 ml Tetra 7
## 9 AdeS Frutal 200 ml Tetra 8
## 10 AdeS Frutal 200 ml Tetra 9
## # ... with 17,657 more rows