Entender la base de datos
summary(bd)
## ID Año Territorio Sub.Territorio
## Min. : 1 Min. :2016 Length:466509 Length:466509
## 1st Qu.:116628 1st Qu.:2017 Class :character Class :character
## Median :233255 Median :2018 Mode :character Mode :character
## Mean :233255 Mean :2018
## 3rd Qu.:349882 3rd Qu.:2019
## Max. :466509 Max. :2019
## CEDI Cliente Nombre Tamaño.Cte.Industria
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Segmento.Det Marca Presentacion Tamaño
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Retornable_NR Enero Febrero Marzo
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Abril Mayo Junio Julio
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Agosto Septiembre Octubre Noviembre
## Length:466509 Length:466509 Length:466509 Length:466509
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Diciembre
## Length:466509
## Class :character
## Mode :character
##
##
##
str(bd)
## 'data.frame': 466509 obs. of 25 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Año : int 2016 2016 2016 2016 2016 2016 2016 2016 2016 2016 ...
## $ Territorio : chr "Guadalajara" "Guadalajara" "Guadalajara" "Guadalajara" ...
## $ Sub.Territorio : chr "Belenes" "Belenes" "Belenes" "Belenes" ...
## $ CEDI : chr "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" ...
## $ Cliente : chr "77737" "77737" "77737" "77737" ...
## $ Nombre : chr "ABARR" "ABARR" "ABARR" "ABARR" ...
## $ Tamaño.Cte.Industria: chr "Extra Grande" "Extra Grande" "Extra Grande" "Extra Grande" ...
## $ Segmento.Det : chr "Agua Mineral" "Agua Purificada" "Agua Purificada" "Agua Saborizada" ...
## $ Marca : chr "Topo Chico A.M." "Ciel Agua Purificada" "Ciel Agua Purificada" "Ciel Exprim" ...
## $ Presentacion : chr "600 ml NR" "1 Ltro. N.R." "1.5 Lts. NR" "600 ml NR" ...
## $ Tamaño : chr "Individual" "Individual" "Individual" "Individual" ...
## $ Retornable_NR : chr "No Retornable" "No Retornable" "No Retornable" "No Retornable" ...
## $ Enero : chr "" "" "" "" ...
## $ Febrero : chr "" "2" "" "" ...
## $ Marzo : chr "" "8" "3" "" ...
## $ Abril : chr "" "4" "6" "" ...
## $ Mayo : chr "" "4" "3" "" ...
## $ Junio : chr "" "2" "3" "" ...
## $ Julio : chr "" "2" "3" "" ...
## $ Agosto : chr "" "2" "3" "" ...
## $ Septiembre : chr "" "2" "3" "" ...
## $ Octubre : chr "" "2" "3" "" ...
## $ Noviembre : chr "" "4" "3" "" ...
## $ Diciembre : chr "1" "2" "3" "1" ...
# Convertir tipo de variables
bd$Cliente <- as.integer(bd$Cliente)
## Warning: NAs introduced by coercion
bd$Enero <- as.integer(bd$Enero)
## Warning: NAs introduced by coercion
bd$Febrero <- as.integer(bd$Febrero)
## Warning: NAs introduced by coercion
bd$Marzo <- as.integer(bd$Marzo)
## Warning: NAs introduced by coercion
bd$Abril <- as.integer(bd$Abril)
## Warning: NAs introduced by coercion
bd$Mayo <- as.integer(bd$Mayo)
## Warning: NAs introduced by coercion
bd$Junio <- as.integer(bd$Junio)
## Warning: NAs introduced by coercion
bd$Julio <- as.integer(bd$Julio)
## Warning: NAs introduced by coercion
bd$Agosto <- as.integer(bd$Agosto)
## Warning: NAs introduced by coercion
bd$Septiembre <- as.integer(bd$Septiembre)
## Warning: NAs introduced by coercion
bd$Octubre <- as.integer(bd$Octubre)
## Warning: NAs introduced by coercion
bd$Noviembre <- as.integer(bd$Noviembre)
## Warning: NAs introduced by coercion
bd$Diciembre <- as.integer(bd$Diciembre)
## Warning: NAs introduced by coercion
# ¿Cuantos NA´s en la base de datos?
sum(is.na(bd))
## [1] 3149804
# ¿Cuantos NA´s hay por variable?
sapply(bd,function(x) sum(is.na(x)))
## ID Año Territorio
## 0 0 0
## Sub.Territorio CEDI Cliente
## 0 0 1
## Nombre Tamaño.Cte.Industria Segmento.Det
## 0 0 0
## Marca Presentacion Tamaño
## 0 0 0
## Retornable_NR Enero Febrero
## 0 233552 231286
## Marzo Abril Mayo
## 227507 224186 217073
## Junio Julio Agosto
## 215908 223538 220367
## Septiembre Octubre Noviembre
## 337402 338483 338546
## Diciembre
## 341955
LS0tCnRpdGxlOiAiQWN0aXZpZGFkMyIKYXV0aG9yOiAiTWFyY29fR29uemFsZXpfQTAwODM0ODk1IgpkYXRlOiAiMjAyMy0wMy0yMiIKb3V0cHV0OiAKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiB0cnVlCiAgICB0b2NfZmxvYXQ6IHRydWUKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKLS0tCgohW10oL1VzZXJzL21hcmNvZ29uemFsZXovRGVza3RvcC9Qcm9ncmFtYWNpb24gQm9vdGNhbXAvZ3JhZmljYXMucG5nKQoKIyMjIEltcG9ydGFyIGxhIGJhc2UgZGUgZGF0bwpgYGB7cn0KYmQgPC0gcmVhZC5jc3YoIi9Vc2Vycy9tYXJjb2dvbnphbGV6L0Rlc2t0b3AvUHJvZ3JhbWFjaW9uIEJvb3RjYW1wL0RhdG9zIEFyY2EgQ29udGluZW50YWwgT3JpZ2luYWwuY3N2IikKYGBgCgojIyMgRW50ZW5kZXIgbGEgYmFzZSBkZSBkYXRvcwpgYGB7cn0Kc3VtbWFyeShiZCkKc3RyKGJkKQojIENvbnZlcnRpciB0aXBvIGRlIHZhcmlhYmxlcwpiZCRDbGllbnRlIDwtIGFzLmludGVnZXIoYmQkQ2xpZW50ZSkKYmQkRW5lcm8gPC0gYXMuaW50ZWdlcihiZCRFbmVybykKYmQkRmVicmVybyA8LSBhcy5pbnRlZ2VyKGJkJEZlYnJlcm8pCmJkJE1hcnpvIDwtIGFzLmludGVnZXIoYmQkTWFyem8pCmJkJEFicmlsIDwtIGFzLmludGVnZXIoYmQkQWJyaWwpCmJkJE1heW8gPC0gYXMuaW50ZWdlcihiZCRNYXlvKQpiZCRKdW5pbyA8LSBhcy5pbnRlZ2VyKGJkJEp1bmlvKQpiZCRKdWxpbyA8LSBhcy5pbnRlZ2VyKGJkJEp1bGlvKQpiZCRBZ29zdG8gPC0gYXMuaW50ZWdlcihiZCRBZ29zdG8pCmJkJFNlcHRpZW1icmUgPC0gYXMuaW50ZWdlcihiZCRTZXB0aWVtYnJlKQpiZCRPY3R1YnJlIDwtIGFzLmludGVnZXIoYmQkT2N0dWJyZSkKYmQkTm92aWVtYnJlIDwtIGFzLmludGVnZXIoYmQkTm92aWVtYnJlKQpiZCREaWNpZW1icmUgPC0gYXMuaW50ZWdlcihiZCREaWNpZW1icmUpCiMgwr9DdWFudG9zIE5BwrRzIGVuIGxhIGJhc2UgZGUgZGF0b3M/CnN1bShpcy5uYShiZCkpCiMgwr9DdWFudG9zIE5BwrRzIGhheSBwb3IgdmFyaWFibGU/CnNhcHBseShiZCxmdW5jdGlvbih4KSBzdW0oaXMubmEoeCkpKQpgYGAKCiMjIyBSZWFsaXphciBsYXMgZ3LDoWZpY2FzCmBgYHtyfQojbGlicmFyeShnZ3Bsb3QyKQojZ2dwbG90KGRhdGEgPSBiZCkgKwojZ2VvbV9wb2ludChtYXBwaW5nID0gYWVzKHggPSBJRCwgeSA9IEVuZXJvKSkKCmBgYAo=