Introducción

Para Arca Continental, la situación que están viviendo los dueños de las tienditas de la esquina no ha pasado desapercibida. Ellos, quienes por muchos años han sido nuestros principales aliados comerciales, no pueden por sí solos revertir la situación de riesgo en la que se encuentran por lo que, en Arca Continental, acorde a nuestra misión de “Generar el máximo valor para nuestros clientes, colaboradores, comunidades, y accionistas…” hemos decidido apoyar al fortalecimiento del canal tradicional a través del Proyecto Siglo XXI.

Descargar paquetes y llamar librerías

#install.packages ("readxl")#Para importar un archivo de excel
library (readxl)
#install.packages ("DataExplorer")#Para realizar análisis descriptivo
library (DataExplorer)
#install.packages("dplyr")
library (dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
#install.packages ("tidyverse") #Manipulación de datos
library (tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.5.1     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#install.packages ("ggplot2") #Generar gráficos
library (ggplot2)
#install.packages("forecast") #Para identificar tendencias y series de tiempo.
library (forecast) 
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

Importar base de datos

#file.choose()
df <- read_excel("/Users/luismendoza/Downloads/Datos Arca Continental Original.xlsx")
colnames (df) <- make.names (colnames(df)) #quitar espacios

Análisis descriptivo

summary (df)
##        ID              Año        Territorio        Sub.Territorio    
##  Min.   :     1   Min.   :2016   Length:466509      Length:466509     
##  1st Qu.:116628   1st Qu.:2017   Class :character   Class :character  
##  Median :233255   Median :2018   Mode  :character   Mode  :character  
##  Mean   :233255   Mean   :2018                                        
##  3rd Qu.:349882   3rd Qu.:2019                                        
##  Max.   :466509   Max.   :2019                                        
##                                                                       
##      CEDI             Cliente             Nombre          Tamaño.Cte.Industria
##  Length:466509      Length:466509      Length:466509      Length:466509       
##  Class :character   Class :character   Class :character   Class :character    
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character    
##                                                                               
##                                                                               
##                                                                               
##                                                                               
##  Segmento.Det          Marca           Presentacion          Tamaño         
##  Length:466509      Length:466509      Length:466509      Length:466509     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##  Retornable_NR          Enero            Febrero             Marzo         
##  Length:466509      Min.   :  -19.0   Min.   :  -11.00   Min.   :  -32.00  
##  Class :character   1st Qu.:    1.0   1st Qu.:    1.00   1st Qu.:    1.00  
##  Mode  :character   Median :    2.0   Median :    2.00   Median :    3.00  
##                     Mean   :   10.1   Mean   :    9.76   Mean   :   11.36  
##                     3rd Qu.:    6.0   3rd Qu.:    6.00   3rd Qu.:    6.00  
##                     Max.   :42736.0   Max.   :42767.00   Max.   :42795.00  
##                     NA's   :233480    NA's   :231213     NA's   :227420    
##      Abril               Mayo              Junio             Julio         
##  Min.   :  -70.00   Min.   : -106.00   Min.   : -211.0   Min.   :  -60.00  
##  1st Qu.:    1.00   1st Qu.:    1.00   1st Qu.:    1.0   1st Qu.:    1.00  
##  Median :    3.00   Median :    3.00   Median :    3.0   Median :    2.00  
##  Mean   :   11.71   Mean   :   12.75   Mean   :   12.2   Mean   :   11.75  
##  3rd Qu.:    6.00   3rd Qu.:    7.00   3rd Qu.:    6.0   3rd Qu.:    6.00  
##  Max.   :42826.00   Max.   :42856.00   Max.   :42887.0   Max.   :42917.00  
##  NA's   :224057     NA's   :216910     NA's   :215753    NA's   :223411    
##      Agosto           Septiembre         Octubre          Noviembre      
##  Min.   : -211.00   Min.   : -527.0   Min.   :  -38.0   Min.   :  -25.0  
##  1st Qu.:    1.00   1st Qu.:    1.0   1st Qu.:    1.0   1st Qu.:    1.0  
##  Median :    3.00   Median :    3.0   Median :    3.0   Median :    3.0  
##  Mean   :   11.98   Mean   :   13.4   Mean   :   13.7   Mean   :   13.3  
##  3rd Qu.:    6.00   3rd Qu.:    7.0   3rd Qu.:    7.0   3rd Qu.:    6.0  
##  Max.   :42948.00   Max.   :42979.0   Max.   :43009.0   Max.   :43040.0  
##  NA's   :220242     NA's   :337314    NA's   :338386    NA's   :338460   
##    Diciembre      
##  Min.   :  -28.0  
##  1st Qu.:    1.0  
##  Median :    3.0  
##  Mean   :   14.8  
##  3rd Qu.:    7.0  
##  Max.   :43070.0  
##  NA's   :341855
str (df)
## tibble [466,509 × 25] (S3: tbl_df/tbl/data.frame)
##  $ ID                  : num [1:466509] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Año                 : num [1:466509] 2016 2016 2016 2016 2016 ...
##  $ Territorio          : chr [1:466509] "Guadalajara" "Guadalajara" "Guadalajara" "Guadalajara" ...
##  $ Sub.Territorio      : chr [1:466509] "Belenes" "Belenes" "Belenes" "Belenes" ...
##  $ CEDI                : chr [1:466509] "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" ...
##  $ Cliente             : chr [1:466509] "77737" "77737" "77737" "77737" ...
##  $ Nombre              : chr [1:466509] "ABARR" "ABARR" "ABARR" "ABARR" ...
##  $ Tamaño.Cte.Industria: chr [1:466509] "Extra Grande" "Extra Grande" "Extra Grande" "Extra Grande" ...
##  $ Segmento.Det        : chr [1:466509] "Agua Mineral" "Agua Purificada" "Agua Purificada" "Agua Saborizada" ...
##  $ Marca               : chr [1:466509] "Topo Chico A.M." "Ciel Agua Purificada" "Ciel Agua Purificada" "Ciel Exprim" ...
##  $ Presentacion        : chr [1:466509] "600 ml NR" "1 Ltro. N.R." "1.5 Lts. NR" "600 ml NR" ...
##  $ Tamaño              : chr [1:466509] "Individual" "Individual" "Individual" "Individual" ...
##  $ Retornable_NR       : chr [1:466509] "No Retornable" "No Retornable" "No Retornable" "No Retornable" ...
##  $ Enero               : num [1:466509] NA NA NA NA NA NA 1 NA 3 NA ...
##  $ Febrero             : num [1:466509] NA 2 NA NA NA NA NA 1 3 NA ...
##  $ Marzo               : num [1:466509] NA 8 3 NA NA 1 NA NA 4 NA ...
##  $ Abril               : num [1:466509] NA 4 6 NA NA NA NA 1 4 NA ...
##  $ Mayo                : num [1:466509] NA 4 3 NA NA NA 0 NA 4 NA ...
##  $ Junio               : num [1:466509] NA 2 3 NA NA NA NA 1 4 0 ...
##  $ Julio               : num [1:466509] NA 2 3 NA NA NA 0 NA 4 NA ...
##  $ Agosto              : num [1:466509] NA 2 3 NA NA NA NA 1 7 NA ...
##  $ Septiembre          : num [1:466509] NA 2 3 NA NA NA NA 1 4 NA ...
##  $ Octubre             : num [1:466509] NA 2 3 NA NA NA 0 NA 3 NA ...
##  $ Noviembre           : num [1:466509] NA 4 3 NA 0 NA NA NA 1 NA ...
##  $ Diciembre           : num [1:466509] 1 2 3 1 NA NA NA NA 3 NA ...
#create_report (df)
introduce(df)
## # A tibble: 1 × 9
##     rows columns discrete_columns continuous_columns all_missing_columns
##    <int>   <int>            <int>              <int>               <int>
## 1 466509      25               11                 14                   0
## # ℹ 4 more variables: total_missing_values <int>, complete_rows <int>,
## #   total_observations <int>, memory_usage <dbl>
plot_intro(df)

plot_missing(df)

plot_histogram(df)

plot_bar(df)

plot_correlation(df)

count (df, Territorio, sort =TRUE)
## # A tibble: 2 × 2
##   Territorio       n
##   <chr>        <int>
## 1 Guadalajara 466508
## 2 Territorio       1
count (df, Sub.Territorio, sort =TRUE)
## # A tibble: 4 × 2
##   Sub.Territorio      n
##   <chr>           <int>
## 1 Belenes        208982
## 2 Huentitán      144196
## 3 Toluquilla     113330
## 4 Sub Territorio      1
count (df, CEDI, sort =TRUE)
## # A tibble: 4 × 2
##   CEDI                 n
##   <chr>            <int>
## 1 Suc. Belenes    208982
## 2 Suc. Huentitán  144196
## 3 Suc. Toluquilla 113330
## 4 CEDI                 1
count (df, Cliente, sort =TRUE)
## # A tibble: 5,249 × 2
##    Cliente     n
##    <chr>   <int>
##  1 0286      647
##  2 2912      586
##  3 2661      537
##  4 7821      531
##  5 1859      525
##  6 5583      516
##  7 9998      508
##  8 3601      506
##  9 5879      499
## 10 0335      496
## # ℹ 5,239 more rows
count (df, Nombre, sort =TRUE)
## # A tibble: 1,090 × 2
##    Nombre     n
##    <chr>  <int>
##  1 ABARR  71186
##  2 MARIA  39816
##  3 JOSE   17479
##  4 JUAN    7580
##  5 MARTH   5759
##  6 MISCE   5700
##  7 LUIS    5585
##  8 SUPER   4565
##  9 CARLO   3991
## 10 ROSA    3890
## # ℹ 1,080 more rows
count (df, Tamaño.Cte.Industria, sort =TRUE)
## # A tibble: 5 × 2
##   Tamaño.Cte.Industria      n
##   <chr>                 <int>
## 1 Extra Grande         230190
## 2 Micro                117110
## 3 Pequeño               77875
## 4 Grande                41333
## 5 Tamaño Cte Industria      1
count (df, Segmento.Det, sort =TRUE)
## # A tibble: 21 × 2
##    Segmento.Det            n
##    <chr>               <int>
##  1 Sabores Regular    156242
##  2 Colas Regular       95720
##  3 Colas Light         43807
##  4 Jugos y Néctares    33362
##  5 Bebidas de Fruta    30641
##  6 Agua Purificada     20766
##  7 Agua Mineral        12590
##  8 Isotónicos Regular  11905
##  9 Té Regular          10062
## 10 Agua Saborizada     10056
## # ℹ 11 more rows
count (df, Marca, sort =TRUE)
## # A tibble: 56 × 2
##    Marca                    n
##    <chr>                <int>
##  1 Coca-Cola            95720
##  2 Sprite               37925
##  3 Fanta                35728
##  4 Fresca               26435
##  5 Manzana Lift         25598
##  6 Coca-Cola Light      21926
##  7 Del Valle            21325
##  8 Ciel Agua Purificada 20766
##  9 Sidral Mundet        17150
## 10 Valle Frut           15808
## # ℹ 46 more rows
count (df, Presentacion, sort =TRUE)
## # A tibble: 57 × 2
##    Presentacion         n
##    <chr>            <int>
##  1 600 ml NR        74008
##  2 1 Ltro. N.R.     36930
##  3 2 Lts. NR        36415
##  4 500 ml Ret       35165
##  5 1.5 Lts. NR      30637
##  6 Lata 235 ml      24551
##  7 400 ml NR        22877
##  8 250 ml. NR PET   21735
##  9 500 ml NR Vidrio 18758
## 10 2.5 Lts. NR      13235
## # ℹ 47 more rows
count (df, Tamaño, sort =TRUE)
## # A tibble: 3 × 2
##   Tamaño          n
##   <chr>       <int>
## 1 Individual 328513
## 2 Familiar   137995
## 3 Tamaño          1
count (df, Retornable_NR = TRUE)
## # A tibble: 1 × 2
##   Retornable_NR      n
##   <lgl>          <int>
## 1 TRUE          466509

Limpieza de la Base de Datos

## Revisar NAs en la base de datos

# ¿Cuántos NAs tengo en la base de datos?
sum(is.na(df))
## [1] 3148501
# ¿Cuántos NAs tengo por variable?
sapply(df, function(x) sum(is.na(x)))
##                   ID                  Año           Territorio 
##                    0                    0                    0 
##       Sub.Territorio                 CEDI              Cliente 
##                    0                    0                    0 
##               Nombre Tamaño.Cte.Industria         Segmento.Det 
##                    0                    0                    0 
##                Marca         Presentacion               Tamaño 
##                    0                    0                    0 
##        Retornable_NR                Enero              Febrero 
##                    0               233480               231213 
##                Marzo                Abril                 Mayo 
##               227420               224057               216910 
##                Junio                Julio               Agosto 
##               215753               223411               220242 
##           Septiembre              Octubre            Noviembre 
##               337314               338386               338460 
##            Diciembre 
##               341855
#Reemplazar NAs con CEROS

df[is.na(df)] <- 0
sum(is.na(df))
## [1] 0
## Detectar valores atípicos
boxplot(df$Enero)

# Eliminar renglón de los totales
df <- df[df$Enero <6000, ]
boxplot(df$Enero)

Análisis de Ventas

#Crear una nueva base de datos
df1<- df
# Muestra las ventas de Enero a Junio por CEDI:
df2 <- select(df1,c(CEDI,Enero:Junio))

# Muestra los movimientos por Cedi y tamaño de tienda grande:
df3 <- df1 %>% filter(Tamaño.Cte.Industria == "Grande")

# Ordena la base de datos por Cedi, por marca y por presentación:
df4 <- df1 %>% arrange(CEDI, Marca, Presentacion)

# Agrega un campo calculado con las ventas del primer semestre y muestra las ventas del primer semestre por marca:
df5 <- df1 %>% 
  mutate(Ventas_Sem1 = Enero + Febrero + Marzo + Abril + Mayo + Junio)

ventas_sem1_por_marca <- df5 %>% 
  group_by(Marca) %>% 
  summarise(Ventas_Sem1=sum(Ventas_Sem1))

# Obtén la media de las ventas del primer semestre agrupado por marca, presentación y tamaño.
df6 <- df5 %>%
  group_by(Marca, Presentacion, Tamaño) %>%
  summarise(Ventas_Sem1=mean(Ventas_Sem1))
## `summarise()` has grouped output by 'Marca', 'Presentacion'. You can override
## using the `.groups` argument.
# Calcular medidas de tendencia central
summary(df1)
##        ID              Año        Territorio        Sub.Territorio    
##  Min.   :     1   Min.   :2016   Length:466508      Length:466508     
##  1st Qu.:116628   1st Qu.:2017   Class :character   Class :character  
##  Median :233256   Median :2018   Mode  :character   Mode  :character  
##  Mean   :233255   Mean   :2018                                        
##  3rd Qu.:349882   3rd Qu.:2019                                        
##  Max.   :466509   Max.   :2019                                        
##      CEDI             Cliente             Nombre          Tamaño.Cte.Industria
##  Length:466508      Length:466508      Length:466508      Length:466508       
##  Class :character   Class :character   Class :character   Class :character    
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character    
##                                                                               
##                                                                               
##                                                                               
##  Segmento.Det          Marca           Presentacion          Tamaño         
##  Length:466508      Length:466508      Length:466508      Length:466508     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  Retornable_NR          Enero             Febrero             Marzo         
##  Length:466508      Min.   : -19.000   Min.   : -11.000   Min.   : -32.000  
##  Class :character   1st Qu.:   0.000   1st Qu.:   0.000   1st Qu.:   0.000  
##  Mode  :character   Median :   0.000   Median :   0.000   Median :   0.000  
##                     Mean   :   4.951   Mean   :   4.829   Mean   :   5.729  
##                     3rd Qu.:   2.000   3rd Qu.:   2.000   3rd Qu.:   3.000  
##                     Max.   :5333.000   Max.   :4995.000   Max.   :5636.000  
##      Abril               Mayo             Junio              Julio         
##  Min.   : -70.000   Min.   :-106.00   Min.   :-211.000   Min.   : -60.000  
##  1st Qu.:   0.000   1st Qu.:   0.00   1st Qu.:   0.000   1st Qu.:   0.000  
##  Median :   0.000   Median :   0.00   Median :   0.000   Median :   0.000  
##  Mean   :   5.992   Mean   :   6.73   Mean   :   6.464   Mean   :   6.033  
##  3rd Qu.:   3.000   3rd Qu.:   3.00   3rd Qu.:   3.000   3rd Qu.:   3.000  
##  Max.   :6164.000   Max.   :6759.00   Max.   :6033.000   Max.   :6735.000  
##      Agosto           Septiembre          Octubre           Noviembre      
##  Min.   :-211.000   Min.   :-527.000   Min.   : -38.000   Min.   : -25.00  
##  1st Qu.:   0.000   1st Qu.:   0.000   1st Qu.:   0.000   1st Qu.:   0.00  
##  Median :   0.000   Median :   0.000   Median :   0.000   Median :   0.00  
##  Mean   :   6.235   Mean   :   3.625   Mean   :   3.674   Mean   :   3.57  
##  3rd Qu.:   3.000   3rd Qu.:   1.000   3rd Qu.:   1.000   3rd Qu.:   1.00  
##  Max.   :6065.000   Max.   :6509.000   Max.   :6326.000   Max.   :5319.00  
##    Diciembre       
##  Min.   : -28.000  
##  1st Qu.:   0.000  
##  Median :   0.000  
##  Mean   :   3.858  
##  3rd Qu.:   0.000  
##  Max.   :6182.000
# Colapsar meses en una columna
df7 <- gather(df1, Mes, Ventas, Enero:Diciembre)
df7
## # A tibble: 5,598,096 × 15
##       ID   Año Territorio  Sub.Territorio CEDI         Cliente Nombre
##    <dbl> <dbl> <chr>       <chr>          <chr>        <chr>   <chr> 
##  1     1  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  2     2  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  3     3  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  4     4  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  5     5  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  6     6  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  7     7  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  8     8  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
##  9     9  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
## 10    10  2016 Guadalajara Belenes        Suc. Belenes 77737   ABARR 
## # ℹ 5,598,086 more rows
## # ℹ 8 more variables: Tamaño.Cte.Industria <chr>, Segmento.Det <chr>,
## #   Marca <chr>, Presentacion <chr>, Tamaño <chr>, Retornable_NR <chr>,
## #   Mes <chr>, Ventas <dbl>
# Agregar una columna con el Número de Mes
meses <- c("Enero"="01", "Febrero"="02","Marzo"="03", "Abril"="04", "Mayo"="05", "Junio"="06", "Julio"="07", "Agosto"="08", "Septiembre"="09", "Octubre"="10", "Noviembre"="11", "Diciembre"="12")

df7$Número_de_Mes <- meses[df7$Mes]

# Graficar el total de ventas por mes y año

ventas_totales <- df7 %>%
  group_by(Año, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ggplot(ventas_totales, aes(x=Número_de_Mes, y=Ventas_Totales,group=Año, color= as.factor(Año))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", color = "Año")

Regresión Lineal

# Pregunta Detonante 4. ¿Se ha incrementado la venta de productos en envases retornables en los últimos dos años?
ventas_totales_er <- df7 %>%
   filter(Retornable_NR == "Retornable") %>%
  group_by(Año, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes)

ggplot(ventas_totales_er, aes(x=Número_de_Mes, y=Ventas_Totales,group=Año, color= as.factor(Año))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales de Productos en Envases Retornables", color = "Año")

# Pregunta Detonante 
ventas_totales_seg <- df7 %>%
   filter(Segmento.Det == "Agua Purificada" | Segmento.Det == "Isotónicos Regular" | Segmento.Det == "Colas Regular" ) %>%
  filter(Año == 2018) %>%
  group_by(Segmento.Det, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes)

ggplot(ventas_totales_seg, aes(x=Número_de_Mes, y=Ventas_Totales,group=Segmento.Det, color= as.factor(Segmento.Det))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales por Segmento", color = "Segmento")

Actividad Individual 4

# Elaborar Regresión Lineal

ventas_4567 <- df7 %>%
  filter(Cliente == "4567") %>%
  group_by(Año) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  filter(Ventas_Totales != 0)

# ventas_4567$Secuencia <- 1:nrow(ventas_4567)

ggplot(ventas_4567, aes(x=Año, y=Ventas_Totales)) +
  geom_point() +
  labs(x="Año",y="Ventas Totales(Qty)", title= "Ventas Totales del Cliente 4567")

Preguntas Detonantes

  1. ¿Puede observarse un crecimiento en las ventas de algunos de los segmentos de productos de la familia Coca Cola en las tiendas en las que se implementó el Proyecto Siglo XXI de Arca Continental?
ventas_totales_seg <- df7 %>%
   filter(Segmento.Det == "Agua Purificada" | Segmento.Det == "Isotónicos Regular" | Segmento.Det == "Colas Regular" ) %>%
  filter(Año == 2018) %>%
  group_by(Segmento.Det, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes)
## `summarise()` has grouped output by 'Segmento.Det'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_seg, aes(x=Número_de_Mes, y=Ventas_Totales,group=Segmento.Det, color= as.factor(Segmento.Det))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales por Segmento", color = "Segmento")

Respuesta: En general las ventas aumentaron en 2019, pero cada segmento se comportó diferente. El incremento de ventas se puede lograr gracias a mejores campañas de mercadotecnia y lanzamiento de nuevos productos.En 2018 la venta de Coca-Cola entre Febrero y Diciembre aumentó en 100,000 unidades, mientras que las aguas isotónicas no tuvieron cambios.

  1. ¿El incremento en las ventas es similar entre los diferentes tamaños de clientes?
ventas_totales_tam_cliente <- df7 %>%
  filter(Año == 2019) %>%
  group_by(Tamaño.Cte.Industria, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes) %>%
  filter(Ventas_Totales != 0)
## `summarise()` has grouped output by 'Tamaño.Cte.Industria'. You can override
## using the `.groups` argument.
ggplot(ventas_totales_tam_cliente, aes(x=Número_de_Mes, y=Ventas_Totales,group=Tamaño.Cte.Industria, color= as.factor(Tamaño.Cte.Industria))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales por Tamaño de Cliente", color = "Tamaño de Cliente")

Respuesta: El incremento de ventas es similar independientemente de los tamaños de los clientes. Como todos los negocios están abiertos los mismos días, y están ubicados en la misma ciudad (Guadalajara), los factores externos de las ventas efectan casi igual a todos. El mes de mayo de 2019 fue el de mayor ventas en todos los tamaños de cliente, y el primer bimestre fue el más bajo también para todos los tamaños de cliente.

  1. ¿Cuál es el comportamiento observado de las unidades vendidas por mes de cada una de las marcas, independientemente de sus respectivas presentaciones?
ventas_totales_marca <- df7 %>%
  filter(Año == 2019) %>%
  filter(Marca == c("Coca-Cola", "Valle Frut", "Ciel Agua Purificada","Coca-Cola Light")) %>%
  group_by(Marca, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes) %>%
  filter(Ventas_Totales != 0)
## `summarise()` has grouped output by 'Marca'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_marca, aes(x=Número_de_Mes, y=Ventas_Totales,group=Marca, color= as.factor(Marca))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales por Marca", color = "Marca")

Respuesta: El comportamiento de ventas es similar entre las marcas a través de los meses, pero hay marcas que venden mucho más que otras. Los meses de más ventas de bebidas son los meses en que la temperatura es mayor, y las marcas más conocidas son las que tiene en mente el consumidor. El mes de mayo 2019 es para todas las marcas el de mayores ventas, pero la marca Coca-Cola es la que vende más que todas.

  1. ¿Se ha incrementado la venta de productos en envases retornables en los últimos dos años?
ventas_totales_envase <- df7 %>%
  filter(Retornable_NR=="Retornable") %>%
  filter(Año == c(2017,2018,2019)) %>%
  group_by(Año, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes) %>%
  filter(Ventas_Totales != 0)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ggplot(ventas_totales_envase, aes(x=Número_de_Mes, y=Ventas_Totales,group=Año, color= as.factor(Año))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales de Envases Retornables", color = "Año")

Respuesta: La venta de productos en envase retornable aumentó en los últimos dos años. Las campañas de conciencia ambiental han vuelto populares las opciones menos dañinas al ecosistema. De 2017 a 2018 hubo un ligero incremento en las ventas de envase retornable, y entre 2018 y 2019 el aumento fue muy notorio.

Notas: Hay otros factores a considerar como que en 2019 hay más tiendas con el proyecto Siglo XXI, o que las tiendas en general venden más productos (tanto retornables como no retornables).

  1. ¿El comportamiento de la venta de agua ha incrementado en relación al de los refrescos o las bebidas isotónicas?
ventas_totales_seg <- df7 %>%
   filter(Segmento.Det == "Agua Purificada" | Segmento.Det == "Isotónicos Regular" | Segmento.Det == "Colas Regular" ) %>%
  filter(Año == 2018) %>%
  group_by(Segmento.Det, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  arrange(Número_de_Mes)
## `summarise()` has grouped output by 'Segmento.Det'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_seg, aes(x=Número_de_Mes, y=Ventas_Totales,group=Segmento.Det, color= as.factor(Segmento.Det))) +
  geom_line() +
  geom_point() +
  labs(x="Mes",y="Ventas Totales(Qty)", title= "Ventas Totales por Segmento", color = "Segmento")

Respuesta: Las ventas de Agua Purificada no ha aumentado en relación a Refrescos o Bebidas Isotónicas. La persepción que el agua no tiene valor agregado en la preparación y el azúcar en la receta hacen de los refrescos la opción preferida de los consumidores mexicanos. En 2018 las ventas totales de Agua Purificada no superaron las 50,000 unidades, mientras que la Coca-Cola vendió en su mes más alto 450,000 (8 veces más que el agua).

  1. ¿Puede decirse que la venta mensual de agua está relacionada con la venta mensual de refrescos en los últimos 4 años?
ventas_totales_ayr <- df7 %>%
   filter(Segmento.Det == c("Agua Purificada", "Colas Regular")) %>%
  group_by(Segmento.Det, Año) %>%
  summarise(Ventas_Totales = sum(Ventas)) 
## `summarise()` has grouped output by 'Segmento.Det'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_ayr, aes(x=Año, y=Ventas_Totales,group=Segmento.Det, color= as.factor(Segmento.Det))) +
  geom_line() +
  geom_point() +
  labs(x="Año",y="Ventas Totales(Qty)", title= "Ventas Totales por Segmento", color = "Segmento")

Respuesta: La venta de agua y refrescos se incrementa en los mismos meses, y a través de los años, pero no se puede concluir que un incremento cause el otro. Los meses calurosos y el crecimiento de la población hace que las ventas se incrementen en las bebidas, sean agua o refresco. En la gráfica obtenida se observa un incremento año con año en la venta de agua y también de refrescos.

  1. ¿A cuánto ascienden las ventas esperadas para el 2020 en la Coca Cola de 500 ml NR Vidrio?
ventas_coca_vidrio <- df7 %>%
  filter(Marca == "Coca-Cola" & Presentacion == "500 ml NR Vidrio") %>%
  group_by(Año, Número_de_Mes) %>%
  summarise(Ventas_Totales = sum(Ventas)) %>%
  filter(Ventas_Totales != 0)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.