Contexto

El analizar la informacion de ventas de 2016 a 2019 de productos de la familia Coca Cola en las tiendas dentro de la zona de Guadalajara en los que se implemento el Proyecto Siglo XX1 de Arca Contiental.

Importar base da datos

#file.choose()

df <- read.csv("C:\\Users\\lcyep\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey\\Tec\\Semestre 3\\Semanas Tec\\Programación R\\arca.csv")

Entender la base de Datos

resumen1 <- summary(df)
resumen1
##        ID              Año        Territorio        Sub.Territorio    
##  Min.   :     1   Min.   :2016   Length:466509      Length:466509     
##  1st Qu.:116628   1st Qu.:2017   Class :character   Class :character  
##  Median :233255   Median :2018   Mode  :character   Mode  :character  
##  Mean   :233255   Mean   :2018                                        
##  3rd Qu.:349882   3rd Qu.:2019                                        
##  Max.   :466509   Max.   :2019                                        
##      CEDI             Cliente             Nombre          Tamaño.Cte.Industria
##  Length:466509      Length:466509      Length:466509      Length:466509       
##  Class :character   Class :character   Class :character   Class :character    
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character    
##                                                                               
##                                                                               
##                                                                               
##  Segmento.Det          Marca           Presentacion          Tamaño         
##  Length:466509      Length:466509      Length:466509      Length:466509     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  Retornable_NR         Enero             Febrero             Marzo          
##  Length:466509      Length:466509      Length:466509      Length:466509     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Abril               Mayo              Junio              Julio          
##  Length:466509      Length:466509      Length:466509      Length:466509     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Agosto           Septiembre          Octubre           Noviembre        
##  Length:466509      Length:466509      Length:466509      Length:466509     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##   Diciembre        
##  Length:466509     
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
#install.packages("dplyr")
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
count(df, Territorio  , sort = TRUE)
##    Territorio      n
## 1 Guadalajara 466508
## 2  Territorio      1
#count(df, Sub.Territorio, sort = TRUE)
#count(df, CEDI, sort = TRUE)
#count(df, Cliente, sort = TRUE)
#count(df, Nombre, sort = TRUE)
#count(df, Tamaño.Cte.Industria, sort = TRUE)
#count(df, Segmento.Det, sort = TRUE)
#count(df, Marca, sort = TRUE)
#count(df, Presentacion, sort = TRUE)
#count(df, Tamaño, sort = TRUE)
#count(df, Retornable_NR, sort = TRUE)

Observaciones:
1. Eliminar renglon 184065 que tiene títulos en lugar de datos.
2. Cambiar formato (de Enero a Diciembre) de caracter a entero.

Limpieza de la base de datos

Observaciones:
3. Tenemos NA en las columnas de los meses.
4. Tenemos cantidades negativas.
5. No teniamos ventas por año.

#install.packages("dplyr")
library(dplyr)
count(df,Territorio, sort = TRUE)
##    Territorio      n
## 1 Guadalajara 466508
## 2  Territorio      1
# Eliminar renglon en blanco
df <- df[-184065,]

# Convertir a valores numericos los valores.

df$Enero <- as.integer(df$Enero)
## Warning: NAs introducidos por coerción
df$Febrero <- as.integer(df$Febrero)
## Warning: NAs introducidos por coerción
df$Marzo <- as.integer(df$Marzo)
## Warning: NAs introducidos por coerción
df$Abril <- as.integer(df$Abril)
## Warning: NAs introducidos por coerción
df$Mayo <- as.integer(df$Mayo)
## Warning: NAs introducidos por coerción
df$Junio <- as.integer(df$Junio)
## Warning: NAs introducidos por coerción
df$Julio <- as.integer(df$Julio)
## Warning: NAs introducidos por coerción
df$Agosto <- as.integer(df$Agosto)
## Warning: NAs introducidos por coerción
df$Septiembre <- as.integer(df$Septiembre)
## Warning: NAs introducidos por coerción
df$Octubre <- as.integer(df$Octubre)
## Warning: NAs introducidos por coerción
df$Noviembre <- as.integer(df$Noviembre)
## Warning: NAs introducidos por coerción
df$Diciembre <- as.integer(df$Diciembre)
## Warning: NAs introducidos por coerción
#Cuantos NA tengo en la base de datos
sum(is.na(df))
## [1] 3149791
# Sustituir los espacios NA con 0.
df[is.na(df)] <- 0

# Convertir a absoluto los valores.
df$Enero <- abs(df$Enero)
df$Febrero <- abs(df$Febrero)
df$Marzo <- abs(df$Marzo)
df$Abril <- abs(df$Abril)
df$Mayo <- abs(df$Mayo)
df$Junio <- abs(df$Junio)
df$Julio <- abs(df$Julio)
df$Agosto <- abs(df$Agosto)
df$Septiembre <- abs(df$Septiembre)
df$Octubre <- abs(df$Octubre)
df$Noviembre <- abs(df$Noviembre)
df$Diciembre <- abs(df$Diciembre)
df$Año <- as.character(df$Año)

# Agregar columna de Ventas
df$Ventas <- df$Enero + df$Febrero + df$Marzo + df$Abril + df$Mayo +  df$Abril + df$Mayo + df$ Junio + df$Julio + df$Agosto + df$Septiembre + df$Octubre +df$Noviembre + df$Diciembre  


# Grafica de caja y bigote

boxplot(df$Enero, horizontal = TRUE)

boxplot(df$Agosto, horizontal = TRUE)

resumen <- summary(df)
resumen
##        ID             Año             Territorio        Sub.Territorio    
##  Min.   :     1   Length:466508      Length:466508      Length:466508     
##  1st Qu.:116628   Class :character   Class :character   Class :character  
##  Median :233256   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :233255                                                           
##  3rd Qu.:349882                                                           
##  Max.   :466509                                                           
##      CEDI             Cliente             Nombre          Tamaño.Cte.Industria
##  Length:466508      Length:466508      Length:466508      Length:466508       
##  Class :character   Class :character   Class :character   Class :character    
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character    
##                                                                               
##                                                                               
##                                                                               
##  Segmento.Det          Marca           Presentacion          Tamaño         
##  Length:466508      Length:466508      Length:466508      Length:466508     
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  Retornable_NR          Enero            Febrero            Marzo        
##  Length:466508      Min.   :  0.000   Min.   :  0.000   Min.   :  0.000  
##  Class :character   1st Qu.:  0.000   1st Qu.:  0.000   1st Qu.:  0.000  
##  Mode  :character   Median :  0.000   Median :  0.000   Median :  0.000  
##                     Mean   :  4.691   Mean   :  4.582   Mean   :  5.402  
##                     3rd Qu.:  2.000   3rd Qu.:  2.000   3rd Qu.:  3.000  
##                     Max.   :999.000   Max.   :986.000   Max.   :986.000  
##      Abril              Mayo             Junio             Julio        
##  Min.   :  0.000   Min.   :  0.000   Min.   :  0.000   Min.   :  0.000  
##  1st Qu.:  0.000   1st Qu.:  0.000   1st Qu.:  0.000   1st Qu.:  0.000  
##  Median :  0.000   Median :  0.000   Median :  0.000   Median :  0.000  
##  Mean   :  5.521   Mean   :  6.122   Mean   :  5.908   Mean   :  5.585  
##  3rd Qu.:  3.000   3rd Qu.:  3.000   3rd Qu.:  3.000   3rd Qu.:  3.000  
##  Max.   :993.000   Max.   :991.000   Max.   :998.000   Max.   :993.000  
##      Agosto          Septiembre         Octubre         Noviembre     
##  Min.   :  0.000   Min.   :  0.000   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:  0.000   1st Qu.:  0.000   1st Qu.:  0.00   1st Qu.:  0.00  
##  Median :  0.000   Median :  0.000   Median :  0.00   Median :  0.00  
##  Mean   :  5.781   Mean   :  3.316   Mean   :  3.33   Mean   :  3.25  
##  3rd Qu.:  3.000   3rd Qu.:  1.000   3rd Qu.:  1.00   3rd Qu.:  1.00  
##  Max.   :999.000   Max.   :993.000   Max.   :998.00   Max.   :991.00  
##    Diciembre           Ventas        
##  Min.   :  0.000   Min.   :    0.00  
##  1st Qu.:  0.000   1st Qu.:    2.00  
##  Median :  0.000   Median :    9.00  
##  Mean   :  3.479   Mean   :   68.61  
##  3rd Qu.:  0.000   3rd Qu.:   32.00  
##  Max.   :997.000   Max.   :11393.00

Observaciones:

  1. Tenemos NA en las columnas de los meses.

  2. Tenemos cantidades negativas.

  3. No teniamos ventas por año.

P1

¿Puede observarse un crecimiento en las ventas de algunos de los segmentos de productos de la familia Coca Cola en las tiendas en las que se implementó el Proyecto Siglo XXI de Arca Continental?

Respuesta: Arca Continental en el año 2016 al 2017 hubo un pequeño aumento de ventas. En el 2017 para el 2018 no hubo ningun cambio y al final el cambio del 2018 al 2019 fue el mayor dentro de estos 4 años de datos

#install.packages("ggplot2")

library(ggplot2)
ggplot(df, aes(x=Año, y= Ventas)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )

P2

¿El incremento en las ventas es similar entre los diferentes tamaños de clientes?

Respuesta: Arca Continental experimentó un aumento en las ventas en 2019 debido al crecimiento en el número de clientes de empresas grandes, micro y pequeñas. Durante ese año, el alza fue especialmente notable debido a la incorporación de empresas grandes y pequeñas. Sin embargo, es relevante mencionar que las empresas de tamaño extragrande mostraron una disminución en sus ventas durante 2019. Por otro lado, las empresas micro, que habían enfrentado un declive desde 2016 hasta 2018, vieron un repunte significativo en sus ventas en 2019.

ggplot(df, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )

df2 <- df%>% filter(Tamaño.Cte.Industria =="Extra Grande")
 ggplot(df2, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )                   

 df3 <- df%>% filter(Tamaño.Cte.Industria =="Grande")
 ggplot(df3, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )                 

 df4 <- df%>% filter(Tamaño.Cte.Industria =="Micro")
 ggplot(df4, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  ) 

 df5 <- df%>% filter(Tamaño.Cte.Industria =="Pequeño")
 ggplot(df5, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas Anuales",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )  

P3

¿Cuál es el comportamiento observado de las unidades vendidas por mes de cada una de las marcas, independientemente de sus respectivas presentaciones?

Respuesta: La marca Coca-Cola es la mas vendida de todas, con incremento de ventas en 2019. La marca Sprite con incremento de ventas año con Año.

df6 <- df%>% filter(Marca =="Coca-Cola")
 ggplot(df6, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas por año de Coca-Cola",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )  

 df7 <- df%>% filter(Marca =="Sprite")
 ggplot(df7, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas por año de la marca de Sprite",
    subtitle = "Caso Arca Continental Ventas Anuales"
  )  

P4

¿Se ha incrementado la venta de productos en envases retornables en los últimos dos años?

Respuesta: No, solo hubo un incremento en el ultimo año.

df8 <- df%>% filter(Retornable_NR =="Retornable")

 ggplot(df8, aes(x=Año, y= Ventas, colour = Tamaño.Cte.Industria)) +
  geom_bar(stat = "Identity") +
  labs(
    title = "Ventas por año de envases retornables",
    subtitle = "Caso Arca Continental Ventas Anuales"
  ) 

P5

¿El comportamiento de la venta de agua ha incrementado en relación al de los refrescos o las bebidas isotónicas?

Respuesta: Las ventas de Agua Purificada y Colas Regular bajaron en su último año. Sin embargo Isotónicos Regular aumentó año con año.

df9 <- df%>% filter(Segmento.Det =="Agua Purificada" | Segmento.Det == "Isotónicos Regular" | Segmento.Det=="Colas Regular")

 ggplot(df9, aes(x=Año, y= Ventas, fill= Segmento.Det)) +
  geom_bar(position="dodge" ,stat = "Identity") +
  labs(
    title = "Ventas por año" ,
    subtitle = "Caso Arca Continental Ventas Anuales"
  ) 

P6

¿Puede decirse que la venta mensual de agua está relacionada con la venta mensual de refrescos en los últimos 4 años?

Respuesta: La venta de agua y refrescos no esta relacionada.

df10 <- df%>% filter(Segmento.Det =="Agua Purificada" |  Segmento.Det=="Colas Regular")

 ggplot(df10, aes(x=Año, y= Ventas, fill= Segmento.Det)) +
  geom_bar(position="dodge" ,stat = "Identity") +
  labs(
    title = "Ventas por año" ,
    subtitle = "Caso Arca Continental Ventas Anuales"
  ) 

P7

¿A cuánto ascienden las ventas esperadas para el 2020 en la Coca Cola de 500 ml NR Vidrio?

Respuesta: Acorde a un modelo predictivo utilizando regresion lineal, las ventas esperadas para Coca Cola de 500 ml NR Vidrio en 2020 son de 552639 Unidades, con una R cuadrada ajustada del 67%.

df11 <- df%>% filter(Marca =="Coca-Cola" &  Presentacion=="500 ml NR Vidrio")

df12 <- aggregate(Ventas ~ Año, df11, sum)
df12$Año <- as.integer(df12$Año)


regresion <- lm(Ventas ~ Año, data = df12)
summary(regresion)
## 
## Call:
## lm(formula = Ventas ~ Año, data = df12)
## 
## Residuals:
##      1      2      3      4 
## -24287  40868  -8875  -7706 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)
## (Intercept) -84108995   31243357  -2.692    0.115
## Año             41912      15486   2.706    0.114
## 
## Residual standard error: 34630 on 2 degrees of freedom
## Multiple R-squared:  0.7855, Adjusted R-squared:  0.6783 
## F-statistic: 7.325 on 1 and 2 DF,  p-value: 0.1137
#Ecuación de la recta y= -84108995 + 41912*Año

datos <- data.frame(Año=2020)
predict(regresion,datos)
##      1 
## 552639
