library(ggplot2) #hacer gráficos
library(dplyr)
library(tidyr)
library(readxl) #leer el excel
library(forecast) #generar series de tiempo
df <- read_excel('/Users/angiezeron/Documents/R things/Datos Arca Continental Original.xlsx')
df
## # A tibble: 466,509 × 25
## ID Año Territorio `Sub Territorio` CEDI Cliente Nombre
## <dbl> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 1 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 2 2 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 3 3 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 4 4 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 5 5 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 6 6 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 7 7 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 8 8 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 9 9 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 10 10 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## # ℹ 466,499 more rows
## # ℹ 18 more variables: `Tamaño Cte Industria` <chr>, `Segmento Det` <chr>,
## # Marca <chr>, Presentacion <chr>, Tamaño <chr>, Retornable_NR <chr>,
## # Enero <dbl>, Febrero <dbl>, Marzo <dbl>, Abril <dbl>, Mayo <dbl>,
## # Junio <dbl>, Julio <dbl>, Agosto <dbl>, Septiembre <dbl>, Octubre <dbl>,
## # Noviembre <dbl>, Diciembre <dbl>
str(df)
## tibble [466,509 × 25] (S3: tbl_df/tbl/data.frame)
## $ ID : num [1:466509] 1 2 3 4 5 6 7 8 9 10 ...
## $ Año : num [1:466509] 2016 2016 2016 2016 2016 ...
## $ Territorio : chr [1:466509] "Guadalajara" "Guadalajara" "Guadalajara" "Guadalajara" ...
## $ Sub Territorio : chr [1:466509] "Belenes" "Belenes" "Belenes" "Belenes" ...
## $ CEDI : chr [1:466509] "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" "Suc. Belenes" ...
## $ Cliente : chr [1:466509] "77737" "77737" "77737" "77737" ...
## $ Nombre : chr [1:466509] "ABARR" "ABARR" "ABARR" "ABARR" ...
## $ Tamaño Cte Industria: chr [1:466509] "Extra Grande" "Extra Grande" "Extra Grande" "Extra Grande" ...
## $ Segmento Det : chr [1:466509] "Agua Mineral" "Agua Purificada" "Agua Purificada" "Agua Saborizada" ...
## $ Marca : chr [1:466509] "Topo Chico A.M." "Ciel Agua Purificada" "Ciel Agua Purificada" "Ciel Exprim" ...
## $ Presentacion : chr [1:466509] "600 ml NR" "1 Ltro. N.R." "1.5 Lts. NR" "600 ml NR" ...
## $ Tamaño : chr [1:466509] "Individual" "Individual" "Individual" "Individual" ...
## $ Retornable_NR : chr [1:466509] "No Retornable" "No Retornable" "No Retornable" "No Retornable" ...
## $ Enero : num [1:466509] NA NA NA NA NA NA 1 NA 3 NA ...
## $ Febrero : num [1:466509] NA 2 NA NA NA NA NA 1 3 NA ...
## $ Marzo : num [1:466509] NA 8 3 NA NA 1 NA NA 4 NA ...
## $ Abril : num [1:466509] NA 4 6 NA NA NA NA 1 4 NA ...
## $ Mayo : num [1:466509] NA 4 3 NA NA NA 0 NA 4 NA ...
## $ Junio : num [1:466509] NA 2 3 NA NA NA NA 1 4 0 ...
## $ Julio : num [1:466509] NA 2 3 NA NA NA 0 NA 4 NA ...
## $ Agosto : num [1:466509] NA 2 3 NA NA NA NA 1 7 NA ...
## $ Septiembre : num [1:466509] NA 2 3 NA NA NA NA 1 4 NA ...
## $ Octubre : num [1:466509] NA 2 3 NA NA NA 0 NA 3 NA ...
## $ Noviembre : num [1:466509] NA 4 3 NA 0 NA NA NA 1 NA ...
## $ Diciembre : num [1:466509] 1 2 3 1 NA NA NA NA 3 NA ...
#Cuantos NAs tengo en la base de datos?
sum(is.na(df))
## [1] 3148501
#cuantos NAs tengo por variable
sapply(df, function(x) sum(is.na(x)))
## ID Año Territorio
## 0 0 0
## Sub Territorio CEDI Cliente
## 0 0 0
## Nombre Tamaño Cte Industria Segmento Det
## 0 0 0
## Marca Presentacion Tamaño
## 0 0 0
## Retornable_NR Enero Febrero
## 0 233480 231213
## Marzo Abril Mayo
## 227420 224057 216910
## Junio Julio Agosto
## 215753 223411 220242
## Septiembre Octubre Noviembre
## 337314 338386 338460
## Diciembre
## 341855
#Opcion 1. eliminar NAs
# df1 <- na.omit(df)
#Opcion 2. Reemplazar con ceros
df1 <- df
df1[is.na(df1)] <- 0
#Opcion 3. Reeemplazar NAs con promedio
#df1<-df
#df1$Enero[is.na(df1$enero)] <- mean(df1$enero, na.rm=TRUE)
boxplot(df1$Enero)
#Eliminar remglon de los totales
df1 <- df1[df1$Enero <6000,]
# Adecuar nombres con gsub
names(df1) <- gsub(" ","_", names (df1))
# Muestra las ventas de Enero a Junio por CEDI:
df2 <- select(df1,c(CEDI,Enero:Junio))
# Muestra los movimientos por Cedi y tamaño de tienda grande
df3 <- df1 %>% filter(Tamaño_Cte_Industria == "Grande")
# Ordena la base de datos por CEDI, por marca y por presentación
df4 <- df1 %>% arrange(CEDI,Marca,Presentacion)
# Agrega un campo calculado con las ventas del primer semestre y muestra las ventas del primer semestre por marca.
df5 <- df1 %>%
mutate(Ventas_Sem1 = Enero + Febrero + Marzo + Abril + Mayo + Junio)
ventas_sem1_por_marca <- df5 %>%
group_by(Marca) %>%
summarise(Ventas_Sem1= sum(Ventas_Sem1))
# Obtén la media de las ventas del primer semestre agrupado por marca, presentación y tamaño.
df6 <- df5 %>%
group_by(Marca,Presentacion,Tamaño) %>%
summarise(Ventas_Sem1= mean(Ventas_Sem1))
## `summarise()` has grouped output by 'Marca', 'Presentacion'. You can override
## using the `.groups` argument.
#Calcular medidas de tendencia central
summary(df1)
## ID Año Territorio Sub_Territorio
## Min. : 1 Min. :2016 Length:466508 Length:466508
## 1st Qu.:116628 1st Qu.:2017 Class :character Class :character
## Median :233256 Median :2018 Mode :character Mode :character
## Mean :233255 Mean :2018
## 3rd Qu.:349882 3rd Qu.:2019
## Max. :466509 Max. :2019
## CEDI Cliente Nombre Tamaño_Cte_Industria
## Length:466508 Length:466508 Length:466508 Length:466508
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Segmento_Det Marca Presentacion Tamaño
## Length:466508 Length:466508 Length:466508 Length:466508
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Retornable_NR Enero Febrero Marzo
## Length:466508 Min. : -19.000 Min. : -11.000 Min. : -32.000
## Class :character 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.000
## Mode :character Median : 0.000 Median : 0.000 Median : 0.000
## Mean : 4.951 Mean : 4.829 Mean : 5.729
## 3rd Qu.: 2.000 3rd Qu.: 2.000 3rd Qu.: 3.000
## Max. :5333.000 Max. :4995.000 Max. :5636.000
## Abril Mayo Junio Julio
## Min. : -70.000 Min. :-106.00 Min. :-211.000 Min. : -60.000
## 1st Qu.: 0.000 1st Qu.: 0.00 1st Qu.: 0.000 1st Qu.: 0.000
## Median : 0.000 Median : 0.00 Median : 0.000 Median : 0.000
## Mean : 5.992 Mean : 6.73 Mean : 6.464 Mean : 6.033
## 3rd Qu.: 3.000 3rd Qu.: 3.00 3rd Qu.: 3.000 3rd Qu.: 3.000
## Max. :6164.000 Max. :6759.00 Max. :6033.000 Max. :6735.000
## Agosto Septiembre Octubre Noviembre
## Min. :-211.000 Min. :-527.000 Min. : -38.000 Min. : -25.00
## 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.00
## Median : 0.000 Median : 0.000 Median : 0.000 Median : 0.00
## Mean : 6.235 Mean : 3.625 Mean : 3.674 Mean : 3.57
## 3rd Qu.: 3.000 3rd Qu.: 1.000 3rd Qu.: 1.000 3rd Qu.: 1.00
## Max. :6065.000 Max. :6509.000 Max. :6326.000 Max. :5319.00
## Diciembre
## Min. : -28.000
## 1st Qu.: 0.000
## Median : 0.000
## Mean : 3.858
## 3rd Qu.: 0.000
## Max. :6182.000
#Colapsar meses en una comlumna
df7 <- gather(df1, Mes, Ventas, Enero:Diciembre)
df7
## # A tibble: 5,598,096 × 15
## ID Año Territorio Sub_Territorio CEDI Cliente Nombre
## <dbl> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 1 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 2 2 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 3 3 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 4 4 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 5 5 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 6 6 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 7 7 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 8 8 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 9 9 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## 10 10 2016 Guadalajara Belenes Suc. Belenes 77737 ABARR
## # ℹ 5,598,086 more rows
## # ℹ 8 more variables: Tamaño_Cte_Industria <chr>, Segmento_Det <chr>,
## # Marca <chr>, Presentacion <chr>, Tamaño <chr>, Retornable_NR <chr>,
## # Mes <chr>, Ventas <dbl>
Angie Zeron A00834060 Antonio Kuri A01722016 Isaac Perez A01252923
## Muestra las ventas anuales totales por tamaño...
#Se nota que el tamaño familiar es el más vendido con un total de venta de 15787181:
df7_tarea <- select(df1,c(Tamaño,Enero:Diciembre))
df7_tarea$total = rowSums(df7_tarea[, c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")])
df7_agrupado = df7_tarea %>%
group_by(Tamaño) %>%
summarize(Total_Grupo = sum(total))
print(df7_agrupado)
## # A tibble: 2 × 2
## Tamaño Total_Grupo
## <chr> <dbl>
## 1 Familiar 15787181
## 2 Individual 12992631
## Muestra los movimientos por sub territorio en especifico Belenes...
#Se identifico que en el sub territorio de Belenes hubo un total de venta de 9176279
df8 <- df1 %>% filter(Sub_Territorio == "Belenes")
df8$total = rowSums(df8[, c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")])
df8_agrupado = df8 %>%
group_by(Sub_Territorio) %>%
summarize(Total_Grupo = sum(total))
print(df8_agrupado)
## # A tibble: 1 × 2
## Sub_Territorio Total_Grupo
## <chr> <dbl>
## 1 Belenes 9176279
## base de datos ordenada por Retornable o no retonable, por marca y por presentación...
#Se notó que los refrescos retornables tienen mayor frecuencia de venta, ya que ocupan los primeros 5 lugares
df9 <- df1 %>% arrange(Retornable_NR,Marca,Presentacion)
df9$total = rowSums(df9[, c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")])
## Campo calculado con las ventas anuales y muestra las ventas anuales por presentación...
#Se identificó que la presentación de 2.5 Lts. Ret Pet fue la más exitosa con un total de venta de 5829946
df10 <- df1 %>%
mutate(Ventas_Anuales = Enero + Febrero + Marzo + Abril + Mayo + Junio + Julio + Agosto + Septiembre + Octubre + Noviembre + Diciembre)
ventas_anuales_por_presentacion <- df10 %>%
group_by(Presentacion) %>%
summarise(Ventas_Anuales= sum(Ventas_Anuales))
## Media de las ventas del primer semestre agrupado por presentación y tamaño...
#Se identificó que en promedio la presentación de 2.5 Lts. Ret Pet se vendió en promedio 814.1245636
df11 <- df10 %>%
group_by(Presentacion,Tamaño) %>%
summarise(Ventas_Anuales= mean(Ventas_Anuales))
## `summarise()` has grouped output by 'Presentacion'. You can override using the
## `.groups` argument.
#Agregar una columna con el número del mes
meses <- c("Enero"="01", "Febrero"="02", "Marzo"="03", "Abril"="04", "Mayo"="05", "Junio"="06", "Julio"="07", "Agosto"="08", "Septiembre"="09", "Octubre"="10", "Noviembre"="11", "Diciembre"="12")
df7$Número_de_Mes <- meses[df7$Mes]
#Gráfica promedio de ventas por mes y añ0
ventas_totales <- df7 %>%
group_by(Año, Número_de_Mes) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
arrange(Número_de_Mes)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ggplot(ventas_totales, aes(x=Número_de_Mes, y=Ventas_Totales, group=Año, color=as.factor(Año))) +
geom_line() +
geom_point() +
labs(x="Mes", y="Ventas Totales (Qty)", color= "Año")
# Se identificó que las marcas con mayor cantidad de ventas fueron Coca Cola, Agua purificada ciel, Coca Cola Light, Sprite
ventas_totales_por_marca <- df7 %>%
group_by(Marca) %>%
summarise(ventas_totales_por_marca = sum(Ventas)) %>%
arrange(ventas_totales_por_marca)
ggplot(ventas_totales_por_marca, aes(x=ventas_totales_por_marca, y=Marca, group=Marca, color=as.factor(Marca))) +
geom_line() +
geom_point() +
labs(x="Ventas Totales (Qty)", y="Marca", color= "Marca")
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
# Se identificó que el tamaño mas vendido es el familiar por mucho
ventas_totales_por_tamaño <- df7 %>%
group_by(Tamaño) %>%
summarise(ventas_totales_por_tamaño = sum(Ventas)) %>%
arrange(ventas_totales_por_tamaño)
ggplot(ventas_totales_por_tamaño, aes(x=Tamaño, y=ventas_totales_por_tamaño, group=Tamaño, color=as.factor(Tamaño))) +
geom_line() +
geom_point() +
labs(x="Tamaño", y="Ventas Totales (Qty)", color= "Tamaño")
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
# Se identificó que el orden de mayor a menor venta por territorio es Toluquilla, Belenes, Huentitán
ventas_totales_por_subt <- df7 %>%
group_by(Sub_Territorio) %>%
summarise(ventas_totales_por_subt = sum(Ventas)) %>%
arrange(ventas_totales_por_subt)
ggplot(ventas_totales_por_subt, aes(x=Sub_Territorio, y=ventas_totales_por_subt, group=Sub_Territorio, color=as.factor(Sub_Territorio))) +
geom_line() +
geom_point() +
labs(x="Sub_Territorio", y="Ventas Totales (Qty)", color= "Sub_Territorio")
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
# Se identificó que el año con mayor cantidad de ventas fue el 2019 seguido por el 2017, 2018 y 2016
ventas_totales_por_año <- df7%>%
group_by(Año) %>%
summarise(ventas_totales_por_año = sum(Ventas)) %>%
arrange(ventas_totales_por_año)
ggplot(ventas_totales_por_año, aes(x=Año, y=ventas_totales_por_año, group=Año, color=as.factor(Año))) +
geom_bar(stat = "identity", fill = "white") +
theme_minimal() +
labs(x="Año", y="Ventas Totales (Qty)", color= "Año")
# Se identificó que la cantidad de ventas de los productos retornables y no retornables es muy similar, sin embargo se nota una ligera diferencia a favor de lo retornable
ventas_totales_por_retonoret <- df7 %>%
group_by(Retornable_NR) %>%
summarise(ventas_totales_por_retonoret = sum(Ventas)) %>%
arrange(ventas_totales_por_retonoret)
ggplot(ventas_totales_por_retonoret, aes(x=Retornable_NR, y=ventas_totales_por_retonoret, group=Retornable_NR, color=as.factor(Retornable_NR))) +
geom_bar(stat = "identity", fill = "transparent") +
theme_minimal() +
labs(x="Retornable_NR", y="Ventas Totales (Qty)", color= "Retornable_NR")
#Elaborar regresión lineal
ventas_4567 <- df7 %>%
filter(Cliente == "4567") %>%
group_by(Año) %>%
summarise(Ventas_totales = sum(Ventas)) %>%
filter(Ventas_totales !=0) #para quitar los renglones con 0
#ventas_mayores$Secuencia <- 1:nrow(ventas_mayores) # es una secuencia por si lo ocupamos en algo mas
#cuando hago regreson ocupo que el eje x sea un rumero, asi que se cambia a una secuencia de meses para que no se confunda al graficarlo
ggplot(ventas_4567, aes(x=Año, y=Ventas_totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas totales del cliente 4567")
regresion <- lm(Ventas_totales ~ Año, data=ventas_4567)
summary(regresion)
##
## Call:
## lm(formula = Ventas_totales ~ Año, data = ventas_4567)
##
## Residuals:
## 1 2 3
## -5092 10185 -5092
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 48918677 17799125 2.748 0.222
## Año -24174 8820 -2.741 0.223
##
## Residual standard error: 12470 on 1 degrees of freedom
## Multiple R-squared: 0.8825, Adjusted R-squared: 0.765
## F-statistic: 7.512 on 1 and 1 DF, p-value: 0.2227
#Ecuacion
#y=48918677 + ( -24174 )
#R cuadrada ajustada
#0.765
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion,datos)
prediccion
## 1 2 3 4 5 6
## 87197.333 63023.333 38849.333 14675.333 -9498.667 -33672.667
ventas_4567$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_4567, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico a 5 años de ventas del cliente 4567")
Análisis: Según este pronóstico a 5 años, la ventas del cliente
4567 van a decrecer
Angie Zeron A00834060 Antonio Kuri A01722016 Isaac Perez A01252923
#¿A cuánto ascienden las ventas esperadas para el 2020 en la Coca Cola de 500 ml NR Vidrio?
ventas_esperadas <- df7 %>%
filter(Marca == "Coca-Cola" & Presentacion =="500 ml NR Vidrio") %>%
group_by(Año) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0) %>% #para quitar los renglones con 0
filter(Año !=2016)
ggplot(ventas_esperadas, aes(x=Año, y=Ventas_Totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas Anuales de Coca Cola")
regresion1 <- lm(Ventas_Totales ~ Año, data=ventas_esperadas)
summary(regresion1)
##
## Call:
## lm(formula = Ventas_Totales ~ Año, data = ventas_esperadas)
##
## Residuals:
## 1 2 3
## 1732 -3465 1732
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5303404 6054988 -0.876 0.542
## Año 2833 3000 0.944 0.518
##
## Residual standard error: 4243 on 1 degrees of freedom
## Multiple R-squared: 0.4713, Adjusted R-squared: -0.05738
## F-statistic: 0.8915 on 1 and 1 DF, p-value: 0.5183
#Ecuacion
#y= -5303404 + 2833
#R cuadrada ajustada
# -0.05738
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion1,datos)
prediccion
## 1 2 3 4 5 6
## 419255.7 422088.7 424921.7 427754.7 430587.7 433420.7
ventas_esperadas$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_Totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_esperadas, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_Totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico de ventas esperadas para el 2020", subtitle = "Coca Cola de 500 ml NR Vidrio")
Análisis: Para el año 2020, se espera que las ventas de COCA
COLA de 500 ml NR Vidrio tenddra ventas esperadas de
419,000
#Ventas totales del cliente 6626
ventas_6626 <- df7 %>%
filter(Cliente == "6626") %>%
group_by(Año) %>%
summarise(Ventas_totales = sum(Ventas)) %>%
filter(Ventas_totales !=0) #para quitar los renglones con 0
#ventas_mayores$Secuencia <- 1:nrow(ventas_mayores) # es una secuencia por si lo ocupamos en algo mas
#cuando hago regreson ocupo que el eje x sea un rumero, asi que se cambia a una secuencia de meses para que no se confunda al graficarlo
ggplot(ventas_6626, aes(x=Año, y=Ventas_totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas totales del cliente 0948")
regresion <- lm(Ventas_totales ~ Año, data=ventas_6626)
summary(regresion)
##
## Call:
## lm(formula = Ventas_totales ~ Año, data = ventas_6626)
##
## Residuals:
## 1 2 3
## -2811 5622 -2811
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 55208195 9825229 5.619 0.112
## Año -27316 4869 -5.610 0.112
##
## Residual standard error: 6886 on 1 degrees of freedom
## Multiple R-squared: 0.9692, Adjusted R-squared: 0.9384
## F-statistic: 31.48 on 1 and 1 DF, p-value: 0.1123
#Ecuacion
#y= 55208195 + ( -27316 )
# este es el intercepto este es la correlacion (en este caso negativa)
#R cuadrada ajustada
# 0.9384
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion,datos)
prediccion
## 1 2 3 4 5 6
## 29875 2559 -24757 -52073 -79389 -106705
ventas_6626$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_6626, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico a 5 años de ventas del cliente 6626")
Análisis: Las ventas del cliente 6626 tienen tendencia a caer a
los proximos años. Se puede deber a cambios en la preferencia de los
consumidores, tendencias del mercado, etc.
#Ventas totales de Guadalajara
ventas_gdl <- df7 %>%
group_by(Año) %>%
summarise(Ventas_totales = sum(Ventas)) %>%
filter(Ventas_totales !=0) #para quitar los renglones con 0
#ventas_mayores$Secuencia <- 1:nrow(ventas_mayores) # es una secuencia por si lo ocupamos en algo mas
#cuando hago regreson ocupo que el eje x sea un rumero, asi que se cambia a una secuencia de meses para que no se confunda al graficarlo
ggplot(ventas_gdl, aes(x=Año, y=Ventas_totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas totales del cliente 0948")
regresion <- lm(Ventas_totales ~ Año, data=ventas_gdl)
summary(regresion)
##
## Call:
## lm(formula = Ventas_totales ~ Año, data = ventas_gdl)
##
## Residuals:
## 1 2 3 4
## 98787 151376 -599113 348950
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.398e+09 4.571e+08 -3.058 0.0924 .
## Año 6.964e+05 2.266e+05 3.073 0.0916 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 506600 on 2 degrees of freedom
## Multiple R-squared: 0.8253, Adjusted R-squared: 0.7379
## F-statistic: 9.446 on 1 and 2 DF, p-value: 0.09156
#Ecuacion
#y= -1.398e+09 + (6.964e+05)
#R cuadrada ajustada
# 0.7379
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion,datos)
prediccion
## 1 2 3 4 5 6
## 8935914 9632299 10328684 11025068 11721453 12417837
ventas_gdl$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_gdl, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico a 5 años de ventas en GDL")
Análisis: Se pronostica que las ventas van a crecer en el
territorio de Guadalajara en los próximos ańos
#Ventas esperadas en el sub territorio de BELENES del producto AGUA PURIFICADA
ventas_segmento <- df7 %>%
filter(Sub_Territorio == "Belenes" & Segmento_Det =="Agua Purificada") %>%
group_by(Año) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0) %>% #para quitar los renglones con 0
filter(Año !=2016)
ggplot(ventas_segmento, aes(x=Año, y=Ventas_Totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas Anuales de Coca Cola")
regresion1 <- lm(Ventas_Totales ~ Año, data=ventas_segmento)
summary(regresion1)
##
## Call:
## lm(formula = Ventas_Totales ~ Año, data = ventas_segmento)
##
## Residuals:
## 1 2 3
## 15616 -31232 15616
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -156230141 54582274 -2.862 0.214
## Año 77493 27048 2.865 0.214
##
## Residual standard error: 38250 on 1 degrees of freedom
## Multiple R-squared: 0.8914, Adjusted R-squared: 0.7828
## F-statistic: 8.209 on 1 and 1 DF, p-value: 0.2138
#Ecuacion
#y= -5303404 + 2833
#R cuadrada ajustada
# -0.05738
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion1,datos)
prediccion
## 1 2 3 4 5 6
## 305719 383212 460705 538198 615691 693184
ventas_segmento$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_Totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_segmento, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_Totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico de ventas esperadas para Belenes", subtitle = "En Agua Purificada")
Análisis: Las ventas en el sub territorio Belenes en tanto Agua
purificada va a tener una tendencia de crecimiento para los próximos 4
años.
#Ventas en el sub segmento de toluquilla para las bebidas de fruta
ventas_segmento1 <- df7 %>%
filter(Sub_Territorio == "Toluquilla" & Segmento_Det =="Bebidas de Fruta") %>%
group_by(Año) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0) %>% #para quitar los renglones con 0
filter(Año !=2016)
ggplot(ventas_segmento1, aes(x=Año, y=Ventas_Totales)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Ventas Anuales de Coca Cola")
regresion1 <- lm(Ventas_Totales ~ Año, data=ventas_segmento1)
summary(regresion1)
##
## Call:
## lm(formula = Ventas_Totales ~ Año, data = ventas_segmento1)
##
## Residuals:
## 1 2 3
## -3357 6715 -3357
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 11498348 11734816 0.980 0.506
## Año -5676 5815 -0.976 0.508
##
## Residual standard error: 8224 on 1 degrees of freedom
## Multiple R-squared: 0.4879, Adjusted R-squared: -0.0242
## F-statistic: 0.9527 on 1 and 1 DF, p-value: 0.5077
#Ecuacion
#y= -5303404 + 2833
#R cuadrada ajustada
# -0.05738
datos <- data.frame(Año=2020:2025)
prediccion <-predict(regresion1,datos)
prediccion
## 1 2 3 4 5 6
## 32828.333 27152.333 21476.333 15800.333 10124.333 4448.333
ventas_segmento1$Tipo_de_Dato <- "Datos Reales"
datos$Ventas_Totales <- prediccion
datos$Tipo_de_Dato <- "Prediccion"
datos_combinados <- rbind(ventas_segmento1, datos)
ggplot(datos_combinados, aes(x=Año, y=Ventas_Totales, color=Tipo_de_Dato)) +
geom_point() +
labs(x="Año", y="Ventas Totales (Qty)", title = "Pronóstico de ventas esperadas para Toluquilla", subtitle = "En Bebidas de Fruta")
Análisis: Según el pronóstico, se espera que para el sub
territorio de Toluquilla en cuanto a las bebidas de fruta, las ventas
decrezcan.
top_10_clientes <- df7 %>%
group_by(Cliente) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
arrange(desc(Ventas_Totales)) %>%
top_n(10, Ventas_Totales)
top_10_clientes
## # A tibble: 10 × 2
## Cliente Ventas_Totales
## <chr> <dbl>
## 1 4567 406636
## 2 6626 253521
## 3 5420 238048
## 4 9745 190233
## 5 2539 181847
## 6 6190 172311
## 7 1859 159890
## 8 6114 158145
## 9 8682 155956
## 10 8283 145717
#ventas mesuales del cliente 4567
ventas_mensuales_4567 <- df7 %>%
filter(Cliente == "4567") %>%
group_by(Año, Número_de_Mes) %>%
summarise(Ventas_totales = sum(Ventas)) %>%
filter(Ventas_totales !=0) #para quitar los renglones con 0
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ventas_mensuales_4567
## # A tibble: 32 × 3
## # Groups: Año [3]
## Año Número_de_Mes Ventas_totales
## <dbl> <chr> <dbl>
## 1 2017 01 11665
## 2 2017 02 11395
## 3 2017 03 9529
## 4 2017 04 11701
## 5 2017 05 15021
## 6 2017 06 14567
## 7 2017 07 15717
## 8 2017 08 15371
## 9 2017 09 15876
## 10 2017 10 16451
## # ℹ 22 more rows
#para hacer series de tiempo R que los datos esten en orden cronológico (si no estuvieran le pones un arrange)
#solo ocupa una columna con los datos
#estas se pueden usar mensualmente, anual o trimestral
#Función serie de tiempo MENSUAL, que inicia en enero 2017
ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = c(2017, 1), frequency = 12) #el 1 es el periodo NO mes #el 12 son el total de periodos que hay en un año y como es mensual son 12
#Función serie de tiempo MENSUAL, que inicia en Abril 2017
#ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = c(2017, 4), frequency = 12)
#Función serie de tiempo TRIMESTRAL, que inicia en Enero 2017
#ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = c(2017, 1), frequency = 4)
#frecuencia = 4 pq hay 4 trimestres en un año
#Función serie de tiempo TRIMESTRAL, que inicia en Octubre 2017
#ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = c(2017, 4), frequency = 4)
#Función serie de tiempo ANUAL, que inicia en Enero 2017
#ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = 2017, frequency = 1)
#Función serie de tiempo SEMESTRAL, que inicia en Enero 2017
#ts <-ts(data= ventas_mensuales_4567$Ventas_totales, start = c(2017, 1), frequency = 2) #aqui el periodo solo puede ser 1 o 2
#crear moelo ARIMA(Modelo Autoregresivo Integrado de Promedio Movil)
arima <- auto.arima(ts, D=1) #D=1 por la temporalidad, si no lo ponemos te sale una predicción plana
arima
## Series: ts
## ARIMA(0,0,0)(0,1,0)[12]
##
## sigma^2 = 10383172: log likelihood = -189.94
## AIC=381.87 AICc=382.09 BIC=382.87
summary(arima) #debemos de enfocarnos en los números de error, donde el número por si solo no te dice si es mejor o peor, esto solo se sabra si se compara con otro modelo. Pero nos podemos enfocar en el MAPE este es el que tiene mas ventajas. si hacemos dos modelos comparamos los mapes
## Series: ts
## ARIMA(0,0,0)(0,1,0)[12]
##
## sigma^2 = 10383172: log likelihood = -189.94
## AIC=381.87 AICc=382.09 BIC=382.87
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set -36.98041 2547.446 1572.02 -1.811657 13.08459 0.6269271 0.2519497
#generar el pronóstico de ventas
pronostico <- forecast(arima,level=95, h=36) #level=nivel de confianza h=periodos de pronóstico
pronostico
## Point Forecast Lo 95 Hi 95
## Sep 2019 12086 5770.4219 18401.58
## Oct 2019 11427 5111.4219 17742.58
## Nov 2019 11270 4954.4219 17585.58
## Dec 2019 12227 5911.4219 18542.58
## Jan 2020 9430 3114.4219 15745.58
## Feb 2020 11312 4996.4219 17627.58
## Mar 2020 12515 6199.4219 18830.58
## Apr 2020 13334 7018.4219 19649.58
## May 2020 16286 9970.4219 22601.58
## Jun 2020 15347 9031.4219 21662.58
## Jul 2020 14005 7689.4219 20320.58
## Aug 2020 14050 7734.4219 20365.58
## Sep 2020 12086 3154.4238 21017.58
## Oct 2020 11427 2495.4238 20358.58
## Nov 2020 11270 2338.4238 20201.58
## Dec 2020 12227 3295.4238 21158.58
## Jan 2021 9430 498.4238 18361.58
## Feb 2021 11312 2380.4238 20243.58
## Mar 2021 12515 3583.4238 21446.58
## Apr 2021 13334 4402.4238 22265.58
## May 2021 16286 7354.4238 25217.58
## Jun 2021 15347 6415.4238 24278.58
## Jul 2021 14005 5073.4238 22936.58
## Aug 2021 14050 5118.4238 22981.58
## Sep 2021 12086 1147.0979 23024.90
## Oct 2021 11427 488.0979 22365.90
## Nov 2021 11270 331.0979 22208.90
## Dec 2021 12227 1288.0979 23165.90
## Jan 2022 9430 -1508.9021 20368.90
## Feb 2022 11312 373.0979 22250.90
## Mar 2022 12515 1576.0979 23453.90
## Apr 2022 13334 2395.0979 24272.90
## May 2022 16286 5347.0979 27224.90
## Jun 2022 15347 4408.0979 26285.90
## Jul 2022 14005 3066.0979 24943.90
## Aug 2022 14050 3111.0979 24988.90
plot(pronostico, main = "Ventas Mensuales y Pronóstico a 3 Años del Cliente 4567", xlab = "Año", ylab = "Ventas(qty)")
#plot es la grafica mas sencilla, lo gris representa el 95 de confianza que le pusimos
¿Puede observarse un crecimiento en las ventas de algunos de los segmentos de productos de la familia Coca Cola en las tiendas en las que se implementó el Proyecto Siglo XXI de Arca Continental?
ventas_totatles_seg <- df7 %>%
filter(Segmento_Det %in% c("Agua Purificada", "Isotónicos Regular", "Colas Regular")) %>%
filter(Año == 2018) %>%
group_by(Segmento_Det, Número_de_Mes) %>%
summarise(Ventas_Totales= sum(Ventas), .groups = "drop") %>%
arrange(Número_de_Mes)
ggplot(ventas_totatles_seg, aes(x=Número_de_Mes, y=Ventas_Totales, group=Segmento_Det, color=as.factor(Segmento_Det))) +
geom_line() +
geom_point() +
labs(x="Mes", y="Ventas Totales (Qty)", title="Ventas Totales por Segmentos", subtitle = "Proyecto Siglo XXI (2018)", color= "Tamaño de Cliente") +
theme(axis.text.x = element_text(angle=90, vjust=0.5, hjust=1))
Respuesta: En general las ventas aumentaron en 2019, pero cada
segmento se comoporto diferente. El incremento de ventas se puede lograr
ya sea a mejores campañas de mercadotecnia, lanzamiento de nuevos
productos o cambios en las preferencias de los consumidores. En 2028 la
venta de Coca Cola entre febrero y Diciembre aumentó en 100,000
unidades, mientras que en las aguas isotónicas no tuvieron
cambios
¿El incremento en las ventas es similar entre los diferentes tamaños de clientes?
ventas_totales_tamaño_cliente <- df7 %>%
filter(Año=="2019") %>%
group_by(Número_de_Mes, Tamaño_Cte_Industria) %>%
summarise(Ventas_Totales = sum(Ventas), .groups = "drop") %>%
arrange(Número_de_Mes) %>%
filter(Ventas_Totales !=0)
ggplot(ventas_totales_tamaño_cliente, aes(x=Número_de_Mes, y=Ventas_Totales, group=Tamaño_Cte_Industria, color=as.factor(Tamaño_Cte_Industria))) +
geom_line() +
geom_point() +
labs(x="Mes", y="Ventas Totales (Qty)", title="Ventas Totales por Tamaño de Cliente", subtitle = "(2019)", color= "Tamaño de Cliente") +
theme(axis.text.x = element_text(angle=90, vjust=0.5, hjust=1))
Respuesta: Independientemente del tamaño del cliente, el
incremento en las ventas es similar. Como todos los negocios están
abiertos los mismo dÃas, y están ubÃcados en la misma ciudad
(Guadalajara), los factores externos de las ventas afectan casi igual a
todos. El mes de mayo fue el de mayo ventas para todos los tamaños de
clientes, y el primer bimestre fue el mas bajo para todos los
clientes.
¿Cuál es el comportamiento observado de las unidades vendidas por mes de cada una de las marcas, independientemente de sus respectivas presentaciones?
ventas_totales_por_marca <- df7 %>%
filter(Año ==2019) %>%
filter(Marca %in% c("Coca-Cola", "Valle Frut", "Coca-Cola Light", "Agua purificada Ciel", "Joya", "Fresca")) %>%
group_by(Marca, Número_de_Mes) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
arrange(Número_de_Mes) %>%
filter(Ventas_Totales !=0)
## `summarise()` has grouped output by 'Marca'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_por_marca, aes(x=Número_de_Mes, y=Ventas_Totales, group=Marca, color=as.factor(Marca))) +
geom_line() +
geom_point() +
labs(x="Mes", y="Ventas Totales (Qty)", title="Ventas Totales", subtitle="Top 5 Marcas (2019)", color= "Marca")
Respuesta: El comportamiento de ventas es similar entre las
marcas a través de los meses, pero hay marcas que venden mucho más que
otras. Los meses de las ventas de bebidas son los meses e que la
temperatura es mayor, y las marcas más conocidas son las que estan que
estan en la mente del consumidor. El mes de mayo 2019 es para todas las
marcas el de mayores ventas, pero la marca Coca-Cola es la que vende más
que todas
¿Se ha incrementado la venta de productos en envases retornables en los últimos dos años?
ventas_envases_retornables<- df7 %>%
filter(Retornable_NR == "Retornable" & Año==c(2018,2019)) %>%
group_by(Año) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0) #para quitar los renglones con 0
ggplot(ventas_envases_retornables, aes(x=Año, y=Ventas_Totales)) +
geom_line() +
geom_point() +
labs(title="Ventas de Productos en Envases Retornables en los Últimos Dos Años",
x="Año",
y="Ventas Totales")
Respuesta: La venta de productos en envases retornables ha
incrementado en los últimos dos años de 3,400,000 en el 2018 a
aproximadamente 4,320,000 en el 2019. Creciendo aproximadamente un
27.06%. Las campañas de conciencia ambiental han vuelto populares las
opciones menos dañinas al ecosistema.
notas:
¿El comportamiento de la venta de agua ha incrementado en relación al de los refrescos o las bebidas isotónicas?
ventas_aguas_refrescos <-df7 %>%
filter(Segmento_Det %in% c("Agua Mineral", "Agua Purificada","Agua Saborizada", "Isotónicos Light", "Isotónicos Regular", "Colas Light", "Colas Regular")) %>%
group_by(Año, Segmento_Det) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ggplot(ventas_aguas_refrescos, aes(x = Año, y = Ventas_Totales, color = Segmento_Det)) +
geom_line() +
geom_point() +
labs(title = "Comparación de Ventas: Agua vs. Refrescos vs. Bebidas Isotónicas",
x = "Año",
y = "Ventas Totales")
*Respuesta: las ventas de agua purificada no han aumentado en
relacio2n a refrescos o bebidas isotónicas. Puede ser por la persepción
que el agua no tiene valor agregado en la preparación y el azúcar en la
receta hace de los refrescos la opción preferida de los consumidores
mexicanos. En 2019 las ventas totales de agua purificada no superan
50,000 unidades, mientras que la Coca-Cola vendio en su mes más alto
630,000 unidades (11 veces más que el agua)
¿Puede decirse que la venta mensual de agua está relacionada con la venta mensual de refrescos en los últimos 4 años?
ventas_totales_ayr <- df7 %>%
filter(Segmento_Det == c("Agua Purificada", "Colas Regular")) %>%
group_by(Segmento_Det, Año) %>%
summarise(Ventas_Totales = sum(Ventas))
## `summarise()` has grouped output by 'Segmento_Det'. You can override using the
## `.groups` argument.
ggplot(ventas_totales_ayr, aes(x = Año, y = Ventas_Totales, group= Segmento_Det, color = Segmento_Det)) +
geom_line() +
geom_point() +
labs(title = "Centas Totales por Segmento",
x = "Año",
y = "Ventas Totales (qty)",
color="Segmento")
Respuesta:La venta de agua y refrescos se incrementan en los
mismos meses, y a través de los años, pero no se puede concluir que un
incremento cause el otro. Los meses calurosos y el crecimiento de ;a
poblacio2n hace que las ventas se incrementen en en las bebidas, sean
agua o refresco. En la gráfica obtenida se observa un incremento año con
año en la venta de agua y también de refrescos.
¿Puede decirse que la venta mensual de agua está relacionada con la venta mensual de refrescos en los últimos 4 años?
ventas_relacion <- df7 %>%
filter(Segmento_Det == c("Agua Mineral", "Agua Purificada","Colas Light", "Colas Regular")) %>%
group_by(Año, Número_de_Mes, Segmento_Det) %>%
summarise(Ventas_Relacion = sum(Ventas))
## `summarise()` has grouped output by 'Año', 'Número_de_Mes'. You can override
## using the `.groups` argument.
ggplot(ventas_relacion, aes(x = Número_de_Mes, y = Ventas_Relacion, color = Segmento_Det, group = interaction(Segmento_Det, Año))) +
geom_point() +
geom_line() + # Añadido para conectar los puntos
facet_wrap(~ Año, ncol = 1, scales = "free_y") + # Usar facet_wrap para separar por Año
labs(title = "Relación entre Ventas Mensuales de Agua y Refrescos en los Últimos 4 Años",
x = "Número de Mes",
y = "Ventas") +
theme_minimal()
¿A cuánto ascienden las ventas esperadas para el 2020 en la Coca Cola de 500 ml NR Vidrio?
ventas_coca_vidirio <- df7 %>%
filter(Marca == "Coca-Cola" & Presentacion =="500 ml NR Vidrio") %>%
group_by(Año, Número_de_Mes) %>%
summarise(Ventas_Totales = sum(Ventas)) %>%
filter(Ventas_Totales !=0) %>% #para quitar los renglones con 0
filter(Año !=2016)
## `summarise()` has grouped output by 'Año'. You can override using the `.groups`
## argument.
ts <- ts(data=ventas_coca_vidirio$Ventas_Totales, start=c(2016,1), frequency=12)
arima <- auto.arima(ts, D=1)
arima
## Series: ts
## ARIMA(1,1,0)(0,1,0)[12]
##
## Coefficients:
## ar1
## -0.4027
## s.e. 0.2049
##
## sigma^2 = 57408996: log likelihood = -196.26
## AIC=396.52 AICc=397.27 BIC=398.41
summary(arima)
## Series: ts
## ARIMA(1,1,0)(0,1,0)[12]
##
## Coefficients:
## ar1
## -0.4027
## s.e. 0.2049
##
## sigma^2 = 57408996: log likelihood = -196.26
## AIC=396.52 AICc=397.27 BIC=398.41
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 949.7101 5682.654 3153.896 1.188503 7.536496 0.3461426 -0.09295723
pronostico <- forecast(arima, level=95, h=16)
pronostico
## Point Forecast Lo 95 Hi 95
## Sep 2018 59483.15 44632.75 74333.55
## Oct 2018 54715.84 37417.93 72013.74
## Nov 2018 53121.36 32471.41 73771.32
## Dec 2018 61192.28 38112.18 84272.37
## Jan 2019 65066.26 39626.84 90505.68
## Feb 2019 72468.65 44931.45 100005.85
## Mar 2019 77199.62 47690.81 106708.43
## Apr 2019 60376.06 29027.99 91724.14
## May 2019 92662.27 59573.73 125750.81
## Jun 2019 81915.99 47175.33 116656.65
## Jul 2019 80265.70 43947.52 116583.89
## Aug 2019 81752.82 43923.02 119582.62
## Sep 2019 83678.92 38092.03 129265.82
## Oct 2019 78911.63 29345.94 128477.32
## Nov 2019 77317.15 23142.80 131491.50
## Dec 2019 85388.07 27323.47 143452.66
plot(pronostico, main="Pronóstico de Ventas para el 2020 de Coca Cola 500 ml NR Vidrio", xlab="Año", ylab="Ventas (QTY)")
Respuesta: Las ventas esperadas de Coca-Cola de 500 ml NR Vidrio
para 2020 oscilan mensualmente entre 45,000 y 65,000 unidades, con una
confiabilidad del 95%
ventas_mensuales <- df7 %>%
group_by(Año, Mes, Segmento_Det) %>%
summarise(Ventas_Totales = sum(Ventas), .groups = 'drop')
# Separar las ventas de agua y refrescos en dos dataframes
ventas_agua <- ventas_mensuales %>% filter(Segmento_Det %in% c("Agua Mineral", "Agua Purificada"))
ventas_refrescos <- ventas_mensuales %>% filter(Segmento_Det %in% c("Colas Light", "Colas Regular"))
correlacion <- cor(ventas_agua$Ventas_Totales, ventas_refrescos$Ventas_Totales)
ggplot() +
geom_line(data = ventas_agua, aes(x = interaction(Año, Mes), y = Ventas_Totales, group = 1, colour = "Agua")) +
geom_line(data = ventas_refrescos, aes(x = interaction(Año, Mes), y = Ventas_Totales, group = 1, colour = "Refrescos")) +
labs(title = "Comparación de Ventas Mensuales: Agua vs. Refrescos",
x = "Tiempo",
y = "Ventas Totales") +
theme_minimal() +
scale_colour_manual(values = c("Agua" = "blue", "Refrescos" = "red"))
print(correlacion)
## [1] 0.9495664