Relatório das Análises de Produção e Venda de Cervejas em Bangalore de 2020 a 2024

Autor
Afiliação

Miqueias Teixeira Silva, Bianca Lopes Lang, Lucas Magalhães Ast, Gabriel Cordeiro Chileider e Júlia Zorzo Ferreira.

Data de Publicação

18 de novembro de 2024

Resumo

Este relatório apresenta uma análise abrangente do dataset “Brewery Operations and Market Analysis Dataset”, o qual fornece dados de produção, qualidade e vendas de cervejas artesanais na cidade de Bangalore, Índia, no período de janeiro de 2020 a janeiro de 2024. Com o intuito de fomentar o interesse e o investimento de empresários no ramo de cervejarias artesanais, o estudo visa fornecer insights sobre esse mercado, a partir de uma análise exploratória dos dados. Durante a análise foram investigadas, através de amostras e o uso de estatísticas descritivas, as correlações entre diferentes variáveis e as tendências de venda, além da visualização de gráficos que associam os dados. Como resultado, podemos compreender as correlações moderadas e fortes entre as variáveis, por exemplo, o que o estilo da cerveja (Beer_Style) influencia no faturamento (Total_Sales), ou então a relação entre o Local de produção (Location) e o formato das cervejas (SKU).

Palavras-chave

Análise de Dados, Exemplo

Introdução

O conjunto de dados intitulado Brewery Operations and Market Analysis Dataset (Ankur, 2024) oferece dados detalhados sobre as operações de uma cervejaria entre os anos de 2020 e 2024, na cidade de Bangalore, Índia. A base de dados, inicialmente, conta com 22 variáveis e 10 milhões de observações. As variáveis presentes, em seus nomes originais, são:

  • Batch_ID - um identificador único para cada lote de cerveja produzido;
  • Brew_Date - a data em que a cerveja foi produzida (incluindo o horário)
  • Beer_Style - o estilo da cerveja produzida, por exemplo, Stout ou Ale.
  • SKU - um identificador único para cada tipo de cerveja produzida, por exemplo, garrafa ou lata.
  • Location - A localização em que a cerveja foi produzida, são bairros de Bangalore.
  • Fermentation_Time - o tempo de fermentação da cerveja, medido em dias.
  • Temperature - A temperatura média (em Celsius) mantida durante o processo de fermentação.
  • pH_level - O nível de pH da cerveja produzida.
  • Gravity - Uma medida da densidade da cerveja em comparação com a água, indicando o teor alcoólico potencial.
  • Alcohol_Content - A porcentagem de álcool por volume na cerveja.
  • Bitterness - A amargura da cerveja, medida em Unidades Internacionais de Amargor (IBU).
  • Color - A cor da cerveja medida usando o Método de Referência Padrão (SRM).
  • Ingredient_Ratio - A proporção de malte e lúpulo usada na produção da cerveja em relação a quantidade de água.
  • Volume_Produced - O volume de cerveja produzido no lote, medido em litros.
  • Total_Sales - O total de vendas geradas pelo lote, expresso em uma unidade monetária.
  • Quality_Score - Uma pontuação geral de qualidade atribuída ao lote de cerveja, avaliada de 0 a 10.
  • Brewhouse_Efficiency - A eficiência do processo de produção, expressa como uma porcentagem.
  • Loss_During_Brewing - A porcentagem de perda de volume durante o processo de produção.
  • Loss_During_Fermentation - A porcentagem de perda de volume durante o processo de fermentação.
  • Loss_During_Bottling_Kegging - A porcentagem de perda de volume durante o processo de engarrafamento ou envasamento.

Além das variáveis apresentadas, para fazer uma análise exploratória adcionamos as variáveis a seguir:

  • Preço_litro - Preço por litro de cerveja.
  • Mes - Mês da produção.
  • Ano - Ano da produção
  • Grain - Proporção/porcentagem de Malte em relação a quantidade de água.
  • Hop - Proporção/porcentagem de Lúpulo em relação a quantidade de água.

Na próxima seção daremos mais detalhes sobre o motivo dessas variáveis terem sido adicionadas. Além disso, apresentaremos os objetivos do estudo e a metodologia utilizada para a análise dos dados.

Materiais e Métodos

Após fazer o download da base de dados encontrada em (Ankur, 2024), realizamos a leitura dos dados e a criação das novas variáveis já citadas. Para isso, utilizamos a linguagem de programação R e os pacotes data.table, tidyverse, magrittr, dentre outros.

Código
# Função para carregar pacotes
load_packages <- function(packages) {
  for (package in packages) {
    if (!require(package, character.only = TRUE, quietly = TRUE)) {
      cat(paste("Instalando pacote:", package, "\n"))
      install.packages(package, dependencies = TRUE)
      library(package, character.only = TRUE)
    }
  }
}

# Lista de pacotes necessários
packages <- c(
  "tidyverse",
  "data.table",
  "magrittr",
  "corrplot",
  "shiny",
  "lubridate",
  "scales",
  "gridExtra",
  "modelr",
  "broom",
  "car",
  "ggpubr",
  "viridis"
)

# Carregar pacotes
load_packages(packages)

Para ler os dado:

dados <- fread(“99_dados/brewery/brewery_data_complete_extended.csv”)

Para criar as novas variáveis:

  • Adcionando a variável Preço_litro: dados <- dados %>% mutate(Preco_Litro = Total_Sales / Volume_Produced)

  • Adcionando a variável Mes dados\(Mes <- month(dados\)Brew_Date)

  • Adcionando a variável Ano dados\(Ano <- year(dados\)Brew_Date)

  • Criando as colunas de Grain e Hop:

dados[, c(“water”, “grain”, “hop”) := tstrsplit(Ingredient_Ratio, “:”, type.convert = TRUE) ]

dados\(water <- NULL dados\)grain <- dados\(grain * 100 dados\)hop <- dados$hop * 100

Referências