Este relatório apresenta uma análise abrangente do dataset “Brewery Operations and Market Analysis Dataset”, o qual fornece dados de produção, qualidade e vendas de cervejas artesanais na cidade de Bangalore, Índia, no período de janeiro de 2020 a janeiro de 2024. Com o intuito de fomentar o interesse e o investimento de empresários no ramo de cervejarias artesanais, o estudo visa fornecer insights sobre esse mercado, a partir de uma análise exploratória dos dados. Durante a análise foram investigadas, através de amostras e o uso de estatísticas descritivas, as correlações entre diferentes variáveis e as tendências de venda, além da visualização de gráficos que associam os dados. Como resultado, podemos compreender as correlações moderadas e fortes entre as variáveis, por exemplo, o que o estilo da cerveja (Beer_Style) influencia no faturamento (Total_Sales), ou então a relação entre o Local de produção (Location) e o formato das cervejas (SKU).
Palavras-chave
Análise de Dados, Exemplo
Introdução
O conjunto de dados intitulado Brewery Operations and Market Analysis Dataset(Ankur, 2024) oferece dados detalhados sobre as operações de uma cervejaria entre os anos de 2020 e 2024, na cidade de Bangalore, Índia. A base de dados, inicialmente, conta com 22 variáveis e 10 milhões de observações. As variáveis presentes, em seus nomes originais, são:
Batch_ID - um identificador único para cada lote de cerveja produzido;
Brew_Date - a data em que a cerveja foi produzida (incluindo o horário)
Beer_Style - o estilo da cerveja produzida, por exemplo, Stout ou Ale.
SKU - um identificador único para cada tipo de cerveja produzida, por exemplo, garrafa ou lata.
Location - A localização em que a cerveja foi produzida, são bairros de Bangalore.
Fermentation_Time - o tempo de fermentação da cerveja, medido em dias.
Temperature - A temperatura média (em Celsius) mantida durante o processo de fermentação.
pH_level - O nível de pH da cerveja produzida.
Gravity - Uma medida da densidade da cerveja em comparação com a água, indicando o teor alcoólico potencial.
Alcohol_Content - A porcentagem de álcool por volume na cerveja.
Bitterness - A amargura da cerveja, medida em Unidades Internacionais de Amargor (IBU).
Color - A cor da cerveja medida usando o Método de Referência Padrão (SRM).
Ingredient_Ratio - A proporção de malte e lúpulo usada na produção da cerveja em relação a quantidade de água.
Volume_Produced - O volume de cerveja produzido no lote, medido em litros.
Total_Sales - O total de vendas geradas pelo lote, expresso em uma unidade monetária.
Quality_Score - Uma pontuação geral de qualidade atribuída ao lote de cerveja, avaliada de 0 a 10.
Brewhouse_Efficiency - A eficiência do processo de produção, expressa como uma porcentagem.
Loss_During_Brewing - A porcentagem de perda de volume durante o processo de produção.
Loss_During_Fermentation - A porcentagem de perda de volume durante o processo de fermentação.
Loss_During_Bottling_Kegging - A porcentagem de perda de volume durante o processo de engarrafamento ou envasamento.
Além das variáveis apresentadas, para fazer uma análise exploratória adcionamos as variáveis a seguir:
Preço_litro - Preço por litro de cerveja.
Mes - Mês da produção.
Ano - Ano da produção
Grain - Proporção/porcentagem de Malte em relação a quantidade de água.
Hop - Proporção/porcentagem de Lúpulo em relação a quantidade de água.
Na próxima seção daremos mais detalhes sobre o motivo dessas variáveis terem sido adicionadas. Além disso, apresentaremos os objetivos do estudo e a metodologia utilizada para a análise dos dados.
Materiais e Métodos
Após fazer o download da base de dados encontrada em (Ankur, 2024), realizamos a leitura dos dados e a criação das novas variáveis já citadas. Para isso, utilizamos a linguagem de programação R e os pacotes data.table, tidyverse, magrittr, dentre outros.
Código
# Função para carregar pacotesload_packages <-function(packages) {for (package in packages) {if (!require(package, character.only =TRUE, quietly =TRUE)) {cat(paste("Instalando pacote:", package, "\n"))install.packages(package, dependencies =TRUE)library(package, character.only =TRUE) } }}# Lista de pacotes necessáriospackages <-c("tidyverse","data.table","magrittr","corrplot","shiny","lubridate","scales","gridExtra","modelr","broom","car","ggpubr","viridis")# Carregar pacotesload_packages(packages)
Para ler os dado:
dados <- fread(“99_dados/brewery/brewery_data_complete_extended.csv”)
Para criar as novas variáveis:
Adcionando a variável Preço_litro: dados <- dados %>% mutate(Preco_Litro = Total_Sales / Volume_Produced)
Adcionando a variável Mes dados\(Mes <- month(dados\)Brew_Date)
Adcionando a variável Ano dados\(Ano <- year(dados\)Brew_Date)