Objetivo do Relatório: Este relatório tem o objetivo de explorar os dados fornecidos para identificar padrões, detectar outliers e compreender a estrutura do dataset.
Descrição do Dataset: A base de dados utilizada
neste relatório é a base_café.xlsx, que contém informações
sobre dados relacionados ao consumo de café e visam gerar insights sobre
a venda de café de uma cafeteria fictícia.
Legenda das variáveis: As variáveis presentes na base de dados são:
# Pacotes necessários
knitr::opts_chunk$set(echo = TRUE)
library(readxl)
library(tidyverse)
library(ggplot2)
library(ggthemes)
library(tidyr)
library(stringi)
# Carregando o dataset
arquivo <- "C:/Users/andrezza.freire/Documents/ESPM/4 Semestre/Analise Exploratoria/Atividade1_TI4A-1.xlsx"
# Estrutura inicial dos dados
dado_b <- read_excel(arquivo, sheet = "Café")
# Exclusão de valores n/a
dados <- drop_na(dado_b)
# troca dos nomes das variáveis para melhor entendimento da base
dados <- dados %>%
rename(idade = Q1,
genero = Q2,
cafe_s_n = Q3,
tp_cafe = Q4,
best_cafe = Q5,
cafe_pan = Q6,
freq_cafe = Q7,
depen_cafe = Q8,
preco_cafe = Q9)
# Estrutura inicial dos dados
str(dados)
## tibble [90 × 10] (S3: tbl_df/tbl/data.frame)
## $ Carimbo de data/hora: POSIXct[1:90], format: "2022-04-13 15:00:21" "2022-04-13 15:10:18" ...
## $ idade : num [1:90] 21 23 24 18 19 21 24 19 52 19 ...
## $ genero : chr [1:90] "Feminino" "Não Binário" "Não Binário" "Masculino" ...
## $ cafe_s_n : chr [1:90] "Sim" "Sim" "Sim" "Sim" ...
## $ tp_cafe : chr [1:90] "Cappuccino, Café gelado, Macchiato" "Café Puro, Café Expresso, Café Curto" "Cappuccino, Macchiato" "Cappuccino, Café com leite, Café gelado" ...
## $ best_cafe : chr [1:90] "Cappuccino" "Café Expresso" "Cappuccino" "Café gelado" ...
## $ cafe_pan : chr [1:90] "Sim" "Sim" "Continuou igual" "Continuou igual" ...
## $ freq_cafe : chr [1:90] "Frequentemente" "Sempre" "Frequentemente" "As vezes" ...
## $ depen_cafe : num [1:90] 3 5 3 3 5 3 4 3 5 4 ...
## $ preco_cafe : chr [1:90] "De R$2,51 a R$4,50" "De R$6,51 a R$8,50" "De R$4,51 a R$6,50" "Mais que R$8,51" ...
names(dados)
## [1] "Carimbo de data/hora" "idade" "genero"
## [4] "cafe_s_n" "tp_cafe" "best_cafe"
## [7] "cafe_pan" "freq_cafe" "depen_cafe"
## [10] "preco_cafe"
Nesta seção, realizaremos uma análise exploratória dos dados para compreender melhor os padrões de consumo de café e outros aspectos relevantes.
dados_processados <- dados %>%
mutate(best_cafe = stri_trans_general(best_cafe, "Latin-ASCII")) %>%
mutate(best_cafe = tolower(best_cafe)) %>%
separate_rows(best_cafe, sep = ", ") %>%
count(best_cafe, sort = TRUE)
ggplot(dados_processados, aes(x = reorder(best_cafe, n), y = n)) +
geom_bar(stat = "identity", fill = "gray") +
labs(title = "Preferências de Café", x = "Tipo de Café", y = "Contagem") +
theme_minimal() +
coord_flip()
# Selecionar as variáveis de interesse
dados2 <- dados %>%
select(idade, genero)
# Calcular mediana, variância e desvio padrão por gênero
resumo_estatistico <- dados2 %>%
group_by(genero) %>%
summarise(
Mediana = median(idade),
Variancia = var(idade),
Desvio_Padrao = sd(idade)
)
# Exibir resumo estatístico
print(resumo_estatistico)
## # A tibble: 4 × 4
## genero Mediana Variancia Desvio_Padrao
## <chr> <dbl> <dbl> <dbl>
## 1 Feminino 19 59.6 7.72
## 2 Masculino 20 37.1 6.09
## 3 Não Binário 22 5.47 2.34
## 4 Prefiro não informar 18.5 0.5 0.707
# Criar o gráfico de boxplot
ggplot(dados2, aes(x = genero, y = idade, fill = genero)) +
geom_boxplot() +
labs(title = "Boxplot de Idade por Gênero",
subtitle = "Distribuição das idades com base no gênero",
y = "Idade",
x = "Gênero",
fill = "Gênero") +
theme_minimal()
dados %>%
select(freq_cafe, depen_cafe) %>%
ggplot(aes(x = freq_cafe, y = depen_cafe)) +
geom_jitter(color = "blue") +
labs(title = "Frequência de Consumo vs. Nível de Dependência",
x = "Frequência de Consumo (dias por semana)",
y = "Nível de Dependência (escala de 1 a 5)") +
theme_minimal()
Esses gráficos fornecem uma visão clara sobre as preferências e comportamentos dos consumidores, permitindo que a cafeteria possa ajustar suas estratégias com base nesses insights.