1. Introdução

2. Carregamento e Preparação dos Dados

# Pacotes necessários

knitr::opts_chunk$set(echo = TRUE)
library(readxl)
library(tidyverse)
library(ggplot2)
library(ggthemes)
library(tidyr)
library(stringi)
# Carregando o dataset
arquivo <- "C:/Users/andrezza.freire/Documents/ESPM/4 Semestre/Analise Exploratoria/Atividade1_TI4A-1.xlsx"
# Estrutura inicial dos dados

dado_b <- read_excel(arquivo, sheet = "Café")

# Exclusão de valores n/a
dados <- drop_na(dado_b)

# troca dos nomes das variáveis para melhor entendimento da base 
dados <- dados %>%
  rename(idade = Q1,
         genero = Q2,
         cafe_s_n = Q3,
         tp_cafe = Q4,
         best_cafe = Q5,
         cafe_pan = Q6,
         freq_cafe = Q7,
         depen_cafe = Q8,
         preco_cafe = Q9)


# Estrutura inicial dos dados
str(dados)
## tibble [90 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Carimbo de data/hora: POSIXct[1:90], format: "2022-04-13 15:00:21" "2022-04-13 15:10:18" ...
##  $ idade               : num [1:90] 21 23 24 18 19 21 24 19 52 19 ...
##  $ genero              : chr [1:90] "Feminino" "Não Binário" "Não Binário" "Masculino" ...
##  $ cafe_s_n            : chr [1:90] "Sim" "Sim" "Sim" "Sim" ...
##  $ tp_cafe             : chr [1:90] "Cappuccino, Café gelado, Macchiato" "Café Puro, Café Expresso, Café Curto" "Cappuccino, Macchiato" "Cappuccino, Café com leite, Café gelado" ...
##  $ best_cafe           : chr [1:90] "Cappuccino" "Café Expresso" "Cappuccino" "Café gelado" ...
##  $ cafe_pan            : chr [1:90] "Sim" "Sim" "Continuou igual" "Continuou igual" ...
##  $ freq_cafe           : chr [1:90] "Frequentemente" "Sempre" "Frequentemente" "As vezes" ...
##  $ depen_cafe          : num [1:90] 3 5 3 3 5 3 4 3 5 4 ...
##  $ preco_cafe          : chr [1:90] "De R$2,51 a R$4,50" "De R$6,51 a R$8,50" "De R$4,51 a R$6,50" "Mais que R$8,51" ...
names(dados)
##  [1] "Carimbo de data/hora" "idade"                "genero"              
##  [4] "cafe_s_n"             "tp_cafe"              "best_cafe"           
##  [7] "cafe_pan"             "freq_cafe"            "depen_cafe"          
## [10] "preco_cafe"

4. Análise Exploratória das Variáveis da Base

Nesta seção, realizaremos uma análise exploratória dos dados para compreender melhor os padrões de consumo de café e outros aspectos relevantes.

4.1 Gráfico de barras: Preferências de Café

dados_processados <- dados %>%
  mutate(best_cafe = stri_trans_general(best_cafe, "Latin-ASCII")) %>%  
  mutate(best_cafe = tolower(best_cafe)) %>%  
  separate_rows(best_cafe, sep = ", ") %>%  
  count(best_cafe, sort = TRUE)             

ggplot(dados_processados, aes(x = reorder(best_cafe, n), y = n)) +
  geom_bar(stat = "identity", fill = "gray") +
  labs(title = "Preferências de Café", x = "Tipo de Café", y = "Contagem") +
  theme_minimal() +
  coord_flip()  

  • Resumo: O gráfico de barras acima mostra a frequência de preferências por tipos de café entre os clientes da cafeteria. Cada barra representa um tipo de café, enquanto o comprimento da barra indica a quantidade de pessoas que mencionaram aquele tipo como favorito. A partir da análise, pode-se observar que os três cafés mais populares entre os consumidores são cappuccino, café com leite e café gelado. Esses tipos são os mais mencionados, sugerindo que a cafeteria pode concentrar suas ofertas ou promoções nesses produtos para atender melhor os gostos dos clientes.

4.2 Gráfico de boxplot: Idade por Gênero

# Selecionar as variáveis de interesse
dados2 <- dados %>%
  select(idade, genero)

# Calcular mediana, variância e desvio padrão por gênero
resumo_estatistico <- dados2 %>%
  group_by(genero) %>%
  summarise(
    Mediana = median(idade),
    Variancia = var(idade),
    Desvio_Padrao = sd(idade)
  )

# Exibir resumo estatístico
print(resumo_estatistico)
## # A tibble: 4 × 4
##   genero               Mediana Variancia Desvio_Padrao
##   <chr>                  <dbl>     <dbl>         <dbl>
## 1 Feminino                19       59.6          7.72 
## 2 Masculino               20       37.1          6.09 
## 3 Não Binário             22        5.47         2.34 
## 4 Prefiro não informar    18.5      0.5          0.707
# Criar o gráfico de boxplot
ggplot(dados2, aes(x = genero, y = idade, fill = genero)) +
  geom_boxplot() +
  labs(title = "Boxplot de Idade por Gênero",
       subtitle = "Distribuição das idades com base no gênero",
       y = "Idade",
       x = "Gênero",
       fill = "Gênero") +
  theme_minimal()

  • Resumo: O boxplot exibe a distribuição das idades dos consumidores por gênero (masculino e feminino). As caixas no gráfico mostram o intervalo interquartil (50% do meio das idades) para cada gênero, enquanto as linhas verticais (bigodes) indicam a variação fora deste intervalo, sem contar outliers. A mediana de cada grupo é indicada por uma linha no centro de cada caixa. A partir da análise, observamos que as idades são relativamente similares entre os gêneros, sem uma diferença significativa maior que 10 anos, o que sugere que o perfil de consumidores é bastante semelhante, independentemente do gênero.

4.3 Gráfico de dispersão: Frequência de Consumo vs. Nível de Dependência

dados %>%
  select(freq_cafe, depen_cafe) %>%
  ggplot(aes(x = freq_cafe, y = depen_cafe)) +
  geom_jitter(color = "blue") +
  labs(title = "Frequência de Consumo vs. Nível de Dependência",
       x = "Frequência de Consumo (dias por semana)",
       y = "Nível de Dependência (escala de 1 a 5)") +
  theme_minimal() 

  • Resumo: O gráfico de dispersão analisa a relação entre a frequência de consumo de café (quantidade de dias por semana que os clientes consomem café) e o nível de dependência em relação ao café (medido numa escala de 1 a 5, onde 5 indica uma dependência mais alta). Cada ponto no gráfico representa um cliente. Observa-se uma tendência onde, conforme o nível de dependência aumenta, a frequência de consumo de café também tende a ser maior. Isso sugere que os clientes com uma maior dependência tendem a comprar café com mais frequência, uma correlação relevante para identificar clientes mais habituais e potenciais para promoções de fidelização.


Esses gráficos fornecem uma visão clara sobre as preferências e comportamentos dos consumidores, permitindo que a cafeteria possa ajustar suas estratégias com base nesses insights.