O conjunto de dados contém informaçÔes de vendas de café ao longo de 2 anos na Aråbia Saudita, abrangendo compras de 100 clientes de 5 tipos diferentes de grãos de café. Inclui detalhes sobre quantidade, preços, descontos e vendas totais.
Colunas do Dataset:
Purchase_date: Data da compra
realizada pelo cliente (Tipo: Date)Customer_ID: Identificador Ășnico de
cada cliente (Tipo: Character/Numeric)Category: Categoria do produto
(Exemplo: Coffee Beans)Product: Tipo de café comprado
(Brazilian, Ethiopian, Colombian, Costa Rica, Guatemala)Unit_Price: Preço unitårio de cada
produto (Tipo: Numeric)Quantity: Quantidade de unidades
compradas (Tipo: Integer)Sales_Amount: Valor total das vendas
(Quantity Ă Unit Price)Used_Discount: Indica se um desconto
foi aplicado (TRUE/FALSE)Discount_Amount: Valor do desconto
aplicado (normalmente 20%)Final_Sales: Valor final das vendas
apĂłs o descontoFonte dos dados: Kaggle - Coffee Bean Sales Dataset
| Métrica | Valor |
|---|---|
| Total de Vendas | 730 vendas |
| Receita Total | $ 629,648 |
| Ticket Médio | $ 863 |
| Clientes Ănicos | 100 clientes |
VariĂĄveis Qualitativas Ordinais sĂŁo caracterĂsticas que podem ser categorizadas e ordenadas, mas cuja diferença entre as categorias nĂŁo Ă© uniforme.
Existe uma relação de ordem entre as categorias, mas a distùncia entre elas não é quantificåvel de maneira precisa.
Exemplos: - Grau de escolaridade - Classificação de qualidade - NĂveis de satisfação - No nosso dataset: Tipos de cafĂ© por origem (ordenados por frequĂȘncia)
Interpretação: Este grĂĄfico mostra a distribuição ordenada das vendas por origem do cafĂ©, permitindo identificar quais paĂses tĂȘm maior participação no mercado.
VariĂĄveis Qualitativas Nominais representam categorias que nĂŁo possuem uma ordem intrĂnseca. Cada categoria Ă© Ășnica e independente das outras.
CaracterĂsticas: - NĂŁo hĂĄ hierarquia entre as categorias - NĂŁo podem ser ordenadas logicamente - Representam diferentes tipos ou classes
Exemplos: - Cores - Estados civis - Tipos de animais - No nosso dataset: Uso de desconto (Sim/NĂŁo)
Interpretação: Este gråfico de pizza mostra a proporção de clientes que utilizaram ou não desconto em suas compras, evidenciando o comportamento de compra dos consumidores.
VariĂĄveis Quantitativas Discretas representam contagens ou valores distintos e separados por unidades fixas.
CaracterĂsticas: - Assumem valores inteiros especĂficos - Representam contagens - HĂĄ espaços definidos entre os valores possĂveis
Exemplos: - NĂșmero de alunos em uma sala - Quantidade de carros em um estacionamento - NĂșmero de filhos - No nosso dataset: Quantidade de grĂŁos vendidos por cidade
Interpretação: Este gråfico apresenta a distribuição discreta da quantidade de grãos vendidos em cada cidade, mostrando claramente as diferenças de volume de vendas entre as localidades.
VariĂĄveis Quantitativas ContĂnuas assumem valores em um intervalo contĂnuo e podem assumir qualquer valor dentro desse intervalo.
CaracterĂsticas: - Podem assumir infinitos valores - NĂŁo hĂĄ espaços entre os valores possĂveis - Geralmente envolvem mediçÔes
Exemplos: - Altura, peso, temperatura - Tempo, velocidade - Valores monetĂĄrios - No nosso dataset: Valor final das vendas
Interpretação: Este grĂĄfico mostra a distribuição contĂnua dos valores de vendas finais, revelando padrĂ”es de concentração de vendas e variabilidade entre as diferentes cidades.
MĂ©dia AritmĂ©tica Ă© uma medida de tendĂȘncia central que representa a soma dos valores de um conjunto dividida pelo nĂșmero de elementos.
FĂłrmula: \[\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\]
CaracterĂsticas: - SensĂvel a valores extremos (outliers) - Representa o âcentro de massaâ dos dados - Ătil para dados simĂ©tricos
Aplicação: Identificar o valor tĂpico de cada variĂĄvel no dataset.
Interpretação: Os losangos vermelhos indicam a mĂ©dia aritmĂ©tica de cada variĂĄvel, mostrando o valor central tĂpico para preços, quantidades, vendas e descontos.
Mediana Ă© uma medida de tendĂȘncia central que representa o valor que separa a metade inferior da metade superior de um conjunto de dados ordenado.
CaracterĂsticas: - Menos sensĂvel a outliers que a mĂ©dia - Divide os dados em duas partes iguais - Ătil para dados assimĂ©tricos - Corresponde ao 2Âș quartil (Q2)
Cålculo: Organizar os dados em ordem e encontrar o valor do meio (ou média dos dois valores centrais).
Interpretação: Os quadrados azuis mostram a mediana de cada variåvel. Note que a mediana pode diferir da média, especialmente quando hå outliers ou distribuiçÔes assimétricas.
Desvio Padrão é uma medida de dispersão que representa a média das distùncias entre cada ponto de dados e a média do conjunto.
FĂłrmula: \[s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}}\]
CaracterĂsticas: - Mede a variabilidade dos dados - Valores baixos = dados concentrados - Valores altos = dados dispersos - Mesma unidade dos dados originais
Interpretação: As barras verdes mostram o intervalo de um desvio padrão ao redor da média. Aproximadamente 68% dos dados estão dentro deste intervalo em distribuiçÔes normais.
Variùncia é uma medida de dispersão que quantifica a extensão na qual cada ponto de dados se desvia da média do conjunto.
FĂłrmula: \[s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}\]
CaracterĂsticas: - Quadrado do desvio padrĂŁo - Unidade Ă© o quadrado da unidade original - Sempre nĂŁo-negativa - Maior sensibilidade a outliers
Relação: VariĂąncia = (Desvio PadrĂŁo)ÂČ
Interpretação: As barras roxas tracejadas representam intervalos baseados na raiz quadrada da variùncia (equivalente ao desvio padrão). A variùncia mede o espalhamento dos dados ao redor da média.