Iniciaremos uma avaliação de alguns dados da empresa Pelican Stores, com o intuito de identificar quem são os principais clientes (idade, sexo, tipo de cartão, etc.), quando possível, avaliar o desempenho das vendas por produto, loja e forma de pagamento, verificar o impacto de descontos e se há recorrência de compras, em caso de dados suficientes definir um painel com indicadores-chave (KPI) para tomada de decisão e estimar vendas futuras.
#Lendo os dadospelican <-read.csv('PelicanStores.CSV', sep =';', dec =',')#View(pelican)pelican <- pelican |>mutate(across(where(is.character), as.factor))str(pelican)
Como estamos tratando de dados em que sua estrutura character, precisamos fazer uma manipulação e transformar em factor.
2 Análise gráfica dos dados
ggplot(data = pelican, aes(x = Idade)) +geom_histogram(binwidth =7, fill ="green", alpha =0.7) +labs(title ="Perfil do cliente por Idade", x ="Idade", y ="Frequência") +theme_minimal()
Como observamos, a idade dos clientes dessa loja esta entre 30 à 60 anos, com uma frequência maior entre os 35 e 55.
ggplot(vendas_tipo, aes(x = Tipo.de.Cliene, y = Vendas, fill = Tipo.de.Cliene)) +geom_bar(stat ="identity") +labs(title ="Vendas Líquidas por Tipo de Cliente",x ="Tipo de Cliente",y ="Vendas Líquidas ($)") +theme_minimal()
Temos observado que para esta loja, as vendas de itens em promoção, tem sido maior que as vendas regulares.
ggplot(vendas_metodo, aes(x = Metodo.de.Pagamento, y = Vendas, fill = Metodo.de.Pagamento)) +geom_bar(stat ="identity") +labs(title ="Vendas Líquidas por Metodo de Pagamento",x ="Metodo de Pagamento",y ="Vendas Líquidas ($)") +theme_minimal()
Neste vemos que quase todas as vendas ocorreram com clientes que utilizando o Proprietary Card para efetuar suas compras.
ggplot(vendas_genero, aes(x = Genero, y = Vendas, fill = Genero)) +geom_bar(stat ="identity") +labs(title ="Vendas Líquidas por Gênero do Cliente",x ="Genero do Cliente",y ="Vendas Líquidas ($)") +theme_minimal()
As mulheres tendem a comprar mais que os homens.
ggplot(data = pelican, aes(x = Genero, fill = Metodo.de.Pagamento)) +geom_bar(position ="dodge") +labs(title ="Avaliando a forma de pagamento por gênero",x ="Gênero", y ="Contagem") +theme_minimal()
Aqui já podemos observar que mais da metade das mulheres utilizam o cartão Proprietary Card, sendo elas as que mais compraram.
ggplot(data = pelican, aes(x = Tipo.de.Cliene, fill = Metodo.de.Pagamento)) +geom_bar(position ="dodge") +labs(title ="Avaliando pagamento por Tipo de Cliente",x ="Tipo de Cliente", y ="Contagem") +theme_minimal()
Como já observado quando avaliamos o metodo de pagamento pelo Tipo, vimos que os clientes Promotional gastam mais no Propritary Card, mas, isso também se repete nos clientes Regular.
Talvez por ter um volume maior de clientes com esse tipo de cartão, explica o volume de itens, valor gasto…
ggplot(data = pelican, aes(x = Genero, fill = Numero.de.Itens.Comprados)) +geom_bar(position ="dodge") +labs(title ="Quantidade de Produto por Genero",x ="Gênero", y ="Contagem") +theme_minimal()
Os itens 1 e 2, foram os mais comprados entre os generos.
ggplot(data = pelican, aes(x = Tipo.de.Cliene, fill = Numero.de.Itens.Comprados)) +geom_bar(position ="dodge") +labs(title ="Quantidade de Produto por Tipo",x ="Tipo de Cliente", y ="Contagem") +theme_minimal()
Quando olhamos somente o tipo do cliente pelo item, o cenário de compra continua o mesmo, itens 1 e 2 sendo o mais comprado, dentre eles o 2 é o item mais procurado.
ggplot(data = pelican, aes(x = Metodo.de.Pagamento, fill = Numero.de.Itens.Comprados)) +geom_bar(position ="dodge") +labs(title ="Quantidade de Produto por Pagamento",x ="Metodo de Pagamento", y ="Contagem") +theme_minimal()
Agora quando pegamos esses itens e olhamos para o metodo de pagamento, vemos que o item 1 se sobresai no cartão Proprietary Card.
Para um modelo de KNN, o que obteve melhor resultado foi o com 0,76% da taxa de acerto.
##Conclusão
Para o tipo de dados que estamos trabalhando, havaria um modelo eficiente, ou para a quantidade de dados que estamos trabalhando a arvore de decisão, se torna mais eficiente, visto que já conseguimos identificar ou traçar um tipo de perfil, modelo do tipo KNN, necessita de mais variaveis para fazer um comparativo e validações melores, não sendo ele um modelo ideal para estes dados.