O Brazilian E-Commerce Public Dataset foi disponibilizado publicamente pela Olist, maior loja de departamentos dos marketplaces brasileiros, em parceria com a Bling, plataforma de gestão comercial. O conjunto reúne informações reais de aproximadamente 100.000 pedidos realizados entre 2016 e 2018, abrangendo dados de clientes, vendedores, produtos, pagamentos, frete e avaliações.
Os dados estão distribuídos em 9 tabelas relacionais que cobrem todo o ciclo de uma compra — do momento do pedido à avaliação pós-entrega — e permitem explorar padrões de consumo, preferências regionais, comportamento de pagamento e satisfação do consumidor brasileiro.
Este dashboard foi produzido como atividade da disciplina de Probabilidade e Estatística do curso de Análise e Desenvolvimento de Sistemas do IFRO Campus Ji-Paraná, com o objetivo de demonstrar a identificação e análise dos quatro tipos fundamentais de variáveis estatísticas: qualitativas nominais, qualitativas ordinais, quantitativas discretas e quantitativas contínuas.
Guilherme Tavares
Estudante de Análise e Desenvolvimento de Sistemas
IFRO Campus Ji-Paraná — 5º Semestre
Este trabalho foi desenvolvido como parte das atividades da disciplina de Probabilidade e Estatística, com foco na identificação e visualização de tipos de variáveis a partir de dados reais do mercado de e-commerce brasileiro.
O gráfico de barras acima exibe a distribuição dos pedidos por modalidade de pagamento, uma variável qualitativa nominal — suas categorias não possuem ordem natural entre si. O cartão de crédito é amplamente predominante, respondendo por mais de 73% das transações, refletindo a forte cultura do parcelamento no Brasil. O boleto bancário aparece em segundo lugar, com cerca de 19% das ocorrências, evidenciando que uma parcela significativa dos consumidores ainda opta por meios de pagamento tradicionais. Vouchers e cartão de débito têm participação marginal no total de transações registradas.
As categorias de produto constituem outra variável qualitativa nominal relevante do dataset. Cama, Mesa e Banho lidera o ranking, seguida de perto por Esportes e Lazer e Móveis e Decoração, revelando um perfil de consumo voltado predominantemente para o lar. A presença de Computadores e Acessórios e Telefonia entre as dez primeiras evidencia também uma demanda expressiva por tecnologia, coerente com o crescimento do e-commerce no país no período de 2016 a 2018.
A distribuição geográfica dos clientes é uma variável qualitativa nominal que revela fortes assimetrias regionais no e-commerce brasileiro. São Paulo concentra mais de 40% de todos os pedidos, um reflexo direto de sua posição como maior economia do país e centro logístico. Rio de Janeiro e Minas Gerais aparecem em seguida, consolidando o Sudeste como região dominante. A presença discreta de estados do Norte e Centro-Oeste aponta para oportunidades de expansão nessas regiões, onde o comércio eletrônico ainda apresentava menor penetração no período analisado.
O status do pedido é uma variável qualitativa nominal que descreve a etapa do processo logístico em que cada compra se encontra. A esmagadora maioria — 96,5% — dos pedidos foi entregue com sucesso, o que indica alta eficiência operacional da plataforma. A taxa de cancelamento gira em torno de 0,6%, valor relativamente baixo para um marketplace de grande escala. Os demais status (faturado, em processamento, enviado) representam pedidos capturados em diferentes momentos do ciclo de entrega ao longo da coleta dos dados.
A nota de avaliação dos pedidos (review_score) é uma
variável qualitativa ordinal: seus valores — de 1 a 5
estrelas — possuem uma hierarquia clara, em que 5 representa maior
satisfação e 1 representa insatisfação. A distribuição revela um
comportamento fortemente assimétrico à direita: mais de 57% dos
clientes atribuíram nota máxima (5 estrelas), enquanto notas
intermediárias (2 e 3) têm menor frequência. Esse padrão é típico de
plataformas de marketplace, onde consumidores satisfeitos tendem a
avaliar com maior frequência do que os indiferentes.
O gráfico de frequência cumulativa reforça a leitura ordinal dos dados: cada ponto representa o total de avaliações com nota menor ou igual ao valor indicado no eixo horizontal. A curva exibe um crescimento acentuado entre as notas 4 e 5, confirmando a concentração de avaliações positivas. Esse tipo de visualização é especialmente adequado para variáveis ordinais por respeitar a ordem entre as categorias e permitir calcular, de forma intuitiva, a proporção de pedidos avaliados acima ou abaixo de qualquer nota de corte.
O número de parcelas escolhido em cada pagamento é uma variável quantitativa discreta: assume apenas valores inteiros e contáveis, sem admitir frações. O gráfico evidencia uma concentração expressiva em 1 parcela — pagamentos à vista — seguida de queda progressiva até 12 parcelas. Esse comportamento é coerente com a prevalência do boleto e de compras de menor valor, que tendem a ser quitadas de uma só vez. À medida que o número de parcelas aumenta, a frequência cai sensivelmente, o que indica que o parcelamento em muitas vezes é mais comum em compras de maior valor.
A quantidade de fotos cadastradas em um anúncio também é uma variável quantitativa discreta, pois representa uma contagem inteira de imagens. A maioria absoluta dos produtos — mais de 60% — possui apenas 1 foto, o que pode refletir tanto uma estratégia de cadastro mais rápido por parte dos vendedores quanto uma limitação da plataforma no período. Produtos com mais fotos tendem a ter maior apelo visual e taxas de conversão mais elevadas, tornando essa variável relevante para análises de desempenho de vendas.
O número de itens em um pedido é uma variável quantitativa discreta que revela o comportamento de compra dos consumidores. A grande maioria dos pedidos — mais de 88% — contém apenas 1 item, o que sugere que o e-commerce brasileiro no período era dominado por compras unitárias e pontuais, com pouco comportamento de “carrinho cheio”. Pedidos com 2 ou mais itens existem, mas decrescem rapidamente em frequência, indicando que os clientes tendiam a realizar múltiplas compras separadas em vez de consolidá-las em um único pedido.
A sequência de pagamentos por pedido é outra variável quantitativa discreta, indicando quantos registros de pagamento estão associados a uma mesma compra. A esmagadora maioria dos pedidos possui apenas 1 forma de pagamento, mas há casos com 2, 3 ou mais — o que ocorre quando o cliente combina, por exemplo, um voucher com cartão de crédito. Essa variável é útil para entender a complexidade das transações e a adoção de meios de pagamento complementares na plataforma.
O preço de um produto é uma variável quantitativa contínua, podendo assumir qualquer valor real positivo dentro de um intervalo. O histograma revela uma distribuição fortemente assimétrica à direita — a maioria dos produtos está concentrada na faixa de R$ 0 a R$ 200, com a mediana em torno de R$ 74,99, enquanto uma cauda longa indica a presença de produtos de alto valor no catálogo. Esse comportamento é típico de marketplaces generalistas, onde convivem produtos de consumo cotidiano de baixo custo e itens de maior valor agregado, como eletrônicos e móveis.
O valor do frete é igualmente uma variável quantitativa contínua. A distribuição é menos assimétrica que a de preços, concentrando-se entre R$ 10 e R$ 30, com mediana próxima de R$ 16,26. A curva apresenta uma cauda à direita associada a fretes de itens pesados ou de regiões mais distantes dos centros logísticos, como Norte e Nordeste. A dispersão do frete é relevante para entender a viabilidade do e-commerce em diferentes regiões do Brasil, onde o custo de envio pode representar uma parcela significativa do valor total do pedido.
O boxplot é uma ferramenta especialmente útil para variáveis quantitativas contínuas porque resume, em uma única visualização, a mediana, os quartis inferior e superior (caixa), e a dispersão dos dados (bigodes). A comparação entre preço e frete revela que o preço possui variabilidade muito maior, com uma caixa mais ampla e outliers mais distantes. O frete, por outro lado, apresenta distribuição mais compacta, sugerindo que a plataforma conseguia manter os custos de envio relativamente controlados para a maior parte das transações.
O gráfico de densidade é uma alternativa suavizada ao histograma, mostrando a distribuição contínua do valor total dos pagamentos. A curva evidencia um pico pronunciado abaixo de R$ 100, com a mediana em torno de R$ 100, e uma cauda longa à direita representando compras de maior valor. Esse formato de distribuição — denominado assimetria positiva — é característico de variáveis financeiras em contextos de varejo, onde a maioria das transações é de pequeno valor e compras de alto ticket são menos frequentes, porém existentes.
Este gráfico cruza duas variáveis de tipos diferentes: método de pagamento (qualitativa nominal) e nota de avaliação (qualitativa ordinal, aqui agregada como média). O resultado revela que os níveis de satisfação são surpreendentemente similares entre os métodos — todos entre 4,0 e 4,2 — sugerindo que a forma de pagamento em si não é um fator determinante para a experiência do cliente. Pequenas diferenças podem estar associadas ao perfil de compra típico de cada modalidade: usuários de voucher, por exemplo, tendem a estar em situações de troca ou compensação, o que pode influenciar a percepção da experiência.
Este gráfico cruza estado do cliente (qualitativa nominal) com valor do frete (quantitativa contínua). Os estados com fretes mais elevados tendem a ser aqueles mais distantes dos principais centros logísticos do Sudeste, como RR, AP e AM, no Norte do Brasil. Esse padrão reflete a desigualdade logística do país, onde o custo de entrega pode representar uma barreira real ao acesso ao e-commerce. A análise é relevante para estratégias de precificação de frete e expansão de cobertura logística por parte dos vendedores da plataforma.
O cruzamento entre categoria de produto (qualitativa nominal) e preço médio (quantitativa contínua) revela quais segmentos concentram produtos de maior valor agregado. Categorias como computadores, eletrodomésticos e instrumentos musicais tendem a ter tickets médios mais elevados, enquanto categorias de consumo rápido, como perfumaria e papelaria, apresentam preços mais baixos. Essa análise é valiosa para vendedores que buscam entender o posicionamento de preço de cada segmento dentro do marketplace.
Este gráfico combina uma variável temporal com a nota de avaliação (qualitativa ordinal), observando sua evolução mês a mês. A linha vermelha tracejada representa a média geral do período. Oscilações mensais são esperadas em função de sazonalidade, campanhas promocionais e eventos como Black Friday, que podem aumentar o volume de pedidos e pressionar a logística. A análise temporal é especialmente útil para identificar períodos de queda na satisfação e correlacioná-los com eventos externos ao dataset.