HOME

Row

SOBRE OS DADOS

Olist

O Brazilian E-Commerce Public Dataset foi disponibilizado publicamente pela Olist, maior loja de departamentos dos marketplaces brasileiros, em parceria com a Bling, plataforma de gestão comercial. O conjunto reúne informações reais de aproximadamente 100.000 pedidos realizados entre 2016 e 2018, abrangendo dados de clientes, vendedores, produtos, pagamentos, frete e avaliações.

Os dados estão distribuídos em 9 tabelas relacionais que cobrem todo o ciclo de uma compra — do momento do pedido à avaliação pós-entrega — e permitem explorar padrões de consumo, preferências regionais, comportamento de pagamento e satisfação do consumidor brasileiro.

Este dashboard foi produzido como atividade da disciplina de Probabilidade e Estatística do curso de Análise e Desenvolvimento de Sistemas do IFRO Campus Ji-Paraná, com o objetivo de demonstrar a identificação e análise dos quatro tipos fundamentais de variáveis estatísticas: qualitativas nominais, qualitativas ordinais, quantitativas discretas e quantitativas contínuas.

SOBRE O AUTOR

Foto do autor

Guilherme Tavares
Estudante de Análise e Desenvolvimento de Sistemas
IFRO Campus Ji-Paraná — 5º Semestre


Este trabalho foi desenvolvido como parte das atividades da disciplina de Probabilidade e Estatística, com foco na identificação e visualização de tipos de variáveis a partir de dados reais do mercado de e-commerce brasileiro.

Row

Total de Pedidos

99.441

Pedidos Entregues

96.478

Total de Avaliações

99.224

Nota Média

4.09

Vendedores Ativos

3.095

VARIÁVEIS QUALITATIVAS NOMINAIS

Row

Distribuição por Método de Pagamento

Top 10 Categorias de Produto

Row

Sobre o gráfico: Métodos de pagamento

O gráfico de barras acima exibe a distribuição dos pedidos por modalidade de pagamento, uma variável qualitativa nominal — suas categorias não possuem ordem natural entre si. O cartão de crédito é amplamente predominante, respondendo por mais de 73% das transações, refletindo a forte cultura do parcelamento no Brasil. O boleto bancário aparece em segundo lugar, com cerca de 19% das ocorrências, evidenciando que uma parcela significativa dos consumidores ainda opta por meios de pagamento tradicionais. Vouchers e cartão de débito têm participação marginal no total de transações registradas.

Sobre o gráfico: Categorias de produto

As categorias de produto constituem outra variável qualitativa nominal relevante do dataset. Cama, Mesa e Banho lidera o ranking, seguida de perto por Esportes e Lazer e Móveis e Decoração, revelando um perfil de consumo voltado predominantemente para o lar. A presença de Computadores e Acessórios e Telefonia entre as dez primeiras evidencia também uma demanda expressiva por tecnologia, coerente com o crescimento do e-commerce no país no período de 2016 a 2018.

Row

Pedidos por Estado (Top 10)

Status dos Pedidos

Row

Sobre o gráfico: Pedidos por estado

A distribuição geográfica dos clientes é uma variável qualitativa nominal que revela fortes assimetrias regionais no e-commerce brasileiro. São Paulo concentra mais de 40% de todos os pedidos, um reflexo direto de sua posição como maior economia do país e centro logístico. Rio de Janeiro e Minas Gerais aparecem em seguida, consolidando o Sudeste como região dominante. A presença discreta de estados do Norte e Centro-Oeste aponta para oportunidades de expansão nessas regiões, onde o comércio eletrônico ainda apresentava menor penetração no período analisado.

Sobre o gráfico: Status dos pedidos

O status do pedido é uma variável qualitativa nominal que descreve a etapa do processo logístico em que cada compra se encontra. A esmagadora maioria — 96,5% — dos pedidos foi entregue com sucesso, o que indica alta eficiência operacional da plataforma. A taxa de cancelamento gira em torno de 0,6%, valor relativamente baixo para um marketplace de grande escala. Os demais status (faturado, em processamento, enviado) representam pedidos capturados em diferentes momentos do ciclo de entrega ao longo da coleta dos dados.

VARIÁVEIS QUALITATIVAS ORDINAIS

Row

Distribuição das Avaliações dos Clientes

Acúmulo de Avaliações por Nota (Distribuição Cumulativa)

Row

Sobre o gráfico: Distribuição das avaliações

A nota de avaliação dos pedidos (review_score) é uma variável qualitativa ordinal: seus valores — de 1 a 5 estrelas — possuem uma hierarquia clara, em que 5 representa maior satisfação e 1 representa insatisfação. A distribuição revela um comportamento fortemente assimétrico à direita: mais de 57% dos clientes atribuíram nota máxima (5 estrelas), enquanto notas intermediárias (2 e 3) têm menor frequência. Esse padrão é típico de plataformas de marketplace, onde consumidores satisfeitos tendem a avaliar com maior frequência do que os indiferentes.

Sobre o gráfico: Distribuição cumulativa

O gráfico de frequência cumulativa reforça a leitura ordinal dos dados: cada ponto representa o total de avaliações com nota menor ou igual ao valor indicado no eixo horizontal. A curva exibe um crescimento acentuado entre as notas 4 e 5, confirmando a concentração de avaliações positivas. Esse tipo de visualização é especialmente adequado para variáveis ordinais por respeitar a ordem entre as categorias e permitir calcular, de forma intuitiva, a proporção de pedidos avaliados acima ou abaixo de qualquer nota de corte.

VARIÁVEIS QUANTITATIVAS DISCRETAS

Row

Número de Parcelas por Pagamento

Quantidade de Fotos por Produto

Row

Sobre o gráfico: Parcelas

O número de parcelas escolhido em cada pagamento é uma variável quantitativa discreta: assume apenas valores inteiros e contáveis, sem admitir frações. O gráfico evidencia uma concentração expressiva em 1 parcela — pagamentos à vista — seguida de queda progressiva até 12 parcelas. Esse comportamento é coerente com a prevalência do boleto e de compras de menor valor, que tendem a ser quitadas de uma só vez. À medida que o número de parcelas aumenta, a frequência cai sensivelmente, o que indica que o parcelamento em muitas vezes é mais comum em compras de maior valor.

Sobre o gráfico: Fotos por produto

A quantidade de fotos cadastradas em um anúncio também é uma variável quantitativa discreta, pois representa uma contagem inteira de imagens. A maioria absoluta dos produtos — mais de 60% — possui apenas 1 foto, o que pode refletir tanto uma estratégia de cadastro mais rápido por parte dos vendedores quanto uma limitação da plataforma no período. Produtos com mais fotos tendem a ter maior apelo visual e taxas de conversão mais elevadas, tornando essa variável relevante para análises de desempenho de vendas.

Row

Itens por Pedido

Sequência de Pagamentos por Pedido

Row

Sobre o gráfico: Itens por pedido

O número de itens em um pedido é uma variável quantitativa discreta que revela o comportamento de compra dos consumidores. A grande maioria dos pedidos — mais de 88% — contém apenas 1 item, o que sugere que o e-commerce brasileiro no período era dominado por compras unitárias e pontuais, com pouco comportamento de “carrinho cheio”. Pedidos com 2 ou mais itens existem, mas decrescem rapidamente em frequência, indicando que os clientes tendiam a realizar múltiplas compras separadas em vez de consolidá-las em um único pedido.

Sobre o gráfico: Sequência de pagamentos

A sequência de pagamentos por pedido é outra variável quantitativa discreta, indicando quantos registros de pagamento estão associados a uma mesma compra. A esmagadora maioria dos pedidos possui apenas 1 forma de pagamento, mas há casos com 2, 3 ou mais — o que ocorre quando o cliente combina, por exemplo, um voucher com cartão de crédito. Essa variável é útil para entender a complexidade das transações e a adoção de meios de pagamento complementares na plataforma.

VARIÁVEIS QUANTITATIVAS CONTÍNUAS

Row

Distribuição do Preço dos Produtos

Distribuição do Valor do Frete

Row

Sobre o gráfico: Preço dos produtos

O preço de um produto é uma variável quantitativa contínua, podendo assumir qualquer valor real positivo dentro de um intervalo. O histograma revela uma distribuição fortemente assimétrica à direita — a maioria dos produtos está concentrada na faixa de R$ 0 a R$ 200, com a mediana em torno de R$ 74,99, enquanto uma cauda longa indica a presença de produtos de alto valor no catálogo. Esse comportamento é típico de marketplaces generalistas, onde convivem produtos de consumo cotidiano de baixo custo e itens de maior valor agregado, como eletrônicos e móveis.

Sobre o gráfico: Valor do frete

O valor do frete é igualmente uma variável quantitativa contínua. A distribuição é menos assimétrica que a de preços, concentrando-se entre R$ 10 e R$ 30, com mediana próxima de R$ 16,26. A curva apresenta uma cauda à direita associada a fretes de itens pesados ou de regiões mais distantes dos centros logísticos, como Norte e Nordeste. A dispersão do frete é relevante para entender a viabilidade do e-commerce em diferentes regiões do Brasil, onde o custo de envio pode representar uma parcela significativa do valor total do pedido.

Row

Boxplot: Preço vs. Frete

Distribuição do Valor Total dos Pagamentos

Row

Sobre o gráfico: Boxplot comparativo

O boxplot é uma ferramenta especialmente útil para variáveis quantitativas contínuas porque resume, em uma única visualização, a mediana, os quartis inferior e superior (caixa), e a dispersão dos dados (bigodes). A comparação entre preço e frete revela que o preço possui variabilidade muito maior, com uma caixa mais ampla e outliers mais distantes. O frete, por outro lado, apresenta distribuição mais compacta, sugerindo que a plataforma conseguia manter os custos de envio relativamente controlados para a maior parte das transações.

Sobre o gráfico: Densidade dos pagamentos

O gráfico de densidade é uma alternativa suavizada ao histograma, mostrando a distribuição contínua do valor total dos pagamentos. A curva evidencia um pico pronunciado abaixo de R$ 100, com a mediana em torno de R$ 100, e uma cauda longa à direita representando compras de maior valor. Esse formato de distribuição — denominado assimetria positiva — é característico de variáveis financeiras em contextos de varejo, onde a maioria das transações é de pequeno valor e compras de alto ticket são menos frequentes, porém existentes.

ANÁLISES CRUZADAS

Row

Nota Média por Método de Pagamento

Frete Médio por Estado (Top 10)

Row

Sobre o gráfico: Satisfação por pagamento

Este gráfico cruza duas variáveis de tipos diferentes: método de pagamento (qualitativa nominal) e nota de avaliação (qualitativa ordinal, aqui agregada como média). O resultado revela que os níveis de satisfação são surpreendentemente similares entre os métodos — todos entre 4,0 e 4,2 — sugerindo que a forma de pagamento em si não é um fator determinante para a experiência do cliente. Pequenas diferenças podem estar associadas ao perfil de compra típico de cada modalidade: usuários de voucher, por exemplo, tendem a estar em situações de troca ou compensação, o que pode influenciar a percepção da experiência.

Sobre o gráfico: Frete por estado

Este gráfico cruza estado do cliente (qualitativa nominal) com valor do frete (quantitativa contínua). Os estados com fretes mais elevados tendem a ser aqueles mais distantes dos principais centros logísticos do Sudeste, como RR, AP e AM, no Norte do Brasil. Esse padrão reflete a desigualdade logística do país, onde o custo de entrega pode representar uma barreira real ao acesso ao e-commerce. A análise é relevante para estratégias de precificação de frete e expansão de cobertura logística por parte dos vendedores da plataforma.

Row

Preço Médio por Categoria (Top 10)

Avaliação Média por Nota ao Longo do Tempo

Row

Sobre o gráfico: Preço por categoria

O cruzamento entre categoria de produto (qualitativa nominal) e preço médio (quantitativa contínua) revela quais segmentos concentram produtos de maior valor agregado. Categorias como computadores, eletrodomésticos e instrumentos musicais tendem a ter tickets médios mais elevados, enquanto categorias de consumo rápido, como perfumaria e papelaria, apresentam preços mais baixos. Essa análise é valiosa para vendedores que buscam entender o posicionamento de preço de cada segmento dentro do marketplace.

Sobre o gráfico: Avaliações ao longo do tempo

Este gráfico combina uma variável temporal com a nota de avaliação (qualitativa ordinal), observando sua evolução mês a mês. A linha vermelha tracejada representa a média geral do período. Oscilações mensais são esperadas em função de sazonalidade, campanhas promocionais e eventos como Black Friday, que podem aumentar o volume de pedidos e pressionar a logística. A análise temporal é especialmente útil para identificar períodos de queda na satisfação e correlacioná-los com eventos externos ao dataset.