Desafio Olist

Teste prático para os candidatos ao processo seletivo de cientistas, analistas e engenheiros de dados para o time de Business Science & Analytics do Olist

Fonte: https://github.com/olist/work-at-olist-data

Cenário

O olist é a maior loja de departamentos dos marketplaces. Possui um catálogo com mais de 950 mil produtos, centenas de milhares de pedidos e uma rede de mais de 9 mil lojistas parceiros espalhados por todas as regiões do Brasil. Entendemos que a área de dados e inteligência é uma das principais alavancas de crescimento do negócio, por isso buscamos profissionais apaixonados por dados para integrar a nossa equipe de Business Science e Analytics (BSA).

Estamos o tempo todo gerando dados, dados e muito mais dados. Nosso cenário é de big data!

Banco de dados

https://github.com/olist/work-at-olist-data

Desafio

Analista de dados e Business Intelligence

O que esperamos do candidato?

Descrição dos dados

Leitura dos dados

orders <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_orders_dataset.csv") # spec(orders)
customers <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_customers_dataset.csv", col_types = cols(.default = "c"))
order_reviews <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_reviews_dataset.csv", col_types = cols(.default = "c"))
order_payments <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_payments_dataset.csv")
order_items_details <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_items_dataset.csv")
sellers <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_sellers_dataset.csv", col_types = cols(.default = "c"))
geolocation <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_geolocation_dataset.csv")
products <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_products_dataset.csv")

#order_reviews <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_reviews_dataset_clean.csv", col_types = cols(.default = "c")) #pegar o limpo depois

Variáveis por base

Dataset Variables
order order_id, customer_id, order_status, order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date
customers customer_id, customer_unique_id, customer_zip_code_prefix, customer_city, customer_state
order_payments order_id, payment_sequential, payment_type, payment_installments, payment_value
order_items_details order_id, order_item_id, product_id, seller_id, shipping_limit_date, price, freight_value
order_reviews review_id, order_id, review_score, review_comment_title, review_comment_message, review_creation_date, review_answer_timestamp
sellers seller_id, seller_zip_code_prefix, seller_city, seller_state
geolocation geolocation_zip_code_prefix, geolocation_lat, geolocation_lng, geolocation_city, geolocation_state
products product_id, product_category_name, product_name_lenght, product_description_lenght, product_photos_qty, product_weight_g, product_length_cm, product_height_cm, product_width_cm

Análise exploratória

Afinal, quem são os Top 10 em vendas?

Qual é o impacto deles para o negócio?

Os top10 vendedores com mais particpação em vendas correspondem a 13.11 % do total de faturamento da Olist

Quais produtos eles vendem?

(considerando top 10 de categorias dos maiores vendedores)

Número de compras por nota de avaliação

Número muito baixo de compras sem avaliação. Datasets enviesados?!

Número de compras por estado

% Despesas de compras por estado

% Receita de vendas por estado

Superávit/défict por estado

Apenas os estados de São Paulo, Paraná, e Santa Catarina são superavitários. Todos os demais são deficitários.

Número de vendedores por estado

O estado de São Paulo é o maior comprador e tem o maior número de vendedores.

Observando os reviews

Percentual por nota dos reviews

Observando as variáveis que possivelmente influenciam os reviews

Tempo de entrega desde a aprovação da compra

Diferença de dias em relação à data de entrega esperada

Quantidade das fotos

Preços dos produtos vendidos

Problema

Como prever a satisfação do consumidor? Que variáveis influenciam mais?

Relação dos itens de interesse na análise exploratória com a satisfação do cliente

Influência do tempo para entrega

A correlação entre os dias de entrega e a nota atribuída é de -0.3023811

Influência da diferença do tempo de entrega em relação ao estimado pela loja

A correlação entre a diferença de expectativa no prazo de entrega e a nota atribuída é de -0.2286446

Influência do preço

A correlação entre o preço do produto e a nota atribuída é de 0.0035415

Influência da quantidade de fotos

A correlação entre a quantidade de fotos do anúncio e a nota atribuída é de 0.021283

verificando diversas correlações

As maiores correlações entre as variáveis analisadas e a nota do produto foram a de dias para entrega e a diferença de expectativa em relação ao prazo de entrega (data informada pelo vendedor - data da entrega efetiva)