Teste prático para os candidatos ao processo seletivo de cientistas, analistas e engenheiros de dados para o time de Business Science & Analytics do Olist
O olist é a maior loja de departamentos dos marketplaces. Possui um catálogo com mais de 950 mil produtos, centenas de milhares de pedidos e uma rede de mais de 9 mil lojistas parceiros espalhados por todas as regiões do Brasil. Entendemos que a área de dados e inteligência é uma das principais alavancas de crescimento do negócio, por isso buscamos profissionais apaixonados por dados para integrar a nossa equipe de Business Science e Analytics (BSA).
Estamos o tempo todo gerando dados, dados e muito mais dados. Nosso cenário é de big data!
orders <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_orders_dataset.csv") # spec(orders)
customers <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_customers_dataset.csv", col_types = cols(.default = "c"))
order_reviews <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_reviews_dataset.csv", col_types = cols(.default = "c"))
order_payments <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_payments_dataset.csv")
order_items_details <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_items_dataset.csv")
sellers <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_sellers_dataset.csv", col_types = cols(.default = "c"))
geolocation <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_geolocation_dataset.csv")
products <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_products_dataset.csv")
#order_reviews <- read_csv("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Estatistica Computacional em R/Projeto/olist_order_reviews_dataset_clean.csv", col_types = cols(.default = "c")) #pegar o limpo depois
| Dataset | Variables |
|---|---|
| order | order_id, customer_id, order_status, order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date |
| customers | customer_id, customer_unique_id, customer_zip_code_prefix, customer_city, customer_state |
| order_payments | order_id, payment_sequential, payment_type, payment_installments, payment_value |
| order_items_details | order_id, order_item_id, product_id, seller_id, shipping_limit_date, price, freight_value |
| order_reviews | review_id, order_id, review_score, review_comment_title, review_comment_message, review_creation_date, review_answer_timestamp |
| sellers | seller_id, seller_zip_code_prefix, seller_city, seller_state |
| geolocation | geolocation_zip_code_prefix, geolocation_lat, geolocation_lng, geolocation_city, geolocation_state |
| products | product_id, product_category_name, product_name_lenght, product_description_lenght, product_photos_qty, product_weight_g, product_length_cm, product_height_cm, product_width_cm |
Os top10 vendedores com mais particpação em vendas correspondem a 13.11 % do total de faturamento da Olist
(considerando top 10 de categorias dos maiores vendedores)
Número muito baixo de compras sem avaliação. Datasets enviesados?!
Apenas os estados de São Paulo, Paraná, e Santa Catarina são superavitários. Todos os demais são deficitários.
O estado de São Paulo é o maior comprador e tem o maior número de vendedores.
Como prever a satisfação do consumidor? Que variáveis influenciam mais?
A correlação entre os dias de entrega e a nota atribuída é de -0.3023811
A correlação entre a diferença de expectativa no prazo de entrega e a nota atribuída é de -0.2286446
A correlação entre o preço do produto e a nota atribuída é de 0.0035415
A correlação entre a quantidade de fotos do anúncio e a nota atribuída é de 0.021283
As maiores correlações entre as variáveis analisadas e a nota do produto foram a de dias para entrega e a diferença de expectativa em relação ao prazo de entrega (data informada pelo vendedor - data da entrega efetiva)