SUBJECT: eCommerce & Supply Chain


Versions: 24 Apr 2019, 29 Apr 2019, 03 May 2019, 15 May 2019, 06 Feb 2020.


Model Bisnis Olist

Olist adalah Brazilian department store (marketplace) yang beroperasi di segmen e-commerce, bukan e-commerce itu senderi (seperti yang dikatakan). Ini beroperasi sebagai perusahaan teknologi SaaS (Perangkat Lunak sebagai Layanan) Sejak tahun 2015. ini menawarkan solusi pasar (segment e-commerce) kepada pemilik toko dari semua ukuran (dan sebagian untuk segmen) Untuk meningkatkan penjualan mereka apakah mereka hadir secara online atau tidak.

Solusi Olist

Solusi olist terderi dari tiga aspek yaitu Perangkat Lunak, Kontrak dengan pasar utama, dan Berbagai Reputasi. Diagram dibawah ini menunjukkan bagaimana Olist menghubungkan pasar, konsumen (Portuguese: consumidores), dan pengecer (Portuguese: varejistas)

Olist’s marketplace model

Apa yang dikatan Olist?

Olist mengatakan dia…

  1. … adalah department store besar di pasar.
  2. … terhubung ke e-commerce utama Brazil.
  3. … tidak membeli produk.
  4. … tidak menyimpan produk dalam persediaan.
  5. … tidak melakukan pengeriman produk apa pun yang ditawarkan di tokonya.
  6. Semua produk di jual dan dikirimkan oleh ribuan pemilik toko (terdaftar di Olist*) yang menjual melalui Olist.
  7. Kekuatan terletak pada persatuan semua pemilik toko (terdaftar di Olist) yang menjual melalui Olist.
  8. Penjaga toko peserta yang bertanggung jawab untuk memisahkan, mengemas, dan membawa produk ke operator logistik.

Harap perhatikan perspektif Olist(Pertinjau rantai pasokan): dia menjelaskan ada banyak faktor yang dapat mempengaruhi penjualan penjaga toko, misalnya jenis produk, permintaan, musim, harga kompetitif, persyaratan, inventaris, dan lain-lain.

Pada gambar di bawah Olist menjelaskan (dalam bahasa Portugis) bagaiman ia membedakan dirinya dari pasar lain berdasarkan reputasi, penempatan produk, tim yang berdedikasi untuk penjualan & layanan pelanggan, pengurangan waktu untuk mulai menjual, kontrol terpusat dari operasi dan alat kompetitif lainya.

Olist’s niche — way to differentiate

Data Model

Di Kaggele, dia membagikan data 100 ribu pesanan dari 2016 hingga 2018. Ada 8+1 kumpulan data untuk di analysis. Model data telah dijelaskan pada gambar di bawah dan diatur dan dinormalisasi untuk setiap kategori.

Data Model

Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     

Attaching package: ‘kableExtra’

The following object is masked from ‘package:dplyr’:

    group_rows

Kumpulan Data Utama

Kumpulan data pesanan

  • Order ID (ID Pemasanan)
  • Customer ID (ID Pelanggan)
  • Order Status (Status Pemesanan)
  • Order Purchase Timestamp (Stempel Waktu Pembelian Pesanan)
  • Order Approved at (Pesanan Yang Disetujui)
  • Order Delivered Carrier date (Pesanan Dikirim Tanggal Pembawa)
  • Order Delivered Customer date (Pesanan Dikirim Tanggal Pelanggan)
  • Order Estimated delivered date (Pesanan Perkiraan Tanggal Pengeriman)
Orders dataset
order_id customer_id order_status order_purchase_timestamp order_approved_at order_delivered_carrier_date order_delivered_customer_date order_estimated_delivery_date
e481f51cbdc54678b7cc49136f2d6af7 9ef432eb6251297304e76186b10a928d delivered 2017-10-02 10:56:33 2017-10-02 11:07:15 2017-10-04 19:55:00 2017-10-10 21:25:13 2017-10-18 00:00:00
53cdb2fc8bc7dce0b6741e2150273451 b0830fb4747a6c6d20dea0b8c802d7ef delivered 2018-07-24 20:41:37 2018-07-26 03:24:27 2018-07-26 14:31:00 2018-08-07 15:27:45 2018-08-13 00:00:00
47770eb9100c2d0c44946d9cf07ec65d 41ce2a54c0b03bf3443c3d931a367089 delivered 2018-08-08 08:38:49 2018-08-08 08:55:23 2018-08-08 13:50:00 2018-08-17 18:06:29 2018-09-04 00:00:00
949d5b44dbf5de918fe9c16f97b45f8a f88197465ea7920adcdbec7375364d82 delivered 2017-11-18 19:28:06 2017-11-18 19:45:59 2017-11-22 13:39:59 2017-12-02 00:28:42 2017-12-15 00:00:00
ad21c59c0840e6cb83a9ceb5573f8159 8ab97904e6daea8866dbdbc4fb7aad2c delivered 2018-02-13 21:18:39 2018-02-13 22:20:29 2018-02-14 19:46:34 2018-02-16 18:17:02 2018-02-26 00:00:00
a4591c265e18cb1dcee52889e2d8acc3 503740e9ca751ccdda7ba28e9ab8f608 delivered 2017-07-09 21:57:05 2017-07-09 22:10:13 2017-07-11 14:58:04 2017-07-26 10:57:55 2017-08-01 00:00:00

Kumpulan Data lainya

Dataset Pelanggan

  • Customer ID (ID Pelanggan )
  • Customer Unique ID (ID Unik Pelanggan)
  • Customer Zip Code prefix (Awalan Kode Pos Pelanggan)
  • Customer City (Kota Pelanggan)
  • Customer State (Negari Pelanggan)
Customers dataset
customer_id customer_unique_id customer_zip_code_prefix customer_city customer_state
06b8999e2fba1a1fbc88172c00ba8bc7 861eff4711a542e4b93843c6dd7febb0 14409 franca SP
18955e83d337fd6b2def6b18a428ac77 290c77bc529b7ac935b93aa66c333dc3 9790 sao bernardo do campo SP
4e7b3e00288586ebd08712fdd0374a03 060e732b5b29e8181a18229c7b0b2b5e 1151 sao paulo SP
b2b6027bc5c5109e529d4dc6358b12c3 259dac757896d24d7702b9acbbff3f3c 8775 mogi das cruzes SP
4f2d8ab171c80ec8364f7c12e35b23ad 345ecd01c38d18a9036ed96c73b8d066 13056 campinas SP
879864dab9bc3047522c92c82e1212b8 4c93744516667ad3b8f1fb645a3116a4 89254 jaragua do sul SC

Kumpulan Data Geolokasi

  • Geolocation Zip Code prefix (Awalan Kode Pos Geolokasi)
  • Geolocation Lat. (Geolokasi Lat)
  • Geolocation Lng. (Geolokasi Lng)
  • Geolocation City (Kota Geolokasi)
  • Geolocation State (Status Geolokasi)
Geolocation dataset
geolocation_zip_code_prefix geolocation_lat geolocation_lng geolocation_city geolocation_state
1037 -23.54562 -46.63929 sao paulo SP
1046 -23.54608 -46.64482 sao paulo SP
1046 -23.54613 -46.64295 sao paulo SP
1041 -23.54439 -46.63950 sao paulo SP
1035 -23.54158 -46.64161 sao paulo SP
1012 -23.54776 -46.63536 são paulo SP

Kumpulan Data Item

  • Order ID (ID Pemesanan)
  • Order Item ID (ID barang Pesanan)
  • Seller ID (Tanggal Batas Pengeriman)
  • Shipping limit date (Tanggal Batas Pengeriman)
  • Price (Harga)
  • Freight Value (Nilai Pengiriman)
Items dataset
order_id order_item_id product_id seller_id shipping_limit_date price freight_value
00010242fe8c5a6d1ba2dd792cb16214 1 4244733e06e7ecb4970a6e2683c13e61 48436dade18ac8b2bce089ec2a041202 2017-09-19 09:45:35 58.90 13.29
00018f77f2f0320c557190d7a144bdd3 1 e5f2d52b802189ee658865ca93d83a8f dd7ddc04e1b6c2c614352b383efe2d36 2017-05-03 11:05:13 239.90 19.93
000229ec398224ef6ca0657da4fc703e 1 c777355d18b72b67abbeef9df44fd0fd 5b51032eddd242adc84c38acab88f23d 2018-01-18 14:48:30 199.00 17.87
00024acbcdf0a6daa1e931b038114c75 1 7634da152a4610f1595efa32f14722fc 9d7a1d34a5052409006425275ba1c2b4 2018-08-15 10:10:18 12.99 12.79
00042b26cf59d7ce69dfabb4e55b4fd9 1 ac6c3623068f30de03045865e4e10089 df560393f3a51e74553ab94004ba5c87 2017-02-13 13:57:51 199.90 18.14
00048cc3ae777c65dbb7d2a0634bc1ea 1 ef92defde845ab8450f9d70c526ef70f 6426d21aca402a131fc0a5d0960a3c90 2017-05-23 03:55:27 21.90 12.69

Kumpulan Data Pembayaran

  • Order ID (ID Pemesanan
  • Payment Sequential (Urutan Pembayaran)
  • Payment Type (Tipe Pembayaran)
  • Payment Installments (Angsuran Pembayaran)
  • Payment Value (Nilai Pembayaran)
Payments dataset
order_id payment_sequential payment_type payment_installments payment_value
b81ef226f3fe1789b1e8b2acac839d17 1 credit_card 8 99.33
a9810da82917af2d9aefd1278f1dcfa0 1 credit_card 1 24.39
25e8ea4e93396b6fa0d3dd708e76c1bd 1 credit_card 1 65.71
ba78997921bbcdc1373bb41e913ab953 1 credit_card 8 107.78
42fdf880ba16b47b59251dd489d4441a 1 credit_card 2 128.45
298fcdf1f73eb413e4d26d01b25bc1cd 1 credit_card 2 96.12

Kumpulan Data Produk

  • Product ID (ID Produk)
  • Product Category name (Nama Kategori Produk)
  • Product Name length (Nama Produk Panjang)
  • Product Photos (quantity) (Foto produk(jumlah))
  • Product Weight (grams) (Berat Produk(gram))
  • Product Length (cm) (Panjang Produk(cm))
  • Product Height (cm) (Tinggi Produk(cm))
  • Product Width (cm) (Lebar Produk(cm))
Products dataset
product_id product_category_name product_name_lenght product_description_lenght product_photos_qty product_weight_g product_length_cm product_height_cm product_width_cm
1e9e8ef04dbcff4541ed26657ea517e5 perfumaria 40 287 1 225 16 10 14
3aa071139cb16b67ca9e5dea641aaa2f artes 44 276 1 1000 30 18 20
96bd76ec8810374ed1b65e291975717f esporte_lazer 46 250 1 154 18 9 15
cef67bcfe19066a932b7673e239eb23d bebes 27 261 1 371 26 4 26
9dc1a7de274444849c219cff195d0b71 utilidades_domesticas 37 402 4 625 20 17 13
41d3672d4792049fa1779bb35283ed13 instrumentos_musicais 60 745 1 200 38 5 11

Ulasan Kumpulan Data

  • Review ID
  • Order ID (ID Pemesanan)
  • Review Score (Skor Ulasan)
  • Review Comment title (Tinjau Komentar Judul)
  • Review Comment message (Tinjau Pesanan Komentar)
  • Review Creation date (Tinjau Tanggal Pembuatan)
  • Review Answer timestamp (Tinjau Stempel Waktu Jawaban)
Reviews dataset
review_id order_id review_score review_comment_title review_comment_message review_creation_date review_answer_timestamp
7bc2406110b926393aa56f80a40eba40 73fc7af87114b39712e6da79b0a377eb 4 2018-01-18 00:00:00 2018-01-18 21:46:59
80e641a11e56f04c1ad469d5645fdfde a548910a1c6147796b98fdf73dbeba33 5 2018-03-10 00:00:00 2018-03-11 03:05:13
228ce5500dc1d8e020d8d1322874b6f0 f9e4b658b201a9f2ecdecbb34bed034b 5 2018-02-17 00:00:00 2018-02-18 14:36:24
e64fb393e7b32834bb789ff8bb30750e 658677c97b385a9be170737859d3511b 5 Recebi bem antes do prazo estipulado. 2017-04-21 00:00:00 2017-04-21 22:02:06
f7c4243c7fe1938f181bec41a392bdeb 8e6bfb81e283fa7e4f11123a3fb894f1 5 Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa 2018-03-01 00:00:00 2018-03-02 10:26:53
15197aa66ff4d0650b5434f1b46cda19 b18dcdf73be66366873cd26c5724d1dc 1 2018-04-13 00:00:00 2018-04-16 00:39:37

Kumpulan Data Penjual

  • Seller ID (ID Penjualan)
  • Seller Zip Code prefix (Awalan Kode Pos Penjual)
  • Selller City (Kota Penjual)
  • Seller State (Negara Penjual)
Sellers dataset
seller_id seller_zip_code_prefix seller_city seller_state
3442f8959a84dea7ee197c632cb2df15 13023 campinas SP
d1b65fc7debc3361ea86b5f14c68d2e2 13844 mogi guacu SP
ce3ad9de960102d0677a81f5d0bb7b2d 20031 rio de janeiro RJ
c0f3eea2e14555b6faeea3dd58c1b1c3 4195 sao paulo SP
51a04a8a6bdcb23deccc82b0b80742cf 12914 braganca paulista SP
c240c4061717ac1806ae6ee72be3533b 20920 rio de janeiro RJ

Dataset Terjemahaan Kategori Produk

  • Product Category name (Portugis) (Nama Kategori Produk Portugis)
  • Product Category name (English) (Nama Kategori Produk bahasa Inggris)
Translation dataset
product_category_name product_category_name_english
beleza_saude health_beauty
informatica_acessorios computers_accessories
automotivo auto
cama_mesa_banho bed_bath_table
moveis_decoracao furniture_decor
esporte_lazer sports_leisure

Stimulasi sebagai ƒ(Pelanggan, Kategori Produk, Penjual)

Olist telah dirancang dengan penambahan pelanggan, Kategori Produk, dan Penjualan sesuai data, ada aliran pelanggan dan penjual yang terdaftar di platform Olist. Kemajuan ini, sering dengan peningkatan reguler dalam jumlah kategori produk baru yang ditawarkan telah mempertahankan momentum pertumbuhan olist

Trend Pendaftaran Pelanggan Baru

Grafik menunjukkan, pada tahun 2017, telah terjadi trend line positef dalam jumlah Pelanggan Baru [Identitas Unik Pelanggan] yang terdaftar di Olist. Pada tahun 2018, lebih dari 6000 ribu mendaftar setiap bulan.

Galvanisation Berdasarkan Kategori Produk

Menurut pendapat saya, penambahan +50 (Perkiraan) Kategori Produk Baru Per Bulan - Sebagai Penawaran - telah mengembangkan lonjakan pelanggan baru yang mendaftar. Konsinten fenome ini menjadi bauh bibir Olist selama 20 bulan yakni sejak Januari 2017 hingga Agustus 2018.

Keterlibatan Penjual

Penjual juga mempertahankan tren yang sama dengan pelanggan, dalam kerangka waktu data ini, Olist akhirnya memiliki + 3095 Penjual terdaftar di platformnya.

Kategori Produk FAST MOVING

Kategori Produk dapat diukur dari seberapa sering suatu kategori produk dibeli oleh pelanggan? atau manakah kategori produk “FAST MOVING” yang didorong oleh pelanggan? Kernel Informasi ini dapat bertindak sebagai salah satu parameter yang mungkin yang mungkin digunakan oleh perusahaan (dan dalam hal ini Olisst) Untuk membagun portofolio.

Model data ini memiliki informasi 100 ribu pesanan oleh karena itu, dengan mengambil petunjuk dari distribusi data kuartil, saya membaginya lebih lanjut menjadi 6 sub bagian. ini membantu saya menentukan secara visual (dalam bentuk tidak ilmiah) Kategori produk mana yang bergerak cepat sesuai dengan setiap sub-bagian.

Pembelian Dilakukan Beberapa Kali

Mari kita mulai dengan kasus di mana semua kategori Produk dibeli beberapa kali. Grafik di bawah ini menunjukkan kategori mana yang merupakan kategori frekuensi tinggi.

Harap Dicatat: Ini tidak termasuk semua kategori yang dibeli sebagai: satu kategori produk perbulan dan pertahun.

Enam Sub - Bagian

Satu Pesanan Per Kategori Produk

Kasus di mana hanya satu pesanan yang dilakukan untuk satu Kategori produk dalam satu bulan dan pada tahun tertentu.

Dibeli “1 < n < 6” Kali

Kasus di mana Pesanan dilakukan untuk berbagai Kategori Produk dan setiap Kategori produk dibeli Lebih dari selai tetapi kurang dari enam kali. Plus, daftar di bawah ini menyediakan beberapa kategori yang paling sering dipesan.

  • Construction Tools (Alat Konstruksi)
  • Cine Photo (Foto Film)
  • DVDs Blue Ray (DVD Blue Ray)
  • Fashion Female Clothing (Busana Wanita Fashion)
  • Music (Musik)

Dibeli “5 < n < 21” Kali

Kasus dimana pesanan ditempatkan untuk berbagai kategori produk dan setiap kategori produk dibeli lebih dari 5 tetapi kurang dari 21 kali. Plus, daftar di bawah ini menyediakan beberapa kategori yang paling sering dipesan.

  • Air Conditioning (AC)
  • Construction tools Garden (Alat Konstruksi Taman)
  • Fixed Telephony (Telepon Tetap)
  • Home Appliances 2 (Perlatan Rumah Tangga 2)
  • Market Place (Pasar)

Dibeli “20 < n < 93” kali

Kusus dimana pesanan ditemapatkan untuk berabagai kategori produk dan setiap kategori produk debeli Lebih dari dua puluh tetapi kurang dari sembilan puluh tiga kali. Plus, daftar di bawah ini menyediakan beberapa kategori yang paling sering dipesan.

  • Books general interest (Buku Minat Umum)
  • Console games (Game Konsol)
  • Home appliances (Peralatan Rumah Tangga)
  • Luggage accessories (Aksesoris Bagasi)
  • Musical instruments (Alat-alat Musik)
  • Small appliances (Perlatan Kecil)

Dibeli Waktu “92 < n < 251” Kali

Kasus dimana pesanan ditempatkan untuk berbagai kategori produk dan setiap kategori produk dibeli lebih dari sembilan puluh dua tetapi kurang dari dua ratus lima puluh satu kali. Plus, daftari dibawah ini menyediakan beberapa kategori yang paling sering dipesan.

  • Baby (Baby)
  • Cool stuff (Barang Keren)
  • Garden tools (Peralatan Kebun)
  • Perfumery (Wewangian)
  • Toys (Mainan)

Dibeli “250 < n” Kali

Kasus dimana pesanan ditempatkan untuk berbagai kategori produk dan setiap kategori produk dibeli lebih dari dua ratus lima puluh kali. Plus, daftar dibawah ini menyediakan beberapa kategori yang paling sering dipesan.

  • Bed bath table (Meja Kamar Mandi Tempat Tidur)
  • Computer accessories (Aksesoris Komputer)
  • Furniture decor (Dekorasi Furnitur)
  • Health beauty (Kencatikan Kesehatan)
  • Housewares (Perlatan Rumah Tangga)
  • Sports leisure (Olahraga Rekresi)

Fitur, Relasi, & Persamaan Penting

k-means clustering telah digunakan untuk membuat cluster dan menemukan fitur yang signifikan, ini membantu saya melihat kedalam; bagaimana fitur-fitur itu berinteraksi dan apa hubungan di antara mereka? Cluster dibuat untuk melihat data dalam bentuk tabel dan untuk menemukan persamaan polinomial.

k - means Clustering

Tidak ada metode ilmiah yang digunakan untuk menghitung jumlah cluster, saya memasang 6 sebagai jumlah pusat, untuk menjaga agar semuanya tetap bernomor. pertama, sebuah tabel besar telah dibuat yang berisi semua fitur yang relevan dari semua kumpulan data (Setidaknya dari sudut pandang analysis saya). Saya melakukan berbagai premutasi dan kombinasi untuk menghasilkan fitur paling signifikan yang dapat mempertahankan jumlah tupel yang kira-kira sama di setiap cluster. Latihan ini memberi saya fitur berikut, yang nilainya pertama kali dinormalisasi dan kemudian mereka bertidak sebagai tulang punggung kluster saya.

  • Waktu Led Aktual (hari): Jumlah hari yang dibutuhkan untuk mengerimkan produk ke pelanggan, dari saat pesanan telah ditempatkan di sistem.
  • ID Pesanan: Identifikasi Pesanan.
  • Waktu Perstujuan (menit): Waktu yang dibutuhkan oleh sistem Olist untuk menyetujui pesanan setelah pesanan dilakukan dan sebelum diberitahukan kepada pemasok/pengangkut barang.
  • ID Barang Pesanan: Jumlah barang/pesanan.
  • Harga: Harga/Barang, dibebankan dari pelanggan.
  • Nilai Pengeriman: Biaya Pengeriman/Barang, dibebankan dari pelanggan.
  • Berat Produk (gms): Berat Produk dalam Gram

Harap Dicatat: Harga & Nilai Pengeriman adalah jumlah yang dibebankan per item dan bukan per pesanan. Plus, Pesanan mungkin memiliki lebih dari satu item.

Cluster 1

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster1 2016.4 18 686.5 1 238.48 34.22 10475
Year 2017
Cluster1 2017.1 12 12.0 1 129.00 29.03 9850
Cluster1 2017.2 12 15.0 1 134.08 31.12 9750
Cluster1 2017.3 11 16.0 1 159.99 28.59 10125
Cluster1 2017.4 14 22.0 1 149.90 33.25 10700
Year 2018
Cluster1 2018.1 16 21.0 1 149.00 30.40 10800
Cluster1 2018.2 10 31.0 1 169.90 33.31 10800
Cluster1 2018.3 8 20.0 1 179.90 44.25 10550
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Cluster 2

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster2 2016.4 20 1772.0 1 59.9 15.98 610
Year 2017
Cluster2 2017.1 11 1836.5 1 49.0 15.05 450
Cluster2 2017.2 12 1718.0 1 59.9 15.50 550
Cluster2 2017.3 11 1728.0 1 59.9 15.50 600
Cluster2 2017.4 13 1919.5 1 59.9 15.35 550
Year 2018
Cluster2 2018.1 14 1693.0 1 60.0 15.60 500
Cluster2 2018.2 9 1682.0 1 69.0 16.68 550
Cluster2 2018.3 7 1629.0 1 66.9 18.15 475
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Cluster 3

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster3 2016.4 16 4581.5 1 72.40 15.08 1000
Year 2017
Cluster3 2017.1 13 5223.0 1 49.98 15.05 500
Cluster3 2017.2 13 4746.5 1 61.95 16.05 600
Cluster3 2017.3 12 4764.0 1 59.90 15.79 600
Cluster3 2017.4 15 4629.0 1 59.90 16.11 600
Year 2018
Cluster3 2018.1 14 4755.0 1 63.90 16.11 600
Cluster3 2018.2 10 4833.5 1 63.99 16.45 650
Cluster3 2018.3 9 4796.0 1 53.90 18.32 500
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Cluster 4

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster4 2016.3 54.0 0.0 2 44.99 2.83 1000.0
Year 2017
Cluster4 2016.4 15.5 83.5 1 64.40 15.95 864.5
Cluster4 2017.1 9.0 10.0 1 62.90 15.56 600.0
Cluster4 2017.2 10.0 12.0 1 64.99 15.11 550.0
Cluster4 2017.3 9.0 14.0 1 59.90 15.20 600.0
Year 2018
Cluster4 2017.4 11.0 16.0 1 62.80 15.15 550.0
Cluster4 2018.1 12.0 16.0 1 59.90 15.23 450.0
Cluster4 2018.2 8.0 21.0 1 66.67 15.72 500.0
Cluster4 2018.3 6.0 14.0 1 65.49 16.44 450.0
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Cluster 5

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster5 2016.4 40 440.0 1 499.99 93.23 20900
Year 2017
Cluster5 2017.1 11 10.5 1 199.99 49.94 20275
Cluster5 2017.2 11 18.0 1 239.90 50.77 20800
Cluster5 2017.3 12 17.5 1 219.99 57.38 19600
Cluster5 2017.4 14 23.0 1 249.44 59.91 19300
Year 2018
Cluster5 2018.1 17 23.0 1 229.99 53.48 18150
Cluster5 2018.2 11 27.0 1 235.90 66.40 18950
Cluster5 2018.3 8 112.0 1 395.00 77.10 19700
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Cluster 6

Factors for k-means clustering & their values
Factor 01
Factor 02
Factor 03
Cluster Quarter Actual Lead Time (days) Approval (mins) Itmes per Order Price Freight Value Weight (gms)
Year 2016
Cluster6 2016.4 25 1201 1 129.99 21.97 5470.0
Year 2017
Cluster6 2017.1 10 11 1 139.00 22.29 5150.0
Cluster6 2017.2 11 14 1 117.30 19.75 5600.0
Cluster6 2017.3 10 16 1 139.40 20.10 5300.0
Cluster6 2017.4 12 20 1 129.00 22.72 5950.0
Year 2018
Cluster6 2018.1 13 19 1 135.00 21.89 5700.0
Cluster6 2018.2 9 25 1 129.00 23.31 5450.0
Cluster6 2018.3 7 20 1 139.90 27.59 5562.5
Note:
Values :: 1 Only MEDIANs per quarter per factor are stated
Order Status :: a Orders delivered

Interpretabilitas hubungan

Di bagian ini, upaya saya adalah untuk melihat hubungan antara Nilai Pengeriman Per Pesanan Yang dibayar pelanggan dan Jumlah Barang Per Pesanan. Sekarang untuk menafsirkan hubungan ini saya menggunakan Persamaan Regresi, terutama yang dapat membantuu dalam inferensi dan jauh lebih dapat ditafsirkan, Saya telah memilih Persamaan Kuasi-Poisson - Karean disini kita melihat data hitungan dan Persamaan Polinomial - sebagai upaya umum (Tanpa uji tuntas pada akurasi atau pembuatan model).

Mari kita mulai dengan Grafik terlebih dahulu: Grafik ini adalah (Trade-Off antara Fleksibilitas dan Interpretabilltas) maka persamaan saya rendah pada fleksibilitas atau akurasi dan relatif tinggi pada interpretasi - seperti yang ditunjukkan oleh status Gray POINT Pada grafik.

[Perlu Dicatat] Saya tidak menunjukkan interval kepercayaan untuk parameter model dan grafik residual untuk menentukan apakah model cocok atau tidak.

Data Lengkap

Itu \(\frac{\text{Penyimpangan Sisa}}{\text{Derajat Kebebasan}} > 1 \text{ atau} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression beraada di 7.772, jadi mungkin ada overdispersi. Kami menyesuaikan untuk memperhitungkan overdispersi dan menggunakan Quasi-Poisson Regression Persamaan.

Quasi-Poisson: regression equation

\[\text{Angkutan Nilai} \approx 3.037 - 0.0357x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, Parameter Dispersi untuk Quasi-Poisson keluarga diambil pada 12.387. itu \(\beta = -0.0357\) atau \(\beta < 0\) menyeritkan dengam Setiap Kenaikan Unit Item per pesanan nilai pengeriman akan berkurang dengan dan akan dikalikan dengan -0.0357.

Jika kita mengambil 8 parameter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai \(\approx\) NOL:

  • Intercept (Mencegat)
  • Number of Items per order (Jumlah Item Per Pesanan)
  • Price (Harga)
  • Estimated lead time (Perkiraan Waktu Tunggu)
  • Actaul lead time (Waktu Tunggu Aktual)
  • Product’s Weight (g) (Berat Produk)
  • Product’s Length (cm) (Panjang Produk)
  • Product’s Height (cm) (Tinggi Produk)
  • Product’s Width (cm) (Lebar Produk)

…dan terkahir jarak belum diperhintungkan.

NB: - coret paramter yang tidak-singnigkan. kode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression equation

\[\text{Angkutan Nilai} \approx 19.98 - 152.50x + 44.46x^2 - 79.47x^3 + 77.62x^4 + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per order}, \text{ } \epsilon \Rightarrow \text{error}\]


Persamaan Klater 1

Itu \(\frac{\text{Penyimpanan Sisa}}{\text{Derajat Kebebasan}} > 1 \text{ atau} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression berada di 3.207, Jadi mungkin ada oversipersi, Kami menyesuaikan untuk memperhitungkan overdispersidan menggunakan Quasi-Poisson Regression Persamaan.

Quasi-Poisson: regression Persamaan

\[\text{Nilai Pengiriman}_\text{ Cluster 1} \approx 2.830 - 0.037x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Peroder}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, Parameter Dispersi untuk Quasi-Poisson keluarga diambil menjadi 3.984. itu \(\beta = -0.037\) atau \(\beta < 0\) menyeritkan dengan setiap kenaikan unit barang per pesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.037.

Jika kita mengambil 8 parameter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (Mencegat)
  • Number of Items per order (Jumlah Item Per Pesanan)
  • Price (Harga)
  • Estimated lead time (Perkiraan Waktu Tunggu)
  • Actaul lead time (waktu Tunggu Aktual)
  • Product’s Weight (g) (Berat Produk)
  • Product’s Length (cm) (Panjang Produk)
  • Product’s Height (cm) (Tinggi Produk)
  • Product’s Width (cm) (Lebar Produk)

…dan terkahir jark belum diperhitungkan.

NB: - Coret Paramater yang tidak signifikan. Kode dapat diperoleh dari bagian ’Kode.


Polynomial: regression persamaan

\[\text{Nilai Pengeriman}_\text{ Cluster 1} \approx 16.22 - 96.55x - 20.80x^3 + 29.69x^4 - 20.78x^5 + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]


Persamaan Klaster 2

Itu \(\frac{\text{Penyimpanan Sisa}}{Derajat Kebebasan} > 1 \text{ atau} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression berada di 3.528, Jadi mungkin ada overdispersi. Kami menyesuaikan untuk memperhitungkan overdispersi dan menggunakan Quasi-Poisson Regression persamaan.

Quasi-Poisson: regression Persamaan

\[\text{Nilai Pengeriman}_\text{ Cluster 2} \approx 2.867 - 0.018x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Perorder}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, parameter Dsipersi untuk Quasi-Poisson keluarga di ambil pada 4.204. Itu \(\beta = -0.018\) atau \(\beta < 0\) emnyiratkan dengan setiap kenaikan unit Item perpesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.018.

Jika kita mengambil 8 paramter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (Mencegat)
  • Number of Items per order (Jumlah item perpesanan)
  • Price (Harga)
  • Estimated lead time (Periraan Waktu Tunggu)
  • Actaul lead time (Waktu Tunggu Aktual)
  • Product’s Weight (g) (Berat Produk)
  • Product’s Length (cm) (Panjang Produk)
  • Tinggi Produk (cm)
  • Lebar Produk (cm)

…dan terkakhir jarak belum diperhitungkan.

NB: - coret adalah paramter yang tidak signigikan. kode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression equation

\[\text{Nilai Pengriman}_\text{ Cluster 2} \approx 17.14 - 34.91x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]


Persamaan Kluster 3

Itu \(\frac{\text{Penyimpanan Sisa}}{Derajat Kebebasan} > 1 \text{ atau} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression berada di 35.237, Jadi mungkin ada overdispersi. Kami menyesuaikan untuk memperhitungkan overdispersi dan menggunakan Quasi-Poisson Regression persamaan

Quasi-Poisson: regression Persamaan`

\[\text{Nilai Pengeriman}_\text{ Cluster 3} \approx 4.525 - 0.032x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, parameter Dsipersi untuk Quasi-Poisson keluarga di ambil pada 38.974. Itu \(\beta = -0.032\) atau \(\beta < 0\) emnyiratkan dengan setiap kenaikan unit Item perpesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.018.

Jika kita mengambil 8 paramter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (Mencegat)
  • Jumlah Item Per Pesanan
  • Price (Harga)
  • Estimated lead time (Pekiraan waktu Tunggu)
  • Waktu tunggu aktual
  • Berat Produk (g)
  • Product’s Length (cm) (Panjang Produk)
  • Product’s Height (cm) (Tinggi Produk)
  • Product’s Width (cm) (Lebar Produk)

…dan terakhir jarak belum diperhitungkan.

NB: - coret parameter yang tidak signifikan kode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression equation

\[\text{Nilai Pengiriman}_\text{ Cluster 3} \approx 89.06 + \epsilon \]

\[ \epsilon \Rightarrow \text{error} \]


Persamaan Cluster 4

itu \(\frac{\text{Penyimpangan Sisa}}{\text{Derajat Kebebasan}} > 1 \text{ or} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) untuk Poisson Regression berada di 18.649, jadi mungkin ada overdispersi. Kami menyesuaikan untuk memperhitungkan overdispersi dan menggunakan Quasi-Poisson Regression persamaan.

Quasi-Poisson: regression persamaan

\[\text{Nilai Pengeriman}_\text{ Cluster 4} \approx 3.964 - 0.028x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, parameter Dsipersi untuk Quasi-Poisson keluarga di ambil pada 23.213. Itu \(\beta = -0.028\) atau \(\beta < 0\) emnyiratkan dengan setiap kenaikan unit Item perpesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.028.

Jika kita mengambil 8 paramter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (Mencegat)
  • Jumlah Item Perpesanan
  • Price (Harga)
  • Estimated lead time (Perkiraan Waktu Tunggu)
  • Waktu tunggu aktual
  • Product’s Weight (g) (Berat produk)
  • Product’s Length (cm) (Panjang Produk)
  • Product’s Height (cm) (Tinggi Produk)
  • Product’s Width (cm) (Lebar produk)

…dan terakhir jarak belum diperhitungkan.

NB: - coret adalah paramater yang tidak signifikan. kode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression Persamaan

\[\text{Nilai Pengriman}_\text{ Cluster 4} \approx 50.88 + 98.48x^2 - 90.17x^3 + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]


Kluster Persamaan 5

The \(\frac{\text{Penyimpanan Sisa}}{\text{Derajat Kebebasan}} > 1 \text{ atau} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression berada di 4.810, jadi mungkin ada overdispersi, kami menyesuaikan untuk memperhitungkan overispersi dan menggunakanQuasi-Poisson Regression persamaan.

Quasi-Poisson: regression persamaan

\[\text{Nilai Pengeriman}_\text{ Cluster 5} \approx 3.169 - 0.068x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, parameter Dispersi untuk Quasi-Poisson keluarga di ambil pada 4.810. Itu \(\beta = -0.068\) atau \(\beta < 0\) emnyiratkan dengan setiap kenaikan unit Item perpesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.068.

Jika kita mengambil 8 paramter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (mencegat)
  • Number of Items per order (jumlah item per pesanan)
  • Price (Harga)
  • Estimated lead time (Perkiraan waktu tunggu)
  • Actaul lead time (waktu tunggu aktual)
  • Product’s Weight (g) (berat produk)
  • Product’s Length (cm) (panjang produk)
  • Product’s Height (cm) (tinggi produk)
  • Product’s Width (cm) (lebar produk)

…dan terakhir jarak belum diperhitungkan.

NB: - coret adalah parameter yang tidak signifikan. Kode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression persamaan

\[\text{Nilai Pengriman}_\text{ Cluster 5} \approx 22.00 - 95.53x + 27.75x^2 + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]


Persamaan Kluster 6

Itu \(\frac{\text{Penyimpangan Sisa}}{\text{Derajat Kebebasan}} > 1 \text{ or} \text{ } \frac{\text{Variance}}{\text{Mean}} \neq 1\) for Poisson Regression berada di 9.993, jadi mungkin ada overdispersi. kami menyesuaikan untuk memperhitungkan oversipersi dan menggunakan Quasi-Poisson Regression persamaan.

Quasi-Poisson: regression persamaan

\[\text{Nilai Pengiriman}_\text{ Cluster 6} \approx 3.461 - 0.012x + \epsilon \]

\[ x \Rightarrow \text{Jumlah Item Per Order}, \text{ } \epsilon \Rightarrow \text{error}\]

Interpretasi: Prediktor signifikan sebagai nilai-p \(\approx\) NOL, parameter Dsipersi untuk Quasi-Poisson keluarga di ambil pada 12.102. Itu \(\beta = -0.012\) atau \(\beta < 0\) emnyiratkan dengan setiap kenaikan unit Item perpesanan nilai pengeriman akan berkurang dan akan dikalikan dengan -0.012.

Jika kita mengambil 8 paramter berbeda untuk menentukan Nilai Freight kemudian menggunakan Quasi-Poisson regression - Prediktor berikut signifikan dengan nilai -p \(\approx\) NOL:

  • Intercept (Mencegat)
  • Jumlah item per pesanan
  • Price (Harga)
  • Estimated lead time (Perkiraan waktu tunggu)
  • Actaul lead time (Waktu tunggu aktual)
  • Product’s Weight (g) (Berat Produk)
  • Product’s Length (cm) (Panjang Produk)
  • Product’s Height (cm) (Tinggi Produk)
  • Product’s Width (cm) (Lebar Produk)

…dan terakhir jaral belum diperhitungkan.

NB: - coret adalah paramter yang tidak signifikan. kkode dapat diperoleh dari bagian ‘kode’.


Polynomial: regression persamaan

\[\text{Nilai Pengeriman}_\text{ Cluster 6} \approx 31.41 + 49.12x^2 + \epsilon \]

\[ x \Rightarrow \text{Jumlah item per Order}, \text{ } \epsilon \Rightarrow \text{error}\]


Penjual vs Pelanggan tersebar di seluruh negara bagian

Grafik di bawah ini menenjukkan bagaiman kepadatan pelanggan dan penjual tersebar di berbagai negara bagian Brazil. ini adalah prenstasi stagnan dari grafik “customers.sellers.states.gif.

Kesan Siklus Pesanan Pelanggan

Grafik adalah wawasan bergambar pertama tentang: bagaimana Siklus Pesanan Pelanggan (Waktu Pengriman Barang) telah berubah saat Olist mulai berkembang Grafik ini adalah presentasi stagnan dari grafik “Lead.Times.gift”, yang telah ditempatkan di bawah ini

Kesimpulan

Terimakasih telah memberikan waktu anda untuk buku catatan panjang ini.

Lampiran

Lampiran 01

Kode grafik “Pelanggan.Penjualan.Negara.gif” telah disediakan dibawah ini paket gganimate tetapi karean ketidak cocokan versi API.

Olist’s Customers - Sellers States’ density

CS.states %>% ggplot(aes(y = customer_state, x = seller_state))+ geom_jitter(fill = alpha(“blue”, 0.001), color = “white”, alpha = 0.36, size = 2.1, shape = 21)+ coord_polar(start = 0)+ theme_minimal()+ labs(title =“Order Status’ Density :: …{closest_state}…”, x = “Seller’s State”, y = “Customer’s State”, subtitle = “States :: Sellers vs. Customers”)+ transition_states(order_status, transition_length = 5, state_length = 5)


Lampiran 02

Grafik sebenarnya tealh dibuat dengan paket gganimate tetapi karena ketidak cocokan versi API, Kode Grafik “Lead Times.Gif”.

Average Lead Times per Quarter per Year

Lead.Time %>% ggplot(aes(x = purchase_quart, y =Est.Lead.t))+ geom_line(color = “red”, alpha = 0.81, linetype = “longdash”)+ geom_segment(aes(xend = 2018.4, yend = Est.Lead.t), linetype = 2, colour = ‘grey51’)+ geom_text(aes(x = 2018.3, label = Quart.Y, hjust = 1))+ geom_point(size=3, color=“red”, fill=alpha(“orange”, 0.63), alpha=0.54, shape=21, stroke=1)+ facet_wrap(~order_status)+ coord_polar(start = 0)+ transition_reveal(purchase_quart)+ theme(axis.text.x = element_blank(), axis.ticks = element_blank(), panel.background = element_blank(), panel.grid.major.x = element_line(color = “coral”, linetype = 3), panel.grid.major.y = element_line(color = “coral”, linetype = 3), strip.background = element_blank())+ labs(title = “Change in proposed average lead times per Quarter/Year”, subtitle = “Proposed average number of days to delivery”, x = “Purchasing Quarter/Year”, y= ” Estimated average lead time [… in Days]“, caption =”derived from Thomas Lin Pedersen’s Dec 2018 graph: ~github.com/thomasp85”)


