Olist dataset¶

Schema¶

import os
import pandas as pd
import numpy as np

geo = pd.read_csv('olist_geolocation_dataset.csv', dtype = {'geolocation_zip_code_prefix' : str})

geo

# Get the first three and four first digits of zip codes, 
# we will explore his further to understand how zup codes works

geo['geolocation_zip_code_prefix_1_digits'] = geo['geolocation_zip_code_prefix'].str[0:1]
geo['geolocation_zip_code_prefix_2_digits'] = geo['geolocation_zip_code_prefix'].str[0:2]
geo['geolocation_zip_code_prefix_3_digits'] = geo['geolocation_zip_code_prefix'].str[0:3]
geo['geolocation_zip_code_prefix_4_digits'] = geo['geolocation_zip_code_prefix'].str[0:4]

geo.head(10)

 geo['geolocation_zip_code_prefix'].nunique()
(r, c) = geo.shape
r/ geo['geolocation_zip_code_prefix'].nunique()

52.598632658427555

geo['geolocation_zip_code_prefix'].value_counts(ascending = True).to_frame().describe()

# Removing some outliers 
geo = geo[geo.geolocation_lat <= 5.27438888]
geo = geo[geo.geolocation_lng >= -73.98283055]
geo = geo[geo.geolocation_lat >= -33.75116944]
geo = geo[geo.geolocation_lng <= -34.79314722]

from datashader.utils import lnglat_to_meters as webm

x, y = webm(geo.geolocation_lng, geo.geolocation_lat)
geo['x'] = pd.Series(x)
geo['y'] = pd.Series(y)

geo.head(3)

Zip Codes in Brazil¶

# transforming the prefixes to int for plotting purposes
geo['geolocation_zip_code_prefix'] = geo['geolocation_zip_code_prefix'].astype(int)
geo['geolocation_zip_code_prefix_1_digits'] = geo['geolocation_zip_code_prefix_1_digits'].astype(int)
geo['geolocation_zip_code_prefix_2_digits'] = geo['geolocation_zip_code_prefix_2_digits'].astype(int)
geo['geolocation_zip_code_prefix_3_digits'] = geo['geolocation_zip_code_prefix_3_digits'].astype(int)
geo['geolocation_zip_code_prefix_4_digits'] = geo['geolocation_zip_code_prefix_4_digits'].astype(int)

brazil = geo 
agg_name = 'geolocation_zip_code_prefix'
brazil[agg_name].describe().to_frame()

import holoviews as hv
import geoviews as gv
import datashader as ds
from colorcet import fire, rainbow, bgy, bjy, bkr, kb, kr
from datashader.colors import colormap_select, Greys9
from holoviews.streams import RangeXY
from holoviews.operation.datashader import datashade, dynspread, rasterize
from bokeh.io import push_notebook, show, output_notebook
output_notebook()
hv.extension('bokeh')
%opts Overlay [width=800 height=600 toolbar='above' xaxis=None yaxis=None]
%opts QuadMesh [tools=['hover'] colorbar=True] (alpha=0 hover_alpha=0.2)

import holoviews as hv
import geoviews as gv
import datashader as ds
from colorcet import fire, rainbow, bgy, bjy, bkr, kb, kr, gwv
from datashader.colors import colormap_select, Greys9
from holoviews.streams import RangeXY
from holoviews.operation.datashader import datashade, dynspread, rasterize
from bokeh.io import push_notebook, show, output_notebook
output_notebook()
hv.extension('bokeh')

%opts Overlay [width=800 height=600 toolbar='above' xaxis=None yaxis=None]
%opts QuadMesh [tools=['hover'] colorbar=True] (alpha=0 hover_alpha=0.2)

T = 0.05
PX = 1

def plot_map(data, label, agg_data, agg_name, cmap):
    url="http://server.arcgisonline.com/ArcGIS/rest/services/Canvas/World_Dark_Gray_Base/MapServer/tile/{Z}/{Y}/{X}.png"
    geomap = gv.WMTS(url)
    points = hv.Points(gv.Dataset(data, kdims=['x', 'y'], vdims=[agg_name]))
    agg = datashade(points, element_type=gv.Image, aggregator=agg_data, cmap=cmap)
    zip_codes = dynspread(agg, threshold=T, max_px=PX)
    hover = hv.util.Dynamic(rasterize(points, aggregator=agg_data, width=50, height=25, streams=[RangeXY]), operation=hv.QuadMesh)
    hover = hover.options(cmap=cmap)
    img = geomap * zip_codes * hover
    img = img.relabel(label)
    return img

brazil.head(2)
agg_name

'geolocation_zip_code_prefix'

plot_map(brazil, 'Zip Codes in Brazil', ds.min(agg_name), agg_name, cmap = gwv)

WARNING:param.OverlayPlot103663: No plotting class for WMTS type and bokeh backend found.

import datashader as ds
from datashader import transfer_functions as tf
from functools import partial
from datashader.utils import export_image
from IPython.core.display import HTML, display
from colorcet import fire, rainbow, bgy, bjy, bkr, kb, kr

background = "black"
cm = partial(colormap_select, reverse=(background!="black"))
export = partial(export_image, background = background, export_path="export")
display(HTML("<style>.container { width:100% !important; }</style>"))
W = 700 

def create_map(data, cmap, data_agg, export_name='img'):
    pad = (data.x.max() - data.x.min())/50
    x_range, y_range = ((data.x.min() - pad, data.x.max() + pad), 
                             (data.y.min() - pad, data.y.max() + pad))

    ratio = (y_range[1] - y_range[0]) / (x_range[1] - x_range[0])

    plot_width  = int(W)
    plot_height = int(plot_width * ratio)
    if ratio > 1.5:
        plot_height = 550
        plot_width = int(plot_height / ratio)
        
    cvs = ds.Canvas(plot_width=plot_width, plot_height=plot_height, x_range=x_range, y_range=y_range)

    agg = cvs.points(data, 'x', 'y', data_agg)
    img = tf.shade(agg, cmap=cmap, how='eq_hist')
    return export(img, export_name)

create_map(brazil, gwv, ds.mean(agg_name),'brazil_zip_codes')

Zip Codes in States¶

geo.head(2)

def filter_data(level, name):
    df = geo[geo[level] == name]
    #remove outliers
    df = df[(df.x <= df.x.quantile(0.999)) & (df.x >= df.x.quantile(0.001))]
    df = df[(df.y <= df.y.quantile(0.999)) & (df.y >= df.y.quantile(0.001))]
    return df

sp = filter_data('geolocation_state', 'SP')
agg_name = 'geolocation_zip_code_prefix'
sp[agg_name].describe().to_frame()

plot_map(sp, 'Zip Codes in Sao Paulo State', ds.min(agg_name), agg_name, cmap = rainbow)

WARNING:param.OverlayPlot69111: No plotting class for WMTS type and bokeh backend found.

create_map(sp, rainbow, ds.mean(agg_name), 'sp_zip_codes')

Zip Codes in Large Cities¶

geo.head(3)

saopaulo = filter_data('geolocation_city', 'sao paulo')
agg_name = 'geolocation_zip_code_prefix'
saopaulo[agg_name].describe().to_frame()

plot_map(saopaulo, 'Zip Codes in Sao Paulo City', ds.min(agg_name), agg_name, cmap = rainbow)

WARNING:param.OverlayPlot71685: No plotting class for WMTS type and bokeh backend found.

create_map(saopaulo, rainbow, ds.mean(agg_name), 'sao_paulo_zip_codes')

Zip Codes in Small Cities¶

atibaia = geo[geo['geolocation_city']=='atibaia']
agg_name = 'geolocation_zip_code_prefix'
atibaia[agg_name].describe().to_frame()

plot_map(atibaia, 'Zip Codes in Atibaia', ds.min(agg_name), agg_name, cmap = rainbow)

WARNING:param.OverlayPlot72543: No plotting class for WMTS type and bokeh backend found.

create_map(atibaia, rainbow, ds.mean(agg_name), 'atibaia_zip_codes')

Abrangence of zip code digits¶

# Zip code: 2
df = filter_data('geolocation_zip_code_prefix_1_digits', 2)
create_map(df, cm(Greys9), ds.count(), 'zip_code_2')

# Zip code: 22
df = filter_data('geolocation_zip_code_prefix_2_digits', 22)
create_map(df, cm(Greys9), ds.count(), 'zip_code_22')

# Zip code: 220
df = filter_data('geolocation_zip_code_prefix_3_digits', 220)
create_map(df, cm(Greys9), ds.count(), 'zip_code_220')

# Zip code: 2201
df = filter_data('geolocation_zip_code_prefix_4_digits', 2201)
create_map(df, cm(Greys9), ds.count(), 'zip_code_2201')

# Zip code: 22010
df = filter_data('geolocation_zip_code_prefix', 22010)
create_map(df, cm(Greys9), ds.count(), 'zip_code_22010')

Where does most revenue comes from?¶

orders_df = pd.read_csv('olist_orders_dataset.csv')
order_items = pd.read_csv('olist_order_items_dataset.csv')
order_reviews = pd.read_csv('olist_order_reviews_dataset.csv')
customer = pd.read_csv('olist_customers_dataset.csv', dtype={'customer_zip_code_prefix': str})

# getting the first 3 digits of customer zipcode
customer['customer_zip_code_prefix_3_digits'] = customer['customer_zip_code_prefix'].str[0:3]
customer['customer_zip_code_prefix_3_digits'] = customer['customer_zip_code_prefix_3_digits'].astype(int)

brazil_geo = geo.set_index('geolocation_zip_code_prefix_3_digits').copy()

# merging the data
orders = orders_df.merge(order_items, on='order_id')
orders = orders.merge(customer, on='customer_id')
orders = orders.merge(order_reviews, on='order_id')

gp = orders.groupby('customer_zip_code_prefix_3_digits')['price'].sum().to_frame()
revenue = brazil_geo.join(gp)
revenue

gp = orders.groupby('customer_zip_code_prefix_3_digits')['price'].sum().to_frame()
revenue = brazil_geo.join(gp)
agg_name = 'revenue'
revenue[agg_name] = revenue.price / 1000

plot_map(revenue, 'Orders Revenue (thousands R$)', ds.mean(agg_name), agg_name, cmap=fire)

WARNING:param.OverlayPlot73401: No plotting class for WMTS type and bokeh backend found.

What is the Average Ticket?¶

gp = orders.groupby('order_id').agg({'price': 'sum', 'customer_zip_code_prefix_3_digits': 'max'})
gp = gp.groupby('customer_zip_code_prefix_3_digits')['price'].mean().to_frame()
avg_ticket = brazil_geo.join(gp)
agg_name = 'avg_ticket'
avg_ticket[agg_name] = avg_ticket.price

plot_map(avg_ticket, 'Orders Average Ticket (R$)', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot74259: No plotting class for WMTS type and bokeh backend found.

create_map(avg_ticket, bgy, ds.mean('avg_ticket'), 'avg_ticket_brazil')

Who pays more for transportation?¶

gp = orders.groupby('order_id').agg({'price': 'sum', 'freight_value': 'sum', 'customer_zip_code_prefix_3_digits': 'max'})
agg_name = 'freight_ratio'
gp[agg_name] = gp.freight_value / gp.price
gp = gp.groupby('customer_zip_code_prefix_3_digits')[agg_name].mean().to_frame()
freight_ratio = brazil_geo.join(gp)

plot_map(freight_ratio, 'Orders Average Freight Ratio', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot75117: No plotting class for WMTS type and bokeh backend found.

create_map(freight_ratio, bgy, ds.mean('freight_ratio'), 'freight_ratio_brazil')

Average Delivery Time¶

orders['order_delivered_customer_date'] = pd.to_datetime(orders.order_delivered_customer_date)
orders['order_estimated_delivery_date'] = pd.to_datetime(orders.order_estimated_delivery_date)
orders['order_delivered_carrier_date'] = pd.to_datetime(orders.order_delivered_carrier_date)
orders['actual_delivery_time'] = orders.order_delivered_customer_date - orders.order_delivered_carrier_date
orders['actual_delivery_time'] = orders['actual_delivery_time'].dt.days

gp = orders.groupby('customer_zip_code_prefix_3_digits')['actual_delivery_time'].mean().to_frame()
delivery_time = brazil_geo.join(gp)
agg_name = 'avg_delivery_time'
delivery_time[agg_name] = delivery_time['actual_delivery_time']

plot_map(delivery_time, 'Orders Average Delivery Time (days)', ds.mean(agg_name), agg_name, cmap=bjy)

WARNING:param.OverlayPlot75975: No plotting class for WMTS type and bokeh backend found.

create_map(delivery_time, bjy, ds.mean(agg_name), 'avg_delivery_time_brazil')

pr = filter_data('geolocation_state', 'PR').set_index('geolocation_zip_code_prefix_3_digits')
gp = orders.groupby('customer_zip_code_prefix_3_digits')['actual_delivery_time'].mean().to_frame()
pr_delivery_time = pr.join(gp)
pr_delivery_time[agg_name] = pr_delivery_time['actual_delivery_time']

plot_map(pr_delivery_time, 'Orders Average Delivery Time in Parana State (days)', ds.mean(agg_name), agg_name, cmap=bjy)

WARNING:param.OverlayPlot81123: No plotting class for WMTS type and bokeh backend found.

create_map(pr_delivery_time, bjy, ds.mean(agg_name), 'avg_delivery_time_pr')

Interesting Point About Brazilian Suburbs¶

riodejaneiro = filter_data('geolocation_city', 'rio de janeiro').set_index('geolocation_zip_code_prefix_3_digits')
gp = orders.groupby('customer_zip_code_prefix_3_digits')['actual_delivery_time'].mean().to_frame()
rj_delivery_time = riodejaneiro.join(gp)
rj_delivery_time[agg_name] = rj_delivery_time['actual_delivery_time']

plot_map(rj_delivery_time, 'Orders Average Delivery Time in Rio de Janeiro (days)', ds.mean(agg_name), agg_name, cmap=bjy)

WARNING:param.OverlayPlot92297: No plotting class for WMTS type and bokeh backend found.

saopaulo = filter_data('geolocation_city', 'sao paulo').set_index('geolocation_zip_code_prefix_3_digits')
gp = orders.groupby('customer_zip_code_prefix_3_digits')['actual_delivery_time'].mean().to_frame()
sp_delivery_time = saopaulo.join(gp)
sp_delivery_time[agg_name] = sp_delivery_time['actual_delivery_time']

plot_map(sp_delivery_time, 'Orders Average Delivery Time in Sao Paulo (days)', ds.mean(agg_name), agg_name, cmap=bjy)

WARNING:param.OverlayPlot83697: No plotting class for WMTS type and bokeh backend found.

create_map(sp_delivery_time, bjy, ds.mean(agg_name), 'sao_paulo_avg_delivery_time')

poa = filter_data('geolocation_city', 'porto alegre').set_index('geolocation_zip_code_prefix_3_digits')
gp = orders.groupby('customer_zip_code_prefix_3_digits')['actual_delivery_time'].mean().to_frame()
poa_delivery_time = poa.join(gp)
poa_delivery_time[agg_name] = poa_delivery_time['actual_delivery_time']

plot_map(poa_delivery_time, 'Orders Average Delivery Time in Porto Alegre (days)', ds.mean(agg_name), agg_name, cmap=bjy)

WARNING:param.OverlayPlot84555: No plotting class for WMTS type and bokeh backend found.

create_map(poa_delivery_time, bjy, ds.mean(agg_name), 'poa_avg_delivery_time')

Orders Average Review Score¶

gp = orders.groupby('customer_zip_code_prefix_3_digits')['review_score'].mean().to_frame()
score = brazil_geo.join(gp)
agg_name = 'avg_score'
score[agg_name] = score['review_score']

plot_map(score, 'Orders Average Review Score', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot86271: No plotting class for WMTS type and bokeh backend found.

create_map(score, bgy, ds.mean(agg_name), 'avg_review_score_brazil')

rj_score = riodejaneiro.join(gp)
rj_score[agg_name] = rj_score['review_score']

plot_map(rj_score, 'Orders Average Review Score in Rio de Janeiro', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot87987: No plotting class for WMTS type and bokeh backend found.

create_map(rj_score, bgy, ds.mean(agg_name), 'rio_de_janeiro_score')

Delayed Orders¶

orders['is_delayed'] = orders['order_delivered_customer_date'] > orders['order_estimated_delivery_date'] 
gp = orders.groupby('customer_zip_code_prefix_3_digits').agg({'is_delayed': ['sum', 'count']})
agg_name = 'delayed'
gp[agg_name] = gp['is_delayed']['sum'] / gp['is_delayed']['count']
gp = gp[agg_name]
order_delay = brazil_geo.join(gp)

plot_map(order_delay, 'Orders Delay Percentage in Brazil', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot88845: No plotting class for WMTS type and bokeh backend found.

create_map(order_delay, bgy, ds.mean(agg_name), 'brazil_order_delay_percentage')

rj_delay = riodejaneiro.join(gp)

plot_map(rj_delay, 'Orders Delay Percentage in Rio de Janeiro', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot89703: No plotting class for WMTS type and bokeh backend found.

create_map(rj_delay, bgy, ds.mean(agg_name), 'rio_de_janeiro_order_delay_percentage')

Does customers from small towns buy more items on a single order¶

orders['count'] = 1
gp = orders.groupby(['customer_zip_code_prefix_3_digits','order_id'], as_index=False)['count'].count()
gp = gp.groupby('customer_zip_code_prefix_3_digits')['count'].mean().to_frame()
avg_qty = brazil_geo.join(gp)
agg_name = 'avg_qty'
avg_qty[agg_name] = avg_qty['count']

plot_map(avg_qty, 'Average Item Quantity', ds.mean(agg_name), agg_name, cmap=bgy)

WARNING:param.OverlayPlot91142: No plotting class for WMTS type and bokeh backend found.

create_map(avg_qty, bgy, ds.mean(agg_name), 'avg_qty_items')

	geolocation_zip_code_prefix	geolocation_lat	geolocation_lng	geolocation_city	geolocation_state
0	01037	-23.545621	-46.639292	sao paulo	SP
1	01046	-23.546081	-46.644820	sao paulo	SP
2	01046	-23.546129	-46.642951	sao paulo	SP
3	01041	-23.544392	-46.639499	sao paulo	SP
4	01035	-23.541578	-46.641607	sao paulo	SP
...	...	...	...	...	...
1000158	99950	-28.068639	-52.010705	tapejara	RS
1000159	99900	-27.877125	-52.224882	getulio vargas	RS
1000160	99950	-28.071855	-52.014716	tapejara	RS
1000161	99980	-28.388932	-51.846871	david canabarro	RS
1000162	99950	-28.070104	-52.018658	tapejara	RS

	geolocation_zip_code_prefix
count	19015.000000
mean	52.598633
std	72.057907
min	1.000000
25%	10.000000
50%	29.000000
75%	66.500000
max	1146.000000

	geolocation_zip_code_prefix
count	1.000121e+06
mean	3.657332e+04
std	3.054939e+04
min	1.001000e+03
25%	1.107500e+04
50%	2.653000e+04
75%	6.350400e+04
max	9.999000e+04

	geolocation_zip_code_prefix
count	402651.000000
mean	9030.831782
std	5101.941134
min	1001.000000
25%	4661.000000
50%	8257.000000
75%	13330.000000
max	19990.000000

	geolocation_zip_code_prefix
count	135256.000000
mean	4137.454996
std	1804.189554
min	1001.000000
25%	2941.000000
50%	4166.000000
75%	5158.000000
max	9540.000000

Untitled

Nguyen_LSCM

9/7/2020

Olist dataset¶

Schema¶

Zip Codes in Brazil¶

Zip Codes in States¶

Zip Codes in Large Cities¶

Zip Codes in Small Cities¶

Abrangence of zip code digits¶

Where does most revenue comes from?¶

What is the Average Ticket?¶

Who pays more for transportation?¶

Average Delivery Time¶

Interesting Point About Brazilian Suburbs¶

Orders Average Review Score¶

Delayed Orders¶

Does customers from small towns buy more items on a single order¶

Work in progress...¶

	geolocation_zip_code_prefix	geolocation_lat	geolocation_lng	geolocation_city	geolocation_state	geolocation_zip_code_prefix_1_digits	geolocation_zip_code_prefix_2_digits	geolocation_zip_code_prefix_3_digits	geolocation_zip_code_prefix_4_digits	x	y
0	1037	-23.545621	-46.639292	sao paulo	SP	0	1	10	103	-5.191862e+06	-2.698137e+06
1	1046	-23.546081	-46.644820	sao paulo	SP	0	1	10	104	-5.192478e+06	-2.698193e+06

	geolocation_zip_code_prefix
count	1254.000000
mean	12945.042265
std	4.197704
min	12940.000000
25%	12942.000000
50%	12944.000000
75%	12948.000000
max	12954.000000