1 Load Packages

library(tidyverse)
library(scales)
ggplot2::theme_set(theme_minimal())

2 Read Data

mall_customers <- read_csv("../data/Mall_Customers.csv")
Parsed with column specification:
cols(
  CustomerID = col_double(),
  Gender = col_character(),
  Age = col_double(),
  `Annual Income (k$)` = col_double(),
  `Spending Score (1-100)` = col_double()
)
str(mall_customers)
Classes ‘spec_tbl_df’, ‘tbl_df’, ‘tbl’ and 'data.frame':    200 obs. of  5 variables:
 $ CustomerID            : num  1 2 3 4 5 6 7 8 9 10 ...
 $ Gender                : chr  "Male" "Male" "Female" "Female" ...
 $ Age                   : num  19 21 20 23 31 22 35 23 64 30 ...
 $ Annual Income (k$)    : num  15 15 16 16 17 17 18 18 19 19 ...
 $ Spending Score (1-100): num  39 81 6 77 40 76 6 94 3 72 ...
 - attr(*, "spec")=
  .. cols(
  ..   CustomerID = col_double(),
  ..   Gender = col_character(),
  ..   Age = col_double(),
  ..   `Annual Income (k$)` = col_double(),
  ..   `Spending Score (1-100)` = col_double()
  .. )

Data yang digunakan terdiri dari 200 observasi dan 5 peubah, yaitu

  • CustomerID : ID unik masing-masing customer
  • Gender : Jenis kelamin customer
  • Age : Usia (tahun)
  • Annual Income (k$) : Nominal yang dihabiskan oleh customer dalam satu tahun di mall tersebut (dalam ribu dollar).
  • Spending Score (1-100) : Score

3 Exploration

Kita lihat terlebih dahulu beberapa baris pertama dan terakhir dari data.

mall_customers %>% head()
mall_customers %>% tail()

Apakah ada nilai yang kosong (missing value)?

sum(is.na(mall_customers))
[1] 0

Ternyata dari data tersebut semuanya terisi dan tidak ada missing value.

mall_customers %>% summary()
   CustomerID        Gender               Age        Annual Income (k$)
 Min.   :  1.00   Length:200         Min.   :18.00   Min.   : 15.00    
 1st Qu.: 50.75   Class :character   1st Qu.:28.75   1st Qu.: 41.50    
 Median :100.50   Mode  :character   Median :36.00   Median : 61.50    
 Mean   :100.50                      Mean   :38.85   Mean   : 60.56    
 3rd Qu.:150.25                      3rd Qu.:49.00   3rd Qu.: 78.00    
 Max.   :200.00                      Max.   :70.00   Max.   :137.00    
 Spending Score (1-100)
 Min.   : 1.00         
 1st Qu.:34.75         
 Median :50.00         
 Mean   :50.20         
 3rd Qu.:73.00         
 Max.   :99.00         
mall_customers %>% 
  count(Gender) %>% 
  mutate(percentage = n/sum(n)) %>% 
  ggplot(aes(x = Gender, y = percentage)) +
  geom_bar(stat = "identity", color = "white", fill = "skyblue") +
  geom_text(aes(label = n), vjust = -0.25) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.60, by = 0.2), limits = c(0, 0.60)) +
  labs(title = "Proportion of Gender",
       y = "% of Customers",
       x = "Gender")

Customer yang datang untuk berbelanja lebih banyak perempuan, meskipun tidak terlalu jauh beda jika dilihat dari persentasenya.

mall_customers %>% 
  ggplot(aes(x = Age, y = ..density..)) +
  geom_histogram(binwidth = 1, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(15, 75, by = 5)) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.10, by = 0.025), limits = c(0, 0.10)) +
  labs(title = "Distribution of Age",
       y = "% of Customers",
       x = "Age")

Dilihat berdasarkan usianya, sebagian besar berusia di bawah 40 tahun. Customer dengan usia 33 tahun yang paling banyak berbelanja.

mall_customers %>% 
  ggplot(aes(x = Gender, y = Age)) +
  geom_boxplot(color = "skyblue", fill = "lightblue") +
  scale_y_continuous(breaks = seq(15, 75, by = 5)) +
  coord_flip() +
  labs(title = "Summary of Age vs Gender") +
  theme(line = element_blank())

Jika dipisahkan berdasarkan jenis kelaminnya, customer perempuan sebagian besar lebih muda, yaitu 35 tahun, dibandingkan denga customer laki-laki yang sebagian besar berusia sekitar 37 tahun. Customer laki-laki juga memiliki rentang usia yang lebih besar dibandingkan customer perempuan.

mall_customers %>% 
  ggplot(aes(x = `Annual Income (k$)`, y = ..density..)) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(10, 175, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.02)) +
  labs(title = "Distribution of Annual Income",
       y = "% of Customers",
       x = "Annual Income (k$)")

Customer yang berbelanja sebagian besar mempunyai penghasilan antara $40k dan $85k per tahun. Customer yang paling banyak berbelanja adalah yang penghasilannya sebesar $60k per tahun.

mall_customers %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))

mall_customers %>% 
  ggplot(aes(x = Gender, y = `Annual Income (k$)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(10, 175, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Annual Income vs Gender",
       y = "Annual Income (k$)") +
  theme(line = element_blank())

Customer laki-laki yang berbelanja rata-rata mempunyai penghasilan per tahun lebih besar dibandingkan dengan customer perempuan. Namun jika dilihat dari grafik boxplot di atas, terlihat ada customer laki-laki yang penghasilannya jauh di atas customer yang lain. Data seperti ini yang disebut sebagai pencilan atau outlier.

mall_customers %>% 
  filter(`Annual Income (k$)` < 130) %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))

Setelah pencilan tersebut dikeluarkan, terlihat bahwa rata-rata penghasilan per tahun antara customer laki-laki dan perempuan tidak jauh berbeda.

mall_customers %>% 
  ggplot(aes(x = `Spending Score (1-100)`, y = ..count../sum(..count..))) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(0, 100, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.15)) +
  labs(title = "Distribution of Spending Score",
       y = "% of Customers",
       x = "Spending Score")

mall_customers %>% 
  ggplot(aes(x = Gender, y = `Spending Score (1-100)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(0, 100, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Spending Score vs Gender",
       y = "Spending Score") +
  theme(line = element_blank())

4 Clustering

mall_customers %>% head()

Pada data yang digunakan, terdapat peubah CustomerID yang merupakan ID bagi masing-masing customer dan Gender yang berup nilai kategorik. Karena algoritma yang akan digunakan untuk melakukan segmentasi ini adalah k-means, maka dua peubah tersebut tidak akan digunakan.

abt <- mall_customers %>% 
  select(-CustomerID, -Gender) %>% 
  rename(Income = `Annual Income (k$)`, Spending = `Spending Score (1-100)`)

4.1 Correlation Check

Kita lihat terlebih dahulu korelasi antar peubah yang akan digunakan untuk segmentasi.

library(corrplot)
corrmatrix <- cor(abt)
corrplot(corrmatrix, method = "number")

corrtest <- cor.mtest(corrmatrix)$p %>% as.data.frame(row.names = names(abt))
names(corrtest) <- names(abt)
corrtest

Berdasarkan plot korelasi di atas, tidak ada peubah yang saling berkorelasi cukup tinggi dan dari hasil ujinya pun tidak ada nilai p-value yang kurang dari 0.05 (tarf nyata 5%). Jika ada peubah yang saling berkorelasi signifikan, maka sebaiknya dilakukan reduksi dimensi terlebih dahulu, misalnya dengan metode Principal Component Analysis (PCA).

4.2 Standardisasi

abt %>% head()
abt <- abt %>% scale()

4.3 Number of Cluster

set.seed(2019)
k <- 15
wss <- lapply(2:k, function(x)kmeans(x = abt, centers = x, iter.max = 1000, nstart = 25)$tot.withinss)
wss <- unlist(wss)
qplot(x = 2:k, y = wss, geom = "line") +
  geom_point() +
  scale_x_continuous(breaks = 2:k) +
  labs(title = "Optimum Number of Cluster - Elbow Method",
       x = "Number of Cluster")

Dengan menggunakan metode Elbow, masih agak membingungkan antara k = 4 atau k= 5 atau bahkan k = 6. Kita gunakan bantuan lain untuk mempermudah kita dalam membandingkan hasil tersebut.

library(gridExtra)
library(factoextra)
set.seed(2019)
p1 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "wss", k.max = 15)
p2 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "silhouette", k.max = 15)

grid.arrange(p1, p2)

Berdasarkan nilai silhouette kita dapatkan k = 5.

set.seed(2019)
kcl <- kmeans(x = abt, centers = 5, iter.max = 1000, nstart = 25)

4.4 Cluster Visualization

fviz_cluster(object = kcl, data = abt, ggtheme = theme_minimal(), shape = 19, show.clust.cent = TRUE, geom = "point")

4.5 Profiling

mall_customers <- mall_customers %>% 
  mutate(Cluster = kcl$cluster)

mall_customers %>% 
  count(Cluster, Gender) %>% 
  group_by(Cluster) %>% 
  mutate(pct = n/sum(n)) %>% 
  ggplot(aes(x = Cluster, y = pct, fill = Gender)) +
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = percent) +
  labs(title = "Proportion of Gender by Cluster",
       y = "% of Gender in Cluster")

cluster <- mall_customers %>% 
  group_by(Cluster) %>% 
  summarise(Member = n(),
            Age = mean(Age),
            Income = mean(`Annual Income (k$)`),
            Spending = mean(`Spending Score (1-100)`))  %>% 
  mutate(labels = case_when(Cluster == 1 ~ "Young & Spender",
                            Cluster == 2 ~ "Tua & Mapan",
                            Cluster == 3 ~ "Tua & Menabung",
                            Cluster == 4 ~ "Middle & Menabung",
                            Cluster == 5 ~ "Middle & Hemat",
                            TRUE ~ "Uncategorized"))
cluster
cluster %>% 
  mutate(pct = Member/sum(Member)) %>% 
  ggplot(aes(x = labels, y = pct)) +
  geom_bar(stat = "identity", color = "skyblue", fill = "lightblue") +
  geom_text(aes(label = Member), vjust = -0.25) +
  scale_y_continuous(labels = percent, limits = c(0, 0.4)) +
  labs(title = "Size of Cluster",
       x = "Cluster",
       y = "% of Customers")

