1 Load Packages

library(tidyverse)
library(scales)
ggplot2::theme_set(theme_minimal())

2 Read Data

mall_customers <- read_csv("../data/Mall_Customers.csv")
Parsed with column specification:
cols(
  CustomerID = col_double(),
  Gender = col_character(),
  Age = col_double(),
  `Annual Income (k$)` = col_double(),
  `Spending Score (1-100)` = col_double()
)
str(mall_customers)
Classes ‘spec_tbl_df’, ‘tbl_df’, ‘tbl’ and 'data.frame':    200 obs. of  5 variables:
 $ CustomerID            : num  1 2 3 4 5 6 7 8 9 10 ...
 $ Gender                : chr  "Male" "Male" "Female" "Female" ...
 $ Age                   : num  19 21 20 23 31 22 35 23 64 30 ...
 $ Annual Income (k$)    : num  15 15 16 16 17 17 18 18 19 19 ...
 $ Spending Score (1-100): num  39 81 6 77 40 76 6 94 3 72 ...
 - attr(*, "spec")=
  .. cols(
  ..   CustomerID = col_double(),
  ..   Gender = col_character(),
  ..   Age = col_double(),
  ..   `Annual Income (k$)` = col_double(),
  ..   `Spending Score (1-100)` = col_double()
  .. )

Data yang digunakan terdiri dari 200 observasi dan 5 peubah, yaitu

  • CustomerID : ID unik masing-masing customer
  • Gender : Jenis kelamin customer
  • Age : Usia (tahun)
  • Annual Income (k$) : Nominal yang dihabiskan oleh customer dalam satu tahun di mall tersebut (dalam ribu dollar).
  • Spending Score (1-100) : Score

3 Exploration

Kita lihat terlebih dahulu beberapa baris pertama dan terakhir dari data.

mall_customers %>% head()
mall_customers %>% tail()

Apakah ada nilai yang kosong (missing value)?

sum(is.na(mall_customers))
[1] 0

Ternyata dari data tersebut semuanya terisi dan tidak ada missing value.

mall_customers %>% summary()
   CustomerID        Gender               Age        Annual Income (k$)
 Min.   :  1.00   Length:200         Min.   :18.00   Min.   : 15.00    
 1st Qu.: 50.75   Class :character   1st Qu.:28.75   1st Qu.: 41.50    
 Median :100.50   Mode  :character   Median :36.00   Median : 61.50    
 Mean   :100.50                      Mean   :38.85   Mean   : 60.56    
 3rd Qu.:150.25                      3rd Qu.:49.00   3rd Qu.: 78.00    
 Max.   :200.00                      Max.   :70.00   Max.   :137.00    
 Spending Score (1-100)
 Min.   : 1.00         
 1st Qu.:34.75         
 Median :50.00         
 Mean   :50.20         
 3rd Qu.:73.00         
 Max.   :99.00         
mall_customers %>% 
  count(Gender) %>% 
  mutate(percentage = n/sum(n)) %>% 
  ggplot(aes(x = Gender, y = percentage)) +
  geom_bar(stat = "identity", color = "white", fill = "skyblue") +
  geom_text(aes(label = n), vjust = -0.25) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.60, by = 0.2), limits = c(0, 0.60)) +
  labs(title = "Proportion of Gender",
       y = "% of Customers",
       x = "Gender")

Customer yang datang untuk berbelanja lebih banyak perempuan, meskipun tidak terlalu jauh beda jika dilihat dari persentasenya.

mall_customers %>% 
  ggplot(aes(x = Age, y = ..density..)) +
  geom_histogram(binwidth = 1, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(15, 75, by = 5)) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.10, by = 0.025), limits = c(0, 0.10)) +
  labs(title = "Distribution of Age",
       y = "% of Customers",
       x = "Age")

Dilihat berdasarkan usianya, sebagian besar berusia di bawah 40 tahun. Customer dengan usia 33 tahun yang paling banyak berbelanja.

mall_customers %>% 
  ggplot(aes(x = Gender, y = Age)) +
  geom_boxplot(color = "skyblue", fill = "lightblue") +
  scale_y_continuous(breaks = seq(15, 75, by = 5)) +
  coord_flip() +
  labs(title = "Summary of Age vs Gender") +
  theme(line = element_blank())

Jika dipisahkan berdasarkan jenis kelaminnya, customer perempuan sebagian besar lebih muda, yaitu 35 tahun, dibandingkan denga customer laki-laki yang sebagian besar berusia sekitar 37 tahun. Customer laki-laki juga memiliki rentang usia yang lebih besar dibandingkan customer perempuan.

mall_customers %>% 
  ggplot(aes(x = `Annual Income (k$)`, y = ..density..)) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(10, 175, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.02)) +
  labs(title = "Distribution of Annual Income",
       y = "% of Customers",
       x = "Annual Income (k$)")

Customer yang berbelanja sebagian besar mempunyai penghasilan antara $40k dan $85k per tahun. Customer yang paling banyak berbelanja adalah yang penghasilannya sebesar $60k per tahun.

mall_customers %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))

mall_customers %>% 
  ggplot(aes(x = Gender, y = `Annual Income (k$)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(10, 175, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Annual Income vs Gender",
       y = "Annual Income (k$)") +
  theme(line = element_blank())

Customer laki-laki yang berbelanja rata-rata mempunyai penghasilan per tahun lebih besar dibandingkan dengan customer perempuan. Namun jika dilihat dari grafik boxplot di atas, terlihat ada customer laki-laki yang penghasilannya jauh di atas customer yang lain. Data seperti ini yang disebut sebagai pencilan atau outlier.

mall_customers %>% 
  filter(`Annual Income (k$)` < 130) %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))

Setelah pencilan tersebut dikeluarkan, terlihat bahwa rata-rata penghasilan per tahun antara customer laki-laki dan perempuan tidak jauh berbeda.

mall_customers %>% 
  ggplot(aes(x = `Spending Score (1-100)`, y = ..count../sum(..count..))) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(0, 100, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.15)) +
  labs(title = "Distribution of Spending Score",
       y = "% of Customers",
       x = "Spending Score")

mall_customers %>% 
  ggplot(aes(x = Gender, y = `Spending Score (1-100)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(0, 100, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Spending Score vs Gender",
       y = "Spending Score") +
  theme(line = element_blank())

4 Clustering

mall_customers %>% head()

Pada data yang digunakan, terdapat peubah CustomerID yang merupakan ID bagi masing-masing customer dan Gender yang berup nilai kategorik. Karena algoritma yang akan digunakan untuk melakukan segmentasi ini adalah k-means, maka dua peubah tersebut tidak akan digunakan.

abt <- mall_customers %>% 
  select(-CustomerID, -Gender) %>% 
  rename(Income = `Annual Income (k$)`, Spending = `Spending Score (1-100)`)

4.1 Correlation Check

Kita lihat terlebih dahulu korelasi antar peubah yang akan digunakan untuk segmentasi.

library(corrplot)
corrmatrix <- cor(abt)
corrplot(corrmatrix, method = "number")

corrtest <- cor.mtest(corrmatrix)$p %>% as.data.frame(row.names = names(abt))
names(corrtest) <- names(abt)
corrtest

Berdasarkan plot korelasi di atas, tidak ada peubah yang saling berkorelasi cukup tinggi dan dari hasil ujinya pun tidak ada nilai p-value yang kurang dari 0.05 (tarf nyata 5%). Jika ada peubah yang saling berkorelasi signifikan, maka sebaiknya dilakukan reduksi dimensi terlebih dahulu, misalnya dengan metode Principal Component Analysis (PCA).

4.2 Standardisasi

abt %>% head()
abt <- abt %>% scale()

4.3 Number of Cluster

set.seed(2019)
k <- 15
wss <- lapply(2:k, function(x)kmeans(x = abt, centers = x, iter.max = 1000, nstart = 25)$tot.withinss)
wss <- unlist(wss)
qplot(x = 2:k, y = wss, geom = "line") +
  geom_point() +
  scale_x_continuous(breaks = 2:k) +
  labs(title = "Optimum Number of Cluster - Elbow Method",
       x = "Number of Cluster")

Dengan menggunakan metode Elbow, masih agak membingungkan antara k = 4 atau k= 5 atau bahkan k = 6. Kita gunakan bantuan lain untuk mempermudah kita dalam membandingkan hasil tersebut.

library(gridExtra)
library(factoextra)
set.seed(2019)
p1 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "wss", k.max = 15)
p2 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "silhouette", k.max = 15)

grid.arrange(p1, p2)

Berdasarkan nilai silhouette kita dapatkan k = 5.

set.seed(2019)
kcl <- kmeans(x = abt, centers = 5, iter.max = 1000, nstart = 25)

4.4 Cluster Visualization

fviz_cluster(object = kcl, data = abt, ggtheme = theme_minimal(), shape = 19, show.clust.cent = TRUE, geom = "point")

4.5 Profiling

mall_customers <- mall_customers %>% 
  mutate(Cluster = kcl$cluster)

mall_customers %>% 
  count(Cluster, Gender) %>% 
  group_by(Cluster) %>% 
  mutate(pct = n/sum(n)) %>% 
  ggplot(aes(x = Cluster, y = pct, fill = Gender)) +
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = percent) +
  labs(title = "Proportion of Gender by Cluster",
       y = "% of Gender in Cluster")

cluster <- mall_customers %>% 
  group_by(Cluster) %>% 
  summarise(Member = n(),
            Age = mean(Age),
            Income = mean(`Annual Income (k$)`),
            Spending = mean(`Spending Score (1-100)`))  %>% 
  mutate(labels = case_when(Cluster == 1 ~ "Young & Spender",
                            Cluster == 2 ~ "Tua & Mapan",
                            Cluster == 3 ~ "Tua & Menabung",
                            Cluster == 4 ~ "Middle & Menabung",
                            Cluster == 5 ~ "Middle & Hemat",
                            TRUE ~ "Uncategorized"))
cluster
cluster %>% 
  mutate(pct = Member/sum(Member)) %>% 
  ggplot(aes(x = labels, y = pct)) +
  geom_bar(stat = "identity", color = "skyblue", fill = "lightblue") +
  geom_text(aes(label = Member), vjust = -0.25) +
  scale_y_continuous(labels = percent, limits = c(0, 0.4)) +
  labs(title = "Size of Cluster",
       x = "Cluster",
       y = "% of Customers")

---
title: "Mall Customers Segmentation"
author: "Aep Hidayatuloh"
date: "Last Update: `r format(Sys.Date(), '%Y %b %d')`"
output: 
  html_notebook:
    number_sections: yes
    theme: spacelab
    df_print: paged
    toc: yes
    toc_depth: 4
    toc_float: true
---

<style type="text/css">

body{ /* Normal   */
      font-size: 12px;
  }
td {  /* Table  */
  font-size: 12px;
}
h1.title {
  font-size: 38px;
  color: lightblue;
  font-weight: bold;
}
h1 { /* Header 1 */
  font-size: 24px;
  color: DarkBlue;
}
h2 { /* Header 2 */
  font-size: 20px;
  color: DarkBlue;
}
h3 { /* Header 3 */
  font-size: 16px;
#  font-family: "Times New Roman", Times, serif;
  color: DarkBlue;
}
h4 { /* Header 4 */
  font-size: 14px;
  color: DarkBlue;
}
code.r{ /* Code block */
    font-size: 12px;
}
pre { /* Code block - determines code spacing between lines */
    font-size: 12px;
}
</style>


```{r setup, include=FALSE}
#knitr::opts_chunk$set(echo = TRUE)
knitr::opts_chunk$set(echo=TRUE, results='hold', warning=FALSE, fig.show='hold', message=FALSE) 
options(scipen = 99)
```
# Load Packages
```{r pkg}
library(tidyverse)
library(scales)
ggplot2::theme_set(theme_minimal())
```

# Read Data
```{r}
mall_customers <- read_csv("../data/Mall_Customers.csv")
str(mall_customers)
```

Data yang digunakan terdiri dari 200 observasi dan 5 peubah, yaitu

* `CustomerID` : ID unik masing-masing customer
* `Gender` : Jenis kelamin customer
* `Age` : Usia (tahun)
* `Annual Income (k$)` : Nominal yang dihabiskan oleh customer dalam satu tahun di mall tersebut (dalam ribu dollar).
* `Spending Score (1-100)` : Score

# Exploration
Kita lihat terlebih dahulu beberapa baris pertama dan terakhir dari data.
```{r}
mall_customers %>% head()
mall_customers %>% tail()
```

Apakah ada nilai yang kosong (missing value)?
```{r}
sum(is.na(mall_customers))
```
Ternyata dari data tersebut semuanya terisi dan tidak ada missing value.

```{r}
mall_customers %>% summary()
```

```{r}
mall_customers %>% 
  count(Gender) %>% 
  mutate(percentage = n/sum(n)) %>% 
  ggplot(aes(x = Gender, y = percentage)) +
  geom_bar(stat = "identity", color = "white", fill = "skyblue") +
  geom_text(aes(label = n), vjust = -0.25) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.60, by = 0.2), limits = c(0, 0.60)) +
  labs(title = "Proportion of Gender",
       y = "% of Customers",
       x = "Gender")
```
Customer yang datang untuk berbelanja lebih banyak perempuan, meskipun tidak terlalu jauh beda jika dilihat dari persentasenya.

```{r}
mall_customers %>% 
  ggplot(aes(x = Age, y = ..density..)) +
  geom_histogram(binwidth = 1, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(15, 75, by = 5)) +
  scale_y_continuous(labels = percent, breaks = seq(0, 0.10, by = 0.025), limits = c(0, 0.10)) +
  labs(title = "Distribution of Age",
       y = "% of Customers",
       x = "Age")
```

Dilihat berdasarkan usianya, sebagian besar berusia di bawah 40 tahun. Customer dengan usia 33 tahun yang paling banyak berbelanja.

```{r}
mall_customers %>% 
  ggplot(aes(x = Gender, y = Age)) +
  geom_boxplot(color = "skyblue", fill = "lightblue") +
  scale_y_continuous(breaks = seq(15, 75, by = 5)) +
  coord_flip() +
  labs(title = "Summary of Age vs Gender") +
  theme(line = element_blank())
```

Jika dipisahkan berdasarkan jenis kelaminnya, customer perempuan sebagian besar lebih muda, yaitu 35 tahun, dibandingkan denga customer laki-laki yang sebagian besar berusia sekitar 37 tahun. Customer laki-laki juga memiliki rentang usia yang lebih besar dibandingkan customer perempuan.

```{r}
mall_customers %>% 
  ggplot(aes(x = `Annual Income (k$)`, y = ..density..)) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(10, 175, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.02)) +
  labs(title = "Distribution of Annual Income",
       y = "% of Customers",
       x = "Annual Income (k$)")
```

Customer yang berbelanja sebagian besar mempunyai penghasilan antara \$40k dan \$85k per tahun. Customer yang paling banyak berbelanja adalah yang penghasilannya sebesar \$60k per tahun.

```{r}
mall_customers %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))

mall_customers %>% 
  ggplot(aes(x = Gender, y = `Annual Income (k$)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(10, 175, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Annual Income vs Gender",
       y = "Annual Income (k$)") +
  theme(line = element_blank())
```

Customer laki-laki yang berbelanja rata-rata mempunyai penghasilan per tahun lebih besar dibandingkan dengan customer perempuan. Namun jika dilihat dari grafik boxplot di atas, terlihat ada customer laki-laki yang penghasilannya jauh di atas customer yang lain. Data seperti ini yang disebut sebagai pencilan atau outlier.

```{r}
mall_customers %>% 
  filter(`Annual Income (k$)` < 130) %>% 
  group_by(Gender) %>% 
  summarise(`Avg Annual Income (k$)` = mean(`Annual Income (k$)`))
```

Setelah pencilan tersebut dikeluarkan, terlihat bahwa rata-rata penghasilan per tahun antara customer laki-laki dan perempuan tidak jauh berbeda.

```{r}
mall_customers %>% 
  ggplot(aes(x = `Spending Score (1-100)`, y = ..count../sum(..count..))) +
  geom_histogram(binwidth = 5, color = "skyblue", fill = "lightblue") +
  scale_x_continuous(breaks = seq(0, 100, by = 10)) +
  scale_y_continuous(labels = percent, limits = c(0, 0.15)) +
  labs(title = "Distribution of Spending Score",
       y = "% of Customers",
       x = "Spending Score")
```

```{r}
mall_customers %>% 
  ggplot(aes(x = Gender, y = `Spending Score (1-100)`)) +
  geom_boxplot(color = "skyblue", fill = "lightblue", outlier.color = "red") +
  scale_y_continuous(breaks = seq(0, 100, by = 10)) +
  coord_flip() +
  labs(title = "Summary of Spending Score vs Gender",
       y = "Spending Score") +
  theme(line = element_blank())
```

# Clustering

```{r}
mall_customers %>% head()
```
Pada data yang digunakan, terdapat peubah `CustomerID` yang merupakan ID bagi masing-masing customer dan `Gender` yang berup nilai kategorik. Karena algoritma yang akan digunakan untuk melakukan segmentasi ini adalah k-means, maka dua peubah tersebut tidak akan digunakan.

```{r}
abt <- mall_customers %>% 
  select(-CustomerID, -Gender) %>% 
  rename(Income = `Annual Income (k$)`, Spending = `Spending Score (1-100)`)
```

## Correlation Check

Kita lihat terlebih dahulu korelasi antar peubah yang akan digunakan untuk segmentasi.
```{r}
library(corrplot)
corrmatrix <- cor(abt)
corrplot(corrmatrix, method = "number")
corrtest <- cor.mtest(corrmatrix)$p %>% as.data.frame(row.names = names(abt))
names(corrtest) <- names(abt)
corrtest
```

Berdasarkan plot korelasi di atas, tidak ada peubah yang saling berkorelasi cukup tinggi dan dari hasil ujinya pun tidak ada nilai p-value yang kurang dari 0.05 (tarf nyata 5%). Jika ada peubah yang saling berkorelasi signifikan, maka sebaiknya dilakukan reduksi dimensi terlebih dahulu, misalnya dengan metode Principal Component Analysis (PCA).

## Standardisasi
```{r}
abt %>% head()
```

```{r}
abt <- abt %>% scale()
```

## Number of Cluster
```{r}
set.seed(2019)
k <- 15
wss <- lapply(2:k, function(x)kmeans(x = abt, centers = x, iter.max = 1000, nstart = 25)$tot.withinss)
wss <- unlist(wss)
qplot(x = 2:k, y = wss, geom = "line") +
  geom_point() +
  scale_x_continuous(breaks = 2:k) +
  labs(title = "Optimum Number of Cluster - Elbow Method",
       x = "Number of Cluster")
```

Dengan menggunakan metode Elbow, masih agak membingungkan antara k = 4 atau k= 5 atau bahkan k = 6. Kita gunakan bantuan lain untuk mempermudah kita dalam membandingkan hasil tersebut.
```{r}
library(gridExtra)
library(factoextra)
set.seed(2019)
p1 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "wss", k.max = 15)
p2 <- fviz_nbclust(x = abt, FUNcluster = kmeans, method = "silhouette", k.max = 15)

grid.arrange(p1, p2)
```
Berdasarkan nilai silhouette kita dapatkan k = 5.

```{r}
set.seed(2019)
kcl <- kmeans(x = abt, centers = 5, iter.max = 1000, nstart = 25)
```

## Cluster Visualization
```{r}
fviz_cluster(object = kcl, data = abt, ggtheme = theme_minimal(), shape = 19, show.clust.cent = TRUE, geom = "point")
```


## Profiling
```{r}
mall_customers <- mall_customers %>% 
  mutate(Cluster = kcl$cluster)

mall_customers %>% 
  count(Cluster, Gender) %>% 
  group_by(Cluster) %>% 
  mutate(pct = n/sum(n)) %>% 
  ggplot(aes(x = Cluster, y = pct, fill = Gender)) +
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = percent) +
  labs(title = "Proportion of Gender by Cluster",
       y = "% of Gender in Cluster")
```

```{r}
cluster <- mall_customers %>% 
  group_by(Cluster) %>% 
  summarise(Member = n(),
            Age = mean(Age),
            Income = mean(`Annual Income (k$)`),
            Spending = mean(`Spending Score (1-100)`))  %>% 
  mutate(labels = case_when(Cluster == 1 ~ "Young & Spender",
                            Cluster == 2 ~ "Tua & Mapan",
                            Cluster == 3 ~ "Tua & Menabung",
                            Cluster == 4 ~ "Middle & Menabung",
                            Cluster == 5 ~ "Middle & Hemat",
                            TRUE ~ "Uncategorized"))
cluster
```

```{r}
cluster %>% 
  mutate(pct = Member/sum(Member)) %>% 
  ggplot(aes(x = labels, y = pct)) +
  geom_bar(stat = "identity", color = "skyblue", fill = "lightblue") +
  geom_text(aes(label = Member), vjust = -0.25) +
  scale_y_continuous(labels = percent, limits = c(0, 0.4)) +
  labs(title = "Size of Cluster",
       x = "Cluster",
       y = "% of Customers")
```

```{r}

```

