Sys.setlocale("LC_ALL","C")
packages = c(
"dplyr","ggplot2","d3heatmap","googleVis","devtools","plotly", "xgboost",
"magrittr","caTools","ROCR","corrplot", "rpart", "rpart.plot",
"doParallel", "caret", "glmnet", "Matrix", "e1071", "randomForest",
"flexclust", "FactoMineR", "factoextra"
)
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(flexclust)
library(FactoMineR)
library(factoextra)
A. 集群分析與尺度縮減
A1. 批發交易資料
W = read.csv('data/wholesales.csv')
W$Channel = factor( paste0("Ch",W$Channel) )
W$Region = factor( paste0("Reg",W$Region) )
W[3:8] = lapply(W[3:6], log, base=10)
summary(W)
Channel Region Fresh Milk
Ch1:298 Reg1: 77 Min. :0.477 Min. :1.74
Ch2:142 Reg2: 47 1st Qu.:3.495 1st Qu.:3.19
Reg3:316 Median :3.930 Median :3.56
Mean :3.792 Mean :3.53
3rd Qu.:4.229 3rd Qu.:3.86
Max. :5.050 Max. :4.87
Grocery Frozen Detergents_Paper
Min. :0.477 Min. :1.40 Min. :0.477
1st Qu.:3.333 1st Qu.:2.87 1st Qu.:3.495
Median :3.677 Median :3.18 Median :3.930
Mean :3.666 Mean :3.17 Mean :3.792
3rd Qu.:4.028 3rd Qu.:3.55 3rd Qu.:4.229
Max. :4.967 Max. :4.78 Max. :5.050
Delicassen
Min. :1.74
1st Qu.:3.19
Median :3.56
Mean :3.53
3rd Qu.:3.86
Max. :4.87
A1.小組討論
學習使用apply系列操作資料,並且使用summary來看一下資料的平均值及四分位數
A2. 兩個區隔變數
hc = W[,3:4] %>% scale %>% dist %>% hclust
plot(hc)
rect.hclust(hc, k=5, border="red")

W$group = cutree(hc, k=5) %>% factor
ggplot(W, aes(x=Fresh, y=Milk, col=group)) +
geom_point(size=3, alpha=0.5) +
theme_light()

A3. 六個區隔變數
hc = W[,3:7] %>% scale %>% dist %>% hclust
plot(hc)
W$group = factor(cutree(hc, k=8))
rect.hclust(hc, k=8, border="red")

library(FactoMineR)
library(factoextra)
fviz_dend(
hc, k=8, show_labels=F, rect=T, rect_fill=T,
labels_track_height=0,
palette="ucscgb", rect_border="ucscgb")
A4. 尺度縮減
Dimension Reduction with PCA (Principle Component Analysis, 主成分分析)
W[,3:8] %>% PCA(graph=F) %>% fviz_pca_biplot(
label="var", col.ind=W$group,
pointshape=19, mean.point=F,
addEllipses=T, ellipse.level=0.7,
ellipse.type = "convex", palette="ucscgb",
repel=T
)
Warning messages:
1: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
EOF within quoted string
2: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
EOF within quoted string

小組討論A4.
- 在區隔變數很多的時候維度很大
- 超過3維以上的資料其實不好看
- 超過3維以上的資料學習使用PCA來分析
1. Cluster Analysis for Movies
主要議題:依類型(Genre)對電影分類
學習重點:
- 集群分析的基本觀念
- 距離矩陣:Distance Matrix
- 層級式集群分析:Hierarchical Cluster Analysis
- 樹狀圖(Dendrogram)的判讀
- 依據樹狀圖決定要分多少群
- 以群組平均值檢視各族群的屬性
1.1 整理資料
M = read.table("data/movieLens.txt", header=FALSE, sep="|",quote="\"")
# Assign column names
colnames(M) = c(
"ID", "Title", "ReleaseDate", "VideoReleaseDate", "IMDB",
"Unknown", "Action", "Adventure", "Animation", "Childrens",
"Comedy", "Crime", "Documentary", "Drama", "Fantasy", "FilmNoir",
"Horror", "Musical", "Mystery", "Romance", "SciFi", "Thriller",
"War", "Western")
# Remove unnecessary variables
M$ID = NULL
M$ReleaseDate = NULL
M$VideoReleaseDate = NULL
M$IMDB = NULL
# Remove duplicates
M = unique(M)
1.2 檢視資料
head(M, 5)
sum(M$Comedy) # 喜劇片
[1] 502
sum(M$Western) # 西部片
[1] 27
sum(M$Romance | M$Drama) # 浪漫劇情片
[1] 863
1.3 距離矩陣
dmx= dist(M[2:20], method="euclidean")
dmx %>% as.matrix %>% dim
[1] 1664 1664
1.4 層級式集群分析
hclust1 = hclust(dmx, method = "ward.D")
1.5 檢視樹狀圖
plot(hclust1)
rect.hclust(hclust1, k=5, border="red")

1.6 切割群組
grp = cutree(hclust1, k = 5)
table(grp)
grp
1 2 3 4 5
824 370 209 196 65
1.7 檢查群組屬性
tapply(M$Action, grp, mean)
1 2 3 4 5
0.28641 0.00000 0.00000 0.06633 0.00000
tapply(M$Romance, grp, mean)
1 2 3 4 5
0.05825 0.00000 0.00000 1.00000 0.00000
1.8 The sapply-split-... Combo:
#split(M[,2:20], grp):dataframe切成5個group
sapply(split(M[,2:20], grp), colMeans) %>% round(3)
1 2 3 4 5
Unknown 0.002 0 0 0.000 0
Action 0.286 0 0 0.066 0
Adventure 0.161 0 0 0.000 0
Animation 0.051 0 0 0.000 0
Childrens 0.146 0 0 0.000 0
Comedy 0.177 0 1 0.418 1
Crime 0.123 0 0 0.031 0
Documentary 0.061 0 0 0.000 0
Drama 0.238 1 0 0.434 1
Fantasy 0.027 0 0 0.000 0
FilmNoir 0.028 0 0 0.005 0
Horror 0.107 0 0 0.010 0
Musical 0.068 0 0 0.000 0
Mystery 0.073 0 0 0.000 0
Romance 0.058 0 0 1.000 0
SciFi 0.121 0 0 0.000 0
Thriller 0.279 0 0 0.092 0
War 0.086 0 0 0.000 0
Western 0.033 0 0 0.000 0
1.9 資料視覺化
layout(matrix(c(1,2,2), 3, 1))
par(mar=c(2,3,1,1), cex=0.8)
table(grp) %>% barplot(col=3:7, names.arg=paste0("Group-",1:5))
par(mar=c(6,3,2,1))
sapply(split(M[,2:20], grp), colMeans) %>% t %>%
barplot(beside=T, col=3:7, las=2)

【問題討論】
從管理的角度來看,我們為甚麼要分群?
我們為甚麼要做尺度縮減?
我們要如何把集群分析的結果轉化為策略呢?
- 首先我們要看我們分群後不同群有什麼不同的特色
- 例如我們今天分出來的一群可能是一些特別喜歡看恐怖片的顧客,那我們就可以推薦咒怨;如果今天分出來的一群是比較喜歡看愛情片的顧客,我們可以推薦鐵達尼號。
- 所以我們必須針對分出來的群去看他們有什麼特色,我們要投其所好,為他們量身打造一個策略。
小組討論1.Cluster Analysis for Movies
- 一個電影的種類有非常多,我們學習使用vector及boolean value來encode每個電影有哪些類別
- Encode的漂亮我們就可以用距離來衡量不同電影的相似情形
- Hierarchical分群完後使用tapply+mean來看群內的電影種類占比
- 使用sapply&split&combo來看不同群內電影種類占比
2. Flower Image
2.1 整理資料
# Read data
flower = read.csv("data/flower.csv", header=FALSE)
# Change the data type to matrix
flowerMatrix = as.matrix(flower)
dim(flowerMatrix)
[1] 50 50
# Turn matrix into a vector
flowerVector = as.vector(flowerMatrix)
length(flowerVector)
[1] 2500
2.2 距離矩陣
# Compute distances
distance = dist(flowerVector, method = "euclidean")
2.3 層級式集群分析
# Hierarchical clustering
clusterIntensity = hclust(distance, method="ward.D")
2.4 樹狀圖
# Plot the dendrogram
plot(clusterIntensity)
# Select 3 clusters
rect.hclust(clusterIntensity, k = 3, border = "red")

切割群組
flowerClusters = cutree(clusterIntensity, k = 3)
table(flowerClusters)
flowerClusters
1 2 3
1634 272 594
# flowerClusters
族群平均(畫素顏色深淺度)
# Find mean intensity values
tapply(flowerVector, flowerClusters, mean)
1 2 3
0.08574 0.50826 0.93148
圖像比較
# Plot the image and the clusters
dim(flowerClusters) = c(50,50)
par(mfrow=c(1,2), mar=c(2,2,2,2))
# Original image
image(flowerMatrix,axes=FALSE,col=grey(seq(0,1,length=256)),main="Original")
# New image
image(flowerClusters, axes = FALSE, main="3 Cluster")

小組討論 2. Flower Image
- 學習用分群技巧來做圖片處理
- 原來的圖片依照顏色暗淺來分成3群
3. MRI Image
3.1 整理資料
# Read data
healthy = read.csv("data/healthy.csv", header=FALSE)
healthyMatrix = as.matrix(healthy)
dim(healthyMatrix)
[1] 566 646
3.2 畫出圖形
# Plot image
par(mar=c(1,1,1,1))
image(healthyMatrix,axes=FALSE,col=grey(seq(0,1,length=256)))

3.3 距離矩陣
# Compute distances
healthyVector = as.vector(healthyMatrix)
distance = dist(healthyVector, method = "euclidean")
Error: cannot allocate vector of size 498.0 Gb
【Q】 What is the problem?
- Hierarchical用距離衡量相似度,需要計算n(n-1)/2=66844659430,占用極大的空間
- 所以當n很大時我們使用Kmeans
3.4 KMeans集群分析
# Run k-means
k = 5
set.seed(1)
KMC = kmeans(healthyVector, centers = k, iter.max = 1000)
3.5 檢查分群結果
# View(KMC)
table(KMC$cluster)
1 2 3 4 5
20556 101085 133162 31555 79278
KMC$centers
[,1]
1 0.48177
2 0.10619
3 0.01962
4 0.30943
5 0.18421
3.6 畫出分群結果
# Extract clusters
X = KMC$cluster
# Plot the image with the clusters
dim(X) = c(nrow(healthyMatrix), ncol(healthyMatrix))
# Plot image
par(mar=c(1,1,1,1))
image(X, axes = FALSE, col=rainbow(k))

3.7 讀進、轉換測試圖形
tumor = read.csv("data/tumor.csv", header=FALSE)
tumorMatrix = as.matrix(tumor)
dim(tumorMatrix)
[1] 571 512
tumorVector = as.vector(tumorMatrix)
length(tumorVector)
[1] 292352
3.8 將原圖形之分群規則套用到測試圖形
# Apply clusters from before to new image, using the flexclust package
library(flexclust)
t0 = Sys.time()
KMC.kcca = flexclust::as.kcca(KMC, healthyVector) # 建立模型
Found more than one class "kcca" in cache; using the first, from namespace 'kernlab'
Also defined by 'flexclust'
Found more than one class "kcca" in cache; using the first, from namespace 'kernlab'
Also defined by 'flexclust'
tumorClusters = predict(KMC.kcca, newdata = tumorVector) # 進行預測(轉換)
Found more than one class "kcca" in cache; using the first, from namespace 'kernlab'
Also defined by 'flexclust'
Sys.time() - t0
Time difference of 2.102 mins
3.9 圖像比較
# Visualize the clusters
dim(tumorClusters) = c(nrow(tumorMatrix), ncol(tumorMatrix))
par(mfrow=c(1,2), mar=c(1,1,2,1))
image(X, axes = FALSE, col=rainbow(k), main="Healthy")
image(t(tumorClusters)[,571:1], axes = FALSE, col=rainbow(k), main="Tumor")

【學習重點】
- 集群分析在圖像處理的應用
- 單區隔變數的集群分析
- 集群分析模型
【問題討論】
層級式和K-Means集群分析有什麼差異? 它們分別用在什麼狀況?
- 層級式不用事先指定群數,Kmeans要事先指定群數
- 層級式用距離分群,再依照情況看要分成幾群,Kmeans一開始隨機指定中心點,所以每次Kmeans結果可能都不同。
- 當資料小的時候我們用層級式,但是當資料大時層級式占用太大空間所以我們用Kmeans
|
kmeans
|
層級式
|
|
一開始必須先說要設幾群
|
把資料丟進去,直到長出樹才決定分多少群
|
|
適用於較大的資料
|
不適用於較大的資料
|
|
每次分群結果可能不同
|
距離不變的話樹狀圖不會變
|
集群分析模型和普通的集群分析有什麼差異?
- 普通集群分析在我們一開始對資料要分析什麼還不明確時,也因為沒有label可以做分類,屬於非監督式學習。我們可以先將資料做分群,待我們看到相似的資料被撿成一群時,可以看一下不同群有什麼不同特色,可能就會看到可以分析的內容了。
- 集群分析是在我們已經知道我們想分析什麼,所以我們將分群的規則提出來學習模型,這樣的好處在於套用此規則很快地便可以將資料依照我們想要分析的內容為資料分群,我們就去對相似資料做分析。這樣對於未知資料我們可以用這個規則快速的分群並且制定決策。
什麼時候需要建集群分析模型? 集群分析模型的用法?
- 如我們已經有想要利用分群來做圖片處理來找腫瘤,我們已經有這個分析的想法
- 我們就把Healthy的資料當成traing data拿去建立分群規則並且學習,之後有N張圖片我們便可以很快的利用此規則判別這N張照片是否有腫瘤。
- 簡單的說就是在我們找到我們想要分析的事情,並且有一套規則的時候,我們就可以建立集群分析模型。在我們還沒有想法時就做普通集群分析
圖像處理和圖像辨識有什麼差異?
小組總結
- 這單元學到如何使用非監督式學習分析資料,分群是一個很好的方法,將資料相似的分在一群,不相似的分在不同群,就可以看出不同群的特色,之後再近一步做分析。
- 我們拿到資料時學習用apply系列及summary來看資料分布
- 2種分群方式:階層式、Kmeans,各有不同的用途及使用時機
- 可以用距離來衡量資料的相似情形
- 我們希望群內距離小;群間距離大,如此可以區分資料,為不同族群制定決策
- 視覺化技巧
- 區隔變數多時使用尺度縮減
【Compare】
- - -
