1 【参考】テストデータ作成

分類用データを二次元正規乱数から作成する。

library(MASS)
n <- 100
c <- vector('list', 7)
set.seed(777)
c[[1]] <- mvrnorm(n, mu = c( 0,  0), Sigma = rbind(c(2.0,  0.0), c( 0.0, 2.0)))
c[[2]] <- mvrnorm(n, mu = c( 0, 10), Sigma = rbind(c(2.0, -0.8), c(-0.8, 2.0)))
c[[3]] <- mvrnorm(n, mu = c(10,  0), Sigma = rbind(c(2.0, -0.8), c(-0.8, 2.0)))
c[[4]] <- mvrnorm(n, mu = c(-5, -5), Sigma = rbind(c(2.0,  0.8), c( 0.8, 2.0)))
c[[5]] <- mvrnorm(n, mu = c( 5,  5), Sigma = rbind(c(2.0,  0.8), c( 0.8, 2.0)))
c[[6]] <- mvrnorm(n, mu = c(-5,  5), Sigma = rbind(c(2.0, -0.8), c(-0.8, 2.0)))
c[[7]] <- mvrnorm(n, mu = c( 5, -5), Sigma = rbind(c(2.0, -0.8), c(-0.8, 2.0)))

for (i in seq_along(c))
{
  c[[i]] <- as.data.frame(c[[i]])
  colnames(c[[i]]) <- c('x', 'y')
}

# 単純な分類用データ(クラスターサイズ:2)
d2 <- data.frame(c(rep(1, n), rep(0, n)), rbind(c[[1]], c[[5]]))
colnames(d2) <- c('blue', 'x', 'y')
write.csv(d2, file = 'data_svm_cluster2.csv', row.names = F)

# 複雑な分類用データ(クラスターサイズ:7)
d7 <- data.frame(c(rep(1, n*3), rep(0, n*4)),
                  rbind(c[[1]], c[[2]], c[[3]], c[[4]], c[[5]], c[[6]], c[[7]]))
colnames(d7) <- c('blue', 'x', 'y')
write.csv(d7, file = 'data_svm_cluster7.csv', row.names = F)

1.1 グラフ

# カラーパレット
COL <- c(rgb(255,   0,   0,  105, max = 255), # 赤
         rgb(  0,   0, 255,  105, max = 255), # 青
         rgb(  0, 155,   0,  105, max = 255), # 緑
         rgb(100, 100, 100,   20, max = 255)) # 灰

[RGB_Color]https://www.rapidtables.com/web/color/RGB_Color.html

# グラフ作成関数(後で再利用するため関数化)
draw.fig <- function(d2)
{
  # データ抽出
  d.red  <- d2[d2$blue == 0, ] # 赤クラスデータ
  d.blue <- d2[d2$blue == 1, ] # 青クラスデータ

  # 図枠
  matplot (NA, type = 'n',
           xlim = c(-10, 15), ylim = c(-10, 20),
           xlab = 'x', ylab = 'y')

  grid() # 格子線 

  # 描画
  matlines(x = d.red$x,  y = d.red$y,  type = 'p', pch = 1, col = COL[2])
  matlines(x = d.blue$x, y = d.blue$y, type = 'p', pch = 1, col = COL[1])

  # 凡例
  legend('topright', col = COL[1:2], pch = c(1, 1), bg = 'white',
        legend = c('赤', '青'))
}

#cairo_pdf('data_svm.pdf') # 講義資料PDF画像作成(ここから)
draw.fig(d2)

#dev.off() # 講義資料PDF画像作成(ここまで)

2 SVM

交差検証法でコストパラメータ(\(C\))とハイパーパラメータ(\(\gamma\)など) を探索してフィッティングする。
Rパッケージe1070のカーネル関数やハイパーパラメータについての詳細は コマンド「?svm」で確認する。

e1070パッケージ他,caretパッケージもよく利用される。 https://www.edureka.co/blog/support-vector-machine-in-r/

# テストデータ読込
d2 <- read.csv(file = 'https://stats.dip.jp/01_ds/data/data_svm_cluster2.csv')

# カーネル関数
KERNEL <- c('linear',     # 線形
            'polynomial', # 多項式
            'sigmoid',    # シグモイド
            'radial')     # ガウス

k <- 1 # カーネル選択番号

# 交差検証法によるパラメータ選択
library(e1071)
cv <- tune('svm', as.factor(blue) ~ ., data = d2,
           kernel = KERNEL[k], type = 'C-classification', 
           ranges = list(#gamma   = 2^(-4:4), # radialなどの非線形カーネルを使うとき調整
                         #epsilon = seq(0, 1, 0.1), # SVRの不感帯の調整
                         #coef0   = 2^(-4:4), # polynomialかsigmoidのとき調整(c0)
                         cost    = 2^(-4:4))) # コスト係数(小さいほど分類誤りを許容)

# ベストパラメータ表示
cv
## 
## Parameter tuning of 'svm':
## 
## - sampling method: 10-fold cross validation 
## 
## - best parameters:
##  cost
##     2
## 
## - best performance: 0.01

2.1 グラフ

dx <- 0.2
dy <- 0.2

# 格子点データを作成
dgrid <- expand.grid(x = seq(-25, 25, dx),
                     y = seq(-25, 25, dy))

# 格子点を予測
pred <- predict(cv$best.model, newdata = dgrid)

#cairo_pdf('svm.pdf') # 講義資料PDF画像作成(ここから)

draw.fig(d2)

# サポートベクター
sv <- d2[cv$best.model$index, -1]
matpoints(x = sv[, 1], y = sv[, 2], pch = 16, cex = 0.5, col = 1)

dgrid.blue <- dgrid[pred == 1, ]

#matpoints(x = dgrid.blue$x, y = dgrid.blue$y, pch = 15, cex = 1.1, col = COL[4])

# 灰色塗り(ポリゴン)関数
fill.cell <- function(x, y)
{
  xline <- c(x - dx/2, x + dx/2)
  ylow  <- c(y - dy/2, y - dy/2)
  yupp  <- c(y + dy/2, y + dy/2)

  polygon(c(xline, rev(xline)), c(ylow, yupp), border = F, col = COL[4])
}

# 予測値が1(青)の周りを正方形で灰色塗り(ポリゴンで埋める)
for (i in 1:nrow(dgrid))
{
  if (pred[i] == 1) fill.cell(dgrid$x[i], dgrid$y[i])
}

# 主タイトル
title(paste0('SVM(カーネル:', KERNEL[k], ')による分類'))

# 凡例
legend('topright', col = c(COL[1:2], 1, NA), pch = c(1, 1, 16, NA),
       fill = c(NA, NA, NA, COL[4]), border = F, bg = 'white',
       legend = c('赤(0)', '青(1)', 'サポートベクター', '青(1)と分類する範囲'))

#dev.off() # 講義資料PDF画像作成(ここまで)

2.1.1 【参考】e1071パッケージのグラフ

# Not cool
plot(cv$best.model, d2)

3 【参考】カーネルトリックのイメージ

SVMでは高次元に変数を写像して線形に(超平面で)分離する。 変数の内積を計算できれば高次元で特徴量エンジニアリングしなくてもよく, 計算がとても簡単になる。このことをカーネルトリックという。 一例として,次のような赤と青の集合は線形分類できないが, \(z = x^2 + y^2\)の変数変換を行い3次元にすると平面(3次元以上では超平面)で赤と青を分離できる。

#cairo_pdf('red_blue.pdf')
matplot (NA, type = 'n', xlim = c(-10, 10), ylim = c(-10, 10),
        xlab = 'x', ylab = 'y')
grid()
matlines(x = c[[1]]$x, y = c[[1]]$y, type = 'p', pch = 1, col = COL[2])
matlines(x = c[[4]]$x, y = c[[4]]$y, type = 'p', pch = 1, col = COL[1])
matlines(x = c[[5]]$x, y = c[[5]]$y, type = 'p', pch = 1, col = COL[1])
matlines(x = c[[6]]$x, y = c[[6]]$y, type = 'p', pch = 1, col = COL[1])
matlines(x = c[[7]]$x, y = c[[7]]$y, type = 'p', pch = 1, col = COL[1])

legend('topright', col = COL[1:2], pch = c(1, 1), bg = 'white',
      legend = c('赤', '青'))

#dev.off()

library(plot3D)
f <- function(x, y) x^2 + y^2

x.g <- seq(-50, 50, 5)
y.g <- seq(-50, 50, 5)
z.g <- outer(x.g, y.g, function(x, y) x*0 + y*0 + 10)

library(latex2exp)
#cairo_pdf('kernel_trick.pdf')
scatter3D(x = c[[1]]$x, y = c[[1]]$y, z = f(c[[1]]$x, c[[1]]$y), 
          pch = 16, col = COL[2], bty = 'f', ticktype = 'detailed',
          theta = 45, phi = 15,
          main = TeX('$z = x^2 + y^2'),
          xlim = c(-10, 10),
          ylim = c(-10, 10),
          zlim = c(0, 100),
          surf = list(x = x.g, y = y.g, z = z.g, facet = NA, border = 'green'))

scatter3D(x = c[[4]]$x, y = c[[4]]$y, z = f(c[[4]]$x, c[[4]]$y), pch = 16, col = COL[1], add = T) 
scatter3D(x = c[[5]]$x, y = c[[5]]$y, z = f(c[[5]]$x, c[[5]]$y), pch = 16, col = COL[1], add = T) 
scatter3D(x = c[[6]]$x, y = c[[6]]$y, z = f(c[[6]]$x, c[[6]]$y), pch = 16, col = COL[1], add = T) 
scatter3D(x = c[[7]]$x, y = c[[7]]$y, z = f(c[[7]]$x, c[[7]]$y), pch = 16, col = COL[1], add = T) 

#dev.off()

4 Python

エラーがでる場合はコメントアウトする。

#from sklearn import svm
#import matplotlib.pyplot as plt
#
## Use R data
#d = r.d
#d_grid = r.dgrid
#
#x = d[['x', 'y']]
#y = d['blue']
#
#model = svm.SVC(gamma = 'scale', kernel = 'linear')
#model.fit(x, y)
#pred = model.predict(d_grid[['x', 'y']])
#
#d_blue = d.loc[d['blue'] == 1.0, :]
#d_red  = d.loc[d['blue'] == 0.0, :]
#d_grid_blue = d_grid.loc[pred == 1.0, :]
#
#plt.scatter(x = d_grid_blue['x'], y = d_grid_blue['y'], label = '青領域', color = [0.8, 0.8, 0.8, 0.2])
#plt.scatter(x = d_blue['x'], y = d_blue['y'], label = '青', color = 'blue')
#plt.scatter(x = d_red['x'],  y = d_red['y'],  label = '赤',  color = 'red')
#plt.grid(linestyle = 'dotted')  
#plt.title('主タイトル')
#plt.xlabel('X軸タイトル[単位]')
#plt.ylabel('Y軸タイトル[単位]')
#plt.legend()
#plt.show()

5 演習課題

  1. 上記例で,カーネル関数を変えて分離境界面の変化を確認せよ。
KERNEL # カーネル関数の種類
## [1] "linear"     "polynomial" "sigmoid"    "radial"
  1. 次の複雑な分類用データを使った分類を行え。
d7 <- read.csv(file = 'https://stats.dip.jp/01_ds/data/data_svm_cluster7.csv')

# 図枠
matplot(NA, type = 'n',
        xlim = c(-10, 15), ylim = c(-10, 20),
        xlab = 'x', ylab = 'y')

grid() # 格子線

# データ抽出
d7.red  <- d7[d7$blue == 0, ] # 赤データ
d7.blue <- d7[d7$blue == 1, ] # 青データ

# 描画
matlines(x = d7.red$x,  y = d7.red$y,  type = 'p', pch = 1, col = COL[1])
matlines(x = d7.blue$x, y = d7.blue$y, type = 'p', pch = 1, col = COL[2])

# 凡例
legend('topright', col = COL[1:2], pch = c(1, 1), bg = 'white',
      legend = c('赤', '青'))