Lecture11: 類似度計算, 階層的クラスター分析
Term-Document Matrixの作成
指定ディレクトリのファイル一覧を取得(相対パス)
dirName <-"news_articles"
(files<- list.files(dirName))
[1] "AJ1.txt" "AJ2.txt" "AJ3.txt" "BBC1.txt" "BBC2.txt"
[6] "BBC3.txt" "JT1.txt" "JT2.txt" "JT3.txt"
filesDir <- unlist(lapply(dirName, paste, files, sep = "/"))
filesDir[1]
[1] "news_articles/AJ1.txt"
要素結合用関数の作成
join_Lines <- function(fnaame) {
txt <- readLines(fnaame)
txt <- tolower(txt)
txt<- txt[txt != ""]
paste(txt, collapse = " ")
}
複数テキストファイルへの一括処理
library(magrittr)
lapply(filesDir, join_Lines) %>% unlist -> news_txtset
cleanNLPライブラリの読み込み & 言語モデルの設定
library(cleanNLP)
cnlp_init_udpipe()#言語モデルの設定(デフォルト値=英語)
形態素解析: cnlp_annotate関数
res <- cnlp_annotate(input = news_txtset)
res <- res$token[!res$token$upos %in% c("PUNCT","SYM","NUM"),]#句読点,記号,数字を除外
文書行列(Term-Document Matrix)
docMtx <- as.data.frame.matrix(table(res$lemma, res$doc_id))
#docMtx <- as.data.frame.matrix(table(res$token, res$doc_id))
files %>% strsplit(".txt") %>% unlist -> colnames(docMtx)#列名の変更
docMtxのサイズ確認
dim(docMtx)
[1] 1209 9
部分表示
head(docMtx)
相対頻度行列
colSums(docMtx)#Tokens
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2 JT3
428 389 697 658 405 561 464 621 381
#docMtx/colSums(docMtx)#It doesn't work well
relative_docMtx<-sweep(docMtx, MARGIN = 2, colSums(docMtx), FUN = "/")
文書頻度(Dcument Frequency:DF)による条件抽出
DF<-apply(relative_docMtx, 1, function(x) length(x[x>0]))
head(DF)
-escalate -hama -one 's ’re &
1 1 1 9 1 1
文書頻度(Dcument Frequency:DF)による条件抽出
DF値が5-8の行を抽出した例
docMtx_c5 <- relative_docMtx[(DF>4 & DF<9), ] #5-8DF
docMtx_c5のサイズ確認
dim(docMtx_c5)
[1] 51 9
類似度計算
相関係数
ピアソン積率相関係数
\[Corr(x,y)= \frac{\sum
(x_{i}-\overline{x}) (y_{i}-\overline{y})}{\sqrt{\sum
(x_{i}-\overline{x})^2\sum (y_{i}-\overline{y})^2}} \]
相関係数行列(テキスト間)
res <-cor(docMtx_c5)
round(res,2)
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2 JT3
AJ1 1.00 0.24 0.22 0.46 0.48 0.12 0.55 0.20 0.05
AJ2 0.24 1.00 0.25 0.38 0.55 0.51 0.19 0.51 -0.03
AJ3 0.22 0.25 1.00 0.30 0.44 0.31 0.11 0.37 0.06
BBC1 0.46 0.38 0.30 1.00 0.45 0.31 0.55 0.10 -0.16
BBC2 0.48 0.55 0.44 0.45 1.00 0.30 0.27 0.52 0.08
BBC3 0.12 0.51 0.31 0.31 0.30 1.00 0.16 0.15 0.00
JT1 0.55 0.19 0.11 0.55 0.27 0.16 1.00 -0.01 0.08
JT2 0.20 0.51 0.37 0.10 0.52 0.15 -0.01 1.00 0.34
JT3 0.05 -0.03 0.06 -0.16 0.08 0.00 0.08 0.34 1.00
相関係数行列(単語間)
res_term <-cor(t(docMtx_c5))
変数間の相関行列
転置(transpose): t関数
testMtx <- matrix(1:6, nrow=3)
testMtx
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
# transpose
t(testMtx)
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 4 5 6
proxyパッケージのインストール
install.packages("proxy", dependencies = TRUE)
proxyパッケージの読み込み
library(proxy)
simil関数による相関係数行列(テキスト間)
行と列を転置(transpose)する
corr <- simil(t(docMtx_c5))
round(corr, 2)
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2
AJ2 0.24
AJ3 0.22 0.25
BBC1 0.46 0.38 0.30
BBC2 0.48 0.55 0.44 0.45
BBC3 0.12 0.51 0.31 0.31 0.30
JT1 0.55 0.19 0.11 0.55 0.27 0.16
JT2 0.20 0.51 0.37 0.10 0.52 0.15 -0.01
JT3 0.05 -0.03 0.06 -0.16 0.08 0.00 0.08 0.34
テキスト間のコサイン類似度
\[Cos(x,y)= \frac{\sum x_{i}
y_{i}}{\sqrt{\sum x_{i}^2\sum y_{i}^2}} \]
res.cos <-simil(t(docMtx_c5), method="cosine")
結果の形式:Distant Object出力
round(res.cos,2)
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2
AJ2 0.53
AJ3 0.53 0.55
BBC1 0.68 0.62 0.59
BBC2 0.70 0.73 0.68 0.68
BBC3 0.47 0.70 0.59 0.59 0.59
JT1 0.76 0.57 0.56 0.76 0.65 0.57
JT2 0.53 0.71 0.64 0.48 0.73 0.50 0.51
JT3 0.40 0.35 0.42 0.28 0.44 0.37 0.50 0.59
結果の形式:Matrix出力
res2.cos<-simil(t(docMtx_c5), method="cosine", diag=T)
res2.cos<-as.matrix(res2.cos)
res2.cos[is.na(res2.cos)] <- 1
round(res2.cos,2)
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2 JT3
AJ1 1.00 0.53 0.53 0.68 0.70 0.47 0.76 0.53 0.40
AJ2 0.53 1.00 0.55 0.62 0.73 0.70 0.57 0.71 0.35
AJ3 0.53 0.55 1.00 0.59 0.68 0.59 0.56 0.64 0.42
BBC1 0.68 0.62 0.59 1.00 0.68 0.59 0.76 0.48 0.28
BBC2 0.70 0.73 0.68 0.68 1.00 0.59 0.65 0.73 0.44
BBC3 0.47 0.70 0.59 0.59 0.59 1.00 0.57 0.50 0.37
JT1 0.76 0.57 0.56 0.76 0.65 0.57 1.00 0.51 0.50
JT2 0.53 0.71 0.64 0.48 0.73 0.50 0.51 1.00 0.59
JT3 0.40 0.35 0.42 0.28 0.44 0.37 0.50 0.59 1.00
階層的クラスター分析
文書間の距離を測る(euclidean距離)
dist.euclidean <- dist(t(docMtx_c5))
dist.euclidean <- as.matrix(dist.euclidean)
round(dist.euclidean,3)
AJ1 AJ2 AJ3 BBC1 BBC2 BBC3 JT1 JT2 JT3
AJ1 0.000 0.029 0.030 0.028 0.024 0.032 0.020 0.031 0.030
AJ2 0.029 0.000 0.029 0.030 0.023 0.024 0.026 0.025 0.031
AJ3 0.030 0.029 0.000 0.031 0.025 0.028 0.027 0.028 0.030
BBC1 0.028 0.030 0.031 0.000 0.028 0.031 0.024 0.036 0.038
BBC2 0.024 0.023 0.025 0.028 0.000 0.028 0.025 0.024 0.030
BBC3 0.032 0.024 0.028 0.031 0.028 0.000 0.027 0.032 0.032
JT1 0.020 0.026 0.027 0.024 0.025 0.027 0.000 0.030 0.025
JT2 0.031 0.025 0.028 0.036 0.024 0.032 0.030 0.000 0.027
JT3 0.030 0.031 0.030 0.038 0.030 0.032 0.025 0.027 0.000
階層的クラスター分析: euclidean距離 & ward法
hc <- hclust(dist(t(docMtx_c5)), method = "ward.D2")
plot(hc)

#rect.hclust(hc, k=3, border="red")
階層的クラスター分析: canberra距離 & ward法
hc <- hclust(dist(t(docMtx_c5), method = "canberra"), method = "ward.D2")
plot(hc)

#rect.hclust(hc, k=3, border="red")
単語間の階層的クラスター分析: euclidean距離 & ward法
hc <- hclust(dist(docMtx_c5), method = "ward.D2")
plot(hc)

#rect.hclust(hc, k=3, border="red")
単語間の階層的クラスター分析: canberra距離 & ward法
hc <- hclust(dist(docMtx_c5, method = "canberra"), method = "ward.D2")
plot(hc)

#rect.hclust(hc, k=3, border="red")
課題2(締め切り2024年1月25日)
“app_asgnmt2”を編集して、Task1,2に取り組んでください。
Task1: hclustとrect.hclustの表示したTabを追加しなさい。
Task2: 次の2つの変数をスライダー(sliderInput)でインタラクティブに変更できるように拡張しなさい。
(1) Document Frequencyの最低値
(2) rect.hclust関数の引数kの値
スライダーの値の範囲: min=2, max =7, value=4, step=1
