系統參數設定

Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
[1] "zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8"

載入套件

require(dplyr)
require(tidytext)
require(jiebaR)
require(gutenbergr)
library(stringr)
library(wordcloud2)
library(ggplot2)
library(tidyr)
library(scales)

自gutenberg下載文本資料(西遊記,23962),並移除空行

west = gutenberg_download(c(23962)) %>%
  filter(text != "")
# 修正自gutenberg 下載的文本,以印刷排版斷行,而非句號斷行所形成的斷詞異常
doc = paste0(west$text,collapse = "") #將text欄位的全部文字合併
docVector = unlist(strsplit(doc,"[。.]"), use.names=FALSE) #以全形或半形句號斷句
# 下行必須加上stringsAsFactors = F, 否則字串會被轉成Integer型態
# 後續的jiebar 斷詞時會有異常
west = data.frame(gutenberg_id = "23962", text = docVector, stringsAsFactors = F) #gutenberg_id換成自己的書本id

觀察文本資料,發現章節標題的格式為如下 “第一回 靈根育孕源流出 心性修持大道生”, “第六一回 豬八戒助力敗魔王 孫行者三調芭蕉扇” 至https://regex101.com/ ,進行正規表示式測試後 其樣式可表示為: “^( |000)第.回 {1}”

資料前處理

對資料表附加章節欄位

west = west %>% 
  mutate(chapter = cumsum(str_detect(west$text, regex("^( |\u3000)*第.*回 {1}"))))
west

檢查章節欄位是否正常

從文本可以知道共100回(第一回至第一○○回)

# 列印章節欄位的最大值
max(west$chapter)
[1] 100

初始化Jieba斷詞引擎

# 使用西遊記專有名詞字典
jieba_tokenizer <- worker(user="JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict")
# 設定斷詞function
west_tokenizer <- function(t) {
  lapply(t, function(x) {
    tokens <- segment(x, jieba_tokenizer)
    return(tokens)
  })
}

進行斷詞

tokens <- west %>% unnest_tokens(word, text, token=west_tokenizer)
str(tokens)
'data.frame':   377057 obs. of  3 variables:
 $ gutenberg_id: chr  "23962" "23962" "23962" "23962" ...
 $ chapter     : int  1 1 1 1 1 1 1 1 1 1 ...
 $ word        : chr  "第一回" "靈根育孕" "源流" "出" ...

計算整本書斷詞後,各詞彙的出現次數

# 計算詞彙的出現次數,如果詞彙只有一個字則不列入計算
tokens_count <- tokens %>% 
  filter(nchar(.$word)>1) %>%
  group_by(word) %>% 
  summarise(sum = n()) %>% 
  filter(sum>10) %>%
  arrange(desc(sum))
# 印出最常見的20個詞彙
head(tokens_count, 20)

畫出文字雲

tokens_count %>% wordcloud2()

從文字雲的結果,可以大略感受到主角群的出現頻率高於其它詞彙

計算孫悟空在整本書中出現的頻率

孫悟空的等同詞有“石猴”、“美猴王”、“弼馬溫”、“齊天大聖”、“行者”、“妖猴”、“心猿”、“大師兄”

# 將悟空的等同詞保留成變數
wukong_alias = c("老孫", "孫悟空","悟空","孫大聖","石猴","美猴王","弼馬溫","齊天大聖","行者","妖猴","心猿","大師兄")
# 計算悟空在整本書中出現的頻率及比例
wukong_count = tokens %>% 
  filter(nchar(.$word)>1) %>%                     # 保留非空白資料
  mutate(total = nrow(tokens)) %>%                # 加入一個total (資料總列數)   
  group_by(word) %>% 
  filter(word %in% wukong_alias) %>%              # 保留悟空的等同詞
  summarise(count = n(), total = mean(total)) %>% # 計算群組內的數量;mean 函式無意義,僅用來讓total 出現在表格
  mutate(proportion = count / total) %>%          # 加入比例欄位
  arrange(desc(count))                            # 根據count欄位,由大至小排列
head(wukong_count, 20)
# 計算悟空在各章節中出現的頻率
wukong_plot = tokens %>% 
  filter(nchar(.$word)>1) %>%
  filter(word %in% wukong_alias) %>%
  group_by(chapter) %>%  
  summarise(count = n()) %>%
  ggplot(aes(x = chapter, y=count)) +
  geom_col() + 
  ggtitle("各章節的悟空出現總數") + 
  xlab("章節") + 
  ylab("悟空數量") +
  theme(text = element_text(family = "Heiti TC Light"))
wukong_plot

由上圖看來,悟空在整本書中出現的頻率亦算平均; 但有數個章節出現數量為0者:9, 10, 11, 13, 29回 其中9, 10, 11 在介紹三藏的出場 12 回有提及「行者」一詞,但並非是指悟空 文中悟空的代稱雖然大部份以「孫行者」,但偶爾也會以「行者」稱呼; 在本例中無法進行區分 在27、28回中,悟空被逐回花果山,因而29 回無描述悟空 上述特別長的部份為82回

探究82 回中,悟空出現較高的原因

# 計算82 回,悟空代稱的分佈
wukong_chapter82 = tokens %>% 
  filter(nchar(.$word)>1) %>%
  filter(word %in% wukong_alias) %>%
  group_by(chapter, word) %>%  
  filter(chapter == 82) %>%  
  summarise(count = n())
wukong_chapter82

第八十二回:姹女求陽,元神護道 內容為豬八戒打探到妖精與唐僧晚間成親,於是請大師兄前來相助,待悟空見到師父,師徒二人定下一條計策。 唐僧用悟空之計,邀妖精入後花園,摘下悟空所變紅桃奉與妖怪。妖怪不知實情,將悟空所變化的桃子吃下, 悟空入肚,迫使妖精送唐僧出洞,唐僧終於是逃脫虎口。因此此回悟空(行者)出現頻率最高。

##各章節長度,以語句數來計算
plot <- 
  bind_rows(
    west %>% 
      group_by(chapter) %>% 
      summarise(count = n(), type="sentences"),
    tokens %>% 
      group_by(chapter) %>% 
      summarise(count = n(), type="words")) %>% 
  group_by(type)%>%
  ggplot(aes(x = chapter, y=count, fill="type", color=factor(type))) +
  geom_line() + 
  ggtitle("各章節的句子總數") + 
  xlab("章節") + 
  ylab("句子數量") + 
  theme(text = element_text(family = "STKaiti"))#mac:STKaiti & window:Heiti TC Light
plot


準備西遊記的詞彙庫

自搜狗下載 西遊記詞彙庫: 安裝處理詞彙庫所需的套件

# 載入library
library(readr)
library(devtools)

# 解碼scel用
install_github("qinwf/cidian")
library(cidian)
# 簡體轉繁體套件
install_github("qinwf/ropencc")
library(ropencc)

上述指令執行時,發生下列異常 Loading required package: stringi Error in value[3L] : Package ‘stringi’ version 1.2.4 cannot be unloaded: Error in unloadNamespace(package) : namespace ‘stringi’ is imported by ‘tokenizers’ so cannot be unloaded

# 排除Package ‘stringi’ version 1.2.4 cannot be unloaded:
unloadNamespace("tidytext")
unloadNamespace("tokenizers")

library(cidian)

將自搜狗下載的詞彙檔(JourneyToTheWest.scel), 置於相同目錄

# 解碼scel檔案
decode_scel(scel = "./JourneyToTheWest.scel",cpp = TRUE)
# 讀取解碼後生成的詞庫檔案
scan(file="./JourneyToTheWest.scel_2019-03-16_12_58_58.dict",
      what=character(),nlines=50,sep='\n',
      encoding='utf-8',fileEncoding='utf-8')
dict <- read_file("./JourneyToTheWest.scel_2019-03-16_12_58_58.dict")
# 將簡體詞庫轉為繁體
cc <- converter(S2TW)
dict_trad <- cc[dict]
write_file(dict_trad, "./JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict")
# 讀取轉換成繁體後的詞庫檔案
scan(file="./JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict",
      what=character(),nlines=50,sep='\n',
      encoding='utf-8',fileEncoding='utf-8')
---
title: "gutenberg 上的西遊記文本分析"
author: "N044020012 杜瑋茹, N044020026 張雅婷, N064020015 鐘明志,N064220007 陳慧倩, N064220009 謝凱威, N064220026 劉志政"
date: "2019/03/12"
output: html_notebook
abstract: 結合jiebar與Tidy text套件，處理Gutenberg上的中文小說
---

# 系統參數設定
```{r}
Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
```

# 載入套件
```{r}
require(dplyr)
require(tidytext)
require(jiebaR)
require(gutenbergr)
library(stringr)
library(wordcloud2)
library(ggplot2)
library(tidyr)
library(scales)
```

# 自gutenberg下載文本資料(西遊記，23962)，並移除空行
```{r}
west = gutenberg_download(c(23962)) %>%
  filter(text != "")

# 修正自gutenberg 下載的文本，以印刷排版斷行，而非句號斷行所形成的斷詞異常
doc = paste0(west$text,collapse = "") #將text欄位的全部文字合併
docVector = unlist(strsplit(doc,"[。.]"), use.names=FALSE) #以全形或半形句號斷句
# 下行必須加上stringsAsFactors = F, 否則字串會被轉成Integer型態
# 後續的jiebar 斷詞時會有異常
west = data.frame(gutenberg_id = "23962", text = docVector, stringsAsFactors = F) #gutenberg_id換成自己的書本id
```
> 觀察文本資料，發現章節標題的格式為如下
> "第一回 靈根育孕源流出　心性修持大道生", "第六一回 豬八戒助力敗魔王　孫行者三調芭蕉扇"
> 至https://regex101.com/ ，進行正規表示式測試後
> 其樣式可表示為: "^( |\u3000)*第.*回 {1}"

# 資料前處理
  對資料表附加章節欄位
```{r}
# \u3000為空形空格
west = west %>% 
  mutate(chapter = cumsum(str_detect(west$text, regex("^( |\u3000)*第.*回 {1}"))))

west
```

# 檢查章節欄位是否正常
  從文本可以知道共100回（第一回至第一○○回）
```{r}
# 列印章節欄位的最大值
max(west$chapter)
```

# 初始化Jieba斷詞引擎
```{r}
# 使用西遊記專有名詞字典
jieba_tokenizer <- worker(user="JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict")
# 設定斷詞function
west_tokenizer <- function(t) {
  lapply(t, function(x) {
    tokens <- segment(x, jieba_tokenizer)
    return(tokens)
  })
}
```

# 進行斷詞
```{r}
tokens <- west %>% unnest_tokens(word, text, token=west_tokenizer)
str(tokens)
```

# 計算整本書斷詞後，各詞彙的出現次數
```{r}
# 計算詞彙的出現次數，如果詞彙只有一個字則不列入計算
tokens_count <- tokens %>% 
  filter(nchar(.$word)>1) %>%
  group_by(word) %>% 
  summarise(sum = n()) %>% 
  filter(sum>10) %>%
  arrange(desc(sum))

# 印出最常見的20個詞彙
head(tokens_count, 20)
```

# 畫出文字雲
```{r}
tokens_count %>% wordcloud2()
```
> 從文字雲的結果，可以大略感受到主角群的出現頻率高於其它詞彙

# 計算孫悟空在整本書中出現的頻率
  孫悟空的等同詞有"石猴"、"美猴王"、"弼馬溫"、"齊天大聖"、"行者"、"妖猴"、"心猿"、"大師兄"
```{r}
# 將悟空的等同詞保留成變數
wukong_alias = c("老孫", "孫悟空","悟空","孫大聖","石猴","美猴王","弼馬溫","齊天大聖","行者","妖猴","心猿","大師兄")
# 計算悟空在整本書中出現的頻率及比例
wukong_count = tokens %>% 
  filter(nchar(.$word)>1) %>%                     # 保留非空白資料
  mutate(total = nrow(tokens)) %>%                # 加入一個total (資料總列數)   
  group_by(word) %>% 
  filter(word %in% wukong_alias) %>%              # 保留悟空的等同詞
  summarise(count = n(), total = mean(total)) %>% # 計算群組內的數量；mean 函式無意義，僅用來讓total 出現在表格
  mutate(proportion = count / total) %>%          # 加入比例欄位
  arrange(desc(count))                            # 根據count欄位，由大至小排列

head(wukong_count, 20)
```

```{r}
# 計算悟空在各章節中出現的頻率
wukong_plot = tokens %>% 
  filter(nchar(.$word)>1) %>%
  filter(word %in% wukong_alias) %>%
  group_by(chapter) %>%  
  summarise(count = n()) %>%
  ggplot(aes(x = chapter, y=count)) +
  geom_col() + 
  ggtitle("各章節的悟空出現總數") + 
  xlab("章節") + 
  ylab("悟空數量") +
  theme(text = element_text(family = "Heiti TC Light"))

wukong_plot
```
> 由上圖看來，悟空在整本書中出現的頻率亦算平均；
> 但有數個章節出現數量為0者：9, 10, 11, 13, 29回
> 其中9, 10, 11 在介紹三藏的出場
> 12 回有提及「行者」一詞，但並非是指悟空
> 文中悟空的代稱雖然大部份以「孫行者」，但偶爾也會以「行者」稱呼；
> 在本例中無法進行區分
> 在27、28回中，悟空被逐回花果山，因而29 回無描述悟空
> 上述特別長的部份為82回

# 探究82 回中，悟空出現較高的原因
```{r}
# 計算82 回，悟空代稱的分佈
wukong_chapter82 = tokens %>% 
  filter(nchar(.$word)>1) %>%
  filter(word %in% wukong_alias) %>%
  group_by(chapter, word) %>%  
  filter(chapter == 82) %>%  
  summarise(count = n())

wukong_chapter82
```
> 第八十二回：姹女求陽，元神護道
> 內容為豬八戒打探到妖精與唐僧晚間成親，於是請大師兄前來相助，待悟空見到師父，師徒二人定下一條計策。
> 唐僧用悟空之計，邀妖精入後花園，摘下悟空所變紅桃奉與妖怪。妖怪不知實情，將悟空所變化的桃子吃下，
> 悟空入肚，迫使妖精送唐僧出洞，唐僧終於是逃脫虎口。因此此回悟空(行者)出現頻率最高。


```{r}
##各章節長度，以語句數來計算
plot <- 
  bind_rows(
    west %>% 
      group_by(chapter) %>% 
      summarise(count = n(), type="sentences"),
    tokens %>% 
      group_by(chapter) %>% 
      summarise(count = n(), type="words")) %>% 
  group_by(type)%>%
  ggplot(aes(x = chapter, y=count, fill="type", color=factor(type))) +
  geom_line() + 
  ggtitle("各章節的句子總數") + 
  xlab("章節") + 
  ylab("句子數量") + 
  theme(text = element_text(family = "STKaiti"))#mac:STKaiti & window:Heiti TC Light
plot
```


----
# 準備西遊記的詞彙庫
  自搜狗下載 [西遊記詞彙庫](http://wubi.sogou.com/dict/cell.php?id=73004):
  安裝處理詞彙庫所需的套件
```{r}
# 載入library
library(readr)
library(devtools)

# 解碼scel用
install_github("qinwf/cidian")
library(cidian)
# 簡體轉繁體套件
install_github("qinwf/ropencc")
library(ropencc)
```
> 上述指令執行時，發生下列異常
Loading required package: stringi
Error in value[[3L]](cond) : 
  Package ‘stringi’ version 1.2.4 cannot be unloaded:
 Error in unloadNamespace(package) : namespace ‘stringi’ is imported by ‘tokenizers’ so cannot be unloaded

```{r}
# 排除Package ‘stringi’ version 1.2.4 cannot be unloaded:
unloadNamespace("tidytext")
unloadNamespace("tokenizers")

library(cidian)
```

# 將自搜狗下載的詞彙檔(JourneyToTheWest.scel), 置於相同目錄
```{r}
# 解碼scel檔案
decode_scel(scel = "./JourneyToTheWest.scel",cpp = TRUE)
```

```{r}
# 讀取解碼後生成的詞庫檔案
scan(file="./JourneyToTheWest.scel_2019-03-16_12_58_58.dict",
      what=character(),nlines=50,sep='\n',
      encoding='utf-8',fileEncoding='utf-8')
```

```{r}
dict <- read_file("./JourneyToTheWest.scel_2019-03-16_12_58_58.dict")
# 將簡體詞庫轉為繁體
cc <- converter(S2TW)
dict_trad <- cc[dict]
write_file(dict_trad, "./JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict")
```

```{r}
# 讀取轉換成繁體後的詞庫檔案
scan(file="./JourneyToTheWest.scel_2019-03-16_12_58_58.traditional.dict",
      what=character(),nlines=50,sep='\n',
      encoding='utf-8',fileEncoding='utf-8')
```


