套件安裝及載入

系統參數設定

## Warning in Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8"): OS
## reports request to set locale to "zh_TW.UTF-8" cannot be honored
## [1] ""

載入packages

## Loading required package: dplyr
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Loading required package: tidytext
## Loading required package: jiebaR
## Loading required package: jiebaRD
## Loading required package: gutenbergr
## Loading required package: stringr
## Loading required package: wordcloud2
## Loading required package: ggplot2
## Loading required package: tidyr
## Loading required package: scales

使用Jieba套件進行中文斷詞

基本斷詞

正規表示式(Regular Expression)

## 'data.frame':    29830 obs. of  3 variables:
##  $ gutenberg_id: int  23950 23950 23950 23950 23950 23950 23950 23950 23950 23950 ...
##  $ text        : chr  "第一回:宴桃園豪傑三結義,斬黃巾英雄首立功  詞曰:  滾滾長江東逝水,浪花淘盡英雄" "是非成敗轉頭空:青山依舊在,幾度夕陽紅" "白髮漁樵江渚上,慣看秋月春風" "一壺濁酒喜相逢:古今多少事,都付笑談中" ...
##  $ chapter     : int  1 1 1 1 1 1 1 1 1 1 ...

檢查總章節回數

## [1] 120

使用搜狗詞彙庫,並將簡體轉為繁體

## 
## Attaching package: 'readr'
## The following object is masked from 'package:scales':
## 
##     col_factor
## Loading required package: usethis
## # tmcn Version: 0.2-13
##  [1] "阿斗當皇帝軟弱無能" "阿斗的江山白送"     "阿會喃"            
##  [4] "阿陽"               "哀牢"               "艾縣"              
##  [7] "安北將軍"           "安城"               "安次"              
## [10] "安德"               "安定"               "安定郡"            
## [13] "安東將軍"           "安豐"               "安故"              
## [16] "安廣"               "安國"               "安漢"              
## [19] "安樂"               "安樂公"             "安陵"              
## [22] "安陸"               "安彌"               "安南將軍"          
## [25] "安平"               "安平國"             "安丘"              
## [28] "安世"               "安市"               "安熹"              
## [31] "安西將軍"           "安陽"               "安夷"              
## [34] "安邑"               "安遠將軍"           "安眾"              
## [37] "奧汀多賴把"         "鰲頭兩刃斧"         "媼圍"              
## [40] "巴郡"               "霸陵"               "八路諸侯"          
## [43] "灞水"               "八校尉兵"           "拔用"              
## [46] "霸者之威"           "白帝城托孤"         "白鶴"              
## [49] "白虹"               "白虎銀牙"

添加詞彙庫及停用字

## [1] TRUE
## 'data.frame':    293709 obs. of  3 variables:
##  $ gutenberg_id: int  23950 23950 23950 23950 23950 23950 23950 23950 23950 23950 ...
##  $ chapter     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ word        : chr  "第一回" "宴" "桃園豪傑三結義" "斬黃巾英雄首立功" ...
##    gutenberg_id chapter             word
## 1         23950       1           第一回
## 2         23950       1               宴
## 3         23950       1   桃園豪傑三結義
## 4         23950       1 斬黃巾英雄首立功
## 5         23950       1                
## 6         23950       1                
## 7         23950       1             詞曰
## 8         23950       1                
## 9         23950       1                
## 10        23950       1             滾滾
## 11        23950       1             長江
## 12        23950       1               東
## 13        23950       1             逝水
## 14        23950       1             浪花
## 15        23950       1             淘盡
## 16        23950       1             英雄
## 17        23950       1         是非成敗
## 18        23950       1             轉頭
## 19        23950       1               空
## 20        23950       1             青山

計算詞頻

## # A tibble: 20 x 2
##    word    sum
##    <chr> <int>
##  1 玄德   1779
##  2 孔明   1644
##  3 曹操    923
##  4 將軍    708
##  5 丞相    532
##  6 關公    502
##  7 雲長    429
##  8 荊州    408
##  9 張飛    364
## 10 引兵    360
## 11 呂布    355
## 12 商議    341
## 13 軍士    321
## 14 魏延    321
## 15 主公    319
## 16 大喜    310
## 17 孫權    309
## 18 趙雲    309
## 19 左右    292
## 20 軍馬    289

文字雲

各章節的句子和詞彙總

## [1] 15

在第15回時出現詞彙總數最多

## # A tibble: 40,239 x 4
##    word            `First 87` part    proportion
##    <chr>                <dbl> <chr>        <dbl>
##  1 丁巳            0.00000820 Last 33 NA        
##  2 丁公是          0.00000820 Last 33 NA        
##  3 丁夫人          0.0000164  Last 33 NA        
##  4 丁立           NA          Last 33  0.0000213
##  5 丁命            0.00000820 Last 33 NA        
##  6 丁奉            0.000312   Last 33  0.000384 
##  7 丁奉雪中奮短兵 NA          Last 33  0.0000213
##  8 丁咸           NA          Last 33  0.0000213
##  9 丁封           NA          Last 33  0.0000426
## 10 丁軍健         NA          Last 33  0.0000213
## # ... with 40,229 more rows