系統設置

## [1] "Chinese (Traditional)_Taiwan.950"

讀取批踢踢檔案

資料描述

  • 2019年4月23日,高雄市市長韓國瑜宣布參選2020總統大選。
  • 透過中山管院文字分析平台在批踢踢的HatePolitics看板,搜尋關鍵字:[韓國瑜、韓國魚、霸韓、韓導、韓總],時間從2019-04-23~2020-04-22,為期一年的資料,總篇數為23735篇。

資料預覽

1.可以觀察到資料主要分佈去年5-6月以及12月,今年討論聲量則明顯下降。
2.【聲量高點原因推測】
(1)2019年5-6月:韓國瑜剛宣布要參選總統,引發諸如“烙跑市長”、“選上總統,高雄上班”等議題。
(2)2020年12月:鄰近一月中的總統大選,正值“競選活動”與“總統辯論會”的高峰期。

Tokenization

初始化斷詞引擎,並加入停用字

自定義斷詞

## [1] TRUE

去掉字串長度爲1的詞彙

過濾特殊字元

把名稱統一

## Warning in tokens$word == c("韓國魚", "韓董", "韓導", "韓總"): 較長的物件長度並
## 非較短物件長度的倍數
## Warning in tokens$word == c("柯p", "柯P"): 較長的物件長度並非較短物件長度的倍數

查看前20筆資料

##                    artTitle    artDate  artTime
## 1  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 2  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 3  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 4  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 5  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 6  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 7  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 8  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 9  [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 10 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 11 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 12 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 13 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 14 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 15 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 16 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 17 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 18 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 19 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
## 20 [討論]還以為韓總是聰明人 2019-04-23 10:24:28
##                                                         artUrl artPoster
## 1  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 2  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 3  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 4  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 5  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 6  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 7  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 8  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 9  https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 10 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 11 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 12 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 13 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 14 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 15 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 16 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 17 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 18 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 19 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
## 20 https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html   WER0930
##          artCat commentNum push boo id     word
## 1  HatePolitics         84   18   3  1     以為
## 2  HatePolitics         84   18   3  1   韓國瑜
## 3  HatePolitics         84   18   3  1     兵法
## 4  HatePolitics         84   18   3  1     高雄
## 5  HatePolitics         84   18   3  1     這局
## 6  HatePolitics         84   18   3  1     棋中
## 7  HatePolitics         84   18   3  1 力挽狂瀾
## 8  HatePolitics         84   18   3  1     我本
## 9  HatePolitics         84   18   3  1     認為
## 10 HatePolitics         84   18   3  1     要選
## 11 HatePolitics         84   18   3  1     總統
## 12 HatePolitics         84   18   3  1     意思
## 13 HatePolitics         84   18   3  1     最好
## 14 HatePolitics         84   18   3  1     時機
## 15 HatePolitics         84   18   3  1     屁股
## 16 HatePolitics         84   18   3  1     還沒
## 17 HatePolitics         84   18   3  1     坐熱
## 18 HatePolitics         84   18   3  1   豈不是
## 19 HatePolitics         84   18   3  1   朱立倫
## 20 HatePolitics         84   18   3  1 前車之鑑

詞頻

計算所有字在“單一文集”中的總詞頻

計算所有字在“所有文集”中的總詞頻

## Selecting by n

詞頻文字雲

罷免聲量

“罷免”達到巔峰的十個日子

## # A tibble: 10 x 2
##    artDate    count
##    <date>     <int>
##  1 2020-04-08   110
##  2 2020-01-13    91
##  3 2019-12-22    89
##  4 2020-01-11    89
##  5 2019-12-21    84
##  6 2020-01-30    74
##  7 2020-01-14    72
##  8 2019-09-13    70
##  9 2019-12-11    69
## 10 2019-06-27    65

2020年04月:韓國瑜遞狀聲請停止執行罷免案、提出普篩制度、提出海軍官兵若拒絕疫調將開罰
2020年01月:總統大選 2019年12月:總統大選辯論會、韓國瑜上博恩夜夜秀、wecare 大遊行
2019年09月:韓國瑜否定“挖石油”言論、郭台銘退出國民黨
2019年06月:韓國瑜請假表公開、學生當面嗆韓

草包聲量

“草包”達到巔峰的十個日子

## # A tibble: 10 x 2
##    artDate    count
##    <date>     <int>
##  1 2019-05-13    35
##  2 2019-12-01    33
##  3 2019-05-03    31
##  4 2019-05-06    31
##  5 2019-05-04    28
##  6 2019-05-17    27
##  7 2019-05-07    26
##  8 2020-01-11    22
##  9 2019-08-29    21
## 10 2019-12-03    21

2019年05月:草包之歌流傳
2019年12月:總統大選辯論會、韓國瑜上博恩夜夜秀、wecare 大遊行
2020年01月:總統大選
2019年08月:晶晶體風波

情緒分析

準備LIWC字典

全名Linguistic Inquiry and Word Counts,由心理學家Pennebaker於2001出版

將資料轉換為Document Term Matrix (DTM)

## <<DocumentTermMatrix (documents: 23735, terms: 110456)>>
## Non-/sparse entries: 1317797/2620355363
## Sparsity           : 100%
## Maximal term length: 14
## Weighting          : term frequency (tf)
## <<DocumentTermMatrix (documents: 10, terms: 10)>>
## Non-/sparse entries: 12/88
## Sparsity           : 88%
## Maximal term length: 4
## Weighting          : term frequency (tf)
## Sample             :
##                                                              Terms
## Docs                                                          九二共識 人物
##   https://www.ptt.cc/bbs/HatePolitics/M.1555068495.A.5D0.html        1    1
##   https://www.ptt.cc/bbs/HatePolitics/M.1555128913.A.636.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1555477358.A.A83.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556047007.A.BD2.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556049755.A.D99.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556050417.A.5C3.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556051849.A.913.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556053627.A.B8B.html        0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556057390.A.908.html        0    0
##                                                              Terms
## Docs                                                          力量 土包子 不好
##   https://www.ptt.cc/bbs/HatePolitics/M.1555068495.A.5D0.html    2      3    1
##   https://www.ptt.cc/bbs/HatePolitics/M.1555128913.A.636.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1555477358.A.A83.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556047007.A.BD2.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556049755.A.D99.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556050417.A.5C3.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556051849.A.913.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556053627.A.B8B.html    0      0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556057390.A.908.html    0      0    0
##                                                              Terms
## Docs                                                          中心 內容 分享
##   https://www.ptt.cc/bbs/HatePolitics/M.1555068495.A.5D0.html    2    1    1
##   https://www.ptt.cc/bbs/HatePolitics/M.1555128913.A.636.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1555477358.A.A83.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556047007.A.BD2.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556049755.A.D99.html    0    1    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556050417.A.5C3.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556051849.A.913.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556053627.A.B8B.html    0    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556057390.A.908.html    0    1    0
##                                                              Terms
## Docs                                                          午宴 心得
##   https://www.ptt.cc/bbs/HatePolitics/M.1555068495.A.5D0.html    1    1
##   https://www.ptt.cc/bbs/HatePolitics/M.1555128913.A.636.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1555477358.A.A83.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556044230.A.F4B.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556047007.A.BD2.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556049755.A.D99.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556050417.A.5C3.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556051849.A.913.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556053627.A.B8B.html    0    0
##   https://www.ptt.cc/bbs/HatePolitics/M.1556057390.A.908.html    0    0

查看DTM矩陣,可以發現是個稀疏矩陣。

建立LDA模型

\(\phi\) Matrix

查看\(\phi\) matrix (topic * term)

## # A tibble: 220,912 x 3
##    topic term          beta
##    <int> <chr>        <dbl>
##  1     1 九二共識 0.000114 
##  2     2 九二共識 0.000170 
##  3     1 人物     0.000654 
##  4     2 人物     0.000865 
##  5     1 力量     0.000645 
##  6     2 力量     0.000120 
##  7     1 土包子   0.0000430
##  8     2 土包子   0.0000439
##  9     1 不好     0.000474 
## 10     2 不好     0.000774 
## # ... with 220,902 more rows

從topics中可以得到特定主題生成特定詞彙的概率。

更多主題

  • 嘗試2,5,10,15,25主題數,將結果存起來,再做進一步分析

因為需要執行較久,所以已將主題結果存在lda_result

載入每個主題的LDA結果

透過perplexity找到最佳主題數

## Warning: `data_frame()` is deprecated, use `tibble()`.
## This warning is displayed once per session.

perplexity 越小越好,但是太小的話,主題數會分太細。通常會找一個主題數適當,且perplexity比較低的主題。 因此,在後續分析時,本組將分為 “10個”主題。

LDA後續分析

## # A tibble: 1,104,560 x 3
##    topic term         beta
##    <int> <chr>       <dbl>
##  1     1 九二共識 1.18e-24
##  2     2 九二共識 1.31e-15
##  3     3 九二共識 3.86e-14
##  4     4 九二共識 2.93e-30
##  5     5 九二共識 4.98e-24
##  6     6 九二共識 2.04e-21
##  7     7 九二共識 6.24e-19
##  8     8 九二共識 1.37e-16
##  9     9 九二共識 5.17e-29
## 10    10 九二共識 1.29e- 3
## # ... with 1,104,550 more rows

每一行代表一個主題中的一個詞彙

Document 主題分佈

## [1] 23735    10

每篇文章都有topic的分佈,所以總共是:23735筆的文章*10個主題

查看特定主題的文章

  • 透過找到特定文章的分佈進行排序之後,可以看到此主題的比重高的文章在討論什麼。

可以看到“民調:韓 V.S. 蔡、郭、柯”這個主題主要涵蓋了“韓、蔡、郭、柯的各式民調變動”。