一、動機與分析目的

1.背景與動機

今年於8/28將會進行全國公投,而當中的第17案「您是否同意核四啟封商轉發電?」根據台灣民意基金會4月27日公布民調顯示,支持與反對核四商轉的比例各為43.5%與44%,形成拉鋸戰,核四去留延宕20餘年,現今社群媒體究竟是如何看待此事件。而PPT為全台最大BBS論壇,其中的八卦版與政黑版更是許多人批判政治的地方,因此我們想透過核四事件,比較出八卦版和政黑版在看待此次事件上有何不同。

2.研究目的

  1. 了解核電的相關討論與分析
  2. 研究政黑版與八卦版談論政治事件上風氣差別
  3. 了解目前民眾對於核電是否支持

3.資料集

資料來源:PTT HatePotics版、PTT Gossiping版
資料區間:2020/03/01~2021/05/01 所有文章

4.前情提要

  • 2021/08/28將會舉行全國公投,公投題目為「您是否同意核四啟封商轉發電?」
  • 馬英九 因在2014年林義雄絕食抗議後停建核四廠
  • 苗博雅 為台北市社民黨大安文山區議員,立場反核
  • 徐巧芯 為台北市國民黨松山信義區議員,立場擁核
  • 國民黨 立場多為擁核,但台中市長盧秀燕 堅決反對核電來台中,而新北市長侯友宜也稱沒有能力處理核廢料就沒有能力使用核電
  • 民進黨 立場主要為反核
  • 民眾黨 核四重啟公投將投不同意票 但不代表反對核電
  • 柯文哲 於4/9號苗博雅質詢是否同意核四商轉,柯文哲回應「我有我的答案」、「愚人的問題,智者無法回答」,並無特別表明立場

二、資料前處理

## Warning in Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8"): 作業系統
## 回報無法實現設定語區為 "zh_TW.UTF-8" 的要求
## Warning: package 'dplyr' was built under R version 3.6.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Warning: package 'stringr' was built under R version 3.6.2
## Warning: package 'tidytext' was built under R version 3.6.3
## Warning: package 'wordcloud2' was built under R version 3.6.3
## Warning: package 'data.table' was built under R version 3.6.3
## 
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## Warning: package 'ggplot2' was built under R version 3.6.3
## Warning: package 'reshape2' was built under R version 3.6.2
## 
## Attaching package: 'reshape2'
## The following objects are masked from 'package:data.table':
## 
##     dcast, melt
## Warning: package 'wordcloud' was built under R version 3.6.3
## Loading required package: RColorBrewer
## Warning: package 'tidyr' was built under R version 3.6.3
## 
## Attaching package: 'tidyr'
## The following object is masked from 'package:reshape2':
## 
##     smiths
## Warning: package 'readr' was built under R version 3.6.3
## Warning: package 'scales' was built under R version 3.6.2
## 
## Attaching package: 'scales'
## The following object is masked from 'package:readr':
## 
##     col_factor
## Loading required package: jiebaR
## Warning: package 'jiebaR' was built under R version 3.6.3
## Loading required package: jiebaRD
## Warning: package 'jiebaRD' was built under R version 3.6.3
## Warning: package 'openxlsx' was built under R version 3.6.3
## Loading required package: NLP
## Warning: package 'NLP' was built under R version 3.6.3
## 
## Attaching package: 'NLP'
## The following object is masked from 'package:ggplot2':
## 
##     annotate
## Loading required package: ggraph
## Warning: package 'ggraph' was built under R version 3.6.3
## Loading required package: igraph
## Warning: package 'igraph' was built under R version 3.6.3
## 
## Attaching package: 'igraph'
## The following object is masked from 'package:tidyr':
## 
##     crossing
## The following objects are masked from 'package:dplyr':
## 
##     as_data_frame, groups, union
## The following objects are masked from 'package:stats':
## 
##     decompose, spectrum
## The following object is masked from 'package:base':
## 
##     union
## Loading required package: widyr
## Warning: package 'widyr' was built under R version 3.6.3
## Warning: package 'plotly' was built under R version 3.6.3
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:igraph':
## 
##     groups
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

2.進行斷詞

# 格式化日期欄位
goss_token_art$artDate = goss_token_art$artDate %>% as.Date("%Y/%m/%d")
goss_token_rev$artDate = goss_token_rev$artDate %>% as.Date("%Y/%m/%d")
goss_token_all$artDate = goss_token_all$artDate %>% as.Date("%Y/%m/%d")

hate_token_art$artDate = hate_token_art$artDate %>% as.Date("%Y/%m/%d")
hate_token_rev$artDate = hate_token_rev$artDate %>% as.Date("%Y/%m/%d")
hate_token_all$artDate= hate_token_all$artDate %>% as.Date("%Y/%m/%d")

# 過濾特殊字元
goss_token_art = goss_token_art %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

goss_token_rev = goss_token_rev %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

goss_token_all = goss_token_all %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

hate_token_art = hate_token_art %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

hate_token_rev = hate_token_rev %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

hate_token_all = hate_token_all %>% 
  filter(!grepl('[[:punct:]]',word)) %>% # 去標點符號
  filter(!grepl("['^0-9a-z']",word)) %>% # 去英文、數字
  filter(nchar(.$word)>1) 

# 計算不同字的詞頻
goss_word_count_art <- goss_token_art %>%
  select(word) %>%
  group_by(word) %>%
  summarise(n=n()) %>%  # 算字詞單篇總數用summarise
  filter(n>5) %>%  # 過濾出現太少次的字
  arrange(desc(n))
## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)

三、基礎資料分析

1.文字雲

(1)八卦版

(2)政黑版

在文字雲中看不出兩個版主要的差異

2.計算政黑版與八卦版中,詞彙出現比率的差異

## Warning: Removed 24029 rows containing missing values (geom_point).
## Warning: Removed 24030 rows containing missing values (geom_text).

能看出八卦版和政黑版用詞並沒有顯著差異
八卦版較多頻率用詞:較多貶意詞如文組、廢氣、覺青、綠畜、蟑螂等
政黑版較多頻率用詞:較多地名如大安區、文山、新竹、花蓮、台中等

四、LIWC情緒分析

2.正負情緒分數折線圖_LIWC

## Joining, by = "word"
## `summarise()` regrouping output by 'artDate' (override with `.groups` argument)
## Joining, by = "word"
## `summarise()` regrouping output by 'artDate' (override with `.groups` argument)
## Warning: Removed 22 row(s) containing missing values (geom_path).
## Warning: Removed 20 row(s) containing missing values (geom_path).


>能看出八卦版在討論關於核能的部分相較於政黑版較有討論數量的起伏

3/10~3/12八卦版主要引起討論的文章為
- 蔡英文說重啟核四絕對不是選項
- 民進黨民調8成民眾支持綠電取代核電
- 民眾黨將定調公投態度,不支持核四公投
此些文章主要都為反核文章,
-> 八卦版負面大於正面
-> 政黑版正面大於負面

3/16~3/17高峰原因為
- 侯友宜問蘇貞昌核廢料要放新北多久 蘇貞昌:台灣沒地方願收容
- 反核派嗆「核廢料放你家」 徐巧芯反酸:燃煤空污可排到反核人士家?
- 任內「親手將核四封存」下台又高喊重啟 黃捷批馬英九:可笑又無能
此時主要討論為核廢料的收容,
-> 八卦版負面大於正面
-> 政黑版正面大於負面

3/28~3/30高峰原因為
- [新聞] 重啟無望!核四最後一批燃料棒送往美國 
- 歐盟科學諮詢機構:核電符合綠能投資
- 美麗島電子報民調》反核成過去式?4成5台灣人認為核電利大於弊
- 蘇揆:無法處理核廢料就沒資格談核能
-> 八卦版負面皆大於正面
-> 政黑版情緒接近

4/9~4/12
- 4/9 苗博雅問核四商轉公投?柯文哲:愚人問題智者無法回答
- 4/11 核四問題再嗆苗博雅 柯文哲:帶頭搞意識形態 讓人很不高興
- 4/11 反核嗆柯! 黃捷:沒理念的黨主席還能推動什麼價值?
-> 八卦版與政黑版負面皆大於正面,而八卦版負面字詞相較多更多

4/23 高峰原因為
- 林飛帆:降空污、減碳、反核、國民黨別亂
-> 八卦版並沒有明顯討論

4/27 高峰原因為
- 糗了!謝長廷秀台灣排核廢水證據 被抓包
- 蔡英文轟馬英九:7年前封存核四 現在卻改變立場
-> 八卦版負面大於正面
-> 政黑版並沒有明顯討論

## Warning: Removed 22 row(s) containing missing values (geom_path).
## Warning: Removed 20 row(s) containing missing values (geom_path).


>以比例來看,八卦版負面情緒多大於正面情緒
而政黑版在4/3後議題主要為苗博雅質詢柯文哲議題,多為負面情緒

(2)政黑版

## Joining, by = "word"
## Joining, by = "word"
## Joining, by = "word"

  • 正面字詞
    • 並沒有太大的差異,前三名皆為針對核電的支持、安全、跟網路常用語笑死。政黑版「支持」的詞彙出現比例較其他字詞多出許多
  • 負面字詞
    • 在八卦版前三名為問題、智障、垃圾,政黑版為問題、反對、智障,但智障的比例低於反對許多
  • 推測八卦版較多謾罵政策或特定人物等為智障、垃圾等用詞、而政黑版較無此現象

五、CVAW情緒分析

  • 使用 CVAW4 做情緒字典,CVAW4 與 LIWC 比較的好處如下
    • 「正負面情緒」 1(負面) 到9(正面) ( 為方便處理轉換成 -4 到 4 )
    • 「亢奮情緒」 1(冷靜) 到9(興奮) ( 為方便處理轉換成 -4 到 4 )
## No trace type specified:
##   Based on info supplied, a 'scatter' trace seems appropriate.
##   Read more about this trace type -> https://plot.ly/r/reference/#scatter
## No scatter mode specifed:
##   Setting the mode to markers
##   Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode
## Warning: `arrange_()` is deprecated as of dplyr 0.7.0.
## Please use `arrange()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.

1.散佈圖

(1)八卦版

## `summarise()` regrouping output by 'artTitle', 'artDate' (override with `.groups` argument)


八卦版多數的文章較為冷靜、並且負面略大於正面

(2)政黑版

## `summarise()` regrouping output by 'artTitle', 'artDate' (override with `.groups` argument)


政黑版也是多數的文章較為冷靜、並且正負面也略為相同

2.計算每日平均每篇文章平均每篇評論的情緒值和亢奮值

## `summarise()` ungrouping output (override with `.groups` argument)
## Adding missing grouping variables: `artTitle`
## `summarise()` ungrouping output (override with `.groups` argument)
## Adding missing grouping variables: `artTitle`
## Warning: Removed 11 row(s) containing missing values (geom_path).

## Warning: Removed 11 row(s) containing missing values (geom_path).
## Warning: Removed 9 row(s) containing missing values (geom_path).

## Warning: Removed 9 row(s) containing missing values (geom_path).



> 每日平均每篇文章平均每篇評論的情緒值和亢奮值,
- 能看出八卦版每日平均文章分數接近0但偏負面,約為0~-1,亢奮值也偏冷靜,約為0~-1
- 政黑板相較於八卦版文章較為正面,分數約為-1~3,而亢奮值也偏冷靜,約為0~-3

gossip_R <- gossip_review %>% 
  mutate(sentence=gsub("[\n]{2,}", "。", cmtContent)) %>% 
  mutate(sentence=gsub("\n", "", cmtContent)) %>% 
  mutate(sentence=gsub("http(s)?[-:\\/A-Za-z0-9\\.]+", " ", cmtContent))
gossip_M <- gossip_article %>% 
  mutate(sentence=gsub("[\n]{2,}", "。", sentence)) %>% 
  mutate(sentence=gsub("\n", "", sentence)) %>% 
  mutate(sentence=gsub("http(s)?[-:\\/A-Za-z0-9\\.]+", " ", sentence))

black_R <- hate_review %>% 
  mutate(sentence=gsub("[\n]{2,}", "。", cmtContent)) %>% 
  mutate(sentence=gsub("\n", "", cmtContent)) %>% 
  mutate(sentence=gsub("http(s)?[-:\\/A-Za-z0-9\\.]+", " ", cmtContent))

black_M <- hate_article %>% 
  mutate(sentence=gsub("[\n]{2,}", "。", sentence)) %>% 
  mutate(sentence=gsub("\n", "", sentence)) %>% 
  mutate(sentence=gsub("http(s)?[-:\\/A-Za-z0-9\\.]+", " ", sentence))

black_data <- rbind(black_M[,c("artDate","artUrl", "sentence")],black_R[,c("artDate","artUrl", "sentence")])

gossip_data <- rbind(gossip_M[,c("artDate","artUrl", "sentence")],gossip_R[,c("artDate","artUrl", "sentence")])

black_data <- black_data %>% 
  mutate(sentence=gsub("媒體來源|記者署名|完整新聞標題|完整新聞內文|完整新聞連結|(或短網址)|備註|備註請放最後面|違者新聞文章刪除|1.新聞網址︰ 新聞來源︰ETtoday新聞雲", "", sentence))
gossip_data <- gossip_data %>% 
  mutate(sentence=gsub("媒體來源|記者署名|完整新聞標題|完整新聞內文|完整新聞連結|(或短網址)|備註|備註請放最後面|違者新聞文章刪除|1.新聞網址︰ 新聞來源︰ETtoday新聞雲", "", sentence))

gossip_data_sentences <- strsplit(gossip_data$sentence,"[。!;?!?;]")

# 將每句句子,與他所屬的文章連結配對起來,整理成一個dataframe
gossip_data_sentences <- data.frame(
                        artUrl = rep(gossip_data$artUrl, sapply(gossip_data_sentences, length)), 
                        sentence = unlist(gossip_data_sentences)
                      ) %>%
                      filter(!str_detect(sentence, regex("^(\t|\n| )*$")))

gossip_data_sentences$sentence <- as.character(gossip_data_sentences$sentence)

black_data_sentences <- strsplit(black_data$sentence,"[。!;?!?;]")

# 將每句句子,與他所屬的文章連結配對起來,整理成一個dataframe
black_data_sentences <- data.frame(
                        artUrl = rep(black_data$artUrl, sapply(black_data_sentences, length)), 
                        sentence = unlist(black_data_sentences)
                      ) %>%
                      filter(!str_detect(sentence, regex("^(\t|\n| )*$")))

black_data_sentences$sentence <- as.character(black_data_sentences$sentence)

chi_tokenizer <- function(t){
  lapply(t, function(x) {
    if(nchar(x)>1){
      tokens <- segment(x, jieba_tokenizer)
      # 去掉字串長度爲1的詞彙
      tokens <- tokens[nchar(tokens)>1]
      return(tokens)
    }
  })
}

六、TF-ITF比較

## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)
## Joining, by = "artUrl"
## Joining, by = "artUrl"

1.TF-ITF

(1)八卦版TF-ITF

## # A tibble: 10 x 8
## # Groups:   artUrl [10]
##    artTitle           artUrl               word      n total     tf   idf tf_idf
##    <chr>              <chr>                <chr> <int> <int>  <dbl> <dbl>  <dbl>
##  1 Re:[新聞]定調公投態度民眾黨將~ https://www.ptt.cc/~ 草包     16   217 0.0737  4.30  0.317
##  2 [問卦]「現階段反核的是低端」,怎~ https://www.ptt.cc/~ 低端     16   262 0.0611  3.73  0.228
##  3 Re:[新聞]蔡英文:核四是危險拼~ https://www.ptt.cc/~ 拼裝     35   565 0.0619  3.41  0.211
##  4 [新聞]天道盟揪團搶300億核電工~ https://www.ptt.cc/~ 黑道     30   776 0.0387  5.40  0.209
##  5 [新聞]反核四!民進黨要求簽承諾書~ https://www.ptt.cc/~ 宜蘭     22   510 0.0431  4.30  0.186
##  6 [問卦]太陽能其實也算是核電吧?~ https://www.ptt.cc/~ 核融合~    19   313 0.0607  2.97  0.181
##  7 [問卦]所以核四到底484拼裝車<U+0447>~ https://www.ptt.cc/~ 拼裝     17   332 0.0512  3.41  0.175
##  8 Re:[新聞]蔡英文:核四是危險拼~ https://www.ptt.cc/~ 一步到位~    16   528 0.0303  5.40  0.164
##  9 Re:[問卦]核廢料補助1桶254~ https://www.ptt.cc/~ 直徑     18   654 0.0275  5.81  0.160
## 10 [新聞]憂藻礁公投缺電工商團體籲政~ https://www.ptt.cc/~ 工商     16   548 0.0292  5.40  0.158

(2)政黑版TF-ITF

## # A tibble: 10 x 8
## # Groups:   artUrl [10]
##    artTitle           artUrl               word      n total     tf   idf tf_idf
##    <chr>              <chr>                <chr> <int> <int>  <dbl> <dbl>  <dbl>
##  1 [轉錄]藻礁與核四:能源公投與不可~ https://www.ptt.cc/~ 偏好     35   898 0.0390  5.60 0.218 
##  2 [新聞]核四落腳台中?民進黨團突襲~ https://www.ptt.cc/~ 新竹     36   741 0.0486  3.81 0.185 
##  3 Re:[討論]以核養綠?核電廠不耗~ https://www.ptt.cc/~ 海水     16   401 0.0399  3.81 0.152 
##  4 Re:[討論]還是重啟核四吧~ https://www.ptt.cc/~ 完成     18   429 0.0420  2.51 0.105 
##  5 Re:[新聞]駁斥核四在台中重啟馬~ https://www.ptt.cc/~ 新竹     17   717 0.0237  3.81 0.0903
##  6 [新聞]學者建議核四移至台中盧秀燕~ https://www.ptt.cc/~ 台中     19   343 0.0554  1.61 0.0894
##  7 [新聞]核四遷台中? 盧秀燕:我跟~ https://www.ptt.cc/~ 台中     18   369 0.0488  1.61 0.0787
##  8 [新聞]議員籲對核四商轉表態柯文哲~ https://www.ptt.cc/~ 柯文哲~    18   432 0.0417  1.89 0.0787
##  9 Fw:[新聞]2050年零碳排!比~ https://www.ptt.cc/~ 比爾蓋茲~    36  2247 0.0160  4.91 0.0786
## 10 [新聞]國民黨:民進黨別騙人民提出~ https://www.ptt.cc/~ 土條     19   422 0.0450  1.69 0.0761

2.從每篇文章挑選出tf-idf最大的十個詞、並計算每個詞被選中的次數

## # A tibble: 10 x 2
##    word       n
##    <chr>  <int>
##  1 公投      24
##  2 柯文哲    18
##  3 表態      17
##  4 核廢料    17
##  5 處理      16
##  6 你家      14
##  7 林義雄    14
##  8 補助      14
##  9 太陽能    13
## 10 封存      13
## # A tibble: 10 x 2
##    word       n
##    <chr>  <int>
##  1 柯文哲    14
##  2 巧芯      10
##  3 台中       9
##  4 侯友宜     9
##  5 馬英九     9
##  6 國民黨     9
##  7 綠能       9
##  8 縣市       9
##  9 公投       8
## 10 核廢料     8

七、ngram

1.Bigram

(1)八卦版bigram

##          bigram   n
##  1:   核廢料 放 312
##  2:     放 你家 240
##  3:   重啟 核四 216
##  4:   台灣 價值 194
##  5:   時空 背景 186
##  6:     放 我家 171
##  7: 中共 同路人 167
##  8:   能源 政策 165
##  9:     台灣 人 161
## 10:   非核 家園 133

(2)政黑版bigram

##        bigram   n
##  1: 重啟 核四 182
##  2: 核四 公投 115
##  3: 能源 政策  99
##  4: 核廢料 放  90
##  5: 核四 重啟  81
##  6:   台灣 人  65
##  7: 非核 家園  61
##  8:   擁核 派  60
##  9: 支持 核四  51
## 10: 藻礁 公投  44
  • 八卦版bigram的內容多為嘲諷反核派和民進黨政府用語
    • 如 [核廢料 放]、、[台灣 價值]、[時空 背景]、[中共 同路人]、[非核 家園]等等
  • 政黑版bigram的內容多為提及政策與核四相關用詞
    • 如 [重啟 核四]、、[核四 公投]、[能源 政策]、[核四 重啟]等等

2.trigram

(1)八卦版trigram

##             ngrams   n
##  1: 核廢料 放 你家 130
##  2: 核廢料 放 我家  45
##  3: 時空 背景 之術  39
##  4:     抗 中保 台  38
##  5: 重啟 核四 公投  27
##  6: 國家 能源 政策  25
##  7:   廢氣 排 你家  24
##  8: 支持 重啟 核四  22
##  9:   問 台北 市長  18
## 10:   說 核廢料 放  18

(2)政黑版trigram

##               ngrams  n
##  1:   核廢料 放 我家 19
##  2:   支持 核四 重啟 16
##  3:   重啟 核四 公投 14
##  4:   愚人 問題 智者 14
##  5:   核廢料 放 你家 13
##  6:   核四 重啟 公投 11
##  7: 新北 市長 侯友宜 11
##  8:     說 核廢料 放 11
##  9:     公投 綁 大選 10
## 10: 台北 市長 柯文哲 10
  • 八卦版Trigram的內容多為嘲諷反核派和民進黨政府用語
    • 如 [核廢料 放 你家/我家]、、[時空 背景 之術]、[抗 中保 台]
  • 政黑版Trigram的內容多為提及政策與核四相關用詞
    • 如 [核廢料 放 我家]、、[支持 核四 重啟]、[重啟 核四 公投]等等

3.計算兩個字同時出現的總次數

## Warning: `distinct_()` is deprecated as of dplyr 0.7.0.
## Please use `distinct()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
## Warning: `tbl_df()` is deprecated as of dplyr 1.0.0.
## Please use `tibble::as_tibble()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
## # A tibble: 15,092,176 x 3
##    item1 item2     n
##    <chr> <chr> <dbl>
##  1 核四  台灣    138
##  2 台灣  核四    138
##  3 核四  反核    131
##  4 反核  核四    131
##  5 問題  核四    129
##  6 核四  問題    129
##  7 核四  公投    126
##  8 公投  核四    126
##  9 台灣  反核    124
## 10 反核  台灣    124
## # ... with 15,092,166 more rows
## # A tibble: 37,895,608 x 3
##    item1 item2     n
##    <chr> <chr> <dbl>
##  1 台灣  核四    303
##  2 核四  台灣    303
##  3 核能  台灣    297
##  4 台灣  核能    297
##  5 台灣  問題    292
##  6 問題  台灣    292
##  7 反核  核四    290
##  8 核四  反核    290
##  9 反核  台灣    283
## 10 台灣  反核    283
## # ... with 37,895,598 more rows

4.計算兩個詞彙間的相關性

## # A tibble: 4,741,506 x 3
##    item1 item2 correlation
##    <chr> <chr>       <dbl>
##  1 吸滿  吸好        0.876
##  2 吸好  吸滿        0.876
##  3 裝睡  不醒        0.856
##  4 不醒  裝睡        0.856
##  5 溫室  氣體        0.826
##  6 氣體  溫室        0.826
##  7 背景  時空        0.826
##  8 時空  背景        0.826
##  9 非核  家園        0.814
## 10 家園  非核        0.814
## # ... with 4,741,496 more rows
## # A tibble: 965,306 x 3
##    item1  item2  correlation
##    <chr>  <chr>        <dbl>
##  1 非核   家園         0.881
##  2 家園   非核         0.881
##  3 質詢   苗博雅       0.760
##  4 苗博雅 質詢         0.760
##  5 時空   背景         0.750
##  6 背景   時空         0.750
##  7 松山   信義         0.742
##  8 信義   松山         0.742
##  9 絕食   林義雄       0.666
## 10 林義雄 絕食         0.666
## # ... with 965,296 more rows

5.找出與 “反對/不支持” “支持” 相關性最高的 15 個詞彙

6.針對三黨立場找出相關性最高的 15 個詞彙

(1)八卦版

## Selecting by correlation

  • 民眾黨
    • 多為阿北、阿伯、柯文哲的相關詞彙、還有民眾黨因為立場與民進黨相同被稱為小綠
  • 民進黨
    • 多為與核能議題與政策相關、如核四、執政、總統等
  • 國民黨
    • 馬英九七年前停核四,因此時常提起馬英九、當年、當時等字彙
    • 侯友宜立場與國民黨主要立場相左,因此時常被討論

(2)政黑版

## Selecting by correlation

  • 民眾黨
    • 多為阿北、阿伯、柯文哲的相關詞彙,還有質詢柯文哲的苗博雅,其他多數為與公投立場相關
  • 民進黨
    • 最多與國民黨一起被討論,而其他字詞如反對、反核等推測為民進黨反對核四重啟公投、反核立場
  • 國民黨
    • 馬英九當年停建核四,而現今轉而支持核四,因此時常提起馬英九、並且和當年、當時等字彙
    • 侯友宜、盧秀燕對核四態度為反核、因此時常被報導並且討論
    • 另外還有表態等詞,推測國民黨在核能議題無統一立場,因此國民黨於表態時常一起出現

八、詞彙關係圖

1.八卦版



前總統-絕食抗議:馬總統任內因林義雄絕食抗議停建核四
巧芯-她家:挺核四重啟台北市國民黨議員徐巧芯於臉書留言「(核廢料)放我家的話OK!」
馬斯克-太空:馬斯克是太空技術探索公司 SpaceX創辦人,因多次提出移民火星的計畫,因此鄉民經常說請馬斯克將核廢料送往太空即可解決核廢料問題
林義雄-絕食-聖人-餓死:挺核鄉民會嘲諷林義雄是聖人、當初應該讓林義雄餓死等



相關性大於0.6的多是鄉民常用之語,如「吸好吸滿」、「中共同路人」、「非核家園」等
而其中煙囪-窗戶是指鄉民常酸反核之人「不支持核電的話,火力煙囪通你家窗戶」
另外提及苗博雅的相關詞彙多是在4/9~4/12苗博雅議員於議會質詢柯文哲等相關議題,而柯文者回覆苗博雅「愚人的問題,智者無法回答」

九、結論

我們發現

  • 針對目前執政黨反核立場,八卦版鄉民較持反對意見,當有執政黨談及反核、核廢料相關議題,八卦版之負面情緒會明顯大於正面情緒

  • 政黑版同樣主題文章與留言較單純,多數圍繞在核四、能源的議題,較不會有反諷、辱罵用詞,並且較常針對政治人物和黨派進行討論

  • 八卦版內容較複雜,並且具有許多廢文和辱罵用詞,若想認真探討一件政治相關議題,較不建議在八卦版做搜尋

  • 有民眾黨、柯文哲對於核能的相關議題皆能在兩版引起熱烈討論