Ch.0 : 資料取得及觀念複習
1. 資料取得及套件載入
載入的資料是由中山大學管理學院文字分析平台取得,在平台資料輸出區塊選擇「文章+詞彙+詞頻」選項,即可取得相同格式之csv檔案。
資料簡介
本資料為2019/01/26 ~ 2019/03/08,將PTT武漢肺炎討論專版自01/26開版以來之資料,透過文字分析平台整理,得到4738篇文章。
Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
[1] "zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8"
安裝需要的packages
packages = c("dplyr","ggplot2", "data.table", "scales")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
載入需要的packages以及資料
require(dplyr)
require(ggplot2)
require(data.table)
require(scales)
require(wordcloud2)
載入自平台下載下來的資料
csv <- fread("./data/nCoV2019_artWordFreq.csv", encoding = "UTF-8")
csv$artDate = csv$artDate %>% as.Date("%Y/%m/%d")
str(csv)
Classes ‘data.table’ and 'data.frame': 447662 obs. of 6 variables:
$ artTitle: chr "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" ...
$ artDate : Date, format: "2020-01-25" "2020-01-25" "2020-01-25" "2020-01-25" ...
$ artTime : chr "20:28:07" "20:28:07" "20:28:07" "20:28:07" ...
$ artUrl : chr "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" ...
$ word : chr "澎湖" "通報" "女性" "分院" ...
$ count : int 7 4 4 3 3 2 2 2 2 2 ...
- attr(*, ".internal.selfref")=<externalptr>
資料預設之日期欄位是“chr”格式,在畫圖前我們須先將其轉為“date”格式,轉換後可以透過str指令來確認各欄位型態。
資料欄位
- artTitle: 文章之標題,注意:不同文章可能會有完全相同的標題。
- artDate: 文章發佈之日期。
- artTime: 文章發佈之時間。
- artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
- word: 詞彙。
- count: 詞頻。
Ch.1 日期折線圖
這個章節的目的是計算出每一天文章的發表數量,可以看出特定主題討論的熱度。
資料處理
data <- csv %>%
select(artDate, artUrl) %>%
distinct()
select(): 我們只需要文章以及日期兩個欄位即可,其他欄位不需要。
distinct(): 一篇文章有很多個詞彙,所以會有很多列,但我們只需要一篇文章保留一個列即可。
article_count_by_date <- data %>%
group_by(artDate) %>%
summarise(count = n())
head(article_count_by_date, 20)
按照日期分群,計算每天共有幾篇討論文章。
plot_date <-
# data
article_count_by_date %>%
# aesthetics
ggplot(aes(x = artDate, y = count)) +
# geometrics
geom_line(color = "#00AFBB", size = 2) +
geom_vline(xintercept = as.numeric(as.Date("2020-02-12")), col='red') +
# coordinates
scale_x_date(labels = date_format("%Y/%m/%d")) +
ggtitle("武漢肺炎 討論文章數") +
xlab("日期") +
ylab("數量") +
# theme
theme(text = element_text(family = "Heiti TC Light")) #加入中文字型設定,避免中文字顯示錯誤。
plot_date

從上圖中可以看到關於「武漢肺炎」的討論從開版以來,討論文章數有逐漸增加的趨勢。
Ch.2 文字雲
接下來我們來大略觀察討論的內容為何,使用的方式為文字雲。
data <- csv %>%
group_by(word) %>%
summarise(sum = sum(count)) %>%
arrange(desc(sum))
先將資料集中所有文章按照文字進行分群,計算每一個字的總詞頻。
head(data)
結果為總詞頻最多的字。
data %>% filter(sum > 500) %>% wordcloud2()
將整理好的資料直接送入wordcloud2 function 即可得到文字雲。此套件為互動式介面,使用滑鼠移動到特定的詞彙,畫面會同時顯示詞彙以及對應的詞頻。
按照日期進行區分
在Ch.1中的日期折線圖中,我們發現在2/12前後討論數量有一波轉折,我們來看看2/12前後的討論內容是否有不同的地方。
data_before <- csv %>% filter(artDate <= "2020-02-12")
data_after <- csv %>% filter(artDate > "2020-02-12")
按照日期切分資料
data_before <- data_before %>%
group_by(word) %>%
summarise(sum = sum(count)) %>%
arrange(desc(sum))
data_after <- data_after %>%
group_by(word) %>%
summarise(sum = sum(count)) %>%
arrange(desc(sum))
與Ch.2相同的資料處理。
plot_before <- data_before %>% filter(sum > 300) %>% wordcloud2()
#plot_before

2/12 之前的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出)
plot_after <- data_after %>% filter(sum > 300) %>% wordcloud2()
#plot_after

2/12之後的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出)
觀察兩張圖片中出現的國家可以發現,在2/12以前,有出現「中國」、「台灣」、「美國」、「日本」、「香港」。 在2/12以後,開始出現「韓國」、「南韓」、「大邱」、「伊朗」等關鍵字。大致與疾病爆發的先後順序一致。
練習練習~
可以發現本次資料集內有許多新聞用語,因為武漢肺炎版上有許多人轉貼新聞。
那麼現在請各位將所列的幾個關鍵字移除後重新繪製文字雲吧!
新聞關鍵字:發稿、新聞、原文、記者、發稿、撰稿者、連結、完整標題、今天、不是、目前、表示
### Code Here ###
Ch3. 長條圖
文字雲可以直覺看出較常提到的字,但如果想得到精確的「最常出現詞彙」,我們則可以透過長條圖來查看。
data <- rbind(data_before %>% mutate(type="before"), data_after %>% mutate(type="after"))
將2/12前後的資料加入一個欄位標示後合併起來。
head(data)
除了詞彙及詞頻以外,還多了一個type欄位來區分2/12以前或是以後。
plot_merge <- data %>%
group_by(type) %>%
top_n(10, sum) %>%
ungroup() %>%
mutate(word = reorder(word, sum)) %>%
ggplot(aes(x=word, y=sum, fill = type)) +
geom_col(show.legend = FALSE) +
labs(x = NULL, y="詞頻") +
facet_wrap(~type, ncol = 1, scales="free") +
coord_flip()+
theme(text = element_text(family = "Heiti TC Light"))
plot_merge

由上圖可以看到,討論的內容在2/12前後大致相同。
plot_merge <- data %>%
group_by(type) %>%
top_n(50, sum) %>%
ungroup() %>%
#filter(!(duplicated(word)| duplicated(word, fromLast = TRUE))) #%>%
group_by(word) %>%
filter(n()==1) %>%
ungroup() %>%
mutate(word = reorder(word, sum)) %>%
ggplot(aes(word, sum, fill = type)) +
geom_col(show.legend = FALSE) +
labs(x = NULL, y="總和") +
facet_wrap(~type, ncol = 1, scales="free") +
coord_flip()+
theme(text = element_text(family = "Heiti TC Light"))
plot_merge

將重複的詞彙移除後,可以看到在2/12前與2/12後的討論差異:
1. 國家不同
2. 隨著疫情蔓延,出現更多死亡
3. 最初的「入境」管制議題,到後來的「社區」傳播議題。
Ch.4 情緒折線圖
透過文字分析平台可以輸出每篇文章的情緒分數,在資料預覽頁面選擇「文章+情緒」選項即可得到資料。
載入資料
csv_sen <- fread("./data/nCoV2019_artSen.csv", encoding = "UTF-8")
head(csv_sen)
資料欄位介紹:
1. artTitle: 文章之標題,注意:不同文章可能會有完全相同的標題。
2. artDate: 文章發佈之日期。
3. artTime: 文章發佈之時間。
4. artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
5. positive_emotion_grade: 本篇文章出現多少次正面情緒詞彙。
6. negative_emotion_grade: 本篇文章出現多少次負面情緒詞彙。
7. neutral_emotion_grade: 本篇文章出現多少次中性情緒詞彙。
csv_sen$artDate = csv_sen$artDate %>% as.Date("%Y/%m/%d")
str(csv_sen)
Classes ‘data.table’ and 'data.frame': 4738 obs. of 7 variables:
$ artTitle : chr "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]新加坡累積確診至4人" "[討論]出門該注意哪些重點?" "[閒聊]這個板沒有板規嗎?" ...
$ artDate : Date, format: "2020-01-25" "2020-01-25" "2020-01-25" "2020-01-25" ...
$ artTime : chr "20:28:07" "20:32:36" "20:44:18" "21:56:41" ...
$ artUrl : chr "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984359.A.6D7.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579985060.A.ADD.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579989403.A.239.html" ...
$ positive_emotion_grade: int 2 0 0 0 1 0 5 5 10 1 ...
$ negative_emotion_grade: int 0 0 0 0 0 0 11 1 6 4 ...
$ neutral_emotion_grade : int 1 0 0 0 0 0 3 0 0 0 ...
- attr(*, ".internal.selfref")=<externalptr>
與Ch.1相同,資料預設日期格式為“chr”,我們需要先將其轉為“date”格式。
data_sen <- csv_sen %>%
group_by(artDate) %>%
summarise(positive = sum(positive_emotion_grade), negative = sum(negative_emotion_grade), neutral = sum(neutral_emotion_grade))
head(data_sen)
將資料按照日期分群後,加總每天的三種情緒分數,並進行標準化。
data_sen %>% ggplot(aes(x= artDate)) +
geom_line(aes(y = positive, colour = "red")) +
geom_line(aes(y = negative, colour = "blue")) +
geom_line(aes(y = neutral, colour = "yellow")) +
scale_x_date(labels = date_format("%Y/%m/%d")) +
scale_color_discrete(name="情緒種類", labels = c("positive","negative","neutral")) +
ggtitle("武漢肺炎 討論情緒") +
xlab("日期") +
ylab("分數") +
theme(text = element_text(family = "Heiti TC Light"))

練習練習~
剛剛我們將資料按照日期分群後,加總計算了每天的三種情緒分數。 但是我們可以發現每天的文章數量造成辭彙的數量不一樣,所以情緒圖的走勢會有很大的起伏。 請各位將每日的情緒總值進行標準化後再畫一次情緒的走勢圖。
公式:
positive = positive / (positive + negative + neutral)
negative = negative / (positive + negative + neutral)
neutral = neutral / (positive + negative + neutral)
hint:剛剛summarise那邊可以順便計算每日的情緒詞總數
hint2:最後會用到mutate喔
### Code Here ###
