Ch.0 : 資料取得及觀念複習

1. 資料取得及套件載入

載入的資料是由中山大學管理學院文字分析平台取得,在平台資料輸出區塊選擇「文章+詞彙+詞頻」選項,即可取得相同格式之csv檔案。

資料簡介

本資料為2019/01/26 ~ 2019/03/08,將PTT武漢肺炎討論專版自01/26開版以來之資料,透過文字分析平台整理,得到4738篇文章。

Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
[1] "zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8"

安裝需要的packages

packages = c("dplyr","ggplot2", "data.table", "scales")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

載入需要的packages以及資料

require(dplyr)
require(ggplot2)
require(data.table)
require(scales)
require(wordcloud2)

載入自平台下載下來的資料

csv <- fread("./data/nCoV2019_artWordFreq.csv", encoding = "UTF-8")
csv$artDate = csv$artDate %>% as.Date("%Y/%m/%d")
str(csv)
Classes ‘data.table’ and 'data.frame':  447662 obs. of  6 variables:
 $ artTitle: chr  "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" ...
 $ artDate : Date, format: "2020-01-25" "2020-01-25" "2020-01-25" "2020-01-25" ...
 $ artTime : chr  "20:28:07" "20:28:07" "20:28:07" "20:28:07" ...
 $ artUrl  : chr  "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" ...
 $ word    : chr  "澎湖" "通報" "女性" "分院" ...
 $ count   : int  7 4 4 3 3 2 2 2 2 2 ...
 - attr(*, ".internal.selfref")=<externalptr> 

資料預設之日期欄位是“chr”格式,在畫圖前我們須先將其轉為“date”格式,轉換後可以透過str指令來確認各欄位型態。

檢視前6筆資料

head(csv)

資料欄位

  1. artTitle: 文章之標題,注意:不同文章可能會有完全相同的標題。
  2. artDate: 文章發佈之日期。
  3. artTime: 文章發佈之時間。
  4. artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
  5. word: 詞彙。
  6. count: 詞頻。

Ch.1 日期折線圖

這個章節的目的是計算出每一天文章的發表數量,可以看出特定主題討論的熱度。

資料處理

data <- csv %>% 
  select(artDate, artUrl) %>% 
  distinct()

select(): 我們只需要文章以及日期兩個欄位即可,其他欄位不需要。
distinct(): 一篇文章有很多個詞彙,所以會有很多列,但我們只需要一篇文章保留一個列即可。

article_count_by_date <- data %>% 
  group_by(artDate) %>% 
  summarise(count = n())

head(article_count_by_date, 20)

按照日期分群,計算每天共有幾篇討論文章。

plot_date <- 
  # data
  article_count_by_date %>% 
  # aesthetics
  ggplot(aes(x = artDate, y = count)) +
  # geometrics
  geom_line(color = "#00AFBB", size = 2) + 
  geom_vline(xintercept = as.numeric(as.Date("2020-02-12")), col='red') + 
  # coordinates
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  ggtitle("武漢肺炎 討論文章數") + 
  xlab("日期") + 
  ylab("數量") + 
  # theme
  theme(text = element_text(family = "Heiti TC Light")) #加入中文字型設定,避免中文字顯示錯誤。

plot_date

從上圖中可以看到關於「武漢肺炎」的討論從開版以來,討論文章數有逐漸增加的趨勢。

Ch.2 文字雲

接下來我們來大略觀察討論的內容為何,使用的方式為文字雲。

data <- csv %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))

先將資料集中所有文章按照文字進行分群,計算每一個字的總詞頻。

head(data)

結果為總詞頻最多的字。

data %>% filter(sum > 500) %>% wordcloud2()

將整理好的資料直接送入wordcloud2 function 即可得到文字雲。此套件為互動式介面,使用滑鼠移動到特定的詞彙,畫面會同時顯示詞彙以及對應的詞頻。

按照日期進行區分

在Ch.1中的日期折線圖中,我們發現在2/12前後討論數量有一波轉折,我們來看看2/12前後的討論內容是否有不同的地方。

data_before <- csv %>% filter(artDate <= "2020-02-12")
data_after <- csv %>% filter(artDate > "2020-02-12")

按照日期切分資料

data_before <- data_before %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))

data_after <- data_after %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))

與Ch.2相同的資料處理。

plot_before <- data_before %>% filter(sum > 300) %>% wordcloud2()
#plot_before

2/12 之前的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出)

plot_after <- data_after %>% filter(sum > 300) %>% wordcloud2()
#plot_after

2/12之後的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出)

觀察兩張圖片中出現的國家可以發現,在2/12以前,有出現「中國」、「台灣」、「美國」、「日本」、「香港」。 在2/12以後,開始出現「韓國」、「南韓」、「大邱」、「伊朗」等關鍵字。大致與疾病爆發的先後順序一致。

練習練習~

可以發現本次資料集內有許多新聞用語,因為武漢肺炎版上有許多人轉貼新聞。
那麼現在請各位將所列的幾個關鍵字移除後重新繪製文字雲吧!
新聞關鍵字:發稿、新聞、原文、記者、發稿、撰稿者、連結、完整標題、今天、不是、目前、表示

### Code Here ###

Ch3. 長條圖

文字雲可以直覺看出較常提到的字,但如果想得到精確的「最常出現詞彙」,我們則可以透過長條圖來查看。

data <- rbind(data_before %>% mutate(type="before"), data_after %>% mutate(type="after"))

將2/12前後的資料加入一個欄位標示後合併起來。

head(data)

除了詞彙及詞頻以外,還多了一個type欄位來區分2/12以前或是以後。

plot_merge <- data %>% 
  group_by(type) %>% 
  top_n(10, sum) %>% 
  ungroup() %>% 
  mutate(word = reorder(word, sum)) %>%
  ggplot(aes(x=word, y=sum, fill = type)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y="詞頻") +
  facet_wrap(~type, ncol = 1, scales="free") + 
  coord_flip()+
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge

由上圖可以看到,討論的內容在2/12前後大致相同。

plot_merge <- data %>% 
  group_by(type) %>% 
  top_n(50, sum) %>%
  ungroup() %>% 
  #filter(!(duplicated(word)| duplicated(word, fromLast = TRUE))) #%>% 
  group_by(word) %>%
  filter(n()==1) %>%
  ungroup() %>% 
  mutate(word = reorder(word, sum)) %>% 
  ggplot(aes(word, sum, fill = type)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y="總和") +
  facet_wrap(~type, ncol = 1, scales="free") + 
  coord_flip()+
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge

將重複的詞彙移除後,可以看到在2/12前與2/12後的討論差異:
1. 國家不同
2. 隨著疫情蔓延,出現更多死亡
3. 最初的「入境」管制議題,到後來的「社區」傳播議題。

Ch.4 情緒折線圖

透過文字分析平台可以輸出每篇文章的情緒分數,在資料預覽頁面選擇「文章+情緒」選項即可得到資料。

載入資料

csv_sen <- fread("./data/nCoV2019_artSen.csv", encoding = "UTF-8")
head(csv_sen)

資料欄位介紹:
1. artTitle: 文章之標題,注意:不同文章可能會有完全相同的標題。
2. artDate: 文章發佈之日期。
3. artTime: 文章發佈之時間。
4. artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
5. positive_emotion_grade: 本篇文章出現多少次正面情緒詞彙。
6. negative_emotion_grade: 本篇文章出現多少次負面情緒詞彙。
7. neutral_emotion_grade: 本篇文章出現多少次中性情緒詞彙。

csv_sen$artDate = csv_sen$artDate %>% as.Date("%Y/%m/%d")
str(csv_sen)
Classes ‘data.table’ and 'data.frame':  4738 obs. of  7 variables:
 $ artTitle              : chr  "[新聞]澎湖傳疑似感染武漢肺炎4人負壓病房隔" "[新聞]新加坡累積確診至4人" "[討論]出門該注意哪些重點?" "[閒聊]這個板沒有板規嗎?" ...
 $ artDate               : Date, format: "2020-01-25" "2020-01-25" "2020-01-25" "2020-01-25" ...
 $ artTime               : chr  "20:28:07" "20:32:36" "20:44:18" "21:56:41" ...
 $ artUrl                : chr  "https://www.ptt.cc/bbs/nCoV2019/M.1579984089.A.535.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579984359.A.6D7.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579985060.A.ADD.html" "https://www.ptt.cc/bbs/nCoV2019/M.1579989403.A.239.html" ...
 $ positive_emotion_grade: int  2 0 0 0 1 0 5 5 10 1 ...
 $ negative_emotion_grade: int  0 0 0 0 0 0 11 1 6 4 ...
 $ neutral_emotion_grade : int  1 0 0 0 0 0 3 0 0 0 ...
 - attr(*, ".internal.selfref")=<externalptr> 

與Ch.1相同,資料預設日期格式為“chr”,我們需要先將其轉為“date”格式。

data_sen <- csv_sen %>% 
  group_by(artDate) %>% 
  summarise(positive = sum(positive_emotion_grade), negative = sum(negative_emotion_grade), neutral = sum(neutral_emotion_grade))

head(data_sen)

將資料按照日期分群後,加總每天的三種情緒分數,並進行標準化。

data_sen %>% ggplot(aes(x= artDate)) +
  geom_line(aes(y = positive, colour = "red")) +
  geom_line(aes(y = negative, colour = "blue")) +
  geom_line(aes(y = neutral, colour = "yellow")) + 
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  scale_color_discrete(name="情緒種類", labels = c("positive","negative","neutral")) + 
  ggtitle("武漢肺炎 討論情緒") + 
  xlab("日期") + 
  ylab("分數") + 
  theme(text = element_text(family = "Heiti TC Light"))

練習練習~

剛剛我們將資料按照日期分群後,加總計算了每天的三種情緒分數。 但是我們可以發現每天的文章數量造成辭彙的數量不一樣,所以情緒圖的走勢會有很大的起伏。 請各位將每日的情緒總值進行標準化後再畫一次情緒的走勢圖。

公式:
positive = positive / (positive + negative + neutral)
negative = negative / (positive + negative + neutral)
neutral = neutral / (positive + negative + neutral)

hint:剛剛summarise那邊可以順便計算每日的情緒詞總數
hint2:最後會用到mutate喔

### Code Here ###
---
title: "以文字分析平台獲取之資料進行基本繪圖分析"
author: "Kun-Hsiang Chen"
date: "2020/03/05"
output:
  html_notebook: default
abstract: "使用文字分析平台輸出之資料，以'dplyr'及'ggplot2'套件進行基本資料視覺化"
---
# Ch.0 : 資料取得及觀念複習
## 1. 資料取得及套件載入
> 載入的資料是由中山大學管理學院文字分析平台取得，在平台資料輸出區塊選擇「文章+詞彙+詞頻」選項，即可取得相同格式之csv檔案。

### 資料簡介
> 本資料為2019/01/26 ~ 2019/03/08，將PTT武漢肺炎討論專版自01/26開版以來之資料，透過文字分析平台整理，得到4738篇文章。

```{r}
Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
```

### 安裝需要的packages
```{r}
packages = c("dplyr","ggplot2", "data.table", "scales")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
```

### 載入需要的packages以及資料
```{r echo = T, results = 'hide'}
require(dplyr)
require(ggplot2)
require(data.table)
require(scales)
require(wordcloud2)
```

### 載入自平台下載下來的資料
```{r}
csv <- fread("./data/nCoV2019_artWordFreq.csv", encoding = "UTF-8")
csv$artDate = csv$artDate %>% as.Date("%Y/%m/%d")
str(csv)
```
> 資料預設之日期欄位是"chr"格式，在畫圖前我們須先將其轉為"date"格式，轉換後可以透過str指令來確認各欄位型態。

### 檢視前6筆資料
```{r}
head(csv)
```

### 資料欄位
> 1. artTitle: 文章之標題，注意:不同文章可能會有完全相同的標題。
2. artDate: 文章發佈之日期。
3. artTime: 文章發佈之時間。
4. artUrl: 文章之網址，每篇文章之網址為獨一無二的，可用來辨識相同標題之不同文章。
5. word: 詞彙。
6. count: 詞頻。

# Ch.1 日期折線圖
> 這個章節的目的是計算出每一天文章的發表數量，可以看出特定主題討論的熱度。

## 資料處理

```{r}
data <- csv %>% 
  select(artDate, artUrl) %>% 
  distinct()
```
> select(): 我們只需要文章以及日期兩個欄位即可，其他欄位不需要。<br>
> distinct(): 一篇文章有很多個詞彙，所以會有很多列，但我們只需要一篇文章保留一個列即可。


```{r}
article_count_by_date <- data %>% 
  group_by(artDate) %>% 
  summarise(count = n())

head(article_count_by_date, 20)
```
> 按照日期分群，計算每天共有幾篇討論文章。

```{r}
plot_date <- 
  # data
  article_count_by_date %>% 
  # aesthetics
  ggplot(aes(x = artDate, y = count)) +
  # geometrics
  geom_line(color = "#00AFBB", size = 2) + 
  geom_vline(xintercept = as.numeric(as.Date("2020-02-12")), col='red') + 
  # coordinates
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  ggtitle("武漢肺炎 討論文章數") + 
  xlab("日期") + 
  ylab("數量") + 
  # theme
  theme(text = element_text(family = "Heiti TC Light")) #加入中文字型設定，避免中文字顯示錯誤。

plot_date
```
> 從上圖中可以看到關於「武漢肺炎」的討論從開版以來，討論文章數有逐漸增加的趨勢。

# Ch.2 文字雲
> 接下來我們來大略觀察討論的內容為何，使用的方式為文字雲。

```{r}
data <- csv %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))
```
> 先將資料集中所有文章按照文字進行分群，計算每一個字的總詞頻。

```{r}
head(data)
```
> 結果為總詞頻最多的字。

```{r}
data %>% filter(sum > 500) %>% wordcloud2()
```
> 將整理好的資料直接送入wordcloud2 function 即可得到文字雲。此套件為互動式介面，使用滑鼠移動到特定的詞彙，畫面會同時顯示詞彙以及對應的詞頻。

## 按照日期進行區分
> 在Ch.1中的日期折線圖中，我們發現在2/12前後討論數量有一波轉折，我們來看看2/12前後的討論內容是否有不同的地方。

```{r}
data_before <- csv %>% filter(artDate <= "2020-02-12")
data_after <- csv %>% filter(artDate > "2020-02-12")
```
> 按照日期切分資料

```{r}
data_before <- data_before %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))

data_after <- data_after %>% 
  group_by(word) %>% 
  summarise(sum = sum(count)) %>% 
  arrange(desc(sum))
```
> 與Ch.2相同的資料處理。

```{r}
plot_before <- data_before %>% filter(sum > 300) %>% wordcloud2()
#plot_before
```
![](wordcloud1.png)

> 2/12 之前的文字雲(html中會顯示不出來第一張以後的文字雲，請將程式碼下載下來即可成功繪出)

```{r}
plot_after <- data_after %>% filter(sum > 300) %>% wordcloud2()
#plot_after
```
![](wordcloud2.png)

> 2/12之後的文字雲(html中會顯示不出來第一張以後的文字雲，請將程式碼下載下來即可成功繪出)

> 觀察兩張圖片中出現的國家可以發現，在2/12以前，有出現「中國」、「台灣」、「美國」、「日本」、「香港」。 在2/12以後，開始出現「韓國」、「南韓」、「大邱」、「伊朗」等關鍵字。大致與疾病爆發的先後順序一致。

## 練習練習～
> 可以發現本次資料集內有許多新聞用語，因為武漢肺炎版上有許多人轉貼新聞。<br>
那麼現在請各位將所列的幾個關鍵字移除後重新繪製文字雲吧！<br>
新聞關鍵字：發稿、新聞、原文、記者、發稿、撰稿者、連結、完整標題、今天、不是、目前、表示

```{r}
### Code Here ###
```

# Ch3. 長條圖
> 文字雲可以直覺看出較常提到的字，但如果想得到精確的「最常出現詞彙」，我們則可以透過長條圖來查看。

```{r}
data <- rbind(data_before %>% mutate(type="before"), data_after %>% mutate(type="after"))
```
> 將2/12前後的資料加入一個欄位標示後合併起來。

```{r}
head(data)
```
> 除了詞彙及詞頻以外，還多了一個type欄位來區分2/12以前或是以後。

```{r}
plot_merge <- data %>% 
  group_by(type) %>% 
  top_n(10, sum) %>% 
  ungroup() %>% 
  mutate(word = reorder(word, sum)) %>%
  ggplot(aes(x=word, y=sum, fill = type)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y="詞頻") +
  facet_wrap(~type, ncol = 1, scales="free") + 
  coord_flip()+
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge
```
> 由上圖可以看到，討論的內容在2/12前後大致相同。

```{r}
plot_merge <- data %>% 
  group_by(type) %>% 
  top_n(50, sum) %>%
  ungroup() %>% 
  #filter(!(duplicated(word)| duplicated(word, fromLast = TRUE))) #%>% 
  group_by(word) %>%
  filter(n()==1) %>%
  ungroup() %>% 
  mutate(word = reorder(word, sum)) %>% 
  ggplot(aes(word, sum, fill = type)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y="總和") +
  facet_wrap(~type, ncol = 1, scales="free") + 
  coord_flip()+
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge
```
> 將重複的詞彙移除後，可以看到在2/12前與2/12後的討論差異：<br>
1. 國家不同<br>
2. 隨著疫情蔓延，出現更多死亡<br>
3. 最初的「入境」管制議題，到後來的「社區」傳播議題。

# Ch.4 情緒折線圖
> 透過文字分析平台可以輸出每篇文章的情緒分數，在資料預覽頁面選擇「文章+情緒」選項即可得到資料。

## 載入資料
```{r}
csv_sen <- fread("./data/nCoV2019_artSen.csv", encoding = "UTF-8")
head(csv_sen)
```
> 資料欄位介紹：<br>
> 1. artTitle: 文章之標題，注意:不同文章可能會有完全相同的標題。<br>
> 2. artDate: 文章發佈之日期。<br>
> 3. artTime: 文章發佈之時間。<br>
> 4. artUrl: 文章之網址，每篇文章之網址為獨一無二的，可用來辨識相同標題之不同文章。<br>
> 5. positive_emotion_grade: 本篇文章出現多少次正面情緒詞彙。<br>
> 6. negative_emotion_grade: 本篇文章出現多少次負面情緒詞彙。<br>
> 7. neutral_emotion_grade: 本篇文章出現多少次中性情緒詞彙。

```{r}
csv_sen$artDate = csv_sen$artDate %>% as.Date("%Y/%m/%d")
str(csv_sen)
```
> 與Ch.1相同，資料預設日期格式為"chr"，我們需要先將其轉為"date"格式。

```{r}
data_sen <- csv_sen %>% 
  group_by(artDate) %>% 
  summarise(positive = sum(positive_emotion_grade), negative = sum(negative_emotion_grade), neutral = sum(neutral_emotion_grade))

head(data_sen)
```
> 將資料按照日期分群後，加總每天的三種情緒分數，並進行標準化。

```{r}
data_sen %>% ggplot(aes(x= artDate)) +
  geom_line(aes(y = positive, colour = "red")) +
  geom_line(aes(y = negative, colour = "blue")) +
  geom_line(aes(y = neutral, colour = "yellow")) + 
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  scale_color_discrete(name="情緒種類", labels = c("positive","negative","neutral")) + 
  ggtitle("武漢肺炎 討論情緒") + 
  xlab("日期") + 
  ylab("分數") + 
  theme(text = element_text(family = "Heiti TC Light"))
```


## 練習練習～
> 剛剛我們將資料按照日期分群後，加總計算了每天的三種情緒分數。
但是我們可以發現每天的文章數量造成辭彙的數量不一樣，所以情緒圖的走勢會有很大的起伏。
請各位將每日的情緒總值進行標準化後再畫一次情緒的走勢圖。<br><br>
公式：<br>
positive = positive / (positive + negative + neutral)<br>
negative = negative / (positive + negative + neutral)<br>
neutral = neutral / (positive + negative + neutral)<br><br>
hint：剛剛summarise那邊可以順便計算每日的情緒詞總數<br>
hint2：最後會用到mutate喔

```{r}
### Code Here ###
```




