使用文字分析平台輸出之資料,以’dplyr’及’ggplot2’套件進行基本資料視覺化

Ch.0 : 資料取得及觀念複習

1. 資料取得及套件載入

載入的資料是由中山大學管理學院文字分析平台取得,在平台資料輸出區塊選擇「文章+詞彙+詞頻」選項,即可取得相同格式之csv檔案。

資料簡介

本資料內容為將 Dcard 股票看板的文章,自 2021/01/01 到 2021/03/08 為止,透過文字分析平台整理,共得到 1415 篇文章。

Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼

安裝需要的packages

packages = c("dplyr","ggplot2", "data.table", "scales", "tidytext")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

載入需要的packages以及資料

require(dplyr)
require(ggplot2)
require(data.table)
require(scales)
require(wordcloud2)
require(tidytext)

載入自平台下載下來的資料

csv <- fread("./data/dcard_stock_artWordFreq.csv", encoding = "UTF-8")
csv$artDate <- csv$artDate %>% as.Date("%Y/%m/%d")
str(csv)
Classes ‘data.table’ and 'data.frame':  77620 obs. of  6 variables:
 $ artTitle: chr  "#分享 成交量-看書學習進場竟慘" "#分享 成交量-看書學習進場竟慘" "#分享 成交量-看書學習進場竟慘" "#分享 成交量-看書學習進場竟慘" ...
 $ artDate : Date, format: "2021-01-01" "2021-01-01" "2021-01-01" "2021-01-01" ...
 $ artTime : chr  "11:17:30" "11:17:30" "11:17:30" "11:17:30" ...
 $ artUrl  : chr  "https://www.dcard.tw/f/stock/p/235090575" "https://www.dcard.tw/f/stock/p/235090575" "https://www.dcard.tw/f/stock/p/235090575" "https://www.dcard.tw/f/stock/p/235090575" ...
 $ word    : chr  "股票" "股市" "________________________________________" "一檔" ...
 $ count   : int  6 5 5 5 4 3 3 3 3 3 ...
 - attr(*, ".internal.selfref")=<externalptr> 

資料預設之日期欄位是“chr”格式,在畫圖前我們須先將其轉為“date”格式,轉換後可以透過str指令來確認各欄位型態。

檢視前6筆資料

head(csv)

資料欄位

  1. artTitle: 文章之標題,須注意不同文章可能會有完全相同的標題。
  2. artDate: 文章發佈之日期。
  3. artTime: 文章發佈之時間。
  4. artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
  5. word: 詞彙。
  6. count: 詞頻。

Ch.1 日期折線圖

這個章節的目的是計算出每一天文章的發表數量,可以看出特定主題討論的熱度。

資料處理

data <- csv %>% 
  dplyr::select(artDate, artUrl) %>% 
  distinct()

select(): 我們只需要文章以及日期兩個欄位即可,其他欄位不需要。
distinct(): 一篇文章有很多個詞彙,所以會有很多列,但我們只需要一篇文章保留一個列即可。

article_count_by_date <- data %>% 
  group_by(artDate) %>% 
  summarise(count = n())
`summarise()` ungrouping output (override with `.groups` argument)
head(article_count_by_date, 20)

按照日期分群,計算每天共有幾篇討論文章。

plot_date <- 
  # data
  article_count_by_date %>% 
  # aesthetics
  ggplot(aes(x = artDate, y = count)) +
  # geometrics
  geom_line(color = "#00AFBB", size = 1) + 
  # 2021-01-20 紅線
  geom_vline(xintercept = as.numeric(as.Date("2021-01-20")), col='red', size = 1) + 
  # 2021-02-23 紅線
  geom_vline(xintercept = as.numeric(as.Date("2021-02-23")), col='red', size = 1) + 
  # coordinates
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  ggtitle("Dcard 股票看板 討論文章數") + 
  xlab("日期") + 
  ylab("數量") + 
  # theme
  theme(text = element_text(family = "Heiti TC Light")) #加入中文字型設定,避免中文字顯示錯誤。

plot_date

從上圖中可以看到在 Dcard 中「股票看板」的討論數量時高時低,我們將兩個特別高峰標示出來。

Ch.2 文字雲

接下來我們來大略觀察討論的內容為何,使用的方式為文字雲。

data <- csv %>% 
  group_by(word) %>% 
  summarise(sum = sum(count), .groups = 'drop') %>% 
  arrange(desc(sum))

先將資料集中所有文章按照文字進行分群,計算每一個字的總詞頻。

head(data)

結果為總詞頻最多的字。

data %>% filter(sum > 50) %>% wordcloud2()

將整理好的資料直接送入 wordcloud2 function 即可得到文字雲。此套件為互動式介面,使用滑鼠移動到特定的詞彙,畫面會同時顯示詞彙以及對應的詞頻。

按照日期進行區分

在Ch.1中的日期折線圖中,我們有標示出特別高的兩天(01/20與02/23),這裡我們透過文字雲來看兩天內容是否有差。

data_0120 <- csv %>% filter(artDate == "2021-01-20")
data_0223 <- csv %>% filter(artDate == "2021-02-23")

按照日期切出資料

data_0120 <- data_0120 %>% 
  group_by(word) %>% 
  summarise(sum = sum(count), .groups = 'drop') %>% 
  arrange(desc(sum))

data_0223 <- data_0223 %>% 
  group_by(word) %>% 
  summarise(sum = sum(count), .groups = 'drop') %>% 
  arrange(desc(sum))

與Ch.2相同的資料處理。

plot_0120 <- data_0120 %>% wordcloud2()
# plot_0120

01/20 的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出)

plot_0223 <- data_0223 %>% wordcloud2()
# plot_0223

02/23 的文字雲(html中會顯示不出來第一張以後的文字雲,請將程式碼下載下來即可成功繪出文字雲)

觀察兩張圖片中出現的詞可以發現,01/20 有出現斗大的「停損」、「跌破」等字。 02/23 則出現「向上」、「進場」、「補量」等字。與當天的台股方向一致。

練習練習~

可以發現本次資料集內有許多日常用語,包括今天、今日、目前、大家等。
為了讓我們看的更清楚,請各位同學將一些日常用語移除後重新繪製文字雲吧!

### Code Here ###

Ch3. 長條圖

文字雲可以直覺看出較常提到的字,但如果想得到精確的「最常出現詞彙」,我們則可以透過長條圖來查看。

data <- rbind(data_0120 %>% mutate(date="01/20"), data_0223 %>% mutate(date="02/23"))

將 01/20 與 02/23 兩日的資料加入一個欄位標示後合併起來。

head(data)

除了詞彙及詞頻以外,還多了一個date欄位來區分日期。

plot_merge <- data %>% 
  group_by(date) %>% 
  top_n(10, sum) %>% 
  ungroup() %>% 
  mutate(date = as.factor(date),
         word = reorder_within(word, sum, date)) %>%
  ggplot(aes(x=word, y=sum, fill = date)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y = "詞頻") +
  facet_wrap(~date, ncol = 1, scales="free") + 
  coord_flip()+
  scale_x_reordered() +
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge

由上圖可以看出,有許多不同之處,但也有一些重複出現的字彙。

plot_merge <- data %>% 
  group_by(date) %>% 
  top_n(20, sum) %>%
  ungroup() %>% 
  group_by(word) %>%
  filter(n()==1) %>%
  ungroup() %>% 
  mutate(word = reorder(word, sum)) %>% 
  ggplot(aes(word, sum, fill = date)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y="總和") +
  facet_wrap(~date, ncol = 1, scales="free") + 
  coord_flip()+
  scale_x_reordered() +
  theme(text = element_text(family = "Heiti TC Light"))

plot_merge

將重複的詞彙移除後,可以更清楚看到在 01/20 與 02/23 的討論差異。

Ch.4 情緒折線圖

透過文字分析平台可以輸出每篇文章的情緒分數,在資料預覽頁面選擇「文章+情緒」選項即可得到資料。

載入資料

csv_sen <- fread("./data/dcard_stock_artSen.csv", encoding = "UTF-8")
head(csv_sen)

資料欄位介紹:
1. artTitle: 文章之標題,注意:不同文章可能會有完全相同的標題。
2. artDate: 文章發佈之日期。
3. artTime: 文章發佈之時間。
4. artUrl: 文章之網址,每篇文章之網址為獨一無二的,可用來辨識相同標題之不同文章。
5. positive_emotion_grade: 本篇文章出現多少次正面情緒詞彙。
6. negative_emotion_grade: 本篇文章出現多少次負面情緒詞彙。
7. neutral_emotion_grade: 本篇文章出現多少次中性情緒詞彙。

csv_sen$artDate = csv_sen$artDate %>% as.Date("%Y/%m/%d")
str(csv_sen)
Classes ‘data.table’ and 'data.frame':  1415 obs. of  7 variables:
 $ artTitle              : chr  "#分享 成交量-看書學習進場竟慘" "榮運" "#其他 2020股市最慘的賠多少?" "大家有慣用的資訊獲取軟體嗎?" ...
 $ artDate               : Date, format: "2021-01-01" "2021-01-01" "2021-01-01" "2021-01-01" ...
 $ artTime               : chr  "11:17:30" "15:30:05" "15:49:04" "16:50:49" ...
 $ artUrl                : chr  "https://www.dcard.tw/f/stock/p/235090575" "https://www.dcard.tw/f/stock/p/235092009" "https://www.dcard.tw/f/stock/p/235092121" "https://www.dcard.tw/f/stock/p/235092427" ...
 $ positive_emotion_grade: int  10 1 1 0 1 8 0 2 0 21 ...
 $ negative_emotion_grade: int  7 1 1 2 0 3 0 1 0 1 ...
 $ neutral_emotion_grade : int  1 0 0 1 0 1 0 0 1 0 ...
 - attr(*, ".internal.selfref")=<externalptr> 

與Ch.1相同,資料預設日期格式為“chr”,我們需要先將其轉為“date”格式。

data_sen <- csv_sen %>% 
  group_by(artDate) %>% 
  summarise(positive = sum(positive_emotion_grade), negative = sum(negative_emotion_grade), neutral = sum(neutral_emotion_grade))
`summarise()` ungrouping output (override with `.groups` argument)
head(data_sen)

將資料按照日期分群後,加總每天的三種情緒分數,並進行標準化。

data_sen %>% ggplot(aes(x= artDate)) +
  geom_line(aes(y = positive, col = "positive")) +
  geom_line(aes(y = negative, col = "negative")) +
  geom_line(aes(y = neutral, col = "neutral")) + 
  scale_x_date(labels = date_format("%Y/%m/%d")) +
  #scale_color_discrete(name="情緒種類", labels = c("positive","negative","neutral")) + 
  ggtitle("Dcard 股票看板 討論情緒") + 
  xlab("日期") + 
  ylab("分數") + 
  theme(text = element_text(family = "Heiti TC Light"))

練習練習~

剛剛我們將資料按照日期分群後,加總計算了每天的三種情緒分數。 但是我們可以發現每天的文章數量造成辭彙的數量不一樣,所以情緒圖的走勢會有很大的起伏。 請各位將每日的情緒總值進行標準化後再畫一次情緒的走勢圖。

公式:
positive = positive / (positive + negative + neutral)
negative = negative / (positive + negative + neutral)
neutral = neutral / (positive + negative + neutral)

hint:剛剛summarise那邊可以順便計算每日的情緒詞總數
hint2:最後會用到mutate喔

### Code Here ###

Homework

以讀書會為單位,使用文字分析平台,針對有興趣的議題爬取資料,資料來源不限

接著使用平台預覽中的圖形試做的功能,挑出三張有特色的圖片,擷取畫面後貼到word,並在每張圖片皆附上說明

作業轉成PDF格式,上傳至網大「第三週HW」,每組一人上傳即可。

