D. 視覺化的分析結果與解釋
系統參數設定
Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
[1] "zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8"
安裝需要的packages
packages = c("tidytext","dplyr", "jiebaR", "stringr", "wordcloud2", "ggplot2", "tidyr", "NLP", "ggraph")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
載入套件
library(tidytext)
library(dplyr)
library(jiebaR)
library(stringr)
library(wordcloud2)
library(ggplot2)
library(tidyr) # spread
library(NLP) # ngrams
library(ggraph) # bigram network
設定工作目錄 (方便之後讀檔改相對路徑撰寫)
setwd("/Users/zic/Desktop/google_game_mining")
chi_text_theme = theme(text = element_text(family = "Heiti TC Light")) # 定義中文字主題
讀取所有資料檔
files = list.files("./data/GooglePlayGames", full.names=T) # 列出所有資料檔
data.list = lapply(files, function(x) {
df = read.csv(x, stringsAsFactors = F) # 讀取資料檔
df$gameTitle = basename(x) # 將檔案名稱視為gameTitle
return(df)
})
source_df = do.call("rbind", data.list) # 合併資料至df
# 欄位整理
source_df$gameTitle = str_replace(source_df$gameTitle, "result_", "") # 去掉前綴
source_df$gameTitle = str_replace(source_df$gameTitle, ".csv", "") # 去掉副檔名
source_df = separate(source_df, gameTitle, c("gameRank", "gameTitle"), sep = "_", convert = TRUE)
source_df$date = as.Date(source_df$date, "%Y年%m月%d日")
source_df$gameRank = as.factor(source_df$gameRank) # 轉成factor,之後圖形繪製時顏色比較分開
source_df$ratings = as.factor(source_df$ratings)
# 資料清理
data_cleaned = source_df %>%
mutate(comment = str_replace(comment, "(http|https)://.*", "")) %>% # 去除網址
mutate(comment = str_replace_all(comment, "[( 0-9.%)]+"," ")) %>% # 去除數字
mutate(comment = str_replace_all(comment, "[ ?!. ,']+"," ")) %>% # 去除標點符號
mutate(comment = str_replace_all(comment, "\\s+"," ")) %>% # 去除連續空白
filter(nchar(comment) > 0)
data_cleaned
資料欄位說明
name: 留評論的玩家名稱
ratings: 留評論時給的星評
date: 留評論的時間
helpful.vote: 多少人對此評論按讚
comment: 評論內容

檢視各遊戲的討論數量, 及資料區間
data_cleaned %>%
count(gameRank) %>%
ggplot(aes(gameRank, n)) +
geom_col() +
ylab("count") +
scale_x_discrete(limits = 1:12) +
chi_text_theme

# 檢視資料區間
data.frame(
minDate = min(source_df$date),
maxDate = max(source_df$date))
上圖中,x 軸為排行榜名次,y 軸為評論數量
由上圖看來,遊戲的評論數量與排行榜名次並無明顯關係。
整份遊戲資料區間為2019-03-28 至 2019-04-19
準備jieba 斷詞函式
由於資料有中文/英文,故採jieba 進行斷詞(unnest_token)
jieba_tokenizer = worker()
# 動態新增自訂詞彙
new_user_word(jieba_tokenizer, c(""))
[1] TRUE
# 定義斷詞函式
chi_tokenizer <- function(t) {
lapply(t, function(x) {
tryCatch({
tokens <- segment(x, jieba_tokenizer)
tokens <- tokens[nchar(tokens)>1]
return(tokens)
},
# 遇到 error 時的自訂處理函數
error = function(msg) {
message(x)
return(NA)
})
})
}
透過自定義的jieba 進行對資料進行unnest。轉成tidy 格式
tokens = data_cleaned %>%
unnest_tokens(word, comment, token=chi_tokenizer)
繪製出現次數較高的詞
tokens %>%
count(word, sort = TRUE) %>% # 計算詞頻
mutate(word = reorder(word, n)) %>%
top_n(20, n) %>%
ggplot(aes(word, n)) +
geom_col() +
xlab(NULL) +
chi_text_theme +
coord_flip()

透過文字雲觀察斷詞結果
tokens %>%
count(word) %>%
filter(n > 25) %>%
wordcloud2(size = .6) # size=.8, 避免在rnotebook 中過大的文字未渲染
從上述結果看來「遊戲」和「好玩」是兩個出現最高的詞,剛好跟Google Play 遊戲應用程式的主要開發訴求一樣【讓遊戲變得更好玩!】
整體而言, 沒有出現很奇怪的詞,但有一些如“國旗”, “中國民國”, “中國”,似乎跟政治有些關係
從原評論中查看,可以發現此類詞大多出現於“絕地求生M”此款遊戲,遊戲分為國際版與台灣版,部分討論為此相關議題。
準備LIWC字典
positive = scan(file = "./data/dict/liwc/positive.txt", what=character(), sep=',',
encoding='utf-8',fileEncoding='utf-8')
Read 662 items
negative = scan(file = "./data/dict/liwc/negative.txt", what=character(), sep=',',
encoding='utf-8',fileEncoding='utf-8')
Read 1047 items
positive = data.frame(word = positive, sentiment = "positive", stringsAsFactors = FALSE)
negative = data.frame(word = negative, sentiment = "negative", stringsAsFactors = FALSE)
liwc_ch = rbind(positive, negative) %>%
filter(word != "遊戲")
繪製每個遊戲,正負情緒字排行圖
tokens %>%
inner_join(liwc_ch) %>%
group_by(gameTitle, sentiment) %>% # 群組化後,正負資料各取n筆
count(word, sort = T) %>%
top_n(5) %>%
ungroup() %>%
mutate(n = ifelse(sentiment == "positive", 1, -1) * n) %>% # 負面情緒轉成-n
mutate(word = reorder(word, n)) %>%
ggplot(aes(word, n, fill = gameTitle)) +
geom_col(show.legend = FALSE) +
facet_wrap(~gameTitle, scales = "free") +
labs(y = "Contribution to sentiment", x = NULL) +
chi_text_theme +
coord_flip()

由上圖看來,大部份遊戲中,玩家評論正面情緒的數量遠大於負面情緒
繪製每個遊戲,依日期排序之情緒變化
tokens_game_sentiment = tokens %>%
inner_join(liwc_ch) %>%
group_by(gameRank) %>%
count(date, sentiment) %>% # 根據日期 + 情緒,計算次數
spread(sentiment, n) %>% # 展開欄位
mutate(positive = replace_na(positive, 0)) %>% # 取代na 為0
mutate(negative = replace_na(negative, 0)) %>%
mutate(sentiment = positive - negative) %>% # 計算正負情緒
ungroup()
tokens_game_sentiment
# 由於部份遊戲的資料較少,畫面同一張圖並不容易解讀
# 故各圖繪製一張
tokens_game_sentiment %>%
ggplot() +
geom_line(aes(x = date, y = sentiment, colour=gameRank)) +
scale_x_date(date_labels = "%m%d") +
facet_wrap(~gameRank, scales = "free") +
chi_text_theme +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

上圖中,部份遊戲的評論極不平均(如2, 4, 7, 11, 12) 等
以7-盛唐幻夜來查看,4/17因為有人發布-九大職業攻略介紹、角色定位、遊戲介紹的影片,因此推斷有可能此遊戲上架(開放)後,玩家才上去留言,造成日期排序之情緒變化,內容極不平均。
不分遊戲的情況下,星評對應的情緒字
tokens_ratings = tokens %>%
inner_join(liwc_ch) %>% # 只保留跟情緒相關的詞
group_by(ratings) %>%
count(word, sort = T) %>%
top_n(10, n) %>%
ungroup() %>%
inner_join(liwc_ch) %>% # 組合出sentiment
mutate(score = ifelse(sentiment == "positive", 1, -1) * n) %>% # 根據sentiment 算出分數
mutate(word = reorder(word, score)) # 根據分數進行排列
tokens_ratings
# 每個群組(ratings) 繪製一張圖
tokens_ratings %>%
ggplot(aes(x = word, score, fill = ratings)) +
geom_col(show.legend = FALSE) +
facet_wrap(~ratings, scales = "free") +
labs(y = "Score=Count*Sentiment", x = NULL) +
chi_text_theme +
coord_flip()

從上圖可以看出各星評中,較常出現的詞 星評低的情況下,正負面情緒的詞出現的次數較為接近; 星評越高的情況下,負面情緒的詞出現的少。
透過tf-idf 來檢視詞的分佈
game_words = tokens %>%
count(gameRank, word, sort = TRUE)
total_words = game_words %>%
group_by(gameRank) %>%
summarize(total = sum(n))
game_words = left_join(game_words, total_words)
# 計算tf-idf
game_words = game_words %>%
bind_tf_idf(word, gameRank, n)
# 繪製較高tf-idf
# 由於資料量擠在同一張圖上太密,分多次繪製
high_tf_idf = game_words %>%
arrange(desc(tf_idf)) %>%
mutate(word = factor(word, levels = rev(unique(word)))) %>%
group_by(gameRank) %>%
top_n(10) %>%
ungroup()
high_tf_idf
paint_tf_idf = function(data) {
data %>%
ggplot(aes(word, tf_idf, fill = gameRank)) +
geom_col(show.legend = FALSE) +
labs(x = NULL, y = "tf-idf") +
facet_wrap(~gameRank, ncol = 2, scales = "free") +
chi_text_theme +
coord_flip()
}
paint_tf_idf(
high_tf_idf %>%
filter(gameRank %in% 1:4)
)

paint_tf_idf(
high_tf_idf %>%
filter(gameRank %in% 5:8)
)

paint_tf_idf(
high_tf_idf %>%
filter(gameRank %in% 9:12)
)

上述3張圖,呈現各遊戲內,較高的tf-idf 值之對應文字 tf 值愈高,其單詞愈重要,就7-《盛唐幻夜》來說其為大馬女星林明禎擔任遊戲代言人,遊戲是以同名電視劇《盛唐幻夜》為基礎打造的遊戲。時代背景設定為中國歷史上最繁華的唐朝,玩家在遊戲中感受大唐盛世與御劍飛行等樂趣。玩家與夥伴一步步揭開唐代懸幻離奇的神秘面紗;此款遊戲讓玩家可以收集眾角色,成為自己闖蕩盛唐江湖的好幫手。遊戲共有九大職業,因此「明禎」、「職業」、「摸索」相對於情緒詞來說是普遍有較高的tf-idf 值。
Topic Modeling
# 以不分遊戲的情況下,進行玩家評論的主題查找
lda = tokens %>%
# dtm 轉換需要3個欄位:document, term, count
mutate(artId = group_indices(., name)) %>% # 準備cast_dtm需要的欄位
count(artId, word) %>% # 準備cast_dtm需要的欄位
cast_dtm(artId, word, n) %>% # 轉成dtm
topicmodels::LDA(k = 6, control = list(seed = 1234)) # 計算LDA
lda
A LDA_VEM topic model with 6 topics.
# Word-topic probabilities
topics = tidy(lda, matrix = "beta") # 主題-單字的機率
topics
# 繪製每個主題的常見單字
top_terms = topics %>%
group_by(topic) %>%
top_n(18, beta) %>%
ungroup() %>%
arrange(topic, -beta)
top_terms
top_terms %>%
mutate(term = reorder(term, beta)) %>%
ggplot(aes(term, beta, fill = factor(topic))) +
geom_col(show.legend = FALSE) +
facet_wrap(~ topic, scales = "free") +
theme(text = element_text(family = "Heiti TC Light")) +
coord_flip()

在主題切分時,用2,4,6個主題的情況下;各主題似乎看不出來較為明顯的差異。
猜測是由於討論的內容類似度太高
因而沒有明顯的主題差異
---
title: "GooglePlay 免費遊戲文字分析"
author: 第三組<br/>N064020015 鐘明志<br/>N064220007 陳慧倩<br/>N064220009 謝凱威<br/>N064220026
  劉志政
date: "2019/04/21"
output:
  html_notebook:
    toc: yes
    toc_depth: 2
    toc_float:
      collapsed: no
      smooth_scroll: no
  word_document:
    toc: yes
    toc_depth: '2'
  pdf_document:
    toc: yes
    toc_depth: '2'
  html_document:
    df_print: paged
    toc: yes
    toc_depth: '2'
abstract: ''
---

# A. 動機和分析目的
Andorid 作業系統為 Google Play 生態系中的重要關鍵之一，今年也正式邁向第 11 年，目前全球已有超過 20 億個活躍的 Android 裝置。在 2017 年 5 月到 2018 年 5 月間，Google Play 上來自 215 個國家遊戲與應用程式累積下載次數將近 1,000 億；曾下載過至少一款遊戲的 Android 使用者人數增加了一倍多，其中近 40%的成長來自新興市場，包括巴西、印度、印尼和墨西哥。而台灣是 Google Play 全球前五大市場，這也代表台灣在行動世界中位居全球領先地位。在GooglePlay 上每日皆有為數不少的新品遊戲上架；<br/>
但遊戲類別的熱門排行榜的變化幅度始終很小；根據遊戲開發者David 表示，「Google Play 最有幫助的地方，就是玩家評論的部分。自己遊戲上市以來，每天都會開玩家評語來看，會需要玩家使用後經驗，這對自已在作遊戲很重要。Google 即時反應速度很快，還有即時翻應，連遠在巴西的玩家意見，也可以翻成中讓自己了解他們的建議，讓自己可以在後台很清楚看到，幫助真的很大。」
<br/>
因此
我們想從玩家對於遊戲的評論中尋找下列二項因素：<br/>
**1. 從玩家評論來探討文字情緒的變化<br/>**
**2. 從玩家評論找出主題模型**<br/>

# B. 資料集的描述
資料來源為台灣區GooglePlay 免費熱門遊戲排行榜前12 名的玩家評論。<br/>
GooglePlay 的玩家評論資料有下列特性<br/>
a. 遊戲更版後仍然保留<br/>
b. 評論必須在該區下載遊戲後才能撰寫<br/>

下圖為資料抓取時，遊戲排行榜之截圖<br/>
![avatar](/Users/zic/Desktop/google_game_mining/p1.png)

資料抓取方式<br/>
參考：[GooglePlay-Review-Crawler](https://github.com/yangchenxi/GooglePlay-Review-Crawler)
使用方式如下圖<br/>
![avatar](/Users/zic/Desktop/google_game_mining/p3.png)

# C. 資料的分析過程
# D. 視覺化的分析結果與解釋

## 系統參數設定
```{r}
Sys.setlocale(category = "LC_ALL", locale = "zh_TW.UTF-8") # 避免中文亂碼
```

## 安裝需要的packages
```{r}
packages = c("tidytext","dplyr", "jiebaR", "stringr", "wordcloud2", "ggplot2", "tidyr", "NLP", "ggraph")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)
```

## 載入套件
```{r message=FALSE, warning=FALSE}
library(tidytext)
library(dplyr)
library(jiebaR)
library(stringr)
library(wordcloud2)
library(ggplot2)
library(tidyr) # spread
library(NLP) # ngrams
library(ggraph) # bigram network
```

## 設定工作目錄 (方便之後讀檔改相對路徑撰寫)
```{r}
setwd("/Users/zic/Desktop/google_game_mining")
chi_text_theme = theme(text = element_text(family = "Heiti TC Light")) # 定義中文字主題
```

## 讀取所有資料檔
```{r}
files = list.files("./data/GooglePlayGames", full.names=T) # 列出所有資料檔
data.list = lapply(files, function(x) {
  df = read.csv(x, stringsAsFactors = F) # 讀取資料檔
  df$gameTitle = basename(x) # 將檔案名稱視為gameTitle
  return(df)
  })
source_df = do.call("rbind", data.list) # 合併資料至df

# 欄位整理
source_df$gameTitle = str_replace(source_df$gameTitle, "result_", "") # 去掉前綴
source_df$gameTitle = str_replace(source_df$gameTitle, ".csv", "") # 去掉副檔名
source_df = separate(source_df, gameTitle, c("gameRank", "gameTitle"), sep = "_", convert = TRUE)
source_df$date = as.Date(source_df$date, "%Y年%m月%d日")
source_df$gameRank = as.factor(source_df$gameRank) # 轉成factor，之後圖形繪製時顏色比較分開
source_df$ratings = as.factor(source_df$ratings)

# 資料清理
data_cleaned = source_df %>%
  mutate(comment = str_replace(comment, "(http|https)://.*", "")) %>% # 去除網址
  mutate(comment = str_replace_all(comment, "[（ 0-9.%）]+"," ")) %>% # 去除數字
  mutate(comment = str_replace_all(comment, "[  ?!. ,']+"," ")) %>% # 去除標點符號
  mutate(comment = str_replace_all(comment, "\\s+"," ")) %>% # 去除連續空白
  filter(nchar(comment) > 0)

data_cleaned
```

> 資料欄位說明<br/>
> name: 留評論的玩家名稱<br/>
> ratings: 留評論時給的星評<br/>
> date: 留評論的時間<br/>
> helpful.vote: 多少人對此評論按讚<br/>
> comment: 評論內容<br/>
![avatar](/Users/zic/Desktop/google_game_mining/p2.png)

## 檢視各遊戲的討論數量, 及資料區間
```{r}
data_cleaned %>%
  count(gameRank) %>%
  ggplot(aes(gameRank, n)) +
  geom_col() +
  ylab("count") +
  scale_x_discrete(limits = 1:12) +
  chi_text_theme

# 檢視資料區間
data.frame(
  minDate = min(source_df$date),
  maxDate = max(source_df$date))
```

> 上圖中，x 軸為排行榜名次，y 軸為評論數量<br/>
> 由上圖看來，遊戲的評論數量與排行榜名次並無明顯關係。<br/>
> 整份遊戲資料區間為2019-03-28 至 2019-04-19

## 準備jieba 斷詞函式
由於資料有中文/英文，故採jieba 進行斷詞(unnest_token)
```{r message=FALSE, warning=FALSE}
jieba_tokenizer = worker()
# 動態新增自訂詞彙
new_user_word(jieba_tokenizer, c(""))
# 定義斷詞函式
chi_tokenizer <- function(t) {
  lapply(t, function(x) {
    tryCatch({
      tokens <- segment(x, jieba_tokenizer)
      tokens <- tokens[nchar(tokens)>1]
      return(tokens)
    },
    # 遇到 error 時的自訂處理函數
    error = function(msg) {
      message(x)
      return(NA)
    })
  })
}
```


## 透過自定義的jieba 進行對資料進行unnest。轉成tidy 格式
```{r}
tokens = data_cleaned %>% 
  unnest_tokens(word, comment, token=chi_tokenizer)
```

## 繪製出現次數較高的詞
```{r}
tokens %>%
  count(word, sort = TRUE) %>% # 計算詞頻
  mutate(word = reorder(word, n)) %>%
  top_n(20, n) %>%
  ggplot(aes(word, n)) +
  geom_col() +
  xlab(NULL) +
  chi_text_theme + 
  coord_flip()
```

## 透過文字雲觀察斷詞結果
```{r}
tokens %>%
  count(word) %>%
  filter(n > 25) %>%
  wordcloud2(size = .6) # size=.8, 避免在rnotebook 中過大的文字未渲染
```

> 從上述結果看來「遊戲」和「好玩」是兩個出現最高的詞，剛好跟Google Play 遊戲應用程式的主要開發訴求一樣【讓遊戲變得更好玩！】 <br/>
> 整體而言， 沒有出現很奇怪的詞，但有一些如"國旗", "中國民國", "中國"，似乎跟政治有些關係 <br/>
> 從原評論中查看，可以發現此類詞大多出現於"絕地求生M"此款遊戲，遊戲分為國際版與台灣版，部分討論為此相關議題。

## 準備LIWC字典
```{r}
positive = scan(file = "./data/dict/liwc/positive.txt", what=character(), sep=',', 
                 encoding='utf-8',fileEncoding='utf-8')
negative = scan(file = "./data/dict/liwc/negative.txt", what=character(), sep=',', 
                 encoding='utf-8',fileEncoding='utf-8')
positive = data.frame(word = positive, sentiment = "positive", stringsAsFactors = FALSE)
negative = data.frame(word = negative, sentiment = "negative", stringsAsFactors = FALSE)
liwc_ch = rbind(positive, negative) %>% 
  filter(word != "遊戲")
```

## 繪製每個遊戲，正負情緒字排行圖
```{r message=FALSE, warning=FALSE}
tokens %>%
  inner_join(liwc_ch) %>%
  group_by(gameTitle, sentiment) %>% # 群組化後，正負資料各取n筆
  count(word, sort = T) %>%
  top_n(5) %>%
  ungroup() %>%
  mutate(n = ifelse(sentiment == "positive", 1, -1) * n) %>% # 負面情緒轉成-n
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = gameTitle)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~gameTitle, scales = "free") +
  labs(y = "Contribution to sentiment", x = NULL) +
  chi_text_theme + 
  coord_flip()  
```

> 由上圖看來，大部份遊戲中，玩家評論正面情緒的數量遠大於負面情緒

## 繪製每個遊戲，依日期排序之情緒變化
```{r message=FALSE, warning=FALSE}
tokens_game_sentiment = tokens %>%
  inner_join(liwc_ch) %>%
  group_by(gameRank) %>%
  count(date, sentiment) %>% # 根據日期 + 情緒，計算次數
  spread(sentiment, n) %>% # 展開欄位
  mutate(positive = replace_na(positive, 0)) %>% # 取代na 為0
  mutate(negative = replace_na(negative, 0)) %>%
  mutate(sentiment = positive - negative) %>% # 計算正負情緒
  ungroup() 

tokens_game_sentiment
```

```{r message=FALSE, warning=FALSE}
# 由於部份遊戲的資料較少，畫面同一張圖並不容易解讀
# 故各圖繪製一張
tokens_game_sentiment %>%
  ggplot() +
  geom_line(aes(x = date, y = sentiment, colour=gameRank)) +
  scale_x_date(date_labels = "%m%d") +
  facet_wrap(~gameRank, scales = "free") +
  chi_text_theme + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

> 上圖中，部份遊戲的評論極不平均(如2, 4, 7, 11, 12) 等<br/>
> 以7-盛唐幻夜來查看，4/17因為有人發布-九大職業攻略介紹、角色定位、遊戲介紹的影片，因此推斷有可能此遊戲上架(開放)後，玩家才上去留言，造成日期排序之情緒變化，內容極不平均。

## 不分遊戲的情況下，星評對應的情緒字
```{r message=FALSE, warning=FALSE}
tokens_ratings = tokens %>%
  inner_join(liwc_ch) %>% # 只保留跟情緒相關的詞
  group_by(ratings) %>%
  count(word, sort = T) %>%
  top_n(10, n) %>% 
  ungroup() %>%
  inner_join(liwc_ch) %>% # 組合出sentiment
  mutate(score = ifelse(sentiment == "positive", 1, -1) * n) %>% # 根據sentiment 算出分數
  mutate(word = reorder(word, score)) # 根據分數進行排列
tokens_ratings
```

```{r message=FALSE, warning=FALSE}
# 每個群組(ratings) 繪製一張圖
tokens_ratings %>%
  ggplot(aes(x = word, score, fill = ratings)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~ratings, scales = "free") +
  labs(y = "Score=Count*Sentiment", x = NULL) +
  chi_text_theme +
  coord_flip()  
```

> 從上圖可以看出各星評中，較常出現的詞
> 星評低的情況下，正負面情緒的詞出現的次數較為接近；
> 星評越高的情況下，負面情緒的詞出現的少。

## 透過tf-idf 來檢視詞的分佈
```{r message=FALSE, warning=FALSE}
game_words = tokens %>%
  count(gameRank, word, sort = TRUE)

total_words = game_words %>% 
  group_by(gameRank) %>%
  summarize(total = sum(n))

game_words = left_join(game_words, total_words)

# 計算tf-idf
game_words = game_words %>%
  bind_tf_idf(word, gameRank, n)

# 繪製較高tf-idf
# 由於資料量擠在同一張圖上太密，分多次繪製
high_tf_idf = game_words %>%
  arrange(desc(tf_idf)) %>%
  mutate(word = factor(word, levels = rev(unique(word)))) %>% 
  group_by(gameRank) %>% 
  top_n(10) %>% 
  ungroup()
high_tf_idf
```

```{r message=FALSE, warning=FALSE}
paint_tf_idf = function(data) {
  data %>%
    ggplot(aes(word, tf_idf, fill = gameRank)) +
    geom_col(show.legend = FALSE) +
    labs(x = NULL, y = "tf-idf") +
    facet_wrap(~gameRank, ncol = 2, scales = "free") +
    chi_text_theme +
    coord_flip() 
}

paint_tf_idf(
  high_tf_idf %>%
    filter(gameRank %in% 1:4)
)

paint_tf_idf(
  high_tf_idf %>%
    filter(gameRank %in% 5:8)
)

paint_tf_idf(
  high_tf_idf %>%
    filter(gameRank %in% 9:12)
)
```

> 上述3張圖，呈現各遊戲內，較高的tf-idf 值之對應文字
tf 值愈高，其單詞愈重要，就7-《盛唐幻夜》來說其為大馬女星林明禎擔任遊戲代言人，遊戲是以同名電視劇《盛唐幻夜》為基礎打造的遊戲。時代背景設定為中國歷史上最繁華的唐朝，玩家在遊戲中感受大唐盛世與御劍飛行等樂趣。玩家與夥伴一步步揭開唐代懸幻離奇的神秘面紗；此款遊戲讓玩家可以收集眾角色，成為自己闖蕩盛唐江湖的好幫手。遊戲共有九大職業，因此「明禎」、「職業」、「摸索」相對於情緒詞來說是普遍有較高的tf-idf 值。

## Topic Modeling
```{r}
# 以不分遊戲的情況下，進行玩家評論的主題查找
lda = tokens %>% 
  # dtm 轉換需要3個欄位：document, term, count
  mutate(artId = group_indices(., name)) %>% # 準備cast_dtm需要的欄位
  count(artId, word) %>% # 準備cast_dtm需要的欄位
  cast_dtm(artId, word, n) %>% # 轉成dtm
  topicmodels::LDA(k = 6, control = list(seed = 1234)) # 計算LDA
lda
```

```{r}
# Word-topic probabilities
topics = tidy(lda, matrix = "beta") # 主題-單字的機率

topics
```

```{r}
# 繪製每個主題的常見單字
top_terms = topics %>%
  group_by(topic) %>%
  top_n(18, beta) %>%
  ungroup() %>%
  arrange(topic, -beta)

top_terms
```

```{r}
top_terms %>%
  mutate(term = reorder(term, beta)) %>%
  ggplot(aes(term, beta, fill = factor(topic))) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~ topic, scales = "free") +
  theme(text = element_text(family = "Heiti TC Light")) +  
  coord_flip()
```

> 在主題切分時，用2，4，6個主題的情況下；各主題似乎看不出來較為明顯的差異。<br/>
> 猜測是由於討論的內容類似度太高<br/>
> 因而沒有明顯的主題差異

# E. 結論
總結以上的分析，我們可以得到以下結論：<br/>
1) Google Play Store中遊戲的評論數量與排行榜名次並無明顯關係。<br/>
<br/>
2) 大部份遊戲中，玩家評論正面情緒的數量遠大於負面情緒<br/>
<br/>
3) GooglePlay 的評論，遊戲更版後仍然保留；評論必須在該區下載遊戲後玩家才能上去留言，因此會造成日期排序之情緒變化，內容極不平均。<br/>
<br/>
4)一般來說用戶更傾向於下載評論多的app。評論能夠促進下載量的提升。遊戲回饋不一，50％為正面，50％為負面回饋。因此在評論免費app而非付費應用程式時，也許使用者變得更加苛刻<br/>
<br/>
<br/>
社群軟體日漸為深入人們的日常生活，而遊戲的社群更是如此。隨著一個遊戲的推出，帶來的是大量的分析數據和玩家評論，有的是真正的正面評價，評論引人入勝的遊戲劇情、雄偉壯闊的遊戲場景等。有的則是負面評價，論述著遊戲的缺點及系統錯誤處等破壞遊戲體驗的種種。有的則是看似中性的評論，看似客觀的看法背後，帶有諷刺，暗喻等主觀情緒。<br/> 上述這些言論對消費者、遊戲的開發商及營運商來說有著一定的參考價值，結合其他有關數據，如星級、評論內容、情緒字的對應等進行分析，更可以得到全方位的輿論檢測。<br/>


