主題: 為什麼不敢結婚?

動機與分析目的: 美國中情局(CIA)公布2021年全球人口生育預測報告,其中倒數5名的國家都位於亞洲,分別為香港、澳門、新加坡、南韓與台灣,而台灣竟然為全球227個國家中的最後一名,如此震撼的消息也是提醒著我們少子化的問題一直都未解決。年輕人不敢結婚生子會造成國家競爭力下降,因此我們想透過閱歷豐富、經濟能力足夠的PTT鄉民了解目前年輕人對生子的想法,並分析其中資訊,進一步找出原因幫助政府改善社會環境。

載入packages

資料前處理: 第一次斷詞+刪除停用字

  • 為了分析po文內容,先透過特定字典斷詞和刪除停用字
  • 將斷詞拉到新增的word欄位並過濾包含英文的字詞
  • 轉換日期格式
##       artDate                                                  artUrl   artCat
## 1: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 2: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 3: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 4: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 5: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 6: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
##        word
## 1:     明天
## 2:     結婚
## 3: 忐忑不安
## 4:     好怕
## 5:     環節
## 6:     會出

文字雲

  • 根據斷詞計算出現最多的字詞並繪製文字雲
##                                                          artUrl word  n
##     1:  https://www.ptt.cc/bbs/marriage/M.1587963172.A.332.html 媽媽 32
##     2:  https://www.ptt.cc/bbs/marriage/M.1588194512.A.962.html 老公 31
##     3:  https://www.ptt.cc/bbs/marriage/M.1592541632.A.8F9.html 小孩 28
##     4:  https://www.ptt.cc/bbs/marriage/M.1579685584.A.C8F.html 男友 27
##     5:  https://www.ptt.cc/bbs/marriage/M.1593592497.A.942.html 孩子 26
##    ---                                                                 
## 57346: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 原因  1
## 57347: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 直接  1
## 57348: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 職稱  1
## 57349: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 抓到  1
## 57350: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 最近  1

每個月的正負情緒變化

  • 讀入LIWC字典
  • 分割字詞,並將兩個情緒字典併在一起

算出每天情緒總和

## Joining, by = "word"
## `summarise()` has grouped output by 'artDate'. You can override using the `.groups` argument.

統計最常出現的bigram 組合

##          bigram   n
##      1:   也 是 306
##      2:   都 是 275
##      3:   的 人 265
##      4: 自己 的 252
##      5:   我 的 243
##     ---            
## 101661: ꀊ 然後   1
## 101662: ꀊ 相處   1
## 101663: ꀊ 也許   1
## 101664: ꀊ 以前   1
## 101665:   ꀊ 原   1

bigram移除停用字

##          bigram   n
##      1:   也 是 306
##      2:   都 是 275
##      3:   的 人 265
##      4: 自己 的 252
##      5:   我 的 243
##     ---            
## 101472: ꀊ 然後   1
## 101473: ꀊ 相處   1
## 101474: ꀊ 也許   1
## 101475: ꀊ 以前   1
## 101476:   ꀊ 原   1

tigram移除停用字

##              trigram  n
##      1:     跟 我 說 44
##      2:     是 為 了 30
##      3:   為 什麼 要 28
##      4:     我 也 是 24
##      5:   我 不 知道 22
##     ---                
## 149866:     ꀊ 我 的  1
## 149867:   ꀊ 我 婆婆  1
## 149868: ꀊ 相處 長年  1
## 149869:   ꀊ 也許 是  1
## 149870:   ꀊ 以前 我  1

使用自建字典

##  [1] "情緒勒索"     "做家事"       "原生家庭"     "月子中心"     "雙方父母"    
##  [6] "雙方家長"     "一起生活"     "經濟壓力"     "倒垃圾"       "登記結婚"    
## [11] "婚姻諮商"     "請保姆"       "掃地機器人"   "喜歡小孩"     "玩手機"      
## [16] "生活重心"     "肺炎疫情"     "辦婚禮"       "公婆家"       "黑人問號"    
## [21] "解決方法"     "放汽座"       "武漢肺炎疫情" "收禮金"       "吃人夠夠"

使用新字典建立斷詞器

## [1] TRUE
  • 剛才的斷詞結果沒有使用新增的辭典,因此我們重新進行斷詞,再計算各詞彙在各文章中出現的次數
##                                                          artUrl word  n
##     1:  https://www.ptt.cc/bbs/marriage/M.1587963172.A.332.html 媽媽 32
##     2:  https://www.ptt.cc/bbs/marriage/M.1588194512.A.962.html 老公 31
##     3:  https://www.ptt.cc/bbs/marriage/M.1592541632.A.8F9.html 小孩 28
##     4:  https://www.ptt.cc/bbs/marriage/M.1579685584.A.C8F.html 男友 27
##     5:  https://www.ptt.cc/bbs/marriage/M.1593592497.A.942.html 孩子 26
##    ---                                                                 
## 55683: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 原因  1
## 55684: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 直接  1
## 55685: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 職稱  1
## 55686: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 抓到  1
## 55687: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 最近  1

計算兩個詞彙同時出現的總次數

## Warning: `distinct_()` was deprecated in dplyr 0.7.0.
## Please use `distinct()` instead.
## See vignette('programming') for more help
## Warning: `tbl_df()` was deprecated in dplyr 1.0.0.
## Please use `tibble::as_tibble()` instead.
## # A tibble: 5,885,542 x 3
##    item1 item2     n
##    <chr> <chr> <dbl>
##  1 覺得  結婚    229
##  2 結婚  覺得    229
##  3 真的  結婚    198
##  4 結婚  真的    198
##  5 真的  覺得    174
##  6 覺得  真的    174
##  7 現在  結婚    171
##  8 結婚  現在    171
##  9 知道  結婚    163
## 10 結婚  知道    163
## # … with 5,885,532 more rows

計算兩個詞彙間的相關性

## # A tibble: 1,001,000 x 3
##    item1 item2 correlation
##    <chr> <chr>       <dbl>
##  1 產後  憂鬱        0.691
##  2 憂鬱  產後        0.691
##  3 祖先  屬虎        0.633
##  4 屬虎  祖先        0.633
##  5 不生  不婚        0.629
##  6 不婚  不生        0.629
##  7 嫁妝  聘金        0.606
##  8 聘金  嫁妝        0.606
##  9 嫁妝  戒指        0.588
## 10 戒指  嫁妝        0.588
## # … with 1,000,990 more rows

2020-1月-共現圖(相關性值_0.1)

avatar

avatar

2020-2月-共現圖(相關性值_0.1)

avatar

avatar

2020-3月-共現圖(相關性值_0.1)

avatar

avatar

2020-4月-共現圖(相關性值_0.1)

avatar

avatar

2020-5月-共現圖(相關性值_0.3)

avatar

avatar

2020-6月-共現圖(相關性值_0.4)

avatar

avatar

2020-7月-共現圖(相關性值_0.4)

avatar

avatar

2020-8月-共現圖(相關性值_0.5)

avatar

avatar

2020-9月-共現圖(相關性值_0.3)

avatar

avatar

2020-10月-共現圖(相關性值_0.4)

avatar

avatar

2020-11月-共現圖(相關性值_0.5)

avatar

avatar

2020-12月-共現圖(相關性值_0.01)

avatar

avatar