主題: 為什麼不敢結婚?

前言: CIA 20210419公布全球人口生育預測:全球最低…

問題: 因此我們希望可以藉由分析社群文章來了解以下三個問題 1.為何目前的生育率極低? 2.不結婚的理由 3.需要怎樣的幫助才會增加生育率

資料清洗

##       artDate                                                  artUrl   artCat
## 1: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 2: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 3: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 4: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 5: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 6: 2020/01/11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
##        word
## 1:     明天
## 2:     結婚
## 3: 忐忑不安
## 4:     好怕
## 5:     環節
## 6:     會出
##       artDate                                                  artUrl   artCat
## 1: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 2: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 3: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 4: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 5: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
## 6: 2020-01-11 https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html GetMarry
##        word
## 1:     明天
## 2:     結婚
## 3: 忐忑不安
## 4:     好怕
## 5:     環節
## 6:     會出

文字雲

## # A tibble: 20 x 2
##    word    sum
##    <chr> <int>
##  1 結婚   1063
##  2 小孩    836
##  3 覺得    788
##  4 老公    636
##  5 真的    619
##  6 離婚    540
##  7 知道    439
##  8 問題    416
##  9 婚姻    405
## 10 現在    400
## 11 老婆    393
## 12 孩子    384
## 13 媽媽    380
## 14 朋友    293
## 15 應該    286
## 16 一起    282
## 17 事情    274
## 18 工作    260
## 19 生活    260
## 20 先生    237

TF-IDF

##                                                          artUrl word  n
##     1:  https://www.ptt.cc/bbs/marriage/M.1587963172.A.332.html 媽媽 32
##     2:  https://www.ptt.cc/bbs/marriage/M.1588194512.A.962.html 老公 31
##     3:  https://www.ptt.cc/bbs/marriage/M.1592541632.A.8F9.html 小孩 28
##     4:  https://www.ptt.cc/bbs/marriage/M.1579685584.A.C8F.html 男友 27
##     5:  https://www.ptt.cc/bbs/marriage/M.1593592497.A.942.html 孩子 26
##    ---                                                                 
## 57346: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 原因  1
## 57347: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 直接  1
## 57348: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 職稱  1
## 57349: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 抓到  1
## 57350: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 最近  1

每個月的正負情緒變化[使用程式碼>>第五周:以情緒分析ptt與dcard鮭魚之亂]

算出每天情緒總和(sentiment_count)

## Joining, by = "word"
## `summarise()` has grouped output by 'artDate'. You can override using the `.groups` argument.

正負情緒比例折線圖(擠在一起)

透過n-gram幫助建立字典(使用分析PTT八卦版水庫相關文章之詞彙關係的程式碼)

## Classes 'data.table' and 'data.frame':   170100 obs. of  4 variables:
##  $ artDate: chr  "2020/01/11" "2020/01/11" "2020/01/11" "2020/01/11" ...
##  $ artUrl : chr  "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" ...
##  $ artCat : chr  "GetMarry" "GetMarry" "GetMarry" "GetMarry" ...
##  $ bigram : chr  "天 啊" "啊 明天" "明天 要" "要 結婚" ...
##  - attr(*, ".internal.selfref")=<externalptr>

統計最常出現的bigram 組合

##          bigram   n
##      1:   也 是 306
##      2:   都 是 275
##      3:   的 人 265
##      4: 自己 的 252
##      5:   我 的 243
##     ---            
## 101661: ꀊ 然後   1
## 101662: ꀊ 相處   1
## 101663: ꀊ 也許   1
## 101664: ꀊ 以前   1
## 101665:   ꀊ 原   1

Trigram

## Classes 'data.table' and 'data.frame':   169445 obs. of  4 variables:
##  $ artDate: chr  "2020/01/11" "2020/01/11" "2020/01/11" "2020/01/11" ...
##  $ artUrl : chr  "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" "https://www.ptt.cc/bbs/GetMarry/M.1578737222.A.6A8.html" ...
##  $ artCat : chr  "GetMarry" "GetMarry" "GetMarry" "GetMarry" ...
##  $ trigram: chr  "天 啊 明天" "啊 明天 要" "明天 要 結婚" "要 結婚 了" ...
##  - attr(*, ".internal.selfref")=<externalptr>
##                trigram  n
##      1:       跟 我 說 44
##      2: 同意 記者 抄文 32
##      3: 是否 同意 記者 31
##      4:       是 為 了 30
##      5:     為 什麼 要 28
##     ---                  
## 150206:       ꀊ 我 的  1
## 150207:     ꀊ 我 婆婆  1
## 150208:   ꀊ 相處 長年  1
## 150209:     ꀊ 也許 是  1
## 150210:     ꀊ 以前 我  1

#發現bigram、trigram都包含停用字 # 製作stop word dictionary

bigram移除停用字

##         bigram  n
##     1: 兩個 人 65
##     2: 這件 事 53
##     3: 妳 老公 47
##     4: 做 家事 41
##     5: 結婚 後 38
##    ---           
## 39354: ꀊ 看到  1
## 39355: ꀊ 相處  1
## 39356: ꀊ 也許  1
## 39357: ꀊ 以前  1
## 39358:   ꀊ 原  1

tigram移除停用字

##               trigram  n
##     1: 同意 記者 抄文 32
##     2: 是否 同意 記者 31
##     3:     控制 碼 請  6
##     4:   顏色 控制 碼  6
##     5:     原文 恕 刪  6
##    ---                  
## 23454:   ㄧ 時 逃不了  1
## 23455:     ㄧ 體 那為  1
## 23456:     ㄧ 直 以來  1
## 23457:       ㄨ 服 ㄒ  1
## 23458:   ꀊ 相處 長年  1

使用自建字典

##  [1] "情緒勒索"     "做家事"       "原生家庭"     "月子中心"     "是否同意"    
##  [6] "記者抄文"     "雙方父母"     "雙方家長"     "一起生活"     "經濟壓力"    
## [11] "倒垃圾"       "登記結婚"     "婚姻諮商"     "請保姆"       "恕刪"        
## [16] "掃地機器人"   "喜歡小孩"     "玩手機"       "生活重心"     "肺炎疫情"    
## [21] "辦婚禮"       "公婆家"       "黑人問號"     "解決方法"     "辰亦儒"      
## [26] "放汽座"       "男神蘇志燮"   "武漢肺炎疫情" "收禮金"       "吃人夠夠"

剛才的斷詞結果沒有使用新增的辭典,因此我們重新進行斷詞,再計算各詞彙在各文章中出現的次數

##                                                          artUrl word  n
##     1:  https://www.ptt.cc/bbs/marriage/M.1587963172.A.332.html 媽媽 32
##     2:  https://www.ptt.cc/bbs/marriage/M.1588194512.A.962.html 老公 31
##     3:  https://www.ptt.cc/bbs/marriage/M.1592541632.A.8F9.html 小孩 28
##     4:  https://www.ptt.cc/bbs/marriage/M.1579685584.A.C8F.html 男友 27
##     5:  https://www.ptt.cc/bbs/marriage/M.1593592497.A.942.html 孩子 26
##    ---                                                                 
## 55895: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 原因  1
## 55896: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 直接  1
## 55897: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 職稱  1
## 55898: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 抓到  1
## 55899: https://www.ptt.cc/bbs/WomenTalk/M.1608971659.A.1A4.html 最近  1

計算兩個詞彙同時出現的總次數

## Warning: `distinct_()` was deprecated in dplyr 0.7.0.
## Please use `distinct()` instead.
## See vignette('programming') for more help
## Warning: `tbl_df()` was deprecated in dplyr 1.0.0.
## Please use `tibble::as_tibble()` instead.
## # A tibble: 5,918,178 x 3
##    item1 item2     n
##    <chr> <chr> <dbl>
##  1 覺得  結婚    229
##  2 結婚  覺得    229
##  3 真的  結婚    198
##  4 結婚  真的    198
##  5 真的  覺得    174
##  6 覺得  真的    174
##  7 現在  結婚    171
##  8 結婚  現在    171
##  9 知道  結婚    163
## 10 結婚  知道    163
## # … with 5,918,168 more rows

計算兩個詞彙間的相關性

## # A tibble: 1,009,020 x 3
##    item1 item2 correlation
##    <chr> <chr>       <dbl>
##  1 抄文  記者        0.901
##  2 記者  抄文        0.901
##  3 抄文  同意        0.701
##  4 同意  抄文        0.701
##  5 產後  憂鬱        0.691
##  6 憂鬱  產後        0.691
##  7 記者  同意        0.668
##  8 同意  記者        0.668
##  9 祖先  屬虎        0.633
## 10 屬虎  祖先        0.633
## # … with 1,009,010 more rows