Keelung Facebook Analysis

LU YI

2016-11-09

Data Source

  • 來源:基隆人踹共
  • 期間:2014-09-01 - 2016-10-02

變數

  • Post
#>  [1] "from_id"        "from_name"      "message"        "created_time"  
#>  [5] "type"           "link"           "id"             "likes_count"   
#>  [9] "comments_count" "shares_count"   "created_date"
  • Comments
#> [1] "post_id"      "from_id"      "from_name"    "message"     
#> [5] "created_time" "likes_count"  "id"
  • Share
#> [1] "from_id"     "from_name"   "shared_time" "id"

貼文聲量分析

按讚、分享、回文數量之相關性

針對每則貼文,計算兩兩按讚、分享、回文的相關係數, 按讚數,與回文數及分享數的相關係數分別為 .52, .43,若只以按讚數來看聲量大小,也具有一定的代表性。

#> # A tibble: 3 × 4
#>          rowname likes_count shares_count comments_count
#>            <chr>       <dbl>        <dbl>          <dbl>
#> 1    likes_count          NA           NA             NA
#> 2   shares_count   0.4287087           NA             NA
#> 3 comments_count   0.5156872    0.3052601             NA

按讚

  • 按讚聲量分佈

按讚聲量的分佈呈右尾分佈(right skewed),中位數為 67,因此只取前面幾名的貼文作為議題擴散程度較大的代表來分析。

#>    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#>     0.0    34.0    67.0   129.1   141.0  2931.0

  • 按讚聲量排行榜 Top 10
  1. 公車司機
  2. 李鵠餅店回收正義香油製品
  3. 北北基因為颱風假放半天遭網友罵翻
  4. 大船入港照(郵輪)
  5. 公車司機
  6. 貼心里長
  7. 淨灘新聞
  8. 台北市國光客運西站部分,調整到南港轉運站爭議
  9. 滅頂
  10. 客運擬改停南港 基隆人反彈

交通問題是重點

分享

  • 分享聲量分佈
#>    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#>   0.000   0.000   2.000   7.419   6.000 968.000

  • 分享聲量排行榜 Top 10

回文

  • 回文聲量排行榜

  • 回文聲量排行榜 Top 10

回文較多的文章,很多是引起憤怒鄉民的話題

文字探勘

貼文

  • 關鍵詞 Top 100

利用 tf-idf 關鍵詞算法,處理高頻詞高估及低頻詞低估的問題,取得整個文檔的關鍵詞

  • Wordcloud

回文

  • 關鍵詞 Top 100
  • Wordcloud
  • Topic Models

根據指標選擇 40 個 topic cluster

Result

word2vec

相近關聯詞

  • 景點
#>         景點         觀光         遊客       觀光客         導覽 
#> 2.220446e-16 2.591463e-01 3.227806e-01 3.316310e-01 3.469084e-01 
#>         古跡         遊憩           廊         親水         美景 
#> 3.547640e-01 3.742568e-01 3.768643e-01 3.779503e-01 3.958711e-01 
#>         造訪         觀景         特區         串聯         北觀 
#> 3.964187e-01 4.069623e-01 4.109645e-01 4.178629e-01 4.186476e-01 
#>     發展潛力         能成         特色         景觀         環山 
#> 4.207223e-01 4.248581e-01 4.263286e-01 4.281376e-01 4.296227e-01
  • 停車
#>         停車           格         路邊       停車位         紅線 
#> 5.551115e-16 1.568249e-01 2.360695e-01 2.478006e-01 2.673018e-01 
#>           停     嚴重不足         格是         違停         格有 
#> 2.714786e-01 2.748320e-01 2.811482e-01 2.832361e-01 2.937556e-01 
#>         收費         車格         黃線       五百個         違規 
#> 2.960089e-01 3.030970e-01 3.031632e-01 3.241743e-01 3.246752e-01 
#>         格內         汽車       停車場         車位         停到 
#> 3.269563e-01 3.293270e-01 3.338071e-01 3.364778e-01 3.374172e-01
  • 交通
#>         交通         順暢         疏導     交通狀況         用路 
#> 4.440892e-16 3.025953e-01 3.104828e-01 3.694828e-01 4.250467e-01 
#>         打結           隊         有序       賴國隆       便利性 
#> 4.331806e-01 4.340233e-01 4.354841e-01 4.372955e-01 4.480708e-01 
#>         幹道         擁塞     交通流量         學柯         繁忙 
#> 4.495791e-01 4.506464e-01 4.509685e-01 4.528482e-01 4.575380e-01 
#>         流暢         以維     交通秩序         便利     運輸系統 
#> 4.652831e-01 4.658447e-01 4.680364e-01 4.757503e-01 4.772054e-01

向量 (根據文字向量距離由小至大排列)

  • 遊客:夜市= 本地人:?
#>      遊客      若要      留下        城      船上      旅人      景致 
#> 0.4821519 0.5336082 0.5508056 0.5636133 0.5726180 0.5853033 0.5883945 
#>      當次      何嘗      破壞 
#> 0.5993059 0.6051237 0.6082002
  • 基隆:市長 = 台北 : ?
#>      台北      臺北      基隆      直達      士林      北車      幾班 
#> 0.3094948 0.4562276 0.4724419 0.4757051 0.4790440 0.4857326 0.4902209 
#>    直達車      北門      再轉 
#> 0.4927544 0.4943527 0.4944141
  • 基隆:海洋廣場 = 台北 : ?
#>      台北      基隆      搬回        爹    輪不到        郡      劫運 
#> 0.3983891 0.4285823 0.4786097 0.4832377 0.4845451 0.4938136 0.5040614 
#>      騙票      中壢      當真 
#> 0.5198333 0.5223849 0.5299588

- 基隆:交通=台北:?

#>      台北      基隆        爹      助選      不提      建樹        橘 
#> 0.3558264 0.4223342 0.4679993 0.4691554 0.4888492 0.4910504 0.4910602 
#>      搬回      郝前      當真 
#> 0.5069076 0.5088283 0.5131621
  • 基隆:交通=新北市:?
#>    新北市      併入      瑞芳      新北  縣市政府    台北市    輪不到 
#> 0.2838497 0.4536381 0.4775083 0.4775481 0.4908418 0.5116415 0.5121724 
#>      獨立    臺北市      點頭 
#> 0.5189103 0.5499711 0.5551310
  • 基隆:河 = 台北:?
#>      台北      基隆      助選  這幾年來    總統府  智力測驗      選輸 
#> 0.5515437 0.5745891 0.6080755 0.6219777 0.6390348 0.6471049 0.6532700 
#>      基桃    林欽榮    親民黨 
#> 0.6549768 0.6558547 0.6583595

Bag of Words

碎片化的單詞構成句子,再構成文本

Reference

文字探勘(Text Mining)被視為是資料探勘(Data Mining)的一環,其中有個關鍵的差別,在於傳統資料探勘所處理的資料,都是「結構性」的資料,也就是說,資料本身具有明確的結構,例如,像是一個固定結構的表格,每個欄位有其明確的定義及值。而資料探勘技術中的演算法,則是以這些結構性的資料為輸入,經過演算過程之後計算得到結果。但文字探勘不同於資料探勘的地方,則在於它的原始輸入資料,都是沒有特定結構的純文字,這些文字的內容,都是用人類的自然語言所寫成的,所以,無法直接套用資料探勘的演算法,來計算出些什麼有意義的東西。

在我們生活當中,除了具結構性的資料,也有相當大量的文字資料,像是每天的新聞、人們在 Facebook、Twitter、微博上所發表的近況更新、部落格文章、專利文件等等。這些自然語言文字型的資料中,同樣蘊藏可觀、極具潛力的「礦產」,也就是有價值的資訊,等著我們用資訊技術去開採。這就是文字探勘技術及應用所希望達成的目標。