Data Source
- 來源:基隆人踹共
- 期間:2014-09-01 - 2016-10-02
變數
- Post
#> [1] "from_id" "from_name" "message" "created_time"
#> [5] "type" "link" "id" "likes_count"
#> [9] "comments_count" "shares_count" "created_date"
- Comments
#> [1] "post_id" "from_id" "from_name" "message"
#> [5] "created_time" "likes_count" "id"
- Share
#> [1] "from_id" "from_name" "shared_time" "id"
貼文聲量分析
按讚、分享、回文數量之相關性
針對每則貼文,計算兩兩按讚、分享、回文的相關係數, 按讚數,與回文數及分享數的相關係數分別為 .52, .43,若只以按讚數來看聲量大小,也具有一定的代表性。
#> # A tibble: 3 × 4
#> rowname likes_count shares_count comments_count
#> <chr> <dbl> <dbl> <dbl>
#> 1 likes_count NA NA NA
#> 2 shares_count 0.4287087 NA NA
#> 3 comments_count 0.5156872 0.3052601 NA
按讚
- 按讚聲量分佈
按讚聲量的分佈呈右尾分佈(right skewed),中位數為 67,因此只取前面幾名的貼文作為議題擴散程度較大的代表來分析。
#> Min. 1st Qu. Median Mean 3rd Qu. Max.
#> 0.0 34.0 67.0 129.1 141.0 2931.0
- 按讚聲量排行榜 Top 10
- 公車司機
- 李鵠餅店回收正義香油製品
- 北北基因為颱風假放半天遭網友罵翻
- 大船入港照(郵輪)
- 公車司機
- 貼心里長
- 淨灘新聞
- 台北市國光客運西站部分,調整到南港轉運站爭議
- 滅頂
- 客運擬改停南港 基隆人反彈
交通問題是重點
分享
- 分享聲量分佈
#> Min. 1st Qu. Median Mean 3rd Qu. Max.
#> 0.000 0.000 2.000 7.419 6.000 968.000
- 分享聲量排行榜 Top 10
回文
- 回文聲量排行榜
- 回文聲量排行榜 Top 10
回文較多的文章,很多是引起憤怒鄉民的話題
文字探勘
貼文
- 關鍵詞 Top 100
利用 tf-idf 關鍵詞算法,處理高頻詞高估及低頻詞低估的問題,取得整個文檔的關鍵詞
- Wordcloud
回文
- 關鍵詞 Top 100
- Wordcloud
- Topic Models
根據指標選擇 40 個 topic cluster
Result
word2vec
相近關聯詞
- 景點
#> 景點 觀光 遊客 觀光客 導覽
#> 2.220446e-16 2.591463e-01 3.227806e-01 3.316310e-01 3.469084e-01
#> 古跡 遊憩 廊 親水 美景
#> 3.547640e-01 3.742568e-01 3.768643e-01 3.779503e-01 3.958711e-01
#> 造訪 觀景 特區 串聯 北觀
#> 3.964187e-01 4.069623e-01 4.109645e-01 4.178629e-01 4.186476e-01
#> 發展潛力 能成 特色 景觀 環山
#> 4.207223e-01 4.248581e-01 4.263286e-01 4.281376e-01 4.296227e-01
- 停車
#> 停車 格 路邊 停車位 紅線
#> 5.551115e-16 1.568249e-01 2.360695e-01 2.478006e-01 2.673018e-01
#> 停 嚴重不足 格是 違停 格有
#> 2.714786e-01 2.748320e-01 2.811482e-01 2.832361e-01 2.937556e-01
#> 收費 車格 黃線 五百個 違規
#> 2.960089e-01 3.030970e-01 3.031632e-01 3.241743e-01 3.246752e-01
#> 格內 汽車 停車場 車位 停到
#> 3.269563e-01 3.293270e-01 3.338071e-01 3.364778e-01 3.374172e-01
- 交通
#> 交通 順暢 疏導 交通狀況 用路
#> 4.440892e-16 3.025953e-01 3.104828e-01 3.694828e-01 4.250467e-01
#> 打結 隊 有序 賴國隆 便利性
#> 4.331806e-01 4.340233e-01 4.354841e-01 4.372955e-01 4.480708e-01
#> 幹道 擁塞 交通流量 學柯 繁忙
#> 4.495791e-01 4.506464e-01 4.509685e-01 4.528482e-01 4.575380e-01
#> 流暢 以維 交通秩序 便利 運輸系統
#> 4.652831e-01 4.658447e-01 4.680364e-01 4.757503e-01 4.772054e-01
向量 (根據文字向量距離由小至大排列)
- 遊客:夜市= 本地人:?
#> 遊客 若要 留下 城 船上 旅人 景致
#> 0.4821519 0.5336082 0.5508056 0.5636133 0.5726180 0.5853033 0.5883945
#> 當次 何嘗 破壞
#> 0.5993059 0.6051237 0.6082002
- 基隆:市長 = 台北 : ?
#> 台北 臺北 基隆 直達 士林 北車 幾班
#> 0.3094948 0.4562276 0.4724419 0.4757051 0.4790440 0.4857326 0.4902209
#> 直達車 北門 再轉
#> 0.4927544 0.4943527 0.4944141
- 基隆:海洋廣場 = 台北 : ?
#> 台北 基隆 搬回 爹 輪不到 郡 劫運
#> 0.3983891 0.4285823 0.4786097 0.4832377 0.4845451 0.4938136 0.5040614
#> 騙票 中壢 當真
#> 0.5198333 0.5223849 0.5299588
- 基隆:交通=台北:?
#> 台北 基隆 爹 助選 不提 建樹 橘
#> 0.3558264 0.4223342 0.4679993 0.4691554 0.4888492 0.4910504 0.4910602
#> 搬回 郝前 當真
#> 0.5069076 0.5088283 0.5131621
- 基隆:交通=新北市:?
#> 新北市 併入 瑞芳 新北 縣市政府 台北市 輪不到
#> 0.2838497 0.4536381 0.4775083 0.4775481 0.4908418 0.5116415 0.5121724
#> 獨立 臺北市 點頭
#> 0.5189103 0.5499711 0.5551310
- 基隆:河 = 台北:?
#> 台北 基隆 助選 這幾年來 總統府 智力測驗 選輸
#> 0.5515437 0.5745891 0.6080755 0.6219777 0.6390348 0.6471049 0.6532700
#> 基桃 林欽榮 親民黨
#> 0.6549768 0.6558547 0.6583595
Bag of Words
碎片化的單詞構成句子,再構成文本
Reference
文字探勘(Text Mining)被視為是資料探勘(Data Mining)的一環,其中有個關鍵的差別,在於傳統資料探勘所處理的資料,都是「結構性」的資料,也就是說,資料本身具有明確的結構,例如,像是一個固定結構的表格,每個欄位有其明確的定義及值。而資料探勘技術中的演算法,則是以這些結構性的資料為輸入,經過演算過程之後計算得到結果。但文字探勘不同於資料探勘的地方,則在於它的原始輸入資料,都是沒有特定結構的純文字,這些文字的內容,都是用人類的自然語言所寫成的,所以,無法直接套用資料探勘的演算法,來計算出些什麼有意義的東西。
在我們生活當中,除了具結構性的資料,也有相當大量的文字資料,像是每天的新聞、人們在 Facebook、Twitter、微博上所發表的近況更新、部落格文章、專利文件等等。這些自然語言文字型的資料中,同樣蘊藏可觀、極具潛力的「礦產」,也就是有價值的資訊,等著我們用資訊技術去開採。這就是文字探勘技術及應用所希望達成的目標。