摘要

透過現代的科技, Pol.is可以讓相當龐大的群體在不同的時間與地區進行討論與對話。這是非常接近直接民主的方式,也可能是人類在公眾事務運作與自我管理上的極重要的發展。它在國際上引起了如 The New York Times 、 The Economist 和 Wired(詳如:Tang (2019), Narayanan (2019) 和 Miller (2019))的廣泛關注與推崇,而其中 vTaiwan 下的 UberX conversation 是先驅與知名成功案例。比較 Pol.is (Small et al. (2021))和 Talk to the City (Marnette et al.(2023)) ,本研究重新分析該資料,並加入 text mining、 topic mining - Latent Dirichlet Allocation (LDA, Blei et al.(2003))的細緻分析。更重要的是,引進評論的立場估計。在這樣的架構下,討論得以全面且完整的了解,對應的視覺化結果也包含了更豐富的資訊。可切題地回答如參與者群體偏向贊成或反對將 Uber 合法化,整體最關心的評論主題與考量是什麼,以及參與者的整體立場和他們的群聚分析等關鍵問題。

意見探勘

Packages and Data

library(ggplot2)
library(lattice)
library(caret)
library(data.table)
library(dplyr)
library(jiebaR)
library(tibble)
library(knitr)
library(kableExtra)
library(tidytext)
library(data.table)
library(text2vec)
library(vegan)
library(plotly)
library(MLmetrics)
library(wordcloud2)
library(Rtsne)
library(rpart)
library(gtools)
library(patchwork)
library(base)
library(topicmodels)
knitr::opts_chunk$set(echo = TRUE)
options(knitr.table.format = "html")
comments <- fread("D:/論文/Polis.data/comments.csv")
participants_votes <- fread("D:/論文/Polis.data/participants-votes.csv")
#人工給予的5個分數(-1、-0.5、0、0.5和1)
comments_s <- fread("D:/論文/polis/197句子分數.csv")

第一階段:文章資料處理

刪除了5則沒有明確立場、輸入網址或包含注音等錯誤的評論,以及篩選844位投票超過20篇評論者。

new_comments <- cbind(comments[,3:6],comments[,8],comments_s$score)
colnames(new_comments)[6] <- "score"
new_comments <- new_comments[order(new_comments$`comment-id`), ]
new_comments <- subset(new_comments, !(new_comments$`comment-id` %in% c("1", "2", "11", "118", "167")))


votedata <- participants_votes[,7:203]
votedata <- votedata[,!c("1", "2", "11", "118", "167")]


size_post <- as.numeric(new_comments$agrees+new_comments$disagrees)

x <- t(votedata)
z <- c()
for (i in 1:1921) {
  y <- table(x[,i])
  z <- rbind(z,y)
}
z <- as.data.frame(z)
row.names(z) <- participants_votes$participant
size_participant <- rowSums(z) %>% as.numeric()
size_participant <- size_participant[-which(participants_votes$`n-votes`<= 20)]
rm(x,y,i)

最終保留了192則有效評論。進行資料預處理,使用自然語言處理(NLP)技術。預處理的步驟包括標記化、去除停用詞和常用詞。標記化的過程將文本分割成獨立的詞語或詞組。此外,採用了 CSentiPackage 作為分詞的基礎工具,能夠準確地識別和處理中文中的詞彙和短語。

text_all <- new_comments[,5]
text_all <- as.matrix(text_all)
#whitelist參考CSentiPackage 1.0
seg <- worker(user="D:/論文/Polis.data/whitelist.txt",
              stop_word = "D:/論文/Polis.data/blacklist.txt", encoding = "UTF-8")

# from col split text with space
text_segged <- rep("",1)
for (i in 1:length(text_all)){
  segged <- seg[text_all[i]]
  text_segged[i] <- paste0(segged, collapse = " ") 
}
#編代號
text_df <- tibble(
  doc_id = seq_along(text_segged),
  content = text_segged
)
#轉換表格
kable(text_df, align = "l") %>% 
  kable_styling() %>% 
  scroll_box(height = "200px")
doc_id content
1 有用 叫車
2 尖峰 時段 彈性 提高 收費
3 開放 接受 多家 派遣
4 主動 取締 白牌 車是 交通部 責任
5 載客 車子 要有 明確 標示
6 載客 保 意外險
7 營業 政府 納稅
8 平台 爭端 解決 紀錄 應 呈報 交通部
9 台灣 以外 地方 叫過
10 媒合 平台 拍賣 網站 屬於 資訊業
11 身 一定要 塗裝 成 黃色 車輛 顏色 不同
12 小型車 駕駛執照
13 職業 駕照
14 自用車 載客 時 應該要 投保 汽車 乘客 責任 險
15 人力 派遣 客運 僱員 屬於 服務業
16 目前 未依 法 營業 搭乘 時 有風險
17 管理 制度 不夠 透明 難以 安心
18 現有 國內 運輸業 產生 不公平 競爭 情形
19 依法 令 申請 經營 運輸 業務
20 每位 投保 乘客 責任 險
21 資料 受 政府 管制
22 個人資料 應受 政府 管制
23 違法 遭 營運 交通部 勒令 停業 交通部 毫無 繼續 營運 政府 不依法 行政 積極 取締 非法 真是 無能
24 國內 受 違法 停業 處分 怎可 大街小巷 橫行 無阻 違法 營業 行為 容許 存在 表示 政府 無能 國家機關 威信 斷殤 國人 憂心 豈 不法行為 國人 表示 意見
25 使用 app 載客 違法 這因 該是 屬於 業務 再來 臺灣 登記 資訊業 並不是 運輸業 再來 資格考試 越來越難 考 不需要 考核 需要 職業 駕照 鼓勵 自用車 加入 載客 安全性 發生 事情 難道 也是 政府 負責 違法 請 政府 認真 處理 註銷 公司 登記
26 保障 保險
27 交通部 取締 效果 不彰 公 權力 無能 表現
28 現行 不法行為 應盡 努力 停業 不需要 國人 表示 意見
29 交通部 駁回 行政 訴願 台北市 政府 註銷 台 灣 宇 博 數位 公司 登記
30 目前 無法 幫 乘客 保 意外險 感到 沒有 保障
31 不該 這種 車隊 收費 不合理 車隊 管理 很差 沒受 專業 駕駛 訓練
32 先 考取 職業 駕駛執照
33 資格 管理 方式 不夠 嚴謹
34 那有 台灣購 錢 不用 繳稅 政府 立場 是否 鼓勵 人民 做 非法 抓 才是 正確 沒有 考核 從事 載客 行為 車子 合法 有無 保險 非常明顯 不法 假冒 科技 之名 實則 譲 人民 處於 潛藏 危險 之際 政府 不斷 然 處置 有違 人民 信賴
35 徵集 意見 各級 相關 政府 單位 先 明確 表示 立場
36 不趕 時間 馬路 邊有 傾向
37 平均 品質
38 審核 人員 乘客 保障 駕駛 權益 兼顧 最重要 安全 第一
39 交通部 應於 線上 公開 2014 年 調查 是否 違法 報告
40 營業 車 是為了 營業 而經 政府 相關 單位 認證 使能 行為 自用車 乃知 其名 行之 使用 執照 威脅 公共 安全 台灣 政府 沒辦法 真想 說
41 加價 計費 搭乘
42 自用車 未經 政府 認證 自行 載客 營業 已經 威脅 公共 安全
43 類似 共乘 收費 概念
44 類似 共乘 開車 共 乘者 收費 概念 可行
45 披 羊皮 狼 感覺 表面 是為了 大眾 背地裡 卻是 不合法 掩飾 鑽 法律 漏洞 商機
46 說 是為了 服務 大眾 加上 合法 納稅 保險 成本 商業模式 無法 營運 下去
47 大台北 數量 已經 夠多 滿街 加上 便捷 大眾 運輸工具 捷運 公車 ubike 民眾 多樣 選擇 加上 為數 眾多 個人 交通工具 機車 汽車 造成 空車 率 不斷 攀升 如今 開放 私家車 投入 計程 載客 豈不是 反其道而行 請 三思
48 大眾 運輸工具 普及 營業 車的 空車 率 不斷 攀升 開放 自用車 載客 不會 擴大 需求 會讓 更難 經營
49 創新 服務 以達 營利 目的 的確是 社會 進步 重要 過程 必須 完全 法律 規範 合法 經營 避免 非法 營運 產生 社會 公平 社會 安全 問題
50 乘客 雙贏
51 乘客 雙方 都能 受益 新 服務
52 類似 資訊 媒合 平台 牽扯 載客 交通法規 這部分 需要 特別 嚴謹 食品 藥品 也會 應為 牽涉 公共 安全 特別 嚴格 界定 把關
53 交通運輸 食品 藥品 性質 類似 比起 服務 媒合 平台 應該要 特別 嚴格 界定 把關
54 營業 政府 社會 要有 財務 貢獻
55 運輸業 負起 保障 乘客 安全 責任 政府 應為 保護 現在 既得利益者 設置 不公平 管制 規則
56 車輛 素質 普遍
57 網路 工具 app 車 降低 故意 繞路 機率
58 很多 開車 習慣 不良
59 共享 經濟 降低 社會 資源 浪費
60 創造 彈性 就業 機會 商業模式
61 現在 服務 品質 參差不齊 市場 未 提供 足夠 公平 競爭 環境
62 境外 公司 Uebr 有責任 台灣 繳稅 問題 提出 足以 說服 台灣 社會 因應 方式
63 政府 運輸業 設置 公平 管制 規則 而不是 保護 特定 既得利益者
64 開車 時較 不會 亂 鑽 客人 下車時 直接 切換 車道 不顧 後方 來車 安危 司 機會 慢慢 切換 車道 路邊
65 有機會 搭乘 高級 車款 Ex Audi BMW Benz etc 多半 國產 車 有著 不同 新鮮 感
66 現在 已經 科技時代 很多 事物 法令 規範 應時 應 地治宜 而不是 墨守成規
67 X 沒有 職業 駕照 車體 明顯 標示 辨識 每趟 行程 皆 行程 紀錄 感到 安全
68 計費 便宜 平均 都能 省下 便當 錢
69 共享 平台 概念 而非 僱員 概念 平台 管理者 角度 監督 平台 合作 乘客
70 計費 通常 便宜 平均 都能 省下 便當 錢
71 比照 需有 營業 登記證 執照 需 提供 駕駛 完整 資訊 車內
72 ubuerx 沒有 完整 規範 搭乘 不明 人士 自用車 ㄧ 件 非常 可怕的事 情 非常 沒有 保障
73 遵守 相同 法律
74 台灣 治安 算是 安定 自用車 載客 或許 隱藏 危機 乘客 判斷 此車 是否 贓車 AB 車 容易 有心 當作 犯案 方式 汽車 駕駛 身心 有否 通過 基本 測驗 健檢 從何 駕駛 安全 考量 不會 更容易 遇到 隨車 搶劫 歹徒 諸多 因素 都需要 通過 嚴密 法案 條例 賦予 駕駛 乘客 保障 完善 規劃 才有 推動 正式上路 動力
75 應比照 登記證 執照 駕駛 完整 資訊 擺設 車內 明顯 之處
76 搭乘 自用車 無從 判斷 此人 是否 通過 測驗 健檢 感覺 非常 沒有 保障
77 費率 加成 邏輯 瞎 並不是 真正 乘車 服務 雙方 真實 使用 情況 計算 單純 時間 區分 導致 有時候 UberBlack 便宜 奇怪 情況 出現
78 費率 加成 邏輯 透明 導致 有時候 UberBlack 便宜 奇怪 情況 出現
79 還好 開放 民眾 查得 會更好
80 不會 傳統 加入 車隊 有辦法 生存 也不 政府 規定 民間 制訂 出 來的 傳統 找到 出路 不用 擔心 顛覆 這項 文 規定 很棒 政府 能夠 制定 政策 把關 這家 公司 合法 真的 改善 很多 交通 問題
81 應該要 提出 合理 理由
82 傳統 現在 加入 車隊 有辦法 生存 也不 政府 規定 顛覆 這項 文 規定 很棒
83 營業 遵守 相關 法令 公司 經營 模式
84 Uberx 人車 派遣 目前 不合法 不公平 嚴重 侵犯 職業 就業 生存 權
85 加成計費 會讓 比較 不想 搭 加成計費 供需 法則 變化 合理
86 搭乘 問題 無從 解決 應用程式 客訴
87 很喜歡 UBer 服務
88 應用程式 客訴 時 問題 獲得解決 效率 投訴 來得高
89 台灣 放行 營運 民眾 便捷 交通 方式 有保障 乘客 權益 機制
90 現有 保障 乘客 權益 機制 已經足夠 放行 營運 民眾 便捷 交通 方式
91 真的 看太近 最近 聽 科技 業說 GOOGLE 無人 車 GOOLE 有無 營業執照 這件 事 非常 注重 顧客 評比 政府 現在 討論 事 過了 幾年 GOOLE 可能 改成 無人 駕駛 現在 往後面 步 思考 無人 車 載客 管理 問題 無人 車 是否 取代 大眾 運輸系統 現代 大眾 系統 是否 興建 必要性 以後 就業
92 提前 考慮 電腦 自動 駕駛 情況 包括 現代 大眾 系統 是否 興建 必要 以後 就業
93 乘客 有個 評分 制度 達不到 要求 分數 進行 停機 教育 處置 惡劣 政府 核發 營業 許可 上線 開車 最大 不同 覺 安心 反觀 開 快車 搶道 搭 上車 就任 評 處置 得以 不會 相 搭
94 營業 車輛 一律 採取 乘客 評分 機制 而不是 只靠 政府 核發 營業 許可
95 應該要 合乎 現在 法規 使用 租賃 車輛
96 共乘 精神 應該要 目的地 相同 而不是 開 繞
97 擴大 取締
98 駕駛 目的地 搭乘 相同 才是 共乘 精神 繞行 等待 載客 不能 算是 共乘
99 交通 服務 需要 職業 商用 乘客 險 制定 險種 畢竟 保險費用 試算 不同
100 不必要 一定是 黃色 屬於 叫車 服務 不必 加上 明顯 塗裝
101 公司 收取 收 續費 必須 駕駛 乘客 品質 服務 把關 也有 必要 承擔 連帶 責任
102 公司 收取 收 續費 有責任 提供 乘客 保險 需要 時 制定 保險 種類
103 平台 乘客 可多 一種 搭乘 選擇 而不是 小黃
104 找到 出口 訂定 有別於 職業 小客車 法規 非 營業 車 要共乘 補貼 油錢 兼職 性質 自用車 遵守 遊戲規則
105 X 機制 品質 安全 乘客 保障
106 x 國際化 app 媒合 乘客 平台 今天 台灣要 融入 國際化 接受 而不是 排擠
107 國際化 App 今天 台灣要 融入 國際 接受 平台 而不是 排擠
108 乘車 選擇 持有 合格 駕駛執照 合格 車輛 並有 投保 一定 金額 乘客 意外險 搭乘 車又有 差別 消費者 不能 選擇 喜歡 搭乘 交通工具 代步 系統 業者 把關 自然 不會 大眾 淘汰 也是 現在 已經 多數 選擇 請 有心 維護 乘客 安全 服務 平臺 順利 好好 經營
109 政府 藉由 面對 挑戰 改善 監管 評價 制度 乘客 也能 獲得 服務 品質
110 政府 單位 時代 科技 進步 新增 修改 法令 規定 而不是 一直 幾十年 制訂 法律 規範 現在 商業 行為 也不 給予 特定 族群 特別 開放 競爭 不適任 改進 自然 淘汰
111 共乘 經濟 理念 很好 預約 性 不像 氾濫 影響 交通 國家 補助 浪費 納稅人 辛勞 多元化 社 會讓 市場 決定 須求 民主 國家 開放 而不是 愚昧 補助 造成 國家 負擔
112 提供 便利 高品質 乘車 環境
113 提供 便利 高品質 乘車 環境
114 提供 便利 高品質 乘車 環境
115 提供 高品質 乘車 環境
116 已受 政府 補貼 油價 現在 公會 仍然 決定 調漲 車費 開放 競爭 市場 決定 需求
117 自用車 載客 登記 每日 下班 兩趟 為限 可達 共乘 效果 並應 加買 保障 乘客 保險
118 搭乘 素質 普遍 比較好 不像 說 幾個 不同 地區 還會 臭臉 迎人 法規 素質 很差 希望 維持現狀
119 個人 應比照 小黃立個 規範 想開 駕駛 都須 通過 交通部 監理 單位 舉辦 行車 認證 考試 考過 便 核發 個人 營業 登記證 保障 乘客 保障 駕駛 基本 權利
120 問題 是否 立法 修法 應 取決於 服務 是否 夠大 影響力 目前 來看 影響 人民 日常 並不 民意 機關 影響 性 夠大 讚 成 修 法 立法
121 很好 叫車 平台 評價 制度 競爭 才有 進步
122 不想 合法 政府 保護 業者 不願 立法 管理
123 一位 客人 行程 都可以 GPS 定位 記錄 發生 事情 時 公司 調閱 行程 記錄 協助 警方 辦案
124 加入 需無 肇事 記錄 良民證 可以加入 一點 個人 警政署 未必 一台 掌握 住 動向 情況 最多 路邊 臨檢 看看 有無 酒駕
125 車輛 部份 愛護 車輛 都會 遵守 違反 交通規則 不會 橫衝直撞 嚇死 乘客
126 乘客 評分 低於 標準 客訴 過多 時 終止 合作 大部份 也是 服務 客人 乘座 舒適 獲得 好評 分
127 搭乘 時 完全 不用 擔心 身上 太多 零錢 找不開 金額 鈔票 放心 身上 不用 帶太多 錢 零錢 乘客 不用 擔心 帶 不夠 錢 三來 不用 擔心 晚上 搶劫 身上 財物
128 比小黃優
129 競爭 才會 進步 政府 不合法 需要 改 討論 相信 做 而不是 一昧 禁止 目前 乘客 肯定 否定 希望 政能 重視 問題 謝謝
130 合法 能讓 乘客 都能 更好 保障 希望 台灣 政府 擬定 法規
131 高 收益 繼續 漲價 實在 有違 市場 分配 法則
132 外縣市 白牌車 坐地 起價 時有所聞 若能 ber 公開 透明 費率 并且 不會 亂 繞路 吸引 更多 乘客 搭乘
133 安全 服務 應該要 更新 管理 營運 方式 而不是 墨守 幾十年 法規
134 搭 ㄧ 件 冒險 事情 車輛 品質 參差不齊 品質 參差不齊
135 Uner 只不過 多餘 時間 賺取 微薄 收入 黃牌 不用 繳交 所得稅 外 補助 上班族 都是 腦袋 有問題 遠 也會 各人 願意 政府 人民 想 只會 反對 職 說話
136 市場 需求 反應 目前 找出 問題 正視 問題 解決 問題
137 出 北中 高 台灣 鄉鎮 市 幾乎 都是 白牌車 搭車 時 總是 坐地 起價 立法 全數 納入 規範
138 繳稅 企業 台灣 經營 義務 新創 模式 再麼 優秀 台灣 所得 應該要 盡到 合法 納稅 義務
139 不喜歡 坐 應該可以 要求 立法 都不能 坐
140 法律 僅須 訂定 保護 乘客 路人 最低 標準 應 交由 市場機制 決定
141 開放 提升 臺灣 基礎 競爭力 重要 一環
142 既有 資格 審查 無法 保證 服務 品質
143 多元化 消費 模式 才是 台灣 人要 學習 平常 半夜 依舊 搭 白天 看到 搶客 硬是 切進 機車 道 時常 機車 駕駛 發生意外 這是 公民 教育 問題 小黃 太 氾濫 搶客 問題 政府 根本 沒在 管理
144 蠻 好的 增進 就業 機會 不到 時
145 至少 乾淨 有禮貌 便宜
146 服務 不應 有利益 打壓 政府 應 更有彈性 開放 增加 競爭 提升 競爭者 互相 服務 品質 增進 產生 消費者 有利益 三方 權益
147 應 修改 自用車 乘客 保險 也能 保障 乘客 權益 統一 投保
148 目前 管理 職業 客車 法規 分享 經濟 不友善 應該要 盡速 修法 比較 環保
149 減少 失業率 兼 做 環保
150 贊成 合法化 消費者 選擇 業者 多一份 良性競爭 動力 兼職 管道 多方面 開放
151 計費 晚上 費用 提高 不能 低價 乘客 無力 持續 造成 車輛 數 減少
152 跟網 拍 共 乘網 資訊 服務 媒合 平臺 交通部 根本 沒資格
153 政府 成立 共 乘網 都是 媒合 平臺 交通部 無關
154 繳的稅 繳給 政府 政府 無須 過多 干預 黃 自由 競爭 消費者 選擇 權利 不安全 保障 搭 黃 大眾 普遍 想法 自然會 市場機制 淘汰 政府 何須 過多 干預
155 小黃 素質 參差不齊 出現 良性 競爭 很多 人改 搭 撇開 費率 問題 小黃該 好好 自我 檢討
156 法律 層面 前提 媒合 效益 比較好 距離 效益 比較好
157 管理 面 承認 虛擬 叫車 公司 管理 較弱
158 安全 面 職業 駕照 自用 相比 筆試 地點 景點 路試 窄 S 行車線 交通 安全 規則
159 駕駛 收入 收入 車資 六成
160 服務佳 素質 便宜 供需 皆益
161 香港 取締 不只是 開罰 逮捕 公司 負責人 台灣 取締 只會 罰 罰款 請 鐵腕 一點 隨意 車輛 人員 都能 載客 犧牲 掉 乘客 人民 安全
162 真正 共乘 精神 應該要 讓司 機能 選擇 地區 乘客 一起 搭乘 共乘 白牌車 營業 賺錢 包裝
163 不就 APP 科技
164 台灣 需要 車隊
165 評分 機制 很好 有效 管理 低分 淘汰 掉 犯 嚴重 錯誤 永久 禁止 合作 相反 犯了錯 依然 可以繼續 上路 消費者 比較 有保障 平台
166 以前 車行 現在 車隊 品牌 車隊 比較 有信心 搭乘 管理 現在 車行 不太 未加入 車隊 比較 胡搞 瞎搞 現在 少 問題 不大 大概 現在 很多 沒人 只用 APP 真的 好嗎
167 避稅 很正常 申報 所得稅 時會 選擇 最低 金額 申報 方式 正常
168 車隊 評分 系統 最大 差別 評分 系統 公開 透明 貫徹執行 分數 低於 4.5 駕駛 一定會 停機 確保 車輛 品質 相反 車隊 評分 系統 完全 黑箱 輸入 方式 不利於 乘客 使用 評分 系統 鑑別 度 可言 完 乘客 無法 得知 車隊 是否 收到 評分
169 不應該 限制 車輛 顏色 外觀 式樣 內裝 車噴成 黃色 難看 圖利 特定 廠商 造成 購車 成本 增加 消費者 失去 新鮮 感
170 標榜 共乘 以共乘 主 而不是 一堆 都是 職業 搞得 黃 做 生意 不受 職業 駕駛 法規 管制
171 台灣 屬於 新興 服務業 目前 法令 不明 情況 業者 均 遊走 法律 邊緣 走 法律 漏洞 灰 暗地 帶 主管 機關 可謂 睜一隻眼 閉一隻眼 長此以往 總 不是辦法 政府 機關 應 盡速 制定 法令 納入 公 權力 管理 監督 範疇 依法 行政 依法 取締 業者 乘客 三方 才有 法律 保障 可言
172 試駕 公司 管理 非常失望 政府 爭取 合法化 保障 爭取 權益 新車 遭 酒醉 乘客 嘔吐 穢物 清理 車身 異味 停業 數日 其後 遭遇 車禍 緊急 直撥 電話 無人 關心 善後 事後 僅 告知 先用 自行 保險 公司 設法 損失慘重 可謂 不聞不問
173 Uberx 清楚 知道 車子 會來
174 Uberx 信用卡 扣款 不用 掏零 找零
175 Uberx 使用 絕對 自願 應於 法規 推向 契約 履行 保護 而不是 限制 契約 自由 已有 法定 記程車 供 有疑慮 選擇
176 駕駛 至少 警察 機關 核可 職業 證明 並無 相同 機制 擔心 安全
177 女兒 推薦 搭 敢 搭 有風險 拍 車子 照片 上傳 放心
178 現有 必須 接 叫車
179 探討 法律 稅務 安全 問題 時 應先 理解 供需 民眾 選擇 簡單 說 機會 成本 選擇 搭乘 搭乘 得到 更多 制定 新 控管 規定 外 還須 提升 本土 產業 競爭力 產業 都是 搭 比較好 問題 都不是 問題 時代 科技 一起 進步 才是 解決 問題 根本
180 容許 鼓勵 存在 刺激 既有 行業 進步 塑造 稍微 有利 既有 行業 法律 環境 嚴格要求 新創 公司 遵守
181 提供 不同 服務 預約 點對點 隨招 隨搭 不用 混為一談
182 鼓勵 租車 買車 經營 平台 純粹 共享 平台 包裝 提供 方案 參與 租車 買車 利於 期 經營 共享 經濟 強大 資本 基礎 特許 產業 競爭 創新 需要 支持 假 創新 之名 產業 政府 也許 應 制定 更高 稅則 標準 維持 產業 價格 基礎 避免 價格競爭 最後 市場機制
183 派 談不上 運用 閒置 資源 共乘
184 大眾 運輸 一種 交通工具 乘客 駕駛 雙方 安全 保障 要有 政府 管理 保障 雙方 機制
185 每個 的確有 選擇 從事 工作 自由 利用 共享 經濟 機制 賺取 收入 一件 合理 事情
186 差異 確保 適當 人來 開車 攸關 乘客 安全
187 不能 素質 不佳 當作 推廣 理由 管理 方式 應該要 重新 思考
188 此案 相關 法律 調整 必須 快點 進行 不能 現在 不多 影響 人民 日常 不大 畢竟 共享 經濟 議題 已經 發展 趨勢
189 表達意見 要有 多次 搭乘 經驗 表達 意見 才會 參考 價值
190 出現 服務 內容 明確 平台 簡潔 交易 程序 精簡 路線 糾紛 減少 並有 評價 機制 穩定 服務 雙方 水平 服務 體現 較好 比例 並不代表 沒有 優質 服務 依循 相同 法規 可確保 涉及 群體 權利 義務 但並 不應 強行 勒令 符合 現行 法規 檢討 時下 未來趨勢 應有 規範 內容
191 公共 運輸 分 招募 一定 比例 車子 偏鄉 作業
192 收入 不高 多數 就業 市場 上會 歧視 成為 重要 收入 來源
# split text every col 
tidy_text_format  <- text_df %>%
  unnest_tokens(output = "word", input = "content",
                token = "regex", pattern = " ")  # 以空白字元作為 token 分隔依據

# n
#計算詞出現的總次數
wd <- tidy_text_format %>% 
  group_by(word) %>% 
  summarise(n = n()) %>% 
  arrange(desc(n))

# plot
tidy_text_format %>%
  count(word) %>%
  mutate(word = reorder(word, n)) %>%   # 依照 n 排序文字
  top_n(40, n) %>%                      # 取 n 排名前 40 者
  ggplot() +
  geom_bar(aes(word, n), stat = "identity", fill="#56B4E9", colour="black") + coord_flip()

# one hot encoding
foo <- strsplit(text_df$content,' ') %>% do.call('rbind', .) %>% data.frame()
text <- cbind(text_df$doc_id, foo)
colnames(text)[1] <- "id"

text <- text %>% melt(., id.var = "id") %>% 
  with(., table(id, value)) %>% rbind() %>% as.data.frame()

for(i in 1:dim(text)[1]){
  for(j in 1:dim(text)[2]){
    if(text[i,j]>1){
      text[i,j] <- 1
    }
  }
}


rm(foo, i, j)

第二階段:機器學習預測分數

使用 LDA 主題模型,將文章的 Comment Matrix 分成六個主題分配。

#votedata NA補0
votedata[is.na(votedata)] <- 0

#lda_dist 6 group
library(text2vec)
text_segged <- word_tokenizer(text_segged)
it = itoken(text_segged, progressbar = FALSE)
v = create_vocabulary(it)
vectorizer = vocab_vectorizer(v)
dtm = create_dtm(it, vectorizer)


lda_model <- LDA(text, k = 6, control = list(seed = 1234))
lda_dist <- posterior(lda_model,dtm)
lda_group <- lda_dist$topics

rm(lda_dist)

#觀察主題關鍵字
lda_topics <- tidy(lda_model, matrix = "beta")
top_words <- lda_topics %>%
  group_by(topic) %>%
  top_n(10, beta) %>%
  ungroup() %>%
  arrange(topic, beta)

透過機器學習將原始立場加入評論資訊進行立場估計。

polis_lda<- cbind(new_comments$score, lda_group[, c(-6)])  %>% as.data.frame()
colnames(polis_lda) <- c("score", paste(1:5))
ctrl <- trainControl(method = "repeatedcv", number = 5, repeats = 3) 

set.seed(2024)
XGB_mod.t <- caret::train(score ~ . ,data = polis_lda, method = "xgbLinear", trControl=ctrl)
XGB_pred.t <- predict(XGB_mod.t, newdata = polis_lda)
XGB_mse<- mean((polis_lda$score - XGB_pred.t)^2)

整理參與者總投票數。

afd <- data.frame(matrix(NA, nrow = 0, ncol = 3))

for (i in 1:ncol(votedata)) {
  col_name <- colnames(votedata)[i]
  table_result <- table(votedata[,..i])
  afd <- rbind(afd, as.data.frame(matrix(as.numeric(table_result), ncol = 3, byrow = TRUE)))
}
colnames(afd) <- c("disagree", "fence", "agree")
afd[afd$agree == 1920, "disagree"] <- 0
afd[afd$agree == 1920, "fence"] <- 1920
afd[afd$fence == 1920, "agree"] <- 1

未分群的 Token 展示了原始 Comment Matrix 太稀疏,沒有辦法擷取有用資訊,以至於視覺化或降為時不太理想。

post_dis <- dist(lda_group) %>% as.matrix()
afd_log <- cbind(afd$disagree,afd$agree) %>% as.data.frame()
colnames(afd_log) <- c("dissagree","agree")

update <- which(rowSums(afd_log) == 1) 
afd_log$agree[update] <- afd_log$agree[update] + 1
afd_log$total <- rowSums(afd_log) %>% log2()


post_dis0 <- dist(text) %>% as.matrix()
set.seed(0)
post_tsne0 <- Rtsne(post_dis0, dims = 2, perplexity = 50, is_distance = TRUE)
ptsne_y0 <- as.data.frame(post_tsne0$Y)
ptsne_y0 <- cbind(ptsne_y0,afd_log$total)
colnames(ptsne_y0) <- c("tsne1","tsne2","size")
plot_ly(data = ptsne_y0,
        x=~tsne1, 
        y=~tsne2,
        type="scatter", mode="markers", 
       marker = list(size = ~size),
        text = paste(new_comments$`comment-id`,new_comments$`comment-body`, sep = "<br>")) %>% 
  layout(showlegend = TRUE, title="<b> Comment Matrix 視覺化(t-SNE 呈現) <b>",
         legend = list(itemsizing='constant', font = list(size = 12)))

進一步將 Comment Matrix 使用 LDA 主題建模將原始的稀疏文字資料轉換成六個主題分配,接著使用 t-SNE 將分群資料轉換成二維空間,能更清晰地觀察分群結果。

color_values <- colorRampPalette(c("#FF0000","#FFFFFF",  "#00FF00"))(100)
topic_color <- c("#4B0082", "#DAA520", "#2E8B57", "#708090","#FF355E","#1E90FF") 
main_topic <- apply(lda_group, 1, which.max) %>% as.factor()

set.seed(0)
post_dis <- dist(lda_group) %>% as.matrix()
post_tsne <- Rtsne(post_dis, dims = 2, perplexity = 50, is_distance = TRUE)
ptsne_y <- as.data.frame(post_tsne$Y)
ptsne_y <- cbind(ptsne_y,afd_log$total)
colnames(ptsne_y) <- c("tsne1","tsne2","size")
plot_ly(
  data = ptsne_y,
  x = ~tsne1, 
  y = ~tsne2,
  color = main_topic,
  size = ~size,
  colors = topic_color,
  text = paste(new_comments$`comment-id`, new_comments$`comment-body`, sep = "<br>")
) %>% 
  layout(
    showlegend = TRUE, 
    title = "<b> Comment Matrix 使用LDA 主題分群(t-SNE 呈現) <b>",
    legend = list(
      itemsizing = 'constant', 
      font = list(size = 12)
    )
  )

第三階段:投票資料處理

進一步計算參與者的立場分數,需要建立兩個關鍵的矩陣。進一步計算參與者的立場分數,需要建立兩個關鍵的矩陣:Comment Matrix 和 XGBoost 預測分數的對角化矩陣。

part <- c()
score_text_sum <- as.data.frame(XGB_pred.t)
#參與者投票加入評論分數
for (i in 1:nrow(votedata)) {
    x <- votedata[i,] * score_text_sum$XGB_pred.t
    part <- rbind(part,x)
}


part_sum <- matrix(0,nrow = dim(part)[1],ncol = 1)

for (i in 1:dim(part)[1]) {
  part_sum[i,] <- sum(part[i,])
}

colnames(part_sum) <- c('score')

#參與者立場
part_color <- part_sum

#篩選總投票數超過20篇者
part_color <- part_color[-which(participants_votes$`n-votes` <= 20),]
part_color <- unlist(part_color)

第四階段:資料視覺化

Participant Matrix 用 PCA 降維,將參與者的特徵維度降至二維。每個點代表一位參與者,其大小表示其投票的總票數(取對數後),點的顏色由參與者的立場分數決定。

text_participant <- participants_votes$participant[-which(participants_votes$`n-votes` <= 20)]

color_values <- colorRampPalette(c("#FF0000","#FF474C","#FFFFFF","lightgreen","green","#2C5E1A"))(200)
set.seed(0)


noscore <- votedata[-which(participants_votes$`n-votes` <= 20),]
part1_pca <- prcomp(noscore)
part1_pca<- as.data.frame(part1_pca$x[, 1:2])
part1_pca <- cbind(part1_pca,size_participant)
colnames(part1_pca) <- c("PC1","PC2","size")
plot_ly(data = part1_pca,
        x = ~PC1, 
        y = ~PC2,
        type = "scatter", mode = "markers", 
        marker = list(
        size = size_participant,  # 使用原始大小
        sizemode = 'diameter',    # 使用直径模式
        sizeref = 20 * max(size_participant) / (20^2)  # 调整 sizeref 缩放大小
        ),
        text = text_participant) %>% 
  layout(showlegend = TRUE, title = "<b> Participant Matrix 視覺化(PCA 呈現) <b>",
         legend = list(itemsizing = 'constant', font = list(size = 12)))
part1_pca$size_participant = size_participant

plot_ly(data = part1_pca,
        x = ~PC1, 
        y = ~PC2,
        color = as.numeric(part_color),
        colors = color_values,
    
        size = ~size_participant,  
        
        text = text_participant) %>% 
  layout(showlegend = TRUE, title = "<b> Participant Matrix 視覺化以立場著色(PCA 呈現) <b>",
         legend = list(itemsizing = 'constant', font = list(size = 12)))

結論

Pol.is 以及 vTaiwan 都是一個相當優秀的議題討論平台。即便是在目前創建階段,這些平台已經展示了將數位平台以及社群媒體技術引入公共議題討論的可行性及其顯著成果。以 UberX 的討論為例,這些平台成功地促進了多元參與者之間的交流,並使公共討論變得更為透明和高效。我們也感謝這許多的投入者在程式開發、系統設計以及線上和實體推動方面所做出的推動與磨合。這無疑是人類在公共事務上自我管理方面的一個重要里程碑。站在這些先驅者的肩膀上,重新檢視和分析了 UberX conversation 討論資料。

以 Pol.is Uber 討論資料為起點,進行了更深入的分析,特別是引入了文字探勘和立場分析的角度。結果顯示,透過將評論立場納入考量,參與者的視覺化效果和分群結果得到了更清晰的整合。在過去的Small et al.(2021)視覺化中,分群僅基於投票行為,並未考慮參與者的真實立場。此外,雖然 Marnette et al.(2023)使用了大型語言模型(LLM)來進行評論分析,但未深入探討參與者分群,且將評論視為唯一主題,導致在解釋實際情況時產生矛盾。本研究的方法解決了參與者分群,引入了新的立場觀點著色,以及評論在主題歸類的精確分析。透過 text mining 和 LDA 模型,更準確地反映了參與者的真實立場,超越了僅依靠投票行為的分析方法。此外,使用 LDA 模型改進了小型文字數據集的視覺化效果,使得評論的主題分佈和立場更加清晰。這展示了將立場預測和分群分析結合的方法,也適用於其他需要精確理解參與者意見的情況,從而為議題共識提供更可靠的數據支持。

然而,此方法也存在一些限制。首先,資料規模的限制是主要挑戰之一。使用的 UberX 資料集較小,相較於大型論壇資料,文字量有限,而在立場的評分上,這可能限制了分析結果的廣泛適用性。其次,由於資料量有限,模型訓練的效果可能不如大型數據集,因此在更大規模資料上的推廣需要進一步研究。最後,評論數量較少使得我們更多依賴人工觀察,未能充分利用自動化分析工具。本研究透過引入文字探勘和立場分析,改進了Small et al. (2021)平台上參與者分群的準確性和視覺化效果,為議題共識提供了更可靠的數據支持。未來可以在更大規模和更多議題中進一步檢驗和應用這一方法。

致謝 本文作者感謝國科會 112-2118-M-259-004 計畫的部分經費支持與協助。

Reference

Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent dirichlet allocation, The Journal of Machine Learning Research, 3, 993–1022.

Chang, L. Y. (2024). Polis Uber. URL https://github.com/Chliying/Polis_Uber.

CompDem (2018). URL https://compdemocracy.org/. Data “openData/vtaiwan.uberx at master · compdemocracy/openData”. GitHub. URL https://github.com/compdemocracy/openData/tree/8429e85deec0eca0185d90957ab10bd1dc6fbb4f/vtaiwan.uberx.

Chen, W.-F. and Ku, L.-W. (2018). “Introduction to CSentiPackage,” Journal of Library and Information Science, volume 44, number 1, pages 24-41.

Horton, C. (2018). “The simple but ingenious system Taiwan uses to crowdsource its laws”. MIT Technology Review. URL https://www.technologyreview.com/2018/08/21/240284/the-simple-but-ingenious-system-taiwan-uses-to-crowdsource-its-laws/.

Keane, J. (2022). The Shortest History of Democracy: 4000 Years of Self-government-A Retelling for Our Times. 民主簡史。翁尚均譯。野人文化/讀書共和國集團。

Marnette, B. and McKenzie, C. (2023). “Talk to the City: an open-source AI tool for scaling deliberation”. AI • Objectives • Institute. URL https://ai.objectives.institute/blog/talk-to-the-city-an-open-source-ai-tool-to-scale-deliberation

Miller, C. (2019). “Taiwan is making democracy work again. It’s time we paid attention”. Wired. URL https://www.wired.com/story/taiwan-democracy-social-media/

Narayanan, D. (2019). “Technology and political will can create better governance”. The Economist. URL https://www.economist.com/open-future/2019/03/22/technology-and-political-will-can-create-better-governance.

Pol.is (2024). URL https://pol.is.

Pol.is New Conversation (2024). URL https://pol.is/4jcwp5ifub; Also report URL https://pol.is/report/r95kmdswhwefh2ywbmrww.

Small, C., Bjorkegren, M., Erkkilä, T., Shaw, L., and Megill, C. (2021). “Polis: Escalar de la deliberación mediante el mapeo de espacios de opinión de alta dimensión,” RECERCA. Revista de Pensament i Anàlisi, 26. URL https://doi.org/10.6035/recerca.5516

Tang, A. (2016). “Uber responds to vTaiwan’s coherent blended volition,” Medium. URL https://blog.pol.is/uber-responds-to-vtaiwans-coherent-blended-volition-3e9b75102b9b.

Tang, A. (2019). “Opinion | A Strong Democracy Is a Digital Democracy,” The New York Times. URL https://www.nytimes.com/2019/10/15/opinion/taiwan-digital-democracy.html.

vTaiwan (2024a). URL https://compdemocracy.org/Case-studies/2014-vTaiwan/

vTaiwan (2024b). URL https://www.vtaiwan.tw/; Also URL https://info.vtaiwan.tw/.