6 Dec 2020
2018年,參選高雄市市長的韓國瑜迅速竄紅。韓當選市長後亦繼續投入2020年的總統選戰,然而敗選,並接著輸掉了台灣史上第一次的直轄市長罷免案。
高雄選民在這三次投票對於韓國瑜的支持度有所消長,其變化值得探討
罷免案開票後,已有不少分析專題報導進行了資料視覺化,但都有可改善之處
針對2018年台灣多個公投案的分析(廖傑恩 et al.,2019)
本研究欲探討高雄市內各個行政區在這三次的投票中,對韓國瑜支持度是否也具有地緣關聯
也欲探討高雄市各行政區人口學指標與三次投票的結果是否有所關聯
市長選舉韓國瑜得票率(市長選舉中,韓得票數/所有候選人總得票數)
總統選舉韓國瑜得票率(總統選舉中,韓得票數/所有候選人總得票數)
罷免案韓國瑜支持度(1 - 同意罷免票數/\(N_{adj}\) )
\(N_{adj}\) = (市長選舉所有候選人總得票數 + 總統選舉所有候選人總得票數 ) / 2
Assumptions:
資料以行政區為單位紀錄
取投票時間前一個月(i.e., 2018/10, 2019/12, 2020/05)或近年度(i.e., 2018, 2019)的資料
納入考慮的人口學變項:性別、年齡、教育程度、人口密度、人口社會增加率、人口自然增加率、家戶密度等
本研究使用R程式語言進行資料管理與資料分析。
資料基本探索:使用基本統計與視覺化方法初步探索資料
資料視覺化:使用sf、leaflet、leafem、mapview等R套件繪製高雄市行政區圖,在行政區圖中填上有深淺差異的顏色來表示這三次投票結果與其變化。
群聚分析(cluster analysis):針對三次投票的結果做群聚分析,看各個行政區在投票行為上是否與地緣有關,如果有關的話,地緣接近的行政區在進行群聚分析後,會被分在同組或接近的組。
正則化迴歸分析(regularized regression):使用正則化迴歸方法找出與三次投票結果有關聯的人口學變項
資料基本探索
研究目的一:以地圖呈現三次投票結果及其變化
研究目的二:群聚分析(投票與地緣結構)
研究目的三:正則化迴歸分析(投票與人口學指標)
Reading layer `TOWN_MOI_1090324' from data source `/Users/jayliao/Documents/NCKU_108_Course/dataM/DataM_project/data/mapdata202003270418/TOWN_MOI_1090324.shp' using driver `ESRI Shapefile' Simple feature collection with 368 features and 7 fields geometry type: MULTIPOLYGON dimension: XY bbox: xmin: 114.3593 ymin: 10.37135 xmax: 124.5611 ymax: 26.38528 CRS: 3824
一種精簡資料的方法,依據樣本之間的共同屬性,將比較相似的樣本聚集在一起,形成集群(cluster)
通常以距離(值的差異)分類,相對距離愈近,相似程度愈高,使群內差異小、群間差異大。
階層式(Hierarchical)群聚分析法中常用的凝聚分層方式(agglomerative method):
38個區在3次投票中對韓支持度
以歐式距離為分類依據,採用華德最小變異法對38個區進行階層式群聚分析
研究目的二發現:各個行政區在投票行為上與地緣有關,某些地緣接近的行政區在進行群聚分析後,會被分在同組或接近的組。
研究目的三:找出與三次投票結果有關聯的人口學變項
真實資料可能難以符合線性迴歸的假設(e.g., 獨變項間不具共線性、殘差分布不服從常態)
可能需要納入模型的獨變項數量大於樣本大小(i.e., \(p > n\)),而納入不具解釋力的獨變項上升,會使 \(R^2\) 上升,卻沒反應模型解釋力
以正規化迴歸(regularized regression)對迴歸係數管控
線性迴歸:\(minimize[SS_E]\) (\(SS_E\): Error sum of squares)
正規化迴歸:\(minimize[SS_E+P]\) (\(P\): 懲罰項(penalty term))
常見的懲罰項有兩種,分別對應到脊(ridge)與套索(lasso)迴歸
脊(Ridge)迴歸:\(minimize[SS_E+\lambda \sum_{j=1}^P \beta_j^2]\),可降低資料雜訊
套索(Lasso)迴歸:\(minimize[SS_E+\lambda \sum_{j=1}^P | \beta_j |]\),可避免不具解釋力的變項被納入(變數挑選)
\(\lambda\)為超參數,人為調整或以交叉驗證法挑選
結合ridge and lasso:Elastic Net
\[minimize[SS_E + (1 - \alpha)\lambda \sum_{j=1}^P \beta_j^2 + \alpha \lambda \sum_{j=1}^P | \beta_j |]\]
在Ridge和Lasso模型中,要調整\(\lambda\),而在Elastic net模型要調 \(\lambda\) 與 \(\alpha\)。
使用glmnet套件實作
| 移出率 | 國中畢業比例 | 碩士畢業比例 | 年齡65-69歲人口比例 |
| 年齡75-79歲人口比例 | 年齡40-44歲人口比例 | 二三年制專科肄業比例 | 高中畢業比例 |
| 人口密度 | 年齡20-24歲人口比例 | 戶數 | 初職畢業比例 |
| 男 | 二三年制專科畢業比例 | 自然增加率 | 五專後二年畢業比例 |
| 大學肄業比例 | 家戶密度 | 年齡25-29歲人口比例 | 年齡100歲以上人口比例 |
| 高職畢業比例 | 年齡15-19歲人口比例 | 年齡70-74歲人口比例 | 年齡95-99歲人口比例 |
交叉驗證(Cross validation):將數據樣本切割成若干(\(k\))個小子集,輪流取一子集作為驗證資料,來評估用剩下(\(k-1\))的子集訓練出來的模型
以韓國瑜在市長選舉中的支持度為依變項
以剛剛挑到的alpha再接著挑lambda
得到納入模型的變項與其迴歸係數(僅部分呈現)
Demography_variable coefficient 16 不識字者 -1.124213e-02 6 年齡65-69歲人口比例 -8.518402e-03 4 年齡35-39歲人口比例 -8.247438e-03 7 二三年制專科畢業比例 -6.319851e-03 5 年齡40-44歲人口比例 -1.925021e-03 12 高職肄業比例 5.486275e-07 15 國小畢業比例 8.740807e-05 3 年齡5-9歲人口比例 7.552299e-03 9 五專後二年肄業比例 1.393808e-02 10 高中畢業比例 1.767494e-02 11 高中肄業比例 1.805445e-02 2 年齡0-4歲人口比例 2.090326e-02 13 五專前三年肄業比例 2.350885e-02 14 國中肄業比例 2.631594e-02 8 二三年制專科肄業比例 8.390708e-02
韓國瑜在2018市長選舉中的支持度與下列人口學變項有關:
韓國瑜在2020總統大選中的支持度與下列人口學變項有關:
韓國瑜在2020市長罷免中的支持度與下列人口學變項有關:
正相關:初職肄業比例、初職畢業比例、二三年制專科肄業比例、國中肄業比例
負相關:年齡100歲以上人口比例、自然增加率、人口增加率(可能與醫療水準有關)
與2018市長選舉相比,韓國瑜在2020的總統大選與市長罷免案中的支持度都大幅下降
與2020的總統大選相比,韓國瑜在市長罷免案中的支持度整體而言下降,但在某些區有上升趨勢
群聚分析顯示某些地緣接近的行政區(特別是在山區),在這三次投票中對韓支持度具有類似的特徵
整體而言,教育程度較低的行政區較支持韓國瑜
人口自然增加較多的行政區在較支持罷免韓國瑜
這些相關的機制的解釋有賴更多後續研究
針對支持度的變化進行群聚分析
針對支持度的變化進行迴歸分析
迴歸分析中,根據文獻或其他參考資料,納入更多有用的獨變項
廖傑恩、尤怡方*、楊紫筑、鄭中平(2019年5月)。2018年台灣公民投票資料分析:人口學及社會學指標與各縣市公投案同意率之關係。「2019台灣應用心理學會與台灣生理與神經回饋學會聯合年會」海報發表論文,高雄醫學大學。
Lay, J. G., Chen, Y. W., & Yap, K. H. (2006). Spatial variation of the DPP’s expansion between Taiwan’s presidential elections. Issues & Studies, 42(4), 1-22
Romesburg, C. (2004). Cluster analysis for researchers. Lulu. com.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
聯合新聞網(2020)。開票數據圖表/同意票93.9萬票!韓國瑜失高雄市長寶座。網址:https://udn.com/news/story/120934/4590594。網頁最後瀏覽日期:2020年6月13日。
天下雜誌(2020)。罷韓 vs. 挺韓 激戰區在哪?。網址:https://web.cw.com.tw/recall-han/。網頁最後瀏覽日期:2020年6月14日。