6 Dec 2020

Outline

1. 研究動機與目的

2. 研究資料與方法

3. 研究結果

4. 結論與未來展望


研究動機

  • 2018年,參選高雄市市長的韓國瑜迅速竄紅。韓當選市長後亦繼續投入2020年的總統選戰,然而敗選,並接著輸掉了台灣史上第一次的直轄市長罷免案。

  • 高雄選民在這三次投票對於韓國瑜的支持度有所消長,其變化值得探討

  • 罷免案開票後,已有不少分析專題報導進行了資料視覺化,但都有可改善之處

研究動機

  • 針對2018年台灣多個公投案的分析(廖傑恩 et al.,2019)

    • 地緣接近或可能有類似人口學特徵的縣市,在公投投票行為上有類似的結構(e.g., 花蓮縣與台東縣在各個公投案的同意率接近)
  • 本研究欲探討高雄市內各個行政區在這三次的投票中,對韓國瑜支持度是否也具有地緣關聯

  • 也欲探討高雄市各行政區人口學指標與三次投票的結果是否有所關聯

研究目的

1. 以資料視覺化呈現高雄市各行政區三次投票的結果,特別是要呈現出變化

2. 探討地緣接近的高雄市行政區在三次投票中是否有類似的結果

3. 探討高雄市各行政區人口學指標與三次選舉結果之關聯

資料集與變項 (1/3)

  • 台灣鄉鎮市區地圖資料(僅使用高雄市資料)

  • 中選會2018年直轄市長選舉案各行政區投票結果(僅使用高雄市資料)

  • 中選會2020年中華民國總統選舉案各行政區投票結果(僅使用高雄市資料)

  • 中選會2020年高雄市長罷免案各行政區投票結果

  • 高雄市各行政區人口學指標

    • 高雄市政府民政局-本市各區里戶口數月統計
    • 高雄市政府民政局-高雄市年終靜態人口統計報表
    • 高雄市政府住宅生活網-密度分佈統計表

資料集與變項 (2/3)

依變項

  1. 市長選舉韓國瑜得票率(市長選舉中,韓得票數/所有候選人總得票數)

  2. 總統選舉韓國瑜得票率(總統選舉中,韓得票數/所有候選人總得票數)

  3. 罷免案韓國瑜支持度(1 - 同意罷免票數/\(N_{adj}\) )

    • \(N_{adj}\) = (市長選舉所有候選人總得票數 + 總統選舉所有候選人總得票數 ) / 2

    • Assumptions:

      1. 在這三次投票中,具有支持/不支持韓國瑜意志的選民數量接近
      2. 前兩次選舉中,沒出來投票的選民被視為沒有支持/不支持韓國瑜意志
      3. 前兩次選舉有去投,但沒去投罷免案的選民,視為支持韓國瑜

資料集與變項 (3/3)

獨變項

  • 資料以行政區為單位紀錄

  • 取投票時間前一個月(i.e., 2018/10, 2019/12, 2020/05)或近年度(i.e., 2018, 2019)的資料

  • 納入考慮的人口學變項:性別、年齡、教育程度、人口密度、人口社會增加率、人口自然增加率、家戶密度等

研究方法

本研究使用R程式語言進行資料管理與資料分析。

  1. 資料基本探索:使用基本統計與視覺化方法初步探索資料

  2. 資料視覺化:使用sfleafletleafemmapview等R套件繪製高雄市行政區圖,在行政區圖中填上有深淺差異的顏色來表示這三次投票結果與其變化。

  3. 群聚分析(cluster analysis):針對三次投票的結果做群聚分析,看各個行政區在投票行為上是否與地緣有關,如果有關的話,地緣接近的行政區在進行群聚分析後,會被分在同組或接近的組。

  4. 正則化迴歸分析(regularized regression):使用正則化迴歸方法找出與三次投票結果有關聯的人口學變項

    • 納入的獨變項數量多於資料筆數(i.e., 60 vs 38),使用脊與套索迴歸(ridge and lasso regression)。

研究結果

  • 資料基本探索

  • 研究目的一:以地圖呈現三次投票結果及其變化

  • 研究目的二:群聚分析(投票與地緣結構)

  • 研究目的三:正則化迴歸分析(投票與人口學指標)















Reading layer `TOWN_MOI_1090324' from data source `/Users/jayliao/Documents/NCKU_108_Course/dataM/DataM_project/data/mapdata202003270418/TOWN_MOI_1090324.shp' using driver `ESRI Shapefile'
Simple feature collection with 368 features and 7 fields
geometry type:  MULTIPOLYGON
dimension:      XY
bbox:           xmin: 114.3593 ymin: 10.37135 xmax: 124.5611 ymax: 26.38528
CRS:            3824

以地圖呈現三次投票結果(市長選舉)

以地圖呈現三次投票結果(總統選舉)

以地圖呈現三次投票結果(市長罷免)

2018市長選舉與2020總統選舉韓國瑜支持度變化

  • 韓支持度 = 韓得票 / 所有候選人得票總數(有效票總數)

2018市長選舉與2020市長罷免韓國瑜支持度變化

2020總統選舉與2020市長罷免韓國瑜支持度變化

研究目的二的分析方法:群聚分析

  • 一種精簡資料的方法,依據樣本之間的共同屬性,將比較相似的樣本聚集在一起,形成集群(cluster)

  • 通常以距離(值的差異)分類,相對距離愈近,相似程度愈高,使群內差異小、群間差異大。

  • 階層式(Hierarchical)群聚分析法中常用的凝聚分層方式(agglomerative method):

群聚分析分組結果示意圖

  • 38個區在3次投票中對韓支持度

  • 以歐式距離為分類依據,採用華德最小變異法對38個區進行階層式群聚分析

群聚分析分組地圖

投票行為上與地緣有關

  • 研究目的二發現:各個行政區在投票行為上與地緣有關,某些地緣接近的行政區在進行群聚分析後,會被分在同組或接近的組。

  • 研究目的三:找出與三次投票結果有關聯的人口學變項

針對研究目的三的分析方法:正則化迴歸分析

  • 真實資料可能難以符合線性迴歸的假設(e.g., 獨變項間不具共線性、殘差分布不服從常態)

  • 可能需要納入模型的獨變項數量大於樣本大小(i.e., \(p > n\)),而納入不具解釋力的獨變項上升,會使 \(R^2\) 上升,卻沒反應模型解釋力

  • 以正規化迴歸(regularized regression)對迴歸係數管控

    • 線性迴歸:\(minimize[SS_E]\) (\(SS_E\): Error sum of squares)

    • 正規化迴歸:\(minimize[SS_E+P]\) (\(P\): 懲罰項(penalty term))

  • 常見的懲罰項有兩種,分別對應到脊(ridge)與套索(lasso)迴歸

針對研究目的三的分析方法:脊與套索迴歸

  • 脊(Ridge)迴歸:\(minimize[SS_E+\lambda \sum_{j=1}^P \beta_j^2]\),可降低資料雜訊

  • 套索(Lasso)迴歸:\(minimize[SS_E+\lambda \sum_{j=1}^P | \beta_j |]\),可避免不具解釋力的變項被納入(變數挑選)

  • \(\lambda\)為超參數,人為調整或以交叉驗證法挑選

  • 結合ridge and lasso:Elastic Net

\[minimize[SS_E + (1 - \alpha)\lambda \sum_{j=1}^P \beta_j^2 + \alpha \lambda \sum_{j=1}^P | \beta_j |]\]

  • 在Ridge和Lasso模型中,要調整\(\lambda\),而在Elastic net模型要調 \(\lambda\) 與 \(\alpha\)。

  • 使用glmnet套件實作

獨變項:人口學變項

移出率 國中畢業比例 碩士畢業比例 年齡65-69歲人口比例
年齡75-79歲人口比例 年齡40-44歲人口比例 二三年制專科肄業比例 高中畢業比例
人口密度 年齡20-24歲人口比例 戶數 初職畢業比例
二三年制專科畢業比例 自然增加率 五專後二年畢業比例
大學肄業比例 家戶密度 年齡25-29歲人口比例 年齡100歲以上人口比例
高職畢業比例 年齡15-19歲人口比例 年齡70-74歲人口比例 年齡95-99歲人口比例

Elastic Net迴歸分析(以交叉驗證挑alpha)

  • 交叉驗證(Cross validation):將數據樣本切割成若干(\(k\))個小子集,輪流取一子集作為驗證資料,來評估用剩下(\(k-1\))的子集訓練出來的模型

  • 以韓國瑜在市長選舉中的支持度為依變項

Elastic Net迴歸分析(以交叉驗證挑lambda)

  • 以剛剛挑到的alpha再接著挑lambda

  • 得到納入模型的變項與其迴歸係數(僅部分呈現)

    Demography_variable   coefficient
16             不識字者 -1.124213e-02
6   年齡65-69歲人口比例 -8.518402e-03
4   年齡35-39歲人口比例 -8.247438e-03
7  二三年制專科畢業比例 -6.319851e-03
5   年齡40-44歲人口比例 -1.925021e-03
12         高職肄業比例  5.486275e-07
15         國小畢業比例  8.740807e-05
3     年齡5-9歲人口比例  7.552299e-03
9    五專後二年肄業比例  1.393808e-02
10         高中畢業比例  1.767494e-02
11         高中肄業比例  1.805445e-02
2     年齡0-4歲人口比例  2.090326e-02
13   五專前三年肄業比例  2.350885e-02
14         國中肄業比例  2.631594e-02
8  二三年制專科肄業比例  8.390708e-02

以韓國瑜在市長選舉中的支持度為依變項

以韓國瑜在總統選舉中的支持度為依變項

以韓國瑜在市長罷免中的支持度為依變項

研究目的三的分析結果

  • 韓國瑜在2018市長選舉中的支持度與下列人口學變項有關:

    • 正相關:二三年制專科肄業比例、國中肄業比例、高中肄業比例
  • 韓國瑜在2020總統大選中的支持度與下列人口學變項有關:

    • 正相關:初職肄業比例、初職畢業比例、二三年制專科肄業比例、國中肄業比例
  • 韓國瑜在2020市長罷免中的支持度與下列人口學變項有關:

    • 正相關:初職肄業比例、初職畢業比例、二三年制專科肄業比例、國中肄業比例

    • 負相關:年齡100歲以上人口比例、自然增加率、人口增加率(可能與醫療水準有關)

結論

  • 與2018市長選舉相比,韓國瑜在2020的總統大選與市長罷免案中的支持度都大幅下降

  • 與2020的總統大選相比,韓國瑜在市長罷免案中的支持度整體而言下降,但在某些區有上升趨勢

  • 群聚分析顯示某些地緣接近的行政區(特別是在山區),在這三次投票中對韓支持度具有類似的特徵

  • 整體而言,教育程度較低的行政區較支持韓國瑜

  • 人口自然增加較多的行政區在較支持罷免韓國瑜

  • 這些相關的機制的解釋有賴更多後續研究

未來展望

  • 針對支持度的變化進行群聚分析

  • 針對支持度的變化進行迴歸分析

  • 迴歸分析中,根據文獻或其他參考資料,納入更多有用的獨變項

參考資料

  1. 廖傑恩、尤怡方*、楊紫筑、鄭中平(2019年5月)。2018年台灣公民投票資料分析:人口學及社會學指標與各縣市公投案同意率之關係。「2019台灣應用心理學會與台灣生理與神經回饋學會聯合年會」海報發表論文,高雄醫學大學。

  2. Lay, J. G., Chen, Y. W., & Yap, K. H. (2006). Spatial variation of the DPP’s expansion between Taiwan’s presidential elections. Issues & Studies, 42(4), 1-22

  3. Romesburg, C. (2004). Cluster analysis for researchers. Lulu. com.

  4. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.

  5. 聯合新聞網(2020)。開票數據圖表/同意票93.9萬票!韓國瑜失高雄市長寶座。網址:https://udn.com/news/story/120934/4590594。網頁最後瀏覽日期:2020年6月13日。

  6. 天下雜誌(2020)。罷韓 vs. 挺韓 激戰區在哪?。網址:https://web.cw.com.tw/recall-han/。網頁最後瀏覽日期:2020年6月14日。

感謝聆聽!

Any question or comment?



  • 廖傑恩 | re6094028@gs.ncku.edu.tw | 國立成功大學數據科學研究所
  • 李唐榮 | u38081046@gs.ncku.edu.tw | 國立成功大學教育研究所
  • 許清芳 | csheu@ncku.edu.tw | 國立成功大學教育研究所