HR 分析九步驟研究流程
從資料探索到公平性治理的完整迴圈
步驟 名稱 目的 方法 核心發現
📍 Baseline路徑
Step 01 資料盤點與EDA 確認欄位、型別、缺值與分佈 20欄位盤點 + 描述統計 + 標註敏感欄位 資料品質優良,無缺值異常
Step 02 Baseline k-means 探索資料自然分群型態 標準化 + One-Hot + SVD(50) + k=2~5測試 年資分層(2年 vs 7年),非人才型態
Step 03 穩定度驗證 驗證baseline分群穩定性 Seed穩定度 + Bootstrap + ARI/NMI ARI≈1,但只反映離職vs未離職
Step 04 非白名單模型 使用完整特徵預測績效 RandomForest + ElasticNet (完整特徵) R²≈1 過擬合,僅靠薪資+部門
Step 05 初步公平性檢核 檢查模型族群公平性 Outcome比較 + Error parity + TPR/FPR 誤差趨零,公平性指標失效
🌟 白名單路徑 (最終方案)
Step 06 白名單重分群 排除結果性/制度性欄位 移除Resigned/Promotions + 保留行為特徵 切成高薪高績效 vs 低薪低績效
Step 07 穩定度驗證 確認白名單分群可靠性 Random state + Bootstrap交叉驗證 ARI/NMI=1.0,型態穩定可靠
Step 08 白名單模型 用可介入特徵預測績效 白名單特徵 + SVD(100) + RF模型 R²=0.989,仍依賴薪資+職稱
Step 09 公平性健檢 完整公平性與敏感度分析 代表性 + 80% rule + 門檻敏感度(q60/75/90) q75符合80%規則,q90性別惡化
核心轉折: Step 05 發現問題後,採用白名單策略重新分群與建模
關鍵發現: 即使白名單設定,模型仍主要依賴薪資與職稱結構