| 📍 Baseline路徑 |
| Step 01 |
資料盤點與EDA |
確認欄位、型別、缺值與分佈 |
20欄位盤點 + 描述統計 + 標註敏感欄位 |
資料品質優良,無缺值異常 |
| Step 02 |
Baseline k-means |
探索資料自然分群型態 |
標準化 + One-Hot + SVD(50) + k=2~5測試 |
年資分層(2年 vs 7年),非人才型態 |
| Step 03 |
穩定度驗證 |
驗證baseline分群穩定性 |
Seed穩定度 + Bootstrap + ARI/NMI |
ARI≈1,但只反映離職vs未離職 |
| Step 04 |
非白名單模型 |
使用完整特徵預測績效 |
RandomForest + ElasticNet (完整特徵) |
R²≈1 過擬合,僅靠薪資+部門 |
| Step 05 |
初步公平性檢核 |
檢查模型族群公平性 |
Outcome比較 + Error parity + TPR/FPR |
誤差趨零,公平性指標失效 |
| 🌟 白名單路徑 (最終方案) |
| Step 06 |
白名單重分群 |
排除結果性/制度性欄位 |
移除Resigned/Promotions + 保留行為特徵 |
切成高薪高績效 vs 低薪低績效 |
| Step 07 |
穩定度驗證 |
確認白名單分群可靠性 |
Random state + Bootstrap交叉驗證 |
ARI/NMI=1.0,型態穩定可靠 |
| Step 08 |
白名單模型 |
用可介入特徵預測績效 |
白名單特徵 + SVD(100) + RF模型 |
R²=0.989,仍依賴薪資+職稱 |
| Step 09 |
公平性健檢 |
完整公平性與敏感度分析 |
代表性 + 80% rule + 門檻敏感度(q60/75/90) |
q75符合80%規則,q90性別惡化 |