feature engineering

Nguyễn Ngọc Bình
5/6/2019

Các bước làm feature engineering

  • Thiết kế danh sách biến dài (feature extractor)
  • Tiền xử lý dữ liệu (data preprocessing - feature transformation)
  • Phân tích đơn biến, phân tích đa biến (feature selection)

Thiết kế danh sách biến dài

Thiết kế danh sách biến dài là tạo ra 1 list các biến (features) mà có khả năng giải thích cho biến phụ thuộc

Có 2 cách để thiết kế danh sách biến dài

  • Theo ý kiến của chuyên gia trong ngành
  • Sử dụng tool: tự động tạo ra các features

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu (data preprocessing - feature transformation - feature scaling) là kỹ thuật thêm, bớt, chuyển dạng dữ liệu. Đây là kỹ thuật cơ bản nhưng có ảnh hưởng lớn đến khả năng dự báo của mô hình.

Một số kỹ thuật tiền xử lý dữ liệu

  • Centering and Scaling
  • Normalization
  • Standardization
  • Chuyển đổi dữ liệu nhằm giảm bớt bất đối xứng (skewness)
  • Chuyển đổi dữ liệu nhằm giải quyết outliers
  • Xử lý giá trị Missing

Tiền xử lý dữ liệu

Tùy thuộc vào loại mô hình mà có các cách xử lý khác nhau:

Ví dụ:

  • K-nearest neighbors (KNN) với thước đo khoảng cách Euclide (Euclidean distance) nếu muốn tất cả các tính năng đóng góp như nhau.

  • Logistic regression, SVM, perceptrons, neural networks.

  • Linear discriminant analysis, principal component analysis, kernel principal component analysis.

Tiền xử lý dữ liệu

Graphical-model based classifiers, chẳng hạn như Fisher LDA hoặc Naive Bayes, cũng như các cây quyết định (Decision trees) và các phương pháp tập hợp dựa trên cây (Tree-based) như Random Forest là không cần thiết phải sử dụng feature scaling, nhưng có thể có kết quả tốt hơn khi rescale the data.

Feature selection

Feature selection: Là các kỹ thuật lựa chọn tổ hợp biến tốt nhất cho mô hình

Mục đích:

  • Loại những biến không có thông tin (non-informative predictors) để tăng khả năng tính toán và giảm được độ phức tạp của mô hình. VD: near zero variance, IV thấp …

  • Loại những biến có thông tin như nhau (những biến tương quan cao)

Các phương pháp feature selection

Theo John et al. 1994, có 2 phân loại chính như sau:

  • Wrapper method: (suppervised) sử dụng thủ tục thêm hoặc bớt các biến predictors để tìm kết hợp tối ưu sao cho mô hình cuối cùng có khả năng dự báo tốt nhất (maximizes model performance) hay (minimize error)

  • Filter method: (unsuppervised) đánh giá các biến predictors bên ngoài mô hình dự báo (predictive model) và qua các bước lọc, chỉ những biến thỏa mãn các tiêu chí thì sẽ được chọn

Ưu nhược điểm của các phương pháp

Cả 2 cách tiếp cận đều có ưu, nhược điểm.

  • Phương pháp Filter
    • Ưu điểm: Sử dụng không tốn nhiều tài nguyên máy tính như Wrapper
    • Nhược điểm: Tiêu chí lựa chọn không liên quan trực tiếp đến hiệu quả của mô hình (model performance). Hầu hết các phương pháp Filter đánh giá các biến predictor một cách riêng rẽ, kết quả là những biến thừa có thể được lựa chọn. Hơn nữa, những tương tác quan trọng giữa các biến không được tính toán.

Ưu nhược điểm của các phương pháp

  • Phương pháp wrapper:
    • Ưu điểm: model performance tốt hơn
    • Nhược điểm: có rất nhiều mô hình phải tính toán (có thể phải parameter tuning), vì vậy làm tốn nhiều tài nguyên máy tính, ngoài ra còn làm tăng nguy cơ over-fitting

Một số kỹ thuật feature selection

  • Filter method:
    • Near zero variance (nzv)
    • Information value (IV)
    • Kolmogorov-Smirnov statistic (thống kê K-S)
    • Hồi quy đơn biến
    • Phân tích tương quan (hệ số tương quan, hệ số VIF, PCA)
    • AUC (hoặc GINI)

Một số kỹ thuật feature selection

  • Wrapper method:
    • Forward, Backward, and Stepwise Selection

Thanks