Nguyễn Ngọc Bình
5/6/2019
Thiết kế danh sách biến dài là tạo ra 1 list các biến (features) mà có khả năng giải thích cho biến phụ thuộc
Có 2 cách để thiết kế danh sách biến dài
Tiền xử lý dữ liệu (data preprocessing - feature transformation - feature scaling) là kỹ thuật thêm, bớt, chuyển dạng dữ liệu. Đây là kỹ thuật cơ bản nhưng có ảnh hưởng lớn đến khả năng dự báo của mô hình.
Tùy thuộc vào loại mô hình mà có các cách xử lý khác nhau:
Ví dụ:
K-nearest neighbors (KNN) với thước đo khoảng cách Euclide (Euclidean distance) nếu muốn tất cả các tính năng đóng góp như nhau.
Logistic regression, SVM, perceptrons, neural networks.
Linear discriminant analysis, principal component analysis, kernel principal component analysis.
Graphical-model based classifiers, chẳng hạn như Fisher LDA hoặc Naive Bayes, cũng như các cây quyết định (Decision trees) và các phương pháp tập hợp dựa trên cây (Tree-based) như Random Forest là không cần thiết phải sử dụng feature scaling, nhưng có thể có kết quả tốt hơn khi rescale the data.
Feature selection: Là các kỹ thuật lựa chọn tổ hợp biến tốt nhất cho mô hình
Mục đích:
Loại những biến không có thông tin (non-informative predictors) để tăng khả năng tính toán và giảm được độ phức tạp của mô hình. VD: near zero variance, IV thấp …
Loại những biến có thông tin như nhau (những biến tương quan cao)
Theo John et al. 1994, có 2 phân loại chính như sau:
Wrapper method: (suppervised) sử dụng thủ tục thêm hoặc bớt các biến predictors để tìm kết hợp tối ưu sao cho mô hình cuối cùng có khả năng dự báo tốt nhất (maximizes model performance) hay (minimize error)
Filter method: (unsuppervised) đánh giá các biến predictors bên ngoài mô hình dự báo (predictive model) và qua các bước lọc, chỉ những biến thỏa mãn các tiêu chí thì sẽ được chọn
Cả 2 cách tiếp cận đều có ưu, nhược điểm.