Motivations
Hầu hết các thuật toán học máy đều hướng đến tối ưu một tiêu chuẩn kiểu như ROC-AUC, Recall. Những tiêu chuẩn này có thể chưa phù hợp với mục tiêu mà hầu hết các tổ chức hoạt động vì lợi nhuận theo đuổi là Lợi Nhuận. Câu hỏi ở đây là quá trình tối ưu hóa các tham số (Hyperparameter Optimization) - là một quá trình tốn kém thời gian, công sức và tiền bạc có phù hợp với mục tiêu tối đa hóa lợi nhuận hay không?
Findings
Câu trả lời có thể được nhìn thấy ở Figure 1 dưới đây:

Câu trả lời là rõ ràng: maximum profit của Random Forest sử dụng các tham số tối ưu cao hơn maximum profit của Random Forest mặc định không tinh chỉnh tham số khoảng 82%.
Python Codes
Thực nghiệm để có những kết luận trên được thực hiện bằng Python với bộ dữ liệu GermanCredit.csv (có thể download bộ dữ liệu này tại đây):
# =================================
# Prepare data
# =================================
# Load data and conduct data pre-processing:
import pandas as pd
df_bank = pd.read_csv("C:/Users/ADMIN/Desktop/DataMining/dmba/GermanCredit.csv")
df_bank["RESPONSE"] = df_bank["RESPONSE"].map({1: 0, 0: 1})
# Drop OBS# feature:
my_df_binary = df_bank.drop(["OBS#"], axis=1)
# Define input features and target output:
Y = my_df_binary["RESPONSE"]
X = my_df_binary.drop("RESPONSE", axis=1)
# Prepare data:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=29)
# ==========================================================================
# Search optimal parameters for Random Forest using Bayesian Optimization
# ==========================================================================
# Define objective function:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
cv = RepeatedStratifiedKFold(n_splits=4, n_repeats=3, random_state=29)
def objective_function(params):
clf = RandomForestClassifier(**params, n_jobs=-1, random_state=29)
score = cross_val_score(clf, X_train, y_train, cv=cv, scoring="roc_auc", n_jobs=-1)
loss_value = -1 * score.mean()
return loss_value
# Define space of parameters:
from hyperopt.pyll import scope
from hyperopt import hp
param_hyperopt_rf = {
'max_depth': scope.int(hp.quniform('max_depth', 1, 50, 1)),
'n_estimators': scope.int(hp.quniform('n_estimators', 50, 1000, 100)),
'min_samples_split': scope.int(hp.quniform('min_samples_split', 2, 30, 1)),
'min_samples_leaf': scope.int(hp.quniform('min_samples_leaf', 2, 30, 1))
}
# Search optimal parameters for Random Forest by Bayesian Optimization:
from hyperopt import fmin, tpe, Trials
import numpy as np
tpe = tpe.suggest
tpe_trials = Trials()
rf_bayesian_TPE = fmin(fn=objective_function,
space=param_hyperopt_rf,
algo=tpe,
max_evals=30,
trials=tpe_trials,
rstate=np.random.RandomState(29))
# Extract optimal values and parameter names:
best_param_tpe = [x for x in rf_bayesian_TPE.values()]
param_names = [x for x in rf_bayesian_TPE.keys()]
# Reset Random Forest with optimal parameters:
param_hyperopt_rf['max_depth'] = int(best_param_tpe[0])
param_hyperopt_rf['min_samples_leaf'] = int(best_param_tpe[1])
param_hyperopt_rf['min_samples_split'] = int(best_param_tpe[2])
param_hyperopt_rf['n_estimators'] = int(best_param_tpe[3])
# ================================================================
# Compare profit between default and turned Random Forest
# ================================================================
# Function calculates profit with given cutoff when interest rate of 10%:
def profit_by_cutoff(cutoff, pred_prob):
rate = 0.10
pred_bg = (pred_prob >= cutoff).astype(int)
gg = X_test[(y_test == 0) & (pred_bg == 0)]
bg = X_test[(y_test == 1) & (pred_bg == 0)]
profit = np.sum(rate * gg["AMOUNT"]) - np.sum(bg["AMOUNT"])
return profit
# Function calculates average profit with given cutoff:
def average_pro(cutoff):
n_times = 10
randomSeeds = np.arange(1, n_times + 1, 1)
pro1 = []
pro2 = []
for j in randomSeeds:
# For Default RF:
rf1 = RandomForestClassifier(random_state=j, n_jobs=-1)
rf1.fit(X_train, y_train)
pd1 = rf1.predict_proba(X_test)[:, 1]
profit1 = profit_by_cutoff(cutoff=cutoff, pred_prob=pd1)
pro1.append(profit1)
# For turned RF:
rf2 = RandomForestClassifier(**param_hyperopt_rf, random_state=j, n_jobs=-1)
rf2.fit(X_train, y_train)
pd2 = rf2.predict_proba(X_test)[:, 1]
profit2 = profit_by_cutoff(cutoff=cutoff, pred_prob=pd2)
pro2.append(profit2)
df_result = pd.DataFrame({"AvgProDef": [np.mean(pro1)],
"AvgProTur": [np.mean(pro2)],
"Cutoff": [cutoff]})
return df_result
# Avg profit by range of cutoff:
df_avgPro = pd.DataFrame()
cutoff_range = np.arange(0.01, 0.3, 0.005)
for i in cutoff_range:
df_i = average_pro(cutoff=i)
df_avgPro = df_avgPro.append(df_i)
# Result:
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
plt.figure(figsize=(8, 6))
plt.plot("Cutoff", "AvgProDef", data=df_avgPro, label="Default RF", lw=2)
plt.plot("Cutoff", "AvgProTur", data=df_avgPro, label="Turned RF", lw=2)
plt.title("Figure 1: Profit between Default and Turned RF", fontsize=13)
plt.xlabel("Cutoff")
plt.ylabel("Profit")
plt.yticks(fontsize=12)
plt.xticks(fontsize=12)
plt.legend(fontsize=8)
plt.show()
