3-1 在Gini 指標下,整體模型錯誤的度量為\(D(T ) = \sum^{Q}_{q=1}\frac{N_q}{N}D_q(T)\),個別 node 的錯誤率為\(D_q(T) = \sum^{2}_{i=1}\pi_{qi}(1-\pi_{qi})\)。請根據此模型錯誤的度量,來說明第 1 次的 splitting 應該如何建立。

\(T\)\(X_1=0\) 時,\(\pi_{qA}= 4/6, \pi_{qB}=2/6\)

\(GINI(x_1=0)=4/6*2/6+2/6*4/6=0.444\)

\(T\)\(X_1=1\) 時,\(\pi_{qA}= 2/6, \pi_{qB}=4/6\)

\(GINI(x_1=1)=4/6*2/6+2/6*4/6=0.444\)

\(T\)\(X_2=0\) 時,\(\pi_{qA}= 3/7, \pi_{qB}=4/7\)

\(GINI(x_2=0)=3/7*4/7+4/7*3/7=0.49\)

\(T\)\(X_2=1\) 時,\(\pi_{qA}= 3/5, \pi_{qB}=2/5\)

\(GINI(x_2=1)=3/5*2/5+2/5*3/5=0.48\)

由以上結果可以選擇 \(X_1=0\)\(X_1=1\) 當作第一次的分類


3-2 請問第二次與第三次的 splitting 該如何建立呢?

由於第一次切的是 \(X_1=0\) 或 1 的結果因此第二三次為 \(X_2=0\) 或 1 的結果,首先先計算分到 \(X_1=0\) 時的結果

\(T\)\(X_2=0\) 時,\(\pi_{qA}= 1, \pi_{qB}=0\)

\(GINI(X_2=0|x_1=0)=1*0+0*1=0\)

\(T\)\(X_2=1\) 時,\(\pi_{qA}= 1/3, \pi_{qB}=2/3\)

\(GINI(X_2=1|x_1=0)=1/3*2/3+2/3*1/3=0.444\)

再來是分到 \(X_1=1\) 時的情況

\(T\)\(X_2=0\) 時,\(\pi_{qA}= 0, \pi_{qB}=1\)

\(GINI(X_2=0|x_1=1)=0*1+1*0=0\)

\(T\)\(X_2=1\) 時,\(\pi_{qA}= 1, \pi_{qB}=0\)

\(GINI(X_2=0|x_1=1)=1*0+0*1=0\)

因此第 2 次的 splitting 應為 \(X_1=1\) 時的 \(X_2=0\)

而第 3 次 splitting 為 \(X_1=1\) 時的 \(X_2=1\)


3-3 請問這四個terminal nodes 對於 y 的預測分別為何?

四個端點為 \((X_1,X_2)=(0,0), (0,1), (1,0), (1,1)\) 分別代表 \(A, B, A, B\)