由 \(L[y,f(x)]=exp[-yf(x)]\) 推得
\(\sum^{N}_{n=1}L[y_n,\hat{f}_{m-1}(x_n)+\beta G(x)]=\sum^{N}_{n=1}exp[-y_n(\hat{f}_{m-1}(x_n)+\beta G(x))]\)
\(=\sum^{N}_{n=1}exp[-y_n\hat{f}_{m-1}(x_n)-y_n\beta G(x)]=\sum^{N}_{n=1}exp[-y_n\hat{f}_{m-1}(x_n)]exp[-y_n\beta G(x)]\)
得到 \(w_n^{(m-1)}=exp[-y_n\hat{f}_{m-1}(x_n)]\)
由題目描述得知 \(\hat{G}^{(m)}(x)\) 會等於 1 或 -1,同理 \(y_n\) 的值也會等於 1 或 -1,因此可以透過以下 4 種情況來討論
\(exp[-y_n\beta G(x)] = exp(-\beta)\) 由 exponential 的圖形可得知當 \(\beta\) 夠大時會收斂到 0
\(1\{y_n\neq G(x)\}=0\),可得到兩者結果一樣
\(exp[-y_n\beta G(x)] = exp(\beta)\) 由 exponential 的圖形可得知當 \(\beta\) 夠大時會發散到無窮大
\(1\{y_n\neq G(x)\}=1\),而第二式則等於 1
\(exp[-y_n\beta G(x)] = exp(\beta)\) 由 exponential 的圖形可得知當 \(\beta\) 夠大時會發散到無窮大
\(1\{y_n\neq G(x)\}=1\),而第二式則等於 1
\(exp[-y_n\beta G(x)] = exp(-\beta)\) 由 exponential 的圖形可得知當 \(\beta\) 夠大時會收斂到 0
\(1\{y_n\neq G(x)\}=0\),可得到兩者結果一樣
由以上四種情況得知兩個 minimizer 都適合拿來使用(可以分別 G(x) 及 yn 是否相同)