plot(-100,100, xlim=c(-5,5), ylim=c(-5,5), xlab="X1", ylab="X2", main="A")
segments(x0=1, y0=1, x1=10, y1=1, lwd=2, col=2)
\(\text{min}\)는 global minimum value를,
\(\text{argmin}\)는 local minimum value를 찾는 것을 뜻한다.
(예시 1)
(Limit) \(f: A \subset \mathbb{R}^p \rightarrow \mathbb{R}\) 함수에 대해서 다음 조건을 만족하면 \(\displaystyle{\lim_{\mathbf{x} \to \mathbf{a}}}f(\mathbf{x}) = L\) 라고 표현한다. : 임의의 \(\epsilon > 0\)에 대해서 항상 \(\delta > 0\)이 존재해서 \(||\mathbf{x} - \mathbf{a}||<\delta\)를 만족하는 \(\mathbf{x} \in A\)에 대해서 \(||f(\mathbf{x}) - f(\mathbf{a})||<\epsilon\) 가 성립한다.
(Continuous) \(f: A \subset \mathbb{R}^p \rightarrow \mathbb{R}\) 함수에 대해서 다음 조건을 만족하면 \(f\)는 continuous하다고 한다 : 모든 \(\mathbf{a} \in A\)에 대해서 \(\displaystyle{\lim_{\mathbf{x} \to \mathbf{a}}}f(\mathbf{x}) = f(\mathbf{a})\)가 성립한다.
(open) \(A \subset \mathbb{R}^p\)에 대해서 다음 조건이 성립하면 \(A\)는 open이라고 한다 : \(A\)에 포함되는 각 \(\mathbf{x} \in A\)에 대해서, \(\mathbf{x}\)를 중심으로 한 어떠한 open ball이 존재해서 open ball의 모든 point가 \(A\)에 속한다. 다시 말해서 \(||\mathbf{x} - \mathbf{y}|| < r\)이 성립하는 모든 \(\mathbf{y}\)가 \(A\)에 속하게 하는 \(r\)이 존재한다.
(boundary) \(A \subset \mathbb{R}^p\)에 대해서 다음 조건이 성립하면 \(\mathbf{x}\)는 \(A\)의 boundary라고 한다 : \(\mathbf{x}\)를 중심으로 한 모든 open ball에 대해서 항상 일부 point는 \(A\)에 속하고 일부는 \(A\)에 속하지 않는다.
(closed) \(A \subset \mathbb{R}^p\)에 대해서 다음 조건이 성립하면 \(A\)는 closed라고 한다 : \(A\)의 모든 boundary를 \(A\)가 포함한다.
\(f: A \subset \mathbb{R}^p \rightarrow \mathbb{R}\)에 대해서 \(\mathbf{x} \in A\)에서의 \(f\)의 gradient는 다음과 같이 정의된다 \[ \nabla f(\mathbf{x}) = \begin{bmatrix} {\partial f \over \partial x_1} (\mathbf{x}) \\ \vdots \\ {\partial f \over \partial x_p} (\mathbf{x}) \\ \end{bmatrix} \]
개념적으로 \(\nabla f(\mathbf{x})\)는 \(\mathbf{x}\)에서 \(f\)가 가장 급격하게 증가하는 방향과 정도를 가리킨다.
global minimum은 local minimum이다.
(Theorem) \(A \in \mathbb{R}^p\)가 open이고 \(f: A \rightarrow \mathbb{R}\)가 differentiable이라고 하자. 이 때 \(f\)가 \(\mathbf{x}^*\)에서 local minimum을 가진다면, \(\nabla f(\mathbf{x}^*) = \mathbf{0}\)이 성립한다.
(Theorem) \(A \in \mathbb{R}^p\)가 compact이고 \(f: A \rightarrow \mathbb{R}\)가 continuous이면, \(f\)는 \(A\)에서 global minimum과 global maximum을 가진다. (존재성)
Global minimum (혹은 maximum)을 찾는 방법 : compact한 공간 \(A\)에서 정의되는 \(f: A \rightarrow \mathbb{R}\)에 대해서
(예시 3) \[ \text{max}_{x_1^2 + x_2^2 \le 1}{\left[ -(x_1^2 + x_2^2) + 4 \right]} \]
(예시 4) \(f(x_1,x_2) = x_1^2 + 4 x_2^2 - 2x_1^2 x_2 + 4\)의 \(-1 \le x_1 \le 1\) & \(-1 \le x_2 \le 1\)에서의 global minimum과 global maximum을 구하라.
그러나 이러한 방법으로는 \(f\)가 복잡할때는 global minimum을 찾기가 어려워진다.
Convex opitmization은 formal하게 다음과 같은 형태로 정의할 수 있다. : \[\begin{align*} \begin{split} \text{minimize}_{\mathbf{x}} & \quad f(\mathbf{x}) \\ \text{subject to } & \quad g_j(\mathbf{x}) = c_j, \ j=1,\dots , m \\ & \quad h_l(\mathbf{x}) \ge d_j, l=1,\dots ,p \end{split} \end{align*}\]
Convex optimization의 가장 큰 특징은 local minimum이 global minimum과 동일하다는 것이다.
또한 local minimum은 iterative한 방법들로 비교적 쉽고 빠르게 계산이 가능하다.
따라서 Convex optimization의 경우 local minimum을 찾는 iterative한 방법을 사용하여 쉽고 빠르게 최적화 문제를 풀 수 있다.
그러나 convex optimization이 아닌 경우, 즉 non-convex optimization은 local minimum과 global minimum이 다르기 때문에 local minimum을 찾는 방법을 적용할 수 없다.
Newton’s method (혹은 Newton-Raphson method)는 기본적으로 root-finding algorithm에 속한다.
이를 local minimum을 찾는 문제로 바꾸어서 특히 통계학에서 많이 활용한다.
Newton’s method는 다음과 같이 진행된다 :
2처럼 update를 하는 논리는 다음 그림과 같다.
data에 missing이 있을 때 이에 대해서 maximum likelihood estimation을 하는 방법으로 EM algorithm이 있다.
대표적으로 mixture model에 많이 사용된다. : \[f(x|\theta) = \sum_{k=1}^{K}{\pi_k f_k(x|\theta)}\]
이 때 \(z\)는 관측이 되지 않은 missing 값이기 때문에 EM algorithm을 통해 풀게 된다 :
EM algorithm은 local maximum을 찾는 알고리즘이기 때문에 intial value에 따라 다른 값으로 수렴할 수 있기 때문에 주의해야한다.