이 내용은 책 Mathematics for machine learning(Marc Peter Deisenroth et al.)을 기반으로 하고 있습니다.
이전까지는 그래디언트, 즉 일차 미분만을 다뤘다. 이번 장에서는 이차 이상, 즉 고차 미분을 다룬다. (‘고차’와 ‘다변수’를 구별할 것!) 7장에서 보겠지만, 최적화에 사용되는 Newton’s method(뉴턴법)에서는 이차 미분을 사용한다.
앞으로 사용할 몇 가지 표기법(notation)을 보자. 두 변수 $x, y$의 함수 $f: \mathbb{R}^2 \rightarrow \mathbb{R}$에 대하여
함수 $f(x, y)$ 가 두번 미분이 가능한 함수라면, $\cfrac{\partial ^2 f}{\partial y \partial x} = \cfrac{\partial ^2 f}{\partial x \partial y}$ , 즉 미분의 순서를 바꿔도 결괏값은 동일하다.
헤시안 $\triangledown_{x, y}^2 f(x, y)$ 은 이차 편미분 결과를 모은 것이다. $\boldsymbol{x} \in \mathbb{R}^n$ 과 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 에 대해 헤시안은 $n \time n$ 행렬의 형태를 갖는다.
덧붙여, 벡터장 $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ 에 대해 헤시안은 $m \times n \times n$ 형태의 텐서이다. 헤시안은 $(x, y)$ 근처에서 함수의 곡률(curvature)을 나타낸다.
헤시안 행렬(Hessian matrix)는 아래와 같다. $\cfrac{\partial ^2 f}{\partial y \partial x} = \cfrac{\partial ^2 f}{\partial x \partial y}$ 이므로 헤시안 행렬은 대칭행렬(symmetric mat)이다.
\[\boldsymbol{H} = \begin{bmatrix} \cfrac{\partial ^2 f}{\partial x^2} & \cfrac{\partial ^2 f}{\partial y \partial x} \\ \cfrac{\partial ^2 f}{\partial x \partial y} & \cfrac{\partial ^2 f}{\partial y^2} \end{bmatrix}\]
영화 <아이언맨>을 보고 무턱대고 공대에 진학, 이제는 기술로 세상을 안전하게 만들고자 합니다.
자율주행 개발에서 시작해, 지금은 컴퓨터 비전과 딥러닝을 공부하고 있습니다.
뭐든지 차근차근, 설령 느리더라도 멈춤은 없이 가고 싶습니다.