$$ 일반수식 : 편미분 →\nabla f(x,y) = \left(\cfrac{\partial f}{\partial x},\cfrac{\partial f}{\partial y}\right)
$$
$$ 강화학습 : 편미분 →\nabla _wJ(w) = \left(\cfrac{\partial J(w)}{\partial w_1},...,\cfrac{\partial J(w)}{\partial w_n}\right)
$$
$$ 일반수식 : 경사하강법 → \Delta (x,y) = - \cfrac{1}{2} \propto \nabla f
$$
$$ 강화학습 : 경사하강법 → \Delta w = - \cfrac{1}{2} \propto \nabla_w J(w)
$$
앞에서 살펴본 항해 환경을 배열로 나타내보면 위의 그림과 같다.
탐욕적 알고리즘을 사용해서 정책을 결정할 경우 행동 가치 함수가 가자 큰 행동을 선택(argmax)하는 것이 정책이다.
하지만 ****action value가 실수일 경우 범위가 너무 커서 배열로 표현할 수 없다. 이때 근사 함수가 사용된다. 강화학습에서는 인공신경망을 근사 함수로 사용한다.
이를 수식을 통해 알아보자.
$$ \hat{v}(s,w) \approx v_\pi(s) $$
$$ \hat{q}(s,a,w) \approx q_\pi(s,a) $$
→ 정확한 계산을 하기 위해 가중치($w$)와 편향($b$)을 구해야 함.