앞에서 배운 바에 따르면 변수 $w$를 사용하는 NN을 통해 행동 가치 함수를 근사할 수 있고 GD를 이용해 참 행동 가치 함수와 근사된 행동 가치 함수의 차이값을 최소화하도록 $w$를 업데이트한다.
복습 차원에서 인공 신경망 근사 함수의 목표 함수를 다시 살펴보자.
$$ GOAL(MSE) : J(w)=E_\pi[(q_\pi(S,A) - \hat{q}(S,A,w))^2] $$
$$
TD : \Delta w = \varpropto (R_{t+1} + r\hat{q}(S_{t+1}, A_{t+1}, w)-\hat{q}(S_t, A_t, w))\nabla_w\hat{q}(S_t, A_t,w) $$
$$ Prediction \,Error : ERR = R_{t+1} + r\hat{q}(S_{t+1}, A_{t+1}, w)-\hat{q}(S_t, A_t, w) $$
그럼 DQN의 로직을 살펴보자.
Agent는 실행하기 위해 행동할 정책이 필요한데 Q-Learning에서는 q값이 제일 큰 행동을 선택한다.
q값을 통해 에이전트가 실행되는 순서는 아래와 같다.