1. DQN 알고리즘

앞에서 배운 바에 따르면 변수 $w$를 사용하는 NN을 통해 행동 가치 함수를 근사할 수 있고 GD를 이용해 참 행동 가치 함수와 근사된 행동 가치 함수의 차이값을 최소화하도록 $w$를 업데이트한다.

복습 차원에서 인공 신경망 근사 함수의 목표 함수를 다시 살펴보자.

$$ GOAL(MSE) : J(w)=E_\pi[(q_\pi(S,A) - \hat{q}(S,A,w))^2] $$

TD : \Delta w = \varpropto (R_{t+1} + r\hat{q}(S_{t+1}, A_{t+1}, w)-\hat{q}(S_t, A_t, w))\nabla_w\hat{q}(S_t, A_t,w) $$

인공신경망과 참 행동 가치 함수의 차를 최소화하는 방향으로 변수 w값을 수정해 준다.
$R_{t+1} + r\hat{q}(S_{t+1}, A_{t+1}, w)$ → TD에서 참 행동 가치 함수를 행동하면서 얻을 수 있는 행동에 따른 가치 함수
$\hat{q}(S_t, A_t, w)$ → 인공신경망이 표현하고 있는 가치 함수
두 값의 차이가 0이되면 인공신경망에 대한 편미분 값과 상관 없이 인공신경망을 결정하는 최적의 $w$를 구한 것이다.

$$ Prediction \,Error : ERR = R_{t+1} + r\hat{q}(S_{t+1}, A_{t+1}, w)-\hat{q}(S_t, A_t, w) $$

그럼 DQN의 로직을 살펴보자.

Untitled

Agent는 실행하기 위해 행동할 정책이 필요한데 Q-Learning에서는 q값이 제일 큰 행동을 선택한다.

q값을 통해 에이전트가 실행되는 순서는 아래와 같다.