*-→ 이 수식과 앞으로 나올 수식은 나중에 보는걸로.. 아직 전 단계를 완벽히 이해하지 못함*
행동 가치 함수(Q: Action Value Function) : 정책을 평가하기 위해 행동에 따른 가치를 평가하는 함수, Q 함수라고 부르기도 함.
Q 함수는 선택할 수 있는 여러 가지 행동 중에 하나를 선택했을 때의 가치를 계산하는 함수임.
→ 상태 전이 매트릭스에서 하나의 행동만을 고려함
현 상태에서 즉시 받을 수 있는 보상과 미래에 받을 수 있는 보상의 합계로 계산할 수 있음.
가치를 기반으로 정책을 평가해서 가치를 최대화하는 Opimal Policy를 찾는 것이 MDP의 목적!