1. 마르코프 결정과정(Markov Decision Process)

MRP에 행동(A: Action)과 정책(π: Policy)이 추가된 개념.
MRP가 에피소드나 환경 전체의 가치를 계산하는 것이 목적인 반면, MDP는 환경의 가치를 극대화하는 정책을 결정하는 것이 목적임.

Untitled

MDP에서는 Agent가 취한 행동과 상태 전이 확률의 영향을 동시에 받아 환경의 상태가 바뀌므로 능동적인 의미가 들어가 있음.
MDP에서 Agent는 정책(π)에 따라 행동(A)를 하며 State는 Agent의 행동과 P(상태 전이 확률)에 따라 바뀌게 됨.

Untitled

MDP에서 취할 수 있는 행동의 개수도 State와 마찬가지로 유한함.

Untitled

a1을 선택하면 s2로 이동하고 a2를 선택하면 s3로 이동. 하지만 a1을 선택했다해서 반드시 s2로 이동하지 않음 → 상태 전이 확률의 영향을 받기 때문!
상태 전이 확률 → Agent의 의지와 전혀 상관없는 환경에서 자연적으로 발생하는 확률
정책에 대한 확률과 상태 전이 확률을 각각 곱해서 더해야 함!

*-→ 이 수식과 앞으로 나올 수식은 나중에 보는걸로.. 아직 전 단계를 완벽히 이해하지 못함*

2. MDP 행동 가치 함수

행동 가치 함수(Q: Action Value Function) : 정책을 평가하기 위해 행동에 따른 가치를 평가하는 함수, Q 함수라고 부르기도 함.
Q 함수는 선택할 수 있는 여러 가지 행동 중에 하나를 선택했을 때의 가치를 계산하는 함수임.

→ 상태 전이 매트릭스에서 하나의 행동만을 고려함
현 상태에서 즉시 받을 수 있는 보상과 미래에 받을 수 있는 보상의 합계로 계산할 수 있음.
가치를 기반으로 정책을 평가해서 가치를 최대화하는 Opimal Policy를 찾는 것이 MDP의 목적!

3. MDP 최적 가치 함수

최적 가치 함수는 최적 상태 가치 함수와 최적 행동 가치 함수로 나눌 수 있음.