1. 강화학습이란

적절히 설계된 Reward 체계를 활용해 Agent가 긍정적인 행동을 할 수 있도록 Action을 제어하는 Policy를 찾아내는 최적화 기법

Untitled

목적 → Action의 결과로 받는 모든 Reward를 누적 합산해서 maximize할 수 있는 Policy 찾기

2. 마르코프 속성(Markov Property)

메모리를 가지고 있지 않음 → 과거에 일어났던 일을 모두 무시하고 현재의 상황만을 가지고 미래를 예측 ( cuz 사건 단순화)
변수가 마르코프 속성을 지녔다? → 바로 직전 상황에만 영향 받음.

$$ P[S_{t+1}|S_t=P[S_{t+1}|S_1,...,S_t] $$

3. 마르코프 연쇄(Markov Chain)

3-1. 마르코프 연쇄 개념과 표현 형태

마르코프 속성을 지닌 시스템의 시간에 따른 상태 변화
상태 공간이 이산적 → 마르코프 연쇄 // 연속적 → 마르코프 과정(Markov Process)

Untitled

상태 전이 매트릭스 : 각 상태별 확률을 행렬 형태로 모아놓은 것

Untitled

마르코프 상태에서는 과거의 데이터 고려 X 이므로 앞으로 일어날 일에 대한 조건부 확률만 고려

→ 3일 후 날씨 예측하기 위해서 단순히 행렬 내적만 하면 됨
마르코프 연쇄 시스템을 행렬로 표현할 수 있지만 네트워크 형태로 표현할 수도 있음

→ 해결하고자 하는 문제에 따라 어떤 표현 형태를 사용할지 결정