[수정중][David Silver L2] Markov Decision Process

알파고 만드신 데이비드 실버(David Silver)님의 강의 자료를 정리한 내용입니다

영상 : https://www.youtube.com/watch?v=lfHX2hHRMVQ&t=217s&ab_channel=DeepMind

Return
- return $G_{t}$ 는 time step $t$ 에서의 총 discount reward
  $G_{t} = R_{t+1} + \gamma R_{t+2} + ... = \sum_{k=0}^{\infty}\gamma^{k}R_{t+k_1}$
  - discount $ \gamma \in [0,1] $ : 미래 보상의 현재 가치
  - K+1 time-steps 이후 받는 보상 R의 가치: $ \gamma^k R$
  - $ \gamma$ 가 0 가까우면 근시적 평가(myopic) , 1에 가까우면 원시적 평가(far-sighted)
- discount 하는 이유:
  - 수리적 편리함
  - 무한반복을 피하기 위해
  - 미래의 불확실성이 다 드러나지 않을 수 있음
  - 금융쪽에서 즉각적인 이자가 delay된 보상보다 클 수 있음
  - 사람은 즉각적인 보상에 선호도를 보임
  - 모든 시퀀스가 terminate 하면 undiscounted Markov Reward Processes ($ \gamma = 1$) 가능 할 수도
Value Function
- state value function ($v(s)$) : state $s$의 장기 value 줌. state s에서 기대 보상.
  $v(s) = \mathbb{E}[G_t|S_t=s] $
- 학생 MRP return 예시:

Bellman Equation
- value function 은 두 부분으로 나눌 수 있다
  - 즉각적인 보상 $R+{t+1}$
  - 후속 state의 discount value $ \gamma v(S+{t+1})$

- 다음과 같이 나타낼 수 있다.
  - $V(s) = \mathbb{E}[R_{t+1}+\gamma v(S_{t+1}) | S_t = s] $
  - $V(s) = \mathcal{R_s} + \gamma \sum_{s' \in S} {\mathcal P_{ss'}v(s')} $
- v가 state별 하나의 entry의 column vector 일 때, $v =\mathcal{R}+ \gamma\mathcal{P}v$

- Bellman equation 는 linear equation
- Computational complexity : $O(n^3)$
- 작은 MRPs 에서는direct solution 사용 가능

큰 MRPs 위한 많은 방법들이 있음
- Dynamic programming (진행했던 연산 값을저장해두었다가재사용)
- 몬테카를로 (랜덤 샘플 학습)
- Temporal-Difference learning (시간차 학습, 위의 두개를 합친것)

여기까지는 모두 다음 내용을 설명하기 위한 부분이었습니다. 같이 배워보시죠.

[David Silver L1] Introduction to Reinforcement Learning (1)	2023.01.05

유자의 레벨업