본문 바로가기
Research/강화학습

[David Silver L1] Introduction to Reinforcement Learning

by 유자유자 2023. 1. 5.

알파고 만드신 데이비드 실버(David Silver)님의 강의를 듣고 정리한 내용입니다

웹사이트 :https://www.davidsilver.uk/

영상 : https://www.youtube.com/watch?v=2pWv7GOvuf0&ab_channel=DeepMind


강화학습(Reinforcement Learning)에는 많은 측면들이 엮여있다. 다른 머신러닝 가지들과 다른점이라면 supervisor가 없고 오직 보상체계만 존재한다. 피드백이 바로 반영되지 않으며, 순차적이다(time matters). Agent의 행동이 다음 보상체계에 영향을 미친다.

 

보상(reward)과 관련된 기본 용어를 배워보자.

  • Reward ($R_{t}$, 보상) : 숫자로된 피드백 신호. Step $t$ 에서 agent가 얼마나 잘 하고 있는지 나타내며, 총 reward를 최대화 하는것이 agent의 역할이다.
  • Goal : 총 미래 보상을 최대화 하도록 action을 선택하는 것.
    보상은 딜레이 될 수 있으며, action은 장기 결과일 수도 있다. 장기 보상을 위해지금 당장의 보상을 희생하는 것이 나을 수도 있다.

 

환경(environment)과 관련된 기본 컨셉을 배워보자.

step $t$ 마다 agent 는

  • action $A_{t}$ 을 실행한다
  • 관찰 $O_{t}$ 을 받는다
  • 보상 $R_{t}$ 을 받는다

step $t$ 마다 environment 는

  • action $A_{t}$ 을 받는다
  • 관찰 $O_{t+1}$ 을 보낸다
  • 보상 $R_{t+1}$ 을 보낸다

environment step에서 $t$가 증가한다.

 

상태(state) 관련된 기본 용어를 배워보자.

  • History: 관찰, action, 보상의 순서(sequence)
    $H_{t} = O_{1}, R_{1},A_{1}, ..., A_{t-1}, O_{t}, R_{t},$
    history에 따라 agent는 action을 선택하고 environment는 관찰과 보상을 선택한다.
  • State: 다음에 무엇이 일어날지 결정하는데 사용하는 정보
    $S_{t} = f(H_{t})$
  • Environment state ($S_{t}^{e}$) : environment가 next operation / reward pick 하는데 사용하는 whatever data. 보통 agent에 안보임. 보인다고 해도 관련없는 정보 담고 있을 지도.
  • Agent state ($S_{t}^{a}$) : agent가 next operation / reward pick 하는데 사용하는 whatever information.
    $S_{t}^{a} = f(H_{t})$
  • Information state (Markov state) : history에서 모든 useful information 담고 있음.
    $ \mathbb{P}[\underbrace{S_{t+1}}_{next state}|\overbrace{S_{t}}^{you're in}] = \mathbb{P}[\underbrace{S_{t+1}}_{next state}|\overbrace{S_{1}, ..., S_{t}}^{all previous state}] $ 일 경우에만 $state S_{t}$는 Markov 다.
    미래는 과거로 부터 독립적이라는 것. just keep your state
    (예:10분 전 바람 방향은 현재 영향 미치지 않음. irrelavent.
  • Full observability : 다이렉트로 environment state를 관찰하는 agent.
    $O_{t} = S_{t}^{a} = S_{t}^{e}$.
    Agent state = environment state=informationstate
    포멀하게 Markov decision process (MDP) 라고한다.
  • Partial observability : 간접적으로 environment state를 관찰하는 agent.
    Now agent state $\neq$ environment state
    포멀하게 partially observable Markov decision process (POMDP) 라고한다.
    (예 : 포커 agent는 public card만 관찰 가능. 다른 사람 손에 있는 카드는 모름.
    agent는 자신만의 state representation $S_{t}^{a}$을 만들어야 한다.
    • 방법 1 : Complete history : $S_{t}^{a} = H_{t}$ (다 외워서 흐름을 봐 just remember everything)
    • 방법 2 : Beliefs of environment state : $S_{t}^{a} = (\mathbb{P}[S_{t}^{e}=S^1],...,\mathbb{P}[S_{t}^{e}=S^n])$(계산하여 probability로 discover)
    • 방법 3 : RNN (Recurrent neural network) : $S_{t}^{a} = \sigma(S_{t-1}^{a}W_{s} +O_{t}W_{o})$ (이전 agent state와 linear combination 활용)

 

Agent에 대해 배워보자

강화학습 Agent는 하나 이상의 다음의 컴포넌트를 가지고 있다.

  • Policy : 어떻게 agent가 pick action 하는가
  • Value function : 각 state / action 이 얼마나 좋았는가
  • Model : agent가 environment가 어떻게 work 하는지 어떻게 생각하는가 (how the agent thinks the envirnment works)
  • Policy : Agent's behavior
    state에서 action으로의 지도 같은거다.
    Deterministic policy (주어진 state에 대해 하나의 action을 줌) : $a=\pi(s)$
    Stochastic policy (주어진 state에 대해 action들의 확률 분포를 줌) : $\pi(a|s) = \mathbb{P}[A_{t}=a|S_{t}=s]$
  • Value Function : 미래 보상 예측
    state의 좋고 나쁨을 평가한다.따라서 action들 중에 선택하려면
    v_{\pi}(s)=\mathbb{E_{\pi}}[R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+...|S_{t}=s]
  • Model : environment가 다음에 뭐할지 예측
    $\mathcal{P}$ 다음 state 예측
    $\mathcal{R}$ 다음 즉각적인 reward 예측
    • $\mathcal{P} = \mathbb{P}[S_{t+1} = s'|S_{t} = s,A_{t}=a]$
    • $\mathcal{R} = \mathbb{E}[R_{t+1}|S_{t} = s,A_{t}=a]$

카테고리화 해보면 다음과 같다.

강화학습의 문제

  • 강화학습은 trial-and-error learning과 같음.envinronment 경험으로부터 너무 많은 보상을 잃지 않으면서agent는 good policy를 찾아야 함
  • Exploration : environment에 대한 정보를 더 찾는 것 (새 음식점 가기
  • Exploitation : 알고있는 정보를 이용하여보상을 최대화 하는 것 (좋아하는 음식점 가기
  • Prediction : 미래 평가 (주어진 policy)
  • Control : 미래 최적화 (최적의 policy 찾기)

 

 

그 외 인상적인 것 :

  • 책추천
    • An Introduction to Reinforcement Learning, Sutton and Barto, 1998 아주 좋은 책이다. 좋은 정보가 많이 담겨있다. 400페이지 정도 된다.
    • Algorithms for Reinforcement Learning, Szepesvari 이것도 좋은 책이다. 약 100페이지이다. 위에 책도 좋지만 너무 두꺼워서 부담되는 사람들에게 이것도 좋다.
  • 활용사례
    • 투자 포트폴리오 관리 (통장 잔고가 보상)
    • 게임 컨트롤 (점수/이기고 지는것이 보상)
    • 휴먼로이드 로봇 동작 (앞으로 감/넘어짐이 보상)
    • 헬리콥터 움직임 (목적 궤도 달성/부서짐이 보상)

'Research > 강화학습' 카테고리의 다른 글

[수정중][David Silver L2] Markov Decision Process  (1) 2023.01.06

댓글