데이비드실버1 [David Silver L1] Introduction to Reinforcement Learning 알파고 만드신 데이비드 실버(David Silver)님의 강의를 듣고 정리한 내용입니다 웹사이트 :https://www.davidsilver.uk/ 영상 : https://www.youtube.com/watch?v=2pWv7GOvuf0&ab_channel=DeepMind 강화학습(Reinforcement Learning)에는 많은 측면들이 엮여있다. 다른 머신러닝 가지들과 다른점이라면 supervisor가 없고 오직 보상체계만 존재한다. 피드백이 바로 반영되지 않으며, 순차적이다(time matters). Agent의 행동이 다음 보상체계에 영향을 미친다. 보상(reward)과 관련된 기본 용어를 배워보자. Reward ($R_{t}$, 보상) : 숫자로된 피드백 신호. Step $t$ 에서 agent가.. 2023. 1. 5. 이전 1 다음