강화학습2 [수정중][David Silver L2] Markov Decision Process 알파고 만드신 데이비드 실버(David Silver)님의 강의 자료를 정리한 내용입니다 웹사이트 :https://www.davidsilver.uk/ 영상 : https://www.youtube.com/watch?v=lfHX2hHRMVQ&t=217s&ab_channel=DeepMind Markov Processes MarkovDecisionProcesses environment가 온전히 관찰 가능할 때 강화학습의 environment를 일컫는다. 현재 state는 process를 완전히 특징짓는다. 대부분의 모든 강화학습 문제는 MDPs 될 수 있다. 최적 컨트롤은 연속적 MDPs 로 처리함 부분 관찰가능한 문제는 MDPs로 전환 가능함 Bandits는 하나의 state인 MDPs 임 MarkovPrope.. 2023. 1. 6. [David Silver L1] Introduction to Reinforcement Learning 알파고 만드신 데이비드 실버(David Silver)님의 강의를 듣고 정리한 내용입니다 웹사이트 :https://www.davidsilver.uk/ 영상 : https://www.youtube.com/watch?v=2pWv7GOvuf0&ab_channel=DeepMind 강화학습(Reinforcement Learning)에는 많은 측면들이 엮여있다. 다른 머신러닝 가지들과 다른점이라면 supervisor가 없고 오직 보상체계만 존재한다. 피드백이 바로 반영되지 않으며, 순차적이다(time matters). Agent의 행동이 다음 보상체계에 영향을 미친다. 보상(reward)과 관련된 기본 용어를 배워보자. Reward ($R_{t}$, 보상) : 숫자로된 피드백 신호. Step $t$ 에서 agent가.. 2023. 1. 5. 이전 1 다음