데이비드 실버1 [수정중][David Silver L2] Markov Decision Process 알파고 만드신 데이비드 실버(David Silver)님의 강의 자료를 정리한 내용입니다 웹사이트 :https://www.davidsilver.uk/ 영상 : https://www.youtube.com/watch?v=lfHX2hHRMVQ&t=217s&ab_channel=DeepMind Markov Processes MarkovDecisionProcesses environment가 온전히 관찰 가능할 때 강화학습의 environment를 일컫는다. 현재 state는 process를 완전히 특징짓는다. 대부분의 모든 강화학습 문제는 MDPs 될 수 있다. 최적 컨트롤은 연속적 MDPs 로 처리함 부분 관찰가능한 문제는 MDPs로 전환 가능함 Bandits는 하나의 state인 MDPs 임 MarkovPrope.. 2023. 1. 6. 이전 1 다음