벨만최적방정식1 [그로킹 심층 강화학습] - ch3. 순간 목표와 장기 목표 간의 균형(벨만 기대 방정식, 벨만 최적 방정식) 에이전트의 목표는 한 에피소드 내에서 얻을 수 있는 모든 감가된 보상의 총합(리턴값)을 최대화 하는 action의 집합을 찾는 것이다. 강화학습의 에이전트는 1.순차적이면서( 단일 행동) , 동시에 2.평가 가능하고( 지도학습), 3.샘플링이 가능한 피드백(데이터가 적음)을 학습한다. 먼저 순차적인 문제를 어떻게 분류하는지 살펴본다. 순차적인 결정 문제는 learning, planning 두 가지로 나눌 수 있다. learning은 MDP가 주어지지 않을 때, 에이전트가 action을 좋고 나쁨을 판단해서 자신의 policy를 개선하는 방법론이다. planning은 MDP가 주어졌을 때, 에이전트가 action에 대한 최적의 policy를 찾는다. 먼저 planning의 예제를 살펴본다. Planning.. 2024. 2. 8. 이전 1 다음