본문 바로가기

강화학습2

[심층 강화학습] DDPG(Deep Deterministic Policy Gradient) https://www.youtube.com/watch?v=Ukloo2xtayQ&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=26 오승상 교수님의 심층강화학습 강의영상 DDPG을 보고 공부한 내용을 정리하였습니다. DQN에서 discrete action space가 단점인 이유는, 로봇 팔 제어와 같은 환경에서는 continuous action space를 가질 것이다. 이것을 DQN알고리즘에 적용 시키기 위해 discrete action space로 만든다고 가정하자. 로봇의 팔이 0 ~ 180도 회전을 할 때, 0~10도 까지는 step1 ,11 ~ 20도 까지는 step2.. 등 여러개의 구간으로 쪼개서 discrete한 환경을 만들게 된다면 실제 각도는 잃어버리.. 2024. 2. 27.
[그로킹 심층 강화학습] - ch3. 순간 목표와 장기 목표 간의 균형(벨만 기대 방정식, 벨만 최적 방정식) 에이전트의 목표는 한 에피소드 내에서 얻을 수 있는 모든 감가된 보상의 총합(리턴값)을 최대화 하는 action의 집합을 찾는 것이다. 강화학습의 에이전트는 1.순차적이면서( 단일 행동) , 동시에 2.평가 가능하고( 지도학습), 3.샘플링이 가능한 피드백(데이터가 적음)을 학습한다. 먼저 순차적인 문제를 어떻게 분류하는지 살펴본다. 순차적인 결정 문제는 learning, planning 두 가지로 나눌 수 있다. learning은 MDP가 주어지지 않을 때, 에이전트가 action을 좋고 나쁨을 판단해서 자신의 policy를 개선하는 방법론이다. planning은 MDP가 주어졌을 때, 에이전트가 action에 대한 최적의 policy를 찾는다. 먼저 planning의 예제를 살펴본다. Planning.. 2024. 2. 8.