본문 바로가기

Ornstein-Unlenbeck process1

[심층 강화학습] DDPG(Deep Deterministic Policy Gradient) https://www.youtube.com/watch?v=Ukloo2xtayQ&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=26 오승상 교수님의 심층강화학습 강의영상 DDPG을 보고 공부한 내용을 정리하였습니다. DQN에서 discrete action space가 단점인 이유는, 로봇 팔 제어와 같은 환경에서는 continuous action space를 가질 것이다. 이것을 DQN알고리즘에 적용 시키기 위해 discrete action space로 만든다고 가정하자. 로봇의 팔이 0 ~ 180도 회전을 할 때, 0~10도 까지는 step1 ,11 ~ 20도 까지는 step2.. 등 여러개의 구간으로 쪼개서 discrete한 환경을 만들게 된다면 실제 각도는 잃어버리.. 2024. 2. 27.

이전 1 다음

티스토리툴바