본문 바로가기

인공지능/강화학습3

[심층 강화학습] DDPG(Deep Deterministic Policy Gradient) https://www.youtube.com/watch?v=Ukloo2xtayQ&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=26 오승상 교수님의 심층강화학습 강의영상 DDPG을 보고 공부한 내용을 정리하였습니다. DQN에서 discrete action space가 단점인 이유는, 로봇 팔 제어와 같은 환경에서는 continuous action space를 가질 것이다. 이것을 DQN알고리즘에 적용 시키기 위해 discrete action space로 만든다고 가정하자. 로봇의 팔이 0 ~ 180도 회전을 할 때, 0~10도 까지는 step1 ,11 ~ 20도 까지는 step2.. 등 여러개의 구간으로 쪼개서 discrete한 환경을 만들게 된다면 실제 각도는 잃어버리.. 2024. 2. 27.
[그로킹 심층 강화학습] - ch3. 순간 목표와 장기 목표 간의 균형(벨만 기대 방정식, 벨만 최적 방정식) 에이전트의 목표는 한 에피소드 내에서 얻을 수 있는 모든 감가된 보상의 총합(리턴값)을 최대화 하는 action의 집합을 찾는 것이다. 강화학습의 에이전트는 1.순차적이면서( 단일 행동) , 동시에 2.평가 가능하고( 지도학습), 3.샘플링이 가능한 피드백(데이터가 적음)을 학습한다. 먼저 순차적인 문제를 어떻게 분류하는지 살펴본다. 순차적인 결정 문제는 learning, planning 두 가지로 나눌 수 있다. learning은 MDP가 주어지지 않을 때, 에이전트가 action을 좋고 나쁨을 판단해서 자신의 policy를 개선하는 방법론이다. planning은 MDP가 주어졌을 때, 에이전트가 action에 대한 최적의 policy를 찾는다. 먼저 planning의 예제를 살펴본다. Planning.. 2024. 2. 8.
[그로킹 심층 강화학습] - ch1 심층 강화학습의 기초, ch2 강화학습의 수학적 기초 https://www.yes24.com/Product/Goods/103984186 그로킹 심층 강화학습 - 예스24 사람처럼 학습하는 인공지능, 심층 강화학습의 모든 것사람은 시행착오를 통해 학습한다. 아픈 실패를 안겨준 상황을 피하고, 즐거웠던 성공의 경험을 되풀이하려 한다. 심층 강화학습도 마찬 www.yes24.com 위의 책으로 공부를 진행중입니다. 의외에 사용한 자료는 출처 남기도록 하겠습니다! 아래 이미지는 제가 공부하면서 정리한 ppt 입니다. Observation에는 state와 reward가 포함된다. 그림 상에서는 다르게 나오지만 reward 또한 observation으로 볼 수 있다. transition은 agent와 env사이에서 state가 어느정도 변화하는지에 대한 정도이다. p.. 2024. 1. 12.