날개변형 정보기반 강화학습 제어 모식도 및 결과 - 오마이뉴스 모바일

날개변형 정보기반 강화학습 제어 모식도 및 결과

3 / 4

날개변형 정보기반 강화학습 제어 모식도 및 결과

별도의 외부 풍동이 없는 환경에서 특정 경로로 비행하도록 학습하는 실험의 모식도 (상단). 드론이 실제로 비행하는 환경(Envrionment)에서는 모션캡쳐 카메라를 이용해 비행경로에 따라 에이전트(Agent)에게 적절한 보상(Reward)을 지급한다. 경로에 따른 날개변형 신호는 상태(State) 정보로 에이전트에게 주어지고, 에이전트는 주어진 상태로부터 더 많은 보상을 받을 수 있는 방향으로 행동(Action) 하도록 학습된다 (우상단). 학습결과, 날개변형 정보에 기반한 지그재그 경로 제어에 성공했다 (좌하단). 뿐만 아니라, 날개변형 정보로부터 실제 비행경로를 예측하도록 학습한 결과, 실제 비행경로와 유사한 경향으로 예측하는데 성공했다 (우하단). ⓒ한국연구재단 제공 2024.09.20

날개변형 정보기반 강화학습 제어 모식도 및 결과