작성 날짜: 2021.03.05
작성자: Natasha Jaques, Google Research and Michael Dennis, UC Berkeley
블로그 링크: https://ai.googleblog.com/2021/03/paired-new-multi-agent-approach-for.html
Flexible하게 adversary를 제한하기 위해서 PAIRED는 세번째 강화학습 에이전트를 사용 → antagonist agent → 왜 antagonist인가? adversary와 같은 편 (환경을 디자인)
그리고 기존의 에이전트의 이름을 변경 → protagonist → 환경을 navigating
Adversary가 환경을 만들면 protagonist와 antagonist가 해당 환경을 플레이
Adversary의 역할은 antagonist의 보상은 최대로 하고 protagonist의 보상은 최소로 하는 것
이것이 에이전트가 풀 수 있는 환경이면서 (왜냐하면 antagonist가 문제를 풀고 높은 점수를 얻을 수 있어야 하기 때문), protagonist에게는 도전적인 환경을 (현재 정책의 약점을 exploit) 제작
이 두 보상의 차이 → regret
위에서 이야기한 기법들 (domain randomization, minimax regret, PAIRED)은 동일한 이론적인 프레임워크로 분석될 수 있음 → Unsupervised Environment Design (UED)