{Blog} PAIRED: A New Multi-Agent Approach for Adversarial Environment Generation

작성 날짜: 2021.03.05

작성자: Natasha Jaques, Google Research and Michael Dennis, UC Berkeley

블로그 링크: https://ai.googleblog.com/2021/03/paired-new-multi-agent-approach-for.html

머신러닝 기법의 성능은 학습 데이터에 굉장히 의존
- 강화학습의 경우 실제 환경에서 상호 작용하는 에이전트가 수집한 제한된 데이터, 혹은 필요한 만큼 데이터를 수집하여 사용할 수 있는 시뮬레이션 학습 환경에 의존
- 시뮬레이션을 통한 학습이 점점 널리 사용되고 있지만 해당 방법에는 문제가 있음 → 강화학습 에이전트가 설계된 시뮬레이터 안에서는 학습을 할 수 있지만 약간이라도 task가 달라지는 것에 대해 일반화가 잘 안되는 (bad at generalizing) 문제

이를 해결하기 위해서 자동적으로 다양한 학습 환경을 생성하는 방법 사용 → 시뮬레이터의 환경 파라미터를 임의로 설정하여 환경 생성 → Domain Randomization (DR)
- 그러나 DR의 경우 굉장히 단순한 환경에서도 실패할 수 있음
- 위의 애니메이션을 예시로 설명
- 파란색 에이전트가 초록색 골을 향해 이동하는 navigation 문제
- 왼쪽 그림은 DR이 적용된 환경에서 장애물과 골의 위치가 랜덤하게 바뀌는 것을 보여줌
- 많은 DR 환경들이 에이전트 학습을 위해 사용되다가 가운데 그림 같은 4개의 단순한 방과 같은 형태로 환경이 생성되었다고 해보자
- 여기서는 에이전트가 골에 도달하지 못함 → 긴 벽을 돌아서 이동하는 것을 학습하지 못했기 때문
- 이런 네개의 방과 같은 구조로 벽이 생성되는 것은 DR 학습 과정에서 랜덤하게 생성될 수 있는 구조
- 결과적으로 에이전트는 이런 네개의 방과 같은 구조의 벽에 대해 충분히 학습할 시간이 없었고 이에 따라 골에 도달하지 못하는 것
그럼 이렇게 환경 파라미터를 랜덤하게 하는 대신 두번째 강화학습 에이전트가 어떻게 환경 파라미터를 결정할지 학습할 수 있음 → Minimax Adversary
- 이 두번째 에이전트는 첫번째 강화학습 에이전트의 성능을 최소화 하도록 학습 → 정책의 약점을 찾음 → ex. 이전에 만난 적 없는 벽의 구성을 설계
- 하지만 이 또한 문제가 있음 → 오른쪽의 결과는 minimax adversary를 통해 만들어진 환경을 보여줌 → 에이전트가 골에 가는 것 자체가 불가능함
- 이 경우 minimax adversary는 자신의 task를 성공했음 → 원래 에이전트의 성능을 최소화 하는데 성공 → 하지만 이는 에이전트가 학습할 수 있는 기회를 제공하지 않음
- 이렇게 순수하게 적대적인 목표 또한 학습 환경의 생성에 적절하지 않음
UC Berkeley와의 협업으로 adversary를 학습하는 새로운 multi-agent 접근법을 제안 → **Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design** (NeurlPS 2020)
- 본 논문에서는 새로운 알고리즘을 제안 → Protagonist Antagonist Induced Regret Environment Design (PAIRED)
- 해당 알고리즘은 minimax regret을 기반으로 하지만 adversary가 불가능한 환경을 만드는 것은 방지하면서도 에이전트 정책의 약점은 고칠 수 있도록 함
- PAIRED는 adversary에 의해 생성된 환경의 난이도를 에이전트의 현재 능력 밖에 있도록 조정하는 것을 장려 → 점점 더 어려워지는 학습 task의 난이도를 향상시키는 자동 커리큘럼이 가능하도록 함
- PAIRED를 통해 학습된 에이전트는 더욱 복잡한 행동을 학습할 수 있으며 알지 못하는 테스트 task에 잘 generalize 됨
PAIRED의 소스코드 깃허브 레포

PAIRED

Flexible하게 adversary를 제한하기 위해서 PAIRED는 세번째 강화학습 에이전트를 사용 → antagonist agent → 왜 antagonist인가? adversary와 같은 편 (환경을 디자인)
그리고 기존의 에이전트의 이름을 변경 → protagonist → 환경을 navigating
Adversary가 환경을 만들면 protagonist와 antagonist가 해당 환경을 플레이
Adversary의 역할은 antagonist의 보상은 최대로 하고 protagonist의 보상은 최소로 하는 것
이것이 에이전트가 풀 수 있는 환경이면서 (왜냐하면 antagonist가 문제를 풀고 높은 점수를 얻을 수 있어야 하기 때문), protagonist에게는 도전적인 환경을 (현재 정책의 약점을 exploit) 제작
이 두 보상의 차이 → regret
- adversary는 regret을 최대화하려고 하며 protagonist는 이를 최소로 하려고 함
위에서 이야기한 기법들 (domain randomization, minimax regret, PAIRED)은 동일한 이론적인 프레임워크로 분석될 수 있음 → Unsupervised Environment Design (UED)