0. Abstract

강화학습 알고리즘은 일반적으로 샘플 비효율적 (sample inefficiency)이며 일반화가 어렵다고 알려짐
최근 Unsupervised Environment Design (UED)가 zero-shot 일반화를 위한 새로운 패러다임으로 떠오름 → task 분포의 학습과 샘플링 된 task 들에서의 에이전트 정책 학습을 동시에 수행
이는 고정되지 않은 (non-stationary) 과정으로 task 분포가 에이전트 정책과 함께 진화시킴
과거의 연구들을 통해 일반화에 대한 개선을 이뤘지만 아직 task 공간에 대한 샘플 효율성을 개선하지는 못했음
이에 따라 본 논문은 CLUTR 기법을 제안 → 새로운 커리큘럼 학습 알고리즘으로 task representation과 커리큘럼 학습을 두 단계의 최적화 과정으로 분리
- 먼저 latent task manifold 학습을 위해 무작위로 생성된 task에 대해 recurrent Variational Autoencoder (VAE)를 학습
- 다음으로 teacher 에이전트가 manifold로부터 샘플링 된 latent task의 세트에 대해 minimax REGRET 기반의 목적함수를 최대화하는 커리큘럼을 생성
Task manifold를 고정하여 CLUTR가 성공적으로 non-stationary 문제를 극복하고 안정성을 개선하는 것을 확인
본 논문의 실험 결과는 어려운 환경인 CarRacing과 navigation 환경에서 검증
- CLUTR가 이론적으로 검증되었으며 널리 사용되는 UED 기법인 PAIRED를 일반화 및 샘플 효율성 측면에서 뛰어넘는 성능을 가지는 것을 보임
- F1 CarRacing 벤치마크에서 18배의 개선을 보임
- CLUTR는 또한 CarRacing에서 non-UED SOTA 기법과도 비교할만한 성능을 보임 → 20개 트랙 중 9개에서 더 뛰어난 성능을 보임
- CLUTR는 또한 PAIRED에 비해 18개의 out-of-distribution navigation 문제에서 33% 더 높은 성공률을 달성

1. Introduction

기존 강화학습의 단점
- 샘플 비효율적이며 일반화되지 않음: 학습 동안에 경험한 적 없는 task에 대해서는 나쁜 성능을 보이고 환경에 약간의 변화만 줘도 문제를 푸는데 실패하는 경우도 있음
커리큘럼 학습 (Curriculum Learning, CL)을 통해 강화학습에 대한 샘플 효율성을 향상 시킬 수 있는 가능성을 확인 → 에이전트의 능력의 경계에 해당하는 task에 대해 학습하는 teacher 알고리즘을 사용 → i.e. 에이전트가 현재 풀 수 있는 것보다 조금 더 어려운 task를 제안
최근에 Unsupervised Environment Design (UED)라고 하는 비지도 커리큘럼 알고리즘들이 연구되면서 일반화 성능에 대해 인상적인 향상이 이루어짐
UED는 환경의 파라미터들 (e.g. 네비게이션 문제에서의 시작 지점, 골, 장애물 위치 등)을 자동적으로 샘플링하여 task를 생성 → 다양한 task 분포에 적응하면서 샘플 효율성과 일반화 성능을 향상시킴
Protagonist Antagonist Induced Regret Environment Design (PAIRED)
- 가장 이론적으로 검증된 UED 알고리즘 중 하나
- PAIRED의 teacher 자체가 강화학습 에이전트로 행동이 다른 task 파라미터를 의미
- PAIRED는 에이전트의 regret을 최대로 하는 task를 생성 → 여기서 regret은 최적의 정책과 student 에이전트의 성능 차이를 의미
- 이론적으로 수렴시 에이전트는 regret을 최소화하도록 학습 → i.e. 풀 수 있는 모든 문제를 풀게됨
- 이런 강인성에 대한 보장은 regret 기반의 teacher가 강인한 에이전트 학습에 적절하도록 만들어줌
PAIRED의 샘플 비효율성과 그 원인
- 이런 강력한 강인성 보장에도 불구하고 PAIRED는 여전히 실제로는 샘플 비효율적
- 이에 대한 원인은 regret 기반의 teacher를 학습하는 것이 어렵기 때문!
  - 첫번째로 teacher는 task의 모든 파라미터를 구체화하고 난 후에 sparse 보상을 받음 → long-horizon credit assignment 문제 유발
    - credit assignment 문제란? → Credit Assignment란, trajectory 중 어떤 step이 sum of discounted reward, 즉 return에 가장 많이 영향을 미쳤는지를 알아내는 문제 (참고)
  - 추가적으로 teacher 에이전트는 파라미터 공간이 순열 불변 (permutation invariant)인 경우 조합 폭발 (combinatorial explosion) 문제가 발생
  - 더욱 중요하게는 에이전트의 능력의 최전선에 있는 task의 생성을 위해서 teacher는 task manifold의 학습과 커리큘럼 유도를 위한 탐색을 동시에 수행해야 함
    - Teacher는 regret에 기반하여 task manifold를 내재적으로 학습
    - 그러나 student는 teacher와 함께 지속적으로 학습 → task manifold 또한 시간에 따라 진화함
    - 그러므로 teacher는 task manifold의 진화에 대한 학습과 이를 효율적으로 탐색하는 방법을 동시에 학습해야 함
Curriculum Learning via Unsupervised Task Representation Learning (CLUTR)
- CLUTR의 핵심 → task representation 학습과 커리큘럼 학습을 분리하는 hierarchical graphical 모델
- Recurrent VAE를 학습하여 task manifold 학습
- 한번에 하나의 파라미터로부터 task를 생성하는 PAIRED와 다르게 CLUTR의 teacher는 latent task manifold로부터 task를 생성하고 생성 모델을 사용하여 이를 실제 완전한 task로 변환
- CLUTR teacher는 regret을 최대화하도록 사전 학습되고 고정된 task manifold를 탐험하면서 커리큘럼을 학습
- 사전 학습된 latent task manifold를 사용하여 CLUTR teacher는 single-step RL을 통해 학습될 수 있음 → long-horizon credit assignment 문제 극복 → 더 효율적으로 커리큘럼을 생성할 수 있고 효과에 대한 추가적인 cost 없이 안정성을 향상시킬 수 있음
- 추가적인 환경과의 상호작용 없이 학습에 대한 편향을 제공 (예를 들어 각 파라미터 벡터에 대해 정렬)하여 CLUTR는 조합 폭발 문제를 해결
- 마지막으로 teacher 모델에 상관없이 PAIRED에 제공되는 이론적인 강인성이 CLUTR에도 여전히 적용