-
[RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (2)✨ AI/AI papers 2024. 3. 25. 05:07
Week Regularisation and Overfitting
y와 y' 두 라벨이 있을 때, p*(y > y') = 1인 경우 즉 항상 y를 선호할 확률이 있다고 생각해보자. 그러면 BT 모델은 r(y)-r(y') 무한대로 가게 될 것이고 policy pi*에 이를 대입하면 pi*(y') / pi(y) = 0이 될 것이다 즉 pi*(y') = 0이 된다. 이렇게 된다면, KL regularisation을 위한 constant tau는 무시될 것이며 더 deterministic preference를 모델링하게 되어 오버피팅이 일어나게 된다. KL 패널티가 약해지는 문제는 우리가 RLHF 모델링할 때 주로 사용하는 finite preference dataset을 사용할 때 더 두드러진다.
따라서 DPO보다 Standard RLHF 알고리즘을 사용할 때 (Reward model + PPO) 이 문제에 더 robust하다고 볼 수 있는데, 그 이유는 아래와 같다. DPO의 장점이 reward function fitting을 피한다는 것이지만, 우리는 실제로 empirical preference prob은 0과 1사이에 있을 때 reward function은 결국 underfit하게된다. (DPO에서는 reward가 pi(y)/pi_ref(y)로 표현됨)
이전 연구에서 0과 1사이의 preference prob이 있는 경우 optimal reward는 무한 값을 가질 수 있지만 이러한 값은 피하고 실제로는 RLHF에서 reward function의 regularisation이 중요한 것으로 관찰됐다. 즉, reward function underfitting은 reference policy에 대해 충분히 regularisation된 final policy를 얻는데 중요한 역할을 하고 DPO는 reward function 학습을 피하는 대신 underfitting reward function이 주는 policy regularisation의 이점을 잃는다.
DPO의 overfitting 방지를 위해 early-stopping과 같은 regularisation 방법을 쓸 수 있지만 해당 논문에서는 Psi PO objective 수정버전을 소개하면서 이를 해결하고자 한다. 제안하는 Psi PO objective는 optimal empirical policy를 따르며 preference가 deterministic한 경우에도 reference policy와 가까울 수 있다.
5. IPO : Psi PO with identity mapping
위에서 살펴본 DPO의 overfitting 문제는 explicit reward function을 학습하지 않는 것과, unbounded Psi function의 combination에 기인한다. 그래서 Psi function이 bounded 되는 함수로 설정하고, 0-1 사이의 선호도 값을 가지는 데이터셋 이라고 하더라도 KL 텀의 효과가 남아있도록 하면 이를 막을 수 있다는 아이디어가 해당 논문이 제안하는 알고리즘이다. Psi를 Identity 매핑으로 취해 total preference의 직접 regularized optimization으로 이어짐으로써 제공된다.
해당 수식을 최적화 하기 위한 일반적인 방법은 reward를 preference prob p*(y>mu)로 설정하고 RLHF 학습을 하는 것이다. 하지만 RL과 reward model r(y) estimating을 동시에 하는 것은 비용이 크다. 저자들은 DPO에서 영감을 받아 preference dataset이 있다면 8 식의 최적화 하기 위한 empirical solution을 고안했다.
'✨ AI > AI papers' 카테고리의 다른 글