ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)
    ✨ AI/AI papers 2024. 1. 10. 01:07

    A General Theoretical Paradigm to Understand Learning from Human Preferences

     

    link: https://arxiv.org/pdf/2310.12036.pdf

     

     

    Abstract

    널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.

    1) pairwise reward가 poinwise comparison으로 대체가 가능하다.

    2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다.

    선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimization을 따로 하는 것이 아닌 문제를 일종의 relative log likelihood objective로 간소화해 리워드 모델학습을 없애므로써 이 두번째 가정을 없앴다. 하지만 여전히 첫번째 가정에는 의존하고 있다.

    이 논문에서는 DPO에서 제안한 practical algorithm의 theoretical understanding을 더 깊게 판다. 특히 new general objective를 제안하고 이는 IPO라고(psi-PO)라고 명명하고, 이는 pairwise preference로 표현될 수 있으므로 첫번째 가정도 없앨 수 있다고 저자들은 주장한다. 

     

     

    1. Introduction

    저자들은 RLHF 문제를 offline contextual bandit problem으로 프레이밍한다. 이 bandit problem의 목적은 context가 주어졌을 때 어떤 알려진 refence policy와 bandit policy가 가깝도록 하면서도 사람이 가장 선호하는 액션을 취할 수 있도록 하는 것이다. IPO에서 I(psi)는 임의의 non-decreasing mapping이며 RLHF와 DPO는 IPO의 special case로 해석될 수 있다. 

    그리고 RLHF, DPO가 ovefitting 문제에 취약한데 이는 pairwise preference는 (Bradley-Terry modelisation을 통해서) pairwise reward로 대체될 수 있다는 강력한 가정을 하기 때문이라고 한다. 이러한 가정은 sampled preference가 deterministic 또는 near deterministic할 때 KL-regularisation term을 무시하게 되면서 오버피팅을 초래하는 문제가 있을 수 있다. 

    그러니까, 만약 우리가 어떤 질의 또는 프롬프트 x에 대해 preference에 대한 라벨을 그때 그때 online sample하고 stochastic하다면 이런 문제가 발생하지 않지만 우리는 이미 preference가 라벨링 된 정적이고 고정된 offline dataset을 사용하기 때문에 문제가 발생한다고 저자들은 본 것이다.

     

    따라서 해당 논문에서는 Identity-PO(IPO) 알고리즘을 제안하는데,

     

    - preference를 위한 BT(Bradley-terry) modelisation 가정을 우회하고,

    - sample loss function을 제안함으로써

     

    해당 알고리즘이 overfitting 어떻게 완화하는지를 보인다.

     

    3. Background

    Learning the Reward Model

    리워드 모델을 학습하는 것은 선호하는지 아닌지를 구분하기 위한 binary classifier를 logistic regression loss로 학습하는 것과 같다. classifier를 학습하기 위해 가장 popular choice는 Bradley-Terry 모델을 이용하는 것이며 BT모델로 표현되는 선호 function p(y > y'|x)는 두 리워드의 차이의 시그모이드가 되며 시그모이드는 normalisation 역할을 한다.

     

     

    Policy Optimisation with the Learned Reward

    그리고 reward r(x,y)를 얻고 policy를 optimize는 우리의 objective는 위처럼 reward를 maximizing하는 것과 동시에 referece policy 와 학습하는 policy의 거리를 KL을 이용해 minimizing한다. 

     

     

    Direct Preference Optimisation, DPO

    위에서 Reward model학습하고 policy학습하는 것이 InstructGPT 같은데서 쓰인 방법이었다면 DPO는 reward모델 학습하는 과정을 없애고 max reward + min KL(pi_ref|pi)와 같은 효과를 낳는 모종의 (reference policy와 policy의 w와 l 라벨에 대한)relative log prob을 이용해  간단한 objective로 바꿔 RLHF 하는 새로운 패러다임이다.

     

     

     

    4. A General Objective for Preference Optimisation

    해당 논문에서는 DPO에서 더 나아가 RLHF를 위한 preference에 대한 non-linear function을 maximizing하는 general objective를 제안한다. 이를 위해 non-decresing function psi가 있고, a real positive regularisation parameter tau가 있을 때 Psi-preference optimisation objective(IPO)는 아래와 같다.

     

    KL regularisation이 들어간 RL policy objective에서 원래 r(x,y)가 preference prob p 였다면 p에 psi를 씌워준 것이다. 이 objective는 선호 확률에 대한 non-linear 함수를 잠재적으로 증가시키는 것과 KL regularisation 사이의 균형을 맞춰줄 수 있다고 한다. 그리고 이는 BT model이 hold할 때 RLHF와 DPO를 함께 generalise할 수 있다.

     

     

    A Deeper Analysis of DPO and RLHF

    일단 먼저 IPO objective인 식(6)과 DPO와 RLHF의 connection에 대해 psi(q) = log(q/(1-q))인 케이스에서 살펴보겠다.

    psi(q) = log(q / (1-q)) 이고 p*가 BT model 일 때, IPO 식(6)과 Reward Equation (3), DPO(5)가 같다는 것을 보인다.

    먼저 psi(q) = log(q / (1-q))에서 q에 sigmoid(r(y) - r(y'))를 대입해서 풀면 Psi가 log(q/1-q)인 경우에 Reward Equation (3)의 reward와 additive constant를 더한값까지 동일하므로 IPO Equation (6)의 optimal policy와 (3)의 objective를 최적화하는 것을 위한 optimal policy는 같다.

     

    그리고 DPO 논문에서는 이 reward equation (3)이 어떻게 DPO와 같은지를 보이고 있으므로 DPO (5) 와도 같다고 할 수 있다.

     

     

    그리고 식 6에서 위에서 증명한 proposition을 적용하면 BT assumption이 성립할때 DPO및 RLHF reward 식은 위와 같은 closed-form solution이 존재한다는 것이 밝혀진다. 이는 잘 알려진 derivation이긴 하지만 Appendix A.1에 자세하게 나와있다.

     

    Weak Regularisation and Overfitting

    그리고 우리는 위와 같은 objective가 어떤 종류의 policy를 발견하게 하는지 물어볼 필요가 있다. 선호확률의 highly non-linear transformation은 이미 1에 가까운 확률의 작은 증가가 50%정도 되는 확률의 더 큰 증가와 같은 인센티브를 받는 다는 것을 알 수 있는데 이는 바람직하지 않을 수 있으며 logit-preference maximisation(i.e. Elo score in game-theoretic terminology)는 transitive setting에서 조차 직관에 반하는 결과를 가져올 수 있다.

    간단한 예를 들어보자. y와 y'가 있을 때 y를 선호할 확률이 1이라면 y는 언제나 y'보다 선호된다. 그렇게 되면 BT model은 식1을 만족하기 위해 (r(y)-r(y')) 이 양의 무한대로 가야한다. 만약 우리가 식 7을 가져온다면 KL에 어떤 상수가 사용되는지에 관계 없이 pi(y')/pi(y) = 0 (즉, pi(y')=0)을 갖게 되고, KL-regularisation은 preference가 deterministic해질 수록 더 약해진다. 만약 p*(y>y')가 0.8이라고 해도 우리가 finite data를 가지고 있기 때문에 empirically y를 선호할 p의 추정값은 1이 될 가능성이 다분하다. 이는 overfitting이 상당히 empirical issue가 될 수 있다는 것을 의미하고 특히 LLM처럼 context와 action의 space가 매우 클 때 더 그렇다.

     

    DPO는 reward model을 피팅하지 않아도 된다는 이점으로 잘 알려져 있지만, 우리는 실제로 empirical preference prob이 0과1사이 일때 reward model은 underfit하는 것을 관찰할 수 있다. reward 는 무한할 수 있지만 0과1사이에 나타나게 함으로써 reward model의 regularisation을 할 수 있고 이는 RLHF에 있어 중요한 것으로 밝혀졌다고 한다. 따라서 reward model underfitting은 reference model쪽에 맞춰질 수 있도록 정규화하는 것에 있어 중요하고 DPO는 Reward model을 학습하지 않는 대신 Reward model underfit이 가질 수 있는 regularization 효과를 잃는다.

     

    따라서 IPO에서는 DPO의 overfitting을 막고 pi_ref regularization을 할 수 있도록 하는 수정된 objective를 소개한다.

     

     

     

     

     

     

     

     

    두편으로 나눠서 작성할 예정..

    댓글

Designed by Tistory.