RLHF
-
GRPO(Group Relative Policy Optimization) link : https://arxiv.org/pdf/2402.03300 DeepSeekMath는 Gemini나 GPT-4 레벨의 성능과 다른 open LLM보다 뛰어난 MATH bechmark 성능은 달성하면서 외부 toolkits나 voting techiniques를 사용하지 않았다고 한다. 여기서 사용된 RL tuning알고리즘은 GRPO(Group Relative Policy Optimization)이며 해당 논문에서 처음 제안하는 알고리즘이다. GRPO는 PPO(Proximal Policy Optimization)의 variant 중 하나로 PPO의 메모리 사용량을 최적화하면서 mathmatical reasoning ..
[RLHF] DeepSeek의 GRPO(Group Relative Policy Optimization)GRPO(Group Relative Policy Optimization) link : https://arxiv.org/pdf/2402.03300 DeepSeekMath는 Gemini나 GPT-4 레벨의 성능과 다른 open LLM보다 뛰어난 MATH bechmark 성능은 달성하면서 외부 toolkits나 voting techiniques를 사용하지 않았다고 한다. 여기서 사용된 RL tuning알고리즘은 GRPO(Group Relative Policy Optimization)이며 해당 논문에서 처음 제안하는 알고리즘이다. GRPO는 PPO(Proximal Policy Optimization)의 variant 중 하나로 PPO의 메모리 사용량을 최적화하면서 mathmatical reasoning ..
2025.01.23 -
ZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
[RLHF] dDPO (Zephyr) : Direct Distillation of LM AlignmentZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
2024.10.04 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
[RLHF] BOND (2) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
2024.08.18 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
[RLHF] BOND (1) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
2024.08.12 -
ORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
[RLHF] ORPO: Monolithic Preference Optimization without Reference ModelORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
2024.05.26 -
KTO: Model Alignment as Prospect Theoretic Optimization link : https://arxiv.org/abs/2402.01306 Kahneman & Tversky’s prospect theory 에 따르면 사람의 편향되어 있지만 잘 정의된 방식으로 random variable을 인식한다고 한다. (예를 들어서 사람은 손실을 싫어한다.) 우리가 LLM을 human feedback에 aligning하려는 목표는 이러한 편향이 암묵적으로 포함되어 있다고 볼 수 있다. DPO는 cross entropy 최소화 objective를 통해 부분적으로 이를 가능하게 했지만 현재 DPO와 같은 utility function은 Kahneman & Tversky’s prosp..
[RLHF] KTO: Model Alignment as Prospect Theoretic OptimizationKTO: Model Alignment as Prospect Theoretic Optimization link : https://arxiv.org/abs/2402.01306 Kahneman & Tversky’s prospect theory 에 따르면 사람의 편향되어 있지만 잘 정의된 방식으로 random variable을 인식한다고 한다. (예를 들어서 사람은 손실을 싫어한다.) 우리가 LLM을 human feedback에 aligning하려는 목표는 이러한 편향이 암묵적으로 포함되어 있다고 볼 수 있다. DPO는 cross entropy 최소화 objective를 통해 부분적으로 이를 가능하게 했지만 현재 DPO와 같은 utility function은 Kahneman & Tversky’s prosp..
2024.05.12 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
[RLHF] IPO (2) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
2024.03.25 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
[RLHF] IPO (1) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
2024.01.10