✨ AI/AI papers
-
[RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (2)✨ AI/AI papers 2024. 3. 25. 05:07
Week Regularisation and Overfitting y와 y' 두 라벨이 있을 때, p*(y > y') = 1인 경우 즉 항상 y를 선호할 확률이 있다고 생각해보자. 그러면 BT 모델은 r(y)-r(y') 무한대로 가게 될 것이고 policy pi*에 이를 대입하면 pi*(y') / pi(y) = 0이 될 것이다 즉 pi*(y') = 0이 된다. 이렇게 된다면, KL regularisation을 위한 constant tau는 무시될 것이며 더 deterministic preference를 모델링하게 되어 오버피팅이 일어나게 된다. KL 패널티가 약해지는 문제는 우리가 RLHF 모델링할 때 주로 사용하는 finite preference dataset을 사용할 때 더 두드러진다. 따라서 DPO보..
-
[RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)✨ AI/AI papers 2024. 1. 10. 01:07
A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다. 1) pairwise reward가 poinwise comparison으로 대체가 가능하다. 2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimization을 따로..
-
[RLHF] Direct Preference Optimization, DPO✨ AI/AI papers 2023. 12. 3. 19:46
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을, simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보이..
-
[NLP] OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation✨ AI/AI papers 2023. 7. 14. 10:57
OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation link : https://aclanthology.org/2022.lrec-1.531.pdf 오랜만에 한국어 task를 하게 됬는데, mecab말고 토크나이저 방법이 뭐가 있나 궁금해서 보게된 논문 Abstract 한국어는 다른 동아시아 언어와 다르게, 더 큰 단어 바운더리에서 공백을 사용하는 복잡한 형태학(morphology)을 가지고 있다. 형태소(morpheme) 기반 text generation은 character-level 접근법보다 상당한 시멘틱 이점을 가지고 있는 반면,한국어 형태소 분석기는 형태소 수준의 토큰 시퀀스만 제공하기 때문에 토큰..