자연어 NLP
-
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
[RLHF] IPO (1) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
2024.01.10 -
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
[RLHF] DPO: Direct Preference Optimization, DPODirect Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
2023.12.03 -
OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation link : https://aclanthology.org/2022.lrec-1.531.pdf 오랜만에 한국어 task를 하게 됬는데, mecab말고 토크나이저 방법이 뭐가 있나 궁금해서 보게된 논문 Abstract 한국어는 다른 동아시아 언어와 다르게, 더 큰 단어 바운더리에서 공백을 사용하는 복잡한 형태학(morphology)을 가지고 있다. 형태소(morpheme) 기반 text generation은 character-level 접근법보다 상당한 시멘틱 이점을 가지고 있는 반면,한국어 형태소 분석기는 형태소 수준의 토큰 시퀀스만 제공하기 때문에 토큰..
[NLP] OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus AnnotationOpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation link : https://aclanthology.org/2022.lrec-1.531.pdf 오랜만에 한국어 task를 하게 됬는데, mecab말고 토크나이저 방법이 뭐가 있나 궁금해서 보게된 논문 Abstract 한국어는 다른 동아시아 언어와 다르게, 더 큰 단어 바운더리에서 공백을 사용하는 복잡한 형태학(morphology)을 가지고 있다. 형태소(morpheme) 기반 text generation은 character-level 접근법보다 상당한 시멘틱 이점을 가지고 있는 반면,한국어 형태소 분석기는 형태소 수준의 토큰 시퀀스만 제공하기 때문에 토큰..
2023.07.14 -
Information-Transport-based Policy for Simultaneous Translation link : https://aclanthology.org/2022.emnlp-main.65.pdf Abstract Simultaneous translation (ST)의 주요 챌린지는, 각 target token은 현재까지 받은 source token에만 기반하여 번역되고 지금까지 받은 소스의 information은 직접적으로 번역 퀄리티에 영향을 끼친다는 것이다. 그래서 얼마나 많은 소스의 정보를 받았는지는 ST policy가 번역할지 소스를 더 기다릴지 결정하는데 있어 pivotal evidence가 된다. 해당 논문에서는 'translation'을 'information transpor..
[NLP] Information-Transport-based Policy for Simultaneous TranslationInformation-Transport-based Policy for Simultaneous Translation link : https://aclanthology.org/2022.emnlp-main.65.pdf Abstract Simultaneous translation (ST)의 주요 챌린지는, 각 target token은 현재까지 받은 source token에만 기반하여 번역되고 지금까지 받은 소스의 information은 직접적으로 번역 퀄리티에 영향을 끼친다는 것이다. 그래서 얼마나 많은 소스의 정보를 받았는지는 ST policy가 번역할지 소스를 더 기다릴지 결정하는데 있어 pivotal evidence가 된다. 해당 논문에서는 'translation'을 'information transpor..
2023.05.28 -
Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..
[NLP] Translation-based Supervision for Policy Generation in Simultaneous Neural Machine TranslationTranslation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..
2023.05.12 -
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-trainingPEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
2023.04.30 -
Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..
[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RLPreference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..
2023.04.28 -
Hidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..
[NLP] Hidden Markov Transformer for Simultaneous Machine TranslationHidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..
2023.04.20