분류 전체보기
-
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
[RLHF] IPO (2) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
2024.03.25 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
[RLHF] IPO (1) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
2024.01.10 -
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
[RLHF] DPO: Direct Preference Optimization, DPODirect Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
2023.12.03 -
DeepMind's Perceiver and Perceiver IO: new data family link : https://www.youtube.com/watch?v=wTZ3o36lXoQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=6 paper : https://arxiv.org/pdf/2103.03206.pdf 딥마인드에서 최근 작업 중 Perceiver라는 아키텍처를 개발 중이라고 한다. 이 작업에 동기는 범용 아키텍처를 개발하는 것이다. 그 이유는 우리가 실세계에서 수집할 수 있다고 상상할 수 있는 모든 데이터는 기본적으로 터치, 고유 감각에서 반향 위치, 텍스트를 수집하기 위한 감각이나 인식 등의 sense modalities와 관련이 있다. 우리가 과학적..
[CS25 6강] DeepMind's Perceiver and Perceiver IO: new data familyDeepMind's Perceiver and Perceiver IO: new data family link : https://www.youtube.com/watch?v=wTZ3o36lXoQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=6 paper : https://arxiv.org/pdf/2103.03206.pdf 딥마인드에서 최근 작업 중 Perceiver라는 아키텍처를 개발 중이라고 한다. 이 작업에 동기는 범용 아키텍처를 개발하는 것이다. 그 이유는 우리가 실세계에서 수집할 수 있다고 상상할 수 있는 모든 데이터는 기본적으로 터치, 고유 감각에서 반향 위치, 텍스트를 수집하기 위한 감각이나 인식 등의 sense modalities와 관련이 있다. 우리가 과학적..
2023.07.28 -
link : https://www.youtube.com/watch?v=U8J32Z3qV8s&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=5 paper : https://arxiv.org/pdf/2101.03961.pdf Mixture of Experts (MoE) paradigm and the Switch Transformer 이번 세미나 주제는 "Sacling Transformers through Sparsity"이다. 먼저 뉴럴 언어 모델의 Scaling에 대해 얘기하면서 세미나는 시작한다. 트랜스포머는 강력한 성능으로 nlp, vision 분야를 섭렵하고 있지만, 과거에는 데이터 셋이 적거나 Sparsity를 포함하는 경우에 트랜스포머를 많이 사용하지 않는다. ..
[CS25 5강] Mixture of Experts (MoE) paradigm and the Switch Transformerlink : https://www.youtube.com/watch?v=U8J32Z3qV8s&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=5 paper : https://arxiv.org/pdf/2101.03961.pdf Mixture of Experts (MoE) paradigm and the Switch Transformer 이번 세미나 주제는 "Sacling Transformers through Sparsity"이다. 먼저 뉴럴 언어 모델의 Scaling에 대해 얘기하면서 세미나는 시작한다. 트랜스포머는 강력한 성능으로 nlp, vision 분야를 섭렵하고 있지만, 과거에는 데이터 셋이 적거나 Sparsity를 포함하는 경우에 트랜스포머를 많이 사용하지 않는다. ..
2023.07.22 -
OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation link : https://aclanthology.org/2022.lrec-1.531.pdf 오랜만에 한국어 task를 하게 됬는데, mecab말고 토크나이저 방법이 뭐가 있나 궁금해서 보게된 논문 Abstract 한국어는 다른 동아시아 언어와 다르게, 더 큰 단어 바운더리에서 공백을 사용하는 복잡한 형태학(morphology)을 가지고 있다. 형태소(morpheme) 기반 text generation은 character-level 접근법보다 상당한 시멘틱 이점을 가지고 있는 반면,한국어 형태소 분석기는 형태소 수준의 토큰 시퀀스만 제공하기 때문에 토큰..
[NLP] OpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus AnnotationOpenKorPOS: Democratizing Korean Tokenization withVoting-Based Open Corpus Annotation link : https://aclanthology.org/2022.lrec-1.531.pdf 오랜만에 한국어 task를 하게 됬는데, mecab말고 토크나이저 방법이 뭐가 있나 궁금해서 보게된 논문 Abstract 한국어는 다른 동아시아 언어와 다르게, 더 큰 단어 바운더리에서 공백을 사용하는 복잡한 형태학(morphology)을 가지고 있다. 형태소(morpheme) 기반 text generation은 character-level 접근법보다 상당한 시멘틱 이점을 가지고 있는 반면,한국어 형태소 분석기는 형태소 수준의 토큰 시퀀스만 제공하기 때문에 토큰..
2023.07.14 -
IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING? Link : https://arxiv.org/pdf/2211.15657.pdf diffuser 논문을 재밌게 읽었는데 후속 논문이 나와서 읽어봄 Abstract 해당 논문에서는 Conditional Generative Model이 직접적으로 sequential decision-making 문제를 해결할 수 있는지에 대해 알아본다. 그리고 의사 결정을 강화 학습 관점이 아닌, 조건부 생성 모델링(conditional generative modeling)을 통해 해결해보려고 한다. 저자들은 해당 연구를 통해 policy를 return conditional diffusion model로 ..
[RL] Is Conditional Generative Modeling All You Need For Decision-Making?(Decision-Diffuser)IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING? Link : https://arxiv.org/pdf/2211.15657.pdf diffuser 논문을 재밌게 읽었는데 후속 논문이 나와서 읽어봄 Abstract 해당 논문에서는 Conditional Generative Model이 직접적으로 sequential decision-making 문제를 해결할 수 있는지에 대해 알아본다. 그리고 의사 결정을 강화 학습 관점이 아닌, 조건부 생성 모델링(conditional generative modeling)을 통해 해결해보려고 한다. 저자들은 해당 연구를 통해 policy를 return conditional diffusion model로 ..
2023.06.11 -
Information-Transport-based Policy for Simultaneous Translation link : https://aclanthology.org/2022.emnlp-main.65.pdf Abstract Simultaneous translation (ST)의 주요 챌린지는, 각 target token은 현재까지 받은 source token에만 기반하여 번역되고 지금까지 받은 소스의 information은 직접적으로 번역 퀄리티에 영향을 끼친다는 것이다. 그래서 얼마나 많은 소스의 정보를 받았는지는 ST policy가 번역할지 소스를 더 기다릴지 결정하는데 있어 pivotal evidence가 된다. 해당 논문에서는 'translation'을 'information transpor..
[NLP] Information-Transport-based Policy for Simultaneous TranslationInformation-Transport-based Policy for Simultaneous Translation link : https://aclanthology.org/2022.emnlp-main.65.pdf Abstract Simultaneous translation (ST)의 주요 챌린지는, 각 target token은 현재까지 받은 source token에만 기반하여 번역되고 지금까지 받은 소스의 information은 직접적으로 번역 퀄리티에 영향을 끼친다는 것이다. 그래서 얼마나 많은 소스의 정보를 받았는지는 ST policy가 번역할지 소스를 더 기다릴지 결정하는데 있어 pivotal evidence가 된다. 해당 논문에서는 'translation'을 'information transpor..
2023.05.28