NLP
-
EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
[NLP] EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language ModelsEEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
2024.08.11 -
RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
[NLP] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksRAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
2024.07.28 -
ORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
[RLHF] ORPO: Monolithic Preference Optimization without Reference ModelORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
2024.05.26 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
[RLHF] IPO (2) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
2024.03.25 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
[RLHF] IPO (1) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
2024.01.10 -
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
[RLHF] DPO: Direct Preference Optimization, DPODirect Preference Optimization: Your Language Model is Secretly a Reward Model Link : https://arxiv.org/pdf/2305.18290.pdf Neurips 2023 논문이고, 이전 RLHF 방법론들에서 Reward model을 학습시키는 과정을 없애므로써, 기존의 RLHF 방법들의 복잡한 학습 파이프라인을 simple relative cross entropy training 으로 바꾼 논문. Instruct gpt의 선호도 데이터셋은 openai에서 공개했지만 reward model은 공개하지 않았고 hugging face에 올라온 많은 reward model도 아직까지는 작은 규모의 연구 집단에서 사용하기에 썩 유용해 보..
2023.12.03 -
Summarization NLP Task의 한 종류로 문서 집합에서 핵심되는 문장을 추출하거나 요약하는 분야를 말한다. Summarization의 접근법은 크게 두 가지가 있다. 1. Extractive Approaches ➡️ Unsupervised Learning 가능 Extractive approaches는 입력으로 주어진 문서 집합 "내"에서 중요한 단어나 문장을 선택하는 방법이다. 주어진 데이터 내에서만 문장과 키워드를 추출하기 때문에 문서와 관련이 없는 요약 결과를 낼 확률이 적지만 가능한 표현이 제한된다는 단점이 있다. Extractive Approaches의 대표적인 방법은 "Text Rank"가 있다. Text Rank는 Summarization을 딥러닝으로 하기 전 널리 사용되던 기법이..
[NLP] 키워드와 핵심 문장 추출(TextRank)Summarization NLP Task의 한 종류로 문서 집합에서 핵심되는 문장을 추출하거나 요약하는 분야를 말한다. Summarization의 접근법은 크게 두 가지가 있다. 1. Extractive Approaches ➡️ Unsupervised Learning 가능 Extractive approaches는 입력으로 주어진 문서 집합 "내"에서 중요한 단어나 문장을 선택하는 방법이다. 주어진 데이터 내에서만 문장과 키워드를 추출하기 때문에 문서와 관련이 없는 요약 결과를 낼 확률이 적지만 가능한 표현이 제한된다는 단점이 있다. Extractive Approaches의 대표적인 방법은 "Text Rank"가 있다. Text Rank는 Summarization을 딥러닝으로 하기 전 널리 사용되던 기법이..
2021.05.10 -
이전글한국어 데이터 전처리 이전 포스팅에서 텍스트 데이터의 전처리에 관한 내용을 살펴보았는데요. 그 다음 스텝은 자연어 처리를 위한 필수 코스 바로 '임베딩'입니다. 오늘은 임베딩에 대해서 정리해 볼거에요. 임베딩(embedding) 이란?자연어를 컴퓨터가 이해할 수 있으려면 자연어를 수치화 해야합니다. 자연어(영어, 한국어, 중국어...)를 수치화 한 것으로 벡터로 표현하는 것을 말하고 '임베딩'은 그 과정까지 모두 포함하는 단어이다. 'embed'는 한국어로 '끼워 넣는다'라는 의미이고, 자연어를 벡터 공간에 끼워 넣는다는 취지로 embedding이라는 용어가 생겨났다고 합니다. 사진 출처 자연어를 왜 벡터로 바꾸어야 할까요? 컴퓨터는 '언어'를 이해하지 못합니다. 우리가 프로그래밍 언어로 코드를 짜..
[NLP] 자연어처리 - 한국어 임베딩이전글한국어 데이터 전처리 이전 포스팅에서 텍스트 데이터의 전처리에 관한 내용을 살펴보았는데요. 그 다음 스텝은 자연어 처리를 위한 필수 코스 바로 '임베딩'입니다. 오늘은 임베딩에 대해서 정리해 볼거에요. 임베딩(embedding) 이란?자연어를 컴퓨터가 이해할 수 있으려면 자연어를 수치화 해야합니다. 자연어(영어, 한국어, 중국어...)를 수치화 한 것으로 벡터로 표현하는 것을 말하고 '임베딩'은 그 과정까지 모두 포함하는 단어이다. 'embed'는 한국어로 '끼워 넣는다'라는 의미이고, 자연어를 벡터 공간에 끼워 넣는다는 취지로 embedding이라는 용어가 생겨났다고 합니다. 사진 출처 자연어를 왜 벡터로 바꾸어야 할까요? 컴퓨터는 '언어'를 이해하지 못합니다. 우리가 프로그래밍 언어로 코드를 짜..
2020.10.30