자연어 NLP
-
Large Language Diffusion Models link : https://arxiv.org/pdf/2502.09992 Overview 기존 대부분의 LLM은 Autoregressive 방식을 따른다. 즉, 주어진 이전 토큰들을 기반으로 다음 토큰을 순차적으로 예측하며 문장을 생성하는 방식이다.이 논문의 저자들은 LLM의 핵심 능력은 Autoregressive 구조에만 의존하지 않으며 다른 생성 방식으로도 기존 SOTA LLM에 필적하는 성능을 낼 수 있다고 주장한다. 이에 따라 저자들은 새로운 접근 방식인 LLaDA (Large Language Diffusion Models)를 제안한다. LLaDA는 전체 문장을 순차적으로 예측하지 않고,일부분이 마스킹된 토큰 시퀀스를 입력으로 받아마스킹된 ..
[NLP] Large Language Diffusion Models (LLaDA)Large Language Diffusion Models link : https://arxiv.org/pdf/2502.09992 Overview 기존 대부분의 LLM은 Autoregressive 방식을 따른다. 즉, 주어진 이전 토큰들을 기반으로 다음 토큰을 순차적으로 예측하며 문장을 생성하는 방식이다.이 논문의 저자들은 LLM의 핵심 능력은 Autoregressive 구조에만 의존하지 않으며 다른 생성 방식으로도 기존 SOTA LLM에 필적하는 성능을 낼 수 있다고 주장한다. 이에 따라 저자들은 새로운 접근 방식인 LLaDA (Large Language Diffusion Models)를 제안한다. LLaDA는 전체 문장을 순차적으로 예측하지 않고,일부분이 마스킹된 토큰 시퀀스를 입력으로 받아마스킹된 ..
2025.06.29 -
GRPO(Group Relative Policy Optimization) link : https://arxiv.org/pdf/2402.03300 DeepSeekMath는 Gemini나 GPT-4 레벨의 성능과 다른 open LLM보다 뛰어난 MATH bechmark 성능은 달성하면서 외부 toolkits나 voting techiniques를 사용하지 않았다고 한다. 여기서 사용된 RL tuning알고리즘은 GRPO(Group Relative Policy Optimization)이며 해당 논문에서 처음 제안하는 알고리즘이다. GRPO는 PPO(Proximal Policy Optimization)의 variant 중 하나로 PPO의 메모리 사용량을 최적화하면서 mathmatical reasoning ..
[RLHF] DeepSeek의 GRPO(Group Relative Policy Optimization)GRPO(Group Relative Policy Optimization) link : https://arxiv.org/pdf/2402.03300 DeepSeekMath는 Gemini나 GPT-4 레벨의 성능과 다른 open LLM보다 뛰어난 MATH bechmark 성능은 달성하면서 외부 toolkits나 voting techiniques를 사용하지 않았다고 한다. 여기서 사용된 RL tuning알고리즘은 GRPO(Group Relative Policy Optimization)이며 해당 논문에서 처음 제안하는 알고리즘이다. GRPO는 PPO(Proximal Policy Optimization)의 variant 중 하나로 PPO의 메모리 사용량을 최적화하면서 mathmatical reasoning ..
2025.01.23 -
ZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
[RLHF] dDPO (Zephyr) : Direct Distillation of LM AlignmentZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
2024.10.04 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
[RLHF] BOND (2) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
2024.08.18 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
[RLHF] BOND (1) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
2024.08.12 -
EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
[NLP] EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language ModelsEEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
2024.08.11 -
LoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
[NLP] LoRA: Low-Rank Adaptation of Large Language ModelsLoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
2024.08.04 -
RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
[NLP] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksRAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
2024.07.28