분류 전체보기
-
The Case for Co-Designing Model Architectures with Hardware link : https://arxiv.org/pdf/2401.14489 ✲ Introduction 딥러닝 모델을 설계할 때 GPU 구조의 영향을 간과하는 경우가 많으며 모델을 하드웨어에 더 적합하게 수정하면 학습 및 추론 능력을 향상시킬 수 있다고 제안하는 논문이다. 이를 위해 Transformer 성능을 극대화하기 위한 가이드라인을 제공한다. 이 가이드라인은 다양한 하이퍼파라미터가 GPU의 기본 계산 커널의 효율성에 미치는 영향을 고려하여 작성되었다고 한다. GEMM(General Matrix Multiplication) 최적화의 기본 원리를 사용해 Transformer 모델의 개별 부분을 최적..
The Case for Co-Designing Model Architectures with HardwareThe Case for Co-Designing Model Architectures with Hardware link : https://arxiv.org/pdf/2401.14489 ✲ Introduction 딥러닝 모델을 설계할 때 GPU 구조의 영향을 간과하는 경우가 많으며 모델을 하드웨어에 더 적합하게 수정하면 학습 및 추론 능력을 향상시킬 수 있다고 제안하는 논문이다. 이를 위해 Transformer 성능을 극대화하기 위한 가이드라인을 제공한다. 이 가이드라인은 다양한 하이퍼파라미터가 GPU의 기본 계산 커널의 효율성에 미치는 영향을 고려하여 작성되었다고 한다. GEMM(General Matrix Multiplication) 최적화의 기본 원리를 사용해 Transformer 모델의 개별 부분을 최적..
2024.12.14 -
원문 : https://darioamodei.com/machines-of-loving-grace Anthropic CEO 다리오 아모데이가 AI가 어떻게 세상을 더 나은 곳으로 변화시킬 수 있는지에 대해 작성한 에세이이다. 아모데이가 강조하는 것 처럼 AI가 가져올 세상을 급진적이면서 동시에 자세하게 논의한다. AI 기술이 대두된 이후로 AI 기술이 가져오는 미래에 대해서 '급진적으로만' 다뤄지는 경우가 많았다. 즉 이를 진지하게 분석하는 것이 아닌 'SF적'으로 표현해왔다는 것이다. 이를 경계하고 앞으로는 AI 기술이 가져올 미래에 대해 실질적인 기술 목표와 비전을 보다 자세하게 논의하여야 한다고 주장한다. 그리고 이 에세이가 이를 위한 시작의 계기로 봤으면 좋겠다고 아모데이는 말한다. Machine..
앤트로픽ceo 에세이 Machines of Loving Grace, 전문 요약 번역원문 : https://darioamodei.com/machines-of-loving-grace Anthropic CEO 다리오 아모데이가 AI가 어떻게 세상을 더 나은 곳으로 변화시킬 수 있는지에 대해 작성한 에세이이다. 아모데이가 강조하는 것 처럼 AI가 가져올 세상을 급진적이면서 동시에 자세하게 논의한다. AI 기술이 대두된 이후로 AI 기술이 가져오는 미래에 대해서 '급진적으로만' 다뤄지는 경우가 많았다. 즉 이를 진지하게 분석하는 것이 아닌 'SF적'으로 표현해왔다는 것이다. 이를 경계하고 앞으로는 AI 기술이 가져올 미래에 대해 실질적인 기술 목표와 비전을 보다 자세하게 논의하여야 한다고 주장한다. 그리고 이 에세이가 이를 위한 시작의 계기로 봤으면 좋겠다고 아모데이는 말한다. Machine..
2024.10.18 -
ZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
[RLHF] dDPO (Zephyr) : Direct Distillation of LM AlignmentZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT link : https://arxiv.org/pdf/2310.16944 ✲ Abstract 해당 논문의 목적은 더 작은 언어 모델을 user intent에 맞게 align 하는 것이다. 이전 방법들은 distilled supervised fine-tuning (dSFT)를 사용해 큰 모델의 task accuracy를 향상시켰다. 하지만 이러한 방법은 "unaligned"이다. 즉, task prompt 한해 학습을 했기 때문에 natural prompts에는 잘 반응하지 않는다. 이러한 문제를 해결하는 distillation 방법을 제안하며 dDPO (distilled DPO) 라 한다. 먼저 teacher model..
2024.10.04 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
[RLHF] BOND (2) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 (1)편 [RLHF] BOND: Aligning LLMs with Best-of-N Distillation (1)BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL traebbnflow.tistory.com ‣ 3. Iterative BOND 최종적으로 parameter N을 어떻게 ..
2024.08.18 -
BOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
[RLHF] BOND (1) : Aligning LLMs with Best-of-N DistillationBOND: Aligning LLMs with Best-of-N Distillation link : https://arxiv.org/abs/2407.14622 구글 딥마인드에서 새로운 RLHF method, J-BOND에 대해 소개한 논문이다. 해당 방법은 Gemma1.1 모델 학습시 사용되어 reward/KL trade-off 방식을 사용하는 강화학습 기반 baseline들에 비해 outperform하는 성능을 보여준다고 한다. J-BOND는 보상 분위수를 추정하기 위해 Monte Carlo 샘플링을 사용하여 Best-of-N 샘플링을 emulate하는 Best-of-N Distillation 알고리즘을 도입하였다. 알고리즘을 간단하게 요약하면 다음과 같다. 1. 프롬프트와 리워드모델을 수집2. 각..
2024.08.12 -
EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
[NLP] EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language ModelsEEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
2024.08.11 -
LoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
[NLP] LoRA: Low-Rank Adaptation of Large Language ModelsLoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
2024.08.04 -
✲ 모델 양자화 (Quantization) 모델 양자화(Quantization)은 모델의 가중치(weight)와 활성화 함수(activation function) 출력 값을 낮은 정밀도(precision)으로 변환하여 메모리를 줄이고 연산을 빠르게 하는 기법이다. 모델 가중치 값 등을 실수형(floating-point) 변수에서 정수형(integer or fixed point) 변수로 변환하여 모델의 성능은 보존하되 사이즈를 줄여 모델의 실행과 배포를 효율적으로 하는 것이다. 낮은 정밀도(precision)으로 변환한다는 것은 다음과 같다. 먼저 데이터를 표현하는 부동 소수점(Floating Point)는 정규화를 통해 더 많은 수를 적은 메모리로 표현하기 위한 것이다. 데이터를 "부호 x 가수 x 밑..
모델 양자화 (Quantization) 개념✲ 모델 양자화 (Quantization) 모델 양자화(Quantization)은 모델의 가중치(weight)와 활성화 함수(activation function) 출력 값을 낮은 정밀도(precision)으로 변환하여 메모리를 줄이고 연산을 빠르게 하는 기법이다. 모델 가중치 값 등을 실수형(floating-point) 변수에서 정수형(integer or fixed point) 변수로 변환하여 모델의 성능은 보존하되 사이즈를 줄여 모델의 실행과 배포를 효율적으로 하는 것이다. 낮은 정밀도(precision)으로 변환한다는 것은 다음과 같다. 먼저 데이터를 표현하는 부동 소수점(Floating Point)는 정규화를 통해 더 많은 수를 적은 메모리로 표현하기 위한 것이다. 데이터를 "부호 x 가수 x 밑..
2024.08.01