NLP
-
Agentic AI system 일반적인 AI 시스템은 사용자의 요청에 단일 응답만을 수동적으로 출력하는 구조이다. Agentic AI는 사용자의 쿼리를 분석해 목표를 이해하고 그 목표를 달성하기 위해 계획을 세우고, 여러 작업을 실행하고 결과를 재평가하는 과정을 스스로 수행하는 시스템을 의미한다. 단일 지시-응답 구조가 아니라 연속적인 의사결정이 필요하다는 점이 큰 포인트이다. 이러한 능동적인 AI system에 있어 유연성이 중요한 반면 그만큼 통제가 어렵다는 문제가 있다. 최근에 OpenAI의 agent sdk를 활용하여 간단한 앱을 구성해보았었다. 아주 단순한 작업임에도 오케스트레이션이 적절한 툴을 호출하지 못하거나, 툴만 호출하고 툴 결과를 재조합해서 답변을 하거나 툴을 호출하지 않았음에도 호출..
[Agent] Plan-and-Act: Improving Planning of Agents for Long-Horizon TasksAgentic AI system 일반적인 AI 시스템은 사용자의 요청에 단일 응답만을 수동적으로 출력하는 구조이다. Agentic AI는 사용자의 쿼리를 분석해 목표를 이해하고 그 목표를 달성하기 위해 계획을 세우고, 여러 작업을 실행하고 결과를 재평가하는 과정을 스스로 수행하는 시스템을 의미한다. 단일 지시-응답 구조가 아니라 연속적인 의사결정이 필요하다는 점이 큰 포인트이다. 이러한 능동적인 AI system에 있어 유연성이 중요한 반면 그만큼 통제가 어렵다는 문제가 있다. 최근에 OpenAI의 agent sdk를 활용하여 간단한 앱을 구성해보았었다. 아주 단순한 작업임에도 오케스트레이션이 적절한 툴을 호출하지 못하거나, 툴만 호출하고 툴 결과를 재조합해서 답변을 하거나 툴을 호출하지 않았음에도 호출..
2025.07.20 -
Large Language Diffusion Models link : https://arxiv.org/pdf/2502.09992 Overview 기존 대부분의 LLM은 Autoregressive 방식을 따른다. 즉, 주어진 이전 토큰들을 기반으로 다음 토큰을 순차적으로 예측하며 문장을 생성하는 방식이다.이 논문의 저자들은 LLM의 핵심 능력은 Autoregressive 구조에만 의존하지 않으며 다른 생성 방식으로도 기존 SOTA LLM에 필적하는 성능을 낼 수 있다고 주장한다. 이에 따라 저자들은 새로운 접근 방식인 LLaDA (Large Language Diffusion Models)를 제안한다. LLaDA는 전체 문장을 순차적으로 예측하지 않고,일부분이 마스킹된 토큰 시퀀스를 입력으로 받아마스킹된 ..
[NLP] Large Language Diffusion Models (LLaDA)Large Language Diffusion Models link : https://arxiv.org/pdf/2502.09992 Overview 기존 대부분의 LLM은 Autoregressive 방식을 따른다. 즉, 주어진 이전 토큰들을 기반으로 다음 토큰을 순차적으로 예측하며 문장을 생성하는 방식이다.이 논문의 저자들은 LLM의 핵심 능력은 Autoregressive 구조에만 의존하지 않으며 다른 생성 방식으로도 기존 SOTA LLM에 필적하는 성능을 낼 수 있다고 주장한다. 이에 따라 저자들은 새로운 접근 방식인 LLaDA (Large Language Diffusion Models)를 제안한다. LLaDA는 전체 문장을 순차적으로 예측하지 않고,일부분이 마스킹된 토큰 시퀀스를 입력으로 받아마스킹된 ..
2025.06.29 -
EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
[NLP] EEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language ModelsEEVE: Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models link : https://arxiv.org/pdf/2402.14714 예전에는 사전 학습부터 한국어 코퍼스를 사용한 모델도 꽤 있었던 것 같은데 최근에는 multilingual 대형 언어 모델을 한국어로 튜닝한 모델이 지배적이다. 최근 한국어 모델 중 성능이 좋기로 유명한 SOLAR-10.7B, Phi-2와 같은 모델도 기존 영어 중심의 언어 모델과 동일한 구조와 토크나이저를 사용한다. 한국어 task를 처리하는데 있어 기존 사용되던 대형 모델들은 불필요한 지식까지 포함하거나 한국어 task 성능을 높이는데 방해가 되진 않을까 하는 ..
2024.08.11 -
LoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
[NLP] LoRA: Low-Rank Adaptation of Large Language ModelsLoRA: Low-Rank Adaptation of Large Language Models link : https://arxiv.org/abs/2106.09685 ✲ Abstract & Introduction LLM 학습에 있어 full fine-tuning (모델의 모든 파라미터를 학습하는 것)은 비효율적이다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)라는 효율적인 방법을 제안. LoRA는 pre-trained 모델의 가중치를 freeze하고, 각 transformer layer에 학습 가능한 rank decomposition matrices를 삽입해 다운스트림 task에서 필요한 학습할 파라미터 수를 획기적으로 줄인다. GPT-3 175B 기준으로 LoRA는 full-fin..
2024.08.04 -
RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
[NLP] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksRAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks link : https://arxiv.org/pdf/2005.11401 ✲ Abstract 기존 대량의 코퍼스에 있는 factual knowledge를 가지고 대형 사전 훈련 언어 모델은 down-stream NLP tasks에 파인튜닝되어 자연어 생성과 이해에서 좋은 성능을 보여주었다. 하지만 지식 집약적인 tasks의 성능은 뒤쳐져 있는 편이며 새로운 지식에 접근하거나 정교하게 조작하는 것은 한계가 있다. 이를 위해 해당 논문에서는 RAG (Retrieval-Augmented Generation)라는 새로운 Fine-tuning recipe를 제안한다. RAG는 다운 스트림 ..
2024.07.28 -
ORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
[RLHF] ORPO: Monolithic Preference Optimization without Reference ModelORPO: Monolithic Preference Optimization without Reference Model link : https://arxiv.org/pdf/2403.07691 ✲ Abstract 최근 Preference alignment 알고리즘이 좋은 결과를 보이는 동안, SFT (supervised fine-tuning) 과정이 convergence를 위해 꼭 필요한 과정인가는 논의되지 않았다. 본 논문에서는 preference alignment 맥락에서 SFT의 중요한 역할에 대해 연구하고, 선호하지 않는 생성 스타일을 위한 minor penalty가 preference-aligned SFT에서 충분하다는 점을 강조한다. 이를 위해 간단하면서도 혁신적인 reference model..
2024.05.26 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
[RLHF] IPO (2) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (2) link: https://arxiv.org/pdf/2310.12036.pdf [RLHF] A General Theoretical Paradigm to Understand Learning from Human Preferences, IPO - (1)A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Hum..
2024.03.25 -
IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
[RLHF] IPO (1) : A General Theoretical Paradigm to Understand Learning from Human PreferencesIPO: A General Theoretical Paradigm to Understand Learning from Human Preferences link: https://arxiv.org/pdf/2310.12036.pdf ✲ Abstract 널리 퍼져 있는 RLHF(Reinforcement Learning from Human Feedback)은 2가지 중요한 가정에 의존한다.1) pairwise reward가 pointwise comparison으로 대체가 가능하다.2) 이로부터 train된 reward model은 OOD generalization에 도움이 된다. 선행 연구인 DPO(Direct Preference Optimization)에서는 reward model과 policy optimiz..
2024.01.10