자연어 NLP
-
FINE: FUTURE-AWARE INFERENCE FOR STREAMING SPEECH TRANSLATION [ICLR 2023] link : https://openreview.net/pdf?id=0VhwJYrZew Abstract Streaming speech translation 문제를 다룰 때, 여러 latency requirement를 위해 multiple online model을 training하는 것보다, single offline translation model에 wait-k policy를 적용하는 것은 간단한 대안이 될 수 있다. 하지만, 이는 complete utterance를 가지고 training된 모델로 partial streaming speech inference를 하는 것은 분..
[NLP] FINE: Future-aware Inference For Streaming Speech TranslationFINE: FUTURE-AWARE INFERENCE FOR STREAMING SPEECH TRANSLATION [ICLR 2023] link : https://openreview.net/pdf?id=0VhwJYrZew Abstract Streaming speech translation 문제를 다룰 때, 여러 latency requirement를 위해 multiple online model을 training하는 것보다, single offline translation model에 wait-k policy를 적용하는 것은 간단한 대안이 될 수 있다. 하지만, 이는 complete utterance를 가지고 training된 모델로 partial streaming speech inference를 하는 것은 분..
2023.04.18 -
Attention as a guide for Simultaneous Speech Translation Link : https://arxiv.org/pdf/2212.07850.pdf Abstract 어텐션 매커니즘이 많은 분야에 이용되고 있지만, Encoder-Decoder Attention(Cross Attention)의 behavior가 Speech Translation(ST)에서 논의된 적은 없었으며, Attention이 ST의 성능을 향상시키는지에 관해서도 마찬가지이다. 이 논문에서는 simultaneous ST를 위한 attention-based policy(EDATT)를 소개한다. 목적은 real time inference 때, translation 시점을 결정하는 SimulST task에서 가..
[NLP] Attention as a guide for Simultaneous Speech TranslationAttention as a guide for Simultaneous Speech Translation Link : https://arxiv.org/pdf/2212.07850.pdf Abstract 어텐션 매커니즘이 많은 분야에 이용되고 있지만, Encoder-Decoder Attention(Cross Attention)의 behavior가 Speech Translation(ST)에서 논의된 적은 없었으며, Attention이 ST의 성능을 향상시키는지에 관해서도 마찬가지이다. 이 논문에서는 simultaneous ST를 위한 attention-based policy(EDATT)를 소개한다. 목적은 real time inference 때, translation 시점을 결정하는 SimulST task에서 가..
2023.04.13 -
Offline RL for Natural Language Generation with Implicit Q Learning(ILQL) Link : https://arxiv.org/pdf/2206.11871.pdf LLM(Large Language Model)은 User specified task를 완성시키는데는 일관성이 없을 수 있다. 이를 해결하기 위해 정확한 데이터로 Supervised finetuning하거나 RL로 finetuning하는 방법이 사용되었다. 이 논문에서 제안하는 ILQL은 novel offline RL 알고리즘을 활용해 전통적인 RL의 flexible utility optimization과 Simplicity, Stablility가 강점인 SL을 동시에 이용하여 Language mo..
[NLP, RL] Offline RL for Natural Language Generation with Implicit Q Learning, ILQLOffline RL for Natural Language Generation with Implicit Q Learning(ILQL) Link : https://arxiv.org/pdf/2206.11871.pdf LLM(Large Language Model)은 User specified task를 완성시키는데는 일관성이 없을 수 있다. 이를 해결하기 위해 정확한 데이터로 Supervised finetuning하거나 RL로 finetuning하는 방법이 사용되었다. 이 논문에서 제안하는 ILQL은 novel offline RL 알고리즘을 활용해 전통적인 RL의 flexible utility optimization과 Simplicity, Stablility가 강점인 SL을 동시에 이용하여 Language mo..
2023.04.08 -
The wisdom of hindsight makes language models better instruction followers https://arxiv.org/abs/2302.05206 The Wisdom of Hindsight Makes Language Models Better Instruction Followers Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demon..
[RLHF] The wisdom of hindsight makes language models better instruction followers(HIR)The wisdom of hindsight makes language models better instruction followers https://arxiv.org/abs/2302.05206 The Wisdom of Hindsight Makes Language Models Better Instruction Followers Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demon..
2023.03.26 -
일반적으로 언어모델의 성능은 Perplexity, Cross Entropy, bit-per-character(BPC)로 측정하거나 GLUE benchmark의 Downstream task의 성능으로 측정된다. 그러나 Downstream task에 대해서는 task마다 지표가 상이할 수 있고 언어 모델 훈련시 모든 여러가지의 downstream task를 해보면서 측정하는 것은 reasonable하지 않을 수 있다. 언어모델은 일반적으로 perplexity를 minimize하는 것인데 perplexity가 0을 얻을 수 없기 때문에 perplexity의 lower bound가 무엇인가에 대해 생각해보아야 한다. 즉, optimal value 를 알 수 없다면, train한 언어모델이 얼마나 좋은지 어떻게 ..
[NLP] Evaluation Metric for Language Model(PPL, BLEU, ROUGE)일반적으로 언어모델의 성능은 Perplexity, Cross Entropy, bit-per-character(BPC)로 측정하거나 GLUE benchmark의 Downstream task의 성능으로 측정된다. 그러나 Downstream task에 대해서는 task마다 지표가 상이할 수 있고 언어 모델 훈련시 모든 여러가지의 downstream task를 해보면서 측정하는 것은 reasonable하지 않을 수 있다. 언어모델은 일반적으로 perplexity를 minimize하는 것인데 perplexity가 0을 얻을 수 없기 때문에 perplexity의 lower bound가 무엇인가에 대해 생각해보아야 한다. 즉, optimal value 를 알 수 없다면, train한 언어모델이 얼마나 좋은지 어떻게 ..
2022.09.12 -
딥러닝 기반 기계번역 발전과정 RNN → LSTM → Seq2Seq => 고정된 크기의 context vector 사용 → Attention → Transformer → GPT, BERT => 입력 시퀀스 전체에서 정보를 추출하는 방향으로 발전 GPT : transformer 디코더 아키텍처 활용 BERT : transformer 인코더 아키텍처 활용 Seq2Seq Model encoder = quten abend 각 토큰은 임베딩 레이어를 거쳐 RNN레이어를 지나게 된다. 그러면 각 레이어의 출력값(h1, h2,.. : activation function을 지난 후의 값)이 생기게 되며 이때 각 출력값은 다음 레이어의 입력으로 들어가게 된다.(RNN이기 때문) 각 출력값(h1, h2..)는 고정된 크기..
[NLP] Seq2Seq, Transformer, Bert 흐름과 정리딥러닝 기반 기계번역 발전과정 RNN → LSTM → Seq2Seq => 고정된 크기의 context vector 사용 → Attention → Transformer → GPT, BERT => 입력 시퀀스 전체에서 정보를 추출하는 방향으로 발전 GPT : transformer 디코더 아키텍처 활용 BERT : transformer 인코더 아키텍처 활용 Seq2Seq Model encoder = quten abend 각 토큰은 임베딩 레이어를 거쳐 RNN레이어를 지나게 된다. 그러면 각 레이어의 출력값(h1, h2,.. : activation function을 지난 후의 값)이 생기게 되며 이때 각 출력값은 다음 레이어의 입력으로 들어가게 된다.(RNN이기 때문) 각 출력값(h1, h2..)는 고정된 크기..
2021.09.19 -
Summarization NLP Task의 한 종류로 문서 집합에서 핵심되는 문장을 추출하거나 요약하는 분야를 말한다. Summarization의 접근법은 크게 두 가지가 있다. 1. Extractive Approaches ➡️ Unsupervised Learning 가능 Extractive approaches는 입력으로 주어진 문서 집합 "내"에서 중요한 단어나 문장을 선택하는 방법이다. 주어진 데이터 내에서만 문장과 키워드를 추출하기 때문에 문서와 관련이 없는 요약 결과를 낼 확률이 적지만 가능한 표현이 제한된다는 단점이 있다. Extractive Approaches의 대표적인 방법은 "Text Rank"가 있다. Text Rank는 Summarization을 딥러닝으로 하기 전 널리 사용되던 기법이..
[NLP] 키워드와 핵심 문장 추출(TextRank)Summarization NLP Task의 한 종류로 문서 집합에서 핵심되는 문장을 추출하거나 요약하는 분야를 말한다. Summarization의 접근법은 크게 두 가지가 있다. 1. Extractive Approaches ➡️ Unsupervised Learning 가능 Extractive approaches는 입력으로 주어진 문서 집합 "내"에서 중요한 단어나 문장을 선택하는 방법이다. 주어진 데이터 내에서만 문장과 키워드를 추출하기 때문에 문서와 관련이 없는 요약 결과를 낼 확률이 적지만 가능한 표현이 제한된다는 단점이 있다. Extractive Approaches의 대표적인 방법은 "Text Rank"가 있다. Text Rank는 Summarization을 딥러닝으로 하기 전 널리 사용되던 기법이..
2021.05.10 -
이전글한국어 데이터 전처리 이전 포스팅에서 텍스트 데이터의 전처리에 관한 내용을 살펴보았는데요. 그 다음 스텝은 자연어 처리를 위한 필수 코스 바로 '임베딩'입니다. 오늘은 임베딩에 대해서 정리해 볼거에요. 임베딩(embedding) 이란?자연어를 컴퓨터가 이해할 수 있으려면 자연어를 수치화 해야합니다. 자연어(영어, 한국어, 중국어...)를 수치화 한 것으로 벡터로 표현하는 것을 말하고 '임베딩'은 그 과정까지 모두 포함하는 단어이다. 'embed'는 한국어로 '끼워 넣는다'라는 의미이고, 자연어를 벡터 공간에 끼워 넣는다는 취지로 embedding이라는 용어가 생겨났다고 합니다. 사진 출처 자연어를 왜 벡터로 바꾸어야 할까요? 컴퓨터는 '언어'를 이해하지 못합니다. 우리가 프로그래밍 언어로 코드를 짜..
[NLP] 자연어처리 - 한국어 임베딩이전글한국어 데이터 전처리 이전 포스팅에서 텍스트 데이터의 전처리에 관한 내용을 살펴보았는데요. 그 다음 스텝은 자연어 처리를 위한 필수 코스 바로 '임베딩'입니다. 오늘은 임베딩에 대해서 정리해 볼거에요. 임베딩(embedding) 이란?자연어를 컴퓨터가 이해할 수 있으려면 자연어를 수치화 해야합니다. 자연어(영어, 한국어, 중국어...)를 수치화 한 것으로 벡터로 표현하는 것을 말하고 '임베딩'은 그 과정까지 모두 포함하는 단어이다. 'embed'는 한국어로 '끼워 넣는다'라는 의미이고, 자연어를 벡터 공간에 끼워 넣는다는 취지로 embedding이라는 용어가 생겨났다고 합니다. 사진 출처 자연어를 왜 벡터로 바꾸어야 할까요? 컴퓨터는 '언어'를 이해하지 못합니다. 우리가 프로그래밍 언어로 코드를 짜..
2020.10.30