분류 전체보기
-
Behavior Transformers: Cloning k modes with one stone Link : https://arxiv.org/pdf/2206.11251.pdf Abstract behavior learning은 인상적인 발전을 보여주었지만, 아직 large scale의 human-generated dataset을 활용하지 못하기 때문에 비전이나 자연어처리 분야만큼의 발전을 이루진 않았다. Human behavior는 넓은 분산과 다중 모드를 가지고 있고 human demonstration데이터셋은 일반적으로 reward가 label되어 있지 않다. 이러한 속성은 현재 큰 스케일의 pre-collected dataset을 활용해서 offline RL과 Behavior Cloning(BC)에 ..
[RL] Behavior Transformers: Cloning k modes with one stoneBehavior Transformers: Cloning k modes with one stone Link : https://arxiv.org/pdf/2206.11251.pdf Abstract behavior learning은 인상적인 발전을 보여주었지만, 아직 large scale의 human-generated dataset을 활용하지 못하기 때문에 비전이나 자연어처리 분야만큼의 발전을 이루진 않았다. Human behavior는 넓은 분산과 다중 모드를 가지고 있고 human demonstration데이터셋은 일반적으로 reward가 label되어 있지 않다. 이러한 속성은 현재 큰 스케일의 pre-collected dataset을 활용해서 offline RL과 Behavior Cloning(BC)에 ..
2023.05.23 -
Encoding Recurrence Into Transformer Link : https://openreview.net/pdf?id=7YfHla7IxBJ Abstract 해당 논문은 RNN layer를 간단한 RNN의 sequence로 표현할 수 있음을 보이고, 이를 Transformer의 self-attention의 lightweight positional encoding matrix로 사용할 수 있음을 보인다. RNN layer에서 사용되는 recurrent dynamics는 multihead self-attention의 positional encoding으로 압축될 수 있고 이는 Transformer에서 recurrent dynamics를 통합할 수 있음을 의미한다. 여기서 소개되는 Reccurre..
Encoding Recurrence Into Transformer, ICLR 2023Encoding Recurrence Into Transformer Link : https://openreview.net/pdf?id=7YfHla7IxBJ Abstract 해당 논문은 RNN layer를 간단한 RNN의 sequence로 표현할 수 있음을 보이고, 이를 Transformer의 self-attention의 lightweight positional encoding matrix로 사용할 수 있음을 보인다. RNN layer에서 사용되는 recurrent dynamics는 multihead self-attention의 positional encoding으로 압축될 수 있고 이는 Transformer에서 recurrent dynamics를 통합할 수 있음을 의미한다. 여기서 소개되는 Reccurre..
2023.05.21 -
Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..
[NLP] Translation-based Supervision for Policy Generation in Simultaneous Neural Machine TranslationTranslation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..
2023.05.12 -
Decision Transformer를 설명하기 앞서 우리가 왜 이에 대해 얘기하는지 동기를 부여해보겠다. Transformer가 인공지능의 많은 분야에 큰 영향을 미쳤고, NLP, Vision, 단백질 폴딩 문제 등을 해결하였다. 그래서 이 모든 발전이 의사결정이나, 인공 지능을 위한 통합 모델에 가까워지고 있는 것 처럼 보이지만, 인공지능은 단지 perception을 가지는 것 뿐 아니라 perception knowledge가 의사결정을 위해 사용하는 방법에 대해 생각해봐야 한다. Transformer는 RL 모델과 달리 확장에 용이하며 매우 안정적인 training dynamics를 가지고 있다. 따라서 우리는 더 큰 모델과 리소스를 사용할 수 있으며 더 풍부한 분포를 학습할 수 있다. 즉, tra..
[CS25 4강] Decision Transformers: Reinforcement Learning Via Sequence ModelingDecision Transformer를 설명하기 앞서 우리가 왜 이에 대해 얘기하는지 동기를 부여해보겠다. Transformer가 인공지능의 많은 분야에 큰 영향을 미쳤고, NLP, Vision, 단백질 폴딩 문제 등을 해결하였다. 그래서 이 모든 발전이 의사결정이나, 인공 지능을 위한 통합 모델에 가까워지고 있는 것 처럼 보이지만, 인공지능은 단지 perception을 가지는 것 뿐 아니라 perception knowledge가 의사결정을 위해 사용하는 방법에 대해 생각해봐야 한다. Transformer는 RL 모델과 달리 확장에 용이하며 매우 안정적인 training dynamics를 가지고 있다. 따라서 우리는 더 큰 모델과 리소스를 사용할 수 있으며 더 풍부한 분포를 학습할 수 있다. 즉, tra..
2023.05.05 -
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-trainingPEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
2023.04.30 -
Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..
[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RLPreference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..
2023.04.28 -
ChatGPT Is A Blurry JPEG Of The Web By Ted Chiang, Feb 09, 2023 Link : https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web ChatGPT는 웹의 흐릿한 JPEG이다. OpenAI 챗봇은 paraphrase(다른말로 바꾼 말)을 주는 반면 Google은 인용문을 준다. 우리는 어떤 걸 더 선호할까? 2013년도에, 독일 건설회사의 근로자들이 Xerox 복사기에서 이상한 점을 하나 발견했다. 집의 평면도 사본을 만들었을 때 사본은 원본가 미묘하지만 중요한 방식으로 달랐다. 원본 평면도에서는, 집의 각 3방에 면적이 표시된 정사각형이 붙어 있었는데 방..
ChatGPT Is A Blurry JPEG Of The Web - 테드창ChatGPT Is A Blurry JPEG Of The Web By Ted Chiang, Feb 09, 2023 Link : https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web ChatGPT는 웹의 흐릿한 JPEG이다. OpenAI 챗봇은 paraphrase(다른말로 바꾼 말)을 주는 반면 Google은 인용문을 준다. 우리는 어떤 걸 더 선호할까? 2013년도에, 독일 건설회사의 근로자들이 Xerox 복사기에서 이상한 점을 하나 발견했다. 집의 평면도 사본을 만들었을 때 사본은 원본가 미묘하지만 중요한 방식으로 달랐다. 원본 평면도에서는, 집의 각 3방에 면적이 표시된 정사각형이 붙어 있었는데 방..
2023.04.22 -
Hidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..
[NLP] Hidden Markov Transformer for Simultaneous Machine TranslationHidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..
2023.04.20