✨ AI/AI papers
-
Encoding Recurrence Into Transformer, ICLR 2023✨ AI/AI papers 2023. 5. 21. 21:43
Encoding Recurrence Into Transformer Link : https://openreview.net/pdf?id=7YfHla7IxBJ Abstract 해당 논문은 RNN layer를 간단한 RNN의 sequence로 표현할 수 있음을 보이고, 이를 Transformer의 self-attention의 lightweight positional encoding matrix로 사용할 수 있음을 보인다. RNN layer에서 사용되는 recurrent dynamics는 multihead self-attention의 positional encoding으로 압축될 수 있고 이는 Transformer에서 recurrent dynamics를 통합할 수 있음을 의미한다. 여기서 소개되는 Reccurre..
-
[NLP] Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation✨ AI/AI papers 2023. 5. 12. 23:06
Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..
-
[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training✨ AI/AI papers 2023. 4. 30. 19:56
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
-
[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RL✨ AI/AI papers 2023. 4. 28. 23:02
Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..