분류 전체보기
-
[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training✨ AI/AI papers 2023. 4. 30. 19:56
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..
-
[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RL✨ AI/AI papers 2023. 4. 28. 23:02
Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..
-
ChatGPT Is A Blurry JPEG Of The Web - 테드창✨ AI 2023. 4. 22. 18:48
ChatGPT Is A Blurry JPEG Of The Web By Ted Chiang, Feb 09, 2023 Link : https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web ChatGPT는 웹의 흐릿한 JPEG이다. OpenAI 챗봇은 paraphrase(다른말로 바꾼 말)을 주는 반면 Google은 인용문을 준다. 우리는 어떤 걸 더 선호할까? 2013년도에, 독일 건설회사의 근로자들이 Xerox 복사기에서 이상한 점을 하나 발견했다. 집의 평면도 사본을 만들었을 때 사본은 원본가 미묘하지만 중요한 방식으로 달랐다. 원본 평면도에서는, 집의 각 3방에 면적이 표시된 정사각형이 붙어 있었는데 방..
-
[NLP] Hidden Markov Transformer for Simultaneous Machine Translation✨ AI/AI papers 2023. 4. 20. 23:04
Hidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..