홈
미디어로그
방명록

분류 전체보기 (118)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

삶은 확률의 구름 삶은 확률의 구름

컨텐츠 검색

✨ AI/AI papers

[NLP] Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation
✨ AI/AI papers 2023. 5. 12. 23:06

Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..

[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training
✨ AI/AI papers 2023. 4. 30. 19:56

PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..

[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RL
✨ AI/AI papers 2023. 4. 28. 23:02

Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..

[NLP] Hidden Markov Transformer for Simultaneous Machine Translation
✨ AI/AI papers 2023. 4. 20. 23:04

Hidden Markov Transformer for Simultaneous Machine Translation Link : https://arxiv.org/pdf/2303.00257.pdf Abstract Simultaneous machine translation(SiMT) task에서, 언제 translation을 시작할지에 대한 많은 가능한 moments 사이에서 optimal moment를 learning하는 것은 non-trivial하다. 왜냐하면, 번역 시작점은 항상 모델 안에 숨겨져 있고, 오직 관찰된 target sequence에 대해서만 supervised learning이 가능하기 때문이다. 따라서 해당 논문에서는, Hidden Markov Transformer(HMT)를 제안하며, H..

이전

1 2 3 4 5

다음

인기포스트

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바