홈
미디어로그
방명록

분류 전체보기 (118)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

삶은 확률의 구름 삶은 확률의 구름

컨텐츠 검색

전체 글

[NLP] Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation
✨ AI/AI papers 2023. 5. 12. 23:06

Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation link : https://aclanthology.org/2021.emnlp-main.130.pdf Abstract 해당 논문은 Simultaneous Machine Translation task에 관한 논문으로 해당 task를 수행하기 위한 novel supervised learning approach를 제안한다. 이는 에이전트가 full-sentence translation에서 디코딩 target token을 만들기 위해 simultaneous translation에서 필요한 read 수를 줄이도록 하는 것이다. oracle sequ..

[CS25 4강] Decision Transformers: Reinforcement Learning Via Sequence Modeling
✨ AI/NLP 2023. 5. 5. 15:23

Decision Transformer를 설명하기 앞서 우리가 왜 이에 대해 얘기하는지 동기를 부여해보겠다. Transformer가 인공지능의 많은 분야에 큰 영향을 미쳤고, NLP, Vision, 단백질 폴딩 문제 등을 해결하였다. 그래서 이 모든 발전이 의사결정이나, 인공 지능을 위한 통합 모델에 가까워지고 있는 것 처럼 보이지만, 인공지능은 단지 perception을 가지는 것 뿐 아니라 perception knowledge가 의사결정을 위해 사용하는 방법에 대해 생각해봐야 한다. Transformer는 RL 모델과 달리 확장에 용이하며 매우 안정적인 training dynamics를 가지고 있다. 따라서 우리는 더 큰 모델과 리소스를 사용할 수 있으며 더 풍부한 분포를 학습할 수 있다. 즉, tra..

[RLHF] PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training
✨ AI/AI papers 2023. 4. 30. 19:56

PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Link : https://arxiv.org/pdf/2106.05091.pdf Abstract RL 에이전트에게 복잡한 objective를 전달하는 것은 종종 어렵고, 충분히 정보를 제공하면서도 충분히 쉽게 제공할 수 있는 보상 함수를 세심하게 디자인해야 한다. 그래서 human feedback을 통해 agent를 학습하는 방법이 있지만, 많은 양의 human feedback이 필요하므로 challenging하다. 해당 논문에서는 human-in-the-loop RL 에서, sample-effic..

[RLHF] Preference Transformer: Modeling Human Preferences Using Transformers For RL
✨ AI/AI papers 2023. 4. 28. 23:02

Preference Transformer: Modeling Human Preferences Using Transformers For RL Link : https://arxiv.org/pdf/2303.00957.pdf Abstract 사람의 선호로도를 베이스로한 강화학습 방법은 에이전트가 두 behavior 간의 사람의 선호도를 학습할 수 있게 해준다. 하지만, Preference-based RL은 사람의 의도에 관한 reward function을 학습하기 위해 엄청나게 많은 양의 human feedback 데이터가 필요하다. 해당 논문은 트랜스포머를 사용해 사람의 선호도를 모델링하는 뉴럴넷 Preference Transformer를 제안한다. 이전 방법들은 사람의 판단이 의사결정을 내리는데 동등하게 기여..

ChatGPT Is A Blurry JPEG Of The Web - 테드창
✨ AI 2023. 4. 22. 18:48

ChatGPT Is A Blurry JPEG Of The Web By Ted Chiang, Feb 09, 2023 Link : https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web ChatGPT는 웹의 흐릿한 JPEG이다. OpenAI 챗봇은 paraphrase(다른말로 바꾼 말)을 주는 반면 Google은 인용문을 준다. 우리는 어떤 걸 더 선호할까? 2013년도에, 독일 건설회사의 근로자들이 Xerox 복사기에서 이상한 점을 하나 발견했다. 집의 평면도 사본을 만들었을 때 사본은 원본가 미묘하지만 중요한 방식으로 달랐다. 원본 평면도에서는, 집의 각 3방에 면적이 표시된 정사각형이 붙어 있었는데 방..

이전

1 2 3 4 5 6 ··· 24

다음

인기포스트

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바