✨ AI/AI papers
-
[RLHF] The wisdom of hindsight makes language models better instruction followers(HIR)✨ AI/AI papers 2023. 3. 26. 19:23
The wisdom of hindsight makes language models better instruction followers https://arxiv.org/abs/2302.05206 The Wisdom of Hindsight Makes Language Models Better Instruction Followers Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demon..
-
[RL] Efficient Planning in a Compact Latent Action Space, TAP✨ AI/AI papers 2023. 3. 19. 20:35
Efficient Planning in a Compact Latent Action Space Trajectory Transformer처럼 planning-based sequence modeling approach이며, Transformer의 느린 Decoding Time을 해결한 논문이다. Sum up state-conditioned VQ VAE를 trajectory를 모델링해서 compact latent space에서의 planning이 가능하게함 생성모델의 prob estimation을 사용해서 explicitly하게 에이전트가 너무 behaviour policy를 벗어나거나 cofidence가 낮은 plan을 하지 않도록 함 offline RL setting에서 Empirical evaluation..
-
[RL, Dialogue task] Bayes-Adaptive Monte-Carlo Planning and Learning for Goal-Oriented Dialogues✨ AI/AI papers 2023. 1. 8. 19:01
Paper URL : http://ailab.kaist.ac.kr/papers/pdfs/JLK2020.pdf Abstract Strategic dialogue task 문제는 Bayesian Planning으로 formuate 될 수 있는데, 모든 발화의 경우의 수를 고려해야하므로 엄청 큰 Search Space 때문에 bayesian planning으로 풀기는 어렵다. 그래서 해당 논문에서는 효율적으로 Bayes-adaptive planning algorithm을 사용해서 goal-oriented dialogue task를 푸는 것을 제안한다. 해당 알고리즘은 줄여서 BADP라고 하고 RNN-based 대화 생성 모델과 MCTS(Monte carlo tree search)-based Bayesian p..