전체 글
-
[CS25 2강] Transformers in Language: The development of GPT Models including GPT3✨ AI/NLP 2023. 4. 9. 23:25
CS25 2: Transformers in Language - Mark Chen(Open AI) GPT 시리즈에 대한 간단한 설명과 세미나를 Open AI 연구원이 진행한 세미나이다. 크게 어려운 내용이나 흥미로운 부분은 없었으나 Open AI 연구원이 어떤 인사이트나 어떤 목적으로 GPT와 Language model을 바라보는지 알 수 있는 세미나다. Transformers in Language Transformer 발생 이전 모델들과 Transformer의 등장 배경 등에 대해서 설명한다. 3-Gram Model(Shannon 1951) two preceding words가 주어질 때 다음 word의 확률에 대한 아주 큰 lookup table을 이용한 모델. 단어들이 어느 정도 관련 있는 것 처럼 ..
-
[NLP, RL] Offline RL for Natural Language Generation with Implicit Q Learning, ILQL✨ AI/AI papers 2023. 4. 8. 23:41
Offline RL for Natural Language Generation with Implicit Q Learning(ILQL) Link : https://arxiv.org/pdf/2206.11871.pdf LLM(Large Language Model)은 User specified task를 완성시키는데는 일관성이 없을 수 있다. 이를 해결하기 위해 정확한 데이터로 Supervised finetuning하거나 RL로 finetuning하는 방법이 사용되었다. 이 논문에서 제안하는 ILQL은 novel offline RL 알고리즘을 활용해 전통적인 RL의 flexible utility optimization과 Simplicity, Stablility가 강점인 SL을 동시에 이용하여 Language mo..
-
[RLHF] The wisdom of hindsight makes language models better instruction followers(HIR)✨ AI/AI papers 2023. 3. 26. 19:23
The wisdom of hindsight makes language models better instruction followers https://arxiv.org/abs/2302.05206 The Wisdom of Hindsight Makes Language Models Better Instruction Followers Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demon..
-
[RL] Efficient Planning in a Compact Latent Action Space, TAP✨ AI/AI papers 2023. 3. 19. 20:35
Efficient Planning in a Compact Latent Action Space Trajectory Transformer처럼 planning-based sequence modeling approach이며, Transformer의 느린 Decoding Time을 해결한 논문이다. Sum up state-conditioned VQ VAE를 trajectory를 모델링해서 compact latent space에서의 planning이 가능하게함 생성모델의 prob estimation을 사용해서 explicitly하게 에이전트가 너무 behaviour policy를 벗어나거나 cofidence가 낮은 plan을 하지 않도록 함 offline RL setting에서 Empirical evaluation..
-
[CS25 1강] Transformers United: DL Models that have revolutionized NLP, CV, RL✨ AI/NLP 2023. 3. 15. 23:53
Transformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..