인공지능 AI
-
CS25 2: Transformers in Language - Mark Chen(Open AI) GPT 시리즈에 대한 간단한 설명과 세미나를 Open AI 연구원이 진행한 세미나이다. 크게 어려운 내용이나 흥미로운 부분은 없었으나 Open AI 연구원이 어떤 인사이트나 어떤 목적으로 GPT와 Language model을 바라보는지 알 수 있는 세미나다. Transformers in Language Transformer 발생 이전 모델들과 Transformer의 등장 배경 등에 대해서 설명한다. 3-Gram Model(Shannon 1951) two preceding words가 주어질 때 다음 word의 확률에 대한 아주 큰 lookup table을 이용한 모델. 단어들이 어느 정도 관련 있는 것 처럼 ..
[CS25 2강] Transformers in Language: The development of GPT Models including GPT3CS25 2: Transformers in Language - Mark Chen(Open AI) GPT 시리즈에 대한 간단한 설명과 세미나를 Open AI 연구원이 진행한 세미나이다. 크게 어려운 내용이나 흥미로운 부분은 없었으나 Open AI 연구원이 어떤 인사이트나 어떤 목적으로 GPT와 Language model을 바라보는지 알 수 있는 세미나다. Transformers in Language Transformer 발생 이전 모델들과 Transformer의 등장 배경 등에 대해서 설명한다. 3-Gram Model(Shannon 1951) two preceding words가 주어질 때 다음 word의 확률에 대한 아주 큰 lookup table을 이용한 모델. 단어들이 어느 정도 관련 있는 것 처럼 ..
2023.04.09 -
Efficient Planning in a Compact Latent Action Space Trajectory Transformer처럼 planning-based sequence modeling approach이며, Transformer의 느린 Decoding Time을 해결한 논문이다. Sum up state-conditioned VQ VAE를 trajectory를 모델링해서 compact latent space에서의 planning이 가능하게함 생성모델의 prob estimation을 사용해서 explicitly하게 에이전트가 너무 behaviour policy를 벗어나거나 cofidence가 낮은 plan을 하지 않도록 함 offline RL setting에서 Empirical evaluation..
[RL] Efficient Planning in a Compact Latent Action Space, TAPEfficient Planning in a Compact Latent Action Space Trajectory Transformer처럼 planning-based sequence modeling approach이며, Transformer의 느린 Decoding Time을 해결한 논문이다. Sum up state-conditioned VQ VAE를 trajectory를 모델링해서 compact latent space에서의 planning이 가능하게함 생성모델의 prob estimation을 사용해서 explicitly하게 에이전트가 너무 behaviour policy를 벗어나거나 cofidence가 낮은 plan을 하지 않도록 함 offline RL setting에서 Empirical evaluation..
2023.03.19 -
Transformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..
[CS25 1강] Transformers United: DL Models that have revolutionized NLP, CV, RLTransformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..
2023.03.15 -
Paper URL : http://ailab.kaist.ac.kr/papers/pdfs/JLK2020.pdf AbstractStrategic dialogue task 문제는 Bayesian Planning으로 formuate 될 수 있는데, 모든 발화의 경우의 수를 고려해야하므로 엄청 큰 Search Space 때문에 bayesian planning으로 풀기는 어렵다. 그래서 해당 논문에서는 효율적으로 Bayes-adaptive planning algorithm을 사용해서 goal-oriented dialogue task를 푸는 것을 제안한다. 해당 알고리즘은 줄여서 BADP라고 하고 RNN-based 대화 생성 모델과 MCTS(Monte carlo tree search)-based Bayesian pl..
[RL] Bayes-Adaptive Monte-Carlo Planning and Learning for Goal-Oriented DialoguesPaper URL : http://ailab.kaist.ac.kr/papers/pdfs/JLK2020.pdf AbstractStrategic dialogue task 문제는 Bayesian Planning으로 formuate 될 수 있는데, 모든 발화의 경우의 수를 고려해야하므로 엄청 큰 Search Space 때문에 bayesian planning으로 풀기는 어렵다. 그래서 해당 논문에서는 효율적으로 Bayes-adaptive planning algorithm을 사용해서 goal-oriented dialogue task를 푸는 것을 제안한다. 해당 알고리즘은 줄여서 BADP라고 하고 RNN-based 대화 생성 모델과 MCTS(Monte carlo tree search)-based Bayesian pl..
2023.01.08 -
Entropy Entropy는 정보를 표현하는데 있어 필요한 평균 최소 정보 자원량을 말한다. 그래서 Entropy가 크면 나타내는 정보량이 많다는 것을 의미한다. 예를 들어서 "월화수목금토일" 7개 요일을 표현한다고 하면, 총 7bit가 필요할까? 월 000 화 001 수 010 목 100 금 101 토 110 일 011 이런식으로 정보를 인코딩해서 표현하게 되면 7개의 요일을 표기하는데 약 3bit가 필요하다. N개의 정보를 표시하는데 총 log_2(N) 비트가 필요하다. 즉, 최소 자원량은 bit로 얼마나 짧게 표현될 수 있느냐를 의미한다. 맑은날인지 비가 오는 날인지 정보를 표현한다고 할 때, 실제로 맑은날이 비오는날 보다 더 자주 있으므로 맑은날을 표현할 때 더 짧은 bit로 전송해야 할 것이다..
KL-DivergenceEntropy Entropy는 정보를 표현하는데 있어 필요한 평균 최소 정보 자원량을 말한다. 그래서 Entropy가 크면 나타내는 정보량이 많다는 것을 의미한다. 예를 들어서 "월화수목금토일" 7개 요일을 표현한다고 하면, 총 7bit가 필요할까? 월 000 화 001 수 010 목 100 금 101 토 110 일 011 이런식으로 정보를 인코딩해서 표현하게 되면 7개의 요일을 표기하는데 약 3bit가 필요하다. N개의 정보를 표시하는데 총 log_2(N) 비트가 필요하다. 즉, 최소 자원량은 bit로 얼마나 짧게 표현될 수 있느냐를 의미한다. 맑은날인지 비가 오는 날인지 정보를 표현한다고 할 때, 실제로 맑은날이 비오는날 보다 더 자주 있으므로 맑은날을 표현할 때 더 짧은 bit로 전송해야 할 것이다..
2022.03.20 -
Model-based & Model-free Reinforcement Learning 강화학습 알고리즘은 아주 크게 2가지가 있다. 하나는 Model-based고 하나는 Model-free. (강화학습 알고리즘의 종류는 계층적으로 딱 나눌 수 없는데, Model-based면서 Model-free인 것도 있고 뭐 그렇다...) Sutton 책 기준에서 Model-based RL이라고 하면 주로 "Planning"하는 것을 말하고 Model-free는 주로 "Learning"하는 것을 말한다. Planning은 Environment의 Model을 어느정도 알거나 주어진 상태에서 문제를 푸는 것을 말한다. 즉 어떤 action에 있어 좋은 reward를 받게 끔 policy를 improve한다. Learnin..
Model-based Reinforcement LearningModel-based & Model-free Reinforcement Learning 강화학습 알고리즘은 아주 크게 2가지가 있다. 하나는 Model-based고 하나는 Model-free. (강화학습 알고리즘의 종류는 계층적으로 딱 나눌 수 없는데, Model-based면서 Model-free인 것도 있고 뭐 그렇다...) Sutton 책 기준에서 Model-based RL이라고 하면 주로 "Planning"하는 것을 말하고 Model-free는 주로 "Learning"하는 것을 말한다. Planning은 Environment의 Model을 어느정도 알거나 주어진 상태에서 문제를 푸는 것을 말한다. 즉 어떤 action에 있어 좋은 reward를 받게 끔 policy를 improve한다. Learnin..
2022.03.18 -
최대 우도법이 잘 이해가 가지 않는다면 유투브 StatQuest with Josh Starmer의 위 동영상을 봅시다 정말 간결하고 이해가 잘되서 갖고 와봤습니다 ~.~ 최대우도법은 단어 그대로 '우도(likelihood, 가능도)'를 '최대화'하는 지점을 찾는 것을 의미합니다. 우도(Likelihood) "데이터가 이 분포로부터 나왔을 가능도" 우리가 가지고 있는 데이터는 보통 모집단(population)에서 일부분(sample)을 가져왔을 것이다. 예를 들어서 모델링하고자 하는 문제가 "남반구 지역의 물고기 개체수를 예측"하는 것이라고 해보자, 그렇다면 풀고자 하는 문제의 모집단은 "남반구 지역의 시간에 따른 전체 물고기 개체수"지만 관측된 데이터는 모든 물고기 수는 아닐 것이다. 그렇다면 전체 물고..
MLE(Maximum Likelihood Estimation) 최대우도법최대 우도법이 잘 이해가 가지 않는다면 유투브 StatQuest with Josh Starmer의 위 동영상을 봅시다 정말 간결하고 이해가 잘되서 갖고 와봤습니다 ~.~ 최대우도법은 단어 그대로 '우도(likelihood, 가능도)'를 '최대화'하는 지점을 찾는 것을 의미합니다. 우도(Likelihood) "데이터가 이 분포로부터 나왔을 가능도" 우리가 가지고 있는 데이터는 보통 모집단(population)에서 일부분(sample)을 가져왔을 것이다. 예를 들어서 모델링하고자 하는 문제가 "남반구 지역의 물고기 개체수를 예측"하는 것이라고 해보자, 그렇다면 풀고자 하는 문제의 모집단은 "남반구 지역의 시간에 따른 전체 물고기 개체수"지만 관측된 데이터는 모든 물고기 수는 아닐 것이다. 그렇다면 전체 물고..
2021.10.28 -
빅데이터가 많아짐에 따라 표본 추출(sampling)이 필요 없는 것은 아니다. 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없는 데이터가 훨씬 많을 뿐더러 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본추출의 중요성이 더 커지고 있다. 또, 모델링의 경우 결국 작은 sample data를 가지고 예측 모델을 개발하고 테스트하기도 한다. Sampling Distribution (표본 분포) Ramdom Sampling and Sample Bias Ramdom Sampling 모집단 내에서 무작위로 샘플을 추출하는 경우로 그 결과 얻은 데이터를 Simple ramdom sample(단순임의표본)이라고 한다. 중복 추출이 가능하도록 추출한 샘플을 다시 모집단에 포함시키는 것을 ..
Sampling Distribution빅데이터가 많아짐에 따라 표본 추출(sampling)이 필요 없는 것은 아니다. 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없는 데이터가 훨씬 많을 뿐더러 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본추출의 중요성이 더 커지고 있다. 또, 모델링의 경우 결국 작은 sample data를 가지고 예측 모델을 개발하고 테스트하기도 한다. Sampling Distribution (표본 분포) Ramdom Sampling and Sample Bias Ramdom Sampling 모집단 내에서 무작위로 샘플을 추출하는 경우로 그 결과 얻은 데이터를 Simple ramdom sample(단순임의표본)이라고 한다. 중복 추출이 가능하도록 추출한 샘플을 다시 모집단에 포함시키는 것을 ..
2021.05.06