분류 전체보기
-
Transformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..
[CS25 1강] Transformers United: DL Models that have revolutionized NLP, CV, RLTransformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..
2023.03.15 -
블로그 포스팅을 오랫동안 하지 못해서 유입이 많이 줄었지만, 오늘은 제가 출간한 두번 째 책을 소개해보도록 하겠습니다. 책 소개 이 책을 한 줄로 정의하면 ‘개발자가 되기 위해 기본적으로 알아야 할 I T 기술, 환경에 관한 넓고 얕은 지식’이다. 어렵게 머리를 싸매고 읽어야 하는 부담스러운 IT 책이 아닌, 개발자가 알아야 하는 꼭 필요한 개념과 용어를 인문 도서처럼 술술 읽을 수 있게 설명하였다. 개발자가 되기 위해 알아야 할 것은 두꺼운 책에나 쓰여 있는 딱딱한 지식이 아니다. 문제를 찾아 해결하기 위한 일련의 과정과 그 속에서 필요한 ‘키워드’와 ‘개념’이다. 이 책은 언어, 프레임워크, 디자인 패턴, 개발도구, 클라우드 등등 넓고 얕은 지식을 통해 검색하는 능력을 키우고 해결하고자 하는 문제를 ..
[개발자 상식] 개발자가 되기 위한 첫 걸음을 떼어줄 책블로그 포스팅을 오랫동안 하지 못해서 유입이 많이 줄었지만, 오늘은 제가 출간한 두번 째 책을 소개해보도록 하겠습니다. 책 소개 이 책을 한 줄로 정의하면 ‘개발자가 되기 위해 기본적으로 알아야 할 I T 기술, 환경에 관한 넓고 얕은 지식’이다. 어렵게 머리를 싸매고 읽어야 하는 부담스러운 IT 책이 아닌, 개발자가 알아야 하는 꼭 필요한 개념과 용어를 인문 도서처럼 술술 읽을 수 있게 설명하였다. 개발자가 되기 위해 알아야 할 것은 두꺼운 책에나 쓰여 있는 딱딱한 지식이 아니다. 문제를 찾아 해결하기 위한 일련의 과정과 그 속에서 필요한 ‘키워드’와 ‘개념’이다. 이 책은 언어, 프레임워크, 디자인 패턴, 개발도구, 클라우드 등등 넓고 얕은 지식을 통해 검색하는 능력을 키우고 해결하고자 하는 문제를 ..
2023.03.15 -
Paper URL : http://ailab.kaist.ac.kr/papers/pdfs/JLK2020.pdf AbstractStrategic dialogue task 문제는 Bayesian Planning으로 formuate 될 수 있는데, 모든 발화의 경우의 수를 고려해야하므로 엄청 큰 Search Space 때문에 bayesian planning으로 풀기는 어렵다. 그래서 해당 논문에서는 효율적으로 Bayes-adaptive planning algorithm을 사용해서 goal-oriented dialogue task를 푸는 것을 제안한다. 해당 알고리즘은 줄여서 BADP라고 하고 RNN-based 대화 생성 모델과 MCTS(Monte carlo tree search)-based Bayesian pl..
[RL] Bayes-Adaptive Monte-Carlo Planning and Learning for Goal-Oriented DialoguesPaper URL : http://ailab.kaist.ac.kr/papers/pdfs/JLK2020.pdf AbstractStrategic dialogue task 문제는 Bayesian Planning으로 formuate 될 수 있는데, 모든 발화의 경우의 수를 고려해야하므로 엄청 큰 Search Space 때문에 bayesian planning으로 풀기는 어렵다. 그래서 해당 논문에서는 효율적으로 Bayes-adaptive planning algorithm을 사용해서 goal-oriented dialogue task를 푸는 것을 제안한다. 해당 알고리즘은 줄여서 BADP라고 하고 RNN-based 대화 생성 모델과 MCTS(Monte carlo tree search)-based Bayesian pl..
2023.01.08 -
일반적으로 언어모델의 성능은 Perplexity, Cross Entropy, bit-per-character(BPC)로 측정하거나 GLUE benchmark의 Downstream task의 성능으로 측정된다. 그러나 Downstream task에 대해서는 task마다 지표가 상이할 수 있고 언어 모델 훈련시 모든 여러가지의 downstream task를 해보면서 측정하는 것은 reasonable하지 않을 수 있다. 언어모델은 일반적으로 perplexity를 minimize하는 것인데 perplexity가 0을 얻을 수 없기 때문에 perplexity의 lower bound가 무엇인가에 대해 생각해보아야 한다. 즉, optimal value 를 알 수 없다면, train한 언어모델이 얼마나 좋은지 어떻게 ..
[NLP] Evaluation Metric for Language Model(PPL, BLEU, ROUGE)일반적으로 언어모델의 성능은 Perplexity, Cross Entropy, bit-per-character(BPC)로 측정하거나 GLUE benchmark의 Downstream task의 성능으로 측정된다. 그러나 Downstream task에 대해서는 task마다 지표가 상이할 수 있고 언어 모델 훈련시 모든 여러가지의 downstream task를 해보면서 측정하는 것은 reasonable하지 않을 수 있다. 언어모델은 일반적으로 perplexity를 minimize하는 것인데 perplexity가 0을 얻을 수 없기 때문에 perplexity의 lower bound가 무엇인가에 대해 생각해보아야 한다. 즉, optimal value 를 알 수 없다면, train한 언어모델이 얼마나 좋은지 어떻게 ..
2022.09.12 -
Contiguous Contiguous(인접한, 근접한)는 단어의 뜻처럼 Tensor의 각 값들이 메모리에도 순차적으로 저장되어 있는지 여부를 의미한다. [0, 1, 2, 3, 4]라는 Tensor 가 있을 때, 메모리에 저장된 모양이 이와 같으면 contiguous한 것이고 이런식으로 요소들이 메모리에 연속적으로 저장되어 있지 않으면 contiguous하지 않은 것이다. >>> t = torch.tensor([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]) >>> t.is_contiguous() True >>> t.stride() (4, 1) t라는 Tensor는 처음에는 위와 같이 메모리에 저장되어 있을 것인데, >>> t = t.transpose() >>> t.str..
[Pytorch] pytorch ContiguousContiguous Contiguous(인접한, 근접한)는 단어의 뜻처럼 Tensor의 각 값들이 메모리에도 순차적으로 저장되어 있는지 여부를 의미한다. [0, 1, 2, 3, 4]라는 Tensor 가 있을 때, 메모리에 저장된 모양이 이와 같으면 contiguous한 것이고 이런식으로 요소들이 메모리에 연속적으로 저장되어 있지 않으면 contiguous하지 않은 것이다. >>> t = torch.tensor([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]) >>> t.is_contiguous() True >>> t.stride() (4, 1) t라는 Tensor는 처음에는 위와 같이 메모리에 저장되어 있을 것인데, >>> t = t.transpose() >>> t.str..
2022.08.03 -
The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were ..
The Bitter Lesson - Rich Sutton(2019)The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were ..
2022.04.12 -
Entropy Entropy는 정보를 표현하는데 있어 필요한 평균 최소 정보 자원량을 말한다. 그래서 Entropy가 크면 나타내는 정보량이 많다는 것을 의미한다. 예를 들어서 "월화수목금토일" 7개 요일을 표현한다고 하면, 총 7bit가 필요할까? 월 000 화 001 수 010 목 100 금 101 토 110 일 011 이런식으로 정보를 인코딩해서 표현하게 되면 7개의 요일을 표기하는데 약 3bit가 필요하다. N개의 정보를 표시하는데 총 log_2(N) 비트가 필요하다. 즉, 최소 자원량은 bit로 얼마나 짧게 표현될 수 있느냐를 의미한다. 맑은날인지 비가 오는 날인지 정보를 표현한다고 할 때, 실제로 맑은날이 비오는날 보다 더 자주 있으므로 맑은날을 표현할 때 더 짧은 bit로 전송해야 할 것이다..
KL-DivergenceEntropy Entropy는 정보를 표현하는데 있어 필요한 평균 최소 정보 자원량을 말한다. 그래서 Entropy가 크면 나타내는 정보량이 많다는 것을 의미한다. 예를 들어서 "월화수목금토일" 7개 요일을 표현한다고 하면, 총 7bit가 필요할까? 월 000 화 001 수 010 목 100 금 101 토 110 일 011 이런식으로 정보를 인코딩해서 표현하게 되면 7개의 요일을 표기하는데 약 3bit가 필요하다. N개의 정보를 표시하는데 총 log_2(N) 비트가 필요하다. 즉, 최소 자원량은 bit로 얼마나 짧게 표현될 수 있느냐를 의미한다. 맑은날인지 비가 오는 날인지 정보를 표현한다고 할 때, 실제로 맑은날이 비오는날 보다 더 자주 있으므로 맑은날을 표현할 때 더 짧은 bit로 전송해야 할 것이다..
2022.03.20 -
Model-based & Model-free Reinforcement Learning 강화학습 알고리즘은 아주 크게 2가지가 있다. 하나는 Model-based고 하나는 Model-free. (강화학습 알고리즘의 종류는 계층적으로 딱 나눌 수 없는데, Model-based면서 Model-free인 것도 있고 뭐 그렇다...) Sutton 책 기준에서 Model-based RL이라고 하면 주로 "Planning"하는 것을 말하고 Model-free는 주로 "Learning"하는 것을 말한다. Planning은 Environment의 Model을 어느정도 알거나 주어진 상태에서 문제를 푸는 것을 말한다. 즉 어떤 action에 있어 좋은 reward를 받게 끔 policy를 improve한다. Learnin..
Model-based Reinforcement LearningModel-based & Model-free Reinforcement Learning 강화학습 알고리즘은 아주 크게 2가지가 있다. 하나는 Model-based고 하나는 Model-free. (강화학습 알고리즘의 종류는 계층적으로 딱 나눌 수 없는데, Model-based면서 Model-free인 것도 있고 뭐 그렇다...) Sutton 책 기준에서 Model-based RL이라고 하면 주로 "Planning"하는 것을 말하고 Model-free는 주로 "Learning"하는 것을 말한다. Planning은 Environment의 Model을 어느정도 알거나 주어진 상태에서 문제를 푸는 것을 말한다. 즉 어떤 action에 있어 좋은 reward를 받게 끔 policy를 improve한다. Learnin..
2022.03.18