✨ AI/NLP
-
[CS25 2강] Transformers in Language: The development of GPT Models including GPT3✨ AI/NLP 2023. 4. 9. 23:25
CS25 2: Transformers in Language - Mark Chen(Open AI) GPT 시리즈에 대한 간단한 설명과 세미나를 Open AI 연구원이 진행한 세미나이다. 크게 어려운 내용이나 흥미로운 부분은 없었으나 Open AI 연구원이 어떤 인사이트나 어떤 목적으로 GPT와 Language model을 바라보는지 알 수 있는 세미나다. Transformers in Language Transformer 발생 이전 모델들과 Transformer의 등장 배경 등에 대해서 설명한다. 3-Gram Model(Shannon 1951) two preceding words가 주어질 때 다음 word의 확률에 대한 아주 큰 lookup table을 이용한 모델. 단어들이 어느 정도 관련 있는 것 처럼 ..
-
[CS25 1강] Transformers United: DL Models that have revolutionized NLP, CV, RL✨ AI/NLP 2023. 3. 15. 23:53
Transformer: An Introduction Attention Timeline Simple attention mechanism은 딥러닝하는 사람이면 모두 아는 2017년에 나온 Vaswani의 "Attention is All you Need"라는 논문에서 시작되었다. 1강에서는 이 Attention 매커니즘의 히스토리와 어떻게 적용되었는지 살펴본다. 이전 시퀀스들의 정보를 저장하고 현재에 반영하자는 RNN 계열의 모델 LSTM, GRU.. 에서 어떻게 Attention mechanism으로까지 가게 되었는지에 대한 내용은 아래 포스팅에 작성해놓았다! https://ebbnflow.tistory.com/316 [NLP] Seq2Seq, Transformer, Bert 흐름과 정리 딥러닝 기반 기계번..
-
[NLP] Evaluation Metric for Language Model(PPL, BLEU, ROUGE)✨ AI/NLP 2022. 9. 12. 20:59
일반적으로 언어모델의 성능은 Perplexity, Cross Entropy, bit-per-character(BPC)로 측정하거나 GLUE benchmark의 Downstream task의 성능으로 측정된다. 그러나 Downstream task에 대해서는 task마다 지표가 상이할 수 있고 언어 모델 훈련시 모든 여러가지의 downstream task를 해보면서 측정하는 것은 reasonable하지 않을 수 있다. 언어모델은 일반적으로 perplexity를 minimize하는 것인데 perplexity가 0을 얻을 수 없기 때문에 perplexity의 lower bound가 무엇인가에 대해 생각해보아야 한다. 즉, optimal value 를 알 수 없다면, train한 언어모델이 얼마나 좋은지 어떻게 ..
-
[NLP] Seq2Seq, Transformer, Bert 흐름과 정리✨ AI/NLP 2021. 9. 19. 12:23
딥러닝 기반 기계번역 발전과정 RNN → LSTM → Seq2Seq => 고정된 크기의 context vector 사용 → Attention → Transformer → GPT, BERT => 입력 시퀀스 전체에서 정보를 추출하는 방향으로 발전 GPT : transformer 디코더 아키텍처 활용 BERT : transformer 인코더 아키텍처 활용 Seq2Seq Model encoder = quten abend 각 토큰은 임베딩 레이어를 거쳐 RNN레이어를 지나게 된다. 그러면 각 레이어의 출력값(h1, h2,.. : activation function을 지난 후의 값)이 생기게 되며 이때 각 출력값은 다음 레이어의 입력으로 들어가게 된다.(RNN이기 때문) 각 출력값(h1, h2..)는 고정된 크기..