인공지능 AI
-
The Case for Co-Designing Model Architectures with Hardware link : https://arxiv.org/pdf/2401.14489 ✲ Introduction 딥러닝 모델을 설계할 때 GPU 구조의 영향을 간과하는 경우가 많으며 모델을 하드웨어에 더 적합하게 수정하면 학습 및 추론 능력을 향상시킬 수 있다고 제안하는 논문이다. 이를 위해 Transformer 성능을 극대화하기 위한 가이드라인을 제공한다. 이 가이드라인은 다양한 하이퍼파라미터가 GPU의 기본 계산 커널의 효율성에 미치는 영향을 고려하여 작성되었다고 한다. GEMM(General Matrix Multiplication) 최적화의 기본 원리를 사용해 Transformer 모델의 개별 부분을 최적..
The Case for Co-Designing Model Architectures with HardwareThe Case for Co-Designing Model Architectures with Hardware link : https://arxiv.org/pdf/2401.14489 ✲ Introduction 딥러닝 모델을 설계할 때 GPU 구조의 영향을 간과하는 경우가 많으며 모델을 하드웨어에 더 적합하게 수정하면 학습 및 추론 능력을 향상시킬 수 있다고 제안하는 논문이다. 이를 위해 Transformer 성능을 극대화하기 위한 가이드라인을 제공한다. 이 가이드라인은 다양한 하이퍼파라미터가 GPU의 기본 계산 커널의 효율성에 미치는 영향을 고려하여 작성되었다고 한다. GEMM(General Matrix Multiplication) 최적화의 기본 원리를 사용해 Transformer 모델의 개별 부분을 최적..
2024.12.14 -
DeepMind's Perceiver and Perceiver IO: new data family link : https://www.youtube.com/watch?v=wTZ3o36lXoQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=6 paper : https://arxiv.org/pdf/2103.03206.pdf 딥마인드에서 최근 작업 중 Perceiver라는 아키텍처를 개발 중이라고 한다. 이 작업에 동기는 범용 아키텍처를 개발하는 것이다. 그 이유는 우리가 실세계에서 수집할 수 있다고 상상할 수 있는 모든 데이터는 기본적으로 터치, 고유 감각에서 반향 위치, 텍스트를 수집하기 위한 감각이나 인식 등의 sense modalities와 관련이 있다. 우리가 과학적..
[CS25 6강] DeepMind's Perceiver and Perceiver IO: new data familyDeepMind's Perceiver and Perceiver IO: new data family link : https://www.youtube.com/watch?v=wTZ3o36lXoQ&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=6 paper : https://arxiv.org/pdf/2103.03206.pdf 딥마인드에서 최근 작업 중 Perceiver라는 아키텍처를 개발 중이라고 한다. 이 작업에 동기는 범용 아키텍처를 개발하는 것이다. 그 이유는 우리가 실세계에서 수집할 수 있다고 상상할 수 있는 모든 데이터는 기본적으로 터치, 고유 감각에서 반향 위치, 텍스트를 수집하기 위한 감각이나 인식 등의 sense modalities와 관련이 있다. 우리가 과학적..
2023.07.28 -
link : https://www.youtube.com/watch?v=U8J32Z3qV8s&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=5 paper : https://arxiv.org/pdf/2101.03961.pdf Mixture of Experts (MoE) paradigm and the Switch Transformer 이번 세미나 주제는 "Sacling Transformers through Sparsity"이다. 먼저 뉴럴 언어 모델의 Scaling에 대해 얘기하면서 세미나는 시작한다. 트랜스포머는 강력한 성능으로 nlp, vision 분야를 섭렵하고 있지만, 과거에는 데이터 셋이 적거나 Sparsity를 포함하는 경우에 트랜스포머를 많이 사용하지 않는다. ..
[CS25 5강] Mixture of Experts (MoE) paradigm and the Switch Transformerlink : https://www.youtube.com/watch?v=U8J32Z3qV8s&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=5 paper : https://arxiv.org/pdf/2101.03961.pdf Mixture of Experts (MoE) paradigm and the Switch Transformer 이번 세미나 주제는 "Sacling Transformers through Sparsity"이다. 먼저 뉴럴 언어 모델의 Scaling에 대해 얘기하면서 세미나는 시작한다. 트랜스포머는 강력한 성능으로 nlp, vision 분야를 섭렵하고 있지만, 과거에는 데이터 셋이 적거나 Sparsity를 포함하는 경우에 트랜스포머를 많이 사용하지 않는다. ..
2023.07.22 -
IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING? Link : https://arxiv.org/pdf/2211.15657.pdf diffuser 논문을 재밌게 읽었는데 후속 논문이 나와서 읽어봄 Abstract 해당 논문에서는 Conditional Generative Model이 직접적으로 sequential decision-making 문제를 해결할 수 있는지에 대해 알아본다. 그리고 의사 결정을 강화 학습 관점이 아닌, 조건부 생성 모델링(conditional generative modeling)을 통해 해결해보려고 한다. 저자들은 해당 연구를 통해 policy를 return conditional diffusion model로 ..
[RL] Is Conditional Generative Modeling All You Need For Decision-Making?(Decision-Diffuser)IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING? Link : https://arxiv.org/pdf/2211.15657.pdf diffuser 논문을 재밌게 읽었는데 후속 논문이 나와서 읽어봄 Abstract 해당 논문에서는 Conditional Generative Model이 직접적으로 sequential decision-making 문제를 해결할 수 있는지에 대해 알아본다. 그리고 의사 결정을 강화 학습 관점이 아닌, 조건부 생성 모델링(conditional generative modeling)을 통해 해결해보려고 한다. 저자들은 해당 연구를 통해 policy를 return conditional diffusion model로 ..
2023.06.11 -
Behavior Transformers: Cloning k modes with one stone Link : https://arxiv.org/pdf/2206.11251.pdf Abstract behavior learning은 인상적인 발전을 보여주었지만, 아직 large scale의 human-generated dataset을 활용하지 못하기 때문에 비전이나 자연어처리 분야만큼의 발전을 이루진 않았다. Human behavior는 넓은 분산과 다중 모드를 가지고 있고 human demonstration데이터셋은 일반적으로 reward가 label되어 있지 않다. 이러한 속성은 현재 큰 스케일의 pre-collected dataset을 활용해서 offline RL과 Behavior Cloning(BC)에 ..
[RL] Behavior Transformers: Cloning k modes with one stoneBehavior Transformers: Cloning k modes with one stone Link : https://arxiv.org/pdf/2206.11251.pdf Abstract behavior learning은 인상적인 발전을 보여주었지만, 아직 large scale의 human-generated dataset을 활용하지 못하기 때문에 비전이나 자연어처리 분야만큼의 발전을 이루진 않았다. Human behavior는 넓은 분산과 다중 모드를 가지고 있고 human demonstration데이터셋은 일반적으로 reward가 label되어 있지 않다. 이러한 속성은 현재 큰 스케일의 pre-collected dataset을 활용해서 offline RL과 Behavior Cloning(BC)에 ..
2023.05.23 -
Encoding Recurrence Into Transformer Link : https://openreview.net/pdf?id=7YfHla7IxBJ Abstract 해당 논문은 RNN layer를 간단한 RNN의 sequence로 표현할 수 있음을 보이고, 이를 Transformer의 self-attention의 lightweight positional encoding matrix로 사용할 수 있음을 보인다. RNN layer에서 사용되는 recurrent dynamics는 multihead self-attention의 positional encoding으로 압축될 수 있고 이는 Transformer에서 recurrent dynamics를 통합할 수 있음을 의미한다. 여기서 소개되는 Reccurre..
Encoding Recurrence Into Transformer, ICLR 2023Encoding Recurrence Into Transformer Link : https://openreview.net/pdf?id=7YfHla7IxBJ Abstract 해당 논문은 RNN layer를 간단한 RNN의 sequence로 표현할 수 있음을 보이고, 이를 Transformer의 self-attention의 lightweight positional encoding matrix로 사용할 수 있음을 보인다. RNN layer에서 사용되는 recurrent dynamics는 multihead self-attention의 positional encoding으로 압축될 수 있고 이는 Transformer에서 recurrent dynamics를 통합할 수 있음을 의미한다. 여기서 소개되는 Reccurre..
2023.05.21 -
Decision Transformer를 설명하기 앞서 우리가 왜 이에 대해 얘기하는지 동기를 부여해보겠다. Transformer가 인공지능의 많은 분야에 큰 영향을 미쳤고, NLP, Vision, 단백질 폴딩 문제 등을 해결하였다. 그래서 이 모든 발전이 의사결정이나, 인공 지능을 위한 통합 모델에 가까워지고 있는 것 처럼 보이지만, 인공지능은 단지 perception을 가지는 것 뿐 아니라 perception knowledge가 의사결정을 위해 사용하는 방법에 대해 생각해봐야 한다. Transformer는 RL 모델과 달리 확장에 용이하며 매우 안정적인 training dynamics를 가지고 있다. 따라서 우리는 더 큰 모델과 리소스를 사용할 수 있으며 더 풍부한 분포를 학습할 수 있다. 즉, tra..
[CS25 4강] Decision Transformers: Reinforcement Learning Via Sequence ModelingDecision Transformer를 설명하기 앞서 우리가 왜 이에 대해 얘기하는지 동기를 부여해보겠다. Transformer가 인공지능의 많은 분야에 큰 영향을 미쳤고, NLP, Vision, 단백질 폴딩 문제 등을 해결하였다. 그래서 이 모든 발전이 의사결정이나, 인공 지능을 위한 통합 모델에 가까워지고 있는 것 처럼 보이지만, 인공지능은 단지 perception을 가지는 것 뿐 아니라 perception knowledge가 의사결정을 위해 사용하는 방법에 대해 생각해봐야 한다. Transformer는 RL 모델과 달리 확장에 용이하며 매우 안정적인 training dynamics를 가지고 있다. 따라서 우리는 더 큰 모델과 리소스를 사용할 수 있으며 더 풍부한 분포를 학습할 수 있다. 즉, tra..
2023.05.05 -
Vision Transformer for Large Scale Visual Representation Learning 3강은 컴퓨터 비전 문제에서 트랜스포머를 적용한 여러 방법들에 대한 세미나이다. 이 세미나의 최종 목적은 "General Visual Representation"이라고 강연자인 Google Brain의 Zurich는 말하고 있다. 이유는 우리가 일반적으로 시각적 표현이 가능하면, 무슨 일이 일어나고 있는지 잘 알 수 있고, 이로인해 vision 입력이 들어온 모든 종류의 작업을 수행할 수 잇기 때문이다. Vision Transformer를 보기 앞서, Computer Vision에 대한 context를 위해 짧게 vision 분야의 히스토리에 대해 소개한다. Human's Visual R..
[CS25 3강] Vision Transformer for Large Scale Visual Representation LearningVision Transformer for Large Scale Visual Representation Learning 3강은 컴퓨터 비전 문제에서 트랜스포머를 적용한 여러 방법들에 대한 세미나이다. 이 세미나의 최종 목적은 "General Visual Representation"이라고 강연자인 Google Brain의 Zurich는 말하고 있다. 이유는 우리가 일반적으로 시각적 표현이 가능하면, 무슨 일이 일어나고 있는지 잘 알 수 있고, 이로인해 vision 입력이 들어온 모든 종류의 작업을 수행할 수 잇기 때문이다. Vision Transformer를 보기 앞서, Computer Vision에 대한 context를 위해 짧게 vision 분야의 히스토리에 대해 소개한다. Human's Visual R..
2023.04.16