딥러닝
-
[BERT] BERT에 대해 쉽게 알아보기2 - colab으로 BERT Pretraining(수정)✨ AI/NLP 2020. 3. 26. 16:14
** 이전 포스팅 코랩 노트북을 따라하시다가 오류가 난다는 분이 많아서, 코드를 쭉 수정하였습니다. ● BERT모델로 대량의 코퍼스 사전훈련 시키기 구글이 만든 사전훈련 모델 'BERT'로 대량의 코퍼스를 가지고 사전훈련을 시키는 방법을 포스팅 하도록 하겠습니다. 그리고 이 다음 포스팅에서는 사전훈련된 모델로 NLP모델 Task에 전이학습 시키는 방법을 포스팅 할 예정입니다. BERT는 위키디피아 같은 대량의 코퍼스를 사용해서 사전훈련을 시키고 언어의 기본적인 패턴을 이해한 워드임베딩을 추출해냅니다. 이렇게 사전훈련을 통해 생성된 임베딩으로 새로운 문제에 적용하는 전이학습(transfer learning)을 수행하여 적은데이터로 기존 ML, DL모델에 적용하여 빠르게 학습이 가능합니다. BERT가 무엇인..
-
[Keras] Embedding Layer에 word2vec 주입하기💫 Computer Science/Python & AI Framework 2020. 2. 21. 17:08
● Embedding Methods NLP task를 수행하기 전, 단어를 벡터로 만드는 임베딩 작업을 케라스를 이용해서 하는 방법은 크게 두 가지가 있습니다. 케라스의 내장 함수인 Embedding()을 사용하기 Pre-trained word embedding 가져와서 Embedding Layer에 주입하기 1. Keras Embedding Layer 예제 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.prepr..
-
[캐글] 중고차 가격 예측 모델2_Gradient Boost, Random Forest💫 Computer Science/Python & AI Framework 2020. 1. 16. 18:34
● Gradient Boost Gradient Boosting Algorithm (GBM)은 회귀분석 또는 분류 분석을 수행할 수 있는 예측모형이며 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘입니다. Gradient Boosting Algorithm은 Tabular format 데이터 (엑셀형태와 같이 X-Y Grid로 되어있는 데이터)에 대한 예측에서 엄청난 성능을 보여주고, 머신러닝 알고리즘 중에서도 가장 예측 성능이 높다고 알려진 알고리즘입니다. 그렇기 때문에 Gradient Boosting Algorithm을 구현한 패키지들이 많습니다. LightGBM, CatBoost, XGBoost 같은 파이썬 패키지들이 모두 Gradient Boosting Algorithm을 구현한 패키지들입..
-
[캐글] 중고차 가격 예측 모델1_선형회귀 Linear Regression()💫 Computer Science/Python & AI Framework 2020. 1. 16. 11:34
● Kaggle 캐글(Kaggle)은 머신러닝 대회로 유명한 플랫폼 입니다. 알고리즘 문제를 푸는 백준, 프로그래머스 사이트와 비슷한 개념입니다. 캐글에 있는 여러 데이터셋과 문제들로 데이터 전처리, 모델 설계, 하이퍼파라미터 선택과 튜닝에 대해 익힐 수 있습니다. 경쟁자가 제출한 코드를 볼 수도 있고 다른 경쟁자에 비해 내가 얼마나 잘 풀었는지 확인해 볼 수도 있습니다. 현재 활성화 되고 있는 도전 과제를 풀어 볼 수도 있고, 머신러닝 입문 문제로 유명한 타이타닉 생존자 예측문제, 보스턴 주택 가격문제 등에 대한 데이터셋을 다운 받을 수도 있고 잘 푼사람들의 코드를 보면서 머신러닝 문제의 개념을 익힐 수도 있습니다. 캐글 이용하는 방법 알아보기 캐글 바로가기 ● 중고차 가격 예측 문제 풀어보기 실전 문..