✨ AI/Basic concepts for AL
-
KL-Divergence✨ AI/Basic concepts for AL 2022. 3. 20. 02:43
Entropy Entropy는 정보를 표현하는데 있어 필요한 평균 최소 정보 자원량을 말한다. 그래서 Entropy가 크면 나타내는 정보량이 많다는 것을 의미한다. 예를 들어서 "월화수목금토일" 7개 요일을 표현한다고 하면, 총 7bit가 필요할까? 월 000 화 001 수 010 목 100 금 101 토 110 일 011 이런식으로 정보를 인코딩해서 표현하게 되면 7개의 요일을 표기하는데 약 3bit가 필요하다. N개의 정보를 표시하는데 총 log_2(N) 비트가 필요하다. 즉, 최소 자원량은 bit로 얼마나 짧게 표현될 수 있느냐를 의미한다. 맑은날인지 비가 오는 날인지 정보를 표현한다고 할 때, 실제로 맑은날이 비오는날 보다 더 자주 있으므로 맑은날을 표현할 때 더 짧은 bit로 전송해야 할 것이다..
-
MLE(Maximum Likelihood Estimation) 최대우도법✨ AI/Basic concepts for AL 2021. 10. 28. 16:23
최대 우도법이 잘 이해가 가지 않는다면 유투브 StatQuest with Josh Starmer의 위 동영상을 봅시다 정말 간결하고 이해가 잘되서 갖고 와봤습니다 ~.~ 최대우도법은 단어 그대로 '우도(likelihood, 가능도)'를 '최대화'하는 지점을 찾는 것을 의미합니다. 우도(Likelihood) "데이터가 이 분포로부터 나왔을 가능도" 우리가 가지고 있는 데이터는 보통 모집단(population)에서 일부분(sample)을 가져왔을 것이다. 예를 들어서 모델링하고자 하는 문제가 "남반구 지역의 물고기 개체수를 예측"하는 것이라고 해보자, 그렇다면 풀고자 하는 문제의 모집단은 "남반구 지역의 시간에 따른 전체 물고기 개체수"지만 관측된 데이터는 모든 물고기 수는 아닐 것이다. 그렇다면 전체 물고..
-
Sampling Distribution✨ AI/Basic concepts for AL 2021. 5. 6. 10:24
빅데이터가 많아짐에 따라 표본 추출(sampling)이 필요 없는 것은 아니다. 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없는 데이터가 훨씬 많을 뿐더러 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본추출의 중요성이 더 커지고 있다. 또, 모델링의 경우 결국 작은 sample data를 가지고 예측 모델을 개발하고 테스트하기도 한다. Sampling Distribution (표본 분포) Ramdom Sampling and Sample Bias Ramdom Sampling 모집단 내에서 무작위로 샘플을 추출하는 경우로 그 결과 얻은 데이터를 Simple ramdom sample(단순임의표본)이라고 한다. 중복 추출이 가능하도록 추출한 샘플을 다시 모집단에 포함시키는 것을 ..
-
EDA(Exploratory Data Analysis)✨ AI/Basic concepts for AL 2021. 5. 3. 13:50
ML에서 사용되는 statistics는 Data Science에 가깝고, 'Neural Network'는 Computer Science에 가깝다고 할 수 있다. 그리고 Data Science의 목표는 structured 되어 있지 않은 폭발적인 양의 raw 데이터를 활용 가능한 정보로 만드는데에 있다. Data Science의 토대는 John Wilder Tukey라는 미국의 아주 유명한 통계학자로부터 시작됬다고 한다. 그리고 John Wilder Tukey는 EDA를 창안하기도 하였다. 기존의 statistics이 정보 추출에서 Hypothesis test에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었다. 이를 보완하고자 주어진 자료만 가지고 충분한 정보와 패턴을 찾을 수 있도록 여러..