The Bitter Lesson - Rich Sutton(2019)
- -
The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available. Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation.
70년동안의 AI 연구에서 가장 큰 교훈은, computation에 영향을 받은 general methods가 가장 효과적이라는 것이다. 이에 대한 궁극적인 이유는 무어의 법칙, computation의 unit 별 비용은 기하 급수적으로 감소한다는 generalization에 있다. 대부분의 AI 연구들은 Agent의 자원이 constant한 것처럼 수행되었지만(이 경우 인간의 지식을 최대한 사용하는 것이 유일한 성능 향상의 방법일 것이다.), 일반적인 연구 프로젝트보다 약간 더 긴 시간을 거쳐, 훨씬 더 많은 computation이 필연적으로 사용할 수밖에 없다. 더 짧은 텀에서의 차이를 만드는 improvement를 추구하기 위해, 연구가들은 도메인의 인간에 대한 지식을 활용하려고 하지만, 장기적으로는 computation의 활용이 중요하다.
These two need not run counter to each other, but in practice they tend to. Time spent on one is time not spent on the other. There are psychological commitments to investment in one approach or the other. And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation. There were many examples of AI researchers' belated learning of this bitter lesson, and it is instructive to review some of the most prominent.
이 두가지가 서로 어긋날 필요는 없지만, 실제로는 어긋나고 있다. 둘 중 하나에 들이는 시간은 다른 하나에 들여지지 않는 시간이다. 하나에 시간을 투자하면 거기에 심리적으로 전념하게 된다. 그리고, 사람의 지식을 사용하는 접근법은 compuation 활용에 대한 general methods의 이점을 덜 적합하게 만드는 복잡한 methods로 가는 경향이 있다. 이 쓰라린 교훈을 AI 연구가들이 뒤늦게 알아차린 사례가 많았고, 가장 눈에 띄는 것 중 일부를 복습하는 것은 유익하다.
In computer chess, the methods that defeated the world champion, Kasparov, in 1997, were based on massive, deep search. At the time, this was looked upon with dismay by the majority of computer-chess researchers who had pursued methods that leveraged human understanding of the special structure of chess. When a simpler, search-based approach with special hardware and software proved vastly more effective, these human-knowledge-based chess researchers were not good losers. They said that "brute force" search may have won this time, but it was not a general strategy, and anyway it was not how people played chess. These researchers wanted methods based on human input to win and were disappointed when they did not.
컴퓨터 체스에서, 1997년에 월드 챔피온 Kasparov를 이겼던 방법은 방대하고 깊은 탐색에 기초했다. 이 당시에, 체스의 특별한구조에 대한 인간의 이해를 이용한 방법을 추구했던 computer-chess 연구자들에게는 이것을 크게 실망스럽게 여겼다. 더 간단하게, 특별한 하드웨어와 소프트웨어를 가진 탐색 베이스의 접근법은 대단히 효율적이라는 것을 증명했지만, human-knowledge 베이스의 체스 연구자들은 깨끗이 물러서지는 않았다. 그들은 "Brute force search(완전 탐색)" 기법이 이번에는 이겼지만 일반적인 전략이지는 않았으며 사람들이 체스를 두는 방법은 어쨌든 아니라고 말했다. 이 연구자들은 휴먼 베이스 방법이 이기길 원했고, 그렇지 않아 실망했다.
A similar pattern of research progress was seen in computer Go, only delayed by a further 20 years. Enormous initial efforts went into avoiding search by taking advantage of human knowledge, or of the special features of the game, but all those efforts proved irrelevant, or worse, once search was applied effectively at scale. Also important was the use of learning by self play to learn a value function (as it was in many other games and even in chess, although learning did not play a big role in the 1997 program that first beat a world champion). Learning by self play, and learning in general, is like search in that it enables massive computation to be brought to bear. Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research. In computer Go, as in computer chess, researchers' initial effort was directed towards utilizing human understanding (so that less search was needed) and only much later was much greater success had by embracing search and learning.
오직 20년 후에 비슷한 패턴의 연구가 컴퓨터 바둑에서도 보여졌다. human knowledge이나 게임의 특별한 특징의 이점을 이용하기 위해 탐색을 피하기 위한 많은 초기 노력 있었지만, 탐색이 대규모에 효과적으로 적용되자, 이 모든 노력은 무관하거나 더 안좋음이 증명되었다. 또한 가치 함수를 학습하기 위해 self play learning을 사용하는 것은 중요했다.(이것은 다른 게임들과 체스에서도 마찬가지지만, 1997년 월드 챔피온을 처음으로 이긴 프로그램에서 큰 역할을 하지는 않았다.) self play를 통해 학습하는 것과 general하게 학습하는 것은 막대한 양의 계산을 가능하게 한다는 점에서 마치 탐색과 같다. 탐색과 학습은 AI 연구 분야에서 막대한 컴퓨테이션양을 사용하기 위한 기술 중 가장 중요한 두가지 방법들이다. 컴퓨터 바둑과 체스에서 연구자들의 초기 노력은 human understanding을 확용하기 위한 쪽이였고(탐색이 덜 필요한), 훨씬 뒤에 탐색과 학습을 수용하고서야 성공할 수 있었다.
In speech recognition, there was an early competition, sponsored by DARPA, in the 1970s. Entrants included a host of special methods that took advantage of human knowledge---knowledge of words, of phonemes, of the human vocal tract, etc. On the other side were newer methods that were more statistical in nature and did much more computation, based on hidden Markov models (HMMs). Again, the statistical methods won out over the human-knowledge-based methods. This led to a major change in all of natural language processing, gradually over decades, where statistics and computation came to dominate the field. The recent rise of deep learning in speech recognition is the most recent step in this consistent direction. Deep learning methods rely even less on human knowledge, and use even more computation, together with learning on huge training sets, to produce dramatically better speech recognition systems. As in the games, researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive, and a colossal waste of researcher's time, when, through Moore's law, massive computation became available and a means was found to put it to good use.
음성인식 분야에서, 1970년도에 DARPA가 후원하는 초기 competition이 있었다. 응시자들은 human knowledge-단어나 음소, 성대 등의 지식-을 이점으로한 특별한 방법들을 포함했다. 다른 쪽에서는 HMMs에 기반한 본질적으로 더 통계적이고 더 많은 컴퓨테이션을 사용하는 새로운 방법을 사용했다. 다시, 통계적인 방법이 humann knowledge 베이스 방법을 이겼다. 이는 NLP의 모든 분야에서 수십년에 걸쳐 점진적으로 큰 변화를 가져왔고 통계와 computation이 이 분야를 지배하게 된다. 음성 인식 분야 에서의 최근 딥러닝은 일관된 방향으로 가장 최신의 단계이다. human knowledge에 덜 의존하고 많은 computation을 사용하는 딥러닝 방법은 음성인식 시스템을 드라마틱하게 향상시켰다. 이러한 게임에서 연구자들은 항상 연구자들이 그들이 동작한다고 생각하는 방법으로 시스템을 만들기 위해 노력했다. 그러나 이것은 무어의 법칙을 통해 방대한 계산이 가능해지고 이를 잘 활용할 수 있어졌을 때 궁극적으로 역효과를 낳았고 연구자들의 시간을 크게 낭비하게 하였다.
In computer vision, there has been a similar pattern. Early methods conceived of vision as searching for edges, or generalized cylinders, or in terms of SIFT features. But today all this is discarded. Modern deep-learning neural networks use only the notions of convolution and certain kinds of invariances, and perform much better.
컴퓨터 비전에서도 비슷한 패턴이 있었다. 초기 방법들은 edge나 generalized cylinder, SIFT feature을 찾는 것이었다. 그러나 요즘에는 이 모든 것들을 하지 않는다. 모던 딥러닝 신경망은 오직 convolution과 invariance의 특정 방법을 사용하며 이는 매우 잘 작동한다.
This is a big lesson. As a field, we still have not thoroughly learned it, as we are continuing to make the same kind of mistakes. To see this, and to effectively resist it, we have to understand the appeal of these mistakes. We have to learn the bitter lesson that building in how we think we think does not work in the long run. The bitter lesson is based on the historical observations that 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher, but 3) in the long run it plateaus and even inhibits further progress, and 4) breakthrough progress eventually arrives by an opposing approach based on scaling computation by search and learning. The eventual success is tinged with bitterness, and often incompletely digested, because it is success over a favored, human-centric approach.
이것은 큰 교훈이다. 이 분야에서 우리는 아직까지 이것을 완전히 배우지 않고, 같은 실수를 계속 반복하고 있다. 보았듯이 그리고 효과적이로 이에 저항하기 위해 우리는 이러한 종류의 실수를 이해해야 한다. 우리는 어쩌면 우리가 생각하는게 긴텀으로 보았을 때 working하지 않을 것이라는 쓰라린 교훈을 배워야 한다. 이 쓰라린 교훈은 다음과 같은 역사적인 관찰에 근거하고 있다. 1) AI 연구자들은 종종 그들의 agent에 지식을 넣으려고 한다. 2) 이것은 항상 짧게는 도움을 주고 연구자들을 개인적으로 만족시켜준다. 3) 그러나 길게 보았을 때 이것은 정체되고 심지어 진보하는 것을 방해한다. 4) 이 프로세스를 깼는 것은 결국 탐색과 학습의 scaling에 근거하고 있다. 궁극적인 성공은 쓴맛이고 종종 불완전하게 이해된다. 왜냐하면 인간 중심의 접근법이 성공하길 선호하기 때문이다.
One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. The two methods that seem to scale arbitrarily in this way are search and learning.
'Bitter Lesson'으로부터 우리가 배워야할 한가지는 일반적인 목적을 가진 방법에 대한 큰 힘이며, computation이 커짐에 따라 계속 이용할 수 있는 매우 좋은 방법이다. 이러한 방법으로 임의로 스케일링 할 수 있어 보이는 두가지 방법은 Search와 Learning이다.
The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. All these are part of the arbitrary, intrinsically-complex, outside world. They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. We want AI agents that can discover like we can, not which contain what we have discovered. Building in our discoveries only makes it harder to see how the discovering process can be done.
쓴 교훈으로 부터 배울 수 있는 두번째 일반적인 포인트는 actual contents of minds는 엄청나게 어찌해 볼 도리 없이 복잡하다는 것이다; 우리는 contents of minds에 관해 간단한 방법을 찾는 것을 그만두어야 한다. space, objects, mutiple agents나 대칭성에 대해 생각하는 단순한 단순한 방법같은 것을. 이 모든 것들은 임의적이고 본질적으로 복잡한 바깥 세상의 일부이다. 이 복잡성은 끝이 없어서 built-in 되어 있지 않다. 대신 우리는 오직 임의의 complexity를 포착할 수 있는 메타 방법을 build해야 한다. 이는 좋은 approximations를 찾는 것이지만 그들을 찾는 것은 우리의 methods에 의하여야 하고 우리에 의해 이루어지면 안된다. 우리는 우리처럼 발견하는 AI agent를 원하고, 우리가 발견한 것들을 포함한 AI agent를 원하지는 않느낟. 우리의 발견들을 build 하는 것은 오직 dicscovering process가 어떻게 되는지 보는 것을 더 어렵게 할 뿐이다.
임의로 번역..했씁니다.
'👀 etc...' 카테고리의 다른 글
ChatGPT Is A Blurry JPEG Of The Web - 테드창 (0) | 2023.04.22 |
---|---|
Nvidia 추천시스템 Meetup 후기 (0) | 2021.08.25 |
문의댓글 및 블로그 글 (1) | 2021.07.23 |
[TIL] 기술 아티클 읽기 (3) | 2021.05.11 |
[Git] git 사용법 튜토리얼6 - 오픈 소스 기여하기 (0) | 2021.04.12 |
소중한 공감 감사합니다