GPT3가 배우는 것

November 14, 2020 10:17 AM | Comments (0)

GPT3가 배우는 것은 주어진 모든 문맥상황에서의 말들끼리의 관계이다. GPT3 모델의 트랜스포머를 살펴보면 쿼리, 키, 밸류에 대한 Embedding이 핵심인데, 모든 문맥(morphme들이 서로가 서로를 만나지는 상황)마다 밸류가 바뀌도록 배우는 것이 핵심이다. 결국 "관계"를 배우는 것이다. 그 관계를 배우려다보니, 많은 문장으로 일일이 다 배우자니 컴퓨팅 퍼포먼스가 엄청나게 필요하게 된 것이다.

NLP, 딥러닝 열풍이 한편으로 시들해지는 것이 GPT3 시대부터 가내수공업 단계가 슬슬 마무리되고 있기 때문이다. 현재 그러한 컴퓨팅을 갖출 수 있는 것은 언론에 따르면 한국에서도 현재 삼성이나 네이버 정도로 보인다.

다음 단어를 알아채도록 배우는 것이 아니라, 다음 단어를 알아맞추는 퀴즈를 풀면서 사실은 말들의 관계를 배우고 있다는 것. 평이한 태스크를 수행하면서 그 안에 내재된 요소들의 관계를 학습하는 것. 그렇다면 이러한 원리는 비단 자연어에만 적용되는 것일까?

트랜스포머 아키텍처가 모든 문맥 별 상황에 대한 각각 의미를 파악하려는 방식이 어쩌면 브루트 포스한 것이므로 그에 대한 튜닝을 노려볼 수는 있겠지만, 결국 요소들의 관계를 모든 Context에서 배우자는 트랜스포머의 대원리(?)는 당분간 지배적이고, 여러 분야로 퍼질 것으로 생각된다.

위 이야기들은 맞는가? 자신 없다. GPT3에 대해 뭔가 적어두고 싶어서 적어봤는데 틀렸거나 고칠 부분이 많이 있겠지. 결국 지금 해봐야할 것은 트랜스포머를 작게나마 NLP가 아닌 다른 필드에서 태워보기? 아니면 OpenAI API 사용법이나 잘 배우거나.

(나중에 더 해 볼 이야기 ...) 실제는 자신의 인더스트리에서 NLP 처리가 어떻게 얼만큼 필요한지 파악하는 것부터이다. 챗봇 사주세요 가 아니고. 트랜스포머는 이미 자연어를 넘어 이미지, 영상에서 활약 중인 것으로 알고 있다.

GPT3가 배우는 것

어떻게 생각하세요? 답글을 남겨주세요.

Facebook Comments

Table of Contents

Email Subscription