열풍이 불고 있는 챗GPT 관련 소식을 다룬 기사의 한 대목
열풍이 불고 있는 챗GPT 관련 소식을 다룬 기사의 한 대목
‘챗GPT’에서부터 ‘GPT-3.5′ ‘자연어 인지검색’ ‘언어 모델’까지 분명 알고 있는 단어들의 조합인데 막상 무슨 뜻인지
이해하기 힘들어서 막막한 분들이 적지 않을 겁니다.
챗GPT 관련 소식이 언론을 도배하다시피 하고 있는데, 정작 기사를 읽다보면 어려운 용어에 자기도 모르게 움츠러들기 마련이죠.
조선비즈는 최근 그 어떤 과학기술 용어보다 핫한 챗GPT와 관련된 용어들을 이해하기 쉽게 풀어봤습니다.
김수현 한국과학기술연구원(KIST) 인공지능연구단 책임연구원이 도움을 줬습니다.
챗GPT를 이해하기 위한 첫 관문은 ‘GPT’라는 용어입니다.
챗(Chat)은 말 그대로 대화를 나눌 수 있는 인공지능(AI)이라는 의미로 붙은 말입니다. 챗GPT의 핵심은 ‘GPT’인 셈이죠.
GPT는 오픈AI가 개발한 언어 모델이라고 보시면 됩니다.
여기서 언어 모델은 또 뭔지 의문이 들텐데요. 언어 모델이라는 건 하나의 단어 다음에 어떤 단어가
오는 게 좋을지 적절한 단어를 통계적·확률적으로 예측하는 모델을 의미합니다.
예컨대 ‘광화문’이라는 단어를 주었을 때, 그 뒤에 어떤 단어가 오는 게 적절할 지 통계적·확률적으로 예측하는 거죠.
주어진 데이터에 따라 답변이 달라질 수 있는데, 더 많은, 더 정확한 데이터가 많을수록 답변도 더 그럴싸해지겠죠.
빅데이터를 사용할수록 언어 모델의 정확도나 활용도가 높아지기 때문에 그냥 언어 모델이 아니라 ‘대규모’ 언어 모델을 쓰게 된 겁니다.
대규모 언어 모델의 영어 약자인 ‘LLM’은 단순히 대형언어모델(Large Language Model)의 약자입니다.
풀어놓고 보면 전혀 어렵지 않은 표현이죠.
여기서 대규모가 도대체 얼마나 대규모인지 궁금할 수 있습니다.
정해진 기준은 없다고 합니다. 구글이 이 대규모 언어 모델의 선구자 같은 회사인데요.
오픈AI가 내놓은 챗GPT가 큰 반향을 일으키면서 정작 선구자 취급을 받던 구글이 한 방 맞은 셈이 된 겁니다.
챗GPT는 오픈AI가 2020년에 내놓은 GPT-3의 업그레이드 버전입니다.
앞에 소개한 기사에서 챗GPT를 GPT-3.5라고 표현한 것도 이런 이유인데요.
GPT-3의 경우 파라미터(매개변수)를 1750억개를 썼다고 합니다.
파라미터는 AI가 사용자의 의도를 이해하기 위해 필요한 데이터라고 생각하면 됩니다.
LLM에서는 데이터가 많을수록 성능이 좋다고 했으니 이 파라미터의 숫자가 곧 성능을 의미하겠죠.
GPT-2는 파라미터가 15억개였으니 GPT-3이 얼마나 성능이 개선됐는지 짐작이 가능합니다.
올해 안에 공개될 GPT-4는 파라미터가 100조개까지 늘어날 수 있다는 전망도 있습니다.
지금 수준에서도 세상을 깜짝 놀라게 한 GPT가 얼마나 발전할 지 짐작도 안 되는 겁니다.
GPT를 그대로 풀면 ‘Generative Pre-trained Transformer(사전 훈련된 생성 변환기)’가 됩니다.
‘Generative(생성)’는 답변을 생성한다는 의미에서 붙은 겁니다.
‘Pre-trained(사전 훈련된)’는 조금 기술적인 표현인데, GPT의 핵심 언어 모델이 미리 학습을 끝낸 뒤에 필요한 작업에 맞춰서 약간의 수정을 가한 답변을 만든다는 의미에서 붙은 표현입니다.
GPT 이전의 언어 모델은 작업별로 별도의 모델을 처음부터 학습했다고 합니다. GPT는 사전에 학습을 하면서 성능을 높인 거죠.
GPT에서 중요한 건 G도 아니고 P도 아니고 바로 T입니다. T는 트랜스포머(transformer)입니다.
대부분의 사람들은 평소에는 자동차로 지내다 악당이 나타나면 로봇으로 변신하는 그 트랜스포머를 떠올릴 겁니다.
하지만 이 T는 GPT가 세상에 등장할 수 있었던 핵심적인 신경망 모델을 의미합니다.
트랜스포머는 구글이 2017년에 처음 발표한 논문에 등장하는 신경망 모델입니다.
문장 속의 단어와 같은 순차적인 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망을 이야기합니다.
‘어텐션(attention)’이라고도 불리는 기술인데요. 구글이 발표한 논문 제목이 바로 ‘Attention Is All You Need(당신에게 필요한 모든 것은 어텐션이다)’ 였습니다.