LLM

Attention Is All You Need.

— 구글 브레인(Google Brain) 연구팀, 2017년 역사적 논문 제목.

인간이 쓴 인터넷의 모든 낙서와 문헌을 집어삼키고 탄생한 디지털 아카이브이자 예언자. ~~결국 엄청난 전기와 연산력을 소모해서 '그럴듯한 다음 단어'를 예측하는 슈퍼 초고성능 자동완성 기계~~

1. 개요

대형 언어 모델)은 방대한 양의 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성할 수 있도록 설계된 인공지능 모델이다. 2017년 구글이 발표한 트랜스포머 아키텍처를 기반으로 하며, OpenAI의 ChatGPT 출시를 기점으로 전 세계적인 AI 광풍과 패러다임 시프트를 이끈 주인공이다.

인류의 모든 지식을 압축해서 집어넣었기 때문에 코딩, 작문, 번역, 논리적 추론 등 다양한 태스크를 척척 해내며, 이미 화이트칼라 노동 시장과 소프트웨어 엔지니어링 환경을 급격하게 재편하고 있다.

2. 주요 특징

2.1. 트랜스포머(Transformer) 아키텍처

LLM의 뼈대이자 심장이다. 이전의 순환 신경망(RNN)이 문장을 순서대로 읽느라 속도가 느리고 긴 문맥을 기억하지 못했던 것과 달리, 트랜스포머는 문장 안의 모든 단어 간의 관계를 한 번에 계산하는 어텐션(Attention) 메커니즘을 사용한다. 이 혁신 덕분에 대규모 병렬 학습이 가능해졌고, 모델의 크기를 기하급수적으로 키울 수 있게 되었다.

2.2. 사전 학습(Pre-training)과 파인 튜닝(Fine-tuning)

LLM의 개발은 대개 2단계로 나뉜다.

사전 학습(Pre-training): 인터넷에 널려 있는 수조 개의 단어로 이루어진 말뭉치를 집어넣고 "다음에 올 단어를 맞혀봐"라며 방임형 학습을 시키는 단계다. 이 과정을 거치면 모델은 언어의 기본적인 구조와 방대한 상식을 깨우치게 된다.
파인 튜닝(Fine-tuning) 및 정렬(Alignment): 사전 학습된 모델에 인간의 피드백을 반영해 인간의 질문에 올바르고 정중하게 답하도록 훈련시키는 과정이다. 대표적으로 RLHF(Reinforcement Learning from Human Feedback)가 있으며, 이를 통해 무법지대 같던 모델이 비로소 비서다운 면모를 갖추게 된다.¹

2.3. 스케일링 법칙(Scaling Law)

"모델의 크기(파라미터 수), 데이터셋의 크기, 그리고 학습에 쏟아붓는 컴퓨팅 파워(GPU)를 늘리면 늘릴수록 모델의 성능은 지수적으로 상승한다"는 법칙이다. 이 심플하고도 무식한 법칙 덕분에 빅테크 기업들은 수천억 원 규모의 돈을 자본력으로 쏟아부어 거대 모델 개발 경쟁을 벌이고 있다.

3. 관련 밈 및 드립

3.1. 세상에서 가장 자신감 넘치는 사기꾼: 할루시네이션(Hallucination)

LLM의 가장 큰 한계이자 밈의 원천이다. 모델은 진실을 말하도록 설계된 것이 아니라 '가장 그럴듯한 답변'을 생성하도록 학습되었기 때문에, 모르는 질문을 받았을 때 당당하고 설득력 있게 거짓말을 지어낸다.

한국의 대표적인 예시: ChatGPT 초기 시절 "조선왕조실록에 기록된 맥북프로 던짐 사건에 대해 알려줘"라고 물어보면, 세종대왕이 빡쳐서 신하에게 맥북프로를 던졌다는 둥의 역사적 구라(?)를 매우 그럴듯한 조선왕조실록 풍 문체로 지어내어 답변하곤 했다.

3.2. 마법의 주문: 프롬프트 엔지니어링

AI로부터 고품질의 답변을 받아내기 위해 입력창에 온갖 현란한 조건을 추가하는 행동을 말한다.

"너는 세계 최고의 코딩 천재야. 심호흡을 한 번 하고 단계별로 천천히 생각해 봐. 올바른 답변을 주면 팁으로 20달러를 줄게."

이처럼 기계에게 감정적으로 호소하거나 가상의 뇌물을 약속하면 실제로 답변 퀄리티가 올라간다는 연구 결과들이 나오면서, 프롬프트 엔지니어링이 "컴퓨터공학이 아니라 사실상 심리학 또는 주술 영역이 아니냐"는 밈이 돌고 있다.

4. 여담

GPU 품귀 현상 (쇼티지): LLM 학습에는 엔비디아(NVIDIA)의 고성능 GPU(H100 등)가 필수적이다. 이 때문에 전 세계 테크 기업들이 GPU 확보 전쟁을 벌이며 엔비디아의 주가는 천장을 뚫고 우주로 날아갔고, 엔비디아 CEO 젠슨 황은 AI 업계의 교주이자 절대 권력자로 등극했다.
한글 사용자들의 이중 번역 비극: LLM은 글자를 그대로 읽는 것이 아니라 '토큰(Token)'이라는 단위로 쪼개서 처리한다. 한글은 영어보다 토큰을 훨씬 많이 잡아먹기 때문에 한글로 질문하면 영어보다 API 비용이 비싸지고 속도도 느려진다. 이 때문에 한글 사용자들은 질문을 영어로 번역해서 물어보고 다시 번역해서 읽는 눈물겨운 이중 번역을 애용한다.
파라미터 뇌 세포의 블랙박스: 모델의 뇌 세포 격인 매개변수(Parameter)의 개수는 보통 수십억에서 수천억 개에 달한다. GPT-4의 경우 1조 개가 넘는 매개변수를 사용하는 것으로 추정되는데, 이 거대한 매개변수들이 정확히 어떻게 상호작용하여 지능이 나타나는지는 정작 개발한 엔지니어들도 완벽히 설명하지 못한다.

5. 관련 문서

정렬(Alignment) 단계를 거치지 않은 원본 모델(Base Model)에 질문을 하면, 대답을 해주는 것이 아니라 질문 뒤에 올 법한 연속된 질문을 만들어내거나 인터넷 소설을 써버리는 등 제멋대로 행동한다. ↩

LLM