LLM의 기본 원리: ‘다음에 올 단어(토큰) 예측’은 어떻게 작동할까?
대규모 언어 모델(LLM)은 “입력된 문맥을 보고 다음에 올 토큰(token)의 확률분포를 계산한 뒤, 그 분포에서 토큰을 선택해 문장을 이어 쓰는” 거대한 수학적 함수입니다.

I. LLM은 ‘다음 토큰 확률분포’를 출력하는 함수
많은 사람들이 LLM을 “다음 단어를 맞히는 AI”로 이해합니다. 방향은 맞지만, 더 정확히 말하면 LLM은 다음 ‘단어(word)’가 아니라 다음 ‘토큰(token)’을 예측합니다.
1. 토큰(token)이란?
토큰은 문장을 쪼갠 단위입니다. 어떤 때는 단어 전체가 토큰이 되기도 하고, 어떤 때는 접두/접미 같은 조각이 토큰이 되기도 합니다. 공백이나 기호도 토큰이 될 수 있습니다.
단어 기준으로만 나누면 “신조어/외래어/고유명사” 처리가 어렵습니다. 토큰은 조각 단위라서 희귀 단어도 조합으로 표현하기 쉬워져요.
2. 확률분포(probability distribution)
LLM은 “정답 단어 하나”를 확정하는 대신, 다음에 올 수 있는 후보 토큰 각각에 대해 확률을 부여합니다. 즉, 출력은 “한 단어”가 아니라 확률분포입니다.
입력: "오늘 날씨가 정말"
출력(예시):
"좋" : 0.42
"나" : 0.18
"추" : 0.09
...
LLM = 입력 문맥 → 다음 토큰들의 점수(로그릿) → softmax → 확률분포
II. 왜 낮은 확률 단어도 가끔 등장할까? (샘플링)
“모델이 가끔 확률이 낮은 단어를 섞는다”는 말은 상당히 중요합니다. 이것은 모델이 무작정 랜덤하게 굴어서가 아니라, 생성(디코딩) 단계에서 어떤 규칙으로 토큰을 선택하느냐에 달려 있습니다.
1. Temperature(온도)
- 온도 ↑: 분포가 평평해져서 다양한 후보가 더 자주 선택됨 (더 다채롭고 창의적)
- 온도 ↓: 분포가 뾰족해져서 상위 후보 위주 (더 안정적이고 일관)
2. Top-k / Top-p(Nucleus)
- Top-k: 확률이 높은 상위 k개 후보만 남기고 그 안에서 선택
- Top-p: 누적확률 p에 들어오는 후보 집합만 남기고 그 안에서 선택
샘플링을 너무 과격하게 하면 “헛소리”가 늘 수 있고, 너무 보수적으로 하면 “반복/진부함”이 늘 수 있습니다.
III. 문장은 어떻게 완성될까? (오토리그레시브 생성)
LLM의 문장 생성은 매우 단순한 반복입니다. 다만 이 반복을 엄청나게 빠르게 수행하고, 문맥을 잘 보도록 훈련되었을 뿐입니다.
1. 생성 과정(반복 루프)
- 입력 문맥을 넣고 다음 토큰 확률분포를 계산
- 샘플링 규칙(temperature/top-p 등)에 따라 다음 토큰 1개 선택
- 선택된 토큰을 문장 뒤에 붙임
- 종료 토큰(EOS) 또는 길이 제한에 도달할 때까지 반복
프롬프트: "LLM은"
1) 다음 토큰 예측 → "다"
2) "LLM은 다"를 다시 입력 → "음"
3) "LLM은 다음" → " "
4) "LLM은 다음 " → "토"
... 이런 식으로 이어 붙여 문장이 완성됩니다.
IV. 거대한 데이터와 파라미터: “다이얼”의 정체
LLM이 강력해진 가장 큰 이유는 규모(scale)입니다. 더 많은 텍스트로, 더 큰 모델(더 많은 파라미터)을, 더 오랫동안 학습시킨 결과 “언어 패턴”을 매우 정교하게 담아낼 수 있게 됐습니다.
1. 파라미터(매개변수)란?
파라미터는 모델 내부의 수많은 숫자(가중치)입니다. 비유하면 수백억~수천억 개의 미세 조정 다이얼이 있고, 훈련은 이 다이얼을 조금씩 돌려 “다음 토큰을 더 잘 맞히게” 만드는 과정입니다.
파라미터 자체가 “지식의 문장”을 저장하는 게 아니라, 입력이 들어왔을 때 어떤 출력 분포를 만들지 결정하는 “규칙의 압축”이라고 생각하면 이해가 쉽습니다.
2. 학습 데이터(텍스트)는 왜 중요할까?
LLM은 예시를 통해 언어를 배웁니다. 즉, 인터넷/책/문서/코드 등 다양한 텍스트에서 문장 구조, 표현 습관, 지식 조각, 추론 패턴을 통계적으로 흡수합니다.
“많이 읽었다 = 항상 정확하다”는 뜻은 아닙니다. 데이터에 없거나, 데이터가 틀렸거나, 문맥이 부족하면 모델도 틀릴 수 있어요.
V. 모델 훈련 과정: Pre-training → (SFT/RLHF) 정렬
LLM 개발을 크게 나누면 보통 사전훈련(Pre-training)과 정렬(Alignment: SFT/RLHF 등)로 볼 수 있습니다.
1. 사전훈련(Pre-training): 다음 토큰 맞히기
텍스트에서 일부를 가리고 다음 토큰을 맞히게 합니다. 맞히면 보상, 틀리면 벌점(손실)이 생기고, 역전파(Backpropagation)로 가중치가 미세 조정됩니다.
입력: "나는 오늘 커피를"
정답: "마셨다"
→ 모델이 "마셨다" 확률을 높이도록 파라미터를 조금 조정
2. 지도 미세조정(SFT)
“도움 되는 답변”의 예시를 많이 보여주고 그대로 따라 하게 만드는 단계입니다. 질문-답변 형식, 친절한 문장, 특정 작업 수행 방식 등이 이때 강화됩니다.
3. RLHF: 인간 피드백 기반 강화학습
같은 질문에 대한 여러 답변을 놓고 사람이 선호도를 평가하면, 모델은 “더 선호되는 답변”을 내도록 학습합니다. 결과적으로 안전성/유용성/협조성이 개선되는 방향으로 다듬어집니다.
VI. 핵심 기술: 트랜스포머(Transformer)와 어텐션
트랜스포머는 LLM의 폭발적 성장을 만든 구조입니다. 핵심은 어텐션(Attention)입니다. “문장 안에서 무엇을 참고할지”를 학습으로 결정해, 문맥 이해를 훨씬 정교하게 만듭니다.
1. 임베딩(Embedding): 단어를 숫자 벡터로
모델은 문자를 그대로 이해하지 못합니다. 그래서 토큰을 의미/용법이 담긴 숫자 벡터로 바꿔 처리합니다. 이 벡터 공간에서 “유사한 의미”는 가까운 위치에 놓이게 됩니다.
2. 어텐션(Attention): 문장 속 단어들이 서로 참고
예를 들어 “눈”이라는 단어는 문맥에 따라 의미가 달라집니다.
- “눈이 내린다” → 기상 현상
- “눈으로 본다” → 신체 부위
어텐션은 “사전”이 아니라, 문맥에서 중요한 단어를 찾아 가중치를 주는 방식으로 의미를 분리합니다.
3. 피드포워드(Feed-forward): 패턴과 지식을 담는 큰 용량
트랜스포머는 어텐션으로 문맥을 섞고, 피드포워드 네트워크로 비선형 변환을 크게 수행하면서 다양한 언어 패턴을 저장하고 전달합니다. “모델이 커질수록” 성능이 좋아지는 이유 중 하나가 여기에 있습니다.
VII. 결론: “다음 토큰 예측”이 전부인데, 왜 똑똑해 보일까?
LLM의 엔진은 단순합니다. 하지만 규모(데이터+파라미터)와 트랜스포머의 문맥 처리(어텐션), 그리고 정렬(SFT/RLHF)이 결합되면 요약, 번역, 코드 작성, 논리 전개처럼 보이는 능력이 “구성적으로” 나타납니다.
LLM은 그럴듯한 문장을 생성할 수 있지만, 항상 사실을 보장하지는 않습니다. 특히 최신 정보나 정확한 수치/인용은 별도 검증이 필요합니다. 그래서 실무에서는 “LLM을 글쓰기 엔진 + 초안 생성기”로 활용하되, 근거 확인(출처, 데이터, 링크)과 검증 프로세스를 함께 설계하는 것이 가장 현실적인 접근입니다.
VIII. FAQ
Q1. LLM은 ‘이해’하는 건가요, ‘암기’하는 건가요?
둘 중 하나로만 말하기는 어렵습니다. LLM은 “문장을 다음 토큰 예측 문제로 학습”하면서, 결과적으로 언어 패턴과 지식의 단서를 내부 파라미터에 압축해 담습니다. 다만 인간처럼 ‘의식적 이해’를 한다고 단정하긴 어렵고, 입력-출력 관계를 학습한 거대한 함수로 보는 것이 가장 안전합니다.
Q2. 왜 가끔 틀린 말을 확신 있게 하나요?
모델 목표가 “사실 확인”이 아니라 “그럴듯한 다음 토큰”을 생성하는 데 있기 때문입니다. 문맥이 부족하거나 데이터에 근거가 약하면, 확률적으로 자연스러운 문장을 이어붙이며 잘못된 내용을 만들 수 있습니다(환각/헛소리 현상).
Q3. 토큰은 왜 꼭 필요하죠?
토큰화는 희귀어/신조어/고유명사를 더 유연하게 처리하게 해주고, 모델이 다양한 언어와 문자를 다루기 쉽게 만들어줍니다.
Q4. 트랜스포머가 왜 그렇게 중요한가요?
어텐션으로 문맥을 멀리까지 참고할 수 있고(장거리 의존성), 학습 효율(병렬 처리)도 좋아서 “더 큰 모델을 더 빠르게” 학습시키는 길을 열었습니다. 오늘날 대부분의 LLM은 트랜스포머 계열을 기반으로 합니다.
백엔드 개발자의 시선으로 풀어본 LLM 내부 동작 원리: 6단계로 쉽게 이해하기 | 카카오페이 기술
LLM 내부 동작 과정을 설명합니다.
tech.kakaopay.com
IX. 요약(복붙용)
'인공지능' 카테고리의 다른 글
| AI의 아첨 현상(Sycophancy)이란? 챗GPT가 무조건 동의하는 이유와 해결법 (0) | 2026.02.06 |
|---|---|
| “코모도타이즈 LLM”이란? 대형 언어모델을 코모도왕도마뱀에 비유하는 이유 (0) | 2026.02.05 |
| 온디바이스(Edge) 추론 vs 클라우드 추론: 차이점, 장단점, 선택 기준 총정리 (0) | 2026.02.01 |
| 스타트업 관점에서 “학습(Training) vs 추론(Inference)” 어디에 비용을 써야 하는가 (0) | 2026.02.01 |
| GPU vs NPU: 왜 NPU가 추론(Inference)에 강한가? (0) | 2026.01.31 |